La Estadística en la Investigación

Escrito por admin | Categoría: Estadística Aplicada | • 25 de August, 2011 •

Etiquetas: { , , , , }

Este artículo está especialmente dirigido a aquellas personas dedicadas o en camino de dedicarse a trabajos de investigación en muy diversos campos: Ingeniería, Medicina, Economía, Agricultura, Sociología, etc,. En todos ellos, la realidad enseña que la necesidad de cuantificar se presenta siempre en la actividad investigadora.

Simplificando, describiremos dos situaciones básicas que, en la práctica, se combinan entre si dando lugar a situaciones intermedias según sea el grado de predominio de una u otra: La primera corresponde a los casos en que existe una base de datos previa de la que el investigador desea extraer información útil (Análisis Observacional). En la segunda, actuando sobre los factores de posible influencia sobre la variable de respuesta en que está centrada la investigación, se diseñan, planifican y ejecutan experimentos de los que el investigador obtiene unos resultados que, después, debe analizar e interpretar (Diseño y Análisis de Experimentos). En ambas situaciones, la utilización de los Métodos Estadísticos representa una valiosa ayuda.

Un brillante uso de los Métodos Estadísticos no puede suplir las deficiencias existentes en unos datos obtenidos de una fuente sin la suficiente garantía o de un experimento mal concebido. Siempre será preferible a lo anterior utilizar Métodos Estadísticos elementales pero aplicados a datos fiables y a los obtenidos en la experimentación tras una sólida preparación específica en relación con el objeto de la investigación. Sin embargo, serán aún mejores los resultados si combinamos un profundo conocimiento de la materia en estudio con un adecuado nivel de conocimiento en la aplicación de Técnicas Estadísticas.

Desde hace años estamos asistiendo a una creciente implantación de Programas informáticos de aplicaciones estadísticas y a una constante mejora en sus prestaciones: Programas como STATGRAPHICS, SPSS, SAS y otros ofrecen procedimientos muy elaborados que facilitan mucho el uso de las diferentes aplicaciones. No obstante, es preciso conseguir, para su adecuada utilización, una comprensión suficiente de las posibilidades de cada procedimiento. Esto será muy útil, incluso, en el caso de que el investigador cuente con el apoyo de algún tipo de Consultoría Estadística. Resaltar la importancia de la Estadística aplicada a la Investigación no supone descubrir nada nuevo. Los Planes de Estudio de Facultades y Escuelas de Ingenieros incluyen la asignatura de Estadística con contenidos que tratan de adecuarse a las diferentes especialidades. Siempre será conveniente volver a dichos contenidos y ampliarlos en la medida que esto sea necesario. A este efecto, en lo que sigue del presente artículo nos referiremos a las aplicaciones estadísticas que con más frecuencia se utilizan como apoyo en las tareas investigadoras.

En muchas ocasiones, el objeto de la investigación será encontrar y cuantificar relaciones existentes entre las variables que intervienen en el asunto en estudio. En estos casos, el investigador tratará de expresar dichas relaciones mediante el simple cálculo de Coeficientes de Correlación o a través de modelos matemáticos, generalmente modelos de Regresión o de Análisis de la Varianza (ANOVA). En dichos modelos, la variable dependiente o variable de respuesta se expresa, mediante una ecuación lineal, en función de las variables independientes o factores. Si las variables independientes son de tipo continuo (por ejemplo: pesos, longitudes, porcentajes de un determinado componente) tendremos un Modelo de Regresión y si los factores son categóricos (por ejemplo, material clasificable en tres categorías: A, B y C) un Modelo de Análisis de la Varianza.

Los modelos de Análisis de la Varianza detectan diferencias significativas entre los valores medios de las diferentes categorías descomponiendo la variabilidad de los datos según las distintas fuentes de variación existentes en el modelo. Estas fuentes son los efectos de los factores considerados y de sus interacciones. En los modelos de Covarianza coexisten factores continuos y categóricos. Todos estos modelos incluyen un término de error que engloba los efectos de todas las variables que no han sido consideradas en el análisis y cuya magnitud debe ser lo menor posible. El modelo más utilizado es el de Análisis de Regresión. Los restantes: Análisis de la Varianza, Análisis de Covarianza y otros más complejos, pueden también expresarse mediante modelos de Regresión utilizando variables llamadas indicadoras o variables “mudas”. En Economía, son de gran aplicación los modelos econométricos y modelos de series temporales. En el artículo de nuestra Web de 1 Junio 2011 el lector interesado podrá encontrar desarrollado lo referente a la Regresión Lineal Múltiple.

En otras ocasiones utilizando diferentes métodos de Análisis Multivariante, el investigador trata de reducir el número de variables a fin de simplificar y mejorar la interpretación de los datos: Análisis de Componentes Principales y Análisis Factorial o bien pretende clasificarlos y agruparlos: Análisis Discriminante, Regresión Logística y Análisis Cluster. En nuestra Web, con fecha 31 de Enero 2011, hemos presentado estas técnicas agrupadas en el Manual de Análisis Multivariante.

Una aplicación importante de la Estadística es el Diseño Experimental. El Diseño de Experimentos fue inicialmente introducido y desarrollado por R.A. Fisher en los años 1920-1930 aplicándolo a la experimentacíón agrícola. En la investigación industrial han destacado, entre otros, G. Box por su aportación con las Superficies de Respuesta y, más recientemente, G. Taguchi con los Diseños Ortogonales.

En cada experimento se aplica un determinado tratamiento a una unidad experimental (personas, animales, materiales, etc.). Se denomina tratamiento a cada diferente combinación de los factores (variables independientes) cuyo efecto sobre las unidades experimentales queremos estudiar y cuantificar. A este fin, a cada factor asignamos un valor predeterminado, ejecutamos la prueba (el experimento) y registramos el valor obtenido para la variable de respuesta (variable dependiente). El conjunto de los tratamientos planificados constituye el Diseño. Existen muy diversos tipos de diseños, entre ellos destacamos los siguientes: Diseños factoriales, Diseños factoriales fraccionales, Diseños ortogonales y Diseños con mezclas. En los diseños estadísticos de experimentos son principios fundamentales la aleatorización, el bloqueo y la repetición.

Mediante la aleatorización, tanto en el orden de realizar las pruebas como en la asignación de los tratamientos a las unidades experimentales, evitamos la aparición de datos con desviaciones sistemáticas originadas por la dependencia (autocorrelación) que suelen registrar datos obtenidos sucesivamente si no se adopta esta precaución. Dicha autocorrelación puede invalidar algunos procedimientos de análisis de resultados que se usan con posterioridad y que exigen independencia serial entre datos. En definitiva, una correcta aleatorización tiende a equilibrar los efectos de factores desconocidos o de aquellos que, aunque conocidos, no han sido tenidos en cuenta en el diseño.

El bloqueo tiene por objeto reducir el error experimental. Por error experimental se entiende la variabilidad observada en la respuesta al aplicar un mismo tratamiento a las unidades experimentales. Mediante el bloqueo eliminamos la influencia de la variable considerada como bloque. El experimentador no está interesado, en principio, en cuantificar la influencia de la variable bloque, lo que desea cuantificar y comparar son los efectos de los distintos tratamientos. Sin embargo, sabe que la influencia de las variables bloque existe y quiere eliminarla del análisis. Intuitivamente, vemos que aquellas variables que suponen una mayor homogeneidad en las unidades experimentales o en las condiciones de ejecución de los experimentos (edad, sexo, estado salud, lotes de materia prima, tiempo, etc.) pueden ser adecuadas para considerarlas como variables bloque y comparar mejor dentro de cada bloque los efectos de los diferentes tratamientos.

La repetición consiste en realizar completamente de nuevo un experimento, no en repetir mediciones sobre un experimento realizado una sola vez. El objeto de la repetición es obtener una estima del error experimental. Dicha estima será, habitualmente, el patrón de referencia para dictaminar si el efecto de un tratamiento o la diferencia de efectos entre tratamientos es significativa.

Con frecuencia, los experimentadores utilizan métodos sin base estadística. Estos métodos son menos eficientes que los Diseños Experimentales. Por ejemplo, es muy común cuando están en estudio varios factores a distintos niveles cada uno, el procedimiento de establecer como referencia una combinación determinada de factores y modificar en cada nuevo experimento el nivel de un factor manteniendo constantes los restantes en los niveles de la combinación de referencia. Esto no permite descubrir, en el caso de que existan, posibles interacciones entre los factores que se hubieran puesto de manifiesto utilizando un diseño de tipo factorial. También suele ser muy frecuente proceder de forma que, en cada nuevo experimento, se modifica el nivel de uno o varios factores según haya sido el resultado del experimento anterior. Esto, aunque no carente de lógica, tiene el riesgo de prolongar excesivamente el programa de experimentación sin llegar a la combinación de factores óptima. Hubiera sido mejor, por ejemplo, modelar la respuesta y deducir del modelo la combinación óptima. Los Diseños Experimentales están pensados para que con un número dado de pruebas se obtenga la mayor información posible y son, por tanto, los más eficientes y económicos.

Tras el diseño y ejecución de los experimentos se procede al análisis de los resultados que serán la base de las correspondientes conclusiones. Los recursos estadísticos para el Análisis de Experimentos serán, básicamente, los ya mencionados: Análisis de Regresión y Análisis de la Varianza. Junto a ellos son también de utilidad el cálculo de características (media, varianza, desviación típica, etc.) y la elaboración de gráficos sencillos que señalen con claridad los efectos de los factores y de sus interacciones. Entre nuestros cursos, se encuentra el curso de Diseño y Análisis de Experimentos cuyo índice se detalla en la sección de cursos de nuestra Web.

Como punto de consideración final señalamos que tanto en el Análisis Observacional como en el Análisis Experimental, el investigador desea obtener conclusiones válidas no solo para la muestra constituída por los datos objeto de estudio sino que desea generalizarlas al colectivo del que procede la muestra. Para ello debe recurrir a la Estadística de la Inferencia. Las características calculadas sobre muestras (media, varianza, desviación típica, etc.) se denominan estadísticos y las características de los colectivos (poblaciones) parámetros. La Estadística de la Inferencia estima y estudia dichos parámetros mediante Intervalos de Confianza y Contrastes de Hipótesis. El intervalo de confianza de un parámetro queda definido a partir del correspondiente estadístico muestral y lleva asociado a él un nivel de confianza en términos de probabilidad (por ejemplo, 95%). En los Contrastes de Hipótesis se enuncia una hipótesis para el parámetro, llamada hipótesis nula (Ho). Dicha hipótesis será rechazada si no se cumplen las condiciones del contraste. Los contrastes de hipótesis llevan asociados una probabilidad de error (por ejemplo 5%) que se denomina nivel de significación.

En definitiva, mediante la Estadística de la Inferencia el investigador concluirá sobre los parámetros del colectivo en estudio pero cuantificando la probabilidad de error de sus conclusiones. Dicha probabilidad de error se adecuará a la posible repercusión de emitir una conclusión incorrecta. La Estadística de la Inferencia se basa en el estudio de las Distribuciones (Normal, Student, Fisher-Snedecor, etc.) y en la teoría de Probabilidades. Estas materias son tratadas en todos los textos básicos de Métodos Estadísticos.

Si entre la bibliografía hubiera que seleccionar solamente dos títulos, señalaríamos el texto “Design and Analysis of Experiments” de Douglas C. Montgomery así como “Estadística para Investigadores” de Box y Hunter. Por nuestra parte, tenemos previsto ampliar nuestra Web con la publicación periódica de nuevos artículos que confiamos sean de interés y utilidad para la difusión y uso de la Estadística Aplicada como apoyo a la Investigación.

Comentarios (1)

Una página muy clara y buenas explicaciones en los artículos. Un cordial saludo.

Dejar un comentario