MTODOS INFERENCIALES MTODOS INFERENCIALES MTODOS INFERENCIALES MTODOS INFERENCIALES ESTADSTICOS MULTIVARIADOS ESTADSTICOS MULTIVARIADOS ESTADSTICOS MULTIVARIADOS ESTADSTICOS MULTIVARIADOS EN ENTORNOS INFORMTICOS EN ENTORNOS INFORMTICOS EN ENTORNOS INFORMTICOS EN ENTORNOS INFORMTICOS
Dr. Roberto Meyer Prof. Esteban Bulgarella
ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Dr. Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 2
Si un problema es claramente complejo, es decir, en trminos empricos descrito por mas de dos variables, por qu hemos de reducir su anlisis a una sucesin de problemas simples de uno o dos de esas variables, sobre todo cuando se encuentran disponibles mtodos tericos de la estadstica as como herramientas informticas para facilitar el clculo? Nos estaremos perdiendo la oportunidad de evaluar los efectos de las variaciones naturales conjuntas y sus mltiples influencias en su ambiente, precisamente natural. En la mayora de las aplicaciones: biolgicas, sociolgicas, sicolgicas, comerciales, administrativas, etc., los mtodos de la inferencia estadstica clsica recomiendan utilizar elementos experimentales homogneos animales, vegetales, personas, empresas, etc.-. Esta cualidad queda reservada en muchos casos al buen criterio y agudeza del experimentador. En algunos casos lograrlo resulta ms o menos sencillo, en otros la dificultad es creciente. Por ejemplo, hasta donde podr estar seguro el bilogo acerca de la edad cronolgica de cada ejemplar capturado en la naturaleza para ser medido?. El procedimiento en general suele denominarse eliminacin de la influencia de variables secundarias, haciendo mencin a aquellas que no son las variables de inters para el investigador en ese momento.
Los mtodos de anlisis multivariante nos conducirn no slo al anlisis del problema de investigacin y por lo tanto de inters directo para el analista-, sino a realizar una mirada crtica al propio diseo de la investigacin y la forma en que se recogen los datos. Por Anlisis Multivariante se entiende al conjunto de mtodos estadsticos que utilizan medidas mltiples de elementos experimentales sometidos a investigacin por ejemplo, si el elemento experimental es un ejemplar de un animal, las medidas mltiples podran ser: peso, longitud total, longitud total del crneo, edad, sexo, etc.-. Ahora bien, bajo este concepto una primera interpretacin permitira considerar que todo anlisis simultneo de ms de dos variables puede ser considerado Anlisis Multivariante. Sin embargo las dos o mas variables pueden ser una extensin del mismo anlisis univariante, es decir, provenir ellas de la misma distribucin de probabilidad, o del anlisis bivariante correlaciones, anlisis de la varianza, regresiones simples-. En estos casos ms propiamente hablaramos de Anlisis Multivariable. Lo cierto es que ya sea el problema Multivariante o Multivariable, todas las variables debern ser consideradas aleatorias y estar interrelacionados de tal forma que sus diferentes efectos no puedan ser interpretados separadamente con algn sentido. ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Dr. Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 3 CONCEPTOS ELEMENTALES: (a) Valor Terico o Variable Respuesta: Y i = w 1 .X 1 + w 2 .X 2 +.....+ w n .X n
es una combinacin lineal de n variables observadas X i que el investigador selecciona previamente a la realizacin del relevamiento de datos bajo la suposicin que son el conjunto de n variables explicativas que mejor describen el comportamiento del valor terico o variable respuesta u objetivo de la investigacin. Los
w i sern nmeros reales, factores de ponderacin, que quedarn determinados por uso de los datos de la muestra al azar y aplicacin de un determinado mtodo multivariante. Pueden considerarse en algunos problemas varios valores tericos. (b) Escalas de Medidas: Se consideran dos tipos elementales (1) no mtricas datos cualitativos-, (2) mtricas datos cuantitativos-. A su vez, las medidas no mtricas pueden clasificarse en nominales u ordinales. Mientras que las medidas mtricas se clasifican genricamente en de intervalo y de razn.
TIPOS DE MTODOS MULTIVARIANTES: (a) Componentes principales y anlisis factorial comn: Se utiliza para analizar interrelaciones entre un gran nmero de variables y explicar estas variables en trminos de sus dimensiones subyacentes comunes denominadas factores-. Se busca reducir el nmero de dimensiones variables- del problema cuantitativo en un conjunto ms pequeo factores- con prdida mnima de informacin. Por ejemplo, el investigador puede recoger, digamos, 45 medidas distintas del crneo de un ejemplar, y luego estar interesado en utilizar slo aquellas que, por grupos o factores, dominen al resto. El problema se presenta como un conjunto de n variables observadas, las que se analizan para producir un conjunto de m (m < n) factores representativos del total n. La identificacin de las escalas utilizadas para el tratamiento de la medida de las variables dependientes valor terico- como de las independientes variables observadas- es importante ya que sern el factor por el cual se determinar cul mtodo multivariante se est en condiciones de utilizar para el anlisis de los datos. ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Dr. Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 4 (b) Regresin Mltiple: Si adems de las n variables observadas anteriores, incluimos en el problema una nica variable dependiente mtrica, se puede estudiar la influencia de cada una y/o todas las variables independientes observadas sobre esta nica variable. Esto permite tambin arribar a predicciones respecto a los cambios en el valor terico mtrico en respuesta a cambios en las variables explicativas. Por ejemplo, si cuento con un nmero n de medidas del crneo de toninas overas, y adems la longitud total de cada ejemplar, puedo estar en condiciones de estimar de que manera cada medida de crneo influye en la longitud total del ejemplar, como as tambin cules de esas medidas explicativas parecen tener una mayor influencia en la mencionada longitud total. Posteriormente puedo estimar la longitud total del ejemplar a partir de los datos muestrales recogidos de las variables que tienen esa mayor influencia sobre la variable dependiente. (c) Anlisis Discriminante Mltiple: Se aplica cuando el problema involucra a una variable dependiente al menos dicotmica y varias variables independientes mtricas como la regresin mltiple-. El objetivo principal es comprender las diferencias entre los grupos que determinan las categoras de la variable dependiente, y predecir la probabilidad de que un individuo relevado pertenezca a un grupo en particular. Por ejemplo, se puede predecir con una cierta probabilidad si un ejemplar de crneo pertenece o no a una hembra o a un macho en base a determinadas medidas del mismo. (d) Anlisis Multivariante de la varianza y covarianza: Mtodo utilizado para explorar las diferencias entre las categoras de dos o ms variables dependientes llamadas tratamientos- y dos o ms variables mtricas relevadas para cada grupo o categora de variables independientes (Manova). Si el problema incluye una o ms variables independientes no controladas, su efecto puede eliminarse mediante el Mancova anlisis de covarianza-. Por ejemplo, se pueden verificar diferencias en el comportamiento de cras machos y/o hembras- y sus madres o padres- de acuerdo con las distancias entre ellos, o las distancias del grupo al observador, o de las distancias del grupo a la costa, etc. (e) Correlacin Cannica: es una extensin al caso de varias variables dependientes mtricas y varias variables independientes tambin mtricas. Es decir, es una extensin de la regresin mltiple. El objetivo es maximizar la ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Dr. Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 5 correlacin en cada conjunto de variables dependientes e independientes-. Por ejemplo, si tengo datos de longitud total de toninas y longitud total de crneo, como medidas dependientes, y varias medidas parciales del propio crneo, puedo estar interesado como investigador en analizar la correlacin entre las longitudes totales y las medidas parciales del crneo. Se puede extender a variables no mtricas. (f) Anlisis de Cluster: Es un mtodo utilizado para identificar grupos. A diferencia del anlisis discriminante los grupos no estn predefinidos. Se necesitan por lo tanto al menos una variable dependiente al menos dicotmica y varias variables independientes mtricas. Este mtodo se utiliza complementariamente y en forma previa- al anlisis discriminante. Por ejemplo, se puede estar interesado en agrupar medidas de longitudes parciales de crneos para formar grupos. Estos grupos debern finalmente identificar las medidas parciales de crneos segn sexo o edad de los ejemplares. (g) Anlisis de Correspondencias: Es un mtodo para estudiar relaciones entre categoras de dos variables mtricas o no mtricas. Para comprenderlo se debe pensar en una tabla de contingencia de doble entrada. El anlisis de correspondencia permitir analizar la similaridad o correspondencia entre las distintas categoras de las dos variables. La mayor utilidad de este mtodo es proporcionar una representacin multidimensional de variables no mtricas.
CLASIFICACIN DE MTODOS MULTIVARIANTES: Tanto para lograr una clasificacin de los mtodos multivariantes como para analizar cul ha de ser el mtodo de anlisis estadstico multivariante que ha de aplicar, tres preguntas deben responderse: pueden dividirse las variables involucradas en el problema en dependientes o independientes? Si puede hacerse, cuntas de stas variables son dependientes? cules son las escalas de las variables del problema? ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 6 CLASIFICACIN DE MTODOS: SI (DEPENDENCIA) NO (INTERDEPENDENCIA)
Varias Una
Variables Datos o casos
Mtricas No mtricas
MTRICAS NO MTRICAS
Existen variables dependientes? Cantas son las variables dependientes? Cal es la Escala de las Variables Dependientes? ANLISIS DE CORRELACIN CANNICA CON VARIABLES FICTICIAS Cul es la Escala de las variables independientes? ANLISIS DE CORRELACIN CANNICA ANLISIS MULTIVARIANTE DE VARIANZA Cal es la Escala de las Variables Dependientes? REGRESIN MLTIPLE ANLISIS DISCRIMINANTE El inters se centra en la estructura de los datos o las variables?
ANLISIS FACTORIAL
ANLISIS CLUSTER Cul es la Escala de las Variables?
ANLISIS MULTIDI MEN- SIONAL
ANLISIS DE CORRESPON DENCIAS ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 7
ESTRUCTURA DEL MODELO MATEMTICO DE LOS MTODOS DE ANLISIS MULTIVARIANTE CON VARIABLES DEPENDIENTES:
MTODO MULTIVARIANTE
MODELO MATEMTICO CON VARIABLE DEPENDIENTE Tipo de Variables -
Anlisis de Correlacin Cannica
Y 1 + Y 2 + Y 3 ...+ Y n = X 1 + X 2 + X 3 .+ X n
(mtrica, no mtrica) (mtrica, no mtrica)
Anlisis multivariante de la Varianza
Y 1 + Y 2 + Y 3 ...+ Y n = X 1 + X 2 + X 3 .+ X n
(mtrica) (no mtrica)
Anlisis de la varianza
Y 1 = X 1 + X 2 + X 3 .+ X n
(mtrica) (no mtrica)
Anlisis Discriminante
Y 1 = X 1 + X 2 + X 3 .+ X n
(no mtrica) (mtrica)
Anlisis de Regresin Mltiple
Y 1 = X 1 + X 2 + X 3 .+ X n
(mtrica) (mtrica, no mtrica)
ORIENTACIONES PARA EL ANLISIS MULTIVARIANTE Y SU INTERPRETACIN: Una caracterstica relevante del anlisis multivariante resulta ser su versatilidad y cantidad variada de mtodos al alcance del investigador. Sin embargo stas caractersticas que pueden considerarse ventajosas a menudo tornan la situacin tan compleja que dificultan finalmente la interpretacin de los resultados. En otras palabras, en el proceso de identificacin del tipo de anlisis a utilizar por parte del investigador sobre todo cuando el diseo de la investigacin no tuvo en cuenta el tipo de anlisis estadstico a realizar posteriormente, como ocurre en incontables investigaciones- puede llevarlo a confusiones y/o tergiversaciones del verdadero significado de los datos, sobre todo cuando no se acompaa del necesario anlisis conceptual.
Significacin Estadstica versus Significacin prctica. Resulta ser el primer peligro a enfrentar. Por significacin estadstica entenderemos como siempre a la validacin estadstica lograda mediante la aplicacin de un mtodo multivariante. Un ejemplo sencillo de esto se ilustra con un test t simple en el caso univariante-. El test puede dar un resultado significativo en el sentido de rechazar la hiptesis de nulidad hiptesis a prueba- y sin embargo sta puede carecer de significado prctico en el contexto del problema terico en donde se inserta el proceso estadstico. Por ejemplo, se pueden ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 8 encontrar diferencias en un manova entre los grupos de toninas adultas y cras, machos y hembras, respectivamente, cuando se comparan los dos pares de grupos hembra adulta- macho adulto, cra hembra-cra macho, teniendo en cuenta variable mtricas tales como distancia entre los ejemplares o distancia de los ejemplares al observador. Sin embargo estas diferencias pueden carecer de significacin si el diseo previo y la teora del problema- no nos dan indicios para la bsqueda de estas diferencias.
Tamao muestral. En todos los problemas multivariantes, el tamao de la muestra ha sido seleccionado teniendo en cuenta diversos argumentos, entre ellos el principal tiene que ver con la consideracin de la variable de mayor variabilidad entre aquellas que se tienen en cuenta en el relevamiento de los datos. Otros criterios se tienen en cuenta generalmente, tales como tiempo y costo. Sin embargo, a menudo el activismo que gana a los investigadores en su bsqueda de resultados estadsticamente significativos, genera el deseo de cruzamientos de variables que en el diseo de la investigacin no estaban previstos y que logran empequeecer el tamao muestral lo suficiente como para tornar imprecisa e intil por lo tanto la estimacin.
Conocimiento de los datos. En referencia al necesario Anlisis Exploratorio de los mismos para detectar valores atpicos, valores perdidos, violaciones a los supuestos bsicos del anlisis estadstico paramtrico, etc. Esto lleva al conocimiento de un conjunto de tcnicas de diagnstico que deben acompaar siempre la aplicacin de mtodos de anlisis multivariante.
Respetar el principio de Parsimonia del modelo. Siempre que se pretenda aplicar un mtodo de anlisis estadstico multivariante, debe especificarse claramente antes el modelo terico que lo sustenta. Con ello se evitan una serie de problemas: (a) la omisin de variables predictoras crticas, llamado error de especificacin; (b) la inclusin de variables irrelevantes que si bien logran un efecto ilusorio de ajustamiento de los datos de la muestra, implican luego un nivel de generalizacin imposible a poblacin de datos alguna. Adems las variables irrelevantes traen consigo otro problema adicional, la multicolinealidad que genera un enmascaramiento de los efectos verdaderos sobre las variables relevantes. La multicolinealidad representa el grado o nivel con que la variabilidad de cualquier variable relevante puede ser prevista o explicada por otras variables presentes en el diseo y anlisis. Por ejemplo, si mi deseo es lograr un modelo lineal que permita estimar la longitud total de ejemplares de toninas en funcin de muchas medidas del crneo del animal, es posible que varias de las medidas del crneo muestren un grado de correlacin muy alto, y por lo tanto no sea necesaria la presencia de todas ellas en el modelo.
Considerar siempre el tamao de los errores y el principio de validacin de los resultados. Siempre que se logre un resultado estadsticamente significativo deber tenerse en cuenta el tamao del error de estimacin, puesto que si el error de la estimacin es muy grande torna a la misma poco precisa y por lo tanto poco til. Por ejemplo, cul sera la utilidad del modelo de estimacin de la longitud total de las toninas en funcin de variables explicativas que recogen distintas medidas del crneo de los animales, si finalmente la estimacin lograda para un animal en particular es: 2,56 mts. 1,5 mts al 99% de confianza?. Luego tenemos el tema de la validacin del modelo. Siempre se deber tener en cuenta que lo que se est buscando es la estimacin de un modelo para su generalizacin a un conjunto mayor de datos poblacin-, y no slo aquel que responda bien al comportamiento de los datos de la muestra. La validacin del conocimiento ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 9 estadstico se logra con sucesivas pruebas que en conjunto demuestren que los resultados son vlidos cada vez o por lo menos para la mayor cantidad de pruebas. Es decir, se logra conocimiento cientfico en la medida que el investigador logra una acumulacin de resultados de las pruebas que lo llevan unvocamente en el sentido que finalmente constituir el conocimiento cientfico. Esto no necesariamente significa que debern obtenerse muestras sucesivas y repetidas para el mismo problema lo cual tornara quizs muy costosa la investigacin-, sino que pueden utilizarse submuestras para estimar el modelo y otra submuestra para validar su potencial predictivo.
ORGANIZACIN DEL ANLISIS MULTIVARIANTE: Se sigue una serie de pasos a tener en cuenta en la organizacin del diseo experimental que llevar al investigador a obtener evidencias que le permitan estimar el modelo de comportamiento de sus datos y la obtencin por lo tanto de conocimiento cientfico para resolver el problema de su inters: 1. Definir el problema de investigacin, objetivos y tcnica multivariante conveniente. Es el punto de partida. Lamentablemente aquel activismo que mencionamos en los investigadores, inducido por la versatibilidad y variada gama de los mtodos estadsticos multivariantes, hace que a menudo los datos se obtengan antes de reflexionar sobre estas cuestiones. 2. Desarrollo del proyecto de anlisis. En referencia al tamao de muestra mnimo que la aplicacin del modelo y mtodo de anlisis multivariante requiere, y por lo tanto la identificacin del tipo de variable mtrica o no mtrica-, etc. que sern necesarias para la utilizacin del modelo y mtodo seleccionado en el paso previo. 3. Evaluacin de los supuestos bsicos de la tcnica multivariante. Una vez recogido los datos, el primer anlisis no es la aplicacin del mtodo multivariante, sino la evaluacin de los supuestos bsicos subyacentes al enfoque paramtrico del mtodo en general son: (a) normalidad multivariante, (b) linealidad, (c) independencia de los trminos de error, (d) igualdad de las varianzas en una relacin de dependencia-. Adems cada modelo y mtodo tiene supuestos conceptuales que deben tenerse en cuenta a la hora de validar la aplicacin. 4. Estimacin del modelo multivariante y valoracin del ajuste del modelo. Se procede a la aplicacin del mtodo y consecuentemente a la estimacin del modelo. Sin embargo all comienza otra etapa del anlisis que consiste en la valoracin del ajuste logrado. Para ello se tendr en cuenta entre otras cosas especficas para cada mtodo: niveles de significacin logrados para la estimacin de cada parmetro del modelo, determinacin del grado o nivel de afectacin o estabilidad del modelo por la presencia de grupos de datos de comportamiento distinto atpicos- al resto. Esto nos asegura que el modelo estimado sea robusto a los cambios en los datos. 5. Interpretar el valor terico. El objetivo es identificar la evidencia emprica de las relaciones multivariantes de los datos muestrales que pueden generalizarse para el total de la poblacin. Esto conduce, por ejemplo, a la interpretacin de los efectos individuales de las variables incluidas en el modelo, a partir de los coeficientes de ponderacin estimados. 6. Validacin del modelo multivariante. Consiste en someter al modelo estimado a un conjunto de pruebas diagnsticas para asegurar el nivel de generalidad de los resultados logrados.
Los anteriores pasos debern ser interpretados como una gua para la aplicacin del anlisis multivariante, aunque todava no se est en condiciones de lograr una comprensin acabada de su significado. Todo lo desarrollado hasta aqu ser reinterpretado a medida que se desarrollen los mtodos y se presenten las situaciones prcticas concretas. ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral 10 8 ANEXO
Las variables podrn ser dependientes o independientes, mtricas o no mtricas. Los casos deben identificarse correctamente. Los casos son las unidades experimentales elementales que se eligen al azar para luego ser medidas u observadas segn las n variables que se han elegido. Si tomo medidas de yacars, el caso est compuesto por las n medidas que se han elegido para caracterizar al yacar:
caso 1 (yacar n 1): (X11, X12.....................X1n) = (2.3, 4.5............................7.8) por ejemplo, ser la primera fila de la matriz arriba.
Si me interesa determinar las caractersticas de la flora algunas especies presentes- en distintos lugares y momentos, la unidad elemental que se observa es: lugar x momento. Por ejemplo:
caso 1 (flora): (lugar momento densidad 1 densidad 2 ..................densidad n).
La unidad experimental elemental puede variar para un mismo problema de acuerdo a lo que se desee analizar. No es aconsejable intentar observar relaciones cambiando la unidad experimental elemental sin que esa circunstancia haya sido planificada de antemano. X11 X12 X13.............................................................X1n X21 X22 ....................................................................X2n . . . . . . . . .