Vous êtes sur la page 1sur 11

Facultad de Ciencias Econmicas

Universidad Nacional del Litoral


Seminario Optativo / Electivo 2007















MTODOS INFERENCIALES MTODOS INFERENCIALES MTODOS INFERENCIALES MTODOS INFERENCIALES
ESTADSTICOS MULTIVARIADOS ESTADSTICOS MULTIVARIADOS ESTADSTICOS MULTIVARIADOS ESTADSTICOS MULTIVARIADOS
EN ENTORNOS INFORMTICOS EN ENTORNOS INFORMTICOS EN ENTORNOS INFORMTICOS EN ENTORNOS INFORMTICOS



















Dr. Roberto Meyer
Prof. Esteban Bulgarella




ESTADSTICA II INTRODUCCIN AL ANLISIS
MULTIVARIANTE PARTE I -

Prof. Titular Dr. Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
2






Si un problema es claramente complejo, es decir, en trminos empricos descrito
por mas de dos variables, por qu hemos de reducir su anlisis a una sucesin de
problemas simples de uno o dos de esas variables, sobre todo cuando se encuentran
disponibles mtodos tericos de la estadstica as como herramientas informticas
para facilitar el clculo? Nos estaremos perdiendo la oportunidad de evaluar los
efectos de las variaciones naturales conjuntas y sus mltiples influencias en su
ambiente, precisamente natural.
En la mayora de las aplicaciones: biolgicas, sociolgicas, sicolgicas, comerciales,
administrativas, etc., los mtodos de la inferencia estadstica clsica recomiendan
utilizar elementos experimentales homogneos animales, vegetales, personas,
empresas, etc.-. Esta cualidad queda reservada en muchos casos al buen criterio y
agudeza del experimentador. En algunos casos lograrlo resulta ms o menos
sencillo, en otros la dificultad es creciente. Por ejemplo, hasta donde podr estar
seguro el bilogo acerca de la edad cronolgica de cada ejemplar capturado en la
naturaleza para ser medido?. El procedimiento en general suele denominarse
eliminacin de la influencia de variables secundarias, haciendo mencin a
aquellas que no son las variables de inters para el investigador en ese momento.











Los mtodos de anlisis multivariante nos conducirn no slo al anlisis del problema
de investigacin y por lo tanto de inters directo para el analista-, sino a realizar una
mirada crtica al propio diseo de la investigacin y la forma en que se recogen los
datos.
Por Anlisis Multivariante se entiende al conjunto de mtodos estadsticos que utilizan
medidas mltiples de elementos experimentales sometidos a investigacin por ejemplo,
si el elemento experimental es un ejemplar de un animal, las medidas mltiples podran
ser: peso, longitud total, longitud total del crneo, edad, sexo, etc.-. Ahora bien, bajo
este concepto una primera interpretacin permitira considerar que todo anlisis
simultneo de ms de dos variables puede ser considerado Anlisis Multivariante. Sin
embargo las dos o mas variables pueden ser una extensin del mismo anlisis
univariante, es decir, provenir ellas de la misma distribucin de probabilidad, o del
anlisis bivariante correlaciones, anlisis de la varianza, regresiones simples-. En
estos casos ms propiamente hablaramos de Anlisis Multivariable.
Lo cierto es que ya sea el problema Multivariante o Multivariable, todas las variables
debern ser consideradas aleatorias y estar interrelacionados de tal forma que sus
diferentes efectos no puedan ser interpretados separadamente con algn sentido.
ESTADSTICA II INTRODUCCIN AL ANLISIS
MULTIVARIANTE PARTE I -

Prof. Titular Dr. Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
3
CONCEPTOS ELEMENTALES:
(a) Valor Terico o Variable Respuesta: Y
i
= w
1
.X
1
+ w
2
.X
2
+.....+ w
n
.X
n

es una combinacin lineal de n variables observadas X
i
que el
investigador selecciona previamente a la realizacin del relevamiento de
datos bajo la suposicin que son el conjunto de n variables explicativas
que mejor describen el comportamiento del valor terico o variable
respuesta u objetivo de la investigacin. Los

w
i
sern nmeros reales,
factores de ponderacin, que quedarn determinados por uso de los datos
de la muestra al azar y aplicacin de un determinado mtodo
multivariante. Pueden considerarse en algunos problemas varios valores
tericos.
(b) Escalas de Medidas: Se consideran dos tipos elementales (1) no
mtricas datos cualitativos-, (2) mtricas datos cuantitativos-. A su
vez, las medidas no mtricas pueden clasificarse en nominales u
ordinales. Mientras que las medidas mtricas se clasifican genricamente
en de intervalo y de razn.





TIPOS DE MTODOS MULTIVARIANTES:
(a) Componentes principales y anlisis factorial comn: Se utiliza para analizar
interrelaciones entre un gran nmero de variables y explicar estas variables en
trminos de sus dimensiones subyacentes comunes denominadas factores-. Se
busca reducir el nmero de dimensiones variables- del problema cuantitativo en
un conjunto ms pequeo factores- con prdida mnima de informacin. Por
ejemplo, el investigador puede recoger, digamos, 45 medidas distintas del
crneo de un ejemplar, y luego estar interesado en utilizar slo aquellas que, por
grupos o factores, dominen al resto. El problema se presenta como un conjunto
de n variables observadas, las que se analizan para producir un conjunto de m (m
< n) factores representativos del total n.
La identificacin de las escalas utilizadas para el tratamiento de la medida de
las variables dependientes valor terico- como de las independientes
variables observadas- es importante ya que sern el factor por el cual se
determinar cul mtodo multivariante se est en condiciones de utilizar para el
anlisis de los datos.
ESTADSTICA II INTRODUCCIN AL ANLISIS
MULTIVARIANTE PARTE I -

Prof. Titular Dr. Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
4
(b) Regresin Mltiple: Si adems de las n variables observadas anteriores,
incluimos en el problema una nica variable dependiente mtrica, se puede
estudiar la influencia de cada una y/o todas las variables independientes
observadas sobre esta nica variable. Esto permite tambin arribar a
predicciones respecto a los cambios en el valor terico mtrico en respuesta a
cambios en las variables explicativas. Por ejemplo, si cuento con un nmero n
de medidas del crneo de toninas overas, y adems la longitud total de cada
ejemplar, puedo estar en condiciones de estimar de que manera cada medida de
crneo influye en la longitud total del ejemplar, como as tambin cules de esas
medidas explicativas parecen tener una mayor influencia en la mencionada
longitud total. Posteriormente puedo estimar la longitud total del ejemplar a
partir de los datos muestrales recogidos de las variables que tienen esa mayor
influencia sobre la variable dependiente.
(c) Anlisis Discriminante Mltiple: Se aplica cuando el problema involucra a una
variable dependiente al menos dicotmica y varias variables independientes
mtricas como la regresin mltiple-. El objetivo principal es comprender las
diferencias entre los grupos que determinan las categoras de la variable
dependiente, y predecir la probabilidad de que un individuo relevado pertenezca
a un grupo en particular. Por ejemplo, se puede predecir con una cierta
probabilidad si un ejemplar de crneo pertenece o no a una hembra o a un macho
en base a determinadas medidas del mismo.
(d) Anlisis Multivariante de la varianza y covarianza: Mtodo utilizado para
explorar las diferencias entre las categoras de dos o ms variables dependientes
llamadas tratamientos- y dos o ms variables mtricas relevadas para cada
grupo o categora de variables independientes (Manova). Si el problema incluye
una o ms variables independientes no controladas, su efecto puede eliminarse
mediante el Mancova anlisis de covarianza-. Por ejemplo, se pueden verificar
diferencias en el comportamiento de cras machos y/o hembras- y sus madres
o padres- de acuerdo con las distancias entre ellos, o las distancias del grupo al
observador, o de las distancias del grupo a la costa, etc.
(e) Correlacin Cannica: es una extensin al caso de varias variables
dependientes mtricas y varias variables independientes tambin mtricas. Es
decir, es una extensin de la regresin mltiple. El objetivo es maximizar la
ESTADSTICA II INTRODUCCIN AL ANLISIS
MULTIVARIANTE PARTE I -

Prof. Titular Dr. Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
5
correlacin en cada conjunto de variables dependientes e independientes-. Por
ejemplo, si tengo datos de longitud total de toninas y longitud total de crneo,
como medidas dependientes, y varias medidas parciales del propio crneo,
puedo estar interesado como investigador en analizar la correlacin entre las
longitudes totales y las medidas parciales del crneo. Se puede extender a
variables no mtricas.
(f) Anlisis de Cluster: Es un mtodo utilizado para identificar grupos. A
diferencia del anlisis discriminante los grupos no estn predefinidos. Se
necesitan por lo tanto al menos una variable dependiente al menos dicotmica y
varias variables independientes mtricas. Este mtodo se utiliza
complementariamente y en forma previa- al anlisis discriminante. Por
ejemplo, se puede estar interesado en agrupar medidas de longitudes parciales
de crneos para formar grupos. Estos grupos debern finalmente identificar las
medidas parciales de crneos segn sexo o edad de los ejemplares.
(g) Anlisis de Correspondencias: Es un mtodo para estudiar relaciones entre
categoras de dos variables mtricas o no mtricas. Para comprenderlo se debe
pensar en una tabla de contingencia de doble entrada. El anlisis de
correspondencia permitir analizar la similaridad o correspondencia entre las
distintas categoras de las dos variables. La mayor utilidad de este mtodo es
proporcionar una representacin multidimensional de variables no mtricas.


CLASIFICACIN DE MTODOS MULTIVARIANTES:
Tanto para lograr una clasificacin de los mtodos multivariantes como para
analizar cul ha de ser el mtodo de anlisis estadstico multivariante que ha de
aplicar, tres preguntas deben responderse:
pueden dividirse las variables involucradas en el problema en
dependientes o independientes?
Si puede hacerse, cuntas de stas variables son dependientes?
cules son las escalas de las variables del problema?
ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE PARTE I -

Prof. Titular Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
6
CLASIFICACIN DE MTODOS:
SI (DEPENDENCIA) NO (INTERDEPENDENCIA)





Varias Una


Variables Datos o casos

Mtricas No mtricas







MTRICAS NO MTRICAS















Existen
variables
dependientes?
Cantas son
las variables
dependientes?
Cal es la
Escala de las
Variables
Dependientes?
ANLISIS DE
CORRELACIN
CANNICA CON
VARIABLES
FICTICIAS
Cul es la
Escala de las
variables
independientes?
ANLISIS DE
CORRELACIN
CANNICA
ANLISIS
MULTIVARIANTE
DE VARIANZA
Cal es la
Escala de las
Variables
Dependientes?
REGRESIN
MLTIPLE
ANLISIS
DISCRIMINANTE
El inters se
centra en la
estructura de los
datos o las
variables?


ANLISIS
FACTORIAL


ANLISIS
CLUSTER
Cul es la
Escala de las
Variables?


ANLISIS
MULTIDI
MEN-
SIONAL


ANLISIS DE
CORRESPON
DENCIAS
ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE
PARTE I -

Prof. Titular Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
7


ESTRUCTURA DEL MODELO MATEMTICO DE LOS MTODOS DE ANLISIS
MULTIVARIANTE CON VARIABLES DEPENDIENTES:



MTODO MULTIVARIANTE


MODELO MATEMTICO CON VARIABLE
DEPENDIENTE Tipo de Variables -

Anlisis de Correlacin
Cannica


Y
1
+ Y
2
+ Y
3
...+ Y
n
= X
1
+ X
2
+ X
3
.+ X
n

(mtrica, no mtrica) (mtrica, no mtrica)

Anlisis multivariante de la
Varianza


Y
1
+ Y
2
+ Y
3
...+ Y
n
= X
1
+ X
2
+ X
3
.+ X
n

(mtrica) (no mtrica)

Anlisis de la varianza


Y
1
= X
1
+ X
2
+ X
3
.+ X
n

(mtrica) (no mtrica)

Anlisis Discriminante


Y
1
= X
1
+ X
2
+ X
3
.+ X
n

(no mtrica) (mtrica)


Anlisis de Regresin Mltiple


Y
1
= X
1
+ X
2
+ X
3
.+ X
n

(mtrica) (mtrica, no mtrica)



ORIENTACIONES PARA EL ANLISIS MULTIVARIANTE Y SU
INTERPRETACIN:
Una caracterstica relevante del anlisis multivariante resulta ser su versatilidad y
cantidad variada de mtodos al alcance del investigador. Sin embargo stas caractersticas
que pueden considerarse ventajosas a menudo tornan la situacin tan compleja que
dificultan finalmente la interpretacin de los resultados. En otras palabras, en el proceso
de identificacin del tipo de anlisis a utilizar por parte del investigador sobre todo
cuando el diseo de la investigacin no tuvo en cuenta el tipo de anlisis estadstico a
realizar posteriormente, como ocurre en incontables investigaciones- puede llevarlo a
confusiones y/o tergiversaciones del verdadero significado de los datos, sobre todo
cuando no se acompaa del necesario anlisis conceptual.

Significacin Estadstica versus Significacin prctica. Resulta ser el primer peligro
a enfrentar. Por significacin estadstica entenderemos como siempre a la validacin
estadstica lograda mediante la aplicacin de un mtodo multivariante. Un ejemplo
sencillo de esto se ilustra con un test t simple en el caso univariante-. El test puede dar
un resultado significativo en el sentido de rechazar la hiptesis de nulidad hiptesis a
prueba- y sin embargo sta puede carecer de significado prctico en el contexto del
problema terico en donde se inserta el proceso estadstico. Por ejemplo, se pueden
ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE
PARTE I -

Prof. Titular Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
8
encontrar diferencias en un manova entre los grupos de toninas adultas y cras, machos y
hembras, respectivamente, cuando se comparan los dos pares de grupos hembra adulta-
macho adulto, cra hembra-cra macho, teniendo en cuenta variable mtricas tales como
distancia entre los ejemplares o distancia de los ejemplares al observador. Sin embargo
estas diferencias pueden carecer de significacin si el diseo previo y la teora del
problema- no nos dan indicios para la bsqueda de estas diferencias.

Tamao muestral. En todos los problemas multivariantes, el tamao de la muestra ha
sido seleccionado teniendo en cuenta diversos argumentos, entre ellos el principal tiene
que ver con la consideracin de la variable de mayor variabilidad entre aquellas que se
tienen en cuenta en el relevamiento de los datos. Otros criterios se tienen en cuenta
generalmente, tales como tiempo y costo. Sin embargo, a menudo el activismo que gana a
los investigadores en su bsqueda de resultados estadsticamente significativos, genera el
deseo de cruzamientos de variables que en el diseo de la investigacin no estaban
previstos y que logran empequeecer el tamao muestral lo suficiente como para tornar
imprecisa e intil por lo tanto la estimacin.

Conocimiento de los datos. En referencia al necesario Anlisis Exploratorio de los
mismos para detectar valores atpicos, valores perdidos, violaciones a los supuestos
bsicos del anlisis estadstico paramtrico, etc. Esto lleva al conocimiento de un
conjunto de tcnicas de diagnstico que deben acompaar siempre la aplicacin de
mtodos de anlisis multivariante.

Respetar el principio de Parsimonia del modelo. Siempre que se pretenda aplicar un
mtodo de anlisis estadstico multivariante, debe especificarse claramente antes el
modelo terico que lo sustenta. Con ello se evitan una serie de problemas: (a) la omisin
de variables predictoras crticas, llamado error de especificacin; (b) la inclusin de
variables irrelevantes que si bien logran un efecto ilusorio de ajustamiento de los datos de
la muestra, implican luego un nivel de generalizacin imposible a poblacin de datos
alguna. Adems las variables irrelevantes traen consigo otro problema adicional, la
multicolinealidad que genera un enmascaramiento de los efectos verdaderos sobre las
variables relevantes. La multicolinealidad representa el grado o nivel con que la
variabilidad de cualquier variable relevante puede ser prevista o explicada por otras
variables presentes en el diseo y anlisis. Por ejemplo, si mi deseo es lograr un modelo
lineal que permita estimar la longitud total de ejemplares de toninas en funcin de muchas
medidas del crneo del animal, es posible que varias de las medidas del crneo muestren
un grado de correlacin muy alto, y por lo tanto no sea necesaria la presencia de todas
ellas en el modelo.

Considerar siempre el tamao de los errores y el principio de validacin de los
resultados. Siempre que se logre un resultado estadsticamente significativo deber
tenerse en cuenta el tamao del error de estimacin, puesto que si el error de la estimacin
es muy grande torna a la misma poco precisa y por lo tanto poco til. Por ejemplo, cul
sera la utilidad del modelo de estimacin de la longitud total de las toninas en funcin de
variables explicativas que recogen distintas medidas del crneo de los animales, si
finalmente la estimacin lograda para un animal en particular es: 2,56 mts. 1,5 mts al
99% de confianza?. Luego tenemos el tema de la validacin del modelo. Siempre se
deber tener en cuenta que lo que se est buscando es la estimacin de un modelo para su
generalizacin a un conjunto mayor de datos poblacin-, y no slo aquel que responda
bien al comportamiento de los datos de la muestra. La validacin del conocimiento
ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE
PARTE I -

Prof. Titular Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
9
estadstico se logra con sucesivas pruebas que en conjunto demuestren que los resultados
son vlidos cada vez o por lo menos para la mayor cantidad de pruebas. Es decir, se logra
conocimiento cientfico en la medida que el investigador logra una acumulacin de
resultados de las pruebas que lo llevan unvocamente en el sentido que finalmente
constituir el conocimiento cientfico. Esto no necesariamente significa que debern
obtenerse muestras sucesivas y repetidas para el mismo problema lo cual tornara quizs
muy costosa la investigacin-, sino que pueden utilizarse submuestras para estimar el
modelo y otra submuestra para validar su potencial predictivo.

ORGANIZACIN DEL ANLISIS MULTIVARIANTE: Se sigue una serie de pasos a tener
en cuenta en la organizacin del diseo experimental que llevar al investigador a obtener
evidencias que le permitan estimar el modelo de comportamiento de sus datos y la obtencin por
lo tanto de conocimiento cientfico para resolver el problema de su inters:
1. Definir el problema de investigacin, objetivos y tcnica multivariante conveniente. Es el
punto de partida. Lamentablemente aquel activismo que mencionamos en los
investigadores, inducido por la versatibilidad y variada gama de los mtodos estadsticos
multivariantes, hace que a menudo los datos se obtengan antes de reflexionar sobre estas
cuestiones.
2. Desarrollo del proyecto de anlisis. En referencia al tamao de muestra mnimo que la
aplicacin del modelo y mtodo de anlisis multivariante requiere, y por lo tanto la
identificacin del tipo de variable mtrica o no mtrica-, etc. que sern necesarias para la
utilizacin del modelo y mtodo seleccionado en el paso previo.
3. Evaluacin de los supuestos bsicos de la tcnica multivariante. Una vez recogido los
datos, el primer anlisis no es la aplicacin del mtodo multivariante, sino la evaluacin de
los supuestos bsicos subyacentes al enfoque paramtrico del mtodo en general son: (a)
normalidad multivariante, (b) linealidad, (c) independencia de los trminos de error, (d)
igualdad de las varianzas en una relacin de dependencia-. Adems cada modelo y mtodo
tiene supuestos conceptuales que deben tenerse en cuenta a la hora de validar la aplicacin.
4. Estimacin del modelo multivariante y valoracin del ajuste del modelo. Se procede a la
aplicacin del mtodo y consecuentemente a la estimacin del modelo. Sin embargo all
comienza otra etapa del anlisis que consiste en la valoracin del ajuste logrado. Para ello se
tendr en cuenta entre otras cosas especficas para cada mtodo: niveles de significacin
logrados para la estimacin de cada parmetro del modelo, determinacin del grado o nivel
de afectacin o estabilidad del modelo por la presencia de grupos de datos de
comportamiento distinto atpicos- al resto. Esto nos asegura que el modelo estimado sea
robusto a los cambios en los datos.
5. Interpretar el valor terico. El objetivo es identificar la evidencia emprica de las relaciones
multivariantes de los datos muestrales que pueden generalizarse para el total de la poblacin.
Esto conduce, por ejemplo, a la interpretacin de los efectos individuales de las variables
incluidas en el modelo, a partir de los coeficientes de ponderacin estimados.
6. Validacin del modelo multivariante. Consiste en someter al modelo estimado a un conjunto
de pruebas diagnsticas para asegurar el nivel de generalidad de los resultados logrados.








Los anteriores pasos debern ser interpretados como una gua para la aplicacin del
anlisis multivariante, aunque todava no se est en condiciones de lograr una
comprensin acabada de su significado. Todo lo desarrollado hasta aqu ser
reinterpretado a medida que se desarrollen los mtodos y se presenten las situaciones
prcticas concretas.
ESTADSTICA II INTRODUCCIN AL ANLISIS MULTIVARIANTE
PARTE I -

Prof. Titular Roberto Delfor Meyer
Ctedra de Estadstica Fac. Cs. Econmicas Universidad Nacional del Litoral
10
8
ANEXO

MATRIZ DE DATOS BASE DE DATOS:

VARIABLES
V1 V2 V3 ......................................................... Vn

1
2
3
4
.
.
.
CASOS .
.
.
.
.
n


Las variables podrn ser dependientes o independientes, mtricas o no mtricas. Los casos deben
identificarse correctamente. Los casos son las unidades experimentales elementales que se eligen al
azar para luego ser medidas u observadas segn las n variables que se han elegido. Si tomo medidas
de yacars, el caso est compuesto por las n medidas que se han elegido para caracterizar al yacar:

caso 1 (yacar n 1): (X11, X12.....................X1n) = (2.3, 4.5............................7.8) por ejemplo, ser
la primera fila de la matriz arriba.

Si me interesa determinar las caractersticas de la flora algunas especies presentes- en distintos
lugares y momentos, la unidad elemental que se observa es: lugar x momento. Por ejemplo:

caso 1 (flora): (lugar momento densidad 1 densidad 2 ..................densidad n).

La unidad experimental elemental puede variar para un mismo problema de acuerdo a lo que se
desee analizar. No es aconsejable intentar observar relaciones cambiando la unidad experimental
elemental sin que esa circunstancia haya sido planificada de antemano.
X11 X12 X13.............................................................X1n
X21 X22 ....................................................................X2n
.
.
.
.
.
.
.
.
.

Xn1 Xn2 .....................................................................Xnn

Vous aimerez peut-être aussi