Vous êtes sur la page 1sur 6

ANÁLISIS MULTIVARIANTE

Las técnicas multivariantes son capaces de resumir una gran cantidad de


información y hacerla entendible para la obtención de conclusiones.

La computadora permite el acceso a estas técnicas que se basan en tres


aspectos importantes:

 Analizar gran volumen de datos

 Hacer comprensible el gran volumen de datos con una mínima pérdida


de información.

 Analizar simultáneamente toda la información

Los métodos multivariantes con fines puramente didácticos, puesto que en la


práctica se usan muchas veces de forma conjunta, pueden dividirse en:

MODELOS DE DEPENDENCIA:
 Regresión Múltiple

 Análisis de Variancia

 Análisis Canónico

 Modelos Logit-Probit

MÉTODOS DE INTERDEPENDENCIA:
 Análisis Factorial

 Análisis de Clasificación

 Análisis Discriminante

 Escalas Multidimensionales

Los modelos de dependencia intentan explicar el comportamiento de una

BIOESTADISTICA Ing. Luz Bullón


o varias variables dependientes en función de otro conjunto de variables

La Regresión Múltiple, intenta explicar el comportamiento de una variable a


través de un modelo matemático que la relacione con otro conjunto de variables.

El Análisis de la Variancia, permite controlar la influencia de una o más


variables en el comportamiento de otra, a través del estudio de la variación de la
misma.

El Análisis Canónico, es una forma de regresión cuando las variables


dependientes son más de una.

Los Modelos Logit-Probit, permiten conocer en términos de probabilidad el


comportamiento de un determinado fenómeno

Los métodos de interdependencia estudian de formas diversas la relación


entre variables:

Se conocen como Métodos Factoriales diversos tipos de análisis que pretenden


resumir la información derivada de muchas variables a través de un conjunto de
“factores”, variables de naturaleza no medible directamente pero que resumen
perfectamente la información que suministran las variables originales.

Los Métodos de Clasificación permiten construir grupos de individuos


(personas, síntomas, etc.) homogéneos respecto a un conjunto de variables o
factores.

El Análisis Discriminante trata este problema pero de otro punto de vista, en


este caso se trata de encontrar una regla de decisión, basada en la información
de las variables que conocemos, que permita la asignación a alguno de una serie
de grupos dados, de un nuevo individuo.

Escalas Multidimensionales, proporcionan un “mapa” usualmente en dos


dimensiones, de un conjunto de individuos dando alguna medida de similitud
(o disimilitud), entre cada par de individuos. Esta medida puede ser tan variada
como la distancia euclidiana o el número de atributos que los individuos tienen
en común.

BIOESTADISTICA Ing. Luz Bullón


LOS DATOS
En el análisis multivariante o multidimensional el investigador dispone de una matriz X de
datos, p (1) variables y el registro de los valores de estas variables para cada uno de las n
observaciones o individuos.
xij : Medida de la i-ésima variable en el j-ésimo individuo

Matriz de datos:

 x11 x12 . . x1 p 
x x22 . 
 21
 . . 
 
 . . 
 xn1 . . . xnp 

Los propósitos del análisis de esta matriz son:

1. Clasificación
Para conocer si los objetos caen en un grupo o conglomerado frente a la situación de
encontrarse más o menos dispersos aleatoriamente

2. Agrupación de variables
El interés puede ser conocer si las variables también forman grupos de variables o
factores

3. Análisis de interdependencia
El objeto es conocer las relaciones de interdependencia de las variables, estando las
posibilidades entre independencia y colinealidad, esto es, una situación en la cual una
variable es función lineal (o no lineal) de las otras.

Las técnicas a propósito de su presentación se clasificarán en:

 Análisis de la estructura de covariancias

1. Análisis de componentes principales


2. Análisis de factores

 Análisis de clasificación y agrupamiento

1. Análisis de conglomerados
2. Análisis Discriminante

BIOESTADISTICA Ing. Luz Bullón


Una información importante obtenida de los datos es la matriz S de covariancias así como la
matriz R de correlaciones, ambas matrices son cuadradas de dimensión p. S a su vez
proporciona la variancia total, igual a la traza de S y la variancia muestral generalizada igual
a la determinante de S. Simbólicamente, v.t. = tr [S] y v.m.g. = |S|

EJEMPLO

Se tiene colectada un total de 10 características de una colección de germoplasma de Lenteja


de la India. Las variables en estudio y los datos son presentados a seguir:

DF = Días en florecer
DM = Días en madurar
ALT= Altura de la planta en centímetros
TA= Número de tallos primarios y secundarios
VA= Vainas por planta
LAV= Largo de las vainas
COV= Cobertura de las vainas
GRV= Granos por vaina
REN= Rendimiento por planta
P100= Peso de 100 gramos

ID DF DM ALT TA VA LAV COV GRV REN P100

A 70 123 31,42 7 34 0,98 0,52 2 2,09 2,10


B 71 124 25,96 5 23 0,91 0,55 2 1,11 2,02
C 65 127 27,39 11 32 0,52 0,48 2 2,48 1,84
D 76 125 28,00 7 54 0,91 0,52 2 2,30 1,77
E 70 126 24,96 6 18 0,84 0,41 2 2,17 1,84
F 65 126 19,25 5 8 0,80 0,39 1 1,52 1,61
G 67 123 22,42 5 17 0,86 0,48 2 1,83 1,99
H 72 124 22,73 4 14 0,89 0,52 2 1,85 1,80
I 68 125 28,04 10 40 0,93 0,51 2 2,40 1,79
J 73 124 20,55 4 16 0,91 0,48 2 1,63 1,74
K 77 126 23,49 4 22 0,92 0,51 2 1,29 1,76
L 70 124 28,86 6 30 0,92 0,53 2 1,49 2,44
M 72 125 27,31 5 27 0,94 0,55 2 1,67 1,97
N 75 127 24,26 5 18 0,94 0,52 2 0,76 1,87
O 71 122 29,60 6 31 0,91 0,56 2 1,62 2,13
P 72 120 21,02 3 19 0,99 0,55 2 1,37 1,73

BIOESTADISTICA Ing. Luz Bullón


Un objetivo puede ser examinar la estructura de la relación entre variables, puesto que no
existen variables dependientes.

MÉTODOS DE ÁNALISIS

1. Explorar la relación entre variables


2. Comprobar si la distribución de resultados se puede explicar con un número menor de
construcciones subyacentes (llamadas variables latentes o factores)
3. Comprobar algunas hipótesis sobre los datos y
4. Reducir el número de variables a una cantidad más manejable

LOS FACTORES

Son construcciones hipotéticas, características subyacentes, cuyas supuestas consecuencias se


miden, se ven. El factor hace que las características observables, medibles se relacionen entre
sí.

LA MATRIZ DE COVARIANCIA: S

DF DM ALT TA VA LAV COV GRV REN P100

DF 12.2500 -0.20833 0.1278 -3.6250 7.092 0.223417 0.080000 0.39167 -0.69283 -0.049333

DM -0.2083 3.46250 -0.0481 1.5542 0.113 -0.102625 -0.043667 -0.10417 0.08958 -0.099333

ALT 0.1278 -0.04808 12.6068 4.5811 31.534 0.017881 0.080160 0.40525 0.64244 0.474827

TA -3.6250 1.55417 4.5811 4.5625 15.304 -0.132875 -0.011000 0.05417 0.73475 0.045333

VA 7.0917 0.11250 31.5336 15.3042 130.829 0.042875 0.227667 1.14583 2.92592 0.584000

LAV 0.2234 -0.10262 0.0179 -0.1329 0.043 0.011746 0.002457 0.00571 -0.02253 0.004027

COV 0.0800 -0.04367 0.0802 -0.0110 0.228 0.002457 0.002320 0.00767 -0.00619 0.004480

GRV 0.3917 -0.10417 0.4053 0.0542 1.146 0.005708 0.007667 0.06250 0.01358 0.019333

REN -0.6928 0.08958 0.6424 0.7348 2.926 -0.022529 -0.006193 0.01358 0.23061 -0.010327

P100 -0.0493 -0.09933 0.4748 0.0453 0.584 0.004027 0.004480 0.01933 -0.01033 0.041147

La variancia total:
Traza [S] = 12.25 + 3.4625 + . . . + 0.041147
= 164.059

BIOESTADISTICA Ing. Luz Bullón


LA MATRIZ DE CORRELACIÓN: R

Correlations (Pearson)

DF DM ALT TA VA LAV COV GRV P100

DM -0.032
ALT 0.010 -0.007
TA -0.485 0.391 0.604
VA 0.177 0.005 0.776 0.626
LAV 0.589 -0.509 0.046 -0.574 0.035
COV 0.475 -0.487 0.469 -0.107 0.413 0.471
GRV 0.448 -0.224 0.457 0.101 0.401 0.211 0.637
REN -0.412 0.100 0.377 0.716 0.533 -0.433 -0.268 0.113
P100 -0.069 -0.263 0.659 0.105 0.252 0.183 0.459 0.381 -0.106

Traza [R] = 10

BIOESTADISTICA Ing. Luz Bullón