Vous êtes sur la page 1sur 16

29/03/2017

INTRODUCCIN A LAS TCNICAS DE


ANLISIS MULTIVARIADO

REVISIN DE CONCEPTOS DE
LGEBRA
1 Departamento de Estadstica 3

Universidad Nacional del Comahue

Temario:

Introduccin
Revisin de conceptos de lgebra
Definicin de Anlisis Multivariado
Anlisis de Componentes Principales
Anlisis Factorial de Correspondencias
Anlisis de Coordenadas Principales
Anlisis de Cluster

2 4

1
29/03/2017

5 7

6 8

2
29/03/2017

Los datos de naturaleza multivariada son aquellos que provienen de la


observacin o medicin de un conjunto de caractersticas (variables) a un
conjunto de individuos (unidades estadsticas).

Los propsitos de las tcnicas que se van a desarrollar son:

Resumir informacin en un nmero menor de variables no

correlacionadas, construidas como transformaciones de las variables

originales, con prdida mnima de informacin.


INTRODUCCIN
9 Encontrar grupos de individuos semejantes.

Determinar asociaciones entre variables


11

INTRODUCCIN
DEFINICIN
En numerosas situaciones reales es necesario utilizar un gran nmero de
caractersticas para describir adecuadamente a los individuos.

Caracterizacin de sitios de muestreo de acuerdo a las especies


Desde un punto de vista puramente estadstico, y de forma
presentes algo restrictiva, el Anlisis Multivariante puede definirse
Caracterizacin de sitios de muestreo de acuerdo a variables como el conjunto de tcnicas cuyo objetivo es el anlisis
ambientales.
Relacin entre ambas caracterizaciones
descriptivo y/o la realizacin de inferencias a partir de datos

Caracterizacin de ciudades de acuerdo a indicadores de calidad de naturaleza multivariada, es decir, en los que cada
ambiental observacin est constituida por los valores de varias
Identificar factores que describen a los organismos vivos.
variables interrelacionadas. (Romero Villafranca, 1995)
Estudio de la variabilidad entre diferentes especies o razas.
Anlisis de datos de encuestas
10 12

3
29/03/2017

TRATAMIENTO DE VARIABLES CUANTITATIVAS


X: longitud de mazorca
u.e.: la mazorca
Tipo de variable: cuantitativa continua

Longitud mazorca
16,48 Estadstica descriptiva
16,98 Variable n Media D.E. Mn Mx Mediana Q1 Q3
16,07 LMZ 49 16,58 1,04 13,65 18,60 16,65 16,08 17,35
16,75
16,38
16,25 2
n
xi
16,07
15,28 n SCx
xi (xi x )
n n
xi2 i=1n
16,8 2
15,53
15,63 x = i =1 S 2 ( x) = i =1 = i =1
VARIABLES CUANTITATIVAS 16,13
16,65
n n 1 n 1
15,25
13 16,2
16,57
xx
16,98
15,07 Estandarizacin z=
18,38 S (x) 15
.

TRATAMIENTO DE VARIABLES CUANTITATIVAS


Variables cuantitativas: asumen valores numricos escala mtrica
Estadstica descriptiva
Variable n Media D.E. C.V. Mn Mx Mediana Q1 Q3
LMZ 49 16,58 1,04 6,27 13,65 18,60 16,65 16,08 17,35
Discretas: provienen de conteos (nmeros naturales)
18,85

Ej.: nmero de hermanos, nmero de flores por planta, 26,0

17,49
20,8

Continuas: provienen de mediciones (nmeros reales)


frecuencia absoluta 15,6

LMZ
16,13

Ej.: dimetro de fruto, calificacin promedio,


10,4

14,76

5,2

0,0 13,40
12,00 13,00 14,00 15,00 16,00 17,00 18,00 19,00 20,00
LMZ

14 16

4
29/03/2017

n
Signo de la Covariancia
TRATAMIENTO DE VARIABLES CUANTITATIVAS ( x x ).( y y)
i =1
i i
S xy =
Estadstica descriptiva n 1
Variable n Media D.E. Mn Mx Mediana Q1 Q3
ALTPL 49 226,60 17,86 189,5 271,63 225,25 212,75 240,88

(x x )>0
18,85
y

17,49

(y y )>0
y
LMZ

16,13

(y y )< 0

14,76

x x
13,40

17
(x x )< 0 19

(x x ) (y )
TRATAMIENTO DE VARIABLES CUANTITATIVAS n

i i y
37,91
S xy = Cov( x, y ) = i =1
n 1
n n
35,09

n x y i i

y xi yi i =1
n
i =1
SPxy
GRHIL

= i =1
=
32,26

n 1 n 1
29,44

26,61 Coeficiente de Correlacin Lineal


13,40 14,76 16,13 17,49 18,85
LMZ

x
Cov( x, y ) SPxy
r= = 1 r 1
(x x ) (y )
n

i i y S ( x) S ( y ) SCx SCy
18 20
S xy = Cov( x, y ) = i =1
n 1

5
29/03/2017

Cmo reconocer relacin lineal directa e inversa.


Otras distancias utilizadas con datos cuantitativos:
330 100

280 No correlacin 90 Fuerte relacin


80 directa.
230
70
180
60
130
50
80 40
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Para valores de X por encima de la media Para los valores de X mayores que la media le
tenemos valores de Y por encima y por corresponden valores de Y mayores tambin.
debajo en cantidades similares. No existe
relacin lineal Para los valores de X menores que la media le
corresponden valores de Y menores tambin.

Esto se llama relacin lineal directa entre X e Y.


80
70 Cierta relacin
60 inversa
50
Para los valores de X mayores que la
40
30
media le corresponden valores de Y
20 menores. Esto es relacin lineal inversa. 21 23
10
0
140 150 160 170 180 190 200

TRATAMIENTO DE LOS INDIVIDUOS: DISTANCIAS DATOS MULTIVARIADOS

Datos cuantitativos: Los datos multivariados se presentan en matrices nxp de individuos por
variables:

(x x jk )
p
d ij =
2
Distancia Eucldea: ik variables
k =1

Propiedades: individuos x11 x12 K x1 p


x x22 K x2 p
d ii = 0 i 21
M M
d ij 0
x xn 2 L xnp
d ij = d ji n 1
d ij d ik + d kj
x1 xp
22 24
S(x1) S(xp)

6
29/03/2017

DATOS MULTIVARIADOS DATOS MULTIVARIADOS


Medidas globales de variabilidad
x11 x1 x12 x2 K x1 p x p

x x1 x22 x2 K x2 p x p
X c = 21
Matriz centrada Variabilidad total:
M M p

T = tr ( S ) = si2
xn1 x1 xn2 x2 L xnp x p i =1

Varianza generalizada:
x11 x1 x12 x 2 x1 p x p
K
Matriz S ( x1 ) S ( x2 ) S (xp ) Es una medida del rea (para p = 2), volumen (para p = 3) o
x x1 x22 x 2 x2 p x p hipervolumen (para p > 3) ocupado por el conjunto de datos.
estandarizada 21 K
X st = S ( x1 ) S ( x2 ) S (xp )
M M VG = S

xn1 x1 xn 2 x 2 xnp x p
L
S ( x1 ) S ( x2 ) S ( x p ) 25 27

DATOS MULTIVARIADOS DATOS DE CARACTERIZACIN DE MAZ

Matriz de varianzas-covarianzas

s12 s12 K s1 p

s s 2 K s2 p 1 '
S = 21 2 = X X
M M n c c
2
s p1 s p 2 L s p

Matriz de correlacin

1 r12 K r1 p
r 1 K r2 p 1 '
R= = X X
21

M M n st st

rp1 rp2 L 1 26 28

7
29/03/2017

VARIABLES:

LMZ: Longitud de la mazorca (cm)


DMZ: Dimetro de la mazorca (cm)
NHIL: Nmero de hileras de la mazorca
AGR: Ancho de grano (mm)
LGR: Largo de grano (mm)
GRHIL: Granos por hilera de la mazorca
PESO1000: Peso de 1000 semillas (gr)
REND: Rendimiento (Kg/ha)
ALTPL: Altura de la planta (cm)
ALTMZ: Altura de insercin de la mazorca (cm)

29 31

Nmero de hileras vs. Ancho de grano


Longitud de mazorca vs. Granos por hilera
30 32

8
29/03/2017

33 35

34 36

9
29/03/2017

xi

Hi
u
O

r r r
u = 1 u ` u =1
ANLISIS DE COMPONENTES
PRINCIPALES Criterio de Ajuste: Minimizar la SC de los desvos:
37
n 2
xi H i
39
i =1

ANLISIS DE COMPONENTES PRINCIPALES


El Anlisis de Componentes Principales (ACP) permite condensar la r 2 2 2
x = OH + xH
informacin contenida en una variable cuantitativa p-dimensional en xi

un nmero reducido de nuevas variables no correlacionadas entre s, 2 r 2 2


xH = x OH
que son combinacin lineal de las variables originales y explican el Hi
mximo de variabilidad. u
O
X2
n 2 2 2
x i Hi = xi OH i
i =1 i i

Fijo

38 Minimizar MAXIMIZAR 40

X1 38

10
29/03/2017

Este anlisis realiza una rotacin del espacio original alrededor


del origen o centro de gravedad G, generando un sistema de
Proyecciones ortogonales vectores ortonormales que pasan lo ms cerca posible de la
Direccin de mxima variabilidad nube de puntos.

Por lo tanto, minimizar la SC de los desvos equivale a maximizar la SC de


las proyecciones, es decir, se buscan las direcciones de mxima variabilidad
de la nube de puntos.

Esto equivale a hallar los autovectores de la matriz (1/n X`X).

Esta matriz es simtrica y real, por lo tanto sus autovectores son 41 43


perpendiculares.

Las direcciones de mxima variabilidad de una matriz X estn


determinadas por los autovectores de la matriz de correlaciones Qu informacin tiene la matriz XX?
(1/n XX).
1
Si los datos estn centrados X `X es la Matriz de varianzas y covarianzas
n
Las componentes principales vienen dadas por:
1
Ynxp = Xnxp . Upxp Si los datos estn estandarizados X `X es la Matriz de correlacin
n
donde U es la matriz de autovectores de (1/n XX).

La matriz Y contiene las coordenadas de los individuos en el nuevo


espacio.

Las coordenadas de las variables en este nuevo espacio se obtienen


multiplicado la matriz de autovectores por la matriz diagonal que
42 44
contiene la raz cuadrada de los autovalores: 1/2 U

11
29/03/2017

Qu obtenemos a partir de un ACP? Representacin Biplot


Es un grfico conjunto de los puntos individuos y las variables,
Un nuevo sistema de ejes donde se proyectan los individuos. convenientemente escaladas.

El primer eje es el que explica la mxima variabilidad, luego el


C2
segundo, luego el tercero

Los ejes no estn correlacionados. V4

La prdida de informacin al reducir la informacin es mnima. V2

Se pueden interpretar relaciones entre variables y entre C1


individuos. V1

La varianza de cada componente es el autovalor correspondiente V3


a dicha componente

45 47

Individuos en las dos primeras Variables en el crculo de Propiedades de las componentes:


componentes principales correlacin

Conservan la variabilidad inicial: la suma de las varianzas de las

C2 componentes (autovalores) es igual a la suma de las varianzas de las


1
variables originales; y la varianza generalizada de las componentes es
igual a la original.
V4

V2
-1 1
C1
V1
La proporcin de variabilidad explicada por un componente es el
V3
cociente entre su varianza (autovalor) y la suma de los valores propios
de la matriz.
-1
46 48

12
29/03/2017

Propiedades de las componentes: Ejemplo:


Datos:
La correlacin entre un componente principal y una variable es
Las observaciones corresponden a 30 pases (individuos).
proporcional al coeficiente de esa variable en la definicin del
Las variables son indicadores de desarrollo:
componente.
Tasa Natalidad: natalidad por 1000 hab
Tasa Mortalidad: mortalidad por 1000 hab
Mortalidad infantil (por debajo de un ao)
Esperanza de vida en hombres
Las r componentes principales (r < p) proporcionan la prediccin Esperanza de vida en mujeres
lineal ptima con r variables del conjunto de variables X. PNB: Producto Nacional Bruto per cpita

49 51

Interpretaciones: Datos:
Los individuos se representan como puntos en el plano.

Distancia entre individuos: a menor distancia ms se parecen

Las variables se representan como vectores.

La correlacin entre la variable y la componente es proporcional a la


coordenada de la variable.

Relacin entre variables:


Se observa el ngulo entre los vectores:
ngulo agudo: relacin directa
ngulo obtuso: relacin inversa
ngulo recto: no hay relacin

Relacin entre individuos y variables:


Se proyectan ortogonalmente los puntos en los vectores
50 52

13
29/03/2017

Estadstica descriptiva multivariada


multivariada:: Correlaciones entre variables:
Vector medio total
T-Nat T-Mort Mort-Inf Esp-H Esp-M PNB
26,09 10,88 47,78 62,23 67,74 7776,13
T-Nat T-Mort Mort-Inf Esp-H Esp-M PNB
T-Nat 1
T-Mort 0,626 1
Mort-Inf 0,944 0,788 1
Esp-H -0,907 -0,828 -0,968 1
Esp-M -0,930 -0,812 -0,979 0,993 1
PNB -0,636 -0,352 -0,605 0,651 0,652 1

53 55

Distancias entre individuos: Anlisis de Componentes Principales:

Porcentaje de
variabilidad
explicada por
los dos primeros
ejes

Direcciones

54 56

14
29/03/2017

Plano principal de individuos: Variables: T-Nat


T-Nat
1
T-Mort Mort-Inf Esp-H Esp-M PNB

T-Mort 0,626 1
Mort-Inf 0,944 0,788 1
5,00 Esp-H -0,907 -0,828 -0,968 1
Esp-M -0,930 -0,812 -0,979 0,993 1
PNB -0,636 -0,352 -0,605 0,651 0,652 1

5,00

2,50 PNB
Suiza
Finlandia
Malawi Noruega
T-Mort
Gambia Japn
Reino Unido Singapur
Somalia 2,50
CP 2 (11,3%)

Bolivia Hungra Holanda


Mozambique Austria
Sudan Arabia Saudita Portugal Espaa
0,00 Sudfrica
Brasil Rumania
Ucrania Hong Kong

CP 2 (11,3%)
Swaziland Mort-Inf
Mongolia Argentina
Chile 0,00
Jordania Tailandia Venezuela T-Nat Esp-H
Esp-M
-2,50

-2,50

-5,00
-5,00 -2,50 0,00 2,50 5,00 -5,00
CP 1 (82,6%)
57 -5,00 -2,50 0,00 2,50 5,00 59
CP 1 (82,6%)

Variables: Biplot::
Biplot
5,00

5,00 PNB
PNB

T-Mort
T-Mort
2,50
2,50 Suiza
Finlandia
Malawi Noruega
Gambia Japn
Reino Unido Singapur
Somalia
CP 2 (11,3%)

Mort-Inf

CP 2 (11,3%)
Bolivia Mort-Inf Holanda
Hungra
Austria
0,00 Mozambique Sudan Arabia Saudita Portugal Espaa
T-Nat Esp-H 0,00 Sudfrica Rumania Hong Kong
T-Nat Brasil
Esp-M Swaziland Ucrania Esp-M
Argentina Esp-H
Mongolia
Chile
Jordania Tailandia Venezuela
-2,50
-2,50

-5,00
-5,00 -2,50 0,00 2,50 5,00
CP 1 (82,6%) -5,00
-5,00 -2,50 0,00 2,50 5,00
CP 1 (82,6%)
58 60

15
29/03/2017

Gradientes: Biplot::
Biplot
Autovectores
Variables e1 e2 5,00

T-Nat -0,4202 -0,1116 PNB

T-Mort -0,3666 0,5638


Mort-Inf -0,4403 0,0869 T-Mort

Esp-H 0,4443 -0,0712 2,50


Suiza
Finlandia
Esp-M 0,4462 -0,0545 Malawi Noruega
PNB 0,3141 0,8087 Gambia
Reino Unido Singapur
Japn
Somalia

CP 2 (11,3%)
Bolivia Mort-Inf Holanda
Hungra
Austria
Mozambique Sudan Arabia Saudita Portugal Espaa
0,00 Sudfrica
T-Nat Rumania Hong Kong
Brasil Esp-M
Swaziland Ucrania
Se observa el primer autovector y se selecciona la carga ms alta (positiva Mongolia Argentina Esp-H
Chile
Jordania Tailandia Venezuela
o negativa). Todas las cargas cuyo valor absoluto es mayor a 2/3 de la
-2,50
mayor carga se consideran contributivas a la formacin del primer eje.
Lo mismo con el segundo, etc. 2
0,4462 = 0,2975
3
-5,00
2
0,8087 = 0,5391
-5,00 -2,50 0,00 2,50 5,00
CP 1 (82,6%)
3 61 63

Gradientes:
Autovectores
Variables e1 e2
2
T-Nat -0,4202 -0,1116 0,4462 = 0,2975
T-Mort -0,3666 0,5638 3
Mort-Inf -0,4403 0,0869 2
0,8087 = 0,5391
Esp-H 0,4443 -0,0712 3
Esp-M 0,4462 -0,0545
PNB 0,3141 0,8087

La variable Tasa de Mortalidad constituye un gradiente oblicuo que va del


cuarto al segundo cuadrante.
La variable PNB forma un gradiente oblicuo que va del tercer al primer
cuadrante.
Las variables Tasa de Natalidad, Mortalidad Infantil, Esperanza de vida
62
constituyen un gradiente horizontal.

16

Vous aimerez peut-être aussi