Tema1 PDF

Análisis multivariante II
Tema 1: Introducción
Pedro Galeano
Departamento de Estadı́stica
Universidad Carlos III de Madrid
pedro.galeano@uc3m.es
Curso 2016/2017
Grado en Estadı́stica y Empresa
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 1 / 58
1 Introducción
2 Variables aleatorias multivariantes
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
1 Introducción
5 ¿A donde vamos?
Introducción
Análisis multivariante: Conjunto de técnicas para el análisis simultáneo de

una colección de datos procedentes de varias variables.
Temas desarrollados en el curso anterior:

1 Análisis descriptivo: Medidas de localización y dispersión, gráficos,. . .
2 Distribuciones estadı́sticas e inferencia: Variables aleatorias multivariantes,
distribuciones multivariantes, ajuste de parámetros, contrastes,. . .
3 Reducción de la dimensión: Componentes principales.
4 Análisis de clasificación: Clasificadores basados en el Teorema de Bayes,
regresión logı́stica y vecinos más cercanos.
Introducción
Breve recordatorio: Conceptos importantes del curso anterior necesarios

en este curso.
Notación: Fijar notación importante que vamos a utilizar en este curso.
Nuevos contenidos: Breve introducción de los contenidos de este curso.
1 Introducción
5 ¿A donde vamos?
Variables aleatorias multivariantes
Variables univariantes: x1 , . . . , xp .
0
Variable aleatoria multivariante: x = (x1 , . . . , xp ) .
Función de distribución de x: Si las variables univariates son cuantitativas,
Fx x 0 = Pr x ≤ x 0 = Pr x1 ≤ x10 , . . . , xp ≤ xp0

0
siendo x 0 = x10 , . . . , xp0 .
Función de densidad de x: Si las variables univariantes son cuantitativas

y continuas,
Z xp0 Z x10
0

Fx x = ··· fx (x1 , . . . , xp ) dx1 · · · dxp
−∞ −∞
donde fx (x) = fx (x1 , . . . , xp ) es una función no negativa entre otros aspec-

tos.
Esperanza o vector de medias de x:

 
E [x1 ]
E [x] = 
 .. 
. 
E [xp ]
donde E [x1 ] , . . . , E [xp ] son las esperanzas de x1 , . . . , xp .
Significado: Promedio de los posibles valores de x.
Notación: µx = E [x].
Matriz de covarianzas de x:
σ12
 
σ12 ··· σ1p
 .. .. 
0  σ21 σ22 . . 
Cov [x] = E (x − µx ) (x − µx ) = 
 ..

.. .. 
 . . . σp−1,p 
σp1 ··· σp,p−1 σp2
donde
σj2 = Var [xj ] = E (xj − E [xj ])2 , para j = 1, . . . , p; y

1
2 σjk = Cov [xj , xk ] = E [(xj − E [xj ]) (xk − E [xk ])], para j, k = 1, . . . , p.
Significado: Matriz de las desviaciones de x con respecto a su vector de

medias, µx .
Notación: Σx = Cov [x].
Propiedad importante: Σx es una matriz semi-definida positiva.
Matriz de correlaciones de x:
 
1 ρ12 ··· ρ1p
 .. .. 
 ρ21 1 . .
Cor [x] = ∆x−1/2 Σx ∆−1/2

x = 
 ..

.. .. 
 . . . ρp−1,p 
ρp1 ··· ρp,p−1 1
donde
1 Σx es la matriz de covarianzas de x;
2 ∆x es la matriz diagonal que contiene las varianzas de x;
σjk
3 ρjk = Cor [xj , xk ] = σj σk
, para j, k = 1, . . . , p.
Significado: Matriz de covarianzas de las variables estandarizadas.
Notación: %x = Cor [x].
Propiedad importante: %x es una matriz semi-definida positiva.
Distribución Gaussiana multivariante: Con función de densidad

0
(x − µx ) Σ−1

−p/2 −1/2 x (x − µx )
fx (x) = (2π) |Σx | exp −
2
0
para x = (x1 , . . . , xp ) , donde −∞ < xj < ∞, para j = 1, . . . , p.
Notación: x ∼ Np (µx , Σx ).
Propiedad importante: La distribución Gaussiana multivariante es simétri-

ca alrededor de µx , donde alcanza su máximo valor.
FD de la Gaussiana multivariante estándar
0.15
0.10
4
0.05
−4
0
−2 x2
0 −2
x1
2
4 −4
FD de la Gaussiana multivariante con varianzas 1 y correlación .9
0.3
0.2
4
0.1
2
0.0
−4
0
−2 x2
0 −2
x1
2
4 −4
FD de la Gaussiana multivariante con varianzas 1 y correlación −.9
0.3
0.2
4
0.1
2
0.0
−4
0
−2 x2
0 −2
x1
2
4 −4
Curvas de nivel: Formadas por los valores de x que tienen exactamente el

mismo valor de la función de densidad
{x : fx (x) = c}
donde c es una constante.
Distribución Gaussiana multivariante: Curvas de nivel dadas por

0
x : (x − µx ) Σ−1

x (x − µx ) = k
para cierta constante k.
Ejercicio: ¿Cuál es el valor de k para un cierto valor c de la curva de nivel?
Para p=2: Las curvas de nivel son elipses.
Curvas de nivel para Gaussiana estándar Curvas de nivel para Gaussiana con varianzas 1 y correlación .9 Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9
4
4
2
2
0
0
−2
−2
−2
−4
−4
−4
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
Curvas de nivel para Gaussiana estándar Curvas de nivel para Gaussiana con varianzas 1 y correlación .9 Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9
4
4
2
2
0
0
−2
−2
−2
−4
−4
−4
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
0
Transformación lineal de x: Una variable aleatoria y = (y1 , . . . , yq ) dada
por
y = Ax + b
donde A es una matriz de dimensión q × p y b es un vector de dimensión
q × p.
Notar: q puede ser p, es decir, A puede tener dimensión p × p.
Esperanza de y : E [y ] = AE [x] + b.
Matriz de covarianzas de y : Cov [y ] = ACov [x] A0 .
Ejercicio: Demostrar estas dos últimas igualdades.
0 0
Dos variables multivariantes x = (x1 , . . . , xp ) e y = (y1 , . . . , yq ) :
1 Variable conjunta formada por x e y y sus caracterı́sticas: Función de
densidad, función de distribución, esperanza, matriz de covarianzas, matriz
de correlaciones,. . .
2 Variable x condicionada a y y sus caracterı́sticas: Función de densidad,
función de distribución, esperanza, matriz de covarianzas, matriz de correla-
ciones,. . .
3 Independencia entre x e y .
4 Relación entre x e y : Matriz de covarianzas y matriz de correlaciones entre
x e y.
1 Introducción
5 ¿A donde vamos?
La matriz de datos
Matriz de datos: Valores de una variable aleatoria multivariante x =

0
(x1 , . . . , xp ) para una muestra de n elementos
 
x11 x12 · · · x1p
 x21 x22 · · · x2p 
X = .
 
.. .. .. 
 .. . . . 
xn1 xn2 ··· xnp
donde xij representa el valor del individuo i-ésimo para la variable univariante
j-ésima.
La matriz de datos
Dimensión de la matriz de datos: n × p.
Tamaño muestral: n.
Dimensión: p.
Valores de la variable j-ésima, xj : x1j , . . . , xnj , para j = 1, . . . , p.
Valores del elemento i-ésimo de la muestra: xi1 , . . . , xip , para i = 1, . . . , n.
Ejemplo ilustrativo I
Planetas fuera del sistema solar: Información sobre n = 101 planetas

fuera del sistema solar resumida en p = 3 variables.
Variables:
1 Masa Jupiter del Planeta: Unidad de masa con respecto a la masa total del
planeta Jupiter.
2 Periodo del planeta: Tiempo con respecto a un dı́a en la Tierra en dar una
vuelta sobre su eje principal.
3 Excentricidad radial del planeta: Medida no negativa que determina en que
cantidad su órbita se desvı́a de un circulo (0 implica órbita circular).
Matriz de datos:
Planeta Masa Periodo Excentricidad
1 0.120 4.950 0.000
2 0.197 3.971 0.000
3 0.210 44.280 0.340
.. .. .. ..
. . . .
101 17.500 256.030 0.429
Datos
0 1000 2000 3000 4000 5000
15
10
Masa
5
0
5000
4000
3000
Periodo
2000
1000
0
0.8
0.6
Excentricidad
0.4
0.2
0.0
0 5 10 15 0.0 0.2 0.4 0.6 0.8
Matriz de datos en logaritmos (se ha sumado 1 antes de tomar loga-

ritmos):
Planeta Log-Masa Log-Periodo Log-Excentricidad

1 0.113 1.783 0.000
2 0.179 1.603 0.000
3 0.190 3.812 0.292
.. .. .. ..
. . . .
101 2.917 5.549 0.356
Matriz de datos X : Matriz de datos de dimensión 101 × 3 tras la transfor-

mación en logaritmos.
Datos
2 4 6 8
3.0
2.5
2.0
Log−Masa
1.5
1.0
0.5
0.0
8
6
Log−Periodo
4
2
0.6
0.5
0.4
Log−Excentricidad
0.3
0.2
0.1
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6
Diagrama de dispersión en 3d
0.7
0.6
0.5
Log−Excentricidad
0.4
0.3
Log−Periodo
10
0.2
6
0.1
2
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0
Log−Masa
La matriz de datos
Vector de medias muestral deX : 

x1
 x2 
 1 0
x = .  = n X 1n

 .. 
xp
donde
1 1n = (1, 1, . . . , 1)0 es el vector de unos de dimensión n × 1; y
2 x j es la media muestral de la variable univariante j-ésima.
Estimador: El vector x es un estimador del vector de medias de la variable

multivariante x, µx .
La matriz de datos
Matriz de covarianzas muestral de X :

 2 
s1 s12 ··· s1p

 s21 s22 .. 
. s2p 
Sx = 
 .. ..

.. .. 
 . . . . 
sp1 sp2 ··· sp2
donde:
1 sj2 es la varianza muestral de la variable xj , para j = 1, . . . , p; y
2 sjk es la covarianza muestral entre las variables xj y xk , para j, k = 1, . . . , p
con j 6= k.
Propiedad importante: Sx es una matriz simétrica semidefinida positiva.
Estimador: La matriz Sx es un estimador de la matriz de covarianzas de x,

Σx .
La matriz de datos
Matriz de correlaciones muestral de X :
 
1 r12 ··· r1p
 .. .. 
 r21 1 . .
Rx = Dx−1/2 Sx Dx−1/2 = 


 .. . .. .. 
 . . rp−1,p 
rp1 · · · rp,p−1 1
donde:
1 Sx es la matriz de covarianzas muestral de X ;
2 Dx es la matriz diagonal que contiene las varianzas muestrales de X ;
s
3 rjk = sj jksk , para j, k = 1, . . . , p, son las correlaciones muestrales entre las
variables xj y xk .
Propiedad importante: Rx es una matriz simétrica semidefinida positiva.
Estimador: La matriz Rx es un estimador de la matriz de correlaciones de

x, %x .
Vector de medias muestral de X :

0
x = (1.190, 5.228, 0.235)
Medias muestrales individuales: El vector está formado por las medias

muestrales de las variables individuales.
Diferentes unidades de medida: Cada una de las variables individuales

tiene su propia unidad de medida. Lo mismo ocurre con el vector de medias
muestral.
Matriz de covarianzas muestral de X:

 
0.507 0.633 0.044
Sx =  0.633 4.278 0.151 
0.044 0.151 0.026
Autovalores de Sx : λ1 = 4.387, λ2 = 0.404 y λ3 = 0.019.
Traza de Sx : Tr (Sx ) = 4.811.
Determinante de Sx : |Sx | = 0.034.
Matriz de correlaciones muestral de X :

 
1 0.430 0.383
Rx =  0.430 1 0.453 
0.383 0.453 1
Autovalores de Rx : λ1 = 1.845, λ2 = 0.618 y λ3 = 0.535.
Traza de Rx : Tr (Rx ) = 3.
Determinante de Rx : |Rx | = 0.611 que no es muy próximo a 0 debido a

que no existen variables altamente correladas.
La matriz de datos
Matriz de datos centrados: Xe = X − 1n x 0 .
Estandarización individual de X :
Y = Xe Dx−1/2
donde Dx es la matriz diagonal que contiene las varianzas muestrales de X .
Caracterı́sticas muestrales de Y : y = 0p , Sy = Rx y Ry = Rx . Es decir,

Sy = Ry .
Datos estandarizados
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
2
1
Y1
0
−1
1.5
1.0
0.5
0.0
Y2
−0.5
−1.0
−1.5
2
1
Y3
0
−1
−1 0 1 2 −1 0 1 2
La matriz de datos
Inferencia con la matriz de datos:

1 Estimación máximo-verosimil: Ajuste de los parámetros de una distribución.
2 Contrastes de hipótesis: Inferencia sobre los parámetros de una distribución,
independencia,. . .
1 Introducción
5 ¿A donde vamos?
Componentes principales
Componentes principales: Método muy sencillo y efectivo de:

1 Identificar variables latentes incorreladas: Proporcionan interpretaciones
interesantes de los datos;
2 Obtener una nueva matriz de datos con menos variables: Eliminación del
ruido.
Misma unidad de medida en X :
Z = Xe Vp
donde Vp es la matriz ortogonal cuyas columnas son los p autovectores de

Sx .
Diferentes unidades de medida en X :
Z = YVpR
−1/2
donde Y = Xe Dx es la estandarización individual de X y VpR es la matriz
ortogonal cuyas columnas son los p autovectores de Rx .
Diferentes unidades de medida: Tres variables con diferentes unidades de

medida.
Autovectores de Rx : Columnas de la siguiente matriz:

 
−0.56 0.76 0.30
V3R =  −0.59 −0.12 −0.79 
−0.57 −0.62 0.52
Puntuaciones de los CPs:

Z = YV3R
Datos
2 4 6 8
3.0
2.5
2.0
Log−Masa
1.5
1.0
0.5
0.0
8
6
Log−Periodo
4
2
0.6
0.5
0.4
Log−Excentricidad
0.3
0.2
0.1
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6
CPs
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
2
1
CP1
0
−1
−2
1.5
1.0
0.5
CP2
0.0
−0.5
−1.0
−1.5
1
CP3
0
−1
−2
−2 −1 0 1 2 −2 −1 0 1
Diagrama de dispersión en 3d de Datos Diagrama de dispersión en 3d de CPs
0.7
0.6
0.5
CP2
Log−Excentricidad
2.0
0.4
1.5
1
1.0
0.3
Log−Periodo
0.5
CP3
0
10 0.0
0.2
8
−0.5
6 −1
−1.0
0.1
4
−1.5
2
0.0
−2
0 −2.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 −3 −2 −1 0 1 2 3
Log−Masa CP1
Varianzas de los CPs:

1 Misma unidad de medida en X : Autovalores de la matriz Sx .
2 Diferentes unidades de medida en X : Autovalores de la matriz Rx .
Ejercicio: Demostrar lo anterior.
Notación para los autovalores: λ1 , . . . , λp .
Importancia de las CPs: Utilizar las proporciones de variabilidad explicada

y variabilidad explicada acumulada.
Proporción de variabilidad explicada por cada CP:

λj
PVj = j = 1, . . . , p
λ1 + · · · + λp
Proporción de variabilidad explicada acumulada por los primeros j

CPs:
λ1 + · · · + λj
PVAj = j = 1, . . . , p
λ1 + · · · + λp
Autovalores de Rx :
λ1 = 1.8454, λ2 = 0.6185, λ3 = 0.5359.
Proporción de variabilidad explicada por cada CP:
PV1 = 0.6151, PV2 = 0.2061, PV3 = 0.1786.
Proporción de variabilidad explicada acumulada por los primeros j

CPs:
PVA1 = 0.6151, PVA2 = 0.8213, PVA3 = 1.000.
Gráfico de codo
1.8
1.6
1.4
Variances
1.2
1.0
0.8
0.6
Comp.1 Comp.2 Comp.3
Número de CPs importantes: Dos primeras CPs explican el 82.13 % de la

variabilidad total.
Primera CP:
z1 = −0.56y1 − 0.59y2 − 0.57y3 ,
donde yj = (xj − x j ) /sj , para j = 1, . . . , 3.
Interpretación de la primera CP: Separa planetas con valores altos de

masa, periodo y excentricidad, de planetas con valores bajos de dichas va-
riables.
Segunda CP:
z1 = 0.76y1 − 0.12y2 − 0.62y3 ,
donde yj = (xj − x j ) /sj , para j = 1, . . . , 3.
Interpretación de la segunda CP: Separa planetas con valores altos de

masa pero bajos de excentricidad, de planetas con valores bajos de masa
pero altos de excentricidad.
1 Introducción
5 ¿A donde vamos?
¿A donde vamos?
Técnicas avanzadas para datos multivariantes:

1 Análisis de conglomerados.
2 Escalado multimensional.
3 Análisis factorial.
4 Regresión multivariante.
5 Correlaciones canónicas.
¿A donde vamos?
Análisis de conglomerados:
1 Análisis de conglomerados: Conjunto de métodos para dividir las observa-
ciones de un conjunto de datos multivariantes en grupos.
2 Similaridad: Observaciones dentro del mismo grupo deben sean similares y a
la vez diferentes de observaciones en otros grupos.
3 Técnica exploratoria: ¿Qué significa de dos observaciones sean similares?
¿A donde vamos?
Escalado multidimensional:
1 Escalado multidimensional: Procedimiento para obtener variables cuando
los datos representan distancias entre observaciones.
2 Técnica exploratoria: El objetivo final es obtener gráficos de ciertas variables
a obtener que nos ayudan a entender por qué dos observaciones están cerca
o lejos.
3 Aplicaciones: Marketing y análisis de encuestas.
¿A donde vamos?
Análisis factorial:
1 Análisis factorial: Procedimiento para obtener variables latentes, llamadas
factores, a partir de una matriz de datos.
2 Extensión: El análisis factorial es una extensión más elaborada del análisis
de componentes principales.
3 Variables latentes: Permite definir variables que no se pueden medir direc-
tamente: inteligencia, clase social,. . .
¿A donde vamos?
Regresión multivariante:
1 Regresión multivariante: Procedimiento para predecir una variable respuesta
multivariante mediante una variable regresora multivariante.
2 Regresión univariante: Esencialmente la regresión multivariante es una ex-
tensión directa de la extensión univariante, si bien hay aspectos algo más
complejos.
¿A donde vamos?
Correlaciones canónicas:
1 Correlaciones canónicas: Consiste en un procedimiento para medir el grado
de dependencia que hay entre dos variables multivariantes.
2 Fuerte relación: CCs tienen una relación muy fuerte con componentes prin-
cipales y con regresión multivariante.
1 Introducción
5 ¿A donde vamos?

Tema1 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tema1 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Análisis multivariante II

Grado en Estadı́stica y Empresa

2 Variables aleatorias multivariantes

2 Variables aleatorias multivariantes

Análisis multivariante: Conjunto de técnicas para el análisis simultáneo de

Temas desarrollados en el curso anterior:

Breve recordatorio: Conceptos importantes del curso anterior necesarios

Notación: Fijar notación importante que vamos a utilizar en este curso.

Nuevos contenidos: Breve introducción de los contenidos de este curso.

2 Variables aleatorias multivariantes

Función de distribución de x: Si las variables univariates son cuantitativas,

Función de densidad de x: Si las variables univariantes son cuantitativas

donde fx (x) = fx (x1 , . . . , xp ) es una función no negativa entre otros aspec-

Esperanza o vector de medias de x:

donde E [x1 ] , . . . , E [xp ] son las esperanzas de x1 , . . . , xp .

Significado: Promedio de los posibles valores de x.

2 σjk = Cov [xj , xk ] = E [(xj − E [xj ]) (xk − E [xk ])], para j, k = 1, . . . , p.

Significado: Matriz de las desviaciones de x con respecto a su vector de

Notación: Σx = Cov [x].

Propiedad importante: Σx es una matriz semi-definida positiva.

Significado: Matriz de covarianzas de las variables estandarizadas.

Notación: %x = Cor [x].

Propiedad importante: %x es una matriz semi-definida positiva.

Distribución Gaussiana multivariante: Con función de densidad

Propiedad importante: La distribución Gaussiana multivariante es simétri-

Curvas de nivel: Formadas por los valores de x que tienen exactamente el

donde c es una constante.

Distribución Gaussiana multivariante: Curvas de nivel dadas por

para cierta constante k.

Ejercicio: ¿Cuál es el valor de k para un cierto valor c de la curva de nivel?

Para p=2: Las curvas de nivel son elipses.

Notar: q puede ser p, es decir, A puede tener dimensión p × p.

Matriz de covarianzas de y : Cov [y ] = ACov [x] A0 .

Ejercicio: Demostrar estas dos últimas igualdades.

2 Variables aleatorias multivariantes

Matriz de datos: Valores de una variable aleatoria multivariante x =

Dimensión de la matriz de datos: n × p.

Valores de la variable j-ésima, xj : x1j , . . . , xnj , para j = 1, . . . , p.

Valores del elemento i-ésimo de la muestra: xi1 , . . . , xip , para i = 1, . . . , n.

Planetas fuera del sistema solar: Información sobre n = 101 planetas

Matriz de datos en logaritmos (se ha sumado 1 antes de tomar loga-

Planeta Log-Masa Log-Periodo Log-Excentricidad

Matriz de datos X : Matriz de datos de dimensión 101 × 3 tras la transfor-

0.0 0.5 1.0 1.5 2.0 2.5 3.0

Vector de medias muestral deX : 

Estimador: El vector x es un estimador del vector de medias de la variable

Matriz de covarianzas muestral de X :

Propiedad importante: Sx es una matriz simétrica semidefinida positiva.

Estimador: La matriz Sx es un estimador de la matriz de covarianzas de x,

Propiedad importante: Rx es una matriz simétrica semidefinida positiva.

Estimador: La matriz Rx es un estimador de la matriz de correlaciones de

Vector de medias muestral de X :

Medias muestrales individuales: El vector está formado por las medias

Diferentes unidades de medida: Cada una de las variables individuales

Matriz de covarianzas muestral de X:

Autovalores de Sx : λ1 = 4.387, λ2 = 0.404 y λ3 = 0.019.

Traza de Sx : Tr (Sx ) = 4.811.

Determinante de Sx : |Sx | = 0.034.

Matriz de correlaciones muestral de X :

Autovalores de Rx : λ1 = 1.845, λ2 = 0.618 y λ3 = 0.535.

Determinante de Rx : |Rx | = 0.611 que no es muy próximo a 0 debido a

Matriz de datos centrados: Xe = X − 1n x 0 .

donde Dx es la matriz diagonal que contiene las varianzas muestrales de X .