Académique Documents
Professionnel Documents
Culture Documents
Tema 1: Introducción
Pedro Galeano
Departamento de Estadı́stica
Universidad Carlos III de Madrid
pedro.galeano@uc3m.es
Curso 2016/2017
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 1 / 58
1 Introducción
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 2 / 58
1 Introducción
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 3 / 58
Introducción
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 4 / 58
Introducción
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 5 / 58
1 Introducción
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 6 / 58
Variables aleatorias multivariantes
Variables univariantes: x1 , . . . , xp .
0
Variable aleatoria multivariante: x = (x1 , . . . , xp ) .
Fx x 0 = Pr x ≤ x 0 = Pr x1 ≤ x10 , . . . , xp ≤ xp0
0
siendo x 0 = x10 , . . . , xp0 .
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 7 / 58
Variables aleatorias multivariantes
Notación: µx = E [x].
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 8 / 58
Variables aleatorias multivariantes
Matriz de covarianzas de x:
σ12
σ12 ··· σ1p
.. ..
0 σ21 σ22 . .
Cov [x] = E (x − µx ) (x − µx ) =
..
.. ..
. . . σp−1,p
σp1 ··· σp,p−1 σp2
donde
σj2 = Var [xj ] = E (xj − E [xj ])2 , para j = 1, . . . , p; y
1
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 9 / 58
Variables aleatorias multivariantes
Matriz de correlaciones de x:
1 ρ12 ··· ρ1p
.. ..
ρ21 1 . .
Cor [x] = ∆x−1/2 Σx ∆−1/2
x =
..
.. ..
. . . ρp−1,p
ρp1 ··· ρp,p−1 1
donde
1 Σx es la matriz de covarianzas de x;
2 ∆x es la matriz diagonal que contiene las varianzas de x;
σjk
3 ρjk = Cor [xj , xk ] = σj σk
, para j, k = 1, . . . , p.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 10 / 58
Variables aleatorias multivariantes
Notación: x ∼ Np (µx , Σx ).
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 11 / 58
Variables aleatorias multivariantes
FD de la Gaussiana multivariante estándar
0.15
0.10
4
0.05
−4
0
−2 x2
0 −2
x1
2
4 −4
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 12 / 58
Variables aleatorias multivariantes
FD de la Gaussiana multivariante con varianzas 1 y correlación .9
0.3
0.2
4
0.1
2
0.0
−4
0
−2 x2
0 −2
x1
2
4 −4
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 13 / 58
Variables aleatorias multivariantes
FD de la Gaussiana multivariante con varianzas 1 y correlación −.9
0.3
0.2
4
0.1
2
0.0
−4
0
−2 x2
0 −2
x1
2
4 −4
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 14 / 58
Variables aleatorias multivariantes
{x : fx (x) = c}
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 15 / 58
Variables aleatorias multivariantes
Curvas de nivel para Gaussiana estándar Curvas de nivel para Gaussiana con varianzas 1 y correlación .9 Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9
4
4
2
2
0
0
−2
−2
−2
−4
−4
−4
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 16 / 58
Variables aleatorias multivariantes
Curvas de nivel para Gaussiana estándar Curvas de nivel para Gaussiana con varianzas 1 y correlación .9 Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9
4
4
2
2
0
0
−2
−2
−2
−4
−4
−4
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 17 / 58
Variables aleatorias multivariantes
0
Transformación lineal de x: Una variable aleatoria y = (y1 , . . . , yq ) dada
por
y = Ax + b
donde A es una matriz de dimensión q × p y b es un vector de dimensión
q × p.
Esperanza de y : E [y ] = AE [x] + b.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 18 / 58
Variables aleatorias multivariantes
0 0
Dos variables multivariantes x = (x1 , . . . , xp ) e y = (y1 , . . . , yq ) :
1 Variable conjunta formada por x e y y sus caracterı́sticas: Función de
densidad, función de distribución, esperanza, matriz de covarianzas, matriz
de correlaciones,. . .
2 Variable x condicionada a y y sus caracterı́sticas: Función de densidad,
función de distribución, esperanza, matriz de covarianzas, matriz de correla-
ciones,. . .
3 Independencia entre x e y .
4 Relación entre x e y : Matriz de covarianzas y matriz de correlaciones entre
x e y.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 19 / 58
1 Introducción
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 20 / 58
La matriz de datos
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 21 / 58
La matriz de datos
Tamaño muestral: n.
Dimensión: p.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 22 / 58
Ejemplo ilustrativo I
Variables:
1 Masa Jupiter del Planeta: Unidad de masa con respecto a la masa total del
planeta Jupiter.
2 Periodo del planeta: Tiempo con respecto a un dı́a en la Tierra en dar una
vuelta sobre su eje principal.
3 Excentricidad radial del planeta: Medida no negativa que determina en que
cantidad su órbita se desvı́a de un circulo (0 implica órbita circular).
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 23 / 58
Ejemplo ilustrativo I
Matriz de datos:
Planeta Masa Periodo Excentricidad
1 0.120 4.950 0.000
2 0.197 3.971 0.000
3 0.210 44.280 0.340
.. .. .. ..
. . . .
101 17.500 256.030 0.429
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 24 / 58
Ejemplo ilustrativo I
Datos
0 1000 2000 3000 4000 5000
15
10
Masa
5
0
5000
4000
3000
Periodo
2000
1000
0
0.8
0.6
Excentricidad
0.4
0.2
0.0
0 5 10 15 0.0 0.2 0.4 0.6 0.8
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 25 / 58
Ejemplo ilustrativo I
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 26 / 58
Ejemplo ilustrativo I
Datos
2 4 6 8
3.0
2.5
2.0
Log−Masa
1.5
1.0
0.5
0.0
8
6
Log−Periodo
4
2
0.6
0.5
0.4
Log−Excentricidad
0.3
0.2
0.1
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 27 / 58
Ejemplo ilustrativo I
Diagrama de dispersión en 3d
0.7
0.6
0.5
Log−Excentricidad
0.4
0.3
Log−Periodo
10
0.2
6
0.1
2
0.0
Log−Masa
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 28 / 58
La matriz de datos
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 29 / 58
La matriz de datos
donde:
1 sj2 es la varianza muestral de la variable xj , para j = 1, . . . , p; y
2 sjk es la covarianza muestral entre las variables xj y xk , para j, k = 1, . . . , p
con j 6= k.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 30 / 58
La matriz de datos
Matriz de correlaciones muestral de X :
1 r12 ··· r1p
.. ..
r21 1 . .
Rx = Dx−1/2 Sx Dx−1/2 =
.. . .. ..
. . rp−1,p
rp1 · · · rp,p−1 1
donde:
1 Sx es la matriz de covarianzas muestral de X ;
2 Dx es la matriz diagonal que contiene las varianzas muestrales de X ;
s
3 rjk = sj jksk , para j, k = 1, . . . , p, son las correlaciones muestrales entre las
variables xj y xk .
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 31 / 58
Ejemplo ilustrativo I
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 32 / 58
Ejemplo ilustrativo I
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 33 / 58
Ejemplo ilustrativo I
Traza de Rx : Tr (Rx ) = 3.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 34 / 58
La matriz de datos
Estandarización individual de X :
Y = Xe Dx−1/2
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 35 / 58
Ejemplo ilustrativo I
Datos estandarizados
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
2
1
Y1
0
−1
1.5
1.0
0.5
0.0
Y2
−0.5
−1.0
−1.5
2
1
Y3
0
−1
−1 0 1 2 −1 0 1 2
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 36 / 58
La matriz de datos
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 37 / 58
1 Introducción
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 38 / 58
Componentes principales
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 39 / 58
Componentes principales
Z = Xe Vp
Z = YVpR
−1/2
donde Y = Xe Dx es la estandarización individual de X y VpR es la matriz
ortogonal cuyas columnas son los p autovectores de Rx .
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 40 / 58
Ejemplo ilustrativo I
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 41 / 58
Ejemplo ilustrativo I
Datos
2 4 6 8
3.0
2.5
2.0
Log−Masa
1.5
1.0
0.5
0.0
8
6
Log−Periodo
4
2
0.6
0.5
0.4
Log−Excentricidad
0.3
0.2
0.1
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 42 / 58
Ejemplo ilustrativo I
CPs
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
2
1
CP1
0
−1
−2
1.5
1.0
0.5
CP2
0.0
−0.5
−1.0
−1.5
1
CP3
0
−1
−2
−2 −1 0 1 2 −2 −1 0 1
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 43 / 58
Ejemplo ilustrativo I
Diagrama de dispersión en 3d de Datos Diagrama de dispersión en 3d de CPs
0.7
0.6
0.5
CP2
Log−Excentricidad
2.0
0.4
1.5
1
1.0
0.3
Log−Periodo
0.5
CP3
0
10 0.0
0.2
8
−0.5
6 −1
−1.0
0.1
4
−1.5
2
0.0
−2
0 −2.0
Log−Masa CP1
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 44 / 58
Componentes principales
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 45 / 58
Componentes principales
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 46 / 58
Ejemplo ilustrativo I
Autovalores de Rx :
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 47 / 58
Ejemplo ilustrativo I
Gráfico de codo
1.8
1.6
1.4
Variances
1.2
1.0
0.8
0.6
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 48 / 58
Ejemplo ilustrativo I
Primera CP:
z1 = −0.56y1 − 0.59y2 − 0.57y3 ,
donde yj = (xj − x j ) /sj , para j = 1, . . . , 3.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 49 / 58
Ejemplo ilustrativo I
Segunda CP:
z1 = 0.76y1 − 0.12y2 − 0.62y3 ,
donde yj = (xj − x j ) /sj , para j = 1, . . . , 3.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 50 / 58
1 Introducción
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 51 / 58
¿A donde vamos?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 52 / 58
¿A donde vamos?
Análisis de conglomerados:
1 Análisis de conglomerados: Conjunto de métodos para dividir las observa-
ciones de un conjunto de datos multivariantes en grupos.
2 Similaridad: Observaciones dentro del mismo grupo deben sean similares y a
la vez diferentes de observaciones en otros grupos.
3 Técnica exploratoria: ¿Qué significa de dos observaciones sean similares?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 53 / 58
¿A donde vamos?
Escalado multidimensional:
1 Escalado multidimensional: Procedimiento para obtener variables cuando
los datos representan distancias entre observaciones.
2 Técnica exploratoria: El objetivo final es obtener gráficos de ciertas variables
a obtener que nos ayudan a entender por qué dos observaciones están cerca
o lejos.
3 Aplicaciones: Marketing y análisis de encuestas.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 54 / 58
¿A donde vamos?
Análisis factorial:
1 Análisis factorial: Procedimiento para obtener variables latentes, llamadas
factores, a partir de una matriz de datos.
2 Extensión: El análisis factorial es una extensión más elaborada del análisis
de componentes principales.
3 Variables latentes: Permite definir variables que no se pueden medir direc-
tamente: inteligencia, clase social,. . .
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 55 / 58
¿A donde vamos?
Regresión multivariante:
1 Regresión multivariante: Procedimiento para predecir una variable respuesta
multivariante mediante una variable regresora multivariante.
2 Regresión univariante: Esencialmente la regresión multivariante es una ex-
tensión directa de la extensión univariante, si bien hay aspectos algo más
complejos.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 56 / 58
¿A donde vamos?
Correlaciones canónicas:
1 Correlaciones canónicas: Consiste en un procedimiento para medir el grado
de dependencia que hay entre dos variables multivariantes.
2 Fuerte relación: CCs tienen una relación muy fuerte con componentes prin-
cipales y con regresión multivariante.
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 57 / 58
1 Introducción
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 58 / 58