Vous êtes sur la page 1sur 58

Análisis multivariante II

Tema 1: Introducción

Pedro Galeano
Departamento de Estadı́stica
Universidad Carlos III de Madrid
pedro.galeano@uc3m.es

Curso 2016/2017

Grado en Estadı́stica y Empresa

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 1 / 58
1 Introducción

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 2 / 58
1 Introducción

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 3 / 58
Introducción

Análisis multivariante: Conjunto de técnicas para el análisis simultáneo de


una colección de datos procedentes de varias variables.

Temas desarrollados en el curso anterior:


1 Análisis descriptivo: Medidas de localización y dispersión, gráficos,. . .
2 Distribuciones estadı́sticas e inferencia: Variables aleatorias multivariantes,
distribuciones multivariantes, ajuste de parámetros, contrastes,. . .
3 Reducción de la dimensión: Componentes principales.
4 Análisis de clasificación: Clasificadores basados en el Teorema de Bayes,
regresión logı́stica y vecinos más cercanos.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 4 / 58
Introducción

Breve recordatorio: Conceptos importantes del curso anterior necesarios


en este curso.

Notación: Fijar notación importante que vamos a utilizar en este curso.

Nuevos contenidos: Breve introducción de los contenidos de este curso.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 5 / 58
1 Introducción

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 6 / 58
Variables aleatorias multivariantes

Variables univariantes: x1 , . . . , xp .
0
Variable aleatoria multivariante: x = (x1 , . . . , xp ) .

Función de distribución de x: Si las variables univariates son cuantitativas,

Fx x 0 = Pr x ≤ x 0 = Pr x1 ≤ x10 , . . . , xp ≤ xp0
  

0
siendo x 0 = x10 , . . . , xp0 .

Función de densidad de x: Si las variables univariantes son cuantitativas


y continuas,
Z xp0 Z x10
0

Fx x = ··· fx (x1 , . . . , xp ) dx1 · · · dxp
−∞ −∞

donde fx (x) = fx (x1 , . . . , xp ) es una función no negativa entre otros aspec-


tos.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 7 / 58
Variables aleatorias multivariantes

Esperanza o vector de medias de x:


 
E [x1 ]
E [x] = 
 .. 
. 
E [xp ]

donde E [x1 ] , . . . , E [xp ] son las esperanzas de x1 , . . . , xp .

Significado: Promedio de los posibles valores de x.

Notación: µx = E [x].

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 8 / 58
Variables aleatorias multivariantes
Matriz de covarianzas de x:
σ12
 
σ12 ··· σ1p
 .. .. 
 0  σ21 σ22 . . 
Cov [x] = E (x − µx ) (x − µx ) = 
 ..

.. .. 
 . . . σp−1,p 
σp1 ··· σp,p−1 σp2

donde
σj2 = Var [xj ] = E (xj − E [xj ])2 , para j = 1, . . . , p; y
 
1

2 σjk = Cov [xj , xk ] = E [(xj − E [xj ]) (xk − E [xk ])], para j, k = 1, . . . , p.

Significado: Matriz de las desviaciones de x con respecto a su vector de


medias, µx .

Notación: Σx = Cov [x].

Propiedad importante: Σx es una matriz semi-definida positiva.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 9 / 58
Variables aleatorias multivariantes
Matriz de correlaciones de x:
 
1 ρ12 ··· ρ1p
 .. .. 
 ρ21 1 . .
Cor [x] = ∆x−1/2 Σx ∆−1/2

x = 
 ..

.. .. 
 . . . ρp−1,p 
ρp1 ··· ρp,p−1 1

donde
1 Σx es la matriz de covarianzas de x;
2 ∆x es la matriz diagonal que contiene las varianzas de x;
σjk
3 ρjk = Cor [xj , xk ] = σj σk
, para j, k = 1, . . . , p.

Significado: Matriz de covarianzas de las variables estandarizadas.

Notación: %x = Cor [x].

Propiedad importante: %x es una matriz semi-definida positiva.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 10 / 58
Variables aleatorias multivariantes

Distribución Gaussiana multivariante: Con función de densidad


0
(x − µx ) Σ−1
 
−p/2 −1/2 x (x − µx )
fx (x) = (2π) |Σx | exp −
2
0
para x = (x1 , . . . , xp ) , donde −∞ < xj < ∞, para j = 1, . . . , p.

Notación: x ∼ Np (µx , Σx ).

Propiedad importante: La distribución Gaussiana multivariante es simétri-


ca alrededor de µx , donde alcanza su máximo valor.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 11 / 58
Variables aleatorias multivariantes
FD de la Gaussiana multivariante estándar

0.15

0.10

4
0.05

−4
0
−2 x2
0 −2
x1
2

4 −4

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 12 / 58
Variables aleatorias multivariantes
FD de la Gaussiana multivariante con varianzas 1 y correlación .9

0.3

0.2

4
0.1

2
0.0
−4
0
−2 x2
0 −2
x1
2

4 −4

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 13 / 58
Variables aleatorias multivariantes
FD de la Gaussiana multivariante con varianzas 1 y correlación −.9

0.3

0.2

4
0.1

2
0.0
−4
0
−2 x2
0 −2
x1
2

4 −4

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 14 / 58
Variables aleatorias multivariantes

Curvas de nivel: Formadas por los valores de x que tienen exactamente el


mismo valor de la función de densidad

{x : fx (x) = c}

donde c es una constante.

Distribución Gaussiana multivariante: Curvas de nivel dadas por


0
x : (x − µx ) Σ−1

x (x − µx ) = k

para cierta constante k.

Ejercicio: ¿Cuál es el valor de k para un cierto valor c de la curva de nivel?

Para p=2: Las curvas de nivel son elipses.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 15 / 58
Variables aleatorias multivariantes
Curvas de nivel para Gaussiana estándar Curvas de nivel para Gaussiana con varianzas 1 y correlación .9 Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9
4

4
2

2
0

0
−2

−2

−2
−4

−4

−4
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 16 / 58
Variables aleatorias multivariantes
Curvas de nivel para Gaussiana estándar Curvas de nivel para Gaussiana con varianzas 1 y correlación .9 Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9
4

4
2

2
0

0
−2

−2

−2
−4

−4

−4
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 17 / 58
Variables aleatorias multivariantes

0
Transformación lineal de x: Una variable aleatoria y = (y1 , . . . , yq ) dada
por
y = Ax + b
donde A es una matriz de dimensión q × p y b es un vector de dimensión
q × p.

Notar: q puede ser p, es decir, A puede tener dimensión p × p.

Esperanza de y : E [y ] = AE [x] + b.

Matriz de covarianzas de y : Cov [y ] = ACov [x] A0 .

Ejercicio: Demostrar estas dos últimas igualdades.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 18 / 58
Variables aleatorias multivariantes

0 0
Dos variables multivariantes x = (x1 , . . . , xp ) e y = (y1 , . . . , yq ) :
1 Variable conjunta formada por x e y y sus caracterı́sticas: Función de
densidad, función de distribución, esperanza, matriz de covarianzas, matriz
de correlaciones,. . .
2 Variable x condicionada a y y sus caracterı́sticas: Función de densidad,
función de distribución, esperanza, matriz de covarianzas, matriz de correla-
ciones,. . .
3 Independencia entre x e y .
4 Relación entre x e y : Matriz de covarianzas y matriz de correlaciones entre
x e y.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 19 / 58
1 Introducción

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 20 / 58
La matriz de datos

Matriz de datos: Valores de una variable aleatoria multivariante x =


0
(x1 , . . . , xp ) para una muestra de n elementos
 
x11 x12 · · · x1p
 x21 x22 · · · x2p 
X = .
 
.. .. .. 
 .. . . . 
xn1 xn2 ··· xnp
donde xij representa el valor del individuo i-ésimo para la variable univariante
j-ésima.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 21 / 58
La matriz de datos

Dimensión de la matriz de datos: n × p.

Tamaño muestral: n.

Dimensión: p.

Valores de la variable j-ésima, xj : x1j , . . . , xnj , para j = 1, . . . , p.

Valores del elemento i-ésimo de la muestra: xi1 , . . . , xip , para i = 1, . . . , n.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 22 / 58
Ejemplo ilustrativo I

Planetas fuera del sistema solar: Información sobre n = 101 planetas


fuera del sistema solar resumida en p = 3 variables.

Variables:
1 Masa Jupiter del Planeta: Unidad de masa con respecto a la masa total del
planeta Jupiter.
2 Periodo del planeta: Tiempo con respecto a un dı́a en la Tierra en dar una
vuelta sobre su eje principal.
3 Excentricidad radial del planeta: Medida no negativa que determina en que
cantidad su órbita se desvı́a de un circulo (0 implica órbita circular).

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 23 / 58
Ejemplo ilustrativo I

Matriz de datos:
Planeta Masa Periodo Excentricidad
1 0.120 4.950 0.000
2 0.197 3.971 0.000
3 0.210 44.280 0.340
.. .. .. ..
. . . .
101 17.500 256.030 0.429

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 24 / 58
Ejemplo ilustrativo I
Datos
0 1000 2000 3000 4000 5000

15
10
Masa

5
0
5000
4000
3000

Periodo
2000
1000
0

0.8
0.6
Excentricidad

0.4
0.2
0.0
0 5 10 15 0.0 0.2 0.4 0.6 0.8

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 25 / 58
Ejemplo ilustrativo I

Matriz de datos en logaritmos (se ha sumado 1 antes de tomar loga-


ritmos):

Planeta Log-Masa Log-Periodo Log-Excentricidad


1 0.113 1.783 0.000
2 0.179 1.603 0.000
3 0.190 3.812 0.292
.. .. .. ..
. . . .
101 2.917 5.549 0.356

Matriz de datos X : Matriz de datos de dimensión 101 × 3 tras la transfor-


mación en logaritmos.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 26 / 58
Ejemplo ilustrativo I
Datos
2 4 6 8

3.0
2.5
2.0
Log−Masa

1.5
1.0
0.5
0.0
8
6

Log−Periodo
4
2

0.6
0.5
0.4
Log−Excentricidad

0.3
0.2
0.1
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 27 / 58
Ejemplo ilustrativo I
Diagrama de dispersión en 3d
0.7
0.6
0.5
Log−Excentricidad

0.4
0.3

Log−Periodo
10
0.2

6
0.1

2
0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0

Log−Masa

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 28 / 58
La matriz de datos

Vector de medias muestral deX : 


x1
 x2 
 1 0
x = .  = n X 1n

 .. 
xp
donde
1 1n = (1, 1, . . . , 1)0 es el vector de unos de dimensión n × 1; y
2 x j es la media muestral de la variable univariante j-ésima.

Estimador: El vector x es un estimador del vector de medias de la variable


multivariante x, µx .

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 29 / 58
La matriz de datos

Matriz de covarianzas muestral de X :


 2 
s1 s12 ··· s1p

 s21 s22 .. 
. s2p 
Sx = 
 .. ..

.. .. 
 . . . . 
sp1 sp2 ··· sp2

donde:
1 sj2 es la varianza muestral de la variable xj , para j = 1, . . . , p; y
2 sjk es la covarianza muestral entre las variables xj y xk , para j, k = 1, . . . , p
con j 6= k.

Propiedad importante: Sx es una matriz simétrica semidefinida positiva.

Estimador: La matriz Sx es un estimador de la matriz de covarianzas de x,


Σx .

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 30 / 58
La matriz de datos
Matriz de correlaciones muestral de X :
 
1 r12 ··· r1p
 .. .. 
 r21 1 . .
Rx = Dx−1/2 Sx Dx−1/2 = 


 .. . .. .. 
 . . rp−1,p 
rp1 · · · rp,p−1 1

donde:
1 Sx es la matriz de covarianzas muestral de X ;
2 Dx es la matriz diagonal que contiene las varianzas muestrales de X ;
s
3 rjk = sj jksk , para j, k = 1, . . . , p, son las correlaciones muestrales entre las
variables xj y xk .

Propiedad importante: Rx es una matriz simétrica semidefinida positiva.

Estimador: La matriz Rx es un estimador de la matriz de correlaciones de


x, %x .

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 31 / 58
Ejemplo ilustrativo I

Vector de medias muestral de X :


0
x = (1.190, 5.228, 0.235)

Medias muestrales individuales: El vector está formado por las medias


muestrales de las variables individuales.

Diferentes unidades de medida: Cada una de las variables individuales


tiene su propia unidad de medida. Lo mismo ocurre con el vector de medias
muestral.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 32 / 58
Ejemplo ilustrativo I

Matriz de covarianzas muestral de X:


 
0.507 0.633 0.044
Sx =  0.633 4.278 0.151 
0.044 0.151 0.026

Autovalores de Sx : λ1 = 4.387, λ2 = 0.404 y λ3 = 0.019.

Traza de Sx : Tr (Sx ) = 4.811.

Determinante de Sx : |Sx | = 0.034.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 33 / 58
Ejemplo ilustrativo I

Matriz de correlaciones muestral de X :


 
1 0.430 0.383
Rx =  0.430 1 0.453 
0.383 0.453 1

Autovalores de Rx : λ1 = 1.845, λ2 = 0.618 y λ3 = 0.535.

Traza de Rx : Tr (Rx ) = 3.

Determinante de Rx : |Rx | = 0.611 que no es muy próximo a 0 debido a


que no existen variables altamente correladas.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 34 / 58
La matriz de datos

Matriz de datos centrados: Xe = X − 1n x 0 .

Estandarización individual de X :

Y = Xe Dx−1/2

donde Dx es la matriz diagonal que contiene las varianzas muestrales de X .

Caracterı́sticas muestrales de Y : y = 0p , Sy = Rx y Ry = Rx . Es decir,


Sy = Ry .

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 35 / 58
Ejemplo ilustrativo I
Datos estandarizados
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

2
1
Y1

0
−1
1.5
1.0
0.5
0.0

Y2
−0.5
−1.0
−1.5

2
1
Y3

0
−1
−1 0 1 2 −1 0 1 2

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 36 / 58
La matriz de datos

Inferencia con la matriz de datos:


1 Estimación máximo-verosimil: Ajuste de los parámetros de una distribución.
2 Contrastes de hipótesis: Inferencia sobre los parámetros de una distribución,
independencia,. . .

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 37 / 58
1 Introducción

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 38 / 58
Componentes principales

Componentes principales: Método muy sencillo y efectivo de:


1 Identificar variables latentes incorreladas: Proporcionan interpretaciones
interesantes de los datos;
2 Obtener una nueva matriz de datos con menos variables: Eliminación del
ruido.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 39 / 58
Componentes principales

Misma unidad de medida en X :

Z = Xe Vp

donde Vp es la matriz ortogonal cuyas columnas son los p autovectores de


Sx .

Diferentes unidades de medida en X :

Z = YVpR

−1/2
donde Y = Xe Dx es la estandarización individual de X y VpR es la matriz
ortogonal cuyas columnas son los p autovectores de Rx .

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 40 / 58
Ejemplo ilustrativo I

Diferentes unidades de medida: Tres variables con diferentes unidades de


medida.

Autovectores de Rx : Columnas de la siguiente matriz:


 
−0.56 0.76 0.30
V3R =  −0.59 −0.12 −0.79 
−0.57 −0.62 0.52

Puntuaciones de los CPs:


Z = YV3R

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 41 / 58
Ejemplo ilustrativo I
Datos
2 4 6 8

3.0
2.5
2.0
Log−Masa

1.5
1.0
0.5
0.0
8
6

Log−Periodo
4
2

0.6
0.5
0.4
Log−Excentricidad

0.3
0.2
0.1
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 42 / 58
Ejemplo ilustrativo I
CPs
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

2
1
CP1

0
−1
−2
1.5
1.0
0.5

CP2
0.0
−0.5
−1.0
−1.5

1
CP3

0
−1
−2
−2 −1 0 1 2 −2 −1 0 1

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 43 / 58
Ejemplo ilustrativo I
Diagrama de dispersión en 3d de Datos Diagrama de dispersión en 3d de CPs
0.7
0.6
0.5

CP2
Log−Excentricidad

2.0
0.4

1.5

1
1.0
0.3

Log−Periodo
0.5

CP3

0
10 0.0
0.2

8
−0.5
6 −1

−1.0
0.1

4
−1.5
2
0.0

−2

0 −2.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 −3 −2 −1 0 1 2 3

Log−Masa CP1

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 44 / 58
Componentes principales

Varianzas de los CPs:


1 Misma unidad de medida en X : Autovalores de la matriz Sx .
2 Diferentes unidades de medida en X : Autovalores de la matriz Rx .

Ejercicio: Demostrar lo anterior.

Notación para los autovalores: λ1 , . . . , λp .

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 45 / 58
Componentes principales

Importancia de las CPs: Utilizar las proporciones de variabilidad explicada


y variabilidad explicada acumulada.

Proporción de variabilidad explicada por cada CP:


λj
PVj = j = 1, . . . , p
λ1 + · · · + λp

Proporción de variabilidad explicada acumulada por los primeros j


CPs:
λ1 + · · · + λj
PVAj = j = 1, . . . , p
λ1 + · · · + λp

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 46 / 58
Ejemplo ilustrativo I

Autovalores de Rx :

λ1 = 1.8454, λ2 = 0.6185, λ3 = 0.5359.

Proporción de variabilidad explicada por cada CP:

PV1 = 0.6151, PV2 = 0.2061, PV3 = 0.1786.

Proporción de variabilidad explicada acumulada por los primeros j


CPs:
PVA1 = 0.6151, PVA2 = 0.8213, PVA3 = 1.000.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 47 / 58
Ejemplo ilustrativo I
Gráfico de codo
1.8
1.6
1.4
Variances

1.2
1.0
0.8
0.6

Comp.1 Comp.2 Comp.3

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 48 / 58
Ejemplo ilustrativo I

Número de CPs importantes: Dos primeras CPs explican el 82.13 % de la


variabilidad total.

Primera CP:
z1 = −0.56y1 − 0.59y2 − 0.57y3 ,
donde yj = (xj − x j ) /sj , para j = 1, . . . , 3.

Interpretación de la primera CP: Separa planetas con valores altos de


masa, periodo y excentricidad, de planetas con valores bajos de dichas va-
riables.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 49 / 58
Ejemplo ilustrativo I

Segunda CP:
z1 = 0.76y1 − 0.12y2 − 0.62y3 ,
donde yj = (xj − x j ) /sj , para j = 1, . . . , 3.

Interpretación de la segunda CP: Separa planetas con valores altos de


masa pero bajos de excentricidad, de planetas con valores bajos de masa
pero altos de excentricidad.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 50 / 58
1 Introducción

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 51 / 58
¿A donde vamos?

Técnicas avanzadas para datos multivariantes:


1 Análisis de conglomerados.
2 Escalado multimensional.
3 Análisis factorial.
4 Regresión multivariante.
5 Correlaciones canónicas.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 52 / 58
¿A donde vamos?

Análisis de conglomerados:
1 Análisis de conglomerados: Conjunto de métodos para dividir las observa-
ciones de un conjunto de datos multivariantes en grupos.
2 Similaridad: Observaciones dentro del mismo grupo deben sean similares y a
la vez diferentes de observaciones en otros grupos.
3 Técnica exploratoria: ¿Qué significa de dos observaciones sean similares?

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 53 / 58
¿A donde vamos?

Escalado multidimensional:
1 Escalado multidimensional: Procedimiento para obtener variables cuando
los datos representan distancias entre observaciones.
2 Técnica exploratoria: El objetivo final es obtener gráficos de ciertas variables
a obtener que nos ayudan a entender por qué dos observaciones están cerca
o lejos.
3 Aplicaciones: Marketing y análisis de encuestas.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 54 / 58
¿A donde vamos?

Análisis factorial:
1 Análisis factorial: Procedimiento para obtener variables latentes, llamadas
factores, a partir de una matriz de datos.
2 Extensión: El análisis factorial es una extensión más elaborada del análisis
de componentes principales.
3 Variables latentes: Permite definir variables que no se pueden medir direc-
tamente: inteligencia, clase social,. . .

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 55 / 58
¿A donde vamos?

Regresión multivariante:
1 Regresión multivariante: Procedimiento para predecir una variable respuesta
multivariante mediante una variable regresora multivariante.
2 Regresión univariante: Esencialmente la regresión multivariante es una ex-
tensión directa de la extensión univariante, si bien hay aspectos algo más
complejos.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 56 / 58
¿A donde vamos?

Correlaciones canónicas:
1 Correlaciones canónicas: Consiste en un procedimiento para medir el grado
de dependencia que hay entre dos variables multivariantes.
2 Fuerte relación: CCs tienen una relación muy fuerte con componentes prin-
cipales y con regresión multivariante.

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 57 / 58
1 Introducción

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

Pedro Galeano (Curso 2016/2017) Análisis multivariante II - Introducción Grado en Estadı́stica y Empresa 58 / 58

Vous aimerez peut-être aussi