Académique Documents
Professionnel Documents
Culture Documents
M. Vargas Jimenez
2012/02/11
Indice general
4. T
ecnicas multivariantes: an
alisis de componentes principales
y an
alisis cluster
4.1. Analisis de componentes principales (ACP) . . . . . . . . . . .
4.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2. Los datos . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3. Descripcion de la tecnica . . . . . . . . . . . . . . . . .
4.2. Relacion entre variables originales y componentes . . . . . . .
4.3. Interpretacion. Correlaciones entre variables y componentes
(matriz de componentes) . . . . . . . . . . . . . . . . . . . . .
4.4. Proporcion de varianza extrada por las componentes . . . . .
4.5. Rotaciones de la solucion . . . . . . . . . . . . . . . . . . . . .
4.6. Puntuaciones factoriales (desde la perspectiva de la regresion)
4.7. Funciones R usadas . . . . . . . . . . . . . . . . . . . . . . . .
4.8. Ejemplo con R: Analisis de componentes principales (ACP) . .
5
5
5
6
6
8
8
9
9
11
12
13
INDICE GENERAL
Captulo 4
T
ecnicas multivariantes:
an
alisis de componentes
principales y an
alisis cluster
4.1.
An
alisis de componentes principales (ACP)
4.1.1.
Introducci
on
El analisis de componentes principales es una tecnica desarrollada por Hotelling, que permite resumir la informacion proporcionada por un conjunto
de variables observadas en un grupo de individuos en un n
umero menor de
otras nuevas variables, denominadas componentes principales, generadas
a partir de las observadas, con la particularidad de estar incorrelacionadas
entre s (eliminando la redundancia informativa que en general caracteriza a
las variables observadas) en favor de unas pocas dimensiones de variabilidad m
axima que pueden, a su vez, tratar de ser interpretadas en funcion
del modo con que se relacionan linealmente con las variables originales.
Este nuevo conjunto de menor dimension y, por tanto, mas manejable
puede ser usado en analisis posteriores.
Ejemplos:
1) En un estudio sobre el conjunto de provincias espa
nolas se desea resumir ciertas dimensiones que las caracterizan, reflejadas en una serie de
variables que miden aspectos muy diversos: indicadores relacionados con la
5
6CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRINC
actividad industrial, con la actividad agrcola, con el nivel cultural, con la
dimension o tama
no de la provincia (extension y poblacion), etc.
2) Un grupo de candidatos a un empleo ha realizado una serie de 20
pruebas, cada una de ellas pretende medir una cualidad del individuo y logicamente se espera que estas presenten correlaciones de mayor a menor grado
entre s: Nivel en cultura general, nivel de adaptacion, nivel de razonamiento, nivel de comunicacion con los otros, nivel de compa
nerismo, capacidad
para trabajar en grupo, etc. Se desea puntuar a cada uno de ellos con unas
pocas medidas que resuman sus puntuaciones en las 20 pruebas. Y, ademas,
conocer que aspectos miden cada una de estas pocas dimensiones extradas,
a traves del conocimiento de su correlacion con las 20 pruebas originales.
4.1.2.
Los datos
4.1.3.
Descripci
on de la t
ecnica
p
X
aij Xi = Xaj
i=1
En notacion matricial:
YN p = XN p App
A es la matriz de orden p p que describe las combinaciones lineales
La primera componente principal, Y1 de orden N 1 es, pues, una
transformacion lineal de las variables originales X(N xp) que cumple ciertos
requisitos:
4.1. ANALISIS
DE COMPONENTES PRINCIPALES (ACP)
Y1 =
p
X
= ai1 Xi = Xa1
i=1
a2i1 = 1
i=1
p
X
= ai2 Xi = Xa2
i=1
a2i1 = 1
i=1
8CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRINC
donde A es la matriz de orden p p cuyas columnas aj (j = 1, ..., p)
constituyen los vectores propios de S (matriz de covarianzas de las X 0 s)
p
X
i=1
4.2.
V (Xi ) =
p
X
i =
i=1
p
X
V (Yi )
i=1
Relaci
on entre variables originales y componentes
Dada la matriz XN p que contiene las puntuaciones centradas en las variables observadas y la matriz YN xp que contiene las puntuaciones sobre las
componentes, hemos visto que podemos determinar las componentes mediante la relacion:
YN xp = XN xp Apxp
Si posmultiplicamos por A0 la expresion anterior, podemos expresar las
variables originales en funcion de las componentes mediante:
XN xp = YN xp A0pxp
En particular, podemos expresar la matriz de covarianzas en las variables
originales mediante la expresion:
Cov(X) = ACov(Y )A0 = ADA0
siendo
D = Diag(i )
En particular, si las variables originales X 0 s se expresan en terminos estandarizados se tiene:
R = ADA0
4.3.
Interpretaci
on. Correlaciones entre variables y componentes (matriz de componentes)
rXj Yi = aji i
Por tanto, seg
un la expresion anterior, la matriz de correlaciones entre las
variables X y las componentes Y , que notaremos indistintamente con C o
R(X,Y ) , se obtiene mediante:
R(X,Y ) = ADiag( )
En ACP, ambas matrices (A y C) ayudan de modo similar a interpretar
las componentes principales. Las columnas de una son proporcionales a las
de la otra.
La matriz de correlaciones de las variables y las componentes principales
se denomina Matriz de componentes
4.4.
Proporci
on de varianza extrada por las
componentes
4.5.
Rotaciones de la soluci
on
10CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
La solucion del ACP o de un analisis factorial AF realizado constituye,
a veces, solo una primera aproximacion para tratar de descubrir una estructura simple que nos permita interpretar de forma inteligible y sustantiva las
componentes o factores obtenidos a partir de los datos. Ya hemos visto que
la matriz de pesos C nos sirve de gua para interpretar las componentes principales. Con la rotacion se busca una matriz, C R (rotada), simplificada que
permita interpretarlos conceptualmente.
C R = CT
La matriz T es la constituida por los coeficientes que definen la rotacion
ejercida. (denominada matriz de transformaci
on de las componentes).
R
Matriz de componentes C (nueva matriz de correlaciones de cada
variable con cada componente).
Tanto C R como C de orden pxk reproducen igualmente las correlaciones entre variables observadas. Una solucion rotada, C R , explica la misma
covariacion o correlacion que la solucion inicial no rotada, C.
La matriz reproducida puede expresarse como
R = CC 0
Si comparamos la matriz de correlaciones reproducidas 1 con la matriz de
correlaciones observadas (su diferencia es la matriz residual).
Siguiendo el criterio de estructura simple de Thurstone la matriz C R
rotada debera presentar ciertas caractersticas de modo que sea mas facil la
interpretacion de la naturaleza de las componentes, las cuales se resumen en:
a) Presentar subgrupos de variables originales correlacionadas con las distintas componentes. Cada subgrupo con variables altamente correlacionadas
con una sola componente. Por tanto, dado un subgrupo de variables originales y la correspondiente componente con la que se relacionan, los coeficientes
de la matriz C R tendran, la oportuna columna con valores altos en las filas
constituidas por las variables de dicho subgrupo. Valores proximos a cero en
el resto de las filas.
b) Al mismo tiempo, cada variable no debera estar simultaneamente
asociada a dos componentes distintas (dado que se intenta que cada una
recoja una dimension de naturaleza distinta) esto conlleva que cada fila de
la matriz C R presente valores iguales a cero, salvo en la posicion relativa a la
columna que representa la componente con la que teoricamente se relaciona
la variable en cuestion.
1
4.6. PUNTUACIONES FACTORIALES (DESDE LA PERSPECTIVA DE LA REGRESION)11
Haciendo un esquema simplificado del prototipo perseguido en la matriz
y si suponemos idealmente reordenadas las variables de arriba hacia abajo en dichos subgrupos colocando de izquierda a derecha las componentes
asociadas, la matriz podra presentar el esquema siguiente:
a1 0 ... 0
... ... ... ...
ak 0 ... 0
0 b1 ... 0
... ... ... ...
0 bh ... 0
... ... ... ...
... ... ... c1
... ... ... ...
... ... ... cq
4.6.
12CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
matriz estructura. La matriz de coeficientes (R1 C) permite obtener las
puntuaciones estandarizas de Y:
Veanse los ejemplos en seccion de practicas adicionales
4.7.
Funciones R usadas
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)13
Las desviaciones tpicas de las componentes (es decir, las races cuadradas
de los valores propios): sdev
Una matriz con los vectores propios asociados a la matriz de covarianzas
o correlaciones (loadings). Estos vectores propios, a su vez, se pueden usar
con la funcion print:
print(objeto, digits = 3, cutof f = 0,1, sort = F ALSE, ...)
donde objeto es una matriz de loadings derivados de un analisis princomp,
o el objeto derivado del analisis de componentes principales princomp. El
argumento digits permite especificar el n
umero de decimales usados en la
presentacion. El argumento cutoff permite no visualizar los valores de los
loadings bajos (en valor absoluto) para ver con mayor claridad la forma en
que se relacionan variables y componentes, de modo que sea mas facil la
interpretacion de los componentes.
El argumento sort permite ordenar las variables seg
un su importancia
en cada factor. Lo que da mayor claridad al resultado y puede facilitar la
interpretacion asociando las variables a los componentes.
Las puntuaciones de los casos en cada una de las componentes (scores)
Nota:
En el calculo de la matriz de covarianza, se usa N en vez de N-1 en
denominadores de las formulas.
princomp solo maneja el modo R-mode (correlacion entre variables) de
PCA. Si los datos se dan (posiblemente mediante una formula) debe haber
al menos tantas filas como variables. Para usar el modo Q-mode PCA use
prcomp.
Recuerde que el signo de las columnas de loadings y scores son arbitrarios.
En general, pueden ser distintos seg
un el programa usado, e incluso dentro
de R.
Otras funciones
Prcomp() usa N-1 como denominador en las formulas de covarianza. Usa
scale como argumento para usar la matriz de correlaciones. Para mas informacion vea ayuda de R.
4.8.
Ejemplo con R: An
alisis de componentes
principales (ACP)
14CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
El analisis de componentes principales permite resumir un conjunto de
variables, supuestamente relacionadas, en unas pocas, no relacionadas entre
s, pero capaces de capturar la mayor variabilidad de la informacion original.
El objetivo primordial del ACP es resumir la informacion original de las 12
variables observadas sobre las CCAA, creando nuevas variables (componentes
principales), tales que unas pocas (las primeras) sean capaces de reflejar la
mayor informacion posible registrada en los datos originales. Estas nuevas
variables no estan relacionadas entre s.
Mediante el ejemplo veremos los terminos y resultados mas comunes ligados a un ACP.
DATOS
ccaa
TparoEs TparoEx TemplEs TemplEx TactiEs TactiEx
Andaluca
28.93
38.78
40.81
43.32
40.81
43.32
Aragon
13.05
36.49
47.99
50.91
47.99
50.91
Asturias
16.11
32.98
42.22
51.27
42.22
51.27
Baleares
17.76
28.77
51.71
52.85
51.71
52.85
Canarias
28.36
32.70
43.39
50.06
43.39
50.06
Cantabria
13.44
31.50
47.66
48.29
47.66
48.29
CastillaLeon
15.15
31.00
45.64
54.18
45.64
54.18
CastillaLaMa
20.63
32.80
44.38
54.46
44.38
54.46
Catalu
na
15.30
32.60
50.91
53.20
50.91
53.20
Valenciana
20.83
36.06
45.90
43.15
45.90
43.15
Extremadura
23.40
35.71
41.22
46.73
41.22
46.73
Galicia
15.79
33.52
45.46
49.44
45.46
49.44
Madrid
14.03
22.58
51.47
64.23
51.47
64.23
Murcia
21.36
36.17
45.66
49.26
45.66
49.26
Navarra
9.84
25.38
51.36
62.47
51.36
62.47
PasVasco
10.78
23.13
50.85
60.73
50.85
60.73
Rioja
12.19
35.20
49.79
51.54
49.79
51.54
Ceuta
27.44
46.91
39.83
28.36
39.83
28.36
Melilla
21.08
36.62
44.66
32.38
44.66
32.38
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)15
ccaa
Tatemporal Tasalari Taparcial PorcExt IndPobesp IndPobext
Andaluca
34.00
83.00
15.00
9.90
102.82
183.27
Aragon
24.00
81.00
14.00
12.81
98.15
179.83
Asturias
24.00
81.00
12.00
5.57
96.23
186.73
Baleares
27.00
81.00
13.00
24.32
102.77
160.27
Canarias
31.00
86.00
13.00
17.98
103.53
159.23
Cantabria
21.00
84.00
12.00
7.18
100.18
181.83
CastillaLeon
22.00
80.00
13.00
6.42
97.47
172.92
CastillaLaMa
27.00
81.00
12.00
10.60
104.62
188.45
Catalu
na
20.00
84.00
13.00
16.34
99.58
146.97
Valenciana
27.00
82.00
17.00
19.40
100.84
164.28
Extremadura
37.00
80.00
14.00
3.25
101.12
164.04
Galicia
25.00
78.00
12.00
5.52
98.63
151.63
Madrid
20.00
88.00
12.00
19.09
100.52
151.55
Murcia
34.00
84.00
14.00
19.39
103.07
170.06
Navarra
26.00
84.00
15.00
13.05
99.59
172.36
PasVasco
23.00
84.00
15.00
6.16
97.39
165.20
Rioja
20.00
81.00
16.00
13.92
100.47
132.28
Ceuta
31.00
91.00
13.00
10.43
103.03
174.75
Melilla
24.00
83.00
14.00
15.09
107.64
147.68
Deseamos resumir la informacion a unas pocas variables (componentes
principales) no correlacionadas entre s.
Procedimiento:
1. Comprobar si los datos son apropiados para el analisis.
2. Si la respuesta es afirmativa, realizar ACP y encontrar un n
umero adecuado de componentes que resuma la informacion original
3. Interpretar los resultados del analisis
Exploraci
on de los datos antes de la aplicaci
on de la
t
ecnica
La matriz de datos esta formada por 19 casos (17 Comunidades Autonomicas mas Ceuta y Melilla) sobre los que se observan 12 variables.
16CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
Realizaremos el acp con las 10 variables siguientes observadas en las
CCAA:
TparoEs=Tasa de paro de espa
noles
TparoEx=Tasa de paro de extranjeros residentes en Espa
na
TemplEs=Tasa de empleo de espa
noles
TemplEx=Tasa de empleo de extranjeros residentes en Espa
na
Tatemporal=Tasa de temporalidad
Tasalari=Tasa de asalarizacion
Taparcial=Tasa de empleo a tiempo parcial
PorcExt=Porcentaje de extrajeros residentes en la comunidad
IndPobesp=Indice de crecimiento de poblacion espa
nola entre 2005 y 2011
IndPobext=Indice de crecimiento de poblacion extranjera entre 2005 y
2011
No utilizamos la variable tasa de actividad porque esta relacionada exactamente con las tasas de paro y empleo (hay, por definidicion, dependencia
exacta entre las 3 tasas). Compruebe que usando las 12 variables originales
se obtendran componentes con varianza cero.
Si las variables no estan relacionadas (correlaciones no significativas) no
tendra sentido realizar un analisis de componentes principales, puesto que el
resultado mostrara tantas componentes como variables originales.
La matriz objeto de analisis sera la de correlaciones entre las variables
originales. Es mejor usar las correlaciones en vez de covarianzas cuando se
sospecha que las variables presentan variabilidad muy diversa con escalas de
medicion distintas. Un grafico caja de las variables permite apreciar esto en
los datos.
null device
1
100
150
50
TparoEs
TparoEx
TemplEs
TemplEx
Tatemporal
Tasalari
Taparcial
PorcExt
IndPobesp
IndPobext
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)17
Un examen de las correlaciones entre las variables originales permite chequear si es apropiado o no el ACP.
Si entre las variables no hay muestra de asociacion o correlacion no convendra utilizar ACP
El determinante de esta matriz de correlaciones ofrece tambien un indicador de si los datos son o no susceptibles de resumir mediante un acp. Un valor
del determinante muy bajo es indicio de alta correlacion entre las variables.
Presentamos la tabla de correlaciones
TparoEs
TparoEx
TemplEs
TemplEx
Tatemporal
Tasalari
Taparcial
PorcExt
IndPobesp
IndPobext
TparoEs
TparoEx
TemplEs
TemplEx
Tatemporal
Tasalari
Taparcial
PorcExt
IndPobesp
IndPobext
18CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
null device
1
Correlaciones entre variables
50
30
78 84 90
25
15
40
46
Tasalari
PorcExt
15
20
10
IndPobesp
12
30
Taparcial
20
52
Tatemporal
140 170
25
20
15
TemplEx
180
TemplEs
90
TparoEx
140
10
84
52
25
40
46
78
40
30
TparoEs
20
30 45 60
15
12
40
96 102
25
IndPobext
96
102
Resultados del an
alisis: Comunalidades, Varianza total
explicada, Matriz de componentes. Rotaci
on Varimax.
Obtendremos los siguientes resultados:
Matriz de comunalidades
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)19
Tabla de varianza total explicada
Matriz de componentes
Grafico de componentes (en espacio rotado o sin rotar)
Puntuaciones en las componentes
Grafico de dispersion de las puntuaciones en las componentes
La funcion R que realiza el analisis es princomp()
> acp1=princomp(dacp,cor=TRUE) #usa la matriz de
>
# correlaciones para el an
alisis
> summary(acp1)
Importance of components:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Standard deviation
2.038519 1.4161365 1.0957724 0.94796631 0.85368207 0.67465758
Proportion of Variance 0.415556 0.2005442 0.1200717 0.08986401 0.07287731 0.04551629
Cumulative Proportion 0.415556 0.6161002 0.7361719 0.82603592 0.89891323 0.94442952
Componentes 6 a 10:
desv.tpica
varianza
proporcion
prop.Acumulada
La tabla de Varianza Total Explicada presenta la varianza de cada componente (autovalor) en orden descendente de importancia. Tambien se expresan en porcentaje con base la variabilidad total (igual a n
umero de variables
20CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
cuando las variables estan tipificadas). La primera componente es la de mayor varianza, la segunda presenta un valor en la varianza inferior o igual a
la primera, as sucesivamente. Si el ACP da buenos resultados, unas pocas
componentes nos permitiran extraer un alto porcentaje de la variabilidad de
los datos.
null device
1
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)21
2
0
Varianza
Grfico de sedimentacin
Comp.1
Comp.3
Comp.5
Comp.7
Comp.9
Matriz de componentes
La matriz de componentes muestra las correlaciones entre cada variable
observada y cada una de las componentes extradas. Puede ser muy u
til para
22CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
interpretar los componentes, as como su visualizacion mediante representacion grafica en el Gr
afico de Componentes.
Establecemos el analisis mediante extraccion de unas pocas componentes:
El 73.62 % de la variabilidad de los datos se encuentra representado por
las 3 primeras componentes (vea tabla de Varianza Total Explicada
Si decidimos tomar como resumen de las 10 variables solo las 3 primeras
componentes, la matriz de componentes, C, correspondiente, se obtiene determinando el coeficiente de correlacion entre las variables y cada una de las
componentes extradas:
Matriz de 3 primeras componentes C:
> # dacp contiene los datos
> C=cor(dacp,predict(acp1)[,1:3])
> C
Comp.1
TparoEs
-0.92229235
TparoEx
-0.85136470
TemplEs
0.87888916
TemplEx
0.84532160
Tatemporal -0.76347726
Tasalari
-0.23337851
Taparcial -0.05141336
PorcExt
0.05574956
IndPobesp -0.61183888
IndPobext -0.27502463
Comp.2
0.12327560
-0.03808086
0.40696102
-0.10156936
-0.06813851
0.41791402
0.35158286
0.87103828
0.57742201
-0.64639965
Comp.3
-0.12355443
0.23429605
-0.01397440
-0.17593130
0.05003795
-0.60877847
0.75080874
-0.14472569
-0.15533365
-0.34279259
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)23
Taparcial
PorcExt
IndPobesp
IndPobext
AUTOVALOR
Vector de comunalidades
Un resultado u
til es el coeficiente de correlaci
on m
ultiple entre cada
variable observada (Xi ) y las componentes principales (Ys). Su valor es 1 (si
tomamos todas las componentes), dado que toda variable Xi puede expresarse
de modo exacto como combinacion lineal de las componentes.
Cuando se realiza la extraccion de un n
umero de componentes inferior al
2
de variables, el coeficiente R , que tiene cada variable Xi , con el subgrupo formado por solo las componentes extradas se interpreta como la proporci
on
de varianza de la variable X que es explicada por el subconjunto
de las componentes extradas.
Valores altos suponen un buen resultado del analisis. Esto indica que la
variabilidad presente en cada variable observada esta compartida casi en su
totalidad por las componentes extradas. Se dice, entonces, que la variable
esta bien representada por las componentes.
La comunalidad de cada variable Xi se obtiene a partir de la matriz, C,
de componentes como la suma de los cuadrados de los elementos de cada fila.
La suma de los cuadrados de los elementos de cada fila es la comunalidad
correspondiente a la variable representada en dicha fila.
24CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
> COMUNALIDAD=C[,1]^2 + C[,2]^2 + C[,3]^2
> cbind(C,COMUNALIDAD)
Comp.1
TparoEs
-0.92229235
TparoEx
-0.85136470
TemplEs
0.87888916
TemplEx
0.84532160
Tatemporal -0.76347726
Tasalari
-0.23337851
Taparcial -0.05141336
PorcExt
0.05574956
IndPobesp -0.61183888
IndPobext -0.27502463
Comp.2
0.12327560
-0.03808086
0.40696102
-0.10156936
-0.06813851
0.41791402
0.35158286
0.87103828
0.57742201
-0.64639965
Comp.3 COMUNALIDAD
-0.12355443
0.8810858
0.23429605
0.7811666
-0.01397440
0.9382587
-0.17593130
0.7558368
0.05003795
0.5900442
-0.60877847
0.5997289
0.75080874
0.6899676
-0.14472569
0.7827612
-0.15533365
0.7318915
-0.34279259
0.6109778
Rotaci
on Varimax
Una de las rotaciones mas usada es la denominada VARIMAX.
La funcion R varimax() de R permite ejecutar la rotacion, tomando como
input la matriz C de componentes de la solucion sin rotar.
> rota=varimax(C, normalize= T) # C es la matriz de componentes
>
#(correlaciones entre X e Y) en soluci
on no rotada
> rota
$loadings
Loadings:
Comp.1 Comp.2 Comp.3
TparoEs
-0.874 0.322 -0.114
TparoEx
-0.880
TemplEs
0.895 0.187 0.321
TemplEx
0.853 -0.117 -0.118
Tatemporal -0.763
Tasalari
0.727 -0.252
Taparcial -0.158 -0.152 0.801
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)25
PorcExt
IndPobesp
IndPobext
SS loadings
Proportion Var
Cumulative Var
$rotmat
[,1]
[,2]
[,3]
[1,] 0.98148808 -0.1644862 0.09810934
[2,] 0.07259121 0.7935264 0.60419062
[3,] -0.17723337 -0.5858840 0.79077699
La matriz de componentes rotados viene dada por la matriz de pesos
(loadings) que proporciona R.
(rota$loadings)
La matriz de comunalidades logicamente es la misma. La solucion se busca
en un espacio de la misma dimension (3 en este caso). Las saturaciones al
cuadrado correspondientes a las componentes variaran. (Observe que cada
una de las componentes rotadas ahora acumula diferente varianza)
Comp.1 Comp.2 Comp.3
SS loadings
4.051 1.787 1.523
Proportion Var 0.405 0.179 0.152
Cumulative Var 0.405 0.584 0.736
26CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
Interpretaci
on de los resultados del an
alisis
El grafico de componentes (rotado o sin rotar) puede ayudar a interpretar
los componentes, visualizando las posiciones de las variables respecto a ellos.
Rotacion Varimax. Grafico de componentes
La funcion plot() de R permite representar las columnas de la matriz de
correlaciones entre variables y componentes (loadings) en el plano, visualizando el grado mayor o menor de relacion entre variables y componentes
(ejes vertical u horizontal) viendo la mayor o menor distancia (vertical u horizontal) del punto del origen. Variables representadas con puntos cercanos
al origen tendran correlaciones bajas con las componentes.
Grafico de componentes rotados 1 y 2
null device
1
1.0
PorcExt
Tasalari
0.5
IndPobesp
TemplEs
Tatemporal
0.0
rota$loadings[, 2]
TparoEs
TparoEx
TemplEx
Taparcial
1.0
0.5
IndPobext
1.0
0.5
0.0
0.5
1.0
rota$loadings[, 1]
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)27
da), y por otro lado, las variables TemplEs y TemplEx (a la derecha). Todas
ellas estan altamente relacionadas con la primera componente.
Con la segunda componente, las variables mas relacionadas son Tasalari,
PorcExt y IndPobesp (alejadas verticalmente del origen).
Grafico de componentes rotados 1 y 3
null device
1
1.0
0.5
Taparcial
PorcExt
IndPobesp
TparoEx
0.0
rota$loadings[, 3]
TemplEs
Tatemporal
TparoEs
TemplEx
0.5
Tasalari
1.0
IndPobext
1.0
0.5
0.0
0.5
1.0
rota$loadings[, 1]
Tal como muestra el grafico, las variables mas relacionadas con la tercera
componente son Taparcial e IndPobext.
Grafico de componentes rotados 2 y 3
null device
1
28CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
1.0
0.5
Taparcial
PorcExt
IndPobesp
TparoEx
0.0
rota$loadings[, 3]
TemplEs
Tatemporal
TparoEs
TemplEx
0.5
Tasalari
1.0
IndPobext
1.0
0.5
0.0
0.5
1.0
rota$loadings[, 2]
null device
1
0.5
0.0
0.5
TparoEx
TemplEs
TemplEx
Tatemporal
Tasalari
Taparcial
PorcExt
IndPobesp
IndPobext
TparoEs
TparoEx
TemplEs
TemplEx
Tatemporal
Tasalari
Taparcial
PorcExt
IndPobesp
IndPobext
TparoEs
TparoEx
TemplEs
TemplEx
Tatemporal
Tasalari
Taparcial
PorcExt
IndPobesp
IndPobext
0.6
0.2 0.0
0.2
0.4
0.6
0.8
0.2
0.0
0.2
0.4
0.6
TparoEs
null device
1
30CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
1.0
0.5
PorcExt
Tasalari
Taparcial
TemplEs
0.0
TparoEs
TparoEx
Tatemporal
TemplEx
IndPobext
1.0
0.5
acp1$loadings[, 2]
IndPobesp
1.0
0.5
0.0
acp1$loadings[, 1]
null device
1
0.5
1.0
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)31
1.0
TparoEx
Tatemporal
0.0
acp1$loadings[, 3]
0.5
Taparcial
TemplEs
TparoEs
PorcExt
IndPobesp
TemplEx
0.5
IndPobext
1.0
Tasalari
1.0
0.5
0.0
acp1$loadings[, 1]
null device
1
0.5
1.0
32CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
1.0
TparoEx
Tatemporal
0.0
acp1$loadings[, 3]
0.5
Taparcial
TemplEs
TparoEs
TemplEx
IndPobesp
PorcExt
0.5
IndPobext
1.0
Tasalari
1.0
0.5
0.0
0.5
1.0
acp1$loadings[, 2]
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)33
La componente 1 esta mas relacionada con las tasas de paro y empleo
as como la tasa de empleo temporal, por lo que podemos decir, que
refleja aspectos relacionados con la situacion de estabilidad o inestabilidad laboral de las personas de la Comunidad Autonomica (parados,
trabajando, trabaja solo temporadas).
La componente 2 esta mas relacionada con aspectos demograficos, movimientos y cambios poblacionales (PorcExt, IndPobesp, IndPobext),
como porcentaje de extranjeros en la Comunidad, ndices de crecimiento de poblacion espa
nola y extranjera en un periodo de 2005 a 2011.
La componente 3 esta relacionada con variables que especifican el tipo
de trabajor (asalariado, trabajo parcial) ya que se relaciona con mas
fuerza con las variables Tasalari y Tparcial.
34CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
Las puntuaciones de las observaciones o casos en las componentes se obtienen mediante la funcion predict(). Tambien se pueden obtener predicciones
para nuevos datos.
Las variables nuevas, Y, estan incorrelacionadas y sin estandarizar:
Comp.1
Comp.2
Comp.3
Andaluc
a
-3.2210885 -0.5867240 0.466246511
Arag
on
0.7935344 -0.8847962 0.572263840
Asturias
0.3242513 -2.8781577 -0.456912598
Baleares
1.0502682 1.7942212 -0.411771573
Canarias
-1.7708951 1.2550762 -1.160602709
Cantabria
0.8595396 -1.2410689 -1.150736482
CastillaLe
on 1.2479130 -1.8555456 0.278247958
CastillaLaMa -0.7485217 -0.9800064 -1.173695140
Catalu~
na
1.7176019 1.1298331 -0.218172415
Valenciana
-0.8380510 1.3108279 1.878271841
Extremadura -2.1033152 -1.5231101 1.143455274
Galicia
0.6897847 -1.5059670 0.782934218
Madrid
2.9067957 1.6247930 -2.229532369
Murcia
-1.4665191 1.0068320 -0.232612475
Navarra
2.4627263 0.2018011 -0.006787846
Pa
sVasco
2.9148149 -0.6064036 0.314476372
Rioja
1.6468877 1.5492776 2.305971485
Ceuta
-4.5407798 0.2247132 -1.239670843
Melilla
-1.9249473 1.9644041 0.538626950
La matriz de covarianza de las 3 primeras viene dada por
Comp.1
Comp.2
Comp.3
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)35
CCAA en 1 y 2 componentes
Melilla
Baleares
Madrid
Rioja
Catalua
Ceuta
0
Navarra
Andaluca
1
PasVasco
Aragn
CastillaLaMa
Cantabria
Galicia
Extremadura
CastillaLen
Canarias Valenciana
Murcia
Asturias
null device
1
36CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
CCAA en 1 y 3 componentes
Valenciana
Extremadura
Andaluca
Galicia
Aragn
Melilla
PasVasco
CastillaLen
0
Navarra
Catalua
Asturias Baleares
Murcia
Cantabria
Canarias CastillaLaMa
Ceuta
Rioja
Madrid
null device
1
4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)37
CCAA en 1 y 2 componentes
1.5
Madrid
Canarias
1.0
Baleares
Melilla
Murcia
0.5
Catalua
0.0
CastillaLaMa
Cantabria
Valenciana
Navarra
Andaluca
0.5
Ceuta
Rioja
PasVasco
1.0
Aragn
CastillaLen
Galicia
Asturias
1.5
Extremadura
1.5
1.0
0.5
0.0
0.5
1.0
1.5