Vous êtes sur la page 1sur 37

Estadstica para las Ciencias del Trabajo

M. Vargas Jimenez
2012/02/11

Indice general
4. T
ecnicas multivariantes: an
alisis de componentes principales
y an
alisis cluster
4.1. Analisis de componentes principales (ACP) . . . . . . . . . . .
4.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2. Los datos . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3. Descripcion de la tecnica . . . . . . . . . . . . . . . . .
4.2. Relacion entre variables originales y componentes . . . . . . .
4.3. Interpretacion. Correlaciones entre variables y componentes
(matriz de componentes) . . . . . . . . . . . . . . . . . . . . .
4.4. Proporcion de varianza extrada por las componentes . . . . .
4.5. Rotaciones de la solucion . . . . . . . . . . . . . . . . . . . . .
4.6. Puntuaciones factoriales (desde la perspectiva de la regresion)
4.7. Funciones R usadas . . . . . . . . . . . . . . . . . . . . . . . .
4.8. Ejemplo con R: Analisis de componentes principales (ACP) . .

5
5
5
6
6
8
8
9
9
11
12
13

INDICE GENERAL

Captulo 4
T
ecnicas multivariantes:
an
alisis de componentes
principales y an
alisis cluster
4.1.

An
alisis de componentes principales (ACP)

4.1.1.

Introducci
on

El analisis de componentes principales es una tecnica desarrollada por Hotelling, que permite resumir la informacion proporcionada por un conjunto
de variables observadas en un grupo de individuos en un n
umero menor de
otras nuevas variables, denominadas componentes principales, generadas
a partir de las observadas, con la particularidad de estar incorrelacionadas
entre s (eliminando la redundancia informativa que en general caracteriza a
las variables observadas) en favor de unas pocas dimensiones de variabilidad m
axima que pueden, a su vez, tratar de ser interpretadas en funcion
del modo con que se relacionan linealmente con las variables originales.
Este nuevo conjunto de menor dimension y, por tanto, mas manejable
puede ser usado en analisis posteriores.
Ejemplos:
1) En un estudio sobre el conjunto de provincias espa
nolas se desea resumir ciertas dimensiones que las caracterizan, reflejadas en una serie de
variables que miden aspectos muy diversos: indicadores relacionados con la
5

6CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRINC
actividad industrial, con la actividad agrcola, con el nivel cultural, con la
dimension o tama
no de la provincia (extension y poblacion), etc.
2) Un grupo de candidatos a un empleo ha realizado una serie de 20
pruebas, cada una de ellas pretende medir una cualidad del individuo y logicamente se espera que estas presenten correlaciones de mayor a menor grado
entre s: Nivel en cultura general, nivel de adaptacion, nivel de razonamiento, nivel de comunicacion con los otros, nivel de compa
nerismo, capacidad
para trabajar en grupo, etc. Se desea puntuar a cada uno de ellos con unas
pocas medidas que resuman sus puntuaciones en las 20 pruebas. Y, ademas,
conocer que aspectos miden cada una de estas pocas dimensiones extradas,
a traves del conocimiento de su correlacion con las 20 pruebas originales.

4.1.2.

Los datos

Sobre un conjunto de N individuos se observa un conjunto de variables


X1 , X2 , ...Xp , cuantitativas que notamos en forma matricial X de orden N xp
La informacion necesaria para el ACP se encuentra en la matriz de
covarianzas, S, o en la matriz de correlaciones, R, dado que el interes
se centra en las varianzas y covarianzas o en las correlaciones de las variables
originales.
Es conveniente que las variables presenten correlaciones importantes.
Es conveniente usar la matriz de correlaciones si las unidades de medida
de las X 0 s son muy heterogeneas.
Los valores anomalos pueden distorsionar el analisis.

4.1.3.

Descripci
on de la t
ecnica

Notaremos las componentes principales con Yj (vector Nx1) j=1, ..., p.


Cada componente Yj se obtiene como una combinacion lineal de las variables
originales.
Yj =

p
X

aij Xi = Xaj

i=1

En notacion matricial:
YN p = XN p App
A es la matriz de orden p p que describe las combinaciones lineales
La primera componente principal, Y1 de orden N 1 es, pues, una
transformacion lineal de las variables originales X(N xp) que cumple ciertos
requisitos:


4.1. ANALISIS
DE COMPONENTES PRINCIPALES (ACP)

Y1 =

p
X

= ai1 Xi = Xa1

i=1

Los coeficientes ai1 son tales que la varianza de Y1 , V (Y1 ), es m


axima
(igual a 1 ) y
p
X

a2i1 = 1

i=1

La segunda componente Y2 se busca de tal modo que:


Y2 =

p
X

= ai2 Xi = Xa2

i=1

Los coeficientes ai2 son tales que la varianza de Y2 , V (Y2 ), es maxima,


es decir, presenta un valor lo mas grande posible entre la variabilidad restante, que resulta tras extraer la primera componente, Y1 . De modo similar
notaremos la varianza de Y2 con 2 .
Igualmente, se tiene
p
X

a2i1 = 1

i=1

cumpliendose que Y1 e Y2 estan incorrelacionadas:


0 = Cov(Y1 , Y2 )
as sucesivamente van obteniendose las distintas componentes principales
con varianza en orden decreciente (extrayendo la maximaa posible de entre
la que va quedando sin capturar por las extracciones previas) e incorrelacionadas entre s.
La solucion a este problema es encontrar los vectores propios asociados a
la matriz de covarianzas de las X 0 s, (S) y sus valores propios o races caractersticas correspondientes (i ). Hasta un maximo de p (n
umero de variables
observadas). En notacion matricial:
A0 SA = Diag(i ) i = 1, ..., p
A0 A = I
Cov(Yi , Yj ) = a0i Saj = 0

8CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRINC
donde A es la matriz de orden p p cuyas columnas aj (j = 1, ..., p)
constituyen los vectores propios de S (matriz de covarianzas de las X 0 s)
p
X
i=1

4.2.

V (Xi ) =

p
X

i =

i=1

p
X

V (Yi )

i=1

Relaci
on entre variables originales y componentes

Dada la matriz XN p que contiene las puntuaciones centradas en las variables observadas y la matriz YN xp que contiene las puntuaciones sobre las
componentes, hemos visto que podemos determinar las componentes mediante la relacion:
YN xp = XN xp Apxp
Si posmultiplicamos por A0 la expresion anterior, podemos expresar las
variables originales en funcion de las componentes mediante:
XN xp = YN xp A0pxp
En particular, podemos expresar la matriz de covarianzas en las variables
originales mediante la expresion:
Cov(X) = ACov(Y )A0 = ADA0
siendo
D = Diag(i )
En particular, si las variables originales X 0 s se expresan en terminos estandarizados se tiene:
R = ADA0

4.3.

Interpretaci
on. Correlaciones entre variables y componentes (matriz de componentes)

DE VARIANZA EXTRAIDA POR LAS COMPONENTES9


4.4. PROPORCION
Los vectores propios ai (px1) asociados a las componentes Yi (N x1) permiten interpretar la naturaleza de dicha componente, indicando cada aji el
peso o contribucion relativa de la variable j-esima a la componente i-esima.
En la interpretacion de las componentes principales, las variables mas
importantes son aquellas con altos pesos en valor absoluto. Tambien podemos
usar las correlaciones entre variables y componentes principales para tratar
de explicar lo que representan dichas componentes principales.
La matriz que expresa las covarianzas de todas las variables, X, con las
componentes, Y , que notaremos con Cov(X, Y ), vendra dada por el producto
matricial SA.
Si en el analisis usamos R en vez de S, los coeficientes de correlacion se
obtienen a partir de los elementos de A mediante:
q

rXj Yi = aji i
Por tanto, seg
un la expresion anterior, la matriz de correlaciones entre las
variables X y las componentes Y , que notaremos indistintamente con C o
R(X,Y ) , se obtiene mediante:

R(X,Y ) = ADiag( )
En ACP, ambas matrices (A y C) ayudan de modo similar a interpretar
las componentes principales. Las columnas de una son proporcionales a las
de la otra.
La matriz de correlaciones de las variables y las componentes principales
se denomina Matriz de componentes

Con matriz de componentes C = ADiag( i )

4.4.

Proporci
on de varianza extrada por las
componentes

La varianza, i , asociada a la componente principal i-esima proporciona


una indicacion de la variabilidad extrada de los datos por dicha componente.
La importancia de una componente viene reflejada por la proporcion del total
de varianza de las X 0 s que es capaz de capturar:
i
var(Yi )
= Pp
traza(S)
j=1 j

4.5.

Rotaciones de la soluci
on

10CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
La solucion del ACP o de un analisis factorial AF realizado constituye,
a veces, solo una primera aproximacion para tratar de descubrir una estructura simple que nos permita interpretar de forma inteligible y sustantiva las
componentes o factores obtenidos a partir de los datos. Ya hemos visto que
la matriz de pesos C nos sirve de gua para interpretar las componentes principales. Con la rotacion se busca una matriz, C R (rotada), simplificada que
permita interpretarlos conceptualmente.
C R = CT
La matriz T es la constituida por los coeficientes que definen la rotacion
ejercida. (denominada matriz de transformaci
on de las componentes).
R
Matriz de componentes C (nueva matriz de correlaciones de cada
variable con cada componente).
Tanto C R como C de orden pxk reproducen igualmente las correlaciones entre variables observadas. Una solucion rotada, C R , explica la misma
covariacion o correlacion que la solucion inicial no rotada, C.
La matriz reproducida puede expresarse como
R = CC 0
Si comparamos la matriz de correlaciones reproducidas 1 con la matriz de
correlaciones observadas (su diferencia es la matriz residual).
Siguiendo el criterio de estructura simple de Thurstone la matriz C R
rotada debera presentar ciertas caractersticas de modo que sea mas facil la
interpretacion de la naturaleza de las componentes, las cuales se resumen en:
a) Presentar subgrupos de variables originales correlacionadas con las distintas componentes. Cada subgrupo con variables altamente correlacionadas
con una sola componente. Por tanto, dado un subgrupo de variables originales y la correspondiente componente con la que se relacionan, los coeficientes
de la matriz C R tendran, la oportuna columna con valores altos en las filas
constituidas por las variables de dicho subgrupo. Valores proximos a cero en
el resto de las filas.
b) Al mismo tiempo, cada variable no debera estar simultaneamente
asociada a dos componentes distintas (dado que se intenta que cada una
recoja una dimension de naturaleza distinta) esto conlleva que cada fila de
la matriz C R presente valores iguales a cero, salvo en la posicion relativa a la
columna que representa la componente con la que teoricamente se relaciona
la variable en cuestion.
1

La matriz reproducida se aproximara mas o menos a la matriz original seg


un la variabilidad total capturada por los componentes extrados


4.6. PUNTUACIONES FACTORIALES (DESDE LA PERSPECTIVA DE LA REGRESION)11
Haciendo un esquema simplificado del prototipo perseguido en la matriz
y si suponemos idealmente reordenadas las variables de arriba hacia abajo en dichos subgrupos colocando de izquierda a derecha las componentes
asociadas, la matriz podra presentar el esquema siguiente:
a1 0 ... 0
... ... ... ...
ak 0 ... 0
0 b1 ... 0
... ... ... ...
0 bh ... 0
... ... ... ...
... ... ... c1
... ... ... ...
... ... ... cq

4.6.

Puntuaciones factoriales (desde la perspectiva de la regresi


on)

Podremos determinar las puntuaciones estandarizadas de los individuos


en las componentes principales, tanto rotadas ortogonal como oblicuamente.
La matriz completa de puntuaciones en las k componentes principales para
todos los individuos en terminos de las variables observadas estandarizadas
(que notaremos ahora con Z en vez de X) es:
Y = ZA
A = matriz de orden pxk de los k primeros vectores propios de la matriz
R.
Z = matriz de orden Nxp de valores observados estandarizados
Y = matriz de orden Nxk de puntuaciones en las k primeras componentes
Considerando las puntuaciones en las componentes estandarizadas, tenemos:
1
YN xk = ZN xp Rpxp
Cpxk

Donde la matriz C es, como ya sabemos, la matriz de correlaciones entre


las variables originales y las componentes. Pero en rotacion ortogonal, la matriz C de la expresion anterior, que nos permite determinar las puntuaciones,
es la matriz de componentes rotada. En rotacion oblicua C es la denominada

12CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
matriz estructura. La matriz de coeficientes (R1 C) permite obtener las
puntuaciones estandarizas de Y:
Veanse los ejemplos en seccion de practicas adicionales

4.7.

Funciones R usadas

Las funciones mas importantes usadas en el ACP son las siguientes:


Con princomp() se puede introducir los datos en forma de data.frame, o
matriz de correlaciones (cor()) o como una funcion:
princomp(formula, data = NULL, subset, na.action, ...)
En la expresion de la formula no hay respuesta: se introducen las variables
implicadas en el analisis tras el smbolo ~.
Ejemplo:
princomp(~X1 + X2 + ... + Xp , cor = T, data = a)
Es preciso indicar el argumento cor o scores.

princomp(X, cor = F ALSE, scores = T RU E, covmat = N U LL, ...)


X contiene las variables observadas en forma de data frame o matriz.
El argumento cor indica si se utilizara en el analisis la matriz de correlaciones o de covarianza.
El argumento covmat puede usarse para introducir los datos en forma
de matriz de covarianza, en vez de mediante los datos directamente, X.
El argumento scores indica si se ha de calcular o no las puntuaciones de
las componentes principales
predict()
predict(objecto, newdata, ...)
El argumento objeto es de la clase princomp.
Se determinan las puntuaciones para las variables del argumento newdata.
Los nombres deben ser los mismos que los usados en objeto.
O al menos el mismo n
umero de variables introducidas en el mismo orden
que las usadas en objeto.
Si no se usa el argumento newdata, se determinan las puntuaciones para
los datos originales.
El output en ACP de R
Es una lista que contiene lo siguiente:


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)13
Las desviaciones tpicas de las componentes (es decir, las races cuadradas
de los valores propios): sdev
Una matriz con los vectores propios asociados a la matriz de covarianzas
o correlaciones (loadings). Estos vectores propios, a su vez, se pueden usar
con la funcion print:
print(objeto, digits = 3, cutof f = 0,1, sort = F ALSE, ...)
donde objeto es una matriz de loadings derivados de un analisis princomp,
o el objeto derivado del analisis de componentes principales princomp. El
argumento digits permite especificar el n
umero de decimales usados en la
presentacion. El argumento cutoff permite no visualizar los valores de los
loadings bajos (en valor absoluto) para ver con mayor claridad la forma en
que se relacionan variables y componentes, de modo que sea mas facil la
interpretacion de los componentes.
El argumento sort permite ordenar las variables seg
un su importancia
en cada factor. Lo que da mayor claridad al resultado y puede facilitar la
interpretacion asociando las variables a los componentes.
Las puntuaciones de los casos en cada una de las componentes (scores)
Nota:
En el calculo de la matriz de covarianza, se usa N en vez de N-1 en
denominadores de las formulas.
princomp solo maneja el modo R-mode (correlacion entre variables) de
PCA. Si los datos se dan (posiblemente mediante una formula) debe haber
al menos tantas filas como variables. Para usar el modo Q-mode PCA use
prcomp.
Recuerde que el signo de las columnas de loadings y scores son arbitrarios.
En general, pueden ser distintos seg
un el programa usado, e incluso dentro
de R.
Otras funciones
Prcomp() usa N-1 como denominador en las formulas de covarianza. Usa
scale como argumento para usar la matriz de correlaciones. Para mas informacion vea ayuda de R.

4.8.

Ejemplo con R: An
alisis de componentes
principales (ACP)

14CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
El analisis de componentes principales permite resumir un conjunto de
variables, supuestamente relacionadas, en unas pocas, no relacionadas entre
s, pero capaces de capturar la mayor variabilidad de la informacion original.
El objetivo primordial del ACP es resumir la informacion original de las 12
variables observadas sobre las CCAA, creando nuevas variables (componentes
principales), tales que unas pocas (las primeras) sean capaces de reflejar la
mayor informacion posible registrada en los datos originales. Estas nuevas
variables no estan relacionadas entre s.
Mediante el ejemplo veremos los terminos y resultados mas comunes ligados a un ACP.
DATOS
ccaa
TparoEs TparoEx TemplEs TemplEx TactiEs TactiEx
Andaluca
28.93
38.78
40.81
43.32
40.81
43.32
Aragon
13.05
36.49
47.99
50.91
47.99
50.91
Asturias
16.11
32.98
42.22
51.27
42.22
51.27
Baleares
17.76
28.77
51.71
52.85
51.71
52.85
Canarias
28.36
32.70
43.39
50.06
43.39
50.06
Cantabria
13.44
31.50
47.66
48.29
47.66
48.29
CastillaLeon
15.15
31.00
45.64
54.18
45.64
54.18
CastillaLaMa
20.63
32.80
44.38
54.46
44.38
54.46
Catalu
na
15.30
32.60
50.91
53.20
50.91
53.20
Valenciana
20.83
36.06
45.90
43.15
45.90
43.15
Extremadura
23.40
35.71
41.22
46.73
41.22
46.73
Galicia
15.79
33.52
45.46
49.44
45.46
49.44
Madrid
14.03
22.58
51.47
64.23
51.47
64.23
Murcia
21.36
36.17
45.66
49.26
45.66
49.26
Navarra
9.84
25.38
51.36
62.47
51.36
62.47
PasVasco
10.78
23.13
50.85
60.73
50.85
60.73
Rioja
12.19
35.20
49.79
51.54
49.79
51.54
Ceuta
27.44
46.91
39.83
28.36
39.83
28.36
Melilla
21.08
36.62
44.66
32.38
44.66
32.38


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)15
ccaa
Tatemporal Tasalari Taparcial PorcExt IndPobesp IndPobext
Andaluca
34.00
83.00
15.00
9.90
102.82
183.27
Aragon
24.00
81.00
14.00
12.81
98.15
179.83
Asturias
24.00
81.00
12.00
5.57
96.23
186.73
Baleares
27.00
81.00
13.00
24.32
102.77
160.27
Canarias
31.00
86.00
13.00
17.98
103.53
159.23
Cantabria
21.00
84.00
12.00
7.18
100.18
181.83
CastillaLeon
22.00
80.00
13.00
6.42
97.47
172.92
CastillaLaMa
27.00
81.00
12.00
10.60
104.62
188.45
Catalu
na
20.00
84.00
13.00
16.34
99.58
146.97
Valenciana
27.00
82.00
17.00
19.40
100.84
164.28
Extremadura
37.00
80.00
14.00
3.25
101.12
164.04
Galicia
25.00
78.00
12.00
5.52
98.63
151.63
Madrid
20.00
88.00
12.00
19.09
100.52
151.55
Murcia
34.00
84.00
14.00
19.39
103.07
170.06
Navarra
26.00
84.00
15.00
13.05
99.59
172.36
PasVasco
23.00
84.00
15.00
6.16
97.39
165.20
Rioja
20.00
81.00
16.00
13.92
100.47
132.28
Ceuta
31.00
91.00
13.00
10.43
103.03
174.75
Melilla
24.00
83.00
14.00
15.09
107.64
147.68
Deseamos resumir la informacion a unas pocas variables (componentes
principales) no correlacionadas entre s.
Procedimiento:
1. Comprobar si los datos son apropiados para el analisis.
2. Si la respuesta es afirmativa, realizar ACP y encontrar un n
umero adecuado de componentes que resuma la informacion original
3. Interpretar los resultados del analisis

Exploraci
on de los datos antes de la aplicaci
on de la
t
ecnica
La matriz de datos esta formada por 19 casos (17 Comunidades Autonomicas mas Ceuta y Melilla) sobre los que se observan 12 variables.

16CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
Realizaremos el acp con las 10 variables siguientes observadas en las
CCAA:
TparoEs=Tasa de paro de espa
noles
TparoEx=Tasa de paro de extranjeros residentes en Espa
na
TemplEs=Tasa de empleo de espa
noles
TemplEx=Tasa de empleo de extranjeros residentes en Espa
na
Tatemporal=Tasa de temporalidad
Tasalari=Tasa de asalarizacion
Taparcial=Tasa de empleo a tiempo parcial
PorcExt=Porcentaje de extrajeros residentes en la comunidad
IndPobesp=Indice de crecimiento de poblacion espa
nola entre 2005 y 2011
IndPobext=Indice de crecimiento de poblacion extranjera entre 2005 y
2011
No utilizamos la variable tasa de actividad porque esta relacionada exactamente con las tasas de paro y empleo (hay, por definidicion, dependencia
exacta entre las 3 tasas). Compruebe que usando las 12 variables originales
se obtendran componentes con varianza cero.
Si las variables no estan relacionadas (correlaciones no significativas) no
tendra sentido realizar un analisis de componentes principales, puesto que el
resultado mostrara tantas componentes como variables originales.
La matriz objeto de analisis sera la de correlaciones entre las variables
originales. Es mejor usar las correlaciones en vez de covarianzas cuando se
sospecha que las variables presentan variabilidad muy diversa con escalas de
medicion distintas. Un grafico caja de las variables permite apreciar esto en
los datos.
null device
1

100

150

Distribuciones de las variables

50

TparoEs

TparoEx

TemplEs

TemplEx

Tatemporal

Tasalari

Taparcial

PorcExt

IndPobesp

IndPobext


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)17
Un examen de las correlaciones entre las variables originales permite chequear si es apropiado o no el ACP.
Si entre las variables no hay muestra de asociacion o correlacion no convendra utilizar ACP
El determinante de esta matriz de correlaciones ofrece tambien un indicador de si los datos son o no susceptibles de resumir mediante un acp. Un valor
del determinante muy bajo es indicio de alta correlacion entre las variables.
Presentamos la tabla de correlaciones

TparoEs
TparoEx
TemplEs
TemplEx
Tatemporal
Tasalari
Taparcial
PorcExt
IndPobesp
IndPobext

TparoEs TparoEx TemplEs TemplEx Tatemporal


1.00
0.66
-0.79
-0.66
0.77
0.66
1.00
-0.74
-0.89
0.48
-0.79
-0.74
1.00
0.69
-0.66
-0.66
-0.89
0.69
1.00
-0.40
0.77
0.48
-0.66
-0.40
1.00
0.28
0.10
-0.03
-0.19
0.06
-0.00
0.13
0.11
-0.11
0.16
0.11
-0.10
0.43
0.05
-0.04
0.64
0.38
-0.29
-0.53
0.41
0.18
0.15
-0.42
-0.03
0.32

TparoEs
TparoEx
TemplEs
TemplEx
Tatemporal
Tasalari
Taparcial
PorcExt
IndPobesp
IndPobext

Tasalari Taparcial PorcExt IndPobesp IndPobext


0.28
-0.00
0.11
0.64
0.18
0.10
0.13
-0.10
0.38
0.15
-0.03
0.11
0.43
-0.29
-0.42
-0.19
-0.11
0.05
-0.53
-0.03
0.06
0.16
-0.04
0.41
0.32
1.00
-0.08
0.30
0.28
0.01
-0.08
1.00
0.20
0.04
-0.24
0.30
0.20
1.00
0.45
-0.37
0.28
0.04
0.45
1.00
-0.14
0.01
-0.24
-0.37
-0.14
1.00

La matriz de correlaciones muestra que hay pares de variables que estan


relacionadas.
Un grafico de las relaciones entre pares de variables tambien puede ser
u
til para visualizar el comportamiento de las relaciones

18CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
null device
1
Correlaciones entre variables

50

30

78 84 90

25
15

40

46

Tasalari

PorcExt

15

20
10

IndPobesp

12

30

Taparcial

20

52

Tatemporal

140 170

25

20

15

TemplEx

180

TemplEs

90

TparoEx

140

10

84

52

25

40

46

78

40

30

TparoEs

20

30 45 60

15

12

40

96 102

25

IndPobext

96

102

El grafico muestra algunas variables relacionadas. El determinante de la


matriz de correlaciones es muy bajo, lo que indica que grupos de variables
pueden ser dependientes en cierto grado (y contener informacion redundante)
> det(cor(dacp))
[1] 0.00031523

Resultados del an
alisis: Comunalidades, Varianza total
explicada, Matriz de componentes. Rotaci
on Varimax.
Obtendremos los siguientes resultados:
Matriz de comunalidades


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)19
Tabla de varianza total explicada
Matriz de componentes
Grafico de componentes (en espacio rotado o sin rotar)
Puntuaciones en las componentes
Grafico de dispersion de las puntuaciones en las componentes
La funcion R que realiza el analisis es princomp()
> acp1=princomp(dacp,cor=TRUE) #usa la matriz de
>
# correlaciones para el an
alisis
> summary(acp1)

Importance of components:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Standard deviation
2.038519 1.4161365 1.0957724 0.94796631 0.85368207 0.67465758
Proportion of Variance 0.415556 0.2005442 0.1200717 0.08986401 0.07287731 0.04551629
Cumulative Proportion 0.415556 0.6161002 0.7361719 0.82603592 0.89891323 0.94442952

Varianza total explicada


Componentes 1 a 5:
desv.tpica
varianza
proporcion
prop.Acumulada

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5


2.04
1.42
1.10
0.95
0.85
4.16
2.01
1.20
0.90
0.73
0.42
0.20
0.12
0.09
0.07
0.42
0.62
0.74
0.83
0.90

Componentes 6 a 10:
desv.tpica
varianza
proporcion
prop.Acumulada

Comp.6 Comp.7 Comp.8 Comp.9 Comp.10


0.67
0.55
0.38
0.27
0.18
0.46
0.30
0.15
0.07
0.03
0.05
0.03
0.01
0.01
0.00
0.94
0.97
0.99
1.00
1.00

La tabla de Varianza Total Explicada presenta la varianza de cada componente (autovalor) en orden descendente de importancia. Tambien se expresan en porcentaje con base la variabilidad total (igual a n
umero de variables

20CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
cuando las variables estan tipificadas). La primera componente es la de mayor varianza, la segunda presenta un valor en la varianza inferior o igual a
la primera, as sucesivamente. Si el ACP da buenos resultados, unas pocas
componentes nos permitiran extraer un alto porcentaje de la variabilidad de
los datos.

Los autovalores muy bajos sugieren que las componentes correspondientes


tienen poca relevancia. A veces se seleccionan solo las componentes principales cuyos autovalores son mayores que 1, pero no siempre esta es la mejor
decision. Siguiendo este criterio, en el ejemplo, seleccionaramos 3 componentes (la componente n
umero 4 tiene varianza inferior a 1).

El grafico de sedimentacion puede ayudar a decidir el n


umero de componentes principales o factores a seleccionar. Un salto abrupto en el descenso
escalonado de las varianzas de las componentes representadas puede sugerir
cortar o extraer hasta un n
umero de componentes igual al punto de descenso.
En el ejemplo, el salto significativo se produce en la primera componente, y
en menor grado en la segunda. Con este criterio grafico, seleccionaramos una
o dos componentes. Si la informacion perdida al seleccionar solo una o dos
componentes la consideramos importante, tendremos que elegir otro criterio.
En cualquier caso, el sentido com
un y la utilizacion de la informacion guiaran
de forma mas apropiada el n
umero de componentes a seleccionar.

null device
1


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)21

2
0

Varianza

Grfico de sedimentacin

Comp.1

Comp.3

Comp.5

Comp.7

Comp.9

Hay tantas componentes como variables (10).


La primera componente principal es la que captura la mayor variabilidad
presente en las variables originales con un valor igual a 4.16, representa una
proporcion explicada igual a 0.42.
La segunda componente, captura la mayor variabilidad posible de los
datos, de entre la que no ha sido extrada por la primera componente. Con
un valor igual a 2.01, representa una proporcion explicada igual a 0.2.
As sucesivamente, en orden decreciente. La varianza de la u
ltima componente es igual a 0.03, representa una proporcion explicada igual a 0.003.
Las varianzas de las componentes principales en valores descendentes
(tambien llamados valores propios o autovalores) tienen una suma total igual
a 10 (coincide con suma de las varianzas de todas las variables originales
tipificadas)

Matriz de componentes
La matriz de componentes muestra las correlaciones entre cada variable
observada y cada una de las componentes extradas. Puede ser muy u
til para

22CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
interpretar los componentes, as como su visualizacion mediante representacion grafica en el Gr
afico de Componentes.
Establecemos el analisis mediante extraccion de unas pocas componentes:
El 73.62 % de la variabilidad de los datos se encuentra representado por
las 3 primeras componentes (vea tabla de Varianza Total Explicada
Si decidimos tomar como resumen de las 10 variables solo las 3 primeras
componentes, la matriz de componentes, C, correspondiente, se obtiene determinando el coeficiente de correlacion entre las variables y cada una de las
componentes extradas:
Matriz de 3 primeras componentes C:
> # dacp contiene los datos
> C=cor(dacp,predict(acp1)[,1:3])
> C
Comp.1
TparoEs
-0.92229235
TparoEx
-0.85136470
TemplEs
0.87888916
TemplEx
0.84532160
Tatemporal -0.76347726
Tasalari
-0.23337851
Taparcial -0.05141336
PorcExt
0.05574956
IndPobesp -0.61183888
IndPobext -0.27502463

Comp.2
0.12327560
-0.03808086
0.40696102
-0.10156936
-0.06813851
0.41791402
0.35158286
0.87103828
0.57742201
-0.64639965

Comp.3
-0.12355443
0.23429605
-0.01397440
-0.17593130
0.05003795
-0.60877847
0.75080874
-0.14472569
-0.15533365
-0.34279259

La suma de los cuadrados de los elementos de cada columna es igual al


valor propio o autovalor (o varianza) de la componente que representa
dicha columna.
> AUTOVALOR=c(sum(C[,1]^2),sum(C[,2]^2),sum(C[,3]^2))
> rbind(C,AUTOVALOR)
Comp.1
Comp.2
Comp.3
TparoEs
-0.92229235 0.12327560 -0.12355443
TparoEx
-0.85136470 -0.03808086 0.23429605
TemplEs
0.87888916 0.40696102 -0.01397440
TemplEx
0.84532160 -0.10156936 -0.17593130
Tatemporal -0.76347726 -0.06813851 0.05003795
Tasalari
-0.23337851 0.41791402 -0.60877847


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)23
Taparcial
PorcExt
IndPobesp
IndPobext
AUTOVALOR

-0.05141336 0.35158286 0.75080874


0.05574956 0.87103828 -0.14472569
-0.61183888 0.57742201 -0.15533365
-0.27502463 -0.64639965 -0.34279259
4.15555955 2.00544250 1.20071706

Para que pueda interpretarse mejor lo que representan las componentes,


es deseable que cada variable este relacionada altamente solo con una componente.
Si observamos, por ejemplo, la variable TparoEs (tasa de paro de las
personas de nacionalidad espa
nola), vemos que esta altamente correlacionada
con la primera compontente y debilmente relacionada con las componentes
2 y 3. La variable Tparcial esta correlacionada con la tercera componente
y debilmente con la primera. La variable PorcExt esta altamente correlacionada con la componente 2 y debilmente con las otras dos. La variable
IndPobesp presenta correlaciones en valor absoluto por encima de de 0.5 en
las componentes 1 y 2.
En la practica, no siempre se da la situacion ideal de que cada variable
esta u
nicamente relacionada con una sola componente y, con frecuencia, es
necesario efectuar una rotacion de la solucion para ver si mejora.

Vector de comunalidades
Un resultado u
til es el coeficiente de correlaci
on m
ultiple entre cada
variable observada (Xi ) y las componentes principales (Ys). Su valor es 1 (si
tomamos todas las componentes), dado que toda variable Xi puede expresarse
de modo exacto como combinacion lineal de las componentes.
Cuando se realiza la extraccion de un n
umero de componentes inferior al
2
de variables, el coeficiente R , que tiene cada variable Xi , con el subgrupo formado por solo las componentes extradas se interpreta como la proporci
on
de varianza de la variable X que es explicada por el subconjunto
de las componentes extradas.
Valores altos suponen un buen resultado del analisis. Esto indica que la
variabilidad presente en cada variable observada esta compartida casi en su
totalidad por las componentes extradas. Se dice, entonces, que la variable
esta bien representada por las componentes.
La comunalidad de cada variable Xi se obtiene a partir de la matriz, C,
de componentes como la suma de los cuadrados de los elementos de cada fila.
La suma de los cuadrados de los elementos de cada fila es la comunalidad
correspondiente a la variable representada en dicha fila.

24CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
> COMUNALIDAD=C[,1]^2 + C[,2]^2 + C[,3]^2
> cbind(C,COMUNALIDAD)
Comp.1
TparoEs
-0.92229235
TparoEx
-0.85136470
TemplEs
0.87888916
TemplEx
0.84532160
Tatemporal -0.76347726
Tasalari
-0.23337851
Taparcial -0.05141336
PorcExt
0.05574956
IndPobesp -0.61183888
IndPobext -0.27502463

Comp.2
0.12327560
-0.03808086
0.40696102
-0.10156936
-0.06813851
0.41791402
0.35158286
0.87103828
0.57742201
-0.64639965

Comp.3 COMUNALIDAD
-0.12355443
0.8810858
0.23429605
0.7811666
-0.01397440
0.9382587
-0.17593130
0.7558368
0.05003795
0.5900442
-0.60877847
0.5997289
0.75080874
0.6899676
-0.14472569
0.7827612
-0.15533365
0.7318915
-0.34279259
0.6109778

Temporalidad (Tatemporal) y asalarizacion (Tasalari) son las variables


peor representadas por las 3 componentes extradas.
La variable mejor representada por las componentes es TemplEs, la cual
es explicada en un 93.8 % por las 3 componentes.

Rotaci
on Varimax
Una de las rotaciones mas usada es la denominada VARIMAX.
La funcion R varimax() de R permite ejecutar la rotacion, tomando como
input la matriz C de componentes de la solucion sin rotar.
> rota=varimax(C, normalize= T) # C es la matriz de componentes
>
#(correlaciones entre X e Y) en soluci
on no rotada
> rota
$loadings
Loadings:
Comp.1 Comp.2 Comp.3
TparoEs
-0.874 0.322 -0.114
TparoEx
-0.880
TemplEs
0.895 0.187 0.321
TemplEx
0.853 -0.117 -0.118
Tatemporal -0.763
Tasalari
0.727 -0.252
Taparcial -0.158 -0.152 0.801


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)25
PorcExt
IndPobesp
IndPobext

0.144 0.767 0.417


-0.531 0.650 0.166
-0.256 -0.267 -0.689

SS loadings
Proportion Var
Cumulative Var

Comp.1 Comp.2 Comp.3


4.051 1.787 1.523
0.405 0.179 0.152
0.405 0.584 0.736

$rotmat
[,1]
[,2]
[,3]
[1,] 0.98148808 -0.1644862 0.09810934
[2,] 0.07259121 0.7935264 0.60419062
[3,] -0.17723337 -0.5858840 0.79077699
La matriz de componentes rotados viene dada por la matriz de pesos
(loadings) que proporciona R.
(rota$loadings)
La matriz de comunalidades logicamente es la misma. La solucion se busca
en un espacio de la misma dimension (3 en este caso). Las saturaciones al
cuadrado correspondientes a las componentes variaran. (Observe que cada
una de las componentes rotadas ahora acumula diferente varianza)
Comp.1 Comp.2 Comp.3
SS loadings
4.051 1.787 1.523
Proportion Var 0.405 0.179 0.152
Cumulative Var 0.405 0.584 0.736

El porcentaje acumulado (explicado por las 3 componentes) es el mismo en


ambas soluciones. La variabilidad de los puntos en el espacio tridimensional
es la misma. Al cambiar los ejes, cambia la variabilidad relativa a cada eje,
pero la total es la misma.
La rotacion puede ayudar a mejorar la interpretacion de los componentes.
En el ejemplo, no parece haya ganancia significativa al rotar.
La matriz que produce la rotacion en R se denomina rotmat y aparece
automaticamente con el resultado de la rotacion.

26CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
Interpretaci
on de los resultados del an
alisis
El grafico de componentes (rotado o sin rotar) puede ayudar a interpretar
los componentes, visualizando las posiciones de las variables respecto a ellos.
Rotacion Varimax. Grafico de componentes
La funcion plot() de R permite representar las columnas de la matriz de
correlaciones entre variables y componentes (loadings) en el plano, visualizando el grado mayor o menor de relacion entre variables y componentes
(ejes vertical u horizontal) viendo la mayor o menor distancia (vertical u horizontal) del punto del origen. Variables representadas con puntos cercanos
al origen tendran correlaciones bajas con las componentes.
Grafico de componentes rotados 1 y 2
null device
1

1.0

Correlaciones de variables y componentes (rotados)

PorcExt

Tasalari

0.5

IndPobesp

TemplEs

Tatemporal

0.0

rota$loadings[, 2]

TparoEs

TparoEx

TemplEx

Taparcial

1.0

0.5

IndPobext

1.0

0.5

0.0

0.5

1.0

rota$loadings[, 1]

Se observa que las variables mas alejadas seg


un el eje horizontal (primera
componente) son, por un lado, Tatemporal, Tparoesp, Tparoex (a la izquier-


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)27
da), y por otro lado, las variables TemplEs y TemplEx (a la derecha). Todas
ellas estan altamente relacionadas con la primera componente.
Con la segunda componente, las variables mas relacionadas son Tasalari,
PorcExt y IndPobesp (alejadas verticalmente del origen).
Grafico de componentes rotados 1 y 3
null device
1

1.0

Correlaciones de variables y componentes (rotados)

0.5

Taparcial

PorcExt

IndPobesp

TparoEx

0.0

rota$loadings[, 3]

TemplEs

Tatemporal

TparoEs

TemplEx

0.5

Tasalari

1.0

IndPobext

1.0

0.5

0.0

0.5

1.0

rota$loadings[, 1]

Tal como muestra el grafico, las variables mas relacionadas con la tercera
componente son Taparcial e IndPobext.
Grafico de componentes rotados 2 y 3
null device
1

28CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN

1.0

Correlaciones de variables y componentes(rotados)

0.5

Taparcial

PorcExt

IndPobesp

TparoEx

0.0

rota$loadings[, 3]

TemplEs

Tatemporal

TparoEs

TemplEx

0.5

Tasalari

1.0

IndPobext

1.0

0.5

0.0

0.5

1.0

rota$loadings[, 2]

En el grafico siguiente se puede apreciar tambien la relacion entre las


variables y las 3 primeras componentes, barras altas indican alta correlacion
(positiva o negativa):

null device
1

0.5

0.0

0.5

4.8. EJEMPLO CON R: ANALISIS


DE COMPONENTES PRINCIPALES (ACP)29

TparoEx

TemplEs

TemplEx

Tatemporal

Tasalari

Taparcial

PorcExt

IndPobesp

IndPobext

TparoEs

TparoEx

TemplEs

TemplEx

Tatemporal

Tasalari

Taparcial

PorcExt

IndPobesp

IndPobext

TparoEs

TparoEx

TemplEs

TemplEx

Tatemporal

Tasalari

Taparcial

PorcExt

IndPobesp

IndPobext

0.6

0.2 0.0

0.2

0.4

0.6

0.8

0.2

0.0

0.2

0.4

0.6

TparoEs

Grafico de componentes (sin rotar)

null device
1

30CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN

1.0

Correlaciones de variables y componentes(sin rotar)

0.5

PorcExt

Tasalari
Taparcial

TemplEs

0.0

TparoEs

TparoEx

Tatemporal

TemplEx

IndPobext

1.0

0.5

acp1$loadings[, 2]

IndPobesp

1.0

0.5

0.0
acp1$loadings[, 1]

null device
1

0.5

1.0


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)31

1.0

Correlaciones de variables y componentes(sin rotar)

TparoEx

Tatemporal

0.0

acp1$loadings[, 3]

0.5

Taparcial

TemplEs

TparoEs

PorcExt

IndPobesp

TemplEx

0.5

IndPobext

1.0

Tasalari

1.0

0.5

0.0
acp1$loadings[, 1]

null device
1

0.5

1.0

32CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN

1.0

Correlaciones de variables y componentes(sin rotar)

TparoEx

Tatemporal

0.0

acp1$loadings[, 3]

0.5

Taparcial

TemplEs

TparoEs

TemplEx

IndPobesp

PorcExt

0.5

IndPobext

1.0

Tasalari

1.0

0.5

0.0

0.5

1.0

acp1$loadings[, 2]

No se aprecia grandes diferencias entre la solucion rotada y sin rotar, de


modo que la rotacion no ha contribuido demasiado a mejorar la posicion de las
variables en relacion a las componentes. No obstante, al comparar la solucion
rotada con la no rotada, se observa un aumento en las correlaciones (en valor
absoluto) entre las variables que inicialmente estaban ya relacionadas con
determinadas componentes.
Comparando los graficos rotados y sin rotar vemos que las variables que
inicialmente representaban mejor a la componente 1, por ejemplo, incrementan sus corrrelaciones (se alejan mas del origen) en la solucion rotada.
Las variables que estan proximas al origen son las que tienen correlaciones
mas bajas con las componentes. Las alejadas a izquierda o derecha (arriba u
abajo), es decir las proximas a -1 y 1 son las que nos indican que estan mas
relacionadas con la componente.
Interpretacion de los componentes
Si inspeccionamos los graficos de la solucion sin rotar se deduce lo siguiente:


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)33
La componente 1 esta mas relacionada con las tasas de paro y empleo
as como la tasa de empleo temporal, por lo que podemos decir, que
refleja aspectos relacionados con la situacion de estabilidad o inestabilidad laboral de las personas de la Comunidad Autonomica (parados,
trabajando, trabaja solo temporadas).
La componente 2 esta mas relacionada con aspectos demograficos, movimientos y cambios poblacionales (PorcExt, IndPobesp, IndPobext),
como porcentaje de extranjeros en la Comunidad, ndices de crecimiento de poblacion espa
nola y extranjera en un periodo de 2005 a 2011.
La componente 3 esta relacionada con variables que especifican el tipo
de trabajor (asalariado, trabajo parcial) ya que se relaciona con mas
fuerza con las variables Tasalari y Tparcial.

Puntuaciones de los casos en las componentes. Gr


aficos
de dispersi
on
La funcion R predict() permite obtener las puntuaciones de cada Comunidad Autonomica en cada una de las componentes principales.
Valores altos (o bajos) en una componente, alejados de la media, indican
que la Comunidad Autonomica destaca en dicha dimension o componente. La
escala es arbitraria (puede ser positiva o negativa). La forma de interpretar
el valor alto o bajo alcanzado ha de efectuarse viendo la forma o signo con
que se relacionan las variables con las componentes.
Estas puntuaciones, que definen las nuevas variables Y, tienen interes,
especialmente las de mayor varianza (es decir, de las primeras componentes),
tanto para comparar casos como para utilizarlas en otros analisis, sustituyendo las variables X originales.
Por ejemplo, la componente 1 que aparece estrechamente relacionada con
tasas de paro y empleo podra servirnos como un nuevo indicador de la situacion laboral de la CCAA.
El grafico de dispersion con las puntuaciones en dos componentes puede
servir para establecer de forma visual que Comunidades son mas parecidas y
cuales estan mas distanciadas en lo que se refiere al concepto que mida cada
una de las componentes.
Tabla de puntuaciones en las componentes

34CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN
Las puntuaciones de las observaciones o casos en las componentes se obtienen mediante la funcion predict(). Tambien se pueden obtener predicciones
para nuevos datos.
Las variables nuevas, Y, estan incorrelacionadas y sin estandarizar:
Comp.1
Comp.2
Comp.3
Andaluc
a
-3.2210885 -0.5867240 0.466246511
Arag
on
0.7935344 -0.8847962 0.572263840
Asturias
0.3242513 -2.8781577 -0.456912598
Baleares
1.0502682 1.7942212 -0.411771573
Canarias
-1.7708951 1.2550762 -1.160602709
Cantabria
0.8595396 -1.2410689 -1.150736482
CastillaLe
on 1.2479130 -1.8555456 0.278247958
CastillaLaMa -0.7485217 -0.9800064 -1.173695140
Catalu~
na
1.7176019 1.1298331 -0.218172415
Valenciana
-0.8380510 1.3108279 1.878271841
Extremadura -2.1033152 -1.5231101 1.143455274
Galicia
0.6897847 -1.5059670 0.782934218
Madrid
2.9067957 1.6247930 -2.229532369
Murcia
-1.4665191 1.0068320 -0.232612475
Navarra
2.4627263 0.2018011 -0.006787846
Pa
sVasco
2.9148149 -0.6064036 0.314476372
Rioja
1.6468877 1.5492776 2.305971485
Ceuta
-4.5407798 0.2247132 -1.239670843
Melilla
-1.9249473 1.9644041 0.538626950
La matriz de covarianza de las 3 primeras viene dada por

Comp.1
Comp.2
Comp.3

Comp.1 Comp.2 Comp.3


4.386 0.000 0.000
0.000 2.117 0.000
0.000 0.000 1.267

Grafico de dispersion de las componentes Y1 e Y2


Pueden realizarse graficos con las puntuaciones en las componentes principales y visualizar que Comunidades Autonomicas destacan en determinadas
componentes:
Dos Comunidades que esten alejadas entre s, dentro del eje que representa
una componente, nos indican que se diferencian en dicha dimension.
null device
1


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)35

CCAA en 1 y 2 componentes

Melilla

Baleares

Madrid

Rioja
Catalua

Ceuta
0

Navarra

Andaluca
1

PasVasco
Aragn

CastillaLaMa

Cantabria
Galicia

Extremadura

CastillaLen

segunda componente principal

Canarias Valenciana
Murcia

Asturias

primera componente principal

Las puntuaciones de las variables en 2 primeras componentes recogen el


61.61 %de variabilidad de los datos. Estas nuevas variables estan incorrelacionadas entre s. Las CCAA de Madrid, Pas Vasco, Navarra son las mas
diferenciadas en la primera componente de Ceuta, Andaluca y Extremadura.
Las CCAA Melilla, Baleares y Madrid son las mas diferenciadas de Asturias
en la segunda componente.

Grafico de dispersion de las componentes Y1 e Y3

null device
1

36CAPITULO 4. TECNICAS
MULTIVARIANTES: ANALISIS
DE COMPONENTES PRIN

CCAA en 1 y 3 componentes

Valenciana

Extremadura

Andaluca

Galicia
Aragn

Melilla

PasVasco

CastillaLen
0

Navarra
Catalua
Asturias Baleares

Murcia

Cantabria

Canarias CastillaLaMa

Ceuta

tercera componente principal

Rioja

Madrid

primera componente principal

Grafico de dispersion de las componentes Y1 e Y2 (rotadas)


Las puntuaciones derivadas del analisis de componentes rotado se obtienen mediante el producto de las componentes sin rotar por la matriz de
rotacion T

null device
1


4.8. EJEMPLO CON R: ANALISIS
DE COMPONENTES PRINCIPALES (ACP)37

CCAA en 1 y 2 componentes

1.5

Madrid

Canarias

1.0

Baleares
Melilla
Murcia

0.5

Catalua

0.0

CastillaLaMa
Cantabria

Valenciana

Navarra

Andaluca
0.5

segunda componente principal rotada

Ceuta

Rioja
PasVasco

1.0

Aragn

CastillaLen
Galicia
Asturias

1.5

Extremadura

1.5

1.0

0.5

0.0

0.5

1.0

1.5

primera componente principal rotada

Resumen de Funciones R usadas en el ejemplo de ACP


Funciones basicas de R para una ACP:
cor() proporciona matriz de correlaciones.
scale() proporciona variables tipificadas.
princomp() se puede introducir los datos en forma de data.frame, o matriz
de correlaciones como una funcion.
predict() Permite obtener puntuaciones en las componentes
varimax() proporciona la solucion acp rotada, dando directamente la matriz de componentes rotadas(loadings)apartirdelanorotada.
summary() Proporciona un resumen de la importancia de cada componente mediante la variabilidad que describe, cada una en terminos absolutos
y relativos (en porcentajes) y acumulados por orden.
plot() proporciona un grafico que visualiza la importancia de cada componente en variabilidad extrada.

Vous aimerez peut-être aussi