Vous êtes sur la page 1sur 13

Anlisis de Componentes Principales

Amparo Vallejo Arboleda

ANLISIS DE COMPONENTES PRINCIPALES Introduccin El objetivo del Anlisis de Componentes Principales lo podemos plantear como: dadas las observaciones de n objetos para p variables, se pretende representar adecuadamente esta informacin con un nmero q < p de variables, construidas como combinaciones lineales incorrelacionadas de las variables originales, que estn ordenadas en orden decreciente de importancia de acuerdo a la varianza. En el objetivo planteado se pueden destacar dos aspectos: - Representar los datos en espacio de dimensin menor al generado por los datos y al que estos se ajusten lo mejor posibles. Puede entenderse entonces como la bsqueda del subespacio de mejor ajuste de la nube de puntos, en el sentido de los mnimos cuadrado, y por otro lado como la identificacin de variables latentes o no observadas que se generan en los datos. - Transformar las variables originales, en general correlacionadas, en nuevas variables, incorrelacionadas, y ordenadas en orden de importancia de acuerdo a la variabilidad y que llamaremos las Componentes Principales. El origen del Anlisis de Componentes Principales (ACP) se debe a K. Pearson quien en 1901 propuso la bsqueda de un subespacio que mejor se ajusta a los datos, para esto utiliz el mtodo de los de mnimos cuadrados, esto es minimizando la suma de los cuadrados de las distancias de cada punto al subespacio. Hotelling en 1933 propuso hallar las componentes principales como las combinaciones lineales de las variables que maximizan la variabilidad. Otra propuesta es la formulada por Gower (1966), minimizando la discrepancia entre los puntos calculados en el espacio original y en el espacio de baja dimensin. El ACP se aplica fundamentalmente a datos con un nivel de medicin de intervalo y por tanto de razn, sin embargo algunos autores han planteado la posibilidad de aplicarlo a otro tipo de datos tales como: datos con nivel de medicin ordinales o de rangos como lo describe Lebart et al (1985), o incluso datos nominales conocido como Anlisis de componentes principales categrico (CATPCA); este procedimiento se encuentra descrito en Young (1981), Kuhfeld, Sarle, y Young, (1985), Saporta, (1983), Young, Takane, y de Leeuw, J. (1978, 1985). En este captulo se presentar el ACP para datos cuyo nivel de medicin es como mnimo de intervalo. Se pueden hallar las componentes principales poblacionales y por otro lado las componentes principales derivadas de la muestra. Cuando se supone que el vector de las variables originales tiene distribucin normal multivariante, es posible obtener algunos resultados inferenciales, pero si no se hacen estas

suposiciones se puede presentar como una tcnica exploratoria, esto es fundamentalmente descriptiva. En este captulo se har un desarrollo desde el punto de vista muestral. Los datos Suponga que se tienen las medidas de p , variables con nivel de medicin de intervalo, tomadas sobre n individuos; estas observaciones las podemos representar en una matriz X de tamao (n p) . Suponemos adems que todas las variables juegan el mismo papel, es decir el conjunto no se divide en variables dependientes e independientes. Por simplicidad suponemos adems que las columnas de la matriz X estn centradas con respecto a la media de cada una de las variables, esto es x el vector de medias de la muestra para el anlisis es un vector de ceros. Construimos S la matriz de varianzas covarianzas muestral de las variables originales (que suponemos definida positiva). Si suponemos que X es centrada por columnas con respecto a la media, entonces la matriz de varianzas y covarianzas muestral la podemos obtener como:

S=

1 X'X n 1

Planteamos inicialmente algunas propiedades generales de las combinaciones lineales. Sea x al vector de las variables originales esto es:

x ' = [ X 1 ,..., X p ]
Nos interesa construir p combinaciones lineales de estas variables y que a su vez estn incorrelacionadas. La combinacin lineal k para k = 1,..., p se puede expresar como:
Yk = a 'k x = a1k X 1 + a2 k X 2 + ... + a pk X p

donde a 'k = [a1k , a2 k ,..., a pk ] los llamamos los coeficientes de la combinacin lineal. Las combinaciones lineales cumplen, entre otras, las siguientes propiedades:

Media de Yk es: a'k x La varianza muestral de Yk es: a 'k Sa k .

Anlisis de Componentes Principales

Amparo Vallejo Arboleda

Si se tiene otra combinacin lineal Yk ' = a 'k ' x = a1k ` X 1 + a2 k ` X 2 + ... + a pk ' X p = a 'k ' x , con a 'k ' = [a1k ' , a2 k ' ,..., a pk ' ] , la covarianza muestral entre los dos pares de combinaciones lineales, Yk y Yk ' , es : a'k Sa k ' .

Obtencin de las Componentes Principales muestrales Si suponemos que rango(S) = p , las componentes principales las definimos como p combinaciones lineales de las variables originales que son: incorrelacionadas, con varianzas progresivamente decrecientes y con la restriccin que el vector de los coeficientes sea de longitud unitaria. Para mayor claridad las planteamos una a una partiendo de la primera hasta la ltima.
' x que maximiza La primera componente principal es la combinacin lineal a1

su varianza muestral a1Sa1 , sujeto a la restriccin a1a1 = 1


' '

La segunda componente principal es la combinacin lineal a 2 x que maximiza


'

su varianza muestral a 2 Sa 2 , sujeto a la restriccin ' ' muestral cero para la pareja (a1x, a 2 x) .

'

a '2a 2 = 1 y covarianza

La k -sima componente principal es la combinacin lineal a'k x que maximiza su varianza muestral a'k Sa k , sujeto a la restriccin a k a k = 1 y covarianza muestral
'

cero para la pareja (a k 'x, a k x) con k ' < k .


' '

Esto se puede continuar hasta construir la p-sima componente principal que, es la combinacin lineal a 'p x cuya varianza muestral a 'p Sa p es mnima, sujeto a la restriccin
a 'p a p = 1 y covarianza muestral cero para la pareja (a 'k x, a 'p x) con

k < p.
La solucin al problema planteado la obtenemos utilizando el siguiente resultado: Resultado 1. Si S = s jj '

{ } es una matriz de covarianzas de tamao ( p p) y definida positiva

con pares de valores y vectores propios (1 , v1 );(2 , v 2 );...;( p , v p ) entonces: 1. La k -sima componente principal est dada por:

Yk = v 'k x = vk 1 X 1 + vk 2 X 2 + ... + vkp X p

para k = 1, 2,..., p

donde 1 2 ... p 0 2. La varianza muestral de Yk es igual a k para k = 1, 2,..., p 3. La covarianza muestral entre las componentes Yk y Yk ' es igual a 0 para k'k 4. La suma total de las varianzas de las variables originales es: cumple que

s
j =1

jj

Var (Yk ) = s jj = 1 + 2 + ... + p


k =1 j =1

5. La correlacin entre la componente principal Yk y la variable original X j esta dada por:


rYk X j = v jk k s jj

para j , k = 1, 2,..., p

Teniendo en cuenta la parte 1 del resultado anterior, para obtener las componentes principales basta con obtener la descomposicin espectral de la matriz de covarianzas S esto es:
S = VV '

Donde

= diag (1 , 2 ,..., p ) con

1 2 ... p 0 y

V ' V = I . Los

coeficientes de las combinaciones lineales que definen las componentes principales son las columnas de V , es decir, las componentes de los vectores propios. Las puntuaciones (coordenadas) de los individuos en las componentes principales estn dadas por:
Y = XV

Si se seleccionan q , con q < p , componentes principales estas se pueden obtener construyendo una nueva matriz Vq con las q primeras columnas de V . Las puntuaciones de los individuos en las q primeras componentes principales estn dadas por:

Yq = XVq

Anlisis de Componentes Principales

Amparo Vallejo Arboleda

Adems del resultado anterior la varianza explicada por la componente k es exactamente k y la varianza total explicada por las componentes principales es igual a la varianza total de las variables originales. Adems se pueden expresar los siguientes enunciados:

La proporcin de varianza muestral explicada por la componente k es:

k =1

La proporcin de varianza muestral explicada por las primeras componentes, con q < p es :


k =1 k =1 p

Estas proporciones se pueden expresar en porcentajes. Componentes principales de las variables estandarizadas Supongamos que se tiene una matriz de datos que representamos en una matriz:
x11 x 21 X= xn1
' x12 x1 p x1 ' x22 x2 p x 2 = ' xn 2 xnp xn

La matriz de datos estandarizada se obtiene en la matriz:

x11 x1 s1 x x 21 1 Z = s1 x x n1 1 s1

x12 x2 s2 x22 x2 s2 xn 2 x2 s2

x1 p x p ' s p z1 x2 p x p ' z sp = 2 xnp x p ' z n sp

con

z j = D 1/ 2 (x j x)
El vector de medias muestrales de los datos estandarizados se calcula como: n x j1 x1 0 j =1 s1 n x j 2 x2 0 1 z = j =1 s2 = n n x jp x p 0 s j = 1 p La matriz de covarianzas de los estandarizados la podemos denotar por: S Z y la matriz de correlacin de los datos originales la podemos denotar por R . La matriz de covarianzas de los estandarizados se `puede calcular como:
(n 1) s11 s11 (n 1) s 12 1 s s ' = S Z = n1 Z Z 1 2 1 (n 1) (n 1) s1 p s1s p (n 1) s12 s1s2 (n 1) s22 s22 (n 1) s2 p s2 s p (n 1) s1 p s1s p 1 (n 1) s2 p r12 s2 s p = r1 p (n 1) s pp s pp

r12 1 r2 p

r1 p r2 p =R 1

Anlisis de Componentes Principales

Amparo Vallejo Arboleda

Esto significa que la matriz de covarianza de los datos estandarizados coincide con la matriz de correlacin de los datos originales. Las componentes principales de las observaciones estandarizadas estn dadas por las combinaciones lineales con respecto a la matriz R en lugar de la matriz S . Hemos de tener en cuenta que en este caso los datos ya se encuentran centrados.

Resultado 2. Si

Z1 , Z 2 ,..., Z p son las variables estandarizadas con matriz de covarianzas

muestral R , esto es podemos construir el vector z ' = [ Z1 , Z 2 ,..., Z p ] entonces: 1. La k -sima componente principal es:
Yk = v 'k z = vk1Z1 + vk 2 Z 2 + ... + vkp Z p

k = 1, 2,..., p

donde con:

(k , v k ) es la k -sima pareja de valores- vectores propios de R

2. Var (Yk ) = k para k = 1, 2,..., p 3. Cov(Yk , Yk ' ) = 0 para k ' k 4. La suma total de las covarianzas = rkk = p = 1 + 2 + ... + p
k =1 p

5. La correlacin entre la componente principal Yk y la variable original X j esta dada por:

rYk , X j = vkj k para j , k = 1, 2,..., p


Usando el resultado anterior podemos definir:

La proporcin de varianza muestral explicada por la componente k como:

k
p
-

con k = 1, 2,..., p

La proporcin de varianza muestral explicada por las primeras q con q < p componentes como:

k =1

con k = 1, 2,..., p

Estas proporciones se pueden expresar en porcentajes.

Relacin entre las Componentes Principales muestrales y las poblacionales Lo que hemos desarrollado hasta ahora en este captulo, que hemos llamado componentes principales muestrales, se basa en la descomposicin de bien sea de la matriz de covarianzas muestrales S o de la matriz de correlaciones R . Por otra parte si x ' = [ X 1 ,..., X p ] el vector de las variables originales provienen de una variable aleatoria p dimensional con distribucin N p ( m, S ) con y S definida positiva, si conoce la matriz de varianzas covarianzas, es posible construir las p componentes principales poblacionales como Yk = v 'k (x ) con K = 1, 2,..., p de tal forma que sean incorrelacionadas, con varianzas progresivamente decrecientes y con la restriccin que el vector de los coeficientes sea de longitud unitaria. Se puede adems demostrar resultados similares a laos formulado anteriormente y obtener dichas componentes. Es posible demostrar que las componentes principales Yk = v 'k ( x x ) son realizaciones de las componentes principales poblacionales

Yk = v 'k (x )

con

distribucin

N p (0, ) donde

= diag (1 , 2 ,..., p ) , (k , v k ) son las parejas de valores y vectores propios de = S . Si S =x y . Tambin, de los valores muestrales se pueden estimar
es definida positiva, los contornos definidos como:

(x x)' S 1 (x x) = c 2
son una estimacin de los contornos poblacionales:

(x )' 1 (x ) = c 2
que representan la ecuacin de una elipsoide como en la figura siguiente para datos centrados :

Anlisis de Componentes Principales

Amparo Vallejo Arboleda

Figura 1: Representacin de las dos primeras componentes principales


X2 Y1

Y2

.v . .. e . v .. e . . . . .
1 2
2

X1

Con la suposicin de normalidad planteada para los datos se pueden implementar los procedimientos de inferencia, pero no se requiere para desarrollar las propiedades de las componentes principales como las siguientes: Geomtricamente los datos se pueden graficar como puntos en un espacio de

p dimensiones y pueden entonces expresarse en un nuevo sistema de


coordenadas cuyos ejes coinciden con los ejes del elipsoide que est centrado en x y sus ejes coinciden con los vectores propios de S (que son los mismos de

S 1 ). Las longitudes de los ejes son proporcionales a 1 2 ... p 0 .

k para k = 1, 2,..., p con

Debido a que la longitud de v k es 1, la longitud de la componente principal,


yk = v k (x x ) es (x x ) esto es la proyeccin sobre los ejes del elipsoide. Por

tanto las componentes principales muestrales pueden verse como la translacin del origen del sistema de coordenadas iniciales a x y la rotacin de los ejes de coordenadas hasta que pasen a travs de las direcciones de mxima variabilidad y adems sean ortogonales. Si los ltimos valores propios k son lo suficientemente pequeos tales que la variacin en la correspondiente direccin v k es despreciable, las ltimas componentes principales se pueden ignorar y los datos pueden aproximarse adecuadamente por su representacin en el espacio de las componentes retenidas. Decisin sobre el nmero de componentes Una decisin a tomar frente a los resultados obtenidos de una ACP es el nmero de componentes a retener para el anlisis. En la literatura se encuentran diferentes criterios entre los se tienen los siguientes:

10

El porcentaje de varianza total explicada. Con este criterio el investigador debe fijar con anterioridad cual es este porcentaje mnimo que por las condiciones del mismo se considera es una explicacin satisfactoria. Descartar los valores propios cercanos a cero. Una alternativa es considerar empricamente a partir de que valores consideramos cercanos es cero, la otra es desarrollar una prueba estadstica acerca de la significancia de las q primeras componentes, lo que significa verificar la hiptesis nula que los ( p q ) valores propios son iguales y pequeos. Para implementar esta ltima alternativa es necesario exigirle a los datos que cumplan el supuesto de multinormalidad. Dillon y Goldstein (1986) proponen algunos mtodos grficos uno de los cuales consiste en elaborar un grafico en donde se representan los valores propios k ordenados de mayor a menor en el eje de las ordenadas y las componentes en el eje de las abscisas (figura 2). Para determinar el nmero apropiado de componentes se busca el codo. Es decir el punto a partir del cual los valores propios son relativamente pequeos y de tamaos aproximadamente iguales. En la grfica el codo ocurre en k = 3 , esto es los valores propios despus de 3 son todos pequeos y aproximadamente iguales.

Interpretacin de las Componentes Principales Una vez decidido cuantas componentes incluir en al anlisis, el siguiente problema es la interpretacin del significado de cada una de las componentes elegidas. Lo deseable es que realmente todas tengan un significado en el contexto del problema que se analiza, pero lo real es que no siempre es posible. Una herramienta para obtener un significado es el numeral 5 de las resultados 1 y 2. Este se refiere a la correlacin entre una componente principal y una variable original que es directamente proporcional a la componente (carga) del vector propio asociado a la componente principal y la variable original correspondiente. Un ejemplo de esto es cuando se tienen datos para anlisis de morfometra, suele tenerse una componente donde todas las cargas son positivas y de magnitudes similares, este tipo de componente se interpreta como un ndice de tamao. Si por el contrario un conjunto de cargas son positivas y otro son negativas la interpretacin puede asociarse con un contraste entre las variables asociadas a estos conjunto de cargas. Ejemplo Los siguientes datos corresponden a mediciones morfomtricas de 82 neonatos, de la especie Podocnemys lewyana medidas en condiciones de laboratorio, las variables medidas y sus varianzas se tienen en la tabla 1:

Anlisis de Componentes Principales

Amparo Vallejo Arboleda

Variable LRC AC LP AP ALT

Nombre largo de la caparazn Ancho de la caparazn Largo del plastron Ancho del plastron Altura

Unidad mm. mm. mm. mm. mm.

Varianza 4,500 5,104 4,600 2,731 1,719

Tabla 1: variables y varianzas

Para obtener los resultados se utiliz el paquete estadstico STATGRAPHICS, los datos fueron estandarizados. La primera informacin importante hace referencia a los valores propios y a la varianza explicada por cada componente, las dos primeras componentes explican el 82,35%, haremos el anlisis para este primer plano. En la figura 2 se representan los valores propios versus el nmero de la componente, se presenta un codo en el punto correspondiente a la componente 2, esto nos llevara a elegir solo una componente utilizando el criterio del codo, pero por la varianza explicada hemos decidido elegir 2 componentes.
Figura 2: Representacin de los valores propios versus su nmero.
4 3

Eigenvalue

2 1 0 0 1 2 3 4 5

Component

Nmero Valor propio % varianza explicada % acumulado 1 3,395 67,915 67,915 2 0,721 14,438 82,353 3 0,529 10,588 92,941 4 0,212 4,254 97,195 5 0,140 2,805 100,000 Tabla 2: Valores propios y varianza explicada por cada componente.

En la tabla 3 se tienen las pesos de cada una de las 2 primeras componentes para cada una de las variables originales y su representacin est en la figura 3. Los pesos de la primera componente son todos positivos, con valores entre 0,35 y 0,49; esta puede entonces interpretarse como una componente de tamao, lo que significa que si un neonato tiene valor alto, relativamente, en esta componente entonces tiene un tamao grande, y si es bajo por tanto es pequeo. La segunda componente en cambio tiene pesos positivos para AP y AC (ancho del plastron y ancho del caparazn) y negativos para LP, LRC Y Alto (longitud del plastron,

12

longitud del caparazn y alto); esta se puede interpretar como una componente de forma del neonato.
Variable Alto LRC AC LP AP Componente 1 0,421 0,478 0,477 0,490 0,352 Componente 2 -0,198 -0,247 0,1399 -0,350 0,870

Tabla 3: Pesos de las 2 componentes Figura 3: Representacin de las variables en el primer plano principal
1,1 AP 0,8

Component 2

0,5 0,2 -0,1 -0,4 0,35 0,38 0,41 0,44 0,47 Alto AC LRC

LP 0,5

Component 1

Referencias Diaz M. L. G. (2002). Estadistica Multivariada: inferencia y mtodos. Editorial Universidad Nacional de Colombia. Bogot. Gower, J. C. (1966). Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika, 53 (3), 325-338. Hotelling H., (1933) Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24: 417-441, 498-520. Jobson, J.D. (1992) Applied multivariate data analysis, Categorical and multivariante methods: v2: Springer. Kuhfeld, W.F., Sarle, W.S. y Young, F.W. (1985) Methods for Generating Model Estimates in the PRINQUAL Macro, SAS Users Group International Conference Proceedings: Sugi 10, Cary, NC:SAS Institute, 962-971. Levard L., Morineau, A. y Fenelon, J.P. (1985), Tratamiento Estadstico de Datos. Barcelona. Marcombo.

Anlisis de Componentes Principales

Amparo Vallejo Arboleda

Pearson, K. (1901) On lines and planes fit to systems of points in space. Philosophical magazine 2: 559-572. Pea Daniel. (2002). Anlisis de Datos Multivariantes. Editorial McGraw-Hill. Madrid. Saporta, G. (1983), Multidimensional data analysis and quantification of categorical variables, en New Trends in Data Analysis and Applications, J. Janssen, J.F. Marcotorchino, J.M. Proth Eds., Elsevier Science Publishers B.V., North-Holland. Young, F.W. (1981), Quantitative Analysis of Qualitative Data, Psychometrika, 46, 357-388. Young, F.W., Takane, Y. y de Leeuw, J. (1978), The Principal Components of Mixed Measurement Level Multivariate Data: An Alternanting Least Squares Method with Optimal Scaling Features, Psychometrika, 43, 279- 281. Young, F.W., Takane, Y. y de Leeuw, J. (1985), PROC PRINQUAL- Preliminary Specifications, Manuscrito no publicado, The University of North Carolina Psychometric Laboratory, Chapel Hill NC.