CP

Curso de Anlisis Multivariado a
Leticia Gracia Medrano IIMAS Depto. Probabilidad y Estad stica lety@sigma.iimas.unam.mx
Cap tulo 1
Reduccin de dimensiones o
1.1.
1.1.1.
Componentes principales
Introduccin o
Se tienen mediciones sobre las siguientes variables luego de haberlas centrado en su media. x1 = alturas x2 = pesos Qu informacin interesa ms? Pues la conguracin de datos, es decir la e o a o ((forma)) de la nube de datos, los ejes en que estn dadas las coordenadas es a IRRELEVANTE. (pintar los nuevos ejes) Marcando un nuevo eje se ver donde quedan las personas grandes y donde a las pequeas. n Entonces en el eje OY 1 nos habla de la talla de los individuos. En el eje OY 2 estn, por arriba, los que tienen peso alto y talla corta (gorditos) y los a que estn por debajo tienen alta estatura y bajo peso. El eje OY 2 habla de la a forma. Para este procedimiento se requiere girar los ejes (Presentar el ngulo ) a Com se cambia de base o de ejes? o y1 y2 = x1 cos + x2 sen x1 sen + x2 cos = cos sen sen cos x1 x2
Aqu se ve que y1 y y2 son combinaciones lineales de x1 y x2 . Porqu elig los ejes OY 1 y OY 2? e Porque en la direccin de OY 1 hay la mayor dispersin en la direccin de o o o OY 2 hay la menor. Esto signica que los datos var mucho en talla y poco en forma, o sea las an personas son similares en forma. Las proyecciones de los puntos sobre OY 1 son una buena aproximacin a los o datos, pues en la otra direccin hay poca variacin. o o
Figura 1.1: Primera y segunda componentes La primer combinacin lineal o y1 = x1 cos + x2 sen tiene la mayor variacin. , o Se tiene una nueva variable Y1 que resume a las otras dos. Por Teorema de Pitgoras se tiene que: a (OPi )2 = (OPi )2 + (Pi Pi )2 . Se requiere minimizar la cantidad: (Pi Pi )2 , que puede ser vista como el error. Sumando de ambos lados C= (OPi )2 (OPi )2 (Pi Pi )2 = + n1 n1 n1
(Pi Pi )2 n1 (OPi )2 n1
Como (OPi )2 es una cantidad que no cambia al mover , minimizar es equivalente a maximizar
(OPi )2 n1
corresponde a la varianza muestral respecto al eje OY 1, queremos que el nuevo eje OY 1 MAXIMIZE la varianza muestral de las proyecciones sobre el.
1.1.2.
Qu hacer en p dimensiones? e
La varianza de la matriz de datos x es var(x) = S. 3
Si denotamos a y = a x entonces var(y) = var(a x) = a Sa ax = a1 x1 + a2 x2 + . . . + ap xp = y Cuando se trabajan datos en dimensin p se pueden hallar hasta p combio naciones lineales de las variables originales: yj = aj1 x1 + aj2 x2 + . . . + ajp xp = aj x donde j = 1, . . . , p y de manera que yk sea ortogonal a yj siempre que k = j y que y1 tenga la mayor varianza y que yp tenga la menor varianza. entonces yj = aj1 x1 + aj2 x2 + . . . + ajp xp = aj x. Se debe elegir a1 de manera que la var(y1 ) sea mxima. a var(y1 ) = var(a1 x) = a1 Sa1 Aqu se podr hacer la varianza de y1 tan grande como se quisiera, con slo a o dar valores grandes a las entradas de a por lo que se imponene que: a1 = a1 a1 = 1 Esto dene la funcin objetivo, es decir, se debe encontrar cual vector a1 es o el que maximiza a1 Sa1 y adems a1 a1 = 1. a Para lograr maximizar estas condiciones se utilizan los multiplicadores de Lagrange, que permiten maximizar una funcin f (x1 , x2 , . . . , xp ) sujeto a que o g(x1 , x2 , . . . , xp ) = c, donde f es una funcin diferenciable. Este resultado de los multiplicadores o f g dice que existe una tal que xi xi = 0. Para el caso de componentes principales ser a L(a1 ) = a1 Sa1 (a1 a1 1) L = 2Sa1 2a1 a1 se tiene (S I)a1 = 0 entonces a1 es eigenvector de S y su eignenvalor, que equivale a decir que |S I| = 0. Sean 1 , 2 , . . . , p los eigenvalores, por el momento se suponen 1 .. 1 > 2 > . . . > p 0 y S = AA donde = . . p Cual de ellos determina a la primer componente var(a1 X) = a1 Sa1 = a1 Ia1 = Como queremos que sea el que maximize la varianza, es el mayor de los i , digamos 1 . Entonces a1 es el eigenvector asociado a 1 . Ahora buscaremos y2 = a2 X, tambien a2 a2 = 1, de manera que tambien y2 debe ser no correlacionada a y1 . 4
cov(y2 , y1 ) = cov(a2 X, a1 X) = E[a2 (x )(x ) a1 ] = a2 Sa1 Debe ser cero Sa1 = 1 a1 1 a2 a1 = a2 1 a1 = 0 a2 a1 = 0 es decir que a1 es perpendicular a a2. L(a2 ) = a2 Sa2 (a2 a2 1) a2 a1 L a2 = 2(S I)a2 a1 = 0 Premultiplicando esto por a1 y operando 2a1 Sa2 = 0 e como a1 a2 = 0 y como tambin a1 Sa2 = 0 (no correlacionado), se tiene que debe ser cero, entonces la ecuacin que interesa es (I)a2 = 0 y de acuerdo o a esto 2 corresponde al segundo eigenvalor y a2 al segundo eigenvector. Cuando hay eigenvalores iguales se eligen eigenvectores ortogonales. Sea A = a1 a2 . . . ap Sea Yp1 , el vector de las componentes principales. Y =AX La matriz de covarianzas de Yes y esta dada por 1 0 0 ... 0 0 2 0 . . . 0 = .. . 0 0 0 . . . p var(Y ) = A SA = A AA A = p p traza() = i=1 i = i=1 var(yi ) p traza() = traza(A SA) = traza(SAA ) = traza(S) = i=1 var(xi ) p p i=1 var(yi ) = i=1 var(xi ) Esto es util para determinar el nmero de componentes a utilizar. u p Si se considera como varianza generalizada a i=1 2 i = traza(), entonces p traza() = i=1 i . De esta forma tenemos que j nos dice el porcentaje de la varianza generalizada que es explicado p i=1 i por la componente j-sima y e nos da el porcentaje de la varianza generalizada dado por las primeras j componentes principales. La covarianza entre xi y yj es el vector Saj = j aj entones cov(xi , yj ) = j aij y aij corr(xi , yj ) = j 2 j i j aij = i NOTA.- Como se desconoce , todo en la prctica se hace con su estimador a S.
j i=1 p i=1
i i
Si P es la matriz de correlacin se pueden calcular sus componentes princio pales pero los eigenvectores de P y no coinciden. Ejemplo Podemos observar que en la componente 1 se concentra el mayor porcentaje de la varianza, por lo que bajo algunos criterios podriamos conservar esa componente como la que explica a todas las variables. Se utilizar el programa R para realizar el ejemplo basado en mediciones de distintos tipo de ores. Estas mediciones se encuentran en el programa R bajo el nombre iris. A continuacin se muestran las instrucciones utilizadas en R para realizar el o anlisis asi como las respectivas salidas. a Podemos observar que en la componente 1 se concentra el mayor porcentaje de la varianza, por lo que bajo algunos criterios podriamos conservar esa componente como la que explica a todas las variables. La tabla de las cargas nos dice los coecientes de las componentes para explicar las variables, de esta manera X1 = 0,361Y1 0,657Y2 + 0,582Y3 + 0,315Y4 y asi sucesivamente podemos calcular la combinacin para las otras variables. o

CP

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CP

Transféré par

Droits d'auteur :

Formats disponibles

Curso de Anlisis Multivariado a

Leticia Gracia Medrano IIMAS Depto. Probabilidad y Estad stica lety@sigma.iimas.unam.mx

La varianza de la matriz de datos x es var(x) = S. 3

Vous aimerez peut-être aussi