Vous êtes sur la page 1sur 13

LAnalyse en Composantes Principales (ACP)

On possde un tableau rectangulaire de mesure dont les colonnes sont des variables quantitatives (mensurations, taux, stations climatiques) et dont les lignes reprsentent des individus statistiques (units lmentaires telles que des tres humains, des pays, des annes).
Variables 1 ...... j .. p 1 i . n X : Tableau de donnes Xij : Valeur de la ime
observation pour la jime variable

Objectifs : extraire lessentiel de linformation contenue dans le tableau de donnes et den fournir une reprsentation se prtant plus aisment linterprtation. Pas dhypothses a priori.

Individus

Xij

Xi. : ime observation du tableau X.j : jime variable du tableau n : effectif des individus p : nombre de variables

LAnalyse en Composantes Principales (ACP)


On peut interprter gomtriquement les lignes et les colonnes du tableau X par des points dans deux espaces diffrents : lespace des variables et lespace des individus. Lespace des individus Les n lignes peuvent tre considres comme n points de lespace des individus p dimensions.
Deux points sont trs proches si les p coordonnes de ces deux points sont trs proches (mmes valeurs pour les diffrentes variables).

Lespace des variables Les p colonnes peuvent tre considres comme p points dans un espace n dimensions. Cet espace est appel lespace des variables.
Si les valeurs prises par deux variables sont trs voisines pour lensemble des individus, ces variables seront trs proches (ce qui peut signifier que les variables mesurent la mme chose ou encore quelles sont lies par une relation particulire).

LAnalyse en Composantes Principales (ACP)


Lespace des individus Lanalyse du nuage de point utilise la notion fondamentale de distance. On munit lespace des individus de la distance euclidienne classique.
j d ( X A. , X B. ) = X A X Bj j =1 p

B A

LAnalyse en Composantes Principales (ACP)


Lespace des individus Lanalyse du nuage de point utilise la notion fondamentale de distance. On munit lespace des individus de la distance euclidienne classique.
j d ( X A. , X B. ) = X A X Bj j =1 p

On dsigne par g le centre de gravit du nuage :

1 g = X i n i =1
n

B g A

LAnalyse en Composantes Principales (ACP)


Lespace des individus Lanalyse du nuage de point utilise la notion fondamentale de distance. On munit lespace des individus de la distance euclidienne classique.
j d ( X A. , X B. ) = X A X Bj j =1 p

On dsigne par g le centre de gravit du nuage :

1 g = X i n i =1
n

B g A

Linertie totale du nuage scrit :

1 I g = d (g , X i ) i =1 n

LAnalyse en Composantes Principales (ACP)


Lespace des individus On recherche des sous-espaces reprsentant au mieux ce nuage de point en respectant 2 critres : le critre de proximit et la fidlit des distances. Cest le sous-espace passant par g qui optimise ces deux critres Soit H le sous-espace passant par g, on distingue deux types dinertie : A H B g

LAnalyse en Composantes Principales (ACP)


Lespace des individus On recherche des sous-espaces reprsentant au mieux ce nuage de point en respectant 2 critres : le critre de proximit et la fidlit des distances. Cest le sous-espace passant par g qui optimise ces deux critres Soit H le sous-espace passant par g, on distingue deux types dinertie : Inertie explique par H A g A H B B

1 I exp ( H ) = d g , X i n i =1
n

Inertie rsiduelle autour de H

1 ,X I rs ( H ) = d X i i n i =1

LAnalyse en Composantes Principales (ACP)


Lespace des individus On recherche des sous-espaces reprsentant au mieux ce nuage de point en respectant 2 critres : le critre de proximit et la fidlit des distances. Cest le sous-espace passant par g qui optimise ces deux critres Soit H le sous-espace passant par g, on distingue deux types dinertie : Inertie explique par H A g A H B B

1 I exp ( H ) = d g , X i n i =1
n

Inertie rsiduelle autour de H

1 ,X I rs ( H ) = d X i i n i =1

Inertie totale = inertie explique + inertie rsiduelle

LAnalyse en Composantes Principales (ACP)


Lespace des variables Changement dorigine : g = 0 (centrage des variables) La recherche des sous-espaces Hk se fait de proche en proche pour k=1 p : La dtermination de H1 revient chercher une droite passant par lorigine qui sajuste le mieux au nuage de points-individus (maximisant linertie explique). Pour trouver cette droite, il faut dterminer un vecteur unitaire u1 port par cette droite avec d(0,u1)=1. u1 0 H1

LAnalyse en Composantes Principales (ACP)


Lespace des variables Changement dorigine : g = 0 (centrage des variables) La recherche des sous-espaces Hk se fait de proche en proche pour k=1 p : Une fois u1 dtermin, on peut dmontrer que le sous-espace H2 sajustant au mieux au nuage de points contient ncessairement u1. Pour dterminer le sous-espace H2, on recherche u2 tel que u2 perpendiculaire u1 et tel que la droite porte par u2, passant par 0, ait une inertie maximale. On peut dmontrer que le sous-espace H3 contient ncessairement u1 et u2. etc u1 u2 0 H1

H2

LAnalyse en Composantes Principales (ACP)


Lespace des variables On peut dmontrer que les vecteurs u1,u2,,up peuvent sobtenir partir de la matrice dinertie C (covariance ou corrlation) entre les variables du tableau. Cette matrice est telle quil existe p vecteurs et p constantes qui vrifient lquation matricielle suivante : C.v = Les p vecteurs v sont les vecteurs propres et les constantes associes sont les valeurs propres. Ces vecteurs sont orthogonaux deux deux et unitaires (de longueur gale 1). Ils peuvent tre ranges par ordre dcroissant des valeurs propres associes : le premier vecteur propre v1 est associ la valeur propre la plus lev 1. Ces vecteur sont les u1 u2 0

H1

H2

LAnalyse en Composantes Principales (ACP)


Lespace des variables Les droites engendres par ces vecteurs propres sont appeles respectivement le 1er, 2me, et pime axe principal dinertie du nuage.

Linertie explique par H1, le premier axe principal engendr par v1 est gale : I(H1)= 1 Linertie expliqu par H2, le plan engendr par v1 et v2 est gale : I(H2)= 1+ 2 Les valeurs propres de C reprsentent donc les parts dinertie explique par chacun des axes principaux du nuage des individus. u1 u2 0

H1

H2

LAnalyse en Composantes Principales (ACP)


La composante principale Combinaison linaire des variables initiales Cest la projection des points-individus sur laxe principal. Il y a p CP et linformation quelle rsume () dcroit de la 1re la pime. La projection des variables Dans le cas dune ACP norme, la coordonne dune variable sur un axe factoriel est la corrlation entre cette variable et la CP. Le cas dune ACP spatiale Si les variables sont des stations de mesures et les individus le temps : La projection des variables est une carte de corrlation (covariance) dcrivant un mode de variabilit qui structurent les champ initiaux. La CP est la srie temporelle synthtique de lvolution de ce mode de variabilit