Vous êtes sur la page 1sur 13

L'Analyse en Composantes Principales (ACP)

Un exemple lmentaire
On considre la population constitue par 17 pays (ou individus) sur lesquels on a relev les valeurs de deux caractres: l'esprance de vie (EVI), et le taux d'analphabtisme (ANA) en 1970. Le graphique 1 donne la reprsentation de ces donnes dans un diagramme EVIxANA. On remarque que l'ensemble des points figurant les pays (ou nuage des individus) prsente une direction privilgie, approximativement trace sur le graphique. On peut songer faire un nouveau graphique dans lequel cette direction serait l'un des axes de coordonnes, le second tant naturellement perpendiculaire. Par commodit, on place l'origine au centre de gravit du nuage. A quelques conventions supplmentaires non explicites pour l'instant prs, c'est l l'ide de l'ACP. On obtient le graphique 2. On y voit les pays s'grener suivant l'axe 1, des plus dvelopps aux plus arrirs. Cet axe peut s'interprter comme l'axe du progrs. L'loignement selon l'axe 2, transversal, note au contraire un dveloppement diffrent: d'un ct l'Espagne et le Maroc, o l'alphabtisation est en retard sur l'esprance de vie par rapport au comportement gnral, de l'autre ct l'Inde et la Thalande, en situation inverse.

Exemple: esprance de vie x taux d'analphabtisme en 1970

EVI Pays EVI ANA I I Algrie 53.20 52.50 I Maroc 52.90 78.60 I Inde 49.5 40.00 I Iran 51.0 65.50 I Isral 71.00 12.80 I Japon 73.30 2.00 I Thalande 58.00 18.00 I Brsil 61.40 33.00 I S JF I GB Espagne Turquie 56.90 44.00 I USA Isral Mexique 63.20 24.00 I RFA USA 71.30 1.00 I France 72.60 3.00 I RFA 70.60 1.00 I Italie 72.00 7.00 I Espagne 72.10 19.90 I Mexique Sude 73.30 0.10 I Brsil GB 72.30 10.00 I I I Thalande I Turquie I I I Algrie Maroc I I Iran I Inde I +------------------------------------------------------------------------------------- ANA

REPRSENTATION PLAN 1x2

AXE 1: HORIZONTAL

AXE 2: VERTICAL

+----------------------------------------------------------------------------+--------------------------------------------+ Maroc + + + + + + + + + + Espagne + + + + + + + + Iran + Isr. GB. + + + Ita. Fr.Japon +---------------------- Algrie ------ Turquie --------------- Brsil -------+------------------------------------------Su + Mexique USA + + + RFA + + + + + + + + + + + + + + Inde Thalande + + +----------------------------------------------------------------------------+--------------------------------------------+

Tableaux de donnes, notations


L'ACP traite des tableaux rectangulaires donnant les valeurs d'un ensemble de caractres quantitatifs relevs sur un ensemble d'individus. Dans l'exemple prliminaire, les individus taient les 17 pays retenus, les caractres, au nombre de deux, l'esprance de vie et le taux d'analphabtisme. L'usage dominant - que nous adoptons ici - est de placer les individus en ligne, et les caractres, ou variables, en colonne. Soit X un tableau de donnes, notons I l'ensemble des individus (lignes), en nombre n, et J, l'ensemble des variables (colonnes), en nombre p, et xij est la valeur prise par l'individu i pour le caractre j. La ligne xi. est un vecteur de Rp donnant les valeurs prises par l'individu i pour les p caractres de J. On parlera indiffremment de ligne x i., de ligne i ou d'individu i.

j . . . . . xij . . . . . J La colonne x.j est un vecteur de Rn donnant les valeurs du caractre j releves sur les n individus de I. On parlera indiffremment de colonne x .j, de colonne j, de variable ou de caractre j.

Exemples de tableaux de donnes


I = Ensemble de personnes, J = Ensemble de caractres biologiques (taille, poids, rythme cardiaque, capacit thoracique, etc.). I = Ensemble d'tudiants, J = Ensemble de matires, xij tant la note obtenue par l'tudiant i dans la matire j. I = Ensemble de pays, J = Ensemble de postes de dpenses publiques (ducation, police, culture, etc.), xij tant la dpense du pays i pour le poste j en 1988. I = J = Ensemble de pays, xij tant le total des exportations de i vers j en 1912.

Dans certains cas, le choix entre ce qui sera l'ensemble des individus et celui des variables peut sembler indiffrent (dernier exemple), il faut toutefois le prciser clairement car, en ACP, les individus et les variables ne sont pas traits de manire quivalente. On appelle nuage (des individus), l'ensemble des lignes i considres comme points de l'espace vectoriel R p. On note que la coordonne de l'individu i sur l'axe canonique j de Rp est la valeur xij prise par le caractre j pour cet individu; en ce sens les axes canoniques correspondent aux variables.

Principes de l'ACP
L'ide de l'ACP est de dterminer un nouveau repre de Rp associ de manire naturelle la structure du nuage considr, de faon pouvoir l'y examiner plus commodment. Pour s'affranchir des effets d'chelle dus l'htrognit ventuelle des variables, ces dernires sont en gnral normalises, c'est dire que chaque colonne est divise par son cart-type; toutes sont ds lors exprimes dans la mme chelle standard. D'autre part, l'origine est place au centre de gravit du nuage. C'est le nuage ainsi transform qui est en fait considr; l'utilisateur n'a cependant pas se proccuper de ces transformations pralables, sauf demande contraire elles sont excutes automatiquement par les logiciels d'ACP. Directions principales - plans principaux - reprsentation des individus Le nuage prsente gnralement des directions d'allongement privilgies, celle d'allongement maximal D1 est dite premire direction principale (du nuage), la suivante D2 parmi toutes celles perpendiculaires D1 est la seconde direction principale, la suivante D3 parmi toutes celles perpendiculaires D1 et D2 est la troisime direction principale, etc. On choisit un vecteur unitaire uk sur chaque direction Dk (le choix du sens est libre et dcid arbitrairement par le logiciel utilis) et on obtient une base orthonorme de Rp, c'est la base principale du nuage.

+-----------------------------------------------------+-----------------------------------------------------------+
I | * * * * * I I | * * D1 * * I I * * | * * * I I * | * * * I I--------------------------------*-----------+-------------------------------------------------I I * * * | G * * I I * * * | * * I I * * * * | * I I * * * * * | I I * * | I

+-----------------------------------------------------+-----------------------------------------------------------+ On appelle plan principal ixj le plan vectoriel dtermin par les directions Di et Dj. En gnral, le nuage est approximativement situ dans un sous-espace de Rp de faible dimension, engendr par les premires directions principales; l'examen de ses projections sur quelques plans principaux bien choisis (1x2, 1x3, etc.) permet alors de dcouvrir ses particularits et de dcrire sa structure assez prcisment. Composantes principales - reprsentation des variables De mme que les variables initiales sont associes aux axes canoniques de Rp, de nouvelles variables appeles composantes principales sont associes aux axes principaux: la composante principale ck est le vecteur de Rn qui donne les coordonnes des individus sur l'axe principal Dk muni du vecteur unitaire uk. Les composantes principales sont naturellement des combinaisons linaires des variables initiales, on montre qu'elles sont centres et non corrles. L'examen des corrlations entre les variables initiales et les composantes principales permet d'interprter ces dernires et les axes principaux correspondants. Les programmes usuels permettent de reprsenter ces quantits dans le cercle des corrlations. Cette reprsentation n'est pas de mme nature que celle des individus sur les plans principaux. Et si certains logiciels superposent les deux sur les mmes graphiques, il faut garder l'esprit que la position des points-variables par rapport aux points-individus n'y est pas directement interprtable!

Une prsentation alternative de l'ACP, privilgiant les variables mais quivalente, l'introduit comme la recherche de nouvelles variables (les composantes principales) non corrles entre elles, et les plus corrles avec l'ensemble des variables initiales. Les composantes principales sont parfois vues comme des variables caches non-observables, que la mthode permet donc de mettre en vidence derrire les variables initiales, seules observables. Elles permettent par ailleurs de rsumer, par les premires d'entre elles, une information rpartie sur un grand nombre de variables (cela est parfois utilis en rgression linaire pour chapper la multicolinarit).

Aides l'interprtation
Mme si tout n'a pas t dtaill, on aura compris que les bases mathmatiques de l'ACP sont rduites. L'art de l'analyste est celui de l'interprtation des rsultats, cela ncessite la fois la comprhension des mthodes employes et la connaissance du domaine des donnes tudies. L'interprtation s'appuie sur l'examen de diffrentes quantits calcules et dites par les logiciels d'ACP. i

---------+-----------------------------------------------------+----------------------- 0 ik Dk Inertie Un individu i du nuage (suppos muni des poids uniformes pi = 1) a une inertie I(i): I(i) = pi Oi2 = Oi2

Si ik est la projection de i sur l'axe principal Dk, l'inertie de i suivant cet axe est: Ik(i) = pi Oik2 = Oik2 L'inertie de i se dcompose en la somme de ses inerties suivant les diffrents axes principaux Dk (perpendiculaires): I(i) = Ik(i)
k

L'inertie totale suivant l'axe Dk, est: Ik = Ik(i)


i

Et l'inertie totale du nuage est: I = I(i) = Ik


i k

Les directions principales d'allongement du nuage sont en fait les directions perpendiculaires successives d'inertie maximum du nuage. Taux d'inertie Il s'agit des inerties successives I1, I2, I3, etc. suivant les axes principaux D1, D2, D3, etc. du nuage. Leurs valeurs relatives traduisent l'importance de l'allongement suivant ces directions successives. On dite les taux relatifs I1/I, I2/I, I3/I, etc., ainsi que les taux relatifs cumuls. Lorsque ces derniers approchent 100%, on considre que l'on a assez d'axes principaux pour reprsenter convenablement le nuage. Contributions des axes aux individus (COR)

Il s'agit des ratios tels que: COR(k, i) = Ik(i)/I(i) qui mesure la qualit de la reprsentation de l'individu i sur l'axe principal Dk. On a:

COR(k, i) = 1
k

Il n'est licite de commenter la position de l'individu i sur le plan principal kxh que si le ratio: [Ik(i)+Ih(i)]/I(i) n'est pas trop faible. La considration de ces ratios, qui sont des cosinus carrs, n'est pertinente que pour les points pas trop proches de l'origine. Pour ceux-ci, c'est plus leur position, centrale, que la direction dans laquelle se manifeste leur faible loignement, qui les caractrise. Contributions des individus aux axes (CTR) Il s'agit des ratios tels que: CTR(i, k) = Ik(i)/Ik qui mesure la part prise par l'individu i dans la dtermination de l'axe principal Dk. On a:

CTR(i, k) = 1
i

Contributions des axes aux variables (COR)

10

Il s'agit des coefficients de corrlation au carr tels que: COR(k, j) = corr2(ck, x.j) entre la variable initiale x.j et la composante principale ck. Elles permettent comme on l'a vu de dgager la signification des axes. On a:

COR(k, j) = 1
k

Ces quantits sont les carrs de celles figures dans le cercle des corrlations utilis pour reprsenter graphiquement les variables. Contributions des variables aux axes (CTR) Il s'agit des ratios tels que: CTR(j, k) = corr2(ck, x.j)/ corr2(ck, x.i)
i

On a:

CTR(j, k) = 1
j

L'observation des premiers plans principaux ne permet aucune conclusion, et peut mme tre source de contresens, si elle ne s'accompagne pas de l'examen des quantits prcdentes. Il faut donc toujours les faire diter par le logiciel utilis et les consulter.

lments supplmentaires
Si on craint que l'influence de certains individus ne soit excessive pour la dtermination des axes principaux, il est possible de les placer en lments supplmentaires, c'est dire qu'ils ne font pas partie du nuage dont on cherche les directions principales, mais on peut figurer leur position sur les plans principaux obtenus.

11

On traite de la mme manire des variables en lments supplmentaires, elles ne font pas partie de l'ensemble des variables de base mais on peut examiner leurs corrlations avec les composantes principales obtenues. Aprs une premire ACP des donnes tudies, il est recommand d'prouver la stabilit des configurations observes en effectuant de nouvelles analyses laissant en lments supplmentaires les individus ou variables d'importance trop marque, ou encore les donnes douteuses.

Rotations
Si globalement l'ACP dtermine via les premires directions principales des sous-espaces de faibles dimensions dans lequel l'essentiel de l'information porte par le nuage des individus se manifeste, il est frquent que l'interprtation des nouveaux axes, c'est dire encore des nouvelles variables ou composantes principales, soit malaise. Les choses seraient plus simples si chaque nouvelle variable tait bien corrle avec un groupe de variables initiales (elles-mmes plus ou moins lies) et peu avec les autres, ces groupes tant naturellement exclusifs. C'est l'ide qui a inspir la mthode dite des rotations. On fixe d'abord le nombre de directions propres retenues (3, 4, 5...) selon la pratique habituelle par l'examen des valeurs propres, ou taux d'inertie, successives, puis on cherche la rotation des axes principaux, conservant donc leur orthogonalit, qui approche au mieux la situation dsire prcdente. Le critre mathmatique gnralement retenu est celui dit du varimax, qui cherche maximiser la variance de la srie des corrlations au carr avec les variables initiales. Comme on le conoit, celles-ci sont entraines soit vers 1 soit vers 0, valeurs les plus loignes, et permettent donc une interprtation plus aise de ces nouveaux axes aprs rotation. Comme les composantes principales, les nouvelles variables sont non corrles. Le calcul effectif mis en uvre par les logiciels offrant ces option est une classique optimisation sous contraintes.

Conclusion
L'ACP est une technique de statistique descriptive dont le principe est simple mais qui met en oeuvre des calculs numriques importants, pour cette raison elle n'a pu se dvelopper qu'avec l'apparition des ordinateurs.

12

L'ACP est conseiller pour un premier examen, une mise en forme ou une prsentation synthtique de donnes abondantes croisant des individus avec des variables quantitatives. On n'omettra cependant pas d'examiner pralablement les donnes par les mthodes statistiques usuelles (moyenne, cart-type, graphiques, corrlation, etc.). Un reproche frquemment adress l'ACP et aux techniques connexes est qu'elles ne rvleraient que des vidences. Le propos est injuste, mais il est rassurant que souvent les premiers axes retrouvent et confirment ce qui tait dj connu. Comme avec les autres mthodes descriptives, il faut tre trs prudent pour infrer des modles explicatifs ou causals partir des configurations obtenues. ----===oooo===----

Appendice mathmatique
Formalisation de lACP On note X la matrice n.p des donnes (ie portant les observations en ligne, lments de R p, et les variables, quantitatives, en colonnes, lments de Rn), on suppose les colonnes de X pralablement centres et rduites si ncessaire. Soit u un vecteur (en colonne) unitaire de R p, le vecteur X.u de Rn a pour composantes les produits scalaires des observations avec u, cest dire encore, les distances lorigine des projections des observations selon la direction de u, tandis que linertie totale du nuage dans cette direction est donne par le produit matriciel : u.X.X.u . La matrice symtrique X.X est la matrice dinertie du nuage, tandis que le produit u.X.X.u , qui donne linertie dans cette direction, est lapplication de la forme bilinaire symtrique de matrice X'.X au vecteur unitaire u. On remarque que X.X est simplement, au facteur 1/n prs, la matrice des corrlations entre les variables-colonnes initiales (ou des covariances si on effectue une ACP non norme). La recherche des directions principales, cest dire des directions successives dinertie maximale du nuage, se traduit donc par le problme de maximisation sous contrainte : Max (uk.X.X.uk) uk avec uk.uk = 1

13

les vecteurs uk successifs devant en outre tre orthogonaux. Lalgbre linaire enseigne que les vecteurs propres norms successifs : uk , associs la suite dcroissante des valeurs propres (positives) de X'.X : k , apportent la solution du problme, la valeur propre k mesurant linertie dans la k-ime direction principale uk : uk.X.X.uk = k.uk.uk = k Les vecteurs ck = X.uk de Rn sont les composantes principales successives du nuage, centres, de variances respectives k/n et non corrles (de covariances : ck'.ch/n = h.uk'.uh/n , nulles), ce sont les nouvelles variables , dont les composantes donnent les coordonnes des points du nuage sur les axes factoriels. Les diverses contributions, corrlations et autres aides linterprtation, enfin, sont aises crire, en fonction des k, ui et cj . Ainsi, par exemple, la contribution de lobservation i laxe k est : ck(i)/k , o ck(i) dsigne la i-me composante de ck La prsentation de l 'ACP par les variables conduit par une autre voie au mme problme mathmatique : on cherche de nouvelles variables combinaisons linaires des anciennes variables, non corrles entre elles, et les plus corrles possible avec l'ensemble de ces variables initiales, plus exactement telles que la somme des carrs des corrlations avec les anciennes variables soit maximale. Soit y = X.v une telle nouvelle variable suppose normalise, c'est dire telle que y'.y = 1 , le produit X'.y est alors le vecteur des corrlations avec les anciennes variables, tandis que le scalaire y'.X.X'.y est la somme des corrlations au carr que l'on veut maximiser. L'algbre linaire dit encore que les vecteurs propres norms successifs : yk , associs la suite dcroissante des valeurs propres (positives) de X.X' : k , apportent la solution du problme, la valeur propre k mesurant la corrlation totale maximise pour la variable yk. De plus, les valeurs propres de X'.X et de X.X' sont les mmes : k = k , tandis que les vecteurs propres se dduisent par application de la matrice X (ou X'), ainsi les nouvelles variables yk sont simplement les composantes principales ck = X.uk normalises. Une autre prsentation encore quivalente est par la recherche de nouvelles variables combinaisons linaires normalises des anciennes, non corrles et de dispersion ou de variance maximale. ----===**O**===---(21.07.2009)