Vous êtes sur la page 1sur 7

Maryse Raffestin octobre 2005

Pratiquer une analyse en composantes principales




I - Objectif de l'ACP


1 - LA PLACE DE L'ACP DANS LES METHODES STATISTIQUES

a) Lorsqu'on recueille des informations sur des individus ou units statistiques ( un individu, au sens
statistiques du terme, peut tre une personne physique, une entreprise, un pays ,etc.) , on aboutit la
constitution d'un tableau individus-variables du type suivant :

individus V1 V2 V3 , , Vp
I1
I2
I3
I4
I5
,
,
,
In


Ex. : les individus sont les 200 tudiants de 1e anne de DEUG et les variables sont : l'ge, le sexe, le
redoublement (oui/non), la srie du bac, les notes en maths, stats, conomie, etc.

Pour dcrire ces donnes, si elles sont nombreuses, le statisticien traitera d'abord les variables une par une
(traitements univaris), puis il s'intressera aux ventuelles interactions entre deux variables (traitement
bivaris) voire plus (traitements multivaris). Aprs l'analyse descriptive des donnes (o toutes les
variables sont places sur le mme plan), il poursuivra dans certains cas par une analyse explicative (il y a
alors d'une part la variable explique, d'autre part les variables explicatives).

Les variables (ou caractres) auxquels on s'intresse sont essentiellement de deux natures :

- les variables quantitatives (en abrg VQT) sont mesures par un nombre.
ex. : ge, chiffre d'affaires, note en stats, temprature, poids

- les variables qualitatives (en abrg VQL) peuvent prendre plusieurs modalits :
ex. : sexe, srie du bac, code APE, jour de la semaine, profession

L'ACP sert dcrire des tableaux "individus-variables quantitatives" de grande dimension
(beaucoup de variables - c'est un traitement multivari- et beaucoup d'individus -s'il y an a peu, inutile de
faire appel des outils statistiques pour rsumer).

Remarques :
- dans les enqutes d'opinion, on utilise souvent des variables d'un 3e type : les variables ordinales qui
indiquent un rang de classement (ex : classer des produits par ordre de prfrence, se situer sur une
chelle allant de "trs favorable" "trs dfavorable", etc.)
- on peut passer d'une variable quantitative (total des points obtenus un concours) une variable
ordinale (rang de classement au concours) puis une variable qualitative (reu / coll). Mais l'inverse
n'est pas possible. En effectuant cette transformation, on perd de l'information. C'est le cas lorsqu'on
passe d'une variable QT (ex. : "effectif salari") une variable classifie ("tranche d'effectif" avec par ex.
3 classes : petites, moyennes et grandes entreprises) qui devient alors une variable QL.
b) Les traitements statistiques des variables qualitalives et des variables quantitatives sont
fondamentalement diffrents. C'est vrai notamment pour les mthodes descriptives :

- caractres qualitatifs :
Traitement univari : on calculera la distribution des effectifs n
i
ou des frquences f
i
=
n
i
/
n
selon les
diffrentes modalits. On pourra ventuellement noter la modalit dominante (celle qui a la plus forte
frquence), parfois appele "mode" par analogie aux variables quantitatives.
Traitement bivari : lorsqu'on rpartit une population selon 2 caractres qualitatifs, on constitue un tableau
de contingence. Ce tableau peut tre trs grand (donc illisible) si les caractres tudis comportent
beaucoup de modalits(ex. : rpartition de la population franaise par rgions et classes d'ges). Une
technique d'analyse factorielle, l'analyse factorielle des correspondances (AFC) sert dcrire les grands
tableaux de contingence. Lorsque l'observation porte sur un chantillon, le test du
2
sert juger de
l'indpendance de ces 2 caractres

- caractres quantitatifs :
Traitement univari : on peut calculer la moyenne et l'cart-type, ainsi que les quantiles (mdiane, quartiles,
dciles , centiles...). Lorsque l'observation porte sur un chantillon, on peut estimer ces paramtres par
intervalle de confiance.
Traitement bivari : lorsqu'on s'intresse la liaison entre deux variables QT, on peut reprsenter le nuage
des points M
i
(x
i
, y
i
) et examiner sa forme. La covariance et le coef de corrlation linaire sont des
indicateurs de l'intensit de la liaison linaire ventuelle de ces deux variables.
Traitements multivaris : lorsqu'on s'intresse la liaison entre plus de deux ou trois variables QT, on ne
peut plus reprsenter graphiquement le nuage des points M
i
. L'ACP nous permet de l'observer sous ses
angles les plus intressants, en examinant les projections du nuage sur des plans qui en conserve le mieux
la forme. Elle permet galement de reprer les groupes de variables fortement corrles entre elles, et
ventuellement de dtecter des caractres complexes sous-jacents ces groupes.



2 - LES DONNES TRAITEES EN ACP

Soit X un tableau n lignes et m colonnes. La ligne i dcrit la valeur prise par m variables quantitatives pour
l'individu i . Avant toutes choses, les donnes sont centres et rduites, c'est--dire que chaque variable a
une moyenne nulle et une variance gale 1.

On note X
j
le vecteur-colonne constitu par les lments de la colonne j ; x
ij
dsigne l'lment situ
l'intersection de la ligne i et de la colonne j, c'est--dire la valeur de la variable x
j
pour l'individu i .


3 - LE PROBLME

Pour observer sous un angle plus favorable les donnes contenues dans le tableau X, on remplace les
anciens axes (donc les anciennes variables x
k
) par de nouveaux axes (donc par des variables nouvelles C
k
).
Ces nouvelles variables C
k
sont appeles composantes principales; elles s'expriment comme combinaisons
linaires des anciennes variables x
1
,....x
m
.

C
k
= a
k1
x
1
+a
k2
x
2
.......+ a
km
x
m


Les nouveaux axes, appels axes factoriels, sont choisis de la faon suivante :

- le 1er axe factoriel , ou axe principal d'inertie, est la direction de "plus grand allongement" du nuage (en
statistiques on dit : "de plus grande dispersion" ou "de plus grande inertie" du nuage).
Lorsque on projette les points P
i
du nuage sur cet axe, leurs projections H
i
sont plus disperses qu'elles ne
le seraient sur n'importe quel autre axe . L'axe factoriel F1 est donc l'axe selon lequel est prserv, par
projection, le maximum de la dispersion initiale des points du nuage.
Le fait que le nuage soit allong prcisment dans cette direction doit trouver une explication. La
nouvelle variable C1 (la composante principale n1) est le caractre selon lequel les individus se
diffrencient le plus. Pourquoi ? Quelle signification peut bien avoir cette variable qui combine avec des
poids plus ou moins importants (les coefficients a
i
) les variables initiales mesures sur les individus? Une
tape fondamentale de l'ACP est l'interprtation de cette composante principale, qui se fera par l'examen de
sa combinaison avec les variables de dpart. On espre toujours pouvoir dtecter dans cette nouvelle
variable un caractre complexe, qui n'est pas directement mesurable par une seule quantit, mais bien rel,
comme par exemple la sant (pour des individus, pour des entreprises...), l'industrialisation (d'une rgion...),
la qualit du jeu d'attaque (pour un joueur de football, de tennis...), la comptence dans les matires
quantitatives (pour un tudiant), etc.

- le 2e axe factoriel est la 2e direction d'allongement du nuage, c'est--dire celle qui explique, aprs le 1er
axe, le maximum de l'inertie rsiduelle. De plus le 2e axe est choisi orthogonal au 1er , ce qui traduit -
comme nous le verrons- le fait que la 2e composante principale est non corrle la 1e (les vecteurs
directeurs des 2 premiers axes ont un produit scalaire nul les 2 premires composantes principales ont
une covariance nulle). Comme prcdemment, on cherchera donner un sens cette 2e composante
principale, en observant comment elle combine les variables de dpart.

- et ainsi de suite, jusqu' avoir remplac les m anciens axes par m nouveaux axes (les axes factoriels),
portant des part dcroissantes de la dispersion initiale et dont les 2, 3 ou 4 premiers suffisent souvent
donner une image peine dforme du nuage initial. C'est cette image rduite donc beaucoup plus
accessible notre observation que nous examinerons pour dcrire et analyser les donnes du tableau
initial.

Mathmatiquement, la dtermination des axes factoriels se fait par diagonalisation de la matrice de
variances-covariances, do le vocabulaire utilis (valeurs propres, vecteurs propres)


II - Interprter une ACP



1 - Le % de l'inertie explique par les premiers axes factoriels

Un facteur est une variable composite fabrique partir des variables d'origine; il s'exprime comme
combinaison linaire des anciennes variables. Le 1
er
axe factoriel correspond la variable composite qui
diffrencie le mieux les individus.

Le % d'inertie (ou "variance" du nuage ou "dispersion") explique par un axe factoriel permet d'valuer en
quelque sorte la quantit d'information recueillie par cet axe. Notons que l'inertie explique par un axe est
gale la valeur propre correspondante et que l'inertie totale (somme des valeurs propres) est gale au
nombre de variables de dpart dans le cas dune analyse sur donnes centres-rduites (qui est loption par
dfaut dans la plupart des logiciels) .

La qualit de la reprsentation des donnes par un plan factoriel s'value en ajoutant les % dinertie
explique par les 2 axes. Si les 2 premiers axes factoriels expliquaient 100% de l'inertie du nuage , tous les
points-individus seraient situs dans le plan factoriel 1-2 . Ceci n'arrive jamais... Il faut en gnral plusieurs
facteurs pour expliquer une part significative de la dispersion.

S'il n'y avait pas de direction privilgie d'allongement du nuage, chaque axe factoriel porterait une part
identique de la dispersion : 100% divis par le nombre p de variables. Dans le cas dune analyse sur
donnes centres-rduites, chaque valeur propre serait gale 1. Ainsi , s'il y a au dpart 5 variables , un
% d'inertie explique par le 1
er
axe factoriel qui serait de 25% montre que le nuage n'a pas de vritable axe
d'allongement remarquable (25% compar 20%, c'est peu), alors que ce serait tout fait remarquable s'il y
a au dpart 50 variables (25% compar 2% , c'est norme).

Le cas le plus intressant est videmment celui o avec un petit nombre d'axes on arrive bien rsumer un
nuage d'un espace de grande dimension.


L'analyse est pertinente si, avec un petit nombre d'axes, on explique une part importante de l'inertie.

Il est difficile de donner une rgle pour savoir combien d'axes on va retenir. Certains critres peuvent tre
proposs :
- retenir autant d'axes qu'il le faut pour atteindre le seuil de variance explique dsir ( 80% par ex.)
- observer le changement de concavit de la courbe des valeurs propres (cf Market Nathan -p.373)
- retenir les valeurs propres suprieures 1 (dans le cas dune analyse sur donnes centres-rduites)

En pratique, on pourra difficilement interprter plus de 3 axes, parfois 4. Donc concrtement l'analyse mrite
d'tre poursuivie si avec 3 ou 4 axes, on conserve une part importante de l'inertie initiale.


2 - La dmarche d'interprtation d'une ACP

1 - Tenter de donner une signification aux nouveaux axes retenus pour l'analyse ( les 2 ou 3
premiers, parfois 4), en les interprtant partir des variables de dpart. Pour cela , on examine le
nuage des points-variables, inscrit dans le cercle des corrlations.
2 - Etudier (ventuellement) le nuage des individus par rfrence aux nouveaux axes dont
l'interprtation vient d'tre donne. Attention aux effets de perspective !

Les points-variables

- Les nouvelles variables, associes aux axes factoriels, sont appeles facteurs ou composantes
principales. Elles s'expriment comme combinaisons linaires des anciennes variables .
- Les coefficients de ces combinaisons linaires sont fournis par le logiciel; c'est eux qui dfinissent les
nouveaux axes :
o ils permettent de calculer les nouvelles coordonnes d'un point-individu partir des
anciennes
o ils permettent galement de voir le poids d'une ancienne variable dans la dfinition d'un
facteur. Le reprage des variable d'origine correspondant aux coefficients les plus levs
en valeur absolu permet de dgager une interprtation des facteurs. Cette interprtation est
facilite par l'examen des corrlations "anciennes- nouvelles" variables (qui sont d'ailleurs
proportionnelles aux coefficients) reprsentes dans le cercle des corrlations...

Le cercle des corrlations

A chaque point-variable, on associe un point dont la coordonne sur un axe factoriel est une mesure de la
corrlation entre cette variable et le facteur. Dans l'espace de dimension p la distance des points-variables
l'origine est gale 1. Donc par projection sur un plan factoriel les points-variables s'inscrivent dans un
cercle de rayon 1 - le cercle des corrlations - et sont d'autant plus proche du bord du cercle que le point-
variable est bien reprsent par le plan factoriel, c'est--dire que la variable est bien corrle avec les
deux facteurs constituant ce plan.
Attention ! Les variables qui ne sont pas situes au bord du cercle dans un plan factoriel ne sont pas
corrles avec les deux facteurs reprsentes. Elles ne servent pas l'interprtation et l'effet de perspective
empche d'interprter la proximit de deux variables (voir d'autres plans factoriels, o la corrlation sera
plus forte)

- L'angle entre 2 point-variables, mesur par son cosinus est gal au coefficient de corrlation linaire entre
les 2 variables: cos = r(X
1
,X
2
)
Ainsi :
- si les points sont trs proches ( peu diffrent de 0 ) : cos = r(X
1
,X
2
) = 1 donc
X
1
et X
2
sont trs fortement corrls positivement
- si est gal 90, cos = r(X
1
,X
2
) = 0 alors pas de corrlation linaire entre X
1
et X
2

- si les points sont opposs, vaut 180, cos = r(X
1
,X
2
) = -1 : X
1
et X
2
sont trs fortement
corrls ngativement

Le cercle des corrlations permet de voir, parmi les anciennes variables, les groupes de variables trs
corrles entre elles.

Pour interprter un axe, on examine les coefficients de la combinaison linaire qui le dfinissent ou
bien si on prfre - on examine sa corrlation avec les anciennes variables en observant le cercle
des corrlations (ou le tableau donnant ces corrlations).
Une variable qui a une coordonne faible, donc un coefficient faible, ne sert pas pour l'interprtation
d'un facteur. Une variable (ou un groupe de variables) ayant un coefficient fort -positif ou ngatif-
servira d'abord par elle-mme ( les "forts" en facteur i sont les "forts" en x
k
, x
l
..(ou les "faibles"en
cas de corrlation ngative) mais galement par opposition d'autres variables diamtralement
opposes.


Les points-individus

La qualit de la reprsentation d'un point M par un axe U dpend de sa distance l'axe dans le nuage,
mesure par l'angle (OM, U), ou plus exactement par son cosinus ou son cos
2
. (s'il est proche de 1 le point
est bien reprsent).

La qualit de la reprsentation d'un point M par un plan factoriel constitu de 2 axes est mesure par la
somme des cos
2
avec 2 axes (Pythagore!).

La position d'un point-individu par rapport un axe factoriel , ainsi que les proximits entre les
individus, peuvent tre interprtes ds lors que ces points sont bien reprsents par le plan
factoriel observ. Certains individus seront bien reprsents par le plan 1-2 (les "trs forts" ou "trs
faibles " en facteur 1 et 2 surtout), d'autres par le plan 1-3 s'ils sont mieux dcrits par l'axe 3, etc.




III - Exemple


Pendant une semaine, 2000 femmes de 30 40 ans ont not leur emploi du temps quart dheure par quart
dheure. On a ainsi calcul la dure hebdomadaire quelles ont consacre aux 10 activits quotidiennes ci-
dessous :

profess travail professionnel
transp transport
sommeil sommeil
sport activits physiques et sportives
courses shopping - courses
enfants enfants
toilette toilette
cuisine prparation des repas
menage travail mnager
tele tlvision


Une ACP a t effectue sur le tableau individus x variables de dimension (2000 x 10) ainsi constitu. Le
logiciel SAS a fourni les rsultats suivants, donnant respectivement les valeurs propres, les coordonnes
des vecteurs propres et les corrlations des composantes principales avec les anciennes variables (pour ces
2 derniers tableaux, on a retenu seulement 3 composantes). Ltude des individus nest pas ralise ici.

Interprter les rsultats ci-dessous.