Vous êtes sur la page 1sur 29

Nature des donnees

Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Cours danalyse des donnees
Chapitre 2 : Analyse en composantes principales
(ACP)
27th August 2009
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Lanalyse en composantes principales (ACP) est une methode
danalyse multivariee descriptive appartenant `a la famille des
methodes factorielles.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Nature des donnees
Les donnees sont presentees sous la forme dun tableau brut
individus/variables note X et de taille n p o` u n est le nombre
dindividus et p est le nombre de variables quantitatives.
Notre exemple dapplication concerne les 21 regions francaises sauf
la Corse (les individus) caracterisees par dierents indicateurs (les
variables) de la demographie, de leconomie, de la societe et des
conditions de vie pendant lannee 2002.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Les variables considerees pour lACP sont les suivantes :

POPUL : population de la region (en milliers dindividus)

TACT : taux dactivite (population active / population totale


de la region) en pourcentage

SUPERF : supercie de la region (en kilom`etres carres)

NBENTR : nombre dentreprises de la region

NBBREV : nombre de brevets deposes au cours de lannee

CHOM : taux de chomage(en pourcentage)

TELEPH : nombre de lignes telephoniques en place dans la


region (en milliers)
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Objectifs de lACP
LACP a deux objectifs principaux :

Resumer le tableau X par un petit nombre k de nouvelles


variables non correlees entre elles et qui conservent au
maximum linformation contenue dans les p variables initiales.
Intuitivement, on peut dire que ces nouvelles variables sont
obtenues en reunissant les variables de depart qui sont bien
correlees entre elles. Le nombre k de ces nouvelles variables
est dautant plus petit que les correlations entre les p variables
initiales sont importantes. Comme sous-produit, lACP
conduit `a une visualisation des correlations entre les variables
initiales.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion

Interpreter le tableau X en utilisant les nouvelles variables et


des representations graphiques de type nuages de points.
LACP permet notamment de reperer des individus atypiques
ou des groupes dindividus ayant un comportement similaire
par rapport aux caract`eres consideres.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Notion dinformation
Composantes principales
Principe de lACP
Notion dinformation
Lobjectif de conserver au maximum linformation contenue dans
un tableau de donnees suppose que lon denisse
mathematiquement la notion dinformation. Cette information se
fonde sur la variabilite des donnees et est mesuree par la variance.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Notion dinformation
Composantes principales
Denition :

linformation apportee par une variable quantitative X


j
est la
variance de X
j
.

linformation apportee par un tableau de donnees


X = [X
1
, X
2
, , X
p
] est la somme des variances des
variables de X. On lappelle inertie de X et on la note I
X
. On
a :
I
X
=
p

j =1
var(X
j
).
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Notion dinformation
Composantes principales
Composantes principales
On denit la premi`ere composante principale c
1
comme une
nouvelle variable combinaison lineaire des variables x
1
, x
2
, . . . , x
p
sexprimant sous la forme
c
1
=
1
x
1
+
2
x
2
+. . . +
p
x
p
avec
p

j =1

2
j
= 1 (1)
et telle que linformation apportee par c
1
est maximale.
Autrement dit, on cherche les coecients
1
,
2
, . . . ,
p
tels que
c
1
est de variance maximale.
La deuxi`eme composante principale c
2
est denie comme etant
une nouvelle variable non correlee avec c
1
, combinaison lineaire des
variables x
j
, j = 1, . . . , p et de variance maximale.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Notion dinformation
Composantes principales
La troisi`eme composante principale c
3
est non correlee avec c
1
et
c
2
, combinaison lineaire des x
j
et de variance maximum.
. . .
La p`eme composante principale c
p
est non correlee avec c
1
, c
2
,
. . . , c
p1
, combinaison lineaire des x
j
et de variance maximum.
On a ainsi deni p composantes principales non correlees entre
elles et que lon peut regrouper dans un tableau de composantes
principales note C = [c
1
, c
2
, , c
p
].
Dapr`es la denition precedente, var(c
1
) var(c
2
) var(c
p
).
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Notion dinformation
Composantes principales
En eet, chacune des composantes est denie `a partir dun crit`ere
de maximisation de variance mais avec une contrainte de plus pour
c
2
que pour c
1
(coecient de correlation nul entre c
2
et c
1
), pour
c
3
que pour c
2
(coecient de correlation nul entre c
3
et c
2
),. . . ,
pour c
p1
que pour c
p
(coecient de correlation nul entre c
p
et
c
p1
).
De plus, on montre que linformation apportee par le tableau x se
retrouve enti`erement reconstitue dans le tableau C. Autrement dit,
linertie de C est egale `a linertie de x :
I
x
=
p

j =1
var(x
j
) = I
C
=
p

j =1
var(c
j
).
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Notion dinformation
Composantes principales
Mais, alors que chacune des colonnes de x apporte la meme
information (egale `a 1), les colonnes du tableau C apporte une
information qui decrot avec le numero de la colonne.
On comprend d`es lors que lon peut atteindre le premier objectif de
lACP, cest-`a-dire resumer le tableau x par un tableau contenant
moins de colonnes si les derni`eres composantes principales
apportent peu dinformation (i.e. sont de faible variance).
Remarque : on peut introduire lACP par dautres crit`eres que la
maximisation de variance. Lapproche geometrique notamment est
souvent adoptee.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Centrer et reduire les variables initiales
Calcul de la matrice des correlations
Calcul des composantes principales
Determination des composantes principales et proprietes
Centrer et reduire les variables initiales
x
j
=
X
j
X
j

X
j
(ramener leur moyenne `a 0 et leur variance `a 1).
Le tableau centre reduit est note x.
Remarque
Pour nous, lACP portera toujours sur des variables centrees
reduites.
En fait, il sagit dun cas particulier de lACP appele parfois ACP
reduite.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Centrer et reduire les variables initiales
Calcul de la matrice des correlations
Calcul des composantes principales
Calcul de la matrice des correlations
R =
1
n
x

x.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Centrer et reduire les variables initiales
Calcul de la matrice des correlations
Calcul des composantes principales
Calcul des composantes principales
On calcule les valeurs propres (eigenvalues) et les vecteurs propres
(eigenvectors) de R, c.a.d. les
j
IR et les v
j
IR
p
pour
j = 1, . . . , p t.q.
R v
j
=
j
v
j
.
On trie les
j
par ordre decroissant :

1
>
2
> >
p
c
j
= x v
j
Proposition
c
j
est une nouvelle variable combinaison lineaire des variables
initiales.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Centrer et reduire les variables initiales
Calcul de la matrice des correlations
Calcul des composantes principales
Proposition

c
j
= 0,

var(c
j
) =
j
,

r(c
j
, c
k
) = 0 pour j = k,
Remarque
I = p =
p

j =1

j
=
p

j =1
var(c
j
)
Exemple
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Crit`ere de la variance expliquee
Crit`ere de Kaiser
Crit`ere de la dierence
Choix des composantes principales
Crit`ere de la variance expliquee
On doit choisir un nombre k susant pour resumer linformation
(inertie) de depart sans trop en perdre.
Information = I = p
Info. apportee par une comp. : var(c
j
) =
j
,
part de variance expliquee par 1 comp. :
1
/p,
part de variance expliquee par 2 comp. : (
1
+
2
)/p, . . .
part de variance expliquee par k comp. :

k
j =1

j
/p, . . .
part de variance expliquee par p comp. :

p
j =1

j
/p = p/p = 100%.
Crit`ere : k est choisi tel que la part de variance expliquee soit
susamment grande.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Crit`ere de la variance expliquee
Crit`ere de Kaiser
Crit`ere de la dierence
Crit`ere de Kaiser
Les var. initiales ont une variance = 1 (reduites).
Crit`ere : retenir les comp. ppales de variance > 1 car elles
apportent plus dinfo que les variables initiales,
k = nbre de
j
> 1.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Crit`ere de la variance expliquee
Crit`ere de Kaiser
Crit`ere de la dierence
Crit`ere de la dierence
On regarde les dierences entre valeurs propres :

1

2
,
2

3
, . . .
En general, ces dierences diminuent.
Crit`ere : retenir les k comp. ppales telles que la dierence

k

k+1
soit grande et que les dierences
j

j +1
,
j = k + 1, . . . , p 1 .
Exemple
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Presentation du probl`eme
Interpretation des coecients des combinaisons lineaires

Etude des correlations entre composantes principales et variables initiales


Interpretation des composantes principales
Presentation du probl`eme
On suppose, quapr`es utilisation dun des crit`eres precedents, on a
selectionne k (petit) composantes principales (ou k dimensions ou
k facteurs).
Une des dicultes de lACP (et des analyses factorielles en
general) est linterpretation des composantes principales.
LACP conduit `a une reduction du nombre de variables (de p `a k)
mais si on connat la signication des variables initiales, il nen est
pas de meme des composantes principales.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Presentation du probl`eme
Interpretation des coecients des combinaisons lineaires

Etude des correlations entre composantes principales et variables initiales


Interpretation des coecients des combinaisons lineaires
c
j
= x v
j
, j = 1, . . . , p
c
j
=
p

k=1
v
k
j
x
k
On connat la composition de c
j
et les variables x
k
importantes
sont associees aux grands coecients v
k
j
(parce quelles ont la
meme variance).
Mais cette methode est rarement utilisee (grandeur des coe.
dicilement evaluable).
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Presentation du probl`eme
Interpretation des coecients des combinaisons lineaires

Etude des correlations entre composantes principales et variables initiales

Etude des correlations entre composantes principales et


variables initiales
On peut directement interpreter ces correlations.
Mais en general, on pref`ere les representer en considerant les
composantes principales 2 par 2 et les interpreter graphiquement
(possible car k petit peu de possiblites).
Les dessins sinscrivent evidemment dans un carre
[1, +1] [1, +1] (coecients de correlation) et on peut
montrer quen fait, les points sont toujours dans le cercle centre `a
lorigine et de rayon 1. On trace souvent ce cercle car il aide `a
linterpretation.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Presentation du probl`eme
Interpretation des coecients des combinaisons lineaires

Etude des correlations entre composantes principales et variables initiales


En pratique,

Pour chaque paire (ou plan) ((c


1
, c
2
), (c
1
, c
3
), (c
2
, c
3
),. . .
(c
k1
, c
k
)), dessiner les correlations.

Tracer le cercle des correlations.

Reperer les correlations fortes, c.a.d. les points proches du


cercle. On ne doit pas sinteresser aux variables trop eloignees
du cercle car elles ninterviennent pas ou peu dans le calcul
des composantes et donc ne servent pas `a son interpretation.

Interpeter chaque composante en fonction des correlations


fortes (positives et negatives).
Remarque
Parfois, le premier axe incorpore toutes les variables. Cest le cas
lorsque toutes les variables vont dans le meme sens. On parle alors
de facteur de taille.
Exemple
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Graphique des individus
Interpretation des individus
Graphique des individus
On dispose de k nouvelles variables dont on connat la signication.
Pour interpreter le tableau de depart, on represente les individus
sur les nouvelles variables choisies 2 `a 2 (possible car k petit).
Lorsquon consid`ere 2 composantes principales, on parle de plan
principal.
On interpr`ete les graphiques obtenus comme nimporte quel dessin
de type nuage de points en tenant compte de linterpretation des
comp. ppales. Mais, comme pour les correlations, on ne doit pas
interpreter des individus mal representes.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Graphique des individus
Remarque
On peut aussi presenter lACP dune facon geometrique :

Graphique permet une vision synthetique des donnees.

Mais graphique de type nuage de points possible uniquement


si 2 variables (3 au plus).

Donc on projette les observations sur un espace IR


k
avec k
petit tout en essayant de perdre le minimum dinformation.

Mais pb = toute projection implique une deformation des


distances (toujours plus courtes).

Donc, pour interpreter graphiques des individus, il faut que les


distances soient bien conservees. En eet, des points, en
apparence proches, peuvent etre forts eloignes dans lespace
sur les autres dimensions laissees de cote par le graphique.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Graphique des individus
Mesure de la qualite de representation des individus
On choisit, pour mesurer cette qualite de representation, de
regarder la distance `a lorigine de chacun des individus.

Au depart, un individu x
i
est `a une certaine distance de
lorigine :
d(x
i
, O) =

_
p

j =1
_
x
j
i
_
2
=

_
p

j =1
_
c
j
i
_
2
(on parle aussi de norme de lindividu x
i
: d(x
i
, O) = x
i
).
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Graphique des individus

Apr`es projection, la norme devient :

sur un espace de dimension k,


Px
i

k
=

_
k

j =1
_
c
j
i
_
2
.

sur un axe c
j
: Px
i

1
= |c
j
i
|.
Pour chaque individu, on compare sa norme de depart avec sa
norme apr`es projection en calculant le rapport des 2, soit sur un
axe :
RAP
j
=
|c
j
i
|
_

p
l =1
_
x
l
i
_
2
=
|c
j
i
|
_

p
l =1
_
c
l
i
_
2
.
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Graphique des individus
Remarque
p

j =1
RAP
2
j
=
p

j =1
_
c
j
i
_
2

p
l =1
_
c
l
i
_
2
= 100%.
Exemple
Analyse des donnees : Analyse en composantes principales
Nature des donnees
Objectifs de lACP
Principe de lACP
Determination des composantes principales et proprietes
Choix des composantes principales
Interpretation des composantes principales
Interpretation des individus
Conclusion
Conclusion
LACP est une methode statistique applicable :

`a un tableau individus / variables

pour p variables quantitatives

p > 3

certaines variables bien correlees entre elles


Remarque
Si R=Id, alors lACP ne sert `a rien.
Analyse des donnees : Analyse en composantes principales