Vous êtes sur la page 1sur 37

D- interprtation dune ACP

1- choix du nombre daxes


3- interprtation des axes
2- reprsentation graphique
4- Qualit de reprsentation 4- Qualit de reprsentation
5- Synthse
D-Interprtation dune ACP
La dcomposition prcdente est faite par des logiciels
statistiques (Statistica, R , SAS.).
Non automatique (interprtation des rsultats):
choisir le nombre q daxes factoriels (ou de composantes
principales) retenir pour obtenir un rsum suffisamment
prcis de linformation contenue dans le tableau initial
construire les graphiques
Donner une signification aux nouvelles variables.
Evaluer la qualit de ce rsum
D-1 Choix du nombre daxes retenir
Deux critres empiriques pour slectionner le nombre daxes :
Critre du coude : sur leboulis des valeurs propres, on observe un
dcrochement (coude) suivi dune dcroissance rgulire. On
slectionne les axes avant le dcrochement slectionne les axes avant le dcrochement
Critre de Kaiser: on ne retient que les axes dont linertie est
suprieure linertie moyenne I/p (un peu troit).
Kaiser en ACP norme: I/p= 1 : On ne retiendra que les axes
associs des valeurs propre suprieures 1
Dans la pratique, on retient en fait les q axes que lon sait
interprter
Rq: Critre du Scree-test : on slectionne les axes correspondant
des diffrences secondes >0 (un peu large)
D-1 Choix du nombre daxes
Critre de Kaiser : nous conduit
retenir 3 axes (peut tre 4 car
proche de 1)
Critre du coude : On observe Critre du coude : On observe
une chute importante partir
du 5 axe (de 10% 5% de
linertie) on choisit 4 axes
Conclusion : On retient 4 axes,
qui reprsentent presque 86%
de linertie totale (on explique
86% de linformation du
tableau). On verra si lon sait
interprter le 4
D-2 Construction des nuages de points
projets
Chaque nuage de points (variables et individus) est construit en
projection sur les plans factoriels : un plan factoriel est un
repre du plan dfini par deux des q axes factoriels retenus.
Ex : Si lon retient 3 axes, on tracera 3 graphiques pour chaque nuage: le nuage Ex : Si lon retient 3 axes, on tracera 3 graphiques pour chaque nuage: le nuage
projet sur le plan (axe1, axe2), celui projet sur le plan (axe1, axe3), celui
projet sur le plan (axe2,axe3).
Lexamen des plans factoriels permettra de visualiser les
corrlations entre les variables et didentifier les groupes
dindividus ayant pris des valeurs proches sur certaines
variables. MAIS IL FAUT AVANT DE LIRE DIRECTEMENT
LES GRAPHIQUES SASSURER QUE LA PROJECTION EST
FIDELE A LA REALITE (voir D-4)
D-2 Construction des nuages de
points projets
Statist.exe
D-2 Construction des nuages de
points projets
Statist.exe
D-2 Construction des nuages de
points projets
Deux types de facteurs :
Effet taille : les variables sont toutes du mme cot de laxe. (i.e. Effet taille : les variables sont toutes du mme cot de laxe. (i.e.
elles contribuent toutes dans le mme sens la formation de
laxe)
Effet forme : Deux groupes de variables opposes : celles qui
contribuent positivement laxe, celles qui contribuent
ngativement.
D-3 Interprtation des axes
Pour chaque axe retenu et chaque nuage, on regarde
Quelles sont les variables qui participent le plus la formation
de laxe (ce sont celles qui ont une grande coordonne en
valeur absolue sur laxe.)
Quels sont les individus qui participent le plus la formation de Quels sont les individus qui participent le plus la formation de
laxe (ce ne sont pas forcement ceux qui ont une grande
coordonne en valeur absolue sur laxe si les poids ne sont pas
egaux)
Outil de mesure : contributions des points (individus si non
anonymes et variables) linertie de cet axe.
Ce sont les points dont la contribution est suprieure la moyenne
qui permettent de donner un sens laxe.
D-3 Interprtation des axes : nuage des
points individus
Contribution de lindividu i linertie de laxe k :
Somme des contributions des individus = 100%.
2
( )
p c
i
ik
CTR e
i
k
k

=
En pratique: On retient pour linterprtation les individus dont la
contribution est > la contribution moyenne (>1/n), le sens de la
contribution dpend du signe de cik.
CP (poids gaux ): les individus contribuent dautant + que cik grand
en v.a. Contribution importante :
> c
ik k
D-3 Interprtation des axes : nuage des
points variables
Contribution de la variable j linertie de laxe k :
Somme=100%
2
d
jk
= = ( )
d
jk
CTR X u
j
k jk
k

= =
En pratique: On retient pour linterprtation les variables dont la contribution
est > la contribution moyenne (>1/p), le sens de la
contribution dpend du signe de ujk.
CP : en ACP norme, ce sont les variables qui sont proches du bord du cercle
qui contribuent le plus (djk=r(Xj,Ck))
1/
jk
u p >
D-3 Interprtation des axes : synthse
NB : une contribution trop importante dun des points un axe
doit tre regard avec prudence (~25% dinertie) . Il faut
lenlever sil est mal reprsent.
La contribution est juste une aide linterprtation : La contribution est juste une aide linterprtation :
La contribution de certains points peuvent tre trs lgrement
infrieures au seuil et mais conforter linterprtation de laxe
qua lon aurait faite sans eux. On les inclut alors dans
linterpr tation.
Inversement, lorsquune contribution est trs forte par rapport
dautre qui sont pourtant en dessus du seuil, le point
dtermine laxe presque exclusivement
D-3 Interprtation des axes :
synthse
Lanalyse se fera laide des individus et
variables contribuant le plus laxe : si une
variable a une forte contribution positive laxe,
les individus ayant une forte contribution positive les individus ayant une forte contribution positive
laxe sont caractriss par une valeur leve de
la variable.
D-3 Interprtation des axes : exemple
Contribution des individus
2 > =
1
c
i1
2
1.28
1.06
0.98
> =
> =
> =
> =
1
2
3
4
c
i1
c
i2
c
i3
c
i4
D-3 Interprtation des axes :
exemple
( ) 1/ 4%
k i
CTR e n > =
D-3 Interprtation des axes : exemple
Contribution des variables
( ) 1/ 0,11
k j
CTR X p > =
D-3 Interprtation des axes : exemple
Interprtation axe 1
Individus:
- +
Irlande Albanie
- +
Variables :
Conclusion : Laxe 1 oppose les Balkans ayant une forte
consommation de noix, graines et crales aux pays qui
comme lIrlande consomment plutt des protines animales.
Irlande
(O-Allemagne)
(Danemark)
Albanie
Roumanie
Bulgarie
Yougoslavie
(grece)
ufs
lait
Crales
Noix
D-3 Interprtation des axes : exemple
Interprtation de laxe 2
Individus Variable
- +
- +
Poisson (amidon)
Conclusion : Laxe 2 caractrise les pays Ibriques,
consommant beaucoup de poisson.
Portugal
Espagne
(Albanie,
bulgarie)
Poisson
(F-L)
(amidon)
D-3 Interprtation des axes : exemple
Interprtation de laxe 3
Individus Variables
- +
Hongrie Finlande
- +
Conclusion : Laxe 3 oppose la Hongrie, et plus gnralement
les pays deurope centrale, grands consommateur de viande
blanche, aux pays qui nen consomment pas , comme certains
pays Scandinaves et lalbanie .
Hongrie
(Autriche,pologne,E
Allemagne,Chequo)
Finlande
Norvege
(Albanie
suede, angleterre)
VB
(FL)
(lait)
D-3 Interprtation des axes : exemple
Interprtation de laxe 4
Individus Variables
- +
- +
Conclusion : Laxe 4 caractrise les pays qui consomment
beaucoup de viande rouge comme certains pays deurope de
louest et mditerraneens.
(Danemark,E-alle,
finlande norvege)
France
Grce
Angleterre
(Italie, suisse)
(Amidon
FL)
VR
D-4 Etude des proximits entre points
Une fois les axes interprts, on peut regarder les graphiques et
analyser plus finement les proximits entre points.
Les proximits entre points observes sur les axes, doivent
correspondent la ralit (et non tre artificiellement cres par
lopration de projection).
Un point est dit bien reprsent sur un axe ou un plan factoriel si il est
proche de sa projection sur laxe ou le plan. Sil est loign, on dit quil
est mal reprsent.
Indicateur =angle form entre le point et sa projection sur laxe : au
plus il est proche de 90 degrs, au moins le point est bien reprsent
D-4 Etude des proximits entre points
Qualit de reprsentation de lindividu i sur laxe k:

( ) cos ( )

ik
k i ik
i
c
qlt e
e
= =
Lorsque langle est proche de 0, c'est--dire que
lindividu est bien reprsent, le cosinus est proche de 1.
Dans le cas inverse, langle est proche de 90 et le cosinus
est proche de 0.
1

p
i ik
k
e c
=
=

D-4 Etude des proximits entre points


Qualit de reprsentation de la variable j sur laxe k:
En ACP norme,

( ) cos ( )

jk
k j kj
j
d
qlt X
X
= =
En ACP norme,
une variable est dautant mieux reprsente sur un axe quelle est
proche du bord du cercle des corrlations et de laxe, dautant
plus mal reprsente quelle est proche de lorigine.
Remarque : En ACP norme, les variables qui contribuent le plus
laxe sont aussi celles qui sont le mieux reprsentes et
inversement.
( ) ( , )
k j jk k j
qlt X d r C X = =
D-4 Etude des proximits entre
points
Qualit de reprsentation sur un plan factoriel
Individus : Le cosinus carr est est additif sur des sous-espaces
orthogonaux. La qualit de reprsentation sur le plan dfini par
les axes k et l est gale
Variables: on interprte les proximits de variables bien
reprsentes sur le plan i.e. proches du bord du cercle de
corrlations
( ) ( ) ( )
kl i k i l i
qlt e qlt e qlt e = +
D-4 Etude des proximits entre points
La proximit dans lespace entre deux individus bien reprsents
traduit la ressemblance de ces deux individus du point de vue des
valeurs prises par les variables. Lorsque la qualit de reprsentation de
deux individus est bonne, leur proximit observe retrace leur
proximit relle (dans lespace).
Attention! La lecture directe des proximits sur le graphique peut Attention! La lecture directe des proximits sur le graphique peut
donc savrer errone (pas dinterprtation des proximits entre
individus mal reprsents).
La proximit entre deux variables sur un axe donne, si les deux
variables sont bien reprsentes sur laxe ( proches de laxe et du bord
du cercle) , une approximation de leur corrlation.
Deux variables proches sont corrles positivement
Deux variables qui sopposent sont corrles ngativement
Deux variables orthogonales sont non corrles.
D-4 Etude des proximits entre points
Lexamen des qualits de reprsentation
permet de mettre en vidence des proximits ventuelles que
lon na pas remarques Lors de linterprtation des axes. On
interprte les proximits dlments bien reprsents sur le plan interprte les proximits dlments bien reprsents sur le plan
factoriel
Permet de reprer les points qui ne contribuent pas fortement
linertie de laxe, mais qui sont bien reprsents par cet axe,
c'est--dire qui prsentent des caractristiques propres laxe.
D-5 Synthse
On regarde globalement les nuages de points sur les axes
factoriels. Pour cela on se sert des qualits de reprsentation
sur les plans sur les plans
On peut aussi construire le tableau rduit C de dimension
n*q : ses lignes sont les valeurs prises par les n individus sur les
q composantes principales retenues. La k composante
principale aura la mme signification que le k axe.
D-6 Exemple
D-6 Exemple
Trois groupe de pays distincts se
dtachent quant leurs habitudes
de consommation : les pays
ibriques, qui se caractrisent par
une consommation leve,
les balkans ayant une importante
consommation de graines et certains
pays deurope du nord et de louest
consommant de la viande des oeufs et
du lait
D-6 Exemple
Pour les pays consommant des
protines animales, La
consommation de viande blanche
rduit du sud au nord
D-6 Exemple
Qualit de reprsentation des individus sur le plan principal
E- Limites
Principale faiblesse de lACP: sensibilit aux points extrmes. Ce
manque de robustesse est notamment lie au rle central qu'y joue le
coefficient de corrlation : les points extrmes, en perturbant les
moyennes et corrlations, polluent fortement l'analyse - on peut moyennes et corrlations, polluent fortement l'analyse - on peut
cependant envisager de les dplacer en point supplmentaire.
l'ACP est inadapte aux phnomnes non linaires qui plus est en
grande dimension. Pour ce genre de problme, d'autres mthodes ont
t dveloppes, comme l'ACPN (Analyse en Composantes Principales
par Noyau).
F- Exemple sous statistica
On utilise le fichier menstracks. On centre
et on rduit le tableau : ACP norme.
Nombre daxes retenir

Vous aimerez peut-être aussi