Vous êtes sur la page 1sur 37

D- interprtation dune ACP

1- choix du nombre daxes 3- interprtation des axes 2- reprsentation graphique 4- Qualit de reprsentation 5- Synthse

D-Interprtation dune ACP

La dcomposition prcdente est faite par des logiciels


statistiques (Statistica, R , SAS.). Non automatique (interprtation des rsultats): choisir le nombre q daxes factoriels (ou de composantes principales) retenir pour obtenir un rsum suffisamment prcis de linformation contenue dans le tableau initial construire les graphiques Donner une signification aux nouvelles variables. Evaluer la qualit de ce rsum

D-1 Choix du nombre daxes retenir


Deux critres empiriques pour slectionner le nombre daxes :
Critre du coude : sur leboulis des valeurs propres, on observe un dcrochement (coude) suivi dune dcroissance rgulire. On slectionne les axes avant le dcrochement Critre de Kaiser: on ne retient que les axes dont linertie est suprieure linertie moyenne I/p (un peu troit). Kaiser en ACP norme: I/p= 1 : On ne retiendra que les axes associs des valeurs propre suprieures 1

Dans la pratique, on retient en fait les q axes que lon sait interprter Rq: Critre du Scree-test : on slectionne les axes correspondant
des diffrences secondes >0 (un peu large)

D-1 Choix du nombre daxes


Critre de Kaiser : nous conduit retenir 3 axes (peut tre 4 car proche de 1) Critre du coude : On observe une chute importante partir du 5 axe (de 10% 5% de linertie) on choisit 4 axes Conclusion : On retient 4 axes, qui reprsentent presque 86% de linertie totale (on explique 86% de linformation du tableau). On verra si lon sait interprter le 4

D-2 Construction des nuages de points projets


Chaque nuage de points (variables et individus) est construit en projection sur les plans factoriels : un plan factoriel est un repre du plan dfini par deux des q axes factoriels retenus.
Ex : Si lon retient 3 axes, on tracera 3 graphiques pour chaque nuage: le nuage projet sur le plan (axe1, axe2), celui projet sur le plan (axe1, axe3), celui projet sur le plan (axe2,axe3).

Lexamen des plans factoriels permettra de visualiser les corrlations entre les variables et didentifier les groupes dindividus ayant pris des valeurs proches sur certaines variables. MAIS IL FAUT AVANT DE LIRE DIRECTEMENT LES GRAPHIQUES SASSURER QUE LA PROJECTION EST FIDELE A LA REALITE (voir D-4)

D-2 Construction des nuages de points projets

Statist.exe

D-2 Construction des nuages de points projets

Statist.exe

D-2 Construction des nuages de points projets


Deux types de facteurs :
Effet taille : les variables sont toutes du mme cot de laxe. (i.e. elles contribuent toutes dans le mme sens la formation de laxe) Effet forme : Deux groupes de variables opposes : celles qui contribuent positivement laxe, celles qui contribuent ngativement.

D-3 Interprtation des axes


Pour chaque axe retenu et chaque nuage, on regarde Quelles sont les variables qui participent le plus la formation de laxe (ce sont celles qui ont une grande coordonne en valeur absolue sur laxe.) Quels sont les individus qui participent le plus la formation de laxe (ce ne sont pas forcement ceux qui ont une grande coordonne en valeur absolue sur laxe si les poids ne sont pas egaux) Outil de mesure : contributions des points (individus si non anonymes et variables) linertie de cet axe. Ce sont les points dont la contribution est suprieure la moyenne qui permettent de donner un sens laxe.

D-3 Interprtation des axes : nuage des points individus


Contribution de lindividu i linertie de laxe k : Somme des contributions des individus = 100%.

pi c 2 ik CTR (ei ) = k k

En pratique: On retient pour linterprtation les individus dont la contribution est > la contribution moyenne (>1/n), le sens de la contribution dpend du signe de cik. CP (poids gaux ): les individus contribuent dautant + que cik grand en v.a. Contribution importante :

c > ik k

D-3 Interprtation des axes : nuage des points variables


Contribution de la variable j linertie de laxe k : Somme=100%
d2 jk

CTR ( X j ) = =u k jk k

En pratique: On retient pour linterprtation les variables dont la contribution le sens de la est > la contribution moyenne (>1/p), u > 1/ p jk contribution dpend du signe de ujk. CP : en ACP norme, ce sont les variables qui sont proches du bord du cercle qui contribuent le plus (djk=r(Xj,Ck))

D-3 Interprtation des axes : synthse


NB : une contribution trop importante dun des points un axe doit tre regard avec prudence (~25% dinertie) . Il faut lenlever sil est mal reprsent. La contribution est juste une aide linterprtation : La contribution de certains points peuvent tre trs lgrement infrieures au seuil et mais conforter linterprtation de laxe qua lon aurait faite sans eux. On les inclut alors dans linterpr tation. Inversement, lorsquune contribution est trs forte par rapport dautre qui sont pourtant en dessus du seuil, le point dtermine laxe presque exclusivement

D-3 Interprtation des axes : synthse


Lanalyse se fera laide des individus et variables contribuant le plus laxe : si une variable a une forte contribution positive laxe, les individus ayant une forte contribution positive laxe sont caractriss par une valeur leve de la variable.

D-3 Interprtation des axes : exemple


Contribution des individus

c > 1 = 2 i1 c > 2 = 1.28 i2 c > 3 = 1.06 i3 ci4 > 4 = 0.98

D-3 Interprtation des axes : exemple

CTRk (ei ) > 1/ n = 4%

D-3 Interprtation des axes : exemple


Contribution des variables

CTRk ( X j ) > 1/ p = 0,11

D-3 Interprtation des axes : exemple


Interprtation axe 1 Individus:

Variables :

Irlande Albanie (O-Allemagne) Roumanie Bulgarie (Danemark) Yougoslavie (grece)

ufs lait

+
Crales Noix

Conclusion : Laxe 1 oppose les Balkans ayant une forte consommation de noix, graines et crales aux pays qui comme lIrlande consomment plutt des protines animales.

D-3 Interprtation des axes : exemple


Interprtation de laxe 2

Individus

Variable

Portugal Espagne

+
(Albanie, bulgarie)

Poisson (F-L)

+
(amidon)

Conclusion : Laxe 2 caractrise les pays Ibriques, consommant beaucoup de poisson.

D-3 Interprtation des axes : exemple


Interprtation de laxe 3

Individus

Variables

Hongrie (Autriche,pologne,E Allemagne,Chequo)

+
Finlande Norvege (Albanie suede, angleterre)

VB (FL)

+
(lait)

Conclusion : Laxe 3 oppose la Hongrie, et plus gnralement les pays deurope centrale, grands consommateur de viande blanche, aux pays qui nen consomment pas , comme certains pays Scandinaves et lalbanie .

D-3 Interprtation des axes : exemple


Interprtation de laxe 4

Individus

Variables

(Danemark,E-alle, finlande norvege)

+
France Grce Angleterre (Italie, suisse)

(Amidon FL)

+
VR

Conclusion : Laxe 4 caractrise les pays qui consomment beaucoup de viande rouge comme certains pays deurope de louest et mditerraneens.

D-4 Etude des proximits entre points


Une fois les axes interprts, on peut regarder les graphiques et analyser plus finement les proximits entre points. Les proximits entre points observes sur les axes, doivent correspondent la ralit (et non tre artificiellement cres par lopration de projection). Un point est dit bien reprsent sur un axe ou un plan factoriel si il est proche de sa projection sur laxe ou le plan. Sil est loign, on dit quil est mal reprsent. Indicateur =angle form entre le point et sa projection sur laxe : au plus il est proche de 90 degrs, au moins le point est bien reprsent

D-4 Etude des proximits entre points


Qualit de reprsentation de lindividu i sur laxe k:

c ik qlt k ( ei ) = cos ( ik ) = ei
ei = cik
k =1 p

Lorsque langle est proche de 0, c'est--dire que lindividu est bien reprsent, le cosinus est proche de 1. Dans le cas inverse, langle est proche de 90 et le cosinus est proche de 0.

D-4 Etude des proximits entre points


Qualit de reprsentation de la variable j sur laxe k:

qltk ( X j ) = cos ( kj ) =
En ACP norme,

d jk Xj

qltk ( X j ) = d jk = r (Ck , X j )

une variable est dautant mieux reprsente sur un axe quelle est proche du bord du cercle des corrlations et de laxe, dautant plus mal reprsente quelle est proche de lorigine.

Remarque : En ACP norme, les variables qui contribuent le plus laxe sont aussi celles qui sont le mieux reprsentes et inversement.

D-4 Etude des proximits entre points


Qualit de reprsentation sur un plan factoriel
Individus : Le cosinus carr est est additif sur des sous-espaces orthogonaux. La qualit de reprsentation sur le plan dfini par les axes k et l est gale
qltkl (ei ) = qltk (ei ) + qltl (ei )

Variables: on interprte les proximits de variables bien reprsentes sur le plan i.e. proches du bord du cercle de corrlations

D-4 Etude des proximits entre points


La proximit dans lespace entre deux individus bien reprsents traduit la ressemblance de ces deux individus du point de vue des valeurs prises par les variables. Lorsque la qualit de reprsentation de deux individus est bonne, leur proximit observe retrace leur proximit relle (dans lespace). Attention! La lecture directe des proximits sur le graphique peut donc savrer errone (pas dinterprtation des proximits entre individus mal reprsents). La proximit entre deux variables sur un axe donne, si les deux variables sont bien reprsentes sur laxe ( proches de laxe et du bord du cercle) , une approximation de leur corrlation.
Deux variables proches sont corrles positivement Deux variables qui sopposent sont corrles ngativement Deux variables orthogonales sont non corrles.

D-4 Etude des proximits entre points


Lexamen des qualits de reprsentation permet de mettre en vidence des proximits ventuelles que lon na pas remarques Lors de linterprtation des axes. On interprte les proximits dlments bien reprsents sur le plan factoriel Permet de reprer les points qui ne contribuent pas fortement linertie de laxe, mais qui sont bien reprsents par cet axe, c'est--dire qui prsentent des caractristiques propres laxe.

D-5 Synthse

On regarde globalement les nuages de points sur les axes factoriels. Pour cela on se sert des qualits de reprsentation sur les plans On peut aussi construire le tableau rduit C de dimension n*q : ses lignes sont les valeurs prises par les n individus sur les q composantes principales retenues. La k composante principale aura la mme signification que le k axe.

D-6 Exemple

D-6 Exemple
Trois groupe de pays distincts se dtachent quant leurs habitudes de consommation : les pays ibriques, qui se caractrisent par une consommation leve,

les balkans ayant une importante consommation de graines et certains pays deurope du nord et de louest consommant de la viande des oeufs et du lait

D-6 Exemple
Pour les pays consommant des protines animales, La consommation de viande blanche rduit du sud au nord

D-6 Exemple
Qualit de reprsentation des individus sur le plan principal

E- Limites

Principale faiblesse de lACP: sensibilit aux points extrmes. Ce manque de robustesse est notamment lie au rle central qu'y joue le coefficient de corrlation : les points extrmes, en perturbant les moyennes et corrlations, polluent fortement l'analyse - on peut cependant envisager de les dplacer en point supplmentaire. l'ACP est inadapte aux phnomnes non linaires qui plus est en grande dimension. Pour ce genre de problme, d'autres mthodes ont t dveloppes, comme l'ACPN (Analyse en Composantes Principales par Noyau).

F- Exemple sous statistica


On utilise le fichier menstracks. On centre et on rduit le tableau : ACP norme.

Nombre daxes retenir