Vous êtes sur la page 1sur 31

Montpellier

L'analyse des donnes lusage des non mathmaticiens


2me Partie: L'analyse en composantes principales
AGRO.M - INRA - Formation Permanente Janvier 2006
Andr Bouchier

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

1/31

Copyright Andr Bouchier. 2006, Andr Bouchier (20 Janvier 2006) Permission est accorde de copier et distribuer ce document, en partie ou en totalit, dans n'importe quelle langue, sur n'importe quel support, condition que la notice ci-dessus soit incluse dans toutes les copies. Permission est accorde de traduire ce document, en partie ou en totalit, dans n'importe quelle langue, condition que la notice ci-dessus soit incluse.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

2/31

1.Quantifier la variabilit contenue dans un tableau de donnes :

l On appelle inertie la quantit dinformation contenue dans un tableau de donnes.

l Une inertie nulle signifie que tous les individus sont presque identiques.

l Linertie du nuage sera gale la somme des variances des j caractres.

l Si les j caractres sont centrs-rduits, linertie sera gale j.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

3/31

2.Projeter sur un plan un tableau de donnes j dimensions

l LACP est une mthode descriptive.

l Son objectif est de reprsenter sous forme graphique lessentiel de linformation contenue dans un tableau de donnes quantitatif.

l Dans un tableau de donnes j variables, les individus se trouvent dans un espace j dimensions.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

4/31

3.La reprsentation graphique


Lorsquil ny a que deux dimensions (largeur et longueur par exemple), il est facile de reprsenter les donnes sur un plan : Avec trois dimensions (largeur, hauteur et profondeur par ex.), cest dj plus difficile :

l Mais au del de 3 dimensions, il est impossible de reprsenter les donnes sur un plan ou mme de les visualiser mentalement.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

5/31

4.Projeter la ralit sur un plan

Figure de J.P. Fenelon

l Nous avons lhabitude de dessiner ou photographier la ralit. l Nous naturellement passons dun espace 3 dimensions un espace 2 dimensions. l Selon le point de vue, linformation retenue ne sera pas la mme. l LACP nous propose un point de vue permettant de voir au mieux les individus dun tableau.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

6/31

5.Rsumer les donnes


l Lorsquon projette les donnes sur un plan, on obtient un graphique dform de la ralit. l Le rle de lACP est de trouver des espaces de dimensions plus petites minimisant ces dformations. l On utilise un espace 2 dimensions (un plan). Ce plan est appel le plan principal. Il est constitu de deux droites perpendiculaires. l La mthode consiste calculer la premire droite D1 de faon maximiser les carrs des distances de projection des points sur la droite.
Droite D1 Droite D2 Droite D1

l Puis une 2me droite D2 perpendiculaire la premire.


Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale 7/31

6.Les composantes principales


l Les droites D1 et D2 sont des caractres synthtiques obtenus par des combinaisons linaires avec les variables dorigines. l Ces droites sont appeles composantes principales, ou axes principaux. l La premire composante principale doit "capturer" le maximum dinertie du tableau des donnes. La variance des individus doit tre maximale. l Il reste un rsidu non expliqu par cette premire composante. C'est sur ce rsidu qu'est calcule la deuxime composante principale.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

8/31

7.Caractres des composantes principales


l La premire composante principale "capture" le maximum dinertie du tableau des donnes. l La deuxime composante principale est un complment, une correction de la premire. l La deuxime composante principale doit avoir une corrlation linaire nulle avec la premire (orthogonalit). l Il ny a pas de redondance dinformation entre deux composantes principales. l On calcule les autres composantes de la mme manire.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

9/31

8.L ACP : combien de dimensions ?

l Un tableau de donnes j dimensions donnera j composantes principales.

l Nous sommes donc passs dun tableau de donnes j dimensions (impossible projeter sur un plan) un tableau de j composantes principales.

On pourrait penser que nous voici bien avanc !

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

10/31

9.Un exemple dutilisation de l'ACP (les donnes)

l Le jeu de donnes est fourni avec le logiciel WinStat (CIRAD)

Donnes techniques sur 62 vhicules - anne modle 1994 Variables quantitatives : Puiss_admi, Cylindree, Longueur, Largeur, Surface, Poids_Tota, Vit_Maxi, Dep_arret, Conso_Moye NOMBRE D'INDIVIDUS SELECTIONNES : 62 Individus manquants : 10 Effectif pris en compte : 52

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

11/31

10.Un exemple dutilisation (les valeurs propres)


ANALYSE FACTORIELLE EN COMPOSANTES PRINCIPALES 06/02/2002 13:34:14 Donnes centres rduites Variables actives : Individus actifs : Individus manquants : VALEUR PROPRE 001 002 003 004 005 006 007 008 009 TOTAL 6.447 1.140 0.660 0.332 0.236 0.101 0.044 0.040 0.000 9.000
12/31

9 52 10 % 71.635 12.663 7.337 3.684 2.627 1.117 0.483 0.449 0.004

supplmentaires : 0 supplmentaires : 0 Hors norme : 0 % CUMULE 71.635 84.298 91.635 95.319 97.946 99.063 99.547 99.996 100.000 HISTOGRAMME ============================== ===== === = =

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

11.Un exemple dutilisation (inertie du plan principal)

l Le plan principal reprsente 84% de linertie du tableau de donnes

Remarque : Il y a 9 variables centres rduites (de variance=1) dans le tableau de donnes :

La somme des valeurs propre = 9

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

13/31

12.Un exemple dutilisation (l'espace des individus)


Observations (axis F1 and F2: 86 % )
4 RenEsp21 3 2 -- axis F2 (13 %) --> 1 0 -1 -2 -3 -4 -6 -4 -2 0 2 4 6 8 -- axis F1 (73 %) --> Peu605SD RenEsp22 RenSaf25 Peu106XDCitZX1,1 CitXAN16 CitXMTD CitXANTD Peu405GL RenCL12 FordMOTD Peu106XN BMW525TD Peu306XNAlfa155D RenSaf20 Ren21PrD FordEs14 FordMO18 CitAX14D Peu405SD Peu605SL FiaTEMTD FordEs18 BMW518i BMW316i CitXM20i FiaCRO25 CitZX1,6 CitXAN18 RenTwing Ren19_14 FiaTIPTD CitZX19D RenCL19Peu306XD FordSc20 Peu405SR Alfa164T Ren19_18 Ren19_19 Ren21Pri BMW325TD FiaCRO20 CitXAN20 FiaTEM18 FordFi14 CitAX10 FordFiTD FiaTIP18 FordSc29 FiatPand FiaUNOTD CitXMV6 FiaUNO14 RenCL14 BMW730i Alfa155 Alfa33ie CitAX14i Peu605Sv

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

14/31

13.Un exemple dutilisation (lespace des variables)


Variables (axis F1 and F2: 84 % )
1 0,8 0,6 0,4 -- axis F2 (13 %) --> 0,2 0 -0,2 -0,4 -0,6 -0,8 -1 -1 -0,5 0 -- axis F1 (71 %) --> 0,5 1

Dep_arret

Largeur Surface Poids_Tota Longueur Cylindree

Vit_Maxi Conso_Moye Puiss_admi

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

15/31

14.Un exemple dutilisation (les contributions des variables)


COORD COS2 CTR QLT : : : : COORDONNEES DES VARIABLES SUR LES AXES COORD*COORD (COSINUS CARRES) PART (en %) DE LA VARIABLE DANS LA CONSTRUCTION DU FACTEUR QUALITE DE LA REPRESENTATION D'UNE VARIABLE SUR LES AXES SELECTIONNES FACTEUR 01 COORD 0.730 0.880 0.913 0.774 0.919 0.932 0.903 -0.717 0.817 COS2 53.22 77.49 83.27 59.89 84.37 86.79 81.52 51.42 66.73 CTR 8.26 12.02 12.92 9.29 13.09 13.46 12.64 7.98 10.35 100.00 FACTEUR 02 COORD 0.457 -0.012 -0.244 -0.505 -0.369 -0.233 0.315 -0.521 0.233 COS2 20.86 0.02 5.97 25.55 13.63 5.45 9.91 27.14 5.45 CTR 18.30 0.01 5.24 22.42 11.96 4.78 8.70 23.81 4.78 100.00

VARIABLES ACTIVES QLT Puiss_admi Cylindree Longueur Largeur Surface Poids_Tota Vit_Maxi Dep_arret Conso_Moye TOTAL 74.1 77.5 89.2 85.4 98.0 92.2 91.4 78.6 72.2

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

16/31

15.Un exemple dutilisation (interprter les contributions des variables)


l COORD est la corrlation entre les variables dorigine et les nouvelles variables synthtiques (axes principaux). On interprte ce coefficient comme nimporte quelle corrlation linaire. l COS2 reprsente la rpartition de la variables sur les diffrents facteurs. La somme horizontale sera gale 100% Exemple : la variable cylindree est reprsente 77.49% sur le premier facteur. l CTR reprsente la contribution de chaque variable la construction du facteur. La somme verticale est de 100% Exemple : La variable cylindree ne contribue pas la construction de laxe 2 (0.01%)

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

17/31

16.Un exemple dutilisation (les contributions des individus)


COORD COS2 CTR QLT INR P : : : : : : COORDONNEES DES INDIVIDUS SUR LES AXES COSINUS CARRE PART (en %) DE L'INDIVIDU DANS LA CONSTRUCTION DU FACTEUR QUALITE DE LA REPRESENTATION DE L'INDIVIDU SUR LES AXES AFFICHES INERTIE RELATIVE DE L'INDIVIDU POIDS DE L'INDIVIDU
FACTEUR 01 INR 0.99 1.13 0.30 1.77 0.25 0.93 1.23 9.22 5.48 2.72 QLT 70.00 93.12 41.67 63.41 17.39 42.05 78.92 97.15 71.83 97.82 / Renault 2 Renault S Renault S Renault E Renault E TOTAL 1.00 1.00 1.00 1.00 1.00 0.47 1.52 2.30 4.43 3.89 23.22 91.36 85.81 63.27 81.78 0.250 2.450 2.607 3.261 1.632 2.86 84.42 63.06 51.23 14.62 0.02 1.79 2.03 3.17 0.79 100.00 -0.668 -0.702 -1.566 -1.581 -3.499 20.35 6.94 22.75 12.04 67.16 0.75 0.83 4.14 4.22 20.65 100.00 COORD -0.806 1.759 0.033 2.266 0.442 1.351 2.130 6.312 -4.104 -2.870 COS2 13.96 58.67 0.08 62.15 16.69 41.97 78.92 92.33 65.65 64.79 CTR 0.19 0.92 0.00 1.53 0.06 0.54 1.35 11.88 5.02 2.46 FACTEUR 02 COORD 1.615 1.348 -0.765 -0.322 0.090 0.057 -0.012 1.443 1.260 2.049 COS2 56.04 34.45 41.60 1.26 0.70 0.07 0.00 4.83 6.19 33.04 CTR 4.40 3.07 0.99 0.18 0.01 0.01 0.00 3.51 2.68 7.08

INDIVIDUS ACTIFS Alfa-Rom Alfa-Rom Alfa-Rom Alfa-Rom BMW 316i BMW 325 T BMW 518i BMW 730i Citron A Citron A Poids 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

18/31

17.LACP en rsum
i

J Tableau des donnes J

J
Matrice diagonale des valeurs propres

Matrice de Corrlation

Diagonalisation

J
Matrice des vecteurs propres

J
Histogramme des valeurs propres

Les composantes principales

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

19/31

18.Transformer les donnes - Centrage et rduction

l Limportance que prendront les variables dans le calcul des composantes principales est fonction de leur ordre de grandeur. l Une variable ayant un cart-type important aura plus de poids quune variable de faible cart-type. l Des variables de fort cart-type "construiront" les premires composantes. l Les calculs ne sont pas faux, mais la lecture des rsultats dune ACP peut devenir complique. l Cest pour remdier a quil convient de centrer et rduire les variables.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

20/31

19.Transformer les donnes - transformation en rang

Exemple : Identif 001 002 003 004 005 Prix HT 41.5 28.6 19.3 52.9 28.2 Quantit 27 42 51 12 14 Prix HT (rang) 4 3 1 5 2 Quantit (rang) 3 4 5 1 2

l La transformation en rang peut permettre de dtecter des relations non linaires et rapproche les valeurs extrmes. l En cas de transformation en rang des donnes, il nest pas utile de les rduire.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

21/31

20.Les vecteurs propres (1)


l Coefficient des variables centres rduites dans l'quation linaire des axes
FACTEUR 1 Puiss_admi Cylindree Longueur Largeur Surface Poids_Tota Vit_Maxi Dep_arret Conso_Moye 0.287 0.347 0.359 0.305 0.362 0.367 0.356 -0.282 0.322 FACTEUR 2 0.428 -0.012 -0.229 -0.473 -0.346 -0.219 0.295 -0.488 0.219 FACTEUR 3 -0.482 0.371 0.101 -0.284 -0.065 0.203 0.259 -0.341 -0.557

l Les vecteurs propres sont les coefficients affecter aux variables initiales pour obtenir les composantes principales. l Par exemple la premire composante sobtient (pour chaque individu): 0.287*Puiss_admin + 0.347*Cylindree + + 0.322*Conso_Moye

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

22/31

21.Les vecteurs propres (2)

l L'utilisation et l'tude des vecteurs propres n'est pas d'un grand intrt pratique

l A moins que vous ne vouliez calculer les composantes principales la main

(armez vous de patience...)

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

23/31

22.Les variables supplmentaires


l Nous pouvons considrer que certaines variables sont des variables explicatives et dautres des variables expliquer. Nous mettrons en supplmentaire les variables expliquer l Par exemple, le rendement dune culture dpend de la fertilisation, du climat, etc. Dans ce cas, le calcul des composantes principales se fera sans la variable rendement. l Celle-ci sera introduite la fin de lanalyse afin de la positionner sur le plan principal. l D'autres variables peuvent manquer de fiabilit. On peut lgitimement hsiter les introduire dans l'analyse. Elles peuvent tre utilises comme variables supplmentaires

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

24/31

23.Les individus supplmentaires

l De nouveaux individus pourront tre mis en supplmentaires dans lanalyse (nouvelles varits, nouveaux traitement, etc) l On peut aussi mettre en supplmentaires des donnes (variables ou individus) dont on doute de la fiabilit. Ces donnes seront positionnes sur le plan principal sans participer activement aux calculs. l Par opposition, les individus ou les variables qui ne sont pas supplmentaires sont dits actifs (sous entendu: actifs dans le calcul des composantes principales)

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

25/31

24.Calcul des individus supplmentaires (1)


l Les composantes principales sont de nouvelles variables synthtiques. Elles sont calcules grce aux individus actifs.

J variables

J vecteurs propres

J composantes

l Les individus supplmentaires sont introduits en fin danalyse, aprs le calcul des vecteurs propres.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

26/31

25.Calcul des individus supplmentaires (2)


J variables J vecteurs propres J composantes

Individus supplmentaires

Individus supplmentaires

J composantes

On utilise la matrice des vecteurs propres (dj connue) pour calculer la valeur des composantes principales pour les individus supplmentaires

Individus supplmentaires
27/31

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

26.Calcul des variables supplmentaires (1)


l Les composantes principales sont calcules partir de toutes les variables actives. l Lespace des variables reprsente les corrlations entre les variables du tableau de donnes et les composantes principales.
Tableau des corrlations

Puiss_admi Cylindree Longueur Largeur Surface Poids_Tota Vit_Maxi Dep_arret Conso_Moye

Comp 1 Comp 2 0.730 0.457 0.880 -0.012 0.913 -0.244 0.774 -0.505 0.919 -0.369 0.932 -0.233 0.903 0.315 -0.717 -0.521 0.817 0.233

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

28/31

27.Calcul des variables supplmentaires (2)


l Les variables supplmentaires ne participent pas llaboration des vecteurs propres (donc des composantes principales).
VARIABLES ACTIVES + SUPPLEMENTAIRES

Puiss_admi Cylindree Longueur Largeur Surface Poids_Tota Vit_Maxi Dep_arret Conso_Moye Assurance

Comp 1 Comp 2 0.730 0.457 0.880 -0.012 0.913 -0.244 0.774 -0.505 0.919 -0.369 0.932 -0.233 0.903 0.315 -0.717 -0.521 0.817 0.233 0.852 -0.325

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

29/31

28.L ACP : Rotation des axes


Pour faciliter linterprtation de la nature des facteurs, on peut faire subir des rotations aux axes obtenus par lanalyse factorielle. Il existe plusieurs procds pour effectuer ces rotations. La mthode quartimax, consiste maximiser la variance des carrs; cette mthode exige la maximisation de la somme des saturations la quatrime puissance. Une autre mthode repose sur la maximisation de la somme des variances des carrs des saturations dans chaque colonne. Cette mthode dite varimax est la plus largement employe. Il existe dautres rotations qui rendent les axes obliques et par consquent les facteurs deviennent corrls : les mthodes oblimin, promax, etc.

Ces mthodes de rotation ne seront pas abordes dans cette formation


Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale 30/31

29.L ACP : exercices pratiques


l Le but de ces exercices est de vous familiariser avec un logiciel statistique. l Mettez en uvre une ACP l Les donnes sont prsentes dans le fascicule "Les donnes et exercices" l Nous interprterons ensemble les sorties logiciel.

Analyses multivaris. INRA formation permanente. Janvier 2006. L'Analyse en composantes principale

31/31