Vous êtes sur la page 1sur 41

Analyse en Composantes

Principales
(ACP)

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

Sommaire

Principe de lACP

Structure du tableau de donnes


LACP en Pratique

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

LAnalyse en Composantes Principales (ACP) est une mthode


statistique essentiellement descriptive qui peut tre utilise pour savoir :
comment se structurent les variables : quelles sont celles qui sont
corrles ? Quelles sont celles qui ne le sont pas ? Quelles sont celles
qui vont dans le mme sens ? Quelles sont celles qui sopposent ?
et/ou comment se rpartissent les individus : quels sont ceux qui se
ressemblent ? Quels sont ceux qui sont dissemblables ?
Il sagit donc de construire une certaine typologie, partition des
individus, construire des groupes dindividus qui soient homognes
de point de vue lensemble des variables

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

LACP sintresse des tableaux de donnes rectangulaires avec des


individus en lignes et des variables quantitatives en colonnes.

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

Principe de lACP

Le tableau de donnes correspond une reprsentation des


individus dans un espace K dimensions.
Etant donn quil est impossible de se reprsenter visuellement
le nuage de points des individus dans un tel espace, le but de
lACP est de trouver des espaces de visualisation de dimensions
plus petites , savoir des droites (dimension 1) ou encore
des plans (dimension 2), tout en conservant le maximum
dinformation.

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

Principe de lACP

Autrement dit, on cherche dfinir des nouvelles variables


combinaisons linaires des k variables initiales qui feront
perdre le moins dinformation possible : ce sont les
composantes principales Ck ou encore axes principaux
( ces sont des droites)
NB: les variables initiales sont corrles alors que les
nouvelles variables sont non corrles.

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

Principe de lACP

Comment obtenir les composantes principales:


-On centre et on rduit les donnes (Matrice X) puis en passe la
diagonalisation de la matrice de variances-covariances
-La solution: k valeurs propres et k vecteurs propres qui font les
directions des axes principaux
-les composantes principales scrit donc:
C=(C1, C2,.., Ck)= U*X avec U=(u1, u2,,uk) les vecteurs propres
et X cest la matrice des donnes
-On obtient K vecteurs propres et donc K axes principaux
-Le premier axe est celui associ la plus grande valeur
propre .
-Le deuxime axe est celui associ la deuxime valeur
propre .
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

-La variance dune composante principale (inertie) est

gale la valeur propre porte par laxe principal qui lui est
associ.

-1re composante c1 variance : 1


-2me composante c2 variance : 2
-3me composante c3 variance : 3
Etc

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14-15 fvrier 2008

La premire composante principale doit


"capturer" le maximum dinertie du
tableau des donnes.

La deuxime composante principale est


un complment, une correction de la
premire.

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

10

14-15 fvrier 2008

Examen pralable linterprtation des rsultats

Combient daxe retenir ??


Diffrentes procdures nous permettent de dterminer le nombre daxe
retenir pour notre ACP, en effet Trois rgles sont applicables :
1- la rgle de Kaiser qui veut quon ne retienne que les facteurs aux valeurs
propres suprieures 1.

2- on choisit le nombre daxe en fonction de la restitution dinformation


que lon souhaite. Par exemple, on veut que le modle restitue au moins
80% de linformation
3- Le critre du coude : On observe le graphique des valeurs propres et on
ne retient que les valeurs qui se trouvent gauche du point
dinflexion (coupure brusque).

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

11

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

12

14-15 fvrier 2008

Interprtation des rsultats de lanalyse:

-Cest la phase la plus dlicate de lanalyse. On


donne un sens un axe grce une recherche
lexicale (ou recherche de mots) partir des
coordonnes des variables et des individus.

-Il sagit de chercher quelles variables sont


corrles avec laxe 1, laxe 2.
-Aprs avoir donner un sens aux axes, on terminera
par caractriser les individus avec les variables

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

13

14-15 fvrier 2008

En commence par tudier les variables


puis on passe ltude des individus

Linterprtation est base sur les variables


et les individus et variables bien
reprsentes

On doit alors examiner la qualit de


reprsentation des variables et des
individus et leurs contributions pour la
formation des axes

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

14

14-15 fvrier 2008

LACP en Pratique

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

15

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

16

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

17

14-15 fvrier 2008

la qualit de reprsentation dune variable est


gale la coordonne au carre (donne par
le logiciel avec lequel en travaille)

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

18

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

19

14-15 fvrier 2008

En pratique: on obtient comme sorties:

-Les valeurs propres et les vecteurs propres


(composantes principales)
-La matrice de corrlation des variables initiales
-Linertie explique par les axes principaux
-Les cordonnes des variables (corrlation avec les
axes)
-Les cordonnes des individus et leurs qualits de
reprsentation
-Le mapping des variables
-Le mapping des individus

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

20

14-15 fvrier 2008

Exemple dune ACP:

Tableau des donnes:


On tudie les consommations annuelles en 1972, exprimes en francs, de 8 denres
alimentaires (les variables), les individus tant 8 catgories socio-professionnelles.
Les donnes sont des moyennes par CSP :
PAO

PAA

VIO

VIA

POT

LEC

RAI

PLP

AGRI

167

163

23

41

SAAG

162

141

12

40

12

15

PRIN

119

69

56

39

13

41

CSUP

87

11

63

111

27

18

39

CMOY

103

68

77

32

11

30

EMPL

111

72

66

34

10

28

OUVR

130

76

52

43

16

INAC

138

117

74

53

12

20

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

21

14-15 fvrier 2008

Les individus: catgories sociales

AGRI = Exploitants agricoles

SAAG= Salaris agricoles

PRIN = Professions indpendantes

CSUP = Cadres suprieurs

CMOY= Cadres moyens

EMPL= Employs

OUVR = Ouvriers

INAC = Inactifs

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

les Variables : 8 (quantitatives)


PAO = Pain ordinaire
PAA = Autre pain
VIO = Vin ordinaire
VIA=Autre vin
POT= Pommes de terre
LEC=Lgumes secs
RAI=Raisin de tables
PLP= Plats prpars

22

14-15 fvrier 2008

Le programme SAS permettant dobtenir les sorties ci-dessous est en Annexe.


The PRINCOMP Procedure
Observations
8
Variables
8
Correlation Matrix
PAO
PAO 1.0000
PAA -.7737
VIO 0.9262
VIA -.9058
POT 0.6564
LEC 0.8886
RAI -.8334
PLP -.8558

PAA

VIO

-.7737 0.9262
1.0000 -.6040
-.6040 1.0000
0.9044 -.7502
-.3329 0.5171
-.6734 0.7917
0.9588 -.6690
0.7712 -.8280

VIA

POT

-.9058 0.6564
0.9044 -.3329
-.7502 0.5171
1.0000 -.4186
-.4186 1.0000
-.8386 0.6029
0.9239 -.4099
0.7198 -.5540

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

23

LEC

RAI

0.8886
-.6734
0.7917
-.8386
0.6029
1.0000
-.8245
-.7509

-.8334
0.9588
-.6690
0.9239
-.4099
-.8245
1.0000
0.8344

PLP
-.8558
0.7712
-.8280
0.7198
-.5540
-.7509
0.8344
1.0000

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

24

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

25

14-15 fvrier 2008

INTERPRETATION

1.

Choix du nombre daxes retenir

. Le critre de Kaiser nous conduit slectionner un seul axe (valeur


propre > 1), qui retient 77% de linertie totale. Laxe 2 retient tout de
mme 11% de linertie, ce qui nest pas ngligeable, et qui conduit un
taux dinertie explique de 89%, ce qui est un trs bon rsultat. Il peut
tre donc intressant de ltudier.
. Le critre du coude ainsi que celui du Scree-test nous conduisent
retenir les deux premiers axes

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

26

14-15 fvrier 2008

2. Graphes sur le plan factoriel (1,2)

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

27

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

28

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

29

14-15 fvrier 2008

PAO
LEC
(VIO)

RAI
VIA
PLP
(PAA)

On classe les variables selon leurs sens de contribution. PAA et


VIO sont trs proches de la contribution moyenne, on les intgrera
donc dans linterprtation de laxe si elles vont dans le sens de
linterprtation que lon peut en faire.

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

30

14-15 fvrier 2008

Laxe 1 oppose les individus consommant du pain ordinaire, des


lgumes secs (et ventuellement du vin ordinaire) ceux qui
consomment du raisin, du vin (ventuellement du pain) plus
sophistiqu et des plats prpars.

Laxe 1, et donc la premire composante principale, mesure la


rpartition entre aliments ordinaires et aliments plus
recherchs.

Toutes les variables sont bien reprsentes sur laxe : la qualit de


reprsentation est gale la coordonne au carr ; ainsi, la qualit de
reprsentation de la variable PAO est gale (-0,97)=0,94 ;

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

31

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

32

14-15 fvrier 2008

Le premier axe met donc en opposition quant leurs habitudes


alimentaires les agriculteurs et les cadres suprieurs.

AGRI
SAAG

CSUP

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

33

14-15 fvrier 2008

Touts les individus sont bien reprsentes sur laxe 1 sauf les catgories
EMPL, OUVR et INAC
Conclusion: Laxe 1 reflte donc lopposition qui existe entre les
catgories socio-professionnelles dans leur alimentation, opposant les
agriculteurs modestes qui consomment des produits basiques aux
catgories CSUP qui consomment des produits plus recherchs.

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

34

14-15 fvrier 2008

Axe 2: Variables
De mme, on compare les valeurs de la colonne Prin2 35%, le signe
donnant le sens de contribution. On obtient :
Laxe 2 est dfini par les variables POT et PAA.

POT
PAA

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

35

14-15 fvrier 2008

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

36

14-15 fvrier 2008

INAC

Le deuxime axe est caractristique des inactifs


J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

37

14-15 fvrier 2008

Conclusion:
Laxe 2 reflte donc la particularit des inactifs quant leur alimentation,
fortement compose de pommes de terre (un retour aux donnes
dorigine vient confirmer cette conclusion).
Synthse:
C1=rpartition entre aliments ordinaires et aliments plus recherchs
C2=rpartition de la consommation de pommes de terre

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

38

14-15 fvrier 2008

Interprtation des rsultats

5 Interprtation des individus


Lexamen des coordonnes et la reprsentation graphique des individus
permet de rpondre :
Comment se rpartissent les individus ? Quels sont ceux qui se ressemblent
et en quoi ?
Il sagit de sintresser la proximit ou lloignement entre les individus.

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

39

14-15 fvrier 2008

Conseils supplmentaires
-LACP ne peut pas traiter des tableaux comportant des donnes
manquantes. Lorsque lon a des donnes manquantes, on doit supprimer
lignes (individus) et/ou colonnes (variables) afin dobtenir un tableau complet.

-LACP ne peut pas traiter des variables qualitatives mais uniquement des
variables quantitatives. Il y a toutefois une astuce qui consiste intgrer un
codage des variables qualitatives dans les identifiants des individus.

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

40

14-15 fvrier 2008

ET BON COURAGE !!!

J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.

41

14-15 fvrier 2008