Vous êtes sur la page 1sur 37

LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.

Pierre-Louis GONZALEZ
1

INTRODUCTION Donnes : n individus observs sur p variables quantitatives. LA.C.P. permet dexplorer les liaisons entre variables et les ressemblances entre individus. Rsultats : Visualisation des individus (Notion de distances entre individus) Visualisation des variables (en fonction de leurs corrlations)
2

INTERPRTATION DES RSULTATS

c Mesurer la qualit des reprsentations obtenues : z critre global z critres individuels d Donner des noms aux axes Expliquer la position des individus e Utilisation ventuelle de variables supplmentaires (illustratives)
3

I. LANALYSE EN COMPOSANTES PRINCIPALES LE PROBLME 1. LES DONNES

p variables quantitatives observes sur n individus.


X1
x1 1
x1 2

X2

Xj
j x1
j x2

Xp
p x1 p x2

X (n,p)

x1 i

xij
j xn

xip xp n

individu e'i

x1 n

Variable Xj p

INDIVIDU = lment de Rp VARIABLE = lment de Rn


4

On cherche reprsenter le nuage des individus. A chaque individu not ei, on peut associer un point dans Rp = espace des individus. A chaque variable du tableau X est associ un axe de Rp.
X
3

x3 i

ei

Impossible visualiser ds que p > 3.


x1 i

X1 x2 i

2. PRINCIPE DE LA.C.P. On cherche une reprsentation des n individus , dans un sous-espace Fk de Rp de dimension k ( k petit 2, 3 ; par exemple un plan) Autrement dit, on cherche dfinir k nouvelles variables combinaisons linaires des p variables initiales qui feront perdre le moins dinformation possible.

Ces variables seront appeles composantes principales , les axes quelles dterminent : axes principaux les formes linaires associes : facteurs principaux
6

X1 X2

axe 2

ON VISUALISE axe 1 Xi

axe 3

F3

axes principaux
7

Perdre le moins dinformation possible Fk devra tre ajust le mieux possible au nuage des individus: la somme des carrs des distances des individus Fk doit tre minimale.

Fk est le sous-espace tel que le nuage projet ait une inertie (dispersion) maximale. c et d sont bases sur les notions de : distance projection orthogonale
8

ei

ej

fi fj

La distance entre fi et fj est infrieure ou gale celle entre ei et ej

3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS


yB yA A B

Dans le plan:
d 2 (A, B) = (x B x A ) + (y B y A )
2 2

xA

xB

Dans lespace Rp p dimensions, on gnralise cette notion : la distance euclidienne entre deux individus scrit:
p 2 e i = x1 x . .. x i i i

)
) (
2

p e j = x1j x 2 . .. x j j
2 + x2 i xj
k 2 j

)
)
2

1 d 2 e i , e j = x1 i xj

) (
j

+ . .. x ip x p j

(e , e ) = (x
p i k =1

k i

Le problme des units ?


10

Pour rsoudre ce problme, on choisit de transformer les donnes en donnes centres-rduites. Lobservation

x ik est alors remplace par :

UNITS DCART TYPE:

x xk sk
k i

o :

xk =

moyenne de la variable Xk

sk = cart-type de la variable Xk

Exemple :
Puissance moyenne de 30 voitures = 92 ch La Renault 21 TXI a une puissance de 140 ch La Renault 21 TXI a une puissance de : 2 carts-type au-dessus de la moyenne. Ecart-type = 24 ch

140 92 =2 24
11

4. INERTIE TOTALE
Ig =

i=1

1 2 d ei,g n

ou de faon plus gnrale


Ig =

i =1

pi d

(e

,g

avec

i =1

pi = 1

Linertie est la somme pondre des carrs des distances des individus au centre de gravit g Linertie mesure la dispersion totale du nuage de points.
12

Linertie est donc aussi gale la somme des variances des variables tudies. En notant V la matrice de variances-covariances :

s 2 s ........ s 1p 1 12 2 V= s2 2 s p1 s p
Remarque

I g = si2
i =1

Dans le cas o les variables sont centres rduites, la variance de chaque variable vaut 1. Linertie totale est alors gale p (nombre de variables).
13

................

................

Ig = Tr (V)

quivalence des deux critres concernant la perte dinformation


ei

Projection orthogonale du nuage sur un sous-espace

fi

Soit F un sous-ensemble de Rp

fi

la projection orthogonale de
2 2 2

ei

sur F

ei g = ei f i + f i g

i = 1 ... n

14

On va chercher F tel que : c

pi ei f i
i =1

soit minimal

ce qui revient daprs le thorme de Pythagore maximiser : d

p
i =1

fi g

15

ei g = ei f i + f i g
2
n n

i = 1 ... n

Donc : pi ei g
=1 i
2

pi ei f i
=1 i
2

pi f i g
=1 i
2

Inertie totale

minimiser cette quantit (carrs des distances entre points individus et leurs projections)

maximiser linertie du nuage projet

16

II. LA SOLUTION DU PROBLME POS


La recherche daxes portant le maximum dinertie quivaut la construction de nouvelles variables (auxquelles sont associs ces axes) de variance maximale. En dautres termes, on effectue un changement de repre dans Rp de faon se placer dans un nouveau systme de reprsentation o le premier axe apporte le plus possible de linertie totale du nuage, le deuxime axe le plus possible de linertie non prise en compte par le premier axe, et ainsi de suite. Cette rorganisation sappuie sur la diagonalisation de la matrice de variances-covariances.
17

1. SOLUTION

Axes principaux On appelle axes principaux dinertie les axes de direction les vecteurs propres de V norms 1. Il y en a p. Le premier axe est celui associ la plus grande valeur propre . On le note u1 Le deuxime axe est celui associ la deuxime valeur propre . On le note u2 ...
18

Composantes principales chaque axe est associe une variable appele composante principale. La composante c1 est le vecteur renfermant les cordonnes des projections des individus sur laxe 1. La composante c2 est le vecteur renfermant les cordonnes des projections des individus sur laxe 2. Pour obtenir ces coordonnes, on crit que chaque composante principale est une combinaison linaire des variables initiales. Exemple

c = u x + u x + ... u x
1 1 1 1 1 2 2 1 p

p
19

2. PROPRITS DES COMPOSANTES PRINCIPALES c La variance dune composante principale est gale linertie porte par laxe principal qui lui est associ. 1re composante 2me composante 3me composante

c1 c2 c3

variance :

variance : 2 variance : 3

d Les composantes deux deux.

principales

sont

non

corrles

En effet, les axes associs sont orthogonaux.


20

3. REPRSENTATION DES INDIVIDUS

La jme composante principale

coordonnes des n individus sur le jme axe principal.

c1j j c2 cj = j cn

Si on dsire une reprsentation plane des individus, la meilleure sera celle ralise grce aux deux premires composantes principales.

........

fournit les

21

ei

2
c2 i
 

c1 i

ej

Attention la qualit de reprsentation de chaque individu!


22

4. REPRSENTATION DES VARIABLES Les proximits entre les composantes principales et les variables initiales sont mesures par les covariances, et surtout les corrlations.

r c ,x

est le coefficient de corrlation linaire entre c et


c
2

r c ,x

)
(

xi

r c1 , x i

CERCLE DES CORRLATIONS


23

5. INTERPRETATION DES PROXIMITS ENTRE VARIABLES On utilise un produit scalaire entre variables permettant dassocier aux paramtres courants : cart-type, coefficient de corrlation linaire des reprsentations gomtriques.
i j

x ,x

1 = n

k =1

j x ik x k

On suppose les variables centres.

24

x , x = Cov x , x
i j i
i 2

)
i 2 k

1 i i = x ,x = n

(x )
n k =1

i 2

=s

2 i

Variance de

xi xi

= si

cart-type de

25

Coefficient de corrlation linaire


i j j

n i j Cos X , X =

x ,x X
i

Cov X , X si s j

)=r

(X , X )
i j

Le cosinus de langle form par les variables Xi et Xj est le coefficient de corrlation linaire de ces deux variables

26

X3

X1 et X2 ont une corrlation proche de 1. X1 et X3 ont une corrlation proche de 0. X4 X6

X1

X5

CERCLE DES CORRLATIONS

27

III. VALIDIT DES REPRSENTATIONS 1. CRITRE GLOBAL

i 1 + 2 + ... p
Exemple :
1 + 2
p

mesure la part dinertie explique par laxe i.

est la part dinertie explique par le premier plan principal. i


i =1

Ce critre (souvent exprim en pourcentage) mesure le degr de reconstitution des carrs des distances. La rduction de dimension est dautant plus forte que les variables de dpart sont plus corrles. 28

Combien daxes ?
Diffrentes procdures sont complmentaires: c Pourcentage dinertie souhait : a priori d Diviser linertie totale par le nombre de variables initiales inertie moyenne par variable : I.M. Conserver tous les axes apportant une inertie suprieure cette valeur I.M. (inertie > 1 si variables centres rduites). e Histogramme
4 3

..
1
2

Conserver les axes associs aux valeurs propres situes

2 1

.
3

1 = 4,5 2 = 3,8 3 = 2,9

avant la cassure.

....
5 6 7
29

cassure

2. CRITRES INDIVIDUELS Cosinus carrs


ei

axe 2
2

fi

axe 1

cos2 = cos2 1 + cos2 2


30

Pour chaque individu , la qualit de sa reprsentation est dfinie par le carr du cosinus de langle entre laxe de projection et le vecteur e i . Plus la valeur est proche de 1, meilleure est la qualit de reprsentation En gnral, les qualits de reprsentation sont donnes axe par axe. Pour avoir la qualit de reprsentation dans un plan, on additionne les critres correspondant aux axes tudis. Ce critre na pas de signification pour les individus proches de lorigine. Quand on dtecte un individu pour lequel le cosinus carr est faible, on doit tenir compte de sa distance lorigine avant dindiquer quil est mal reprsent
31

Contributions Il est trs utile aussi de calculer pour chaque axe la contribution apporte par les divers individus cet axe. Considrons la composante principale c , soit de la composante pour le ime individu. kime
k

k i

la valeur

i =1

1 k ci n

( )

= k

La contribution de lindividu

ei

la composante n k est dfinie par

1 k ci n k

( )

32

Remarque : Il nest pas souhaitable quun individu ait une contribution excessive (car facteur dinstabilit) liminer les individus dont la contribution est trop importante. Problme des enqutes par sondage

33

3. REPRSENTATION DES VARIABLES Le cercle des corrlations est la projection du nuage des variables sur le plan des composantes principales.
c
2

corrlation = cosinus

Les variables bien reprsentes sont celles qui sont proches du cercle, celles qui sont proches de lorigine sont mal reprsentes.
34

4. INTERPRTATION EXTERNE : VARIABLES ET INDIVIDUS SUPPLMENTAIRES (ILLUSTRATIFS) 4.1 Variables Variable quantitative: On calcule le coefficient de corrlation entre la variable supplmentaire et les composantes principales. Ceci permet sa reprsentation sur le cercle des corrlations.

35

Variable qualitative Identification des individus de chaque catgorie de la variable

x x
x

x xx x xx x x x x

x xx

xx x x x
x x x x x

x x x

Reprsentation de chaque catgorie par son centre de gravit.

x
x

Calcul du rapport de corrlation entre la variable qualitative supplmentaire et chaque composante principale (test de Fischer-Snedecor) ou valeur-test dans SPAD.

36

Individus Individu de poids nul ne participant pas lanalyse (fichier test). Appliquer aux coordonnes de lindividu les expressions dfinissant les composantes principales.

37