Vous êtes sur la page 1sur 25

Analyse en composantes principales

Christine Decaestecker & Marco Saerens ULB & UCL

LINF 2275

Stat. explor. multidim.

A.C.P.: Analyse en Composantes Principales


Analyse de la structure de la matrice variance-covariance c--d de la variabilit, dispersion des donnes.
Except si lune des variables peut sexprimer comme une fonction dautres, on a besoin des p variables pour prendre en compte toute la variabilit du systme

Objectif de lACP: dcrire laide de q < p composantes un maximum de cette variabilit.


Ce qui permet : - une rduction des donnes q nouveaux descripteurs - une visualisation des donnes 2 ou 3 dimensions (si q = 2 ou 3) - une interprtation des donnes : liaisons inter-variables Etape intermdiaire souvent utilise avant dautres analyses !

LINF 2275

Stat. explor. multidim.

Recherche des composantes principales


Composantes : C1 , C2 ,, Ck ,, Cq Ck = nouvelle variable = combinaison linaire des variables dorigine X1,, Xp: Ck = a1k X1 + a2k X2 + ... + apk Xp coefficients ajk dterminer telle que les Ck soient: - 2 2 non corrles, - de variance maximale, - dimportance dcroissante. C1 = 1re composante principale doit tre de variance maximale Gomtriquement : C1 dtermine une nouvelle direction dans le nuage de points qui suit laxe dallongement (tirement) maximal du nuage. , x ip) ci1 = coordonne du point i sur laxe C1 x i2 , , C1 i = (x i1 projection de xi sur C1
ci1

ci1 = a1 j xij
j =1

les projections ci1 sont les plus disperses possible. C1 de variance maximale Pour fixer la droite, on impose quelle passe par g (centre de gravit) ! (sinon lensemble des droites parallles conviennent)
LINF 2275 Stat. explor. multidim. 3

C1 = droite passant par le centre de gravit ralisant le meilleur ajustement possible du nuage c--d : qui conserve au mieux la distance entre les points (aprs projection) => droite de projection assurant une distorsion minimale. C2 = 2me composante, orthogonale C1 et de variance maximale. Gomtriquement : C2 dtermine une droite perpendiculaire C1 (au point g), suivant un axe (perpendiculaire au 1er) dallongement maximum. => C1 et C2 dterminent le plan principal : le meilleur plan de projection (de distorsion p2 minimum).
C2

2 1

p1 f1

f2 C1

C1 est telle que la moyenne des d2 (i , i ) max. C2 est C1 et telle que la moyenne des d2 (i , i ) max. => C1 et C2 dterminent le plan tel que d2 (fi , fi ) soit maximum. => C3 est la droite C1 et C2 (par g) telle que la variance des coord. soit maximum ...
LINF 2275 Stat. explor. multidim. 4

Dcomposition de la variance
La variance se dcompose de la manire suivante

LINF 2275

Stat. explor. multidim.

Projection sur une droite


Loprateur de projection orthogonale, , sur une droite de vecteur directeur unitaire v scrit

Avec

La variance des observations projetes scrit alors

LINF 2275

Stat. explor. multidim.

Recherche de la projection de variance maximale


Nous avons donc

LINF 2275

Stat. explor. multidim.

Recherche de la projection de variance maximale (suite)


Et donc

Observons que la matrice est la matrice variance-covariance Cette matrice est symtrique dfinie positive
LINF 2275 Stat. explor. multidim. 8

Recherche de la projection de variance maximale (suite)


Nous devons donc maximiser cette variance des observations projetes

Il sagit dun problme doptimisation sous contrainte Nous formons donc la fonction de Lagrange

Et nous calculons les conditions ncessaires doptimalit

LINF 2275

Stat. explor. multidim.

Recherche de la projection de variance maximale (suite)


Nous obtenons ainsi lquation aux valeurs propres

Comme la matrice variance-covariance est symtrique dfinie positive, les valeures propres sont relles positives Les vecteurs propres peuvent tre choisis orthonorms

LINF 2275

Stat. explor. multidim.

10

Recherche de la projection de variance maximale (suite)


La variance des observations projetes scrit alors

Et donc la solution est de projeter les donnes sur le vecteur propre ayant la valeur propre la plus leve

LINF 2275

Stat. explor. multidim.

11

Recherche des projections de variance maximale orthogonales au premier axe


Afin de trouver le second axe de variance maximale, nous recherchons

Avec v1 tant le premier vecteur propre valeur propre maximale Comme les vecteurs propres de sont naturellement orthonorms, la solution est de choisir le deuxime vecteur propre de ( deuxime valeur propre maximale)

LINF 2275

Stat. explor. multidim.

12

Matrice variance-covariance
Notons que si X est la matrice de donnes Qui contient les vecteurs (xi g)T en ligne La matrice = (n 1)1 XTX

LINF 2275

Stat. explor. multidim.

13

Interprtation des valeurs propres


La somme des valeurs propres correspond la variance totale

Chaque valeur propre mesure la part de variance explique par laxe factoriel correspondant

LINF 2275

Stat. explor. multidim.

14

Approche alternative de la PCA


Nous prsentons une approche alternative de la PCA En utilisant cette fois-ci la notion de vecteur alatoire
Et donc en ne partant pas des donnes empiriques comme prcdemment

Soit x = [x1, x2,, xn] le vecteur alatoire des n variables alatoires (caractristiques) mesures sur les individus Nous dfinissons une nouvelle variable y qui est une combinaison linaire des variables alatoires xi

Nous supposons que v est normalis

LINF 2275

Stat. explor. multidim.

15

Approche alternative de la PCA


Nous recherchons la projection du vecteur alatoire x qui maximise la variance projete:

Calculons dabord la moyenne de y

LINF 2275

Stat. explor. multidim.

16

Approche alternative de la PCA


Et ensuite la variance:

Il faut donc calculer le maximum de cette variance par rapport v, ce qui nous ramne au problme doptimisation suivant (le mme que pour lapproche prcdente)

LINF 2275

Stat. explor. multidim.

17

Approche alternative de la PCA


Avec S tant la matrice variance-covariance (notons que tait la matrice variance-covariance empirique):

Et S peut tre estim partir de lchantillon par

Nous sommes donc amens, comme prcdemment, calculer les valeurs/vecteurs propres de
LINF 2275 Stat. explor. multidim. 18

Rsultats:
LACP remplace les p variables de dpart (variances , corrlation inter-variable) en q nouvelles composantes (q p) Ck orthogonales 2 2 c--d cov(Ck , Ck) = 0 (pour tout k k ), et de variances maximales

On peut noter que V(C1) V(C2) V(Cq) dimportance dcroissante le nombre maximum de composantes principales q p avec q < p ds que lune des variables dorigine est une combinaison linaire dautres! mise en vidence de relations linaires dans les donnes les donnes occupent, en ralit, un sous-espace de dimensions rduites (q < p ) Le nombre maximum de composantes principales = dimension intrinsque des donnes

LINF 2275

Stat. explor. multidim.

19

Choix des r premires composantes principales


r << p rduction de la dimension objectif : garder un maximum dinformation des donnes initiales. Mesure de cette information : le % de variance explique
=

V (C )
k k =1

Inertie totale

Si les variables originales sont fortement corrles entre elles, un nombre rduit de composantes permet dexpliquer 80% 90% de variance ! Gomtriquement : revient projeter les donnes dans un sous-espace de dimension r, centr sur g, reprenant les r premiers axes principaux dallongement du nuage ! les projections cij sont les plus disperses possibles
!!
LINF 2275 Stat. explor. multidim. 20

Exemple : donnes initiales 3 dimensions distribues dans un ballon de rugby


C1

. . . .
C2

Projection

proximit sur le plan C1 , C2 proximit dans lespace initial

Plus le nuage est aplati sur C1 , C2 moins de variance sur la 3i dimension. % de variance explique par C1 , C2 En gnral : - Le % de variance explique par C1 , C2 , , Cr = mesure daplatissement du nuage sur le sous-espace des composantes ( r dim.). Plus ce % est grand, meilleure est la reprsentation des donnes dans le sous-espace ! - Les composantes principales sont entirement dtermines par la matrice V variancecovariance (vecteurs propres). => toute modification de V
LINF 2275

modification des composantes !!


Stat. explor. multidim. 21

Remarques :
Si certaines variables initiales sont trs disperses (j2), elles vont prendre le pas sur les autres.
=> les composantes principales tenteront essentiellement dexpliquer la variance due ces variables ! => on peut travailler en donnes rduites (variables normalises par sj) => toutes les variables auront la mme importance (il se peut quon perde de linformation) > donnes centres-rduites => matrice variance-covariance = R et lACP explique la structure de R !

Autre possibilit : travailler sur les rangs


=> ACP non-paramtrique => plus robuste : - pour des donnes trs htrognes - aux dissymtries des distributions - aux valeurs extrmes ! (augmente anormalement la variance !) => permet dintgrer des variables qualitatives ordinales !

LINF 2275

Stat. explor. multidim.

22

Contributions des variables aux composantes


Composante = combinaison linaire des variables : Ck = a1k X1 + a2k X2 + . + apk Xp coeff. ajk = contribution de la variable Xj la composante Ck

Interprtation des rsultats


1/ Reprsentation des individus dans le plan principal
=> peut faire apparatre des groupes dindividus prsentant des similitudes. proximits abusives dues aux projections . . . . .
C2

. . . . ... . .

C1

! => la reprsentation nest valable que si le % de variance explique par C1 et C2 est suffisamment grand ! (nuage assez aplati sur le plan) => vrifier si les proximits se maintiennent dans dautres plans de projection: C1 - C3 , C2 - C3 , les individus les mieux reprsents: points proches du plan (projection peu importante).

LINF 2275

Stat. explor. multidim.

23

2/ Interprtation des composantes principales


corrlations avec les variables initiales
X1 X2 M Xp C1 r11 r21 M rp1 C2 r12 r22 M rp 2 C3 r13
23

K K K K K

reprer les variables trs corrles ( r 1 ou r -1 )

M rp 3

Interprtation des 2 premires composantes C1 , C2 : cercle des corrlations : C1 et C2 tant non-corrles, on a r2 ( c1, xj ) + r2 ( c2, xj ) 1 => chaque variable reprsente par les coordonnes : (r ( c1 , xj ) , r ( c2 , xj )) est dans un cercle de rayon 1
C2

.X5 .X8

.X1

groupes de variables lies ou opposes .X2 .X3 .X4 ! si proches de la circonfrence, bien reprsentes par les 2 composantes !

C1

.X6 .X7

LINF 2275

Stat. explor. multidim.

24

3/ Projection de points supplmentaires sur le plan principal aprs le calcul des composantes
- individus typiques de groupes dindividus : exemple
C2

t1 , t2 , t3

pour 3 groupes

.t 1

.t2 permet de voir si les composantes C1 et C2 sont mme .t 3 de les distinguer


C1

ide de ce qui est distinguable (t1 des autres) ou non (t2, t3)!

LINF 2275

Stat. explor. multidim.

25

Vous aimerez peut-être aussi