Cours Acp

Analyse en composantes principales
Christine Decaestecker & Marco Saerens ULB & UCL
LINF 2275
Stat. explor. multidim.
A.C.P.: Analyse en Composantes Principales

Analyse de la structure de la matrice variance-covariance c--d de la variabilit, dispersion des donnes.
Except si lune des variables peut sexprimer comme une fonction dautres, on a besoin des p variables pour prendre en compte toute la variabilit du systme
Objectif de lACP: dcrire laide de q < p composantes un maximum de cette variabilit.

Ce qui permet : - une rduction des donnes q nouveaux descripteurs - une visualisation des donnes 2 ou 3 dimensions (si q = 2 ou 3) - une interprtation des donnes : liaisons inter-variables Etape intermdiaire souvent utilise avant dautres analyses !
LINF 2275
Recherche des composantes principales

Composantes : C1 , C2 ,, Ck ,, Cq Ck = nouvelle variable = combinaison linaire des variables dorigine X1,, Xp: Ck = a1k X1 + a2k X2 + ... + apk Xp coefficients ajk dterminer telle que les Ck soient: - 2 2 non corrles, - de variance maximale, - dimportance dcroissante. C1 = 1re composante principale doit tre de variance maximale Gomtriquement : C1 dtermine une nouvelle direction dans le nuage de points qui suit laxe dallongement (tirement) maximal du nuage. , x ip) ci1 = coordonne du point i sur laxe C1 x i2 , , C1 i = (x i1 projection de xi sur C1
ci1
ci1 = a1 j xij
j =1
les projections ci1 sont les plus disperses possible. C1 de variance maximale Pour fixer la droite, on impose quelle passe par g (centre de gravit) ! (sinon lensemble des droites parallles conviennent)
LINF 2275 Stat. explor. multidim. 3
C1 = droite passant par le centre de gravit ralisant le meilleur ajustement possible du nuage c--d : qui conserve au mieux la distance entre les points (aprs projection) => droite de projection assurant une distorsion minimale. C2 = 2me composante, orthogonale C1 et de variance maximale. Gomtriquement : C2 dtermine une droite perpendiculaire C1 (au point g), suivant un axe (perpendiculaire au 1er) dallongement maximum. => C1 et C2 dterminent le plan principal : le meilleur plan de projection (de distorsion p2 minimum).
C2
2 1
p1 f1
f2 C1
C1 est telle que la moyenne des d2 (i , i ) max. C2 est C1 et telle que la moyenne des d2 (i , i ) max. => C1 et C2 dterminent le plan tel que d2 (fi , fi ) soit maximum. => C3 est la droite C1 et C2 (par g) telle que la variance des coord. soit maximum ...
Dcomposition de la variance
La variance se dcompose de la manire suivante
LINF 2275
Projection sur une droite

Loprateur de projection orthogonale, , sur une droite de vecteur directeur unitaire v scrit
Avec
La variance des observations projetes scrit alors
LINF 2275
Recherche de la projection de variance maximale

Nous avons donc
LINF 2275
Recherche de la projection de variance maximale (suite)

Et donc
Observons que la matrice est la matrice variance-covariance Cette matrice est symtrique dfinie positive

Nous devons donc maximiser cette variance des observations projetes
Il sagit dun problme doptimisation sous contrainte Nous formons donc la fonction de Lagrange
Et nous calculons les conditions ncessaires doptimalit
LINF 2275

Nous obtenons ainsi lquation aux valeurs propres
Comme la matrice variance-covariance est symtrique dfinie positive, les valeures propres sont relles positives Les vecteurs propres peuvent tre choisis orthonorms
LINF 2275
10

La variance des observations projetes scrit alors
Et donc la solution est de projeter les donnes sur le vecteur propre ayant la valeur propre la plus leve
LINF 2275
11
Recherche des projections de variance maximale orthogonales au premier axe

Afin de trouver le second axe de variance maximale, nous recherchons
Avec v1 tant le premier vecteur propre valeur propre maximale Comme les vecteurs propres de sont naturellement orthonorms, la solution est de choisir le deuxime vecteur propre de ( deuxime valeur propre maximale)
LINF 2275
12
Matrice variance-covariance
Notons que si X est la matrice de donnes Qui contient les vecteurs (xi g)T en ligne La matrice = (n 1)1 XTX
LINF 2275
13
Interprtation des valeurs propres

La somme des valeurs propres correspond la variance totale
Chaque valeur propre mesure la part de variance explique par laxe factoriel correspondant
LINF 2275
14
Approche alternative de la PCA

Nous prsentons une approche alternative de la PCA En utilisant cette fois-ci la notion de vecteur alatoire
Et donc en ne partant pas des donnes empiriques comme prcdemment
Soit x = [x1, x2,, xn] le vecteur alatoire des n variables alatoires (caractristiques) mesures sur les individus Nous dfinissons une nouvelle variable y qui est une combinaison linaire des variables alatoires xi
Nous supposons que v est normalis
LINF 2275
15

Nous recherchons la projection du vecteur alatoire x qui maximise la variance projete:
Calculons dabord la moyenne de y
LINF 2275
16

Et ensuite la variance:
Il faut donc calculer le maximum de cette variance par rapport v, ce qui nous ramne au problme doptimisation suivant (le mme que pour lapproche prcdente)
LINF 2275
17

Avec S tant la matrice variance-covariance (notons que tait la matrice variance-covariance empirique):
Et S peut tre estim partir de lchantillon par
Nous sommes donc amens, comme prcdemment, calculer les valeurs/vecteurs propres de
Rsultats:
LACP remplace les p variables de dpart (variances , corrlation inter-variable) en q nouvelles composantes (q p) Ck orthogonales 2 2 c--d cov(Ck , Ck) = 0 (pour tout k k ), et de variances maximales
On peut noter que V(C1) V(C2) V(Cq) dimportance dcroissante le nombre maximum de composantes principales q p avec q < p ds que lune des variables dorigine est une combinaison linaire dautres! mise en vidence de relations linaires dans les donnes les donnes occupent, en ralit, un sous-espace de dimensions rduites (q < p ) Le nombre maximum de composantes principales = dimension intrinsque des donnes
LINF 2275
19
Choix des r premires composantes principales

r << p rduction de la dimension objectif : garder un maximum dinformation des donnes initiales. Mesure de cette information : le % de variance explique
=
V (C )
k k =1
Inertie totale
Si les variables originales sont fortement corrles entre elles, un nombre rduit de composantes permet dexpliquer 80% 90% de variance ! Gomtriquement : revient projeter les donnes dans un sous-espace de dimension r, centr sur g, reprenant les r premiers axes principaux dallongement du nuage ! les projections cij sont les plus disperses possibles
!!
Exemple : donnes initiales 3 dimensions distribues dans un ballon de rugby

C1
. . . .
C2
Projection
proximit sur le plan C1 , C2 proximit dans lespace initial
Plus le nuage est aplati sur C1 , C2 moins de variance sur la 3i dimension. % de variance explique par C1 , C2 En gnral : - Le % de variance explique par C1 , C2 , , Cr = mesure daplatissement du nuage sur le sous-espace des composantes ( r dim.). Plus ce % est grand, meilleure est la reprsentation des donnes dans le sous-espace ! - Les composantes principales sont entirement dtermines par la matrice V variancecovariance (vecteurs propres). => toute modification de V
LINF 2275
modification des composantes !!

Stat. explor. multidim. 21
Remarques :
Si certaines variables initiales sont trs disperses (j2), elles vont prendre le pas sur les autres.
=> les composantes principales tenteront essentiellement dexpliquer la variance due ces variables ! => on peut travailler en donnes rduites (variables normalises par sj) => toutes les variables auront la mme importance (il se peut quon perde de linformation) > donnes centres-rduites => matrice variance-covariance = R et lACP explique la structure de R !
Autre possibilit : travailler sur les rangs

=> ACP non-paramtrique => plus robuste : - pour des donnes trs htrognes - aux dissymtries des distributions - aux valeurs extrmes ! (augmente anormalement la variance !) => permet dintgrer des variables qualitatives ordinales !
LINF 2275
22
Contributions des variables aux composantes

Composante = combinaison linaire des variables : Ck = a1k X1 + a2k X2 + . + apk Xp coeff. ajk = contribution de la variable Xj la composante Ck
Interprtation des rsultats

1/ Reprsentation des individus dans le plan principal
=> peut faire apparatre des groupes dindividus prsentant des similitudes. proximits abusives dues aux projections . . . . .
C2
. . . . ... . .
C1
! => la reprsentation nest valable que si le % de variance explique par C1 et C2 est suffisamment grand ! (nuage assez aplati sur le plan) => vrifier si les proximits se maintiennent dans dautres plans de projection: C1 - C3 , C2 - C3 , les individus les mieux reprsents: points proches du plan (projection peu importante).
LINF 2275
23
2/ Interprtation des composantes principales

corrlations avec les variables initiales
X1 X2 M Xp C1 r11 r21 M rp1 C2 r12 r22 M rp 2 C3 r13
23
K K K K K
reprer les variables trs corrles ( r 1 ou r -1 )
M rp 3
Interprtation des 2 premires composantes C1 , C2 : cercle des corrlations : C1 et C2 tant non-corrles, on a r2 ( c1, xj ) + r2 ( c2, xj ) 1 => chaque variable reprsente par les coordonnes : (r ( c1 , xj ) , r ( c2 , xj )) est dans un cercle de rayon 1
C2
.X5 .X8
.X1
groupes de variables lies ou opposes .X2 .X3 .X4 ! si proches de la circonfrence, bien reprsentes par les 2 composantes !
C1
.X6 .X7
LINF 2275
24
3/ Projection de points supplmentaires sur le plan principal aprs le calcul des composantes
- individus typiques de groupes dindividus : exemple
C2
t1 , t2 , t3
pour 3 groupes
.t 1
.t2 permet de voir si les composantes C1 et C2 sont mme .t 3 de les distinguer

C1
ide de ce qui est distinguable (t1 des autres) ou non (t2, t3)!
LINF 2275
25

Cours Acp

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Acp

Transféré par

Droits d'auteur :

Formats disponibles

Analyse en composantes principales

Christine Decaestecker & Marco Saerens ULB & UCL

Stat. explor. multidim.

A.C.P.: Analyse en Composantes Principales

Objectif de lACP: dcrire laide de q < p composantes un maximum de cette variabilit.

Stat. explor. multidim.

Recherche des composantes principales

Stat. explor. multidim.

Projection sur une droite

La variance des observations projetes scrit alors

Stat. explor. multidim.

Recherche de la projection de variance maximale

Stat. explor. multidim.

Recherche de la projection de variance maximale (suite)

Recherche de la projection de variance maximale (suite)

Et nous calculons les conditions ncessaires doptimalit

Stat. explor. multidim.

Recherche de la projection de variance maximale (suite)

Stat. explor. multidim.

Recherche de la projection de variance maximale (suite)

Stat. explor. multidim.

Recherche des projections de variance maximale orthogonales au premier axe

Stat. explor. multidim.

Stat. explor. multidim.

Interprtation des valeurs propres

Stat. explor. multidim.

Approche alternative de la PCA

Nous supposons que v est normalis

Stat. explor. multidim.

Approche alternative de la PCA

Calculons dabord la moyenne de y

Stat. explor. multidim.

Approche alternative de la PCA

Stat. explor. multidim.

Approche alternative de la PCA

Et S peut tre estim partir de lchantillon par

Stat. explor. multidim.

Choix des r premires composantes principales

Exemple : donnes initiales 3 dimensions distribues dans un ballon de rugby

proximit sur le plan C1 , C2 proximit dans lespace initial

modification des composantes !!

Autre possibilit : travailler sur les rangs

Stat. explor. multidim.

Contributions des variables aux composantes

Interprtation des rsultats

Stat. explor. multidim.

2/ Interprtation des composantes principales

reprer les variables trs corrles ( r 1 ou r -1 )

Stat. explor. multidim.

.t2 permet de voir si les composantes C1 et C2 sont mme .t 3 de les distinguer

Stat. explor. multidim.

Vous aimerez peut-être aussi