Académique Documents
Professionnel Documents
Culture Documents
Cours Acp
Cours Acp
LINF 2275
LINF 2275
ci1 = a1 j xij
j =1
les projections ci1 sont les plus disperses possible. C1 de variance maximale Pour fixer la droite, on impose quelle passe par g (centre de gravit) ! (sinon lensemble des droites parallles conviennent)
LINF 2275 Stat. explor. multidim. 3
C1 = droite passant par le centre de gravit ralisant le meilleur ajustement possible du nuage c--d : qui conserve au mieux la distance entre les points (aprs projection) => droite de projection assurant une distorsion minimale. C2 = 2me composante, orthogonale C1 et de variance maximale. Gomtriquement : C2 dtermine une droite perpendiculaire C1 (au point g), suivant un axe (perpendiculaire au 1er) dallongement maximum. => C1 et C2 dterminent le plan principal : le meilleur plan de projection (de distorsion p2 minimum).
C2
2 1
p1 f1
f2 C1
C1 est telle que la moyenne des d2 (i , i ) max. C2 est C1 et telle que la moyenne des d2 (i , i ) max. => C1 et C2 dterminent le plan tel que d2 (fi , fi ) soit maximum. => C3 est la droite C1 et C2 (par g) telle que la variance des coord. soit maximum ...
LINF 2275 Stat. explor. multidim. 4
Dcomposition de la variance
La variance se dcompose de la manire suivante
LINF 2275
Avec
LINF 2275
LINF 2275
Observons que la matrice est la matrice variance-covariance Cette matrice est symtrique dfinie positive
LINF 2275 Stat. explor. multidim. 8
Il sagit dun problme doptimisation sous contrainte Nous formons donc la fonction de Lagrange
LINF 2275
Comme la matrice variance-covariance est symtrique dfinie positive, les valeures propres sont relles positives Les vecteurs propres peuvent tre choisis orthonorms
LINF 2275
10
Et donc la solution est de projeter les donnes sur le vecteur propre ayant la valeur propre la plus leve
LINF 2275
11
Avec v1 tant le premier vecteur propre valeur propre maximale Comme les vecteurs propres de sont naturellement orthonorms, la solution est de choisir le deuxime vecteur propre de ( deuxime valeur propre maximale)
LINF 2275
12
Matrice variance-covariance
Notons que si X est la matrice de donnes Qui contient les vecteurs (xi g)T en ligne La matrice = (n 1)1 XTX
LINF 2275
13
Chaque valeur propre mesure la part de variance explique par laxe factoriel correspondant
LINF 2275
14
Soit x = [x1, x2,, xn] le vecteur alatoire des n variables alatoires (caractristiques) mesures sur les individus Nous dfinissons une nouvelle variable y qui est une combinaison linaire des variables alatoires xi
LINF 2275
15
LINF 2275
16
Il faut donc calculer le maximum de cette variance par rapport v, ce qui nous ramne au problme doptimisation suivant (le mme que pour lapproche prcdente)
LINF 2275
17
Nous sommes donc amens, comme prcdemment, calculer les valeurs/vecteurs propres de
LINF 2275 Stat. explor. multidim. 18
Rsultats:
LACP remplace les p variables de dpart (variances , corrlation inter-variable) en q nouvelles composantes (q p) Ck orthogonales 2 2 c--d cov(Ck , Ck) = 0 (pour tout k k ), et de variances maximales
On peut noter que V(C1) V(C2) V(Cq) dimportance dcroissante le nombre maximum de composantes principales q p avec q < p ds que lune des variables dorigine est une combinaison linaire dautres! mise en vidence de relations linaires dans les donnes les donnes occupent, en ralit, un sous-espace de dimensions rduites (q < p ) Le nombre maximum de composantes principales = dimension intrinsque des donnes
LINF 2275
19
V (C )
k k =1
Inertie totale
Si les variables originales sont fortement corrles entre elles, un nombre rduit de composantes permet dexpliquer 80% 90% de variance ! Gomtriquement : revient projeter les donnes dans un sous-espace de dimension r, centr sur g, reprenant les r premiers axes principaux dallongement du nuage ! les projections cij sont les plus disperses possibles
!!
LINF 2275 Stat. explor. multidim. 20
. . . .
C2
Projection
Plus le nuage est aplati sur C1 , C2 moins de variance sur la 3i dimension. % de variance explique par C1 , C2 En gnral : - Le % de variance explique par C1 , C2 , , Cr = mesure daplatissement du nuage sur le sous-espace des composantes ( r dim.). Plus ce % est grand, meilleure est la reprsentation des donnes dans le sous-espace ! - Les composantes principales sont entirement dtermines par la matrice V variancecovariance (vecteurs propres). => toute modification de V
LINF 2275
Remarques :
Si certaines variables initiales sont trs disperses (j2), elles vont prendre le pas sur les autres.
=> les composantes principales tenteront essentiellement dexpliquer la variance due ces variables ! => on peut travailler en donnes rduites (variables normalises par sj) => toutes les variables auront la mme importance (il se peut quon perde de linformation) > donnes centres-rduites => matrice variance-covariance = R et lACP explique la structure de R !
LINF 2275
22
. . . . ... . .
C1
! => la reprsentation nest valable que si le % de variance explique par C1 et C2 est suffisamment grand ! (nuage assez aplati sur le plan) => vrifier si les proximits se maintiennent dans dautres plans de projection: C1 - C3 , C2 - C3 , les individus les mieux reprsents: points proches du plan (projection peu importante).
LINF 2275
23
K K K K K
M rp 3
Interprtation des 2 premires composantes C1 , C2 : cercle des corrlations : C1 et C2 tant non-corrles, on a r2 ( c1, xj ) + r2 ( c2, xj ) 1 => chaque variable reprsente par les coordonnes : (r ( c1 , xj ) , r ( c2 , xj )) est dans un cercle de rayon 1
C2
.X5 .X8
.X1
groupes de variables lies ou opposes .X2 .X3 .X4 ! si proches de la circonfrence, bien reprsentes par les 2 composantes !
C1
.X6 .X7
LINF 2275
24
3/ Projection de points supplmentaires sur le plan principal aprs le calcul des composantes
- individus typiques de groupes dindividus : exemple
C2
t1 , t2 , t3
pour 3 groupes
.t 1
ide de ce qui est distinguable (t1 des autres) ou non (t2, t3)!
LINF 2275
25