Chap 2 Ad

Chapitre 2: Analyse en Composante Principale
Mohamed Essaied Hamrita

ISMAI, Universit Kairouan. Tunisie
mhamrita@gmail.com
http://hamrita.e-monsite.com/
Fvrier 2014
Plan du chapitre
Inroduction
Motivation
Notations
Principe de l'ACP
Interprtation
Nombre d'axes retenir
interprtation des individus
Interprtation des variables
Etude d'un exemple
Motivation
I
Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.
Motivation
I
I

Rduire la dimension de manire pertinente: La rduction de
variables fait perdre de l'information.
Motivation
I
I

Motivation
I
I

Comment conserver l'information essentielle du jeu de donnes?
Solution: Trouver un espace de dimension rduite dur lequel on
projete les observations.
Motivation
Question: Sur quel espace projeter?
Motivation
Question: Sur quel espace projeter?
Projeter sur un espace avec une variabilt (information) maximale.
Motivation
y est la premire composante principale possdant la plus grande valeur
de la variance.
y est la deuxime composante principale perpendiculaire la premire.
1
x2
y1
y2
x1
Motivation
Les projections sur le premier axe:
Motivation
Les projections sur le deuxime axe:
Notations
Un tableau de donnes de n lignes (individus) et p colonnes (variables)
est:
x
x
11
12
..
.
xn
x
x
12
22
..
.
xn
..
x
x
;
..
.
xnp
xi
xi
xi
xip
xj
x 2j
1
..
.
xnj
et xj reprsentent respectivement, l'individu de la ligne i et la variable

de la colonne j .
xi
Notations
Un tableau de donnes de n lignes (individus) et p colonnes (variables)
est:
x
x
11
12
..
.
xn
x
x
12
22
..
.
xn
..
x
x
;
..
.
xi
xi
xi
xnp
xip
xj
x 2j
1
(u, v) =
p
X
(uj vj )2 = ku vk
j =1
..
.
xnj
et xj reprsentent respectivement, l'individu de la ligne i et la variable

de la colonne j .
Distances entre les individus: la distance la plus simple entre deux
points de Rp est la distance euclidienne qui est dnie par:
xi
Exemple
Dterminer la distance euclidienne entre ces deux vecteurs:
x = (2, 1, 2, 4); y
= (1, 2, 0, 1)
Exemple
Dterminer la distance euclidienne entre ces deux vecteurs:
x = (2, 1, 2, 4); y
x <- c(2, 1, -2, 4)
y <- c(-1, 2, 0, 1)
dist(cbind(x, y))
##
1
2
3
## 2 3.162
## 3 4.123 3.606
## 4 2.828 3.162 6.083
sqrt(sum((x - y)^2))
## [1] 4.796
= (1, 2, 0, 1)
Dirence entre ACP et ACP rduite

Mtriques usuelles: On donne deux types de mtriques usuelles:
I Mtrique usuelle i.e M = I : Dans ce cas, la distance dpend de
l'unit de mesure, et de la dispersion des variables.

I Mtrique rduite: M = diag (s , . . . , s ), la matrice diagonale des
p
inverses des variances empiriques.
2

p
2

p
ACP ou ACP rduite?
2

p
ACP ou ACP rduite?
Inconvnient de l'utilisation de Cov(X): une variable forte variance va
tre sur-importante dans les rsultats de l'ACP ;
2

p
ACP ou ACP rduite?
Inconvnient de l'utilisation de Cor(X): peut amplier les variations d'une
variable de faible importance.
2

p
ACP ou ACP rduite?
Inconvnient de l'utilisation de Cor(X): peut amplier les variations d'une
variable de faible importance.
En pratique : Utiliser Cor(X) lorsque les variables n'ont pas les mmes
ordres de grandeurs (units direntes, par exemple).
2
l'ACP est un problme d'optimisation

La premire composante principale des observations, note y , est la
combinaison linaire:
1
= Xa1 = a11 x1 + a12 x2 + . . . + a1p xp
possdante la plus grande variance empirique de toutes les combinaisons

linaires possibles.
Puisque la variance de y crot inniment
lorsqu'on fait crotre les valeurs
P
de a , on doit placer la contrainte a j = a0 a = 1.
Donc, la premire composante principale est solution du programme
suivant:
maxa1 Var (y ) = a0 V a , V est la variance de X
s/c a0 a = 1.
La j ime composante principale yj est la combinaison linaire yj = Xaj
qui maximise la variance sous contraintes:
1
2
1
a j aj
= 1;
a j ai
= 1 (i < j ).
La deuxime contrainte pour assurer l'orthogonalit de yi et yj .
Solution du problme
Pour dterminer la premire composante principale, on utilise la
technique de Lagrange. Le lagrangien s'crit alors:
L(a1 ) = a0 1 V a1 (a0 1 a1 1)
L
= 2V a1 2a1 = 0 = (V Ip )a1 = 0.
a1
Ceci montre que a doit tre choisi comme vecteur propre de V

corresondant la valeur propre .
Or, Var (y ) = a0 V a = a0 a = . Var (y ) est maximum est
maximum.
D'o, a est le vecteur propre de V correspondant la plus grande valeur
propre.
1
Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1
On diagonalise VM = (XM
1 2
)0 (XM 1/2 ).
Rsum de la mthode
1
I
I
On diagonalise VM = (XM / )0 (XM / ).

Soient > > . . . > p les valeurs propres et uj les vecteurs
propres. Les axes principaux sont dnis, alors: aj = M / uj .
1 2
1 2
1 2
Rsum de la mthode
1
I
I

Les coordonnes des individus centr x i sont donnes par:
1 2
1 2
1 2
cij
= x i M aj
Rsum de la mthode
1
I
I

Les coordonnes des individus centr x i sont donnes par:
1 2
1 2
1 2
cij
I
= x i M aj
Le mme travail se repte pour les variables.
Combien d'axes retenir?

on veut garder peu d'axes principaux, avec
I un soucis d'interprtation: on ne garde que des axes que l'on puisse
interprter,

interprter,
I des axes qui expliquent susement d'inertie. Pour cela, on a deux
mthodes

interprter,
mthodes
I
la mthode du coude, correspondant un dcrochage au niveau des

valeurs propres.

interprter,
mthodes
I
la mthode du coude, correspondant un dcrochage au niveau des

valeurs propres.
la rgle de Kaiser, pour les variables centres rduites (ACP rduite):

on ne garde que les valeurs propres suprieures 1.
Interprtation des individus

I
On appellePpourcentage d'inertie reproduite en dimension k la

k
i
100. Gnralement, on choisit ce pourcentage
i =1 i
quantit: Ppi =
suprieur 80 %.

I

k
i
i =1 i
quantit: Ppi =
suprieur 80 %.
Les coordonnes des individus: appeles aussi scores en anglais sont
les projections des observations sur le nouveau espace engendr par
les vecteurs propres. Ainsi, l'individu xi est reprsent sur l'axe aj
par la coordonne:cij = xic M aj . c , c , . . . , c p sont appeles
composantes principales.
1

I

k
i
i =1 i
quantit: Ppi =
suprieur 80 %.
Contribution des individus: La contribution relative d'un individu i
la formation de la composante principale k est dnie par:
1
CTRij
cij
n j

I

k
i
i =1 i
quantit: Ppi =
suprieur 80 %.
Contribution des individus: La contribution relative d'un individu i
la formation de la composante principale k est dnie par:
1
CTRij
I
cij
n j
Qualit de la reprsentation des individus ou cos : La qualit de la

reprsentation d'un individu par la composante principale k est
2
cij
dnie par: Qltik = Pp
k =1 ik
Interprtations des variables

I
On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:

1
Uj
cj
=p

I

1
Uj
I
cj
=p
Les coordonnes des variables sont les covariances entres les

observations centreset les axes factoriels.
Fjk = cov (ex j , U k ) = k ajk .
Les projections des variables centres rduites appartiennent aux
disque de centre 0 et de rayon 1 et leur reprsentation est d'autant
meilleure que le projet est proche du cercle.

I

1
Uj
I
cj
=p
Les coordonnes des variables sont les covariances entres les

observations centreset les axes factoriels.
Fjk = cov (ex j , U k ) = k ajk .
Les projections des variables centres rduites appartiennent aux
disque de centre 0 et de rayon 1 et leur reprsentation est d'autant
meilleure que le projet est proche du cercle.
j
k
La
coordonne de la projection de la variable x sur l'axe U est:
k ajk
.
j
Critres de qualits
I
Contribution des variables: La contribution de la variable x j la

formation de l'axe factoriel U k est:
Ctrjk
Fjk
2
Critres de qualits
I

Ctrjk
I
Fjk
2
Qualit de la reprsentation de la variable x j sur l'axe factoriel U k

est:
Qltjk
Fjk
l = Fj l
2
= Pp
C'est le cosinus carr de l'angle entre la reprsentation de la variable

x j est sa projection sur l'axe U k .
Critres de qualits
I

Ctrjk
I
Fjk
2
Qualit de la reprsentation de la variable x j sur l'axe factoriel U k

est:
Qltjk
Fjk
l = Fj l
2
= Pp
C'est le cosinus carr de l'angle entre la reprsentation de la variable

x j est sa projection sur l'axe U k .
Reprenons l'exemple des notes du chapitre prcdent.

I
##
##
##
##
##
##
##
##
##
##
Maths Physique Franais Anglais

Fatma
6.0
6.0
5.0
5.5
Ali
8.0
8.0
8.0
8.0
Kawther 6.0
7.0
11.0
9.5
Nidhal 14.5
14.5
15.5
15.0
Nabiha 14.0
14.0
12.0
12.5
Wiem
11.0
10.0
5.5
7.0
Youssef 5.5
7.0
14.0
11.5
Sarah
13.0
12.5
8.5
9.5
Wafa
9.0
9.5
12.5
12.0
On propose d'tudier ce tableau de donnes par la mthode de l'ACP.
ACP norme
Tout d'abord, dterminons la matrice des corrlations.
ACP norme
(S <- cor(notes))
##
##
##
##
##
Maths
Physique
Franais
Anglais

1.0000 0.9825
0.2267 0.5081
0.9825 1.0000 0.3967 0.6515
0.2267 0.3967 1.0000 0.9512
0.5081 0.6515 0.9512 1.0000
puis calculons les valeurs et les vecteurs propres de la matrice des

corrlations.
ACP norme
(S <- cor(notes))
##
##
##
##
##
Maths
Physique
Franais
Anglais

1.0000 0.9825
0.2267 0.5081
0.9825 1.0000 0.3967 0.6515
0.2267 0.3967 1.0000 0.9512
0.5081 0.6515 0.9512 1.0000
puis calculons les valeurs et les vecteurs propres de la matrice des

corrlations.
(lambda <- eigen(S)$values)
## [1] 2.875687 1.119687 0.003578 0.001048
(a <- eigen(S)$vectors)
##
##
##
##
##
[1,]
[2,]
[3,]
[4,]
[,1]
-0.4785
-0.5319
-0.4439
-0.5395
[,2]
0.5519
0.4068
-0.6212
-0.3794
[,3]
0.2026
-0.4412
-0.5324
0.6934
[,4]
0.6522
-0.5974
0.3654
-0.2901
Combiens de composantes principales retenir?

Suivant le critre de Kaiser, on doit retenir deux composnates puisqu'on
a deux valeurs propres suprieurs 1 (ACP norme).

Suivant le critre de Kaiser, on doit retenir deux composnates puisqu'on
a deux valeurs propres suprieurs 1 (ACP norme).
Selon la mthode de coude:
0.0
1.0
2.0
plot(lambda, type = "b", pch = 16, xlab = "", ylab = "")
1.0 1.5 2.0 2.5 3.0 3.5 4.0
Selon la courbe, on observe une coude au point d'abcisse 3, cela veut dire
que celle-ci est peu importante de la prcdente. Donc on retient 2
Les deux premires
composantes principales, forment
P
( + )/ j = 99.88% de l'inertie (l'information) totale.
1
Les deux premires
composantes principales, forment
P
( + )/ j = 99.88% de l'inertie (l'information) totale.
En conclusion, on retient deux composantes principales.
1
Coordonnes
Coordonnes de la projection des individus:
Coordonnes
(Cij <- scale(notes) %*% a)
##
##
##
##
##
##
##
##
##
##
Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa
[,1]
2.5860
1.1697
0.9719
-2.9587
-1.9341
0.9154
0.3156
-0.5847
-0.4811
[,2]
0.4030
0.1440
-0.9893
-0.1750
0.5919
1.4119
-1.8266
1.2171
-0.7769
[,3]
0.021712
0.004136
-0.054956
0.010757
-0.023141
0.024670
-0.052044
-0.062450
0.131315
[,4]
-0.021324
0.020986
-0.003333
0.044664
-0.056429
0.040175
0.008723
-0.011683
-0.021779
Contributions des individus selon les composantes principales

(ctrI <- Cij^2 %*% diag(1/lambda)/nrow(notes))
##
##
##
##
##
##
##
##
##
##
Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa
[,1]
0.258381
0.052863
0.036500
0.338224
0.144542
0.032378
0.003848
0.013210
0.008942
[,2]
0.016113
0.002058
0.097118
0.003039
0.034768
0.197810
0.331096
0.146989
0.059898
[,3]
0.0146409
0.0005312
0.0937996
0.0035939
0.0166309
0.0189017
0.0841209
0.1211229
0.5355469
[,4]
0.048196
0.046682
0.001177
0.211443
0.337508
0.171075
0.008065
0.014467
0.050277
Contributions des individus selon les composantes principales

(ctrI <- Cij^2 %*% diag(1/lambda)/nrow(notes))
##
##
##
##
##
##
##
##
##
##
Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa
[,1]
0.258381
0.052863
0.036500
0.338224
0.144542
0.032378
0.003848
0.013210
0.008942
[,2]
0.016113
0.002058
0.097118
0.003039
0.034768
0.197810
0.331096
0.146989
0.059898
[,3]
0.0146409
0.0005312
0.0937996
0.0035939
0.0166309
0.0189017
0.0841209
0.1211229
0.5355469
[,4]
0.048196
0.046682
0.001177
0.211443
0.337508
0.171075
0.008065
0.014467
0.050277
Par exemple, la contribution de l'individu 1 la formation de la premire

composante est gale :
Ctr
11
2.586
2.586
=
= 0.258381.
9
9 2.875687
2
Qualits de la reprsentation des individus

deno <- apply(Cij^2, 1, sum)
(qltI <- sweep(Cij^2, 1, deno, "/"))
##
##
##
##
##
##
##
##
##
##
Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa
[,1]
0.97616
0.98474
0.49039
0.99627
0.91353
0.29573
0.02896
0.18711
0.27140
[,2]
0.023702
0.014930
0.508041
0.003486
0.085558
0.703483
0.970227
0.810678
0.707822
[,3]
6.881e-05
1.231e-05
1.568e-03
1.317e-05
1.308e-04
2.148e-04
7.876e-04
2.134e-03
2.022e-02
[,4]
6.638e-05
3.170e-04
5.767e-06
2.270e-04
7.776e-04
5.696e-04
2.213e-05
7.470e-05
5.562e-04
Par exemple, la qualit de la reprsentation de l'individu 1 par la premire

composante est gale :
2.5860
= 0.976158.
Ctr =
2.5860 + 0.4030 + 0.021712 + (0.021324)
Gomtriquement, la qualit de la reprsentation d'un individu
i par la
2
11
composante j est gale cos , o est l'angle OM , aj .

2
On peut faire la mme chose pour les variables, c..d, on dtermine les
coordonnes, les contributions et les qualits de la reprsentation des
variables sur les axes factoriels.
On peut faire la mme chose pour les variables, c..d, on dtermine les
coordonnes, les contributions et les qualits de la reprsentation des
variables sur les axes factoriels.
Tous ces calculs, peuvent tre rsums dans deux graphiques (Individus
et variables). Ces graphiques, sont donnes comme suit:
plot(Cij[, 1:2], xlab = "Axe 1", ylab = "Axe 2", main = "Reprsentation des indi
type = "n")
text(Cij[, 1], Cij[, 2], rnames)
0.0
Wiem
Sarah
Nabiha
Ali
Nidhal
Wafa
1.5
Axe 2
1.5
Reprsentation des individus
Fatma
Kawther
Youssef
3
0
Axe 1
0.0 0.5 1.0
Franais
Franais
Anglais
Anglais
Physique
Physique
Maths
1.0
Dim 2 (27.99%)
Variables factor map (PCA)
1.0
0.0 0.5 1.0

Dim 1 (71.89%)

Chap 2 Ad

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap 2 Ad

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2: Analyse en Composante Principale

Mohamed Essaied Hamrita

Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.

Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.

Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.

Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.

Projeter sur un espace avec une variabilt (information) maximale.

et xj reprsentent respectivement, l'individu de la ligne i et la variable

et xj reprsentent respectivement, l'individu de la ligne i et la variable

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

l'ACP est un problme d'optimisation

= Xa1 = a11 x1 + a12 x2 + . . . + a1p xp

possdante la plus grande variance empirique de toutes les combinaisons

La deuxime contrainte pour assurer l'orthogonalit de yi et yj .

Ceci montre que a doit tre choisi comme vecteur propre de V

On diagonalise VM = (XM / )0 (XM / ).

On diagonalise VM = (XM / )0 (XM / ).

On diagonalise VM = (XM / )0 (XM / ).

Le mme travail se repte pour les variables.

Combien d'axes retenir?

Combien d'axes retenir?

Combien d'axes retenir?

la mthode du coude, correspondant un dcrochage au niveau des

Combien d'axes retenir?

la mthode du coude, correspondant un dcrochage au niveau des

la rgle de Kaiser, pour les variables centres rduites (ACP rduite):

Interprtation des individus

On appellePpourcentage d'inertie reproduite en dimension k la

Interprtation des individus

On appellePpourcentage d'inertie reproduite en dimension k la

Interprtation des individus

On appellePpourcentage d'inertie reproduite en dimension k la

Interprtation des individus

On appellePpourcentage d'inertie reproduite en dimension k la

Qualit de la reprsentation des individus ou cos : La qualit de la

dnie par: Qltik = Pp

Interprtations des variables

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:

Interprtations des variables

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:

Les coordonnes des variables sont les covariances entres les

Interprtations des variables

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:

Les coordonnes des variables sont les covariances entres les

Contribution des variables: La contribution de la variable x j la

Contribution des variables: La contribution de la variable x j la

Qualit de la reprsentation de la variable x j sur l'axe factoriel U k

C'est le cosinus carr de l'angle entre la reprsentation de la variable

Contribution des variables: La contribution de la variable x j la

Qualit de la reprsentation de la variable x j sur l'axe factoriel U k

C'est le cosinus carr de l'angle entre la reprsentation de la variable

Reprenons l'exemple des notes du chapitre prcdent.

Maths Physique Franais Anglais

On propose d'tudier ce tableau de donnes par la mthode de l'ACP.

Maths Physique Franais Anglais

puis calculons les valeurs et les vecteurs propres de la matrice des

Maths Physique Franais Anglais

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

Dirence entre ACP et ACP rduite

dnie par: Qltik = Pp

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par: