Académique Documents
Professionnel Documents
Culture Documents
mhamrita@gmail.com
http://hamrita.e-monsite.com/
Fvrier 2014
Plan du chapitre
Inroduction
Motivation
Notations
Principe de l'ACP
Interprtation
Nombre d'axes retenir
interprtation des individus
Interprtation des variables
Etude d'un exemple
Motivation
I
Motivation
I
I
Motivation
I
I
Motivation
I
I
Motivation
Question: Sur quel espace projeter?
Motivation
Question: Sur quel espace projeter?
Motivation
y est la premire composante principale possdant la plus grande valeur
de la variance.
y est la deuxime composante principale perpendiculaire la premire.
1
x2
y1
y2
x1
Motivation
Les projections sur le premier axe:
Motivation
Les projections sur le deuxime axe:
Notations
Un tableau de donnes de n lignes (individus) et p colonnes (variables)
est:
x
x
11
12
..
.
xn
x
x
12
22
..
.
xn
..
x
x
;
..
.
xnp
xi
xi
xi
xip
xj
x 2j
1
..
.
xnj
xi
Notations
Un tableau de donnes de n lignes (individus) et p colonnes (variables)
est:
x
x
11
12
..
.
xn
x
x
12
22
..
.
xn
..
x
x
;
..
.
xi
xi
xi
xnp
xip
xj
x 2j
1
(u, v) =
p
X
(uj vj )2 = ku vk
j =1
..
.
xnj
Exemple
Dterminer la distance euclidienne entre ces deux vecteurs:
x = (2, 1, 2, 4); y
= (1, 2, 0, 1)
Exemple
Dterminer la distance euclidienne entre ces deux vecteurs:
x = (2, 1, 2, 4); y
x <- c(2, 1, -2, 4)
y <- c(-1, 2, 0, 1)
dist(cbind(x, y))
##
1
2
3
## 2 3.162
## 3 4.123 3.606
## 4 2.828 3.162 6.083
sqrt(sum((x - y)^2))
## [1] 4.796
= (1, 2, 0, 1)
2
1
a j aj
= 1;
a j ai
= 1 (i < j ).
Solution du problme
Pour dterminer la premire composante principale, on utilise la
technique de Lagrange. Le lagrangien s'crit alors:
L(a1 ) = a0 1 V a1 (a0 1 a1 1)
L
= 2V a1 2a1 = 0 = (V Ip )a1 = 0.
a1
Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1
On diagonalise VM = (XM
1 2
)0 (XM 1/2 ).
Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1
I
I
1 2
1 2
Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1
I
I
1 2
1 2
cij
= x i M aj
Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1
I
I
1 2
1 2
cij
I
= x i M aj
i
100. Gnralement, on choisit ce pourcentage
i =1 i
quantit: Ppi =
suprieur 80 %.
i
100. Gnralement, on choisit ce pourcentage
i =1 i
quantit: Ppi =
suprieur 80 %.
Les coordonnes des individus: appeles aussi scores en anglais sont
les projections des observations sur le nouveau espace engendr par
les vecteurs propres. Ainsi, l'individu xi est reprsent sur l'axe aj
par la coordonne:cij = xic M aj . c , c , . . . , c p sont appeles
composantes principales.
1
i
100. Gnralement, on choisit ce pourcentage
i =1 i
quantit: Ppi =
suprieur 80 %.
Les coordonnes des individus: appeles aussi scores en anglais sont
les projections des observations sur le nouveau espace engendr par
les vecteurs propres. Ainsi, l'individu xi est reprsent sur l'axe aj
par la coordonne:cij = xic M aj . c , c , . . . , c p sont appeles
composantes principales.
Contribution des individus: La contribution relative d'un individu i
la formation de la composante principale k est dnie par:
1
CTRij
cij
n j
i
100. Gnralement, on choisit ce pourcentage
i =1 i
quantit: Ppi =
suprieur 80 %.
Les coordonnes des individus: appeles aussi scores en anglais sont
les projections des observations sur le nouveau espace engendr par
les vecteurs propres. Ainsi, l'individu xi est reprsent sur l'axe aj
par la coordonne:cij = xic M aj . c , c , . . . , c p sont appeles
composantes principales.
Contribution des individus: La contribution relative d'un individu i
la formation de la composante principale k est dnie par:
1
CTRij
I
cij
n j
cij
k =1 ik
Uj
cj
=p
Uj
I
cj
=p
Uj
I
cj
=p
Critres de qualits
I
Ctrjk
Fjk
2
Critres de qualits
I
Ctrjk
I
Fjk
2
Qltjk
Fjk
l = Fj l
2
= Pp
Critres de qualits
I
Ctrjk
I
Fjk
2
Qltjk
Fjk
l = Fj l
2
= Pp
##
##
##
##
##
##
##
##
##
##
ACP norme
Tout d'abord, dterminons la matrice des corrlations.
ACP norme
Tout d'abord, dterminons la matrice des corrlations.
(S <- cor(notes))
##
##
##
##
##
Maths
Physique
Franais
Anglais
ACP norme
Tout d'abord, dterminons la matrice des corrlations.
(S <- cor(notes))
##
##
##
##
##
Maths
Physique
Franais
Anglais
[1,]
[2,]
[3,]
[4,]
[,1]
-0.4785
-0.5319
-0.4439
-0.5395
[,2]
0.5519
0.4068
-0.6212
-0.3794
[,3]
0.2026
-0.4412
-0.5324
0.6934
[,4]
0.6522
-0.5974
0.3654
-0.2901
0.0
1.0
2.0
Selon la courbe, on observe une coude au point d'abcisse 3, cela veut dire
que celle-ci est peu importante de la prcdente. Donc on retient 2
composantes principales.
Selon la courbe, on observe une coude au point d'abcisse 3, cela veut dire
que celle-ci est peu importante de la prcdente. Donc on retient 2
composantes principales.
Les deux premires
composantes principales, forment
P
( + )/ j = 99.88% de l'inertie (l'information) totale.
1
Selon la courbe, on observe une coude au point d'abcisse 3, cela veut dire
que celle-ci est peu importante de la prcdente. Donc on retient 2
composantes principales.
Les deux premires
composantes principales, forment
P
( + )/ j = 99.88% de l'inertie (l'information) totale.
En conclusion, on retient deux composantes principales.
1
Coordonnes
Coordonnes de la projection des individus:
Coordonnes
Coordonnes de la projection des individus:
(Cij <- scale(notes) %*% a)
##
##
##
##
##
##
##
##
##
##
Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa
[,1]
2.5860
1.1697
0.9719
-2.9587
-1.9341
0.9154
0.3156
-0.5847
-0.4811
[,2]
0.4030
0.1440
-0.9893
-0.1750
0.5919
1.4119
-1.8266
1.2171
-0.7769
[,3]
0.021712
0.004136
-0.054956
0.010757
-0.023141
0.024670
-0.052044
-0.062450
0.131315
[,4]
-0.021324
0.020986
-0.003333
0.044664
-0.056429
0.040175
0.008723
-0.011683
-0.021779
Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa
[,1]
0.258381
0.052863
0.036500
0.338224
0.144542
0.032378
0.003848
0.013210
0.008942
[,2]
0.016113
0.002058
0.097118
0.003039
0.034768
0.197810
0.331096
0.146989
0.059898
[,3]
0.0146409
0.0005312
0.0937996
0.0035939
0.0166309
0.0189017
0.0841209
0.1211229
0.5355469
[,4]
0.048196
0.046682
0.001177
0.211443
0.337508
0.171075
0.008065
0.014467
0.050277
Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa
[,1]
0.258381
0.052863
0.036500
0.338224
0.144542
0.032378
0.003848
0.013210
0.008942
[,2]
0.016113
0.002058
0.097118
0.003039
0.034768
0.197810
0.331096
0.146989
0.059898
[,3]
0.0146409
0.0005312
0.0937996
0.0035939
0.0166309
0.0189017
0.0841209
0.1211229
0.5355469
[,4]
0.048196
0.046682
0.001177
0.211443
0.337508
0.171075
0.008065
0.014467
0.050277
Ctr
11
2.586
2.586
=
= 0.258381.
9
9 2.875687
2
Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa
[,1]
0.97616
0.98474
0.49039
0.99627
0.91353
0.29573
0.02896
0.18711
0.27140
[,2]
0.023702
0.014930
0.508041
0.003486
0.085558
0.703483
0.970227
0.810678
0.707822
[,3]
6.881e-05
1.231e-05
1.568e-03
1.317e-05
1.308e-04
2.148e-04
7.876e-04
2.134e-03
2.022e-02
[,4]
6.638e-05
3.170e-04
5.767e-06
2.270e-04
7.776e-04
5.696e-04
2.213e-05
7.470e-05
5.562e-04
11
On peut faire la mme chose pour les variables, c..d, on dtermine les
coordonnes, les contributions et les qualits de la reprsentation des
variables sur les axes factoriels.
On peut faire la mme chose pour les variables, c..d, on dtermine les
coordonnes, les contributions et les qualits de la reprsentation des
variables sur les axes factoriels.
Tous ces calculs, peuvent tre rsums dans deux graphiques (Individus
et variables). Ces graphiques, sont donnes comme suit:
plot(Cij[, 1:2], xlab = "Axe 1", ylab = "Axe 2", main = "Reprsentation des indi
type = "n")
text(Cij[, 1], Cij[, 2], rnames)
0.0
Wiem
Sarah
Nabiha
Ali
Nidhal
Wafa
1.5
Axe 2
1.5
Fatma
Kawther
Youssef
3
0
Axe 1
Franais
Franais
Anglais
Anglais
Physique
Physique
Maths
1.0
Dim 2 (27.99%)
1.0