Académique Documents
Professionnel Documents
Culture Documents
Introduction
•Définition :
:
• Ii
• In
I- Présentation des données d’une ACP
normée :
1 n
n
1
et où x j X ij ; 2j X ij x j
2
n i 1 n i 1
I- Présentation des données d’une ACP
normée :
• Matriciellement, on l’ écrit :
~
Z I n 1n 1n M S 1
où I est la matrice identité et où 1 1 1 1
n n
n fois
1
étant la matrice des poids (n n) ; ici : I n
n
1 0 0 0
0 0 0
S la matrice diagonale p p des ecarts types S 0 i 0
0 0 0 0
0 0 p
1
0 0 0
1
0 0 0
1 1
S 0 0
i
0 0 0 0
0 1
0
p
II- Position du problème
• On construit, dans l’ordre, un nombre réduit de
variables « fictives » F1 , F2 , …, Fm , combinaisons
linéaires des variables 𝑍1 , 𝑍2 , … , 𝑍𝑝 , qu’on appelle
composantes principales afin d’en faire une synthèse
du tableau M (où m p).
A l’étape k, Fk s’écrit matriciellement :
𝑢1𝑘
𝐹 𝑘 = 𝑍𝑢𝑘 𝑜ù 𝑢𝑘 = 𝑢2𝑘 ∈ ℝ𝑝
⋮
𝑢𝑝𝑘
𝑝
• Remarques :
• i)- On convient de prendre𝑝des facteurs normés :
2 2
𝑢𝑘 = 𝑢𝑗 𝑘 =1
𝑗 =1
• ii)- Les composantes Fk𝑝 sont centrées
𝐹𝑘 = 𝑍𝑗 𝑢𝑗 𝑘 = 0
𝑗 =1 =0
• iii)- 𝑉 𝐹 𝑘
= 𝑘 2
𝐹 𝑃 = 𝑍𝑢 𝑍𝑢 𝑘 𝑘
1 𝑘′
= 𝑢 𝑍 ′ 𝑍 𝑢𝑘
𝑃 𝑛
′
= 𝑢𝑘 𝑅 𝑢𝑘
1 𝑟𝑖𝑗
1 𝑐𝑜𝑣 𝑋𝑖 , 𝑋𝑗
• où 𝑅𝑝×𝑝 = 𝑍′ 𝑍 = ⋱ 𝑒𝑡 𝑜ù 𝑟𝑖𝑗 = ; 𝑖≠𝑗
𝑛 σi σj
𝑟𝑖𝑗 1
III- Détermination des Facteurs
et des composantes principales
• 1)- Espace des individus (Nn )
1 1 1
𝐺𝑚𝑖 = 𝐺𝑀𝑖 𝑢 𝑢 = 𝐺𝑀𝑖 𝑢
Mi D1
d(Mi , D1 )
d(G,Mi)
mi
G
d(G,mi)=||Gmi||
1 𝑛 2 1 1′ 1′
𝑖=1 𝐺𝑚𝑖 = 𝑢 𝑍 ′ 𝑍 𝑢 = 𝑢 𝑅 𝑢1 =
1
𝑛 𝑛
𝐹1
1 1′ 1 𝑛 1 2
𝐹 𝐹 = 1
𝑖=1 𝐹𝑖 = 𝑉(𝐹1 )=
𝑛 𝑛
• Donc le maximum est atteint lorsque u1 est le vecteur
propre associé à la plus grande valeur propre 1 de la
matrice de corrélation (C’est un problème de
maximisation sous contrainte, on peut le résoudre par
la méthode du multiplicateur de Lagrange (voir CH 1)).
• En conclusion, l’étape1 consiste, grâce à l’ACP, à donner
l’approximation unidimensionnelle du nuage.
• Ensuite, on passe à maximiser la variance dans une
direction orthogonale à D1. Cette droite D2 aura comme
vecteur directeur unitaire u2 u1 et associé à la
deuxième plus grande valeur propre 2 : 1 > 2 …
• ainsi de suite, jusqu’à l’étape k, où on trace la droite Dk
Dk-1, Dk-2, … D2 et D1 et de vecteur directeur unitaire
uk orthogonal au sous espace engendré par les facteurs
(uk-1 , uk-2 , …, u1 ) et associé à la keme plus grande valeur
propre k et tel que k<…< 2 <1
III- Détermination des Facteurs et des composantes principales
Remarque :
𝜆𝑘 = 𝑝
𝑘=1
En effet :
p
1 ′
λk = Tr Z Z = 1+1+⋯+1 = p
n p fois
k=1
III- Détermination des Facteurs et des composantes principales
𝜆𝑘 𝜆𝑘
𝑝 =
𝑘=1 𝜆 𝑘 𝑝
III- Détermination des Facteurs et des composantes principales
F2 F3
Mi Fi3 Mi
F i2
Fi1 F1 Fi1 F1
VI- Les aides à l’interprétation
• 1)- la représentation des individus
• Remarque :
• i)-
2
k 𝐺𝑀𝑖 𝑢𝑘 2 𝑘 k,k ′ ′
QR i = 2 = cos 𝐺𝑀𝑖 ; 𝑢 𝑒𝑡 QR i = cos 2 𝐺𝑀𝑖 ; 𝑢𝑘 + cos2 𝐺𝑀𝑖 ; 𝑢𝑘
𝐺𝑀𝑖
VI- Les aides à l’interprétation
• Remarque :
𝑛
• Remarque :
• un individu supplémentaire est choisi
parmi les points extrêmes du nuage.
VI- Les aides à l’interprétation
F2
𝑅 𝐹 2 , 𝑍𝑗
𝑍𝑗
F1
𝑅 𝐹1 , 𝑍𝑗
2 1 2 2
𝑅 𝐹 , 𝑍𝑗 + 𝑅 𝐹 , 𝑍𝑗 ≤ 1
VI- Les aides à l’interprétation
• Remarques :
𝑍𝑗 ′
• en effet :
𝑘 𝑘 𝑘
𝑐𝑜𝑣 𝐹 , 𝑍 𝑍 ′ 𝐹 𝑍′ 𝑍 𝑢
𝑅 𝐹𝑘 , 𝑍 = 𝑘
= =
𝜎 𝐹 n 𝜆𝑘 n 𝜆𝑘
𝜆𝑘 𝑢𝑘
= = 𝜆𝑘 𝑢𝑘
𝜆𝑘
VI- Les aides à l’interprétation
• Méthode du coude :
• Posons 𝜀1 = 𝜆1 − 𝜆2 ; 𝜀2 = 𝜆2 − 𝜆3 ; 𝜀3 = 𝜆3 − 𝜆4 ; …
• 𝑒𝑡 𝛿1 = 𝜀1 − 𝜀2 ; 𝛿2 = 𝜀2 − 𝜀3 ; …
• Méthode de Kaiser :
• On prend les axes correspondant aux valeurs propres
supérieures à 1.
•
• C’est la deuxième méthode qu’on retiendra !
VI- Les aides à l’interprétation
Scree plot
8 100
6
60
4
40
2 20
0 0
F1 F2 F3 F4 F5 F6 F7
axe
V- Exemple d’application de l’ACP
F1 =
V- Exemple d’application de l’ACP
0,75
POT
0,5
PAA
RAI
0,25 JE
Thé
LEC PAO
F2 (11,00 %)
0
PLP
-0,25
-0,5
-0,75
-1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1
F1 (77,60 %)
V- Exemple d’application de l’ACP
V- Exemple d’application de l’ACP
INAC
2
F2 (11,00 %)
CSUP
0 PRIN
OUVR AGRI
SAAG
CMOY EMPL
-1
-2
-3
-5 -4 -3 -2 -1 0 1 2 3 4
F1 (77,60 %)
V- Exemple d’application de l’ACP
V- Exemple d’application de l’ACP
PAO .
* *** ** ** * **
100 140
Density
PAA ** *** *
Density
x
-0.60 0.90 -0.33 -0.67 0.96 0.77
2
The .
* * *
Density
120
-0.75 0.52 0.79 -0.67 -0.83
x
60
JE ** ** *
Density
-0.42
x
30 40 50
POT
Density
Density LEC * *
8
-0.82 -0.75
x
4
RAI **
Density
14
0.83
4 8
x
PLP
20 35
Density x
5
x
> cons=read.csv2(file.choose,row.names=1)
> res=PCA(cons) ; res
> summary(res)
Call:
"res<-PCA(cons.PCA , scale.unit=TRUE, ncp=5, graph = FALSE)"
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
Variance 6.208 0.880 0.416 0.306 0.168 0.018 0.003
% of var. 77.599 10.996 5.200 3.831 2.106 0.226 0.043
Cumulative % of var. 77.599 88.595 93.795 97.626 99.731 99.957 100.000
Individuals
Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
AGRI | 3.585 | -3.372 22.889 0.884 | -0.246 0.859 0.005 | 0.840 21.183 0.055 |
SAAG | 3.716 | -3.522 24.973 0.898 | -0.447 2.844 0.014 | 0.352 3.713 0.009 |
PRIN | 1.942 | 1.472 4.363 0.575 | 0.059 0.049 0.001 | -0.553 9.188 0.081 |
CSUP | 4.491 | 4.359 38.255 0.942 | 0.176 0.441 0.002 | 1.029 31.831 0.053 |
CMOY | 1.980 | 1.718 5.944 0.753 | -0.857 10.428 0.187 | -0.175 0.916 0.008 |
EMPL | 1.233 | 0.807 1.310 0.428 | -0.809 9.289 0.430 | -0.345 3.574 0.078 |
OUVR | 1.497 | -0.899 1.628 0.361 | -0.183 0.476 0.015 | -0.978 28.724 0.426 |
INAC | 2.390 | -0.563 0.638 0.056 | 2.307 75.615 0.932 | -0.170 0.870 0.005 |
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
PAO | -0.975 15.312 0.951 | 0.129 1.900 0.017 | 0.104 2.615 0.011 |
PAA | 0.869 12.157 0.755 | 0.413 19.412 0.171 | 0.206 10.237 0.043 |
The | -0.870 12.194 0.757 | 0.189 4.068 0.036 | 0.439 46.326 0.193 |
JE | 0.931 13.960 0.867 | 0.244 6.776 0.060 | 0.047 0.540 0.002 |
POT | -0.614 6.070 0.377 | 0.698 55.328 0.487 | -0.360 31.098 0.129 |
LEC | -0.909 13.310 0.826 | 0.120 1.639 0.014 | 0.021 0.105 0.000 |
RAI | 0.929 13.917 0.864 | 0.306 10.626 0.093 | 0.164 6.464 0.027 | •
PLP | 0.901 13.081 0.812 | -0.047 0.252 0.002 | -0.104 2.614 0.011 |
Individuals factor map (PCA)
4
3
INAC
2
Dim 2 (11.00%)
CSUP
0
PRIN
AGRI OUVR
SAAG
EMPL CMOY
-1
-2
-4 -2 0 2 4
Dim 1 (77.60%)
4
3
Individuals factor map (PCA)
INAC
2
Dim 2 (11.00%)
1
0
AGRI CSUP
PRIN
OUVR
SAAG
CMOY
-1
EMPL
-2
-4 -2 0 2 4
Dim 1 (77.60%)
1.0 Variables factor map (PCA)
POT
0.5
PAA
RAI
The
PAO JE
Dim 2 (11.00%)
LEC
0.0
PLP
-0.5
-1.0
Dim 1 (77.60%)
> require(LeLogicielR)
> barplot(res$eig[,1],names.arg
=expression(lambda[1],lambda[2],lambda[3],lambda[4],lambda[5],lambda[6],lambda[7]))
> fleches()
6
5
4
3
2
1
0
1 2 3 4 5 6 7
Description automatique des axes:
dimdesc(res , prob=0.06)
• $Dim.1
• $Dim.1$quanti
• correlation p.value
• JE 0.9309151 7.821882e-04
• RAI 0.9294859 8.308315e-04
• PLP 0.9011429 2.239726e-03
• PAA 0.8687483 5.110853e-03
• The -0.8700402 4.966446e-03
• LEC -0.9089814 1.758745e-03
• PAO -0.9749797 3.842664e-05
• $Dim.2
• $Dim.2$quanti
• correlation p.value
• POT 0.6976447 0.05437981
plot(res,choix="ind",select="contrib 4")
plot(res,choix="ind",select="contrib 4")
> plot(res , choix="ind" , col.ind=2 , cex=1.1 , select="cos2 .9")
> plot(res,choix="var",lim.cos2.var = 0.95 , col.var=4)
1.0
0.5
Variables factor map (PCA)
RAI
Dim 2 (11.00%)
PAO
0.0
-0.5
-1.0
Dim 1 (77.60%)
> HCPC(res.cons)
Factor map
cluster 1
3
cluster 2
cluster 3
cluster 4
INAC
2
Dim 2 (11.00%)
CSUP
0
PRIN
AGRI OUVR
SAAG
EMPL CMOY
-1
-4 -2 0 2 4
Dim 1 (77.60%)
Hierarchical clustering on the factor map
cluster 1
cluster 2
cluster 3
cluster 4
5
4
3
height
Dim 2 (11%)
2.5
2.0
1
INAC
1.5
1.0
0.5
0.0
PRIN CSUP -0.5
AGRI OUVR
0
SAAG -1.0
EMPL CMOY
-4 -2 0 2 4 6
Dim 1 (77.6%)