Académique Documents
Professionnel Documents
Culture Documents
N . Bessah
9 novembre 2021
Table des matières
1
Chapitre 1
1.1 Introduction
l’ACP est une méthode d’analyse factorielle, elle s’effectue sur un tableau de données de type
individu -variable ; ces variables doivent être quantitatives centrées ou centrées et réduites
(dans ce dernier cas, on dit qu’on effectue une ACP normée).
2
r1j
r2j 1 cij
rj = j
.. où rij = j (xij − x̄ ) = j
. s s
rnj
2 1Pn 2
où (sj ) = (xij − x̄j ) est la variance empirique de la variable xj
n i
• La matrice R(n,p) = (rij )i=1,...,n est la matrice des variables centrées et réduites ;
j=1,...,p
1 t
• La matrice à diagonaliser est Cor = R R, matrice des corrélations.
n
Remarques
— Les résultats de l’ACP sont influencés par l’ordre de grandeurs des variables ; la réduction
des variables ( i.e. en divisant par leurs écart type respectifs), permet d’accorder la même
importance aux différentes variables ;
— L’ACP normée est également utile lorsque les variables sont caractérisées par des unités
différentes ;
— L’ACP sur la matrice de covariance et l’ACP normée ne donnent pas, en général, les
même résultats.
Fk = [c1 , . . . , cp ]uk
= c1 uk1 + c2 uk2 + · · · + cp ukp
— Variables centrées et réduites
Fk = [r1 , . . . , rp ]uk
= r1 uk1 + r2 uk2 + · · · + rp ukp
3
2. La variance de la k i ème composante principale est égale à la k ème valeur propre de la
matrice à diagonaliser.
Fk est centrée =⇒
n
1X
V ar (Fk ) = (Fik )2
n i=1
1
= Fkt .Fk
n
1
= (T uk )t T uk
n
1 t
t
= uk T T uk
n
= utk [λk uk ]
= λk
3. Les composantes principales sont non corrélées
1 1 t
t
cov (Fj , Fk ) = < Fj , Fk >= uk T T uj = λj utk uj = 0 (1.1)
n n
car les vecteurs propres sont deux à deux orthogonaux.
4
1.4.2 Etude des individus
a) On construit les plans à partir des composantes principales les plus intéressantes : Plan
1 − 2 à compléter par le plan 2 − 3 si cela est nécessaire ;
b) On examine la répartition des individus sur le plan principal ; si des individus se trouvent
complètement extérieurs au reste de la population, cela peut signifier soit (i) que les
données du tableau sont erronées, (ii) soit quelques individus sont totalement différents
des autres ;
c) On calcule les paramètres d’aide à l’interprétation :
Figure 1.1 – Angle θ entre le vecteur xi et l’axe de projection D engendré par le vecteur u
5
n
P
On déduit que Crk (i) = 1.
i
On s’intéressera surtout aux individus qui ont les plus fortes contributions relatives aux
axes.
1 j t j
= c c
n
n
1X 2
= cji
n i
n
1X 2
= xji − x̄j
n i
= var cj
La distance entre deux variables augmente avec les variances, diminue si la liaison ( i.e.
Cov) est positive et augmente si la liaison est négative.
3. Qualité de représentation d’une variable sur le k i ème axe
< cj , vk >2
cos2 (θjk ) = (1.5)
kcj k2 kvk k2
G2jk
= (1.6)
var (cj )
√ 2
λk uk (j)
= (1.7)
var (cj )
6
4. Contribution d’une variable est
√ 2
λk uk (j)
CT Rk (j) = = (uk (j))2 (1.8)
λk
ACP normée
p
On remarque d’abord que, dans ce cas, la trace de la matrice Cor = Rt R = p =
P
λj
j
1. Distance d’une variable à l’origine
2
d2 rj , 0 =
rj
1 j t j
= r r
n
n
1X
= (rij )2
n i
n 2
1X 1 j
= xij − x̄ =1
n i sj
D’où les points variables sont sur une hypersphère de rayon 1 centrée à l’origine qui est
le point moyen du nuage.
2. La distance entre deux variables est
n
1X
d2 r j , r k = (rij − rik )2
n i
n n n
1X 1X 2X
= (rij )2 + (rik )2 − (rij ∗ rik )
n i n i n i
Comme
n n
1X 1X 1 j
1
k
(rij ∗ rik ) = x ij − x̄ x ik − x̄
n i n i sj sk
= corr cj , ck .
7
La coordonnée d’une variable est, en ACP normée, la corrélation de cette variable
avec le k ème facteur.
Remarque Les variables fortement corrélées avec un axe vont contribuer à la définition de
cet axe.
Point variable supplémentaire Soit xq+ une variable supplémentaire. Cette variable doit
être comparable à celles qui ont participé à l’analyse donc xq+ doit être centrée ou centrée
réduite
cq+ = xq+ i − x̄ q+
(1.14)
i=1,...,n
1
rq+ = q+ xq+ i − x̄
q+
(1.15)
s i=1,...,n
l’abscisse d’une nouvelle variable sur l’axe i est
D E D E
rq+ , vi ou cq+ , vi (1.16)
Point ligne supplémentaire Soit xq+ un individu supplémentaire, Cet individu doit être
comparable à ceux du tableau analysé.
Donc
cq+ = xqk
+ − x̄
k
(1.17)
k=1,...,p
1 qk
q k
r+ = x + − x̄ (1.18)
sk k=1,...,p
L’abscisse d’un nouvel individu sur l’axe i est
q
hr+ , ui i ou hcq+ , ui i (1.19)
1.6 Récapitulation
Nous récapitulons les résultats obtenus dans ce chapitre, la démarche ACP à travers l’algo-
rithme 1 et le résumé des paramètres dans le tableau ( 1.1).
8
Algorithm 1 ACP
1: Entrée : Matrice Xn,p des données de type individu × variables quantitatives
2: T matrice transformée . ( T = R cas centré ou T = C centré et réduit)
1 t
3: Diagonaliser T T . (variance-covariance V ou matrice des corrélation Corr)
n
4: Calcul du taux d’inertie et choix du nombre d’axes
5: Calcul de la matrice de projection U = [U1 , . . . , Ul ]
6: Projeter individus, variables
7: Sortie : Graphes, paramètres de performances et interprétation
1.7 Exemple
Description du tableau Diameter, Height and Volume for Black Cherry Trees
Description This data set provides measurements of the diameter, height and volume of
timber in 31 felled black cherry trees. Note that the diameter (in inches) is erroneously labelled
Girth in the data. It is measured at 4 ft 6 in above the ground.
-Girth numeric Tree diameter (rather than girth, actually) in inches
-Height in ft numeric
-Volume numeric Volume of timber in cubic ft
"","Girth","Height","Volume"
"1",8.3,70,10.3
"2",8.6,65,10.3
"3",8.8,63,10.2
"4",10.5,72,16.4
"5",10.7,81,18.8
"6",10.8,83,19.7
"7",11,66,15.6
"8",11,75,18.2
"9",11.1,80,22.6
"10",11.2,75,19.9
"11",11.3,79,24.2
"12",11.4,76,21
"13",11.4,76,21.4
"14",11.7,69,21.3
"15",12,75,19.1
"16",12.9,74,22.2
9
"17",12.9,85,33.8
"18",13.3,86,27.4
"19",13.7,71,25.7
"20",13.8,64,24.9
"21",14,78,34.5
"22",14.2,80,31.7
"23",14.5,74,36.3
"24",16,72,38.3
"25",16.3,77,42.6
"26",17.3,81,55.4
"27",17.5,82,55.7
"28",17.9,80,58.3
"29",18,80,51.5
"30",18,80,51
"31",20.6,87,77
Résultats de l’analyse
> PCA(trees, scale.unit = TRUE, ncp = 5, graph = TRUE)
**Results for the Principal Component Analysis (PCA)**
The analysis was performed on 31 individuals, described by 3 variables
*The results are available in the following objects:
name description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coord. for the variables"
4 "$var$cor" "correlations variables - dimensions"
5 "$var$cos2" "cos2 for the variables"
6 "$var$contrib" "contributions of the variables"
7 "$ind" "results for the individuals"
8 "$ind$coord" "coord. for the individuals"
9 "$ind$cos2" "cos2 for the individuals"
10 "$ind$contrib" "contributions of the individuals"
11 "$call" "summary statistics"
12 "$call$centre" "mean of the variables"
13 "$call$ecart.type" "standard error of the variables"
14 "$call$row.w" "weights for the individuals"
15 "$call$col.w" "weights for the variables"
> res.pca<-PCA(trees, scale.unit = TRUE, ncp = 5, graph = TRUE)
> library("factoextra")
> eig.val <- get_eigenvalue(res.pca)
> eig.val
eigenvalue variance.percent cumulative.variance.percent
Dim.1 2.4103000 80.3433324 80.34333
Dim.2 0.5616173 18.7205777 99.06391
Dim.3 0.0280827 0.9360898 100.00000
10
Girth Height Volume
Girth 1.0000000 0.5192801 0.9671194
Height 0.5192801 1.0000000 0.5982497
Volume 0.9671194 0.5982497 1.0000000
$vectors
[,1] [,2] [,3]
[1,] 0.6085705 0.4099013 0.67942837
[2,] 0.4891267 -0.8680065 0.08555556
[3,] 0.6248176 0.2802600 -0.72873681
11
+ )
> fviz_contrib(res.pca, choice = "var", axes = 1:2, top = 10)
> # Contributions des variables à PC1
> fviz_contrib(res.pca, choice = "var", axes = 1, top = 3)
> # Contributions des variables à PC2
> fviz_contrib(res.pca, choice = "var", axes = 2, top = 3)
> fviz_pca_var(res.pca, col.var = "contrib",
+ gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07")
+ )
> ind <- get_pca_ind(res.pca)
> ind
Principal Component Analysis Results for individuals
===================================================
Name Description
1 "$coord" "Coordinates for the individuals"
2 "$cos2" "Cos2 for the individuals"
3 "$contrib" "contributions of the individuals"
> # Coordonnées des individus
> head(ind$coord)
Dim.1 Dim.2 Dim.3
1 -2.2114870 0.17056585 -0.27546513
2 -2.5425124 -0.56165670 -0.27768516
3 -2.6630158 -0.86343484 -0.25645975
4 -1.3860293 0.04968682 -0.03887906
5 -0.5515710 1.22783579 0.01982273
6 -0.3410163 1.47591521 0.02857047
> # Qualité des individus
> head(ind$cos2)
Dim.1 Dim.2 Dim.3
1 0.97898696 0.005823611 0.0151894280
2 0.94274888 0.046005713 0.0112454080
3 0.89734316 0.094334423 0.0083224172
4 0.99793234 0.001282445 0.0007852138
5 0.16787876 0.831904411 0.0002168302
6 0.05066237 0.948982022 0.0003556066
> # Contributions des individus
> head(ind$contrib)
Dim.1 Dim.2 Dim.3
1 6.5453967 0.16710213 8.71631257
2 8.6515388 1.81192281 8.85737155
3 9.4910598 4.28210135 7.55506044
4 2.5710588 0.01418013 0.17363254
5 0.4071647 8.65921218 0.04513635
6 0.1556387 12.51182382 0.09376359
> fviz_pca_ind (res.pca, col.ind = "cos2",
+ gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
+ repel = TRUE # Évite le chevauchement de texte + )
> fviz_contrib(res.pca, choice = "ind", axes = 1)
> fviz_contrib(res.pca, choice = "ind", axes = 2)
12
Scree plot Individuals − PCA
100
6
18
5
17
1
9
80.3%
11
75
12 22
8
13
10
Percentage of explained variances
15
1 21 cos2
Dim2 (18.7%)
0 4
16 0.95
50
27 0.90
26 0.85
31
30
29
23 25
2 28
14 19
3
25 7
−1
18.7%
24
0.9%
0
20
1 2 3 −2 0 2 4
Dimensions Dim1 (80.3%)
15
20
15
10
Contributions (%)
Contributions (%)
10
0 0
31
3
2
28
27
1
26
29
30
7
4
14
25
20
8
10
17
15
12
13
18
22
5
24
16
19
21
9
11
6
23
20
6
18
17
5
24
9
3
7
11
19
14
2
28
23
25
29
30
12
22
13
8
10
26
31
15
27
1
21
16
13
Variables − PCA Variables − PCA
1.0 1.0
Height Height
0.5 0.5
cos2 contrib
Dim2 (18.7%)
Dim2 (18.7%)
33.6
0.995 33.5
0.0 0.0
33.4
0.990 33.3
Volume Volume 33.2
Girth Girth
−0.5 −0.5
−1.0 −1.0
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0
Dim1 (80.3%) Dim1 (80.3%)
40
60
30
Contributions (%)
Contributions (%)
40
20
20
10
0 0
e
e
gh
gh
m
irt
irt
m
lu
ei
ei
lu
G
G
Vo
Vo
14
PCA − Biplot
6 18
Height
5 17
1
9
11
12
8
13 22
10
15
1
4 21
Dim2 (18.7%)
0
16
27
31
26
30
Volume
29
2 25
14 23 28
19
Girth
7
3
−1
24
20
−2 0 2 4
Dim1 (80.3%)
Figure 1.4
15
Bibliographie
[1] Frederik Michel Dekking, Cornelis Kraaikamp, Hendrik Paul Lopuhaä, and Ludolf Erwin
Meester. A Modern Introduction to Probability and Statistics : Understanding why and how.
Springer Science & Business Media, 2005.
[2] George H Dunteman. Principal components analysis. Number 69. Sage, 1989.
[3] Brigitte Escofier and Jérôme Pagès. Analyses factorielles simples et multiples : objectifs,
méthodes et interprétation. Dunod, 2008.
[4] Brian Everitt, Graham Dunn, and Graham Dunn. Applied multivariate data analysis. 2001.
[5] Michael Greenacre and Jorg Blasius. Multiple correspondence analysis and related methods.
CRC press, 2006.
[6] Michael J Greenacre. Theory and applications of correspondence analysis. 1984.
[7] Wolfgang Härdle and Léopold Simar. Applied multivariate statistical analysis, volume 22007.
Springer, 2007.
[8] François Husson, Sébastien Lê, and Jérôme Pagès. Exploratory multivariate analysis by
example using R. CRC press, 2017.
[9] Richard Arnold Johnson, Dean W Wichern, et al. Applied multivariate statistical analysis,
volume 5. Prentice hall Upper Saddle River, NJ, 2002.
[10] Ian Jolliffe. Principal component analysis. In International encyclopedia of statistical
science, pages 1094–1096. Springer, 2011.
[11] Ludovic Lebart, Alain Morineau, and Marie Piron. Statistique exploratoire multidimension-
nelle, volume 3. Dunod Paris, 1995.
[12] Jean-Pierre Nakache and Josiane Confais. Approche pragmatique de la classification : arbres
hiérarchiques, partitionnements. Editions Technip, 2004.
[13] Gilbert Saporta. Probabilités, analyse des données et statistique. Editions Technip, 2006.
[14] Gilbert Strang. Linear algebra and its applications. 2006.
[15] Stéphane Tufféry. Data mining and statistics for decision making. John Wiley & Sons,
2011.
16