Cours PCA

Cours ANAD 2CS SIQ
N . Bessah
9 novembre 2021
Table des matières
1 Analyse en Composantes Principales (ACP) 2

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 But de l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Domaines d’application . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 ACP et ACP normée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Propriétés des composantes principales . . . . . . . . . . . . . . . . . . . 3
1.4 Interprétation d’une ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4.1 Taux d’inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4.2 Etude des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.3 Etude des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Individus et variables supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Récapitulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.7 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1
Chapitre 1
Analyse en Composantes Principales

(ACP)
1.1 Introduction
l’ACP est une méthode d’analyse factorielle, elle s’effectue sur un tableau de données de type
individu -variable ; ces variables doivent être quantitatives centrées ou centrées et réduites
(dans ce dernier cas, on dit qu’on effectue une ACP normée).
1.1.1 But de l’ACP

En plus de la réduction des données, elle nous permet de savoir :
a) Comment se structurent les variables i.e. celles qui sont associées ou pas, celles qui vont
dans le même sens ou s’opposent ;
b) Comment se répartissent les individus i.e. ceux qui se ressemblent et ceux qui sont
dissemblables.
1.1.2 Domaines d’application

En biométrie, compression d’images, finances, écologie, etc.
1.2 ACP et ACP normée

Soit X(n,p) une matrice de terme général, (xij )i=1,n , calculons les matrices centrées et centrées
j=1,p
réduites.
   
x1j c1j
 x2j   c2j 
   
I) A toute variable xj =  j j
 .. , on calcule sa version centrée c =  ..  où cij = (xij − x̄ )
  
 .   . 
xnj cnj
• La matrice C(n,p) = (cij )i=1,n est la matrice des variables centrées ;
j=1,p
1 t
• La matrice à diagonaliser est V = C C, matrice des variances covariances.
n
 
x1j
 x2j 
 
j
II) A toute variable x =  .. 

, on calcule sa version centrée réduite
 . 
xnj
2
 
r1j
 r2j  1 cij
 
rj =  j
 ..  où rij = j (xij − x̄ ) = j

 .  s s
rnj
2 1Pn 2
où (sj ) = (xij − x̄j ) est la variance empirique de la variable xj
n i
• La matrice R(n,p) = (rij )i=1,...,n est la matrice des variables centrées et réduites ;
j=1,...,p
1 t
• La matrice à diagonaliser est Cor = R R, matrice des corrélations.
n
Remarques
— Les résultats de l’ACP sont influencés par l’ordre de grandeurs des variables ; la réduction
des variables ( i.e. en divisant par leurs écart type respectifs), permet d’accorder la même
importance aux différentes variables ;
— L’ACP normée est également utile lorsque les variables sont caractérisées par des unités
différentes ;
— L’ACP sur la matrice de covariance et l’ACP normée ne donnent pas, en général, les
même résultats.
1.3 Composantes principales

On appelle k ième composante principale ou k ème facteur, le vecteur noté Fk
F k = T uk
tel que T = R ou C
Les composantes de Fk sont les coordonnées des points du nuage sur le k ème axe principal
d’inertie
Si uk = (ukj ) , j = 1, . . . , p, alors les composantes principales s’expriment aussi comme

combinaison linéaires des vecteurs des variables (centrées ou centrées réduites ), on a
— Variables centrées
Fk = [c1 , . . . , cp ]uk
= c1 uk1 + c2 uk2 + · · · + cp ukp
— Variables centrées et réduites
Fk = [r1 , . . . , rp ]uk
= r1 uk1 + r2 uk2 + · · · + rp ukp
1.3.1 Propriétés des composantes principales

1. La moyenne de chaque composante principale est nulle. En effet
Fk = T uk
=⇒
 
n n p p n
! !
1X 1X X 1X X
(Fik ) =  tij ukj =
 tij ukj =0
n i n i j n j i
((ukj ) , j = 1, . . . , p sont les composantes du vecteur uk ) ;
3
2. La variance de la k i ème composante principale est égale à la k ème valeur propre de la
matrice à diagonaliser.
Fk est centrée =⇒
n
1X
V ar (Fk ) = (Fik )2
n i=1
1
= Fkt .Fk
n
1
= (T uk )t T uk
n
1 t

t
= uk T T uk
n
= utk [λk uk ]
= λk
3. Les composantes principales sont non corrélées
1 1 t

t
cov (Fj , Fk ) = < Fj , Fk >= uk T T uj = λj utk uj = 0 (1.1)
n n
car les vecteurs propres sont deux à deux orthogonaux.
1.4 Interprétation d’une ACP

1.4.1 Taux d’inertie
— La variance totale de la population est : I = λ1 + λ2 + · · · + λp = trace (V )
• Dans le cas normé I = trace (Cor) = p.
La proportion de la variance totale de la population due à la k i ème composante principale
(ou encore le pourcentage de variance expliquée par l’axe k) est
λk
Ik =
I
Nombre d’axes retenus

Les méthodes de sélection du nombre de composantes sont empiriques :
a) Selon le taux d’inertie cumulé voulu ;
Pk
λi
i=1
τk =
λ1 + λ2 + · · · + λp
• Dans le cas d’une ACP normée
Pk
i=1 λi
τk =
p
b) Règle de Kaiser : On ne retient que les axes dont l’inertie est supérieure à l’inertie
I
moyenne .
p
I
• En ACP normée : = 1 : ne sont retenus que les axes associés à des valeurs propres
p
supérieures à 1
c) Le graphe d’éboulis (scree plot) : Il décrit la décroissance des valeurs propres et détecte
le «coude». celui ci est considéré comme le point auquel les valeurs propres restantes sont
relativement petites et toutes à peu près de la même grandeur.
4
1.4.2 Etude des individus
a) On construit les plans à partir des composantes principales les plus intéressantes : Plan
1 − 2 à compléter par le plan 2 − 3 si cela est nécessaire ;
b) On examine la répartition des individus sur le plan principal ; si des individus se trouvent
complètement extérieurs au reste de la population, cela peut signifier soit (i) que les
données du tableau sont erronées, (ii) soit quelques individus sont totalement différents
des autres ;
c) On calcule les paramètres d’aide à l’interprétation :
Qualité de représentation de l’individu i sur l’axe k
(< ti , uk >)2 Fik2

cos2 (θik ) = = (1.2)
kti k2 kuk k2 kti k2
où tij = rij ou bien cij selon que l’on a effectué une ACP normée ou pas.
Un individu est bien représenté par l’axe k si l’angle qu’il forme avec cet axe est petit, tel
que illustré sur la figure 1.1.
Figure 1.1 – Angle θ entre le vecteur xi et l’axe de projection D engendré par le vecteur u
La généralisation à un sous espace est :

q q
Fik2
cos2 (θik ) =
X X
(1.3)
k=1 kti k
2
k=1
Contribution de l’individu i à l’axe k

La contribution de chaque individu à l’inertie du nuage permet de détecter les observations
les plus influentes et éventuellement aberrantes. Comme :
n
1X
V ar (Fk ) = (Fik )2 = λk
n i
la contribution de l’ individu ”i” à l’inertie de l’axe est

1 Fik2
Crk (i) = (1.4)
n λk
5
n
P
On déduit que Crk (i) = 1.
i
On s’intéressera surtout aux individus qui ont les plus fortes contributions relatives aux
axes.
1.4.3 Etude des variables

Nous donnons quelques caractéristiques des variables avant la projection telles que les
distances entre les variables (qui indiquent le degré de liaison) et les distances à l’origine,
puis nous calculons, après projection, les paramètres de performances tels que : la qualité de
projection et la contribution. Les deux cas : variables centrées et variables centrées réduites sont
traités séparément.
Remarquons d’abord
!t
que la! matrice à diagonaliser est sous la forme :
1 t 1 1
T T = √ T . √ T où T = C ou R.
n n n
ACP non normée

1. Distance d’une variable à l’origine
2
d2 cj , 0 = cj

1 j t j
= c c
n
n
1X 2
= cji
n i
n
1X 2
= xji − x̄j
n i

= var cj
2. La distance entre deux variables est

n
1X
d2 cj , ck = (cij − cik )2
n i
n n n
1X 1X 2X
= (cij )2 + (cik )2 − cij ∗ cki
n i n i n i

= var cj + var ck − 2Cov cj , ck
La distance entre deux variables augmente avec les variances, diminue si la liaison ( i.e.
Cov) est positive et augmente si la liaison est négative.
3. Qualité de représentation d’une variable sur le k i ème axe
< cj , vk >2
cos2 (θjk ) = (1.5)
kcj k2 kvk k2
G2jk
= (1.6)
var (cj )
√ 2
λk uk (j)
= (1.7)
var (cj )
qui est le carré de la corrélation de la variable xj et le Facteur k.
6
4. Contribution d’une variable est
√ 2
λk uk (j)
CT Rk (j) = = (uk (j))2 (1.8)
λk
ACP normée
p
On remarque d’abord que, dans ce cas, la trace de la matrice Cor = Rt R = p =
P
λj
j
1. Distance d’une variable à l’origine
2
d2 rj , 0 = rj

1 j t j
= r r
n
n
1X
= (rij )2
n i
n 2
1X 1 j
= xij − x̄ =1
n i sj
D’où les points variables sont sur une hypersphère de rayon 1 centrée à l’origine qui est
le point moyen du nuage.
2. La distance entre deux variables est
n
1X
d2 r j , r k = (rij − rik )2
n i
n n n
1X 1X 2X
= (rij )2 + (rik )2 − (rij ∗ rik )
n i n i n i
Comme
n n
1X 1X 1 j
1
k

(rij ∗ rik ) = x ij − x̄ x ik − x̄
n i n i sj sk

= corr cj , ck .
Nous avons alors

d2 rj , rk = 2 − 2corr xj , xk

= 2 1 − corr xj , xk

donc si corr cj , ck ≈ 1 les points sont proches si par contre corr cj , ck ≈ −1 les
points sont éloignés ( selon que la relation linéaire qui les lie est directe ou inverse)
3. les coordonnées des variable sur l’axe k sont Gk = X t vk mais d’après les relations de
transitions
1
Gk = Rt vk = √ Rt Ruk (1.9)
λk
Comme Ruk = Fk , on a
1
Gk = √ Rt Fk (1.10)
λk
puisque en ACP normée les variables sont centrées et réduites, on obtient :
n
X 1 j j
1
Gk (j) = x i − x̄ √ Fk (j) (1.11)
i sj λk
7
La coordonnée d’une variable est, en ACP normée, la corrélation de cette variable
avec le k ème facteur.
4. Qualité de représentation d’une variable, d’après l’équation 1.7

q 2
2
cos (θjk ) = λk uk (j) (1.12)
qui n’est autre que le carré de la corrélation variable-Facteur.

5. Contribution d’une variable est
√ 2
λk uk (j)
CT Rk (j) = = (uk (j))2 (1.13)
λk
Remarque Les variables fortement corrélées avec un axe vont contribuer à la définition de
cet axe.
1.5 Individus et variables supplémentaires

Etant en possession d’individus ou de variables supplémentaires qui n’ont pas participé à
l’analyse, il arrive qu’on s’intéresse :
1. A positionner des individus supplémentaires dans le nuage des individus analysés ;
2. A enrichir l’interprétation des facteurs en positionnant ces nouvelles variables dans le
nuage des variables actives.
Point variable supplémentaire Soit xq+ une variable supplémentaire. Cette variable doit
être comparable à celles qui ont participé à l’analyse donc xq+ doit être centrée ou centrée
réduite
cq+ = xq+ i − x̄ q+
(1.14)
i=1,...,n
1

rq+ = q+ xq+ i − x̄
q+
(1.15)
s i=1,...,n
l’abscisse d’une nouvelle variable sur l’axe i est
D E D E
rq+ , vi ou cq+ , vi (1.16)
Point ligne supplémentaire Soit xq+ un individu supplémentaire, Cet individu doit être
comparable à ceux du tableau analysé.
Donc
cq+ = xqk
+ − x̄
k
(1.17)
k=1,...,p
1 qk

q k
r+ = x + − x̄ (1.18)
sk k=1,...,p
L’abscisse d’un nouvel individu sur l’axe i est
q
hr+ , ui i ou hcq+ , ui i (1.19)
1.6 Récapitulation
Nous récapitulons les résultats obtenus dans ce chapitre, la démarche ACP à travers l’algo-
rithme 1 et le résumé des paramètres dans le tableau ( 1.1).
8
Algorithm 1 ACP
1: Entrée : Matrice Xn,p des données de type individu × variables quantitatives
2: T matrice transformée . ( T = R cas centré ou T = C centré et réduit)
1 t
3: Diagonaliser T T . (variance-covariance V ou matrice des corrélation Corr)
n
4: Calcul du taux d’inertie et choix du nombre d’axes
5: Calcul de la matrice de projection U = [U1 , . . . , Ul ]
6: Projeter individus, variables
7: Sortie : Graphes, paramètres de performances et interprétation
Table 1.1 – Paramètres de l’ACP
Après projection Avant projection

2
Matrice cos (θk ) CT Rk Distance deux variables Distance à l’origine
√ 2
λk uk (j)
ACP C j
(uk (j))2 var (cj ) + var ck − 2Cov cj , ck var (cj )
√
var (c )
2
ACP N R λk uk (j) (uk (j))2 2 1 − corr xj , xk 1
Fik2 Fik2
Individu
kti k2 nλk
1.7 Exemple
Description du tableau Diameter, Height and Volume for Black Cherry Trees
Description This data set provides measurements of the diameter, height and volume of
timber in 31 felled black cherry trees. Note that the diameter (in inches) is erroneously labelled
Girth in the data. It is measured at 4 ft 6 in above the ground.
-Girth numeric Tree diameter (rather than girth, actually) in inches
-Height in ft numeric
-Volume numeric Volume of timber in cubic ft
"","Girth","Height","Volume"
"1",8.3,70,10.3
"2",8.6,65,10.3
"3",8.8,63,10.2
"4",10.5,72,16.4
"5",10.7,81,18.8
"6",10.8,83,19.7
"7",11,66,15.6
"8",11,75,18.2
"9",11.1,80,22.6
"10",11.2,75,19.9
"11",11.3,79,24.2
"12",11.4,76,21
"13",11.4,76,21.4
"14",11.7,69,21.3
"15",12,75,19.1
"16",12.9,74,22.2
9
"17",12.9,85,33.8
"18",13.3,86,27.4
"19",13.7,71,25.7
"20",13.8,64,24.9
"21",14,78,34.5
"22",14.2,80,31.7
"23",14.5,74,36.3
"24",16,72,38.3
"25",16.3,77,42.6
"26",17.3,81,55.4
"27",17.5,82,55.7
"28",17.9,80,58.3
"29",18,80,51.5
"30",18,80,51
"31",20.6,87,77
Résultats de l’analyse
> PCA(trees, scale.unit = TRUE, ncp = 5, graph = TRUE)
**Results for the Principal Component Analysis (PCA)**
The analysis was performed on 31 individuals, described by 3 variables
*The results are available in the following objects:
name description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coord. for the variables"
4 "$var$cor" "correlations variables - dimensions"
5 "$var$cos2" "cos2 for the variables"
6 "$var$contrib" "contributions of the variables"
7 "$ind" "results for the individuals"
8 "$ind$coord" "coord. for the individuals"
9 "$ind$cos2" "cos2 for the individuals"
10 "$ind$contrib" "contributions of the individuals"
11 "$call" "summary statistics"
12 "$call$centre" "mean of the variables"
13 "$call$ecart.type" "standard error of the variables"
14 "$call$row.w" "weights for the individuals"
15 "$call$col.w" "weights for the variables"
> res.pca<-PCA(trees, scale.unit = TRUE, ncp = 5, graph = TRUE)
> library("factoextra")
> eig.val <- get_eigenvalue(res.pca)
> eig.val
eigenvalue variance.percent cumulative.variance.percent
Dim.1 2.4103000 80.3433324 80.34333
Dim.2 0.5616173 18.7205777 99.06391
Dim.3 0.0280827 0.9360898 100.00000
> mcor <- cor(trees)

> mcor
10
Girth Height Volume
Girth 1.0000000 0.5192801 0.9671194
Height 0.5192801 1.0000000 0.5982497
Volume 0.9671194 0.5982497 1.0000000
> eigen <- eigen(mcor)

> eigen
eigen() decomposition
$‘values‘
[1] 2.4103000 0.5616173 0.0280827
$vectors
[,1] [,2] [,3]
[1,] 0.6085705 0.4099013 0.67942837
[2,] 0.4891267 -0.8680065 0.08555556
[3,] 0.6248176 0.2802600 -0.72873681
> fviz_eig(res.pca, addlabels = TRUE, ylim = c(0, 100))

> var <- get_pca_var(res.pca)
> var
Principal Component Analysis Results for variables
===================================================
Name Description
1 "$coord" "Coordinates for the variables"
2 "$cor" "Correlations between variables and dimensions"
3 "$cos2" "Cos2 for the variables"
4 "$contrib" "contributions of the variables"
> # Coordonnées
> head(var$coord)
Dim.1 Dim.2 Dim.3
Girth 0.9448143 -0.3071847 0.11385787
Height 0.7593761 0.6504939 0.01433731
Volume 0.9700381 -0.2100300 -0.12212093
> # Cos2: qualité de répresentation
> head(var$cos2)
Dim.1 Dim.2 Dim.3
Girth 0.8926740 0.09436242 0.0129636154
Height 0.5766521 0.42314231 0.0002055584
Volume 0.9409739 0.04411260 0.0149135215
> # Contributions aux composantes principales
> head(var$contrib)
Dim.1 Dim.2 Dim.3
Girth 37.0358 16.801906 46.1622904
Height 23.9245 75.343528 0.7319755
Volume 39.0397 7.854566 53.1057342
> # Colorer en fonction du cos2: qualité de représentation
> fviz_pca_var(res.pca, col.var = "cos2",
+ gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
+ repel = TRUE # Évite le chevauchement de texte
11
+ )
> fviz_contrib(res.pca, choice = "var", axes = 1:2, top = 10)
> # Contributions des variables à PC1
> fviz_contrib(res.pca, choice = "var", axes = 1, top = 3)
> # Contributions des variables à PC2
> fviz_contrib(res.pca, choice = "var", axes = 2, top = 3)
> fviz_pca_var(res.pca, col.var = "contrib",
+ gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07")
+ )
> ind <- get_pca_ind(res.pca)
> ind
Principal Component Analysis Results for individuals
===================================================
Name Description
1 "$coord" "Coordinates for the individuals"
2 "$cos2" "Cos2 for the individuals"
3 "$contrib" "contributions of the individuals"
> # Coordonnées des individus
> head(ind$coord)
Dim.1 Dim.2 Dim.3
1 -2.2114870 0.17056585 -0.27546513
2 -2.5425124 -0.56165670 -0.27768516
3 -2.6630158 -0.86343484 -0.25645975
4 -1.3860293 0.04968682 -0.03887906
5 -0.5515710 1.22783579 0.01982273
6 -0.3410163 1.47591521 0.02857047
> # Qualité des individus
> head(ind$cos2)
Dim.1 Dim.2 Dim.3
1 0.97898696 0.005823611 0.0151894280
2 0.94274888 0.046005713 0.0112454080
3 0.89734316 0.094334423 0.0083224172
4 0.99793234 0.001282445 0.0007852138
5 0.16787876 0.831904411 0.0002168302
6 0.05066237 0.948982022 0.0003556066
> # Contributions des individus
> head(ind$contrib)
Dim.1 Dim.2 Dim.3
1 6.5453967 0.16710213 8.71631257
2 8.6515388 1.81192281 8.85737155
3 9.4910598 4.28210135 7.55506044
4 2.5710588 0.01418013 0.17363254
5 0.4071647 8.65921218 0.04513635
6 0.1556387 12.51182382 0.09376359
> fviz_pca_ind (res.pca, col.ind = "cos2",
+ gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
+ repel = TRUE # Évite le chevauchement de texte + )
> fviz_contrib(res.pca, choice = "ind", axes = 1)
> fviz_contrib(res.pca, choice = "ind", axes = 2)
12
Scree plot Individuals − PCA
100
6
18
5
17
1
9
80.3%
11
75
12 22
8
13
10
Percentage of explained variances
15
1 21 cos2
Dim2 (18.7%)
0 4
16 0.95
50
27 0.90
26 0.85
31
30
29
23 25
2 28
14 19
3
25 7
−1
18.7%
24
0.9%
0
20
1 2 3 −2 0 2 4
Dimensions Dim1 (80.3%)
(a) inertie (b) répartition individus

Contribution of individuals to Dim−1 Contribution of individuals to Dim−2
15
20
15
10
Contributions (%)
Contributions (%)
10
0 0
31
3
2
28
27
1
26
29
30
7
4
14
25
20
8
10
17
15
12
13
18
22
5
24
16
19
21
9
11
6
23
20
6
18
17
5
24
9
3
7
11
19
14
2
28
23
25
29
30
12
22
13
8
10
26
31
15
27
1
21
16
(c) Contributions axe 1 (d) Contributions axe 2
Figure 1.2 – Résultats ACP : Individus et valeurs propres
13
Variables − PCA Variables − PCA
1.0 1.0
Height Height
0.5 0.5
cos2 contrib
Dim2 (18.7%)
Dim2 (18.7%)
33.6
0.995 33.5
0.0 0.0
33.4
0.990 33.3
Volume Volume 33.2
Girth Girth
−0.5 −0.5
−1.0 −1.0
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0
Dim1 (80.3%) Dim1 (80.3%)
(a) Variable et Cos (b) Variable et Ctr

Contribution of variables to Dim−1 Contribution of variables to Dim−2
40
60
30
Contributions (%)
Contributions (%)
40
20
20
10
0 0
e
e
gh
gh
m
irt
irt
m
lu
ei
ei
lu
G
G
Vo
Vo
(c) Contributions axe 1 (d) Contribution axe 2
Figure 1.3 – Résultats ACP : Variables et contributions
14
PCA − Biplot
6 18
Height
5 17
1
9
11
12
8
13 22
10
15
1
4 21
Dim2 (18.7%)
0
16
27
31
26
30
Volume
29
2 25
14 23 28
19
Girth
7
3
−1
24
20
−2 0 2 4
Dim1 (80.3%)
Figure 1.4
15
Bibliographie
[1] Frederik Michel Dekking, Cornelis Kraaikamp, Hendrik Paul Lopuhaä, and Ludolf Erwin
Meester. A Modern Introduction to Probability and Statistics : Understanding why and how.
Springer Science & Business Media, 2005.
[2] George H Dunteman. Principal components analysis. Number 69. Sage, 1989.
[3] Brigitte Escofier and Jérôme Pagès. Analyses factorielles simples et multiples : objectifs,
méthodes et interprétation. Dunod, 2008.
[4] Brian Everitt, Graham Dunn, and Graham Dunn. Applied multivariate data analysis. 2001.
[5] Michael Greenacre and Jorg Blasius. Multiple correspondence analysis and related methods.
CRC press, 2006.
[6] Michael J Greenacre. Theory and applications of correspondence analysis. 1984.
[7] Wolfgang Härdle and Léopold Simar. Applied multivariate statistical analysis, volume 22007.
Springer, 2007.
[8] François Husson, Sébastien Lê, and Jérôme Pagès. Exploratory multivariate analysis by
example using R. CRC press, 2017.
[9] Richard Arnold Johnson, Dean W Wichern, et al. Applied multivariate statistical analysis,
volume 5. Prentice hall Upper Saddle River, NJ, 2002.
[10] Ian Jolliffe. Principal component analysis. In International encyclopedia of statistical
science, pages 1094–1096. Springer, 2011.
[11] Ludovic Lebart, Alain Morineau, and Marie Piron. Statistique exploratoire multidimension-
nelle, volume 3. Dunod Paris, 1995.
[12] Jean-Pierre Nakache and Josiane Confais. Approche pragmatique de la classification : arbres
hiérarchiques, partitionnements. Editions Technip, 2004.
[13] Gilbert Saporta. Probabilités, analyse des données et statistique. Editions Technip, 2006.
[14] Gilbert Strang. Linear algebra and its applications. 2006.
[15] Stéphane Tufféry. Data mining and statistics for decision making. John Wiley & Sons,
2011.
16

Cours PCA

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours PCA

Transféré par

Droits d'auteur :

Formats disponibles

Cours ANAD 2CS SIQ

1 Analyse en Composantes Principales (ACP) 2

Analyse en Composantes Principales

1.1.1 But de l’ACP

1.1.2 Domaines d’application

1.2 ACP et ACP normée

1.3 Composantes principales

Si uk = (ukj ) , j = 1, . . . , p, alors les composantes principales s’expriment aussi comme

1.3.1 Propriétés des composantes principales

((ukj ) , j = 1, . . . , p sont les composantes du vecteur uk ) ;

1.4 Interprétation d’une ACP

Nombre d’axes retenus

Qualité de représentation de l’individu i sur l’axe k

(< ti , uk >)2 Fik2

La généralisation à un sous espace est :

Contribution de l’individu i à l’axe k

la contribution de l’ individu ”i” à l’inertie de l’axe est

1.4.3 Etude des variables

ACP non normée

2. La distance entre deux variables est

qui est le carré de la corrélation de la variable xj et le Facteur k.

Nous avons alors

4. Qualité de représentation d’une variable, d’après l’équation 1.7

qui n’est autre que le carré de la corrélation variable-Facteur.

1.5 Individus et variables supplémentaires

Table 1.1 – Paramètres de l’ACP

Après projection Avant projection

> mcor <- cor(trees)

> eigen <- eigen(mcor)

> fviz_eig(res.pca, addlabels = TRUE, ylim = c(0, 100))

(a) inertie (b) répartition individus

(c) Contributions axe 1 (d) Contributions axe 2

Figure 1.2 – Résultats ACP : Individus et valeurs propres

(a) Variable et Cos (b) Variable et Ctr

(c) Contributions axe 1 (d) Contribution axe 2

Figure 1.3 – Résultats ACP : Variables et contributions

Vous aimerez peut-être aussi