Vous êtes sur la page 1sur 61

Chapitre 2: Analyse en Composante Principale

Mohamed Essaied Hamrita


ISMAI, Universit Kairouan. Tunisie

mhamrita@gmail.com
http://hamrita.e-monsite.com/

Fvrier 2014

Plan du chapitre
Inroduction
Motivation
Notations
Principe de l'ACP
Interprtation
Nombre d'axes retenir
interprtation des individus
Interprtation des variables
Etude d'un exemple

Motivation
I

Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.

Motivation
I
I

Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.


Rduire la dimension de manire pertinente: La rduction de
variables fait perdre de l'information.

Motivation
I
I

Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.


Rduire la dimension de manire pertinente: La rduction de
variables fait perdre de l'information.

Motivation
I
I

Reprsenter en 2 ou 3 dimensions l'observation de p 3 variables.


Rduire la dimension de manire pertinente: La rduction de
variables fait perdre de l'information.
Comment conserver l'information essentielle du jeu de donnes?
Solution: Trouver un espace de dimension rduite dur lequel on
projete les observations.

Motivation
Question: Sur quel espace projeter?

Motivation
Question: Sur quel espace projeter?

Projeter sur un espace avec une variabilt (information) maximale.

Motivation
y est la premire composante principale possdant la plus grande valeur
de la variance.
y est la deuxime composante principale perpendiculaire la premire.
1

x2

y1

y2

x1

Motivation
Les projections sur le premier axe:

Motivation
Les projections sur le deuxime axe:

Notations
Un tableau de donnes de n lignes (individus) et p colonnes (variables)
est:

x
x

11
12

..
.

xn

x
x

12
22

..
.

xn

..

x
x

;
..
.

xnp

xi

xi

xi

xip

xj
x 2j
1

..
.

xnj

et xj reprsentent respectivement, l'individu de la ligne i et la variable


de la colonne j .

xi

Notations
Un tableau de donnes de n lignes (individus) et p colonnes (variables)
est:

x
x

11
12

..
.

xn

x
x

12
22

..
.

xn

..

x
x

;
..
.

xi

xi

xi

xnp

xip

xj
x 2j
1

(u, v) =

p
X
(uj vj )2 = ku vk
j =1

..
.

xnj

et xj reprsentent respectivement, l'individu de la ligne i et la variable


de la colonne j .
Distances entre les individus: la distance la plus simple entre deux
points de Rp est la distance euclidienne qui est dnie par:
xi

Exemple
Dterminer la distance euclidienne entre ces deux vecteurs:

x = (2, 1, 2, 4); y

= (1, 2, 0, 1)

Exemple
Dterminer la distance euclidienne entre ces deux vecteurs:

x = (2, 1, 2, 4); y
x <- c(2, 1, -2, 4)
y <- c(-1, 2, 0, 1)
dist(cbind(x, y))
##
1
2
3
## 2 3.162
## 3 4.123 3.606
## 4 2.828 3.162 6.083
sqrt(sum((x - y)^2))
## [1] 4.796

= (1, 2, 0, 1)

Dirence entre ACP et ACP rduite


Mtriques usuelles: On donne deux types de mtriques usuelles:
I Mtrique usuelle i.e M = I : Dans ce cas, la distance dpend de
l'unit de mesure, et de la dispersion des variables.

Dirence entre ACP et ACP rduite


Mtriques usuelles: On donne deux types de mtriques usuelles:
I Mtrique usuelle i.e M = I : Dans ce cas, la distance dpend de
l'unit de mesure, et de la dispersion des variables.
I Mtrique rduite: M = diag (s , . . . , s ), la matrice diagonale des
p
inverses des variances empiriques.
2

Dirence entre ACP et ACP rduite


Mtriques usuelles: On donne deux types de mtriques usuelles:
I Mtrique usuelle i.e M = I : Dans ce cas, la distance dpend de
l'unit de mesure, et de la dispersion des variables.
I Mtrique rduite: M = diag (s , . . . , s ), la matrice diagonale des
p
inverses des variances empiriques.
2

Dirence entre ACP et ACP rduite


Mtriques usuelles: On donne deux types de mtriques usuelles:
I Mtrique usuelle i.e M = I : Dans ce cas, la distance dpend de
l'unit de mesure, et de la dispersion des variables.
I Mtrique rduite: M = diag (s , . . . , s ), la matrice diagonale des
p
inverses des variances empiriques.
ACP ou ACP rduite?
2

Dirence entre ACP et ACP rduite


Mtriques usuelles: On donne deux types de mtriques usuelles:
I Mtrique usuelle i.e M = I : Dans ce cas, la distance dpend de
l'unit de mesure, et de la dispersion des variables.
I Mtrique rduite: M = diag (s , . . . , s ), la matrice diagonale des
p
inverses des variances empiriques.
ACP ou ACP rduite?
Inconvnient de l'utilisation de Cov(X): une variable forte variance va
tre sur-importante dans les rsultats de l'ACP ;
2

Dirence entre ACP et ACP rduite


Mtriques usuelles: On donne deux types de mtriques usuelles:
I Mtrique usuelle i.e M = I : Dans ce cas, la distance dpend de
l'unit de mesure, et de la dispersion des variables.
I Mtrique rduite: M = diag (s , . . . , s ), la matrice diagonale des
p
inverses des variances empiriques.
ACP ou ACP rduite?
Inconvnient de l'utilisation de Cov(X): une variable forte variance va
tre sur-importante dans les rsultats de l'ACP ;
Inconvnient de l'utilisation de Cor(X): peut amplier les variations d'une
variable de faible importance.
2

Dirence entre ACP et ACP rduite


Mtriques usuelles: On donne deux types de mtriques usuelles:
I Mtrique usuelle i.e M = I : Dans ce cas, la distance dpend de
l'unit de mesure, et de la dispersion des variables.
I Mtrique rduite: M = diag (s , . . . , s ), la matrice diagonale des
p
inverses des variances empiriques.
ACP ou ACP rduite?
Inconvnient de l'utilisation de Cov(X): une variable forte variance va
tre sur-importante dans les rsultats de l'ACP ;
Inconvnient de l'utilisation de Cor(X): peut amplier les variations d'une
variable de faible importance.
En pratique : Utiliser Cor(X) lorsque les variables n'ont pas les mmes
ordres de grandeurs (units direntes, par exemple).
2

l'ACP est un problme d'optimisation


La premire composante principale des observations, note y , est la
combinaison linaire:
1

= Xa1 = a11 x1 + a12 x2 + . . . + a1p xp

possdante la plus grande variance empirique de toutes les combinaisons


linaires possibles.
Puisque la variance de y crot inniment
lorsqu'on fait crotre les valeurs
P
de a , on doit placer la contrainte a j = a0 a = 1.
Donc, la premire composante principale est solution du programme
suivant: 
maxa1 Var (y ) = a0 V a , V est la variance de X
s/c a0 a = 1.
La j ime composante principale yj est la combinaison linaire yj = Xaj
qui maximise la variance sous contraintes:
1

2
1

a j aj

= 1;

a j ai

= 1 (i < j ).

La deuxime contrainte pour assurer l'orthogonalit de yi et yj .

Solution du problme
Pour dterminer la premire composante principale, on utilise la
technique de Lagrange. Le lagrangien s'crit alors:
L(a1 ) = a0 1 V a1 (a0 1 a1 1)
L
= 2V a1 2a1 = 0 = (V Ip )a1 = 0.
a1

Ceci montre que a doit tre choisi comme vecteur propre de V


corresondant la valeur propre .
Or, Var (y ) = a0 V a = a0 a = . Var (y ) est maximum est
maximum.
D'o, a est le vecteur propre de V correspondant la plus grande valeur
propre.
1

Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1

On diagonalise VM = (XM

1 2

)0 (XM 1/2 ).

Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1

I
I

On diagonalise VM = (XM / )0 (XM / ).


Soient > > . . . > p les valeurs propres et uj les vecteurs
propres. Les axes principaux sont dnis, alors: aj = M / uj .
1 2

1 2

1 2

Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1

I
I

On diagonalise VM = (XM / )0 (XM / ).


Soient > > . . . > p les valeurs propres et uj les vecteurs
propres. Les axes principaux sont dnis, alors: aj = M / uj .
Les coordonnes des individus centr x i sont donnes par:
1 2

1 2

1 2

cij

= x i M aj

Rsum de la mthode
Considrons le tableau de donnes X = (xij )i = ,...,n;j = ,...,p . L'espace des
individus est muni par la mtrique M (M = I pour ACP non rduite et
M = diag (s , . . . , sp ) pour ACP rduite).
1

I
I

On diagonalise VM = (XM / )0 (XM / ).


Soient > > . . . > p les valeurs propres et uj les vecteurs
propres. Les axes principaux sont dnis, alors: aj = M / uj .
Les coordonnes des individus centr x i sont donnes par:
1 2

1 2

1 2

cij
I

= x i M aj

Le mme travail se repte pour les variables.

Combien d'axes retenir?


on veut garder peu d'axes principaux, avec
I un soucis d'interprtation: on ne garde que des axes que l'on puisse
interprter,

Combien d'axes retenir?


on veut garder peu d'axes principaux, avec
I un soucis d'interprtation: on ne garde que des axes que l'on puisse
interprter,
I des axes qui expliquent susement d'inertie. Pour cela, on a deux
mthodes

Combien d'axes retenir?


on veut garder peu d'axes principaux, avec
I un soucis d'interprtation: on ne garde que des axes que l'on puisse
interprter,
I des axes qui expliquent susement d'inertie. Pour cela, on a deux
mthodes
I

la mthode du coude, correspondant un dcrochage au niveau des


valeurs propres.

Combien d'axes retenir?


on veut garder peu d'axes principaux, avec
I un soucis d'interprtation: on ne garde que des axes que l'on puisse
interprter,
I des axes qui expliquent susement d'inertie. Pour cela, on a deux
mthodes
I

la mthode du coude, correspondant un dcrochage au niveau des


valeurs propres.

la rgle de Kaiser, pour les variables centres rduites (ACP rduite):


on ne garde que les valeurs propres suprieures 1.

Interprtation des individus


I

On appellePpourcentage d'inertie reproduite en dimension k la


k

i
100. Gnralement, on choisit ce pourcentage

i =1 i

quantit: Ppi =

suprieur 80 %.

Interprtation des individus


I

On appellePpourcentage d'inertie reproduite en dimension k la


k

i
100. Gnralement, on choisit ce pourcentage

i =1 i

quantit: Ppi =

suprieur 80 %.
Les coordonnes des individus: appeles aussi scores en anglais sont
les projections des observations sur le nouveau espace engendr par
les vecteurs propres. Ainsi, l'individu xi est reprsent sur l'axe aj
par la coordonne:cij = xic M aj . c , c , . . . , c p sont appeles
composantes principales.
1

Interprtation des individus


I

On appellePpourcentage d'inertie reproduite en dimension k la


k

i
100. Gnralement, on choisit ce pourcentage

i =1 i

quantit: Ppi =

suprieur 80 %.
Les coordonnes des individus: appeles aussi scores en anglais sont
les projections des observations sur le nouveau espace engendr par
les vecteurs propres. Ainsi, l'individu xi est reprsent sur l'axe aj
par la coordonne:cij = xic M aj . c , c , . . . , c p sont appeles
composantes principales.
Contribution des individus: La contribution relative d'un individu i
la formation de la composante principale k est dnie par:
1

CTRij

cij

n j

Interprtation des individus


I

On appellePpourcentage d'inertie reproduite en dimension k la


k

i
100. Gnralement, on choisit ce pourcentage

i =1 i

quantit: Ppi =

suprieur 80 %.
Les coordonnes des individus: appeles aussi scores en anglais sont
les projections des observations sur le nouveau espace engendr par
les vecteurs propres. Ainsi, l'individu xi est reprsent sur l'axe aj
par la coordonne:cij = xic M aj . c , c , . . . , c p sont appeles
composantes principales.
Contribution des individus: La contribution relative d'un individu i
la formation de la composante principale k est dnie par:
1

CTRij
I

cij

n j

Qualit de la reprsentation des individus ou cos : La qualit de la


reprsentation d'un individu par la composante principale k est
2

cij

dnie par: Qltik = Pp

k =1 ik

Interprtations des variables


I

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:


1

Uj

cj

=p

Interprtations des variables


I

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:


1

Uj
I

cj

=p

Les coordonnes des variables sont les covariances entres les


observations centreset les axes factoriels.
Fjk = cov (ex j , U k ) = k ajk .
Les projections des variables centres rduites appartiennent aux
disque de centre 0 et de rayon 1 et leur reprsentation est d'autant
meilleure que le projet est proche du cercle.

Interprtations des variables


I

On appelle axes factoriels les vecteurs U , U , . . . , U k dnis par:


1

Uj
I

cj

=p

Les coordonnes des variables sont les covariances entres les


observations centreset les axes factoriels.
Fjk = cov (ex j , U k ) = k ajk .
Les projections des variables centres rduites appartiennent aux
disque de centre 0 et de rayon 1 et leur reprsentation est d'autant
meilleure que le projet est proche du cercle.
j
k
La
coordonne de la projection de la variable x sur l'axe U est:
k ajk
.
j

Critres de qualits
I

Contribution des variables: La contribution de la variable x j la


formation de l'axe factoriel U k est:

Ctrjk

Fjk
2

Critres de qualits
I

Contribution des variables: La contribution de la variable x j la


formation de l'axe factoriel U k est:

Ctrjk
I

Fjk
2

Qualit de la reprsentation de la variable x j sur l'axe factoriel U k


est:

Qltjk

Fjk
l = Fj l
2

= Pp

C'est le cosinus carr de l'angle entre la reprsentation de la variable


x j est sa projection sur l'axe U k .

Critres de qualits
I

Contribution des variables: La contribution de la variable x j la


formation de l'axe factoriel U k est:

Ctrjk
I

Fjk
2

Qualit de la reprsentation de la variable x j sur l'axe factoriel U k


est:

Qltjk

Fjk
l = Fj l
2

= Pp

C'est le cosinus carr de l'angle entre la reprsentation de la variable


x j est sa projection sur l'axe U k .

Reprenons l'exemple des notes du chapitre prcdent.


I

##
##
##
##
##
##
##
##
##
##

Maths Physique Franais Anglais


Fatma
6.0
6.0
5.0
5.5
Ali
8.0
8.0
8.0
8.0
Kawther 6.0
7.0
11.0
9.5
Nidhal 14.5
14.5
15.5
15.0
Nabiha 14.0
14.0
12.0
12.5
Wiem
11.0
10.0
5.5
7.0
Youssef 5.5
7.0
14.0
11.5
Sarah
13.0
12.5
8.5
9.5
Wafa
9.0
9.5
12.5
12.0

On propose d'tudier ce tableau de donnes par la mthode de l'ACP.

ACP norme
Tout d'abord, dterminons la matrice des corrlations.

ACP norme
Tout d'abord, dterminons la matrice des corrlations.
(S <- cor(notes))
##
##
##
##
##

Maths
Physique
Franais
Anglais

Maths Physique Franais Anglais


1.0000 0.9825
0.2267 0.5081
0.9825 1.0000 0.3967 0.6515
0.2267 0.3967 1.0000 0.9512
0.5081 0.6515 0.9512 1.0000

puis calculons les valeurs et les vecteurs propres de la matrice des


corrlations.

ACP norme
Tout d'abord, dterminons la matrice des corrlations.
(S <- cor(notes))
##
##
##
##
##

Maths
Physique
Franais
Anglais

Maths Physique Franais Anglais


1.0000 0.9825
0.2267 0.5081
0.9825 1.0000 0.3967 0.6515
0.2267 0.3967 1.0000 0.9512
0.5081 0.6515 0.9512 1.0000

puis calculons les valeurs et les vecteurs propres de la matrice des


corrlations.
(lambda <- eigen(S)$values)
## [1] 2.875687 1.119687 0.003578 0.001048
(a <- eigen(S)$vectors)
##
##
##
##
##

[1,]
[2,]
[3,]
[4,]

[,1]
-0.4785
-0.5319
-0.4439
-0.5395

[,2]
0.5519
0.4068
-0.6212
-0.3794

[,3]
0.2026
-0.4412
-0.5324
0.6934

[,4]
0.6522
-0.5974
0.3654
-0.2901

Combiens de composantes principales retenir?

Combiens de composantes principales retenir?


Suivant le critre de Kaiser, on doit retenir deux composnates puisqu'on
a deux valeurs propres suprieurs 1 (ACP norme).

Combiens de composantes principales retenir?


Suivant le critre de Kaiser, on doit retenir deux composnates puisqu'on
a deux valeurs propres suprieurs 1 (ACP norme).
Selon la mthode de coude:

0.0

1.0

2.0

plot(lambda, type = "b", pch = 16, xlab = "", ylab = "")

1.0 1.5 2.0 2.5 3.0 3.5 4.0

Selon la courbe, on observe une coude au point d'abcisse 3, cela veut dire
que celle-ci est peu importante de la prcdente. Donc on retient 2
composantes principales.

Selon la courbe, on observe une coude au point d'abcisse 3, cela veut dire
que celle-ci est peu importante de la prcdente. Donc on retient 2
composantes principales.
Les deux premires
composantes principales, forment
P
( + )/ j = 99.88% de l'inertie (l'information) totale.
1

Selon la courbe, on observe une coude au point d'abcisse 3, cela veut dire
que celle-ci est peu importante de la prcdente. Donc on retient 2
composantes principales.
Les deux premires
composantes principales, forment
P
( + )/ j = 99.88% de l'inertie (l'information) totale.
En conclusion, on retient deux composantes principales.
1

Coordonnes
Coordonnes de la projection des individus:

Coordonnes
Coordonnes de la projection des individus:
(Cij <- scale(notes) %*% a)
##
##
##
##
##
##
##
##
##
##

Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa

[,1]
2.5860
1.1697
0.9719
-2.9587
-1.9341
0.9154
0.3156
-0.5847
-0.4811

[,2]
0.4030
0.1440
-0.9893
-0.1750
0.5919
1.4119
-1.8266
1.2171
-0.7769

[,3]
0.021712
0.004136
-0.054956
0.010757
-0.023141
0.024670
-0.052044
-0.062450
0.131315

[,4]
-0.021324
0.020986
-0.003333
0.044664
-0.056429
0.040175
0.008723
-0.011683
-0.021779

Contributions des individus selon les composantes principales


(ctrI <- Cij^2 %*% diag(1/lambda)/nrow(notes))
##
##
##
##
##
##
##
##
##
##

Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa

[,1]
0.258381
0.052863
0.036500
0.338224
0.144542
0.032378
0.003848
0.013210
0.008942

[,2]
0.016113
0.002058
0.097118
0.003039
0.034768
0.197810
0.331096
0.146989
0.059898

[,3]
0.0146409
0.0005312
0.0937996
0.0035939
0.0166309
0.0189017
0.0841209
0.1211229
0.5355469

[,4]
0.048196
0.046682
0.001177
0.211443
0.337508
0.171075
0.008065
0.014467
0.050277

Contributions des individus selon les composantes principales


(ctrI <- Cij^2 %*% diag(1/lambda)/nrow(notes))
##
##
##
##
##
##
##
##
##
##

Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa

[,1]
0.258381
0.052863
0.036500
0.338224
0.144542
0.032378
0.003848
0.013210
0.008942

[,2]
0.016113
0.002058
0.097118
0.003039
0.034768
0.197810
0.331096
0.146989
0.059898

[,3]
0.0146409
0.0005312
0.0937996
0.0035939
0.0166309
0.0189017
0.0841209
0.1211229
0.5355469

[,4]
0.048196
0.046682
0.001177
0.211443
0.337508
0.171075
0.008065
0.014467
0.050277

Par exemple, la contribution de l'individu 1 la formation de la premire


composante est gale :

Ctr

11

2.586
2.586
=
= 0.258381.
9
9 2.875687
2

Qualits de la reprsentation des individus


Coordonnes de la projection des individus:
deno <- apply(Cij^2, 1, sum)
(qltI <- sweep(Cij^2, 1, deno, "/"))
##
##
##
##
##
##
##
##
##
##

Fatma
Ali
Kawther
Nidhal
Nabiha
Wiem
Youssef
Sarah
Wafa

[,1]
0.97616
0.98474
0.49039
0.99627
0.91353
0.29573
0.02896
0.18711
0.27140

[,2]
0.023702
0.014930
0.508041
0.003486
0.085558
0.703483
0.970227
0.810678
0.707822

[,3]
6.881e-05
1.231e-05
1.568e-03
1.317e-05
1.308e-04
2.148e-04
7.876e-04
2.134e-03
2.022e-02

[,4]
6.638e-05
3.170e-04
5.767e-06
2.270e-04
7.776e-04
5.696e-04
2.213e-05
7.470e-05
5.562e-04

Par exemple, la qualit de la reprsentation de l'individu 1 par la premire


composante est gale :
2.5860
= 0.976158.
Ctr =
2.5860 + 0.4030 + 0.021712 + (0.021324)
Gomtriquement, la qualit de la reprsentation d'un individu
 i par la
2

11

composante j est gale cos , o est l'angle OM , aj .


2

On peut faire la mme chose pour les variables, c..d, on dtermine les
coordonnes, les contributions et les qualits de la reprsentation des
variables sur les axes factoriels.

On peut faire la mme chose pour les variables, c..d, on dtermine les
coordonnes, les contributions et les qualits de la reprsentation des
variables sur les axes factoriels.
Tous ces calculs, peuvent tre rsums dans deux graphiques (Individus
et variables). Ces graphiques, sont donnes comme suit:

plot(Cij[, 1:2], xlab = "Axe 1", ylab = "Axe 2", main = "Reprsentation des indi
type = "n")
text(Cij[, 1], Cij[, 2], rnames)

0.0

Wiem

Sarah
Nabiha

Ali

Nidhal
Wafa

1.5

Axe 2

1.5

Reprsentation des individus

Fatma

Kawther

Youssef
3

0
Axe 1

0.0 0.5 1.0

Franais
Franais
Anglais
Anglais

Physique
Physique
Maths

1.0

Dim 2 (27.99%)

Variables factor map (PCA)

1.0

0.0 0.5 1.0


Dim 1 (71.89%)

Vous aimerez peut-être aussi