Vous êtes sur la page 1sur 19

UNIVERSITE DE ROUEN NORMANDIE

UFR SCIENCES ET TECHNIQUES


Analyse en composantes principales
Dovonon Camus
Ndir Ibra Bamba

24 mai 2022

Tuteur : Dr. Gaëlle CHAGNY

1
Table des matières

1 Introduction 3

2 Tableau de données 4

3 Choix d'une distance 5

4 Le choix de l'origine 6

5 Moments d'inertie 8
5.1 Inertie totale du nuage des individus . . . . . . . . . . . . . . 8
5.2 Inertie du nuage des individus par rapport à un axe passant
le Centre de Gravité . . . . . . . . . . . . . . . . . . . . . . . 8
5.3 Inertie du nuage des individus par rapport à un sous-espace
vectoriel V passant par G . . . . . . . . . . . . . . . . . . . . 9
5.4 Décomposition de l'inertie totale . . . . . . . . . . . . . . . . . 9

6 Recherche de l'axe ∆1 passant par G d'inertie minimum 10


6.1 Expressions algébriques de I∆⊥1 et de ||a1 ||2 . . . . . . . . . . . 10
6.2 Recherche du maximum . . . . . . . . . . . . . . . . . . . . . 11

7 Recherche des axes suivants 12

8 Contribution des axes à l'inertie totale 13


8.1 Interprétation des résultats d'une ACP . . . . . . . . . . . . . 13
8.2 Nombre d'axes à retenir . . . . . . . . . . . . . . . . . . . . . 14

9 Représentation des individus dans les axes construits 15


9.1 Qualité de représentation des individus . . . . . . . . . . . . . 15
9.2 Interprétation des nouveaux axes en fonction des individus . . 16

10 Représentation des variables 16


10.1 Interprétation et Qualité de la représentation des variables . . 19

2
1 Introduction

L'ACP est une méthode statistique exploratoire permettant une descrip-


tion essentiellement graphique de l'information contenue dans des grands
tableaux de données. Dans la plupart des applications, il s'agit d'étudier
p variables mesurées sur un ensemble de n individus. Lorsque n et p sont
grands on cherche à synthétiser la masse d'informations sous une forme ex-
ploitable et compréhensible. Grâce aux outils de la statistique descriptive, il
est possible d'étudier une à une ou deux à deux les variables à travers no-
tamment des résumés graphiques ou numériques (moyenne, variance, corré-
lation). Mais ces études préalables simples, si elles sont indispensables dans
toute étude statistique, sont insusantes ici car elles laissent de côté les
liaisons éventuelles entre les variables qui sont souvent l'aspect le plus im-
portant. L'analyse en composantes principales notée ACP par la suite, est
souvent considérée comme la méthode de base de l'analyse factorielle des
données dont l'objectif est de déterminer des fonctions des p variables ou
facteurs qui serviront à visualiser les observations de façon simpliée. En ra-
menant un grand nombre de variables souvent corrélées entre elles, à un petit
nombre de composantes principales (les premières) non corrélées, l'ACP est
une méthode de réduction de la dimension.

3
2 Tableau de données

Les données sont les mesures eectuées sur n unités {u1 , u2 , . . . , ui , . . . , un }


p
qui sont des points dans l'espace ane R . Les p variables quantitatives qui
représentent ces mesures sont {v1 , v2 , . . . , vj , . . . , vp } qui sont également des
n
points dans l'espace ane R . Le tableau des données brutes à partir duquel
on va faire l'analyse est noté X et a la forme suivante :

 
x1,1 x1,2 . . . x1,j . . . x1,p
 .. .
.
.
.
.
.
 . . . .


X =  xi,1 xi,2 . . . xi,j . . . xi,p
 

 . . . . 
 .. .
.
.
.
.
.

xn,1 xn,2 . . . xn,j . . . xn,p
Soit Ui ∈ Rp le vecteur
−→
associé à u (ou ) déni par :
i i

 
xi,1
 xi,2 
 . 
 . 
 . 
Ui = 
 xi,j 

 . 
 .. 
xi,p

et également Vj ∈ Rn le vecteur associé à vj déni par :

 
x1,j
 x2,j 
 . 
 . 
 . 
Vj = 
 xi,j 

 . 
 .. 
xn,j

L'ensemble des points qui représentent les variables est appelé nuage des
variables et celui qui représentent les unités est appelé nuage des individus.

4
3 Choix d'une distance

Pour faire une représentation géométrique, il faut choisir une distance


entre deux points de l'espace. La distance utilisée par l'ACP dans l'espace où
sont représentés les unités est la distance euclidienne classique. La distance

entre deux unités ui et ui est égale :

p
X
2
d (ui , ui′ ) = (xij − xi′ j )2
j=1

Avec cette distance, toutes les variables jouent le même rôle et les axes
dénis par les variables constituent une base orthogonale. A cette distance,
on associe un produit scalaire entre deux vecteurs :

p
⟨−→, − →
X
ou i oui′ ⟩ = (xij xi′ j ) = t Ui Ui′
j=1

ainsi que la norme d'un vecteur :

p
||−→||2 =
X
ou i (xij )2 = t Ui Ui′
j=1

On peut alors dénir l'angle α entre deux vecteurs par son cosinus :

⟨−→, − → Pp
j=1 (xij xi′ j )
t
ou i oui′ ⟩ Ui Ui′
cos(α) = −→ −→ = qP = p
||oui || ||oui′ || p 2
Pp 2 (t Ui Ui )(t Ui′ Ui′ )
j=1 (xij ) j=1 (xi′ j )

5
4 Le choix de l'origine

Le point o correspondant au vecteur de coordonnées toutes nulles n'est


pas forcément une origine satisfaisante, car si les coordonnées des points du
nuage des individus sont grandes, le nuage est éloigné de cette origine. Il
apparaît plus judicieux de choisir une origine liée au nuage lui-même : le
centre de gravité G du nuage. Pour dénir ce centre de gravité, il faut choisir
un système de pondération des unités : ∀i = 1, . . . , n pi = poids de l'unité
ui tel que ni=1 pi = 1. Par dénition le centre de gravité est déni comme
P
Pn −−→ ⃗
le point tel que : i=1 pi Gui = 0. Pour l'ACP, on choisit souvent de donner
1
le même poids à tous les individus. Le centre de gravité G du nuage des
n
individus est alors le point dont les coordonnées sont les valeurs moyennes
des variables :

 1
Pn   
n i=1 xi1 x̄1
.   .. 
.
Pn.   . 


1
X= i=1 xij  =  x̄j 
   
n
 .   . 
.   .. 
Pn.

1
n i=1 xip x̄p
Prendre G comme origine, conformément à la gure suivante, revient alors
à travailler sur le tableau des données centrées :

x1,1 − x̄1 x1,2 − x̄2 . . . x1,j − x̄j . . . x1,p − x̄p


 
. . . .
. . . .
. . . .
 
 
Xc =  xi,1 − x̄1 xi,2 − x̄2 . . . xi,j − x̄j . . . xi,p − x̄p 
 
 . . . . 
. . . .
. . . .
 
xn,1 − x̄1 xn,2 − x̄2 . . . xn,j − x̄j . . . xn,p − x̄p

et le vecteur des coordonnées centrées de l'unité ui est :

xi,1 − x̄1
 
 xi,2 − x̄2 
.
 
.
.
 
Uci = 
 
 xi,j − x̄j 

 . 
.
.
 
xi,p − x̄p

6
celui des coordonnées centrées de la variable vj est :

x1,j − x̄j
 
.
.
.
 
 
Vcj =  xi,j − x̄j
 

 . 
.
.
 
xn,j − x̄j

Figure 1  Représentation du nuage de points avec le centre de gravité G


comme nouvelle origine.

Soit M V la matrice de covariance empirique de p variables quantitatives


v1 , v2 , . . . , vj , . . . , vp mesurées sur un ensemble n unités.
Dénissons :

1
Pn
V ar(vj ) = n i=1 (xij − x̄j )2

1
Pn
Cov(vi , vj ) = n k=1 (xki − x̄i )(xkj − x̄j ) ∀i ̸= j

On a donc Cov(vi , vi ) = V ar(vi ) pour i=j

1
Pn
MV = n i=1 Uci t Uci et sa forme matricielle est :

7
 
V ar(v1 ) Cov(v1 , v2 ) . . . Cov(v1 , vj ) . . . Cov(v1 , vp )
 
 
 Cov(v2 , v1 ) V ar(v2 ) . . . Cov(v2 , vj ) . . . Cov(v2 , vp ) 
. . .. . .
 
. . . . .
MV =  . . . .
 

 Cov(vj , v1 ) Cov(vj , v2 ) . . . V ar(vj ) . . . Cov(vj , vp ) 
 
 . . . .. . 
. . . . .
. . . .
 
Cov(vp , v1 ) Cov(vp , v2 ) . . . Cov(vp , vj ) . . . V ar(vp )

5 Moments d'inertie

5.1 Inertie totale du nuage des individus

C'est une notion fondamentale de l'ACP. On appelle inertie totale du


nuage de points la moyenne pondérée des carrés des distances des points au
centre de gravité. On note Ig le moment d'inertie du nuage des individus par
rapport au centre de gravité G :

n n p n
1X 2 1 XX 1Xt
IG = d (G, ui ) = (xij − x¯j )2 = Uci Uci
n i=1 n i=1 j=1 n i=1

L'inertie totale est encore égale à la somme des éléments diagonaux (Va-
riance des p variables) de notre matrice de variance-covariance : IG = trace(M V ).

5.2 Inertie du nuage des individus par rapport à un axe

passant le Centre de Gravité

L'inertie du nuage des individus par rapport à un axe ∆ passant par G


est égale :
n
1X 2
I∆ = d (h∆i , ui )
n i=1
où h∆i est la projection orthogonale de ui sur l'axe ∆. Elle mesure la proximité
à l'axe ∆ du nuage des individus.

8
5.3 Inertie du nuage des individus par rapport à un

sous-espace vectoriel V passant par G

Elle est égale :

n
1X 2
IV = d (hV i , ui )
n i=1

où hV i est la projection orthogonale de ui sur le sous-espace V.

5.4 Décomposition de l'inertie totale

Si on note V⊥ p
le complémentaire orthogonal de V dans R , hV ⊥i la pro-

jection orthogonale de ui sur V en appliquant le théorème de Pythagore,
on peut écrire :

d2 (hV i , ui ) + d2 (hV ⊥i , ui ) = d2 (G, ui ) = d2 (G, hV i ) + d2 (G, hV ⊥i ) (1)

Démonstration :

Théorème 1. Théorème fondamental de la Projection orthogonale :


Soient x ∈ Rp et V un sous espace vectoriel de Rp alors, il existe un unique

vecteur y ∈ V tel que ||x − y|| = min(||x − z||, z ∈ V ) On appelle projété

orthogonal de x sur V. On le note pV (x) = hV

(
⟨x − pV (x), z⟩ = 0 ∀z ∈ V
pV (x) ∈ V

En particulier ⟨x − pV (x), pV (x) − G⟩ = 0.

SoitV ⊥ = {x ∈ Rp /⟨x, y⟩ = 0 ∀y ∈ V }
−−−−→ −−−−−→
pV ⊥ (x) = x − pV (x) =⇒ pV (x)x = GpV ⊥ (x)
∀z ∈ V ⊥ , ⟨pV (x), z⟩ = ⟨x − pV ⊥ (x), z⟩ = 0

En appliquant le théorème de Pythagore, on a :

||x − G||2 = ||x − pV (x)||2 + ||pV (x) − G||2


d2 (ui , G) = d2 (ui , hV i ) + d2 (hV i , G)
= d2 (ui , hV i ) + d2 (ui , hV ⊥i )
= d2 (hV ⊥i , G) + d2 (hV i , G) ce qui prouve (1)

9
D'après le théorème de Huygens, l'inertie totale se décompose comme :
IG = IV + IV ⊥ . Dans le cas particulier où le sous-espace est de dimension 1,
c'est-à-dire est un axe, IV ⊥ est une mesure de l'allongement du nuage selon
cet axe. On emploie pour IV ⊥ les expressions d'inertie portée par l'axe ou
bien d'inertie expliquée par l'axe.
En projetant le nuage des individus sur un sous-espace V , on perd l'inertie
mesurée par IV , on ne conserve que celle mesurée par IV ⊥ .

6 Recherche de l'axe ∆1 passant par G d'iner-

tie minimum

On cherche un axe ∆1 passant par G d'inertie I∆1 minimum car c'est


l'axe le plus proche de l'ensemble des points du nuage des individus, et donc,
si l'on doit projeter ce nuage sur cet axe, c'est lui qui donnera l'image la
moins déformée du nuage. Si on utilise la relation entre les inerties donnée au
paragraphe précédent, rechercher ∆1
I∆1 est minimum, est équivalent
tel que
à chercher ∆1 tel que I∆⊥1 I∆1 est minimum ⇐⇒ I∆⊥1 est
est maximum.
maximum. On dénit l'axe ∆1 par un vecteur directeur unitaire a1 . Il faut
2
donc trouver a1 tel que I∆⊥ est maximum sous la contrainte que ||a1 || = 1.
1

6.1 Expressions algébriques de I∆⊥1 et de ||a1 ||2


−−→
d2 (G, h∆1 i ) = ⟨Gui , a1 ⟩2 = t a1 Uci t Uci a1
en utilisant la symétrie du produit scalaire. On en déduit

n
1X
I∆⊥1 = (⟨a1 , ui ⟩)2
n i=1
n
1X −−→
= (⟨a1 , Gui ⟩)2
n i=1
n
1Xt
= a1 Uci t Uci a1
n i=1
 X n 
t 1 t
= a1 Uci Uci a1
n i=1
= t a1 M V a 1

Et ||a1 ||2 = t a1 a1 .

10
6.2 Recherche du maximum

t
Le problème à résoudre : trouver a1 tel que a1 M V a1 soit maximum avec
t
la contrainte a1 a1 = 1 est le problème de la recherche d'un optimum d'une
fonction de plusieurs variables liées par une contrainte. La méthode des mul-
tiplicateurs de Lagrange peut alors être utilisée.

Montrons que MV est une matrice positive :


Pp
∀x ∈ Rp , t xM V x ≥ 0 =⇒ i,j=1
M V xj
p
X
= xi cov(vi , vj )xj
i,j=1
p
X 
= V ar xi v i ≥0
i=1

et comme MV est symétrique, elle est diagonalisable dans une base de


vecteurs propres. On diagonalise MV et on cherche ∆1 tel qu'il soit le plus
proche possible du nuage des points.
1
Pn 2
Ainsi I∆1 = i=1 d (xi , h∆1 i ) doit être minimal.
n
p
On a : IG = I∆1 + I∆⊥ . On cherche a1 ∈ R de norme 1 (
1
||a1 ||2 = 1 tel que
I∆⊥1 soit maximal, c'est-à-dire

n
1X 2
I∆⊥1 = d (h∆1 i , G) maximal.
n i=1

Théorème 2. Théorème des extréma liés (multiplicateur de Lagrange) ap-


pliqué à l'ACP :

Soient f et g des fonctions de Classe C 1 sur un ouvert U de Rn à valeurs


t t
dans R telles que f (a) = aM V a et g(a) = aa − 1.
p
Si a est un extremum de f sur l'ensemble {a ∈ R : g(a) = 0}, alors il

existe λ ∈ R tel que ∇f (a)= λ∇g(a).

Remarque 1. g(a) = 0 signie que ||a||2 = 1 =⇒ ||a|| = 1. Le maximum


existe car l'ensemble est non vide et compact. C'est la sphère unité.

Soit ∇f (a) = 2M V a et ∇g(a) = 2a alors il existe λ ∈ R tel que


M V a = λa donc λ valeur propre de M V et a vecteur propre associé.
t t t
Donc, f (a) = aM V a = aλa = λ aa = λ car ||a|| = 1.

D'après le théorème des extréma liés, on tire que λ = λ1 qui est la plus
grande valeur propre de la matrice MV et a1 est un vecteur propre de norme
1 associé. Alors, λ1 = I∆⊥1 .

11
7 Recherche des axes suivants

Pour trouver le deuxième axe principal ∆2 , on écrit qu'on cherche a2 ∈ Rp


t
vecteur directeur unitaire de ∆2 qui maximise la fonction f (a) = aM V a
sous les contraintes :

g(a) = ||a||2 − 1 = t aa − 1 = 0 et g1 (a) = ⟨a1 , a⟩ = t a1 a = 0.

Le théorème des extrema liés (ou la théorie des multiplicateurs de La-


grange), nous dit que si a est solution de ce problème de maximisation sous
contrainte, alors nécessairement il existe deux réels λ et µ (les multiplicateurs
de Lagrange) tels que :

∇f (a) = λ∇g(a) + µ∇g1 (a) ⇐⇒ 2M V a = 2λa + µa1


t t
En faisant le produit à gauche par a1 , et en utilisant que a1 a1 = 1 et
t
a1 a = 0, on obtient que µ = 2 t a1 M V a.
En utilisant la symétrie de la matrice MV et le fait que a1 est le vecteur
propre de MV associé à la valeur propre λ1 , on obtient que :

µ = 2 t a1 M V a = 2 t at1 M V a = 2 t (M V a1 )a = 2 λt1 a1 a = 0.

Donc M V a = λa alors a2 est le vecteur propre associé à λ et a2 ⊥ a1 et


f (a2 ) = t a2 M V a2 = λ2 =⇒ λ2 est la seconde plus grande valeur propre.
On peut montrer que le plan déni par les axes ∆1 et ∆2 est le sous-espace
de dimension 2 qui porte l'inertie maximum. Ainsi, on peut rechercher de
nouveaux axes en suivant le même principe. Les nouveaux axes sont tous
vecteurs propres de M V correspondant aux valeurs propres ordonnées. La
matrice de covariance M V étant une matrice symétrique réelle, elle possède
p vecteurs propres réels formant une base orthogonale de Rp :



 ∆1 ⊥ ∆2 ⊥ . . . ⊥ ∆p

a ⊥ a ⊥ . . . ⊥ a
1 2 p


 λ1 ≥ λ2 ≥ . . . ≥ λp
I ⊥ ≥ I ⊥ ≥ . . . ≥ I ⊥

∆1 ∆2 ∆p

On passera de la base orthogonale initiale des variables centrées à la nou-


velle base orthogonale des vecteurs propres de MV. Les nouveaux axes encore
appelés axes principaux sont les droites portées par les vecteurs propres as-
sociés.

12
8 Contribution des axes à l'inertie totale

Il s'agit ici de voir comment chaque valeur propre contribue à l'inertie


totale.
L'ACP permet d'obtenir une représentation graphique des individus dans un
espace de dimension plus faible que p mais celle-ci n'est qu'une vision dé-
formée de la réalité. L'un des points les plus délicats de l'interprétation des
résultats d'une ACP consiste à apprécier cette déformation ou autrement dit
la perte d'information engendrée par la réduction de la dimension et à dé-
terminer le nombre d'axes à retenir. Le critère habituellement utilisé pour
mesurer la qualité d'une ACP est le pourcentage d'inertie totale expliquée.

En utilisant le théorème de Huygens, on peut décomposer l'inertie totale


du nuage des individus :

IG = λ1 + λ2 + . . . + λp
La contribution absolue de l'axe ∆k à l'inertie totale du nuage des indi-
vidus est égale à : ca(∆k /IG ) = λk , valeur propre qui lui est associée.
Sa contribution relative est égale à :

λk
cr(∆k /IG ) =
λ1 + λ2 + . . . + λp
Ces pourcentages d'inertie sont des indicateurs qui rendent compte de la
part de variabilité du nuage des individus expliquée par ces sous-espaces. Si
les dernières valeurs propres ont des valeurs faibles, on pourra négliger la
variabilité qu'expliquent les axes correspondants. On se contente souvent de
faire des représentations du nuage des individus dans un sous-espace engendré
par les d premiers axes si ce sous-espace explique un pourcentage d'inertie
proche de 1. On peut ainsi réduire l'analyse à un sous-espace de dimension
d < p.

8.1 Interprétation des résultats d'une ACP

L'ACP fournit des représentations graphiques permettant de visualiser les


relations entre variables ainsi que l'existence éventuelle de groupes d'indivi-
dus et de groupes de variables. Les résultats d'une ACP se présentent sous la
forme de graphiques plans et de tableaux dont l'interprétation constitue une
des phases les plus délicates de l'analyse et doit se faire selon une démarche
précise que nous expliquons dans la suite.
Avant d'aborder la phase d'interprétation proprement dite, il est utile de
commencer par une brève lecture préliminaire des résultats dont le but est

13
en gros de s'assurer du contenu du tableau de données. En eet, il est pos-
sible qu'en examinant le premier plan principal on observe quelques individus
complètement extérieurs au reste de la population traduisant la présence soit
de données erronées telles que des fautes de frappes ou une erreur de mesure
qu'il faut corriger soit d'individus totalement diérents des autres qu'il faut
retirer de l'analyse pour mieux observer les individus restants ; on pourra les
réintroduire a posteriori comme éléments supplémentaires. À la suite de cette
étude préalable, on peut alors examiner de plus près les résultats de l'ACP ;
on passe à la phase d'interprétation qui comporte plusieurs étapes.

8.2 Nombre d'axes à retenir

Dans le cas pratique, les seuls critères applicables sont des critères empi-
riques dont le plus connu est celui de Kaiser : en données centrées réduites,
on retient les composantes principales correspondant à des valeurs propres
supérieures à 1 ce qui revient à ne s'intéresser qu'aux composantes qui  ap-
portent  plus que les variables initiales. On peut aussi regarder le diagramme
des valeurs propres qui désigne le graphe de la fonction j 7→ λj , où (λj )j est
la suite des valeurs propres de MV classées par ordre décroissant. On utilise
alors la règle du coude qui consiste à détecter l'existence d'un coude (cassure)
et on retient les valeurs propres avant la cassure. Mais ceci n'est pas toujours
aisé en pratique.

Figure 2  Diagramme de coude

14
9 Représentation des individus dans les axes

construits

Considérons notre ancienne base qui est Uci ∈ Rp . An de représenter les
individus dans le plan des nouveaux axes, il sut de calculer leurs coordon-
−−→
nées dans les axes construits en projettant orthogonalement le vecteur Gui
sur l'axe ∆k . En utilisant le changement de base, on a :

−−→
yik = ⟨Gui , ak ⟩ = t ak Uci
Désignons par Yi le vecteur des coordonnées de l'unité ui et A est la
matrice du changement de base. C'est une matrice orthogonale de norme 1
par conséquent son inverse est égale à sa transposée. Ainsi,

 
yi1
 ..
 .


Yi = A−1 Uci = t A Uci =  yik
 

 . 
 .. 
yip

9.1 Qualité de représentation des individus


−−→
Le principe est le suivant : il faut que l'angle entre le vecteur Gui et l'axe
ou le plan soit le plus petit possible. Pour cela, on calcule le carré du cosinus
de cet angle et plus il est proche de 1, plus l'individu ui sera bien représenté
−−→
en projection sur cet axe ou ce plan. Soit θik l'angle entre Gui et un axe ∆k
de vecteur directeur unitaire ak . Comme déni dans la section 3 et 6 on a :

 2
−−→
Gui , ak t
2 ak Uci t Uci ak
cos (θik ) = −−→ 2 = tU U
Gui ci ci

En général, an d'interpréter la proximité des projections de deux individus


sur un plan ou un axe , on applique le même principe et par le théorème de
Pythagore, on montre que le carré du cosinus de l'angle d'un vecteur avec
un plan engendre par deux vecteurs orthogonaux, est égale à la somme des
carrés des cosinus des angles du vecteur avec chacun des deux vecteurs qui
engendrent le plan. Lorsque deux individus sont bien représentés en projec-
tion sur un axe et que ces projections sont proches alors, on peut dire que
ces individus sont proches dans l'espace.

15
D'après le théorème de Pythagore, on a :

Cos2 (θikk′ ) = Cos2 (θik ) + Cos2 (θik′ )

9.2 Interprétation des nouveaux axes en fonction des

individus

Il est très utile aussi de calculer pour chaque axe la contribution apportée
par les divers individus à cet axe. En calculant l'inertie I∆⊥k , on peut voir la
contribution de cette inertie par rapport à un individu ui particulier.
Soit ca la contribution absolue de ui et cr la contribution relative par
rapport à l'axe ∆k .
D'après la section 6 on a :

1 2 1 −−→ −−→ 1 t
ca(ui /∆k ) n
d (G, h∆ki ) n
⟨Gui , Gak ⟩2 n
ak Uci t Uci ak
cr(ui /∆k ) = = ta M V a
= =
I∆⊥k k k λk λk

Plus la contribution d'un individu est importante, plus sa projection sur cet
Pp
axe sera éloigné du centre de gravité. En remarquant que i=1 cr(ui /∆k ) = 1,
on peut mieux interpréter la contribution de cet individu à la confection d'un
axe. Par exemple, il n'est pas souhaitable qu'un individu ait une contribution
excessive. On pourrait donc éliminer les individus dont la contribution est
trop importante.

10 Représentation des variables

L'ACP construit les composantes principales, nouvelles variables arti-


cielles combinaisons linéaires des variables initiales. En eet, la représenta-
tion des individus est faite dans l'espace des anciennes variables. On fait une

16
Figure 3  Cercle de corrélations

changement de base dans cet espace. Les nouveaux axes sont des combinai-
sons linéaires des anciens axes et par conséquent les nouvelles variables Zk
seront des combinaisons linéaires des anciennes variables Vcj calculées comme
suit :
p
X
Zk = akj Vcj = Xc ak
j=1

Il s'agit ensuite d'étudier la liaison des anciennes variables avec les compo-
santes principales et qui se traduit par le calcul des coecients de corrélations
entre elles qui varient entre −1 et 1. On obtient donc le cercle de corrélation
sur lequel chacune des variables est repérée par ses coordonnées sur les axes
∆1 et ∆2 .
L'examen du cercle de corrélation permet de détecter les éventuels groupes
de variables qui se ressemblent ou au contraire qui s'opposent donnant ainsi
un sens aux axes principaux.
On peut calculer les variances, covariances et coecients de corrélations
des composantes principales. On a par dénition :

nV ar(Zk ) = ||Zk ||2 = ⟨Zk , Zk ⟩ = t Zk Zk = t (Xc ak ) Xc ak = t ak t Xc Xc ak

d'où
1t t
V ar(Zk ) = ak Xc Xc ak = t ak M V ak = λk
n
Par dénition, le coecient de corrélation s'exprime comme suit :

Cov(Zk , Vcj )
Cor(Zk , Vcj ) = p
V ar(Zk )V ar(Vcj )

17
avec

nCov(Zk , Vcj ) = ⟨Zk , Vcj ⟩ = t Zk Vcj = t (Xc ak )Vcj = t ak t Xc Vcj

Soit

x1,1 − x̄1 x1,2 − x̄2 . . . x1,j − x̄j . . . x1,p − x̄p


    
0 0
 ..   .
.
.
.
.
.
.
.  .. 
 .   . . . .  . 


Xc  1  =  xi,1 − x̄1 xi,2 − x̄2 . . . xi,j − x̄j . . . xi,p − x̄p   1 
     
 .   . . . .   . 
 ..   .
.
.
.
.
.
.
.
  .. 
0 xn,1 − x̄1 xn,2 − x̄2 . . . xn,j − x̄j . . . xn,p − x̄p 0
x1,j − x¯j
 
.
.
.
 
 
=  xi,j − x¯j
 

 . 
.
.
 
xn,j − x¯j
= Vcj

Donc
     
0 0 0
 ..   ..   .. 
1  .   .   . 
Cov(Zk , Vcj ) = t ak t Xc Xc  1  = t ak M V  1  = λk t ak  1  = λk akj
     
n  .   .   . 
 ..   ..   .. 
0 0 0

Car
t
ak M V a k = λ k
t
et en multipliant chaque membre de l'égalité par ak on obtient :

t
ak M V I = λk t ak

Enn,

Cov(Zk , Vcj ) λk akj p akj


Cor(Zk , Vcj ) = p =p = λk p
V ar(Zk )V ar(Vcj ) λk V ar(Vcj ) V ar(Vcj )

Où akj est la jième coordonnée du vecteur unitaire ak de l'axe ∆k .

18
10.1 Interprétation et Qualité de la représentation des

variables

L'interprétation d'une ACP consiste à donner une signication à ces com-


posantes principales en fonction des anciennes variables. Plus une ancienne
variable est fortement corrélée avec la composante principale par rapport à
un axe, plus cette variable explique mieux l'information. En ce qui concerne
la qualité de la représentation des variables, si le carré du cosinus de l'angle
−−→
entre Gvj et l'axe (ou le plan, ou le sous espace) est proche de 1 c'est-à-dire
plus proche du cercle alors, on pourra dire que la variable vj est mieux re-
présentée par sa projection sur l'axe (ou le plan, ou le sous-espace). Quant à
la liaison entre les variables, lorsque deux variables sont proches du cercle et
forment un angle aigu alors, elles sont très corrélées positivement. Lorsque
deux variables sont proches du cercle de corrélations et si les vecteurs qui
les rejoignent à l'origine forment un angle droit alors, ces variables ne seront
pas corrélées entre elles. Si elles sont proches du cercle, mais dans des posi-
tions symétriques par rapport à l'origine tout en formant un angle obtu, elles
seront très corrélées négativement.

Références

[1] Gilbert Saporta, Ndèye Niang, Analyse en composantes principales : ap-


plication to Statistical Process Control (chapitre du livre Data Analysis,

de Gérard Govaert, ed. ISTE, 2008).

[2] Gilbert Saporta , Probabilités, Analyse des données et Statistiques, édi-


tions Technip, 1990.

[3] C. Duby, S. Robin, Analyse en Composantes Principales, AgroParis-


Tech,Polycopié de cours.

19

Vous aimerez peut-être aussi