Projetbon

UNIVERSITE DE ROUEN NORMANDIE
UFR SCIENCES ET TECHNIQUES

Analyse en composantes principales
Dovonon Camus
Ndir Ibra Bamba
24 mai 2022
Tuteur : Dr. Gaëlle CHAGNY
1
Table des matières
1 Introduction 3
2 Tableau de données 4
3 Choix d'une distance 5
4 Le choix de l'origine 6
5 Moments d'inertie 8
5.1 Inertie totale du nuage des individus . . . . . . . . . . . . . . 8
5.2 Inertie du nuage des individus par rapport à un axe passant
le Centre de Gravité . . . . . . . . . . . . . . . . . . . . . . . 8
5.3 Inertie du nuage des individus par rapport à un sous-espace
vectoriel V passant par G . . . . . . . . . . . . . . . . . . . . 9
5.4 Décomposition de l'inertie totale . . . . . . . . . . . . . . . . . 9
6 Recherche de l'axe ∆1 passant par G d'inertie minimum 10

6.1 Expressions algébriques de I∆⊥1 et de ||a1 ||2 . . . . . . . . . . . 10
6.2 Recherche du maximum . . . . . . . . . . . . . . . . . . . . . 11
7 Recherche des axes suivants 12
8 Contribution des axes à l'inertie totale 13

8.1 Interprétation des résultats d'une ACP . . . . . . . . . . . . . 13
8.2 Nombre d'axes à retenir . . . . . . . . . . . . . . . . . . . . . 14
9 Représentation des individus dans les axes construits 15

9.1 Qualité de représentation des individus . . . . . . . . . . . . . 15
9.2 Interprétation des nouveaux axes en fonction des individus . . 16
10 Représentation des variables 16

10.1 Interprétation et Qualité de la représentation des variables . . 19
2
1 Introduction
L'ACP est une méthode statistique exploratoire permettant une descrip-

tion essentiellement graphique de l'information contenue dans des grands
tableaux de données. Dans la plupart des applications, il s'agit d'étudier
p variables mesurées sur un ensemble de n individus. Lorsque n et p sont
grands on cherche à synthétiser la masse d'informations sous une forme ex-
ploitable et compréhensible. Grâce aux outils de la statistique descriptive, il
est possible d'étudier une à une ou deux à deux les variables à travers no-
tamment des résumés graphiques ou numériques (moyenne, variance, corré-
lation). Mais ces études préalables simples, si elles sont indispensables dans
toute étude statistique, sont insusantes ici car elles laissent de côté les
liaisons éventuelles entre les variables qui sont souvent l'aspect le plus im-
portant. L'analyse en composantes principales notée ACP par la suite, est
souvent considérée comme la méthode de base de l'analyse factorielle des
données dont l'objectif est de déterminer des fonctions des p variables ou
facteurs qui serviront à visualiser les observations de façon simpliée. En ra-
menant un grand nombre de variables souvent corrélées entre elles, à un petit
nombre de composantes principales (les premières) non corrélées, l'ACP est
une méthode de réduction de la dimension.
3
2 Tableau de données
Les données sont les mesures eectuées sur n unités {u1 , u2 , . . . , ui , . . . , un }

p
qui sont des points dans l'espace ane R . Les p variables quantitatives qui
représentent ces mesures sont {v1 , v2 , . . . , vj , . . . , vp } qui sont également des
n
points dans l'espace ane R . Le tableau des données brutes à partir duquel
on va faire l'analyse est noté X et a la forme suivante :
 
x1,1 x1,2 . . . x1,j . . . x1,p
 .. .
.
.
.
.
.
 . . . .


X =  xi,1 xi,2 . . . xi,j . . . xi,p
 

 . . . . 
 .. .
.
.
.
.
.

xn,1 xn,2 . . . xn,j . . . xn,p
Soit Ui ∈ Rp le vecteur
−→
associé à u (ou ) déni par :
i i
 
xi,1
 xi,2 
 . 
 . 
 . 
Ui = 
 xi,j 

 . 
 .. 
xi,p
et également Vj ∈ Rn le vecteur associé à vj déni par :
 
x1,j
 x2,j 
 . 
 . 
 . 
Vj = 
 xi,j 

 . 
 .. 
xn,j
L'ensemble des points qui représentent les variables est appelé nuage des
variables et celui qui représentent les unités est appelé nuage des individus.
4
3 Choix d'une distance
Pour faire une représentation géométrique, il faut choisir une distance

entre deux points de l'espace. La distance utilisée par l'ACP dans l'espace où
sont représentés les unités est la distance euclidienne classique. La distance
′
entre deux unités ui et ui est égale :
p
X
2
d (ui , ui′ ) = (xij − xi′ j )2
j=1
Avec cette distance, toutes les variables jouent le même rôle et les axes
dénis par les variables constituent une base orthogonale. A cette distance,
on associe un produit scalaire entre deux vecteurs :
p
⟨−→, − →
X
ou i oui′ ⟩ = (xij xi′ j ) = t Ui Ui′
j=1
ainsi que la norme d'un vecteur :
p
||−→||2 =
X
ou i (xij )2 = t Ui Ui′
j=1
On peut alors dénir l'angle α entre deux vecteurs par son cosinus :
⟨−→, − → Pp
j=1 (xij xi′ j )
t
ou i oui′ ⟩ Ui Ui′
cos(α) = −→ −→ = qP = p
||oui || ||oui′ || p 2
Pp 2 (t Ui Ui )(t Ui′ Ui′ )
j=1 (xij ) j=1 (xi′ j )
5
4 Le choix de l'origine
Le point o correspondant au vecteur de coordonnées toutes nulles n'est

pas forcément une origine satisfaisante, car si les coordonnées des points du
nuage des individus sont grandes, le nuage est éloigné de cette origine. Il
apparaît plus judicieux de choisir une origine liée au nuage lui-même : le
centre de gravité G du nuage. Pour dénir ce centre de gravité, il faut choisir
un système de pondération des unités : ∀i = 1, . . . , n pi = poids de l'unité
ui tel que ni=1 pi = 1. Par dénition le centre de gravité est déni comme
P
Pn −−→ ⃗
le point tel que : i=1 pi Gui = 0. Pour l'ACP, on choisit souvent de donner
1
le même poids à tous les individus. Le centre de gravité G du nuage des
n
individus est alors le point dont les coordonnées sont les valeurs moyennes
des variables :
 1
Pn   
n i=1 xi1 x̄1
.   .. 
.
Pn.   . 


1
X= i=1 xij  =  x̄j 
   
n
 .   . 
.   .. 
Pn.

1
n i=1 xip x̄p
Prendre G comme origine, conformément à la gure suivante, revient alors
à travailler sur le tableau des données centrées :
x1,1 − x̄1 x1,2 − x̄2 . . . x1,j − x̄j . . . x1,p − x̄p

 
. . . .
. . . .
. . . .
 
 
Xc =  xi,1 − x̄1 xi,2 − x̄2 . . . xi,j − x̄j . . . xi,p − x̄p 
 
 . . . . 
. . . .
. . . .
 
xn,1 − x̄1 xn,2 − x̄2 . . . xn,j − x̄j . . . xn,p − x̄p
et le vecteur des coordonnées centrées de l'unité ui est :
xi,1 − x̄1
 
 xi,2 − x̄2 
.
 
.
.
 
Uci = 
 
 xi,j − x̄j 

 . 
.
.
 
xi,p − x̄p
6
celui des coordonnées centrées de la variable vj est :
x1,j − x̄j
 
.
.
.
 
 
Vcj =  xi,j − x̄j
 

 . 
.
.
 
xn,j − x̄j
Figure 1 Représentation du nuage de points avec le centre de gravité G

comme nouvelle origine.
Soit M V la matrice de covariance empirique de p variables quantitatives

v1 , v2 , . . . , vj , . . . , vp mesurées sur un ensemble n unités.
Dénissons :
1
Pn
V ar(vj ) = n i=1 (xij − x̄j )2
1
Pn
Cov(vi , vj ) = n k=1 (xki − x̄i )(xkj − x̄j ) ∀i ̸= j
On a donc Cov(vi , vi ) = V ar(vi ) pour i=j
1
Pn
MV = n i=1 Uci t Uci et sa forme matricielle est :
7
 
V ar(v1 ) Cov(v1 , v2 ) . . . Cov(v1 , vj ) . . . Cov(v1 , vp )
 
 
 Cov(v2 , v1 ) V ar(v2 ) . . . Cov(v2 , vj ) . . . Cov(v2 , vp ) 
. . .. . .
 
. . . . .
MV =  . . . .
 

 Cov(vj , v1 ) Cov(vj , v2 ) . . . V ar(vj ) . . . Cov(vj , vp ) 
 
 . . . .. . 
. . . . .
. . . .
 
Cov(vp , v1 ) Cov(vp , v2 ) . . . Cov(vp , vj ) . . . V ar(vp )
5 Moments d'inertie
5.1 Inertie totale du nuage des individus
C'est une notion fondamentale de l'ACP. On appelle inertie totale du

nuage de points la moyenne pondérée des carrés des distances des points au
centre de gravité. On note Ig le moment d'inertie du nuage des individus par
rapport au centre de gravité G :
n n p n
1X 2 1 XX 1Xt
IG = d (G, ui ) = (xij − x¯j )2 = Uci Uci
n i=1 n i=1 j=1 n i=1
L'inertie totale est encore égale à la somme des éléments diagonaux (Va-
riance des p variables) de notre matrice de variance-covariance : IG = trace(M V ).
5.2 Inertie du nuage des individus par rapport à un axe
passant le Centre de Gravité
L'inertie du nuage des individus par rapport à un axe ∆ passant par G

est égale :
n
1X 2
I∆ = d (h∆i , ui )
n i=1
où h∆i est la projection orthogonale de ui sur l'axe ∆. Elle mesure la proximité
à l'axe ∆ du nuage des individus.
8
5.3 Inertie du nuage des individus par rapport à un
sous-espace vectoriel V passant par G
Elle est égale :
n
1X 2
IV = d (hV i , ui )
n i=1
où hV i est la projection orthogonale de ui sur le sous-espace V.
5.4 Décomposition de l'inertie totale
Si on note V⊥ p
le complémentaire orthogonal de V dans R , hV ⊥i la pro-
⊥
jection orthogonale de ui sur V en appliquant le théorème de Pythagore,
on peut écrire :
d2 (hV i , ui ) + d2 (hV ⊥i , ui ) = d2 (G, ui ) = d2 (G, hV i ) + d2 (G, hV ⊥i ) (1)
Démonstration :
Théorème 1. Théorème fondamental de la Projection orthogonale :

Soient x ∈ Rp et V un sous espace vectoriel de Rp alors, il existe un unique
vecteur y ∈ V tel que ||x − y|| = min(||x − z||, z ∈ V ) On appelle projété
orthogonal de x sur V. On le note pV (x) = hV
(
⟨x − pV (x), z⟩ = 0 ∀z ∈ V
pV (x) ∈ V
En particulier ⟨x − pV (x), pV (x) − G⟩ = 0.
SoitV ⊥ = {x ∈ Rp /⟨x, y⟩ = 0 ∀y ∈ V }
−−−−→ −−−−−→
pV ⊥ (x) = x − pV (x) =⇒ pV (x)x = GpV ⊥ (x)
∀z ∈ V ⊥ , ⟨pV (x), z⟩ = ⟨x − pV ⊥ (x), z⟩ = 0
En appliquant le théorème de Pythagore, on a :
||x − G||2 = ||x − pV (x)||2 + ||pV (x) − G||2

d2 (ui , G) = d2 (ui , hV i ) + d2 (hV i , G)
= d2 (ui , hV i ) + d2 (ui , hV ⊥i )
= d2 (hV ⊥i , G) + d2 (hV i , G) ce qui prouve (1)
9
D'après le théorème de Huygens, l'inertie totale se décompose comme :
IG = IV + IV ⊥ . Dans le cas particulier où le sous-espace est de dimension 1,
c'est-à-dire est un axe, IV ⊥ est une mesure de l'allongement du nuage selon
cet axe. On emploie pour IV ⊥ les expressions d'inertie portée par l'axe ou
bien d'inertie expliquée par l'axe.
En projetant le nuage des individus sur un sous-espace V , on perd l'inertie
mesurée par IV , on ne conserve que celle mesurée par IV ⊥ .
6 Recherche de l'axe ∆1 passant par G d'iner-
tie minimum
On cherche un axe ∆1 passant par G d'inertie I∆1 minimum car c'est

l'axe le plus proche de l'ensemble des points du nuage des individus, et donc,
si l'on doit projeter ce nuage sur cet axe, c'est lui qui donnera l'image la
moins déformée du nuage. Si on utilise la relation entre les inerties donnée au
paragraphe précédent, rechercher ∆1
I∆1 est minimum, est équivalent
tel que
à chercher ∆1 tel que I∆⊥1 I∆1 est minimum ⇐⇒ I∆⊥1 est
est maximum.
maximum. On dénit l'axe ∆1 par un vecteur directeur unitaire a1 . Il faut
2
donc trouver a1 tel que I∆⊥ est maximum sous la contrainte que ||a1 || = 1.
1
6.1 Expressions algébriques de I∆⊥1 et de ||a1 ||2

−−→
d2 (G, h∆1 i ) = ⟨Gui , a1 ⟩2 = t a1 Uci t Uci a1
en utilisant la symétrie du produit scalaire. On en déduit
n
1X
I∆⊥1 = (⟨a1 , ui ⟩)2
n i=1
n
1X −−→
= (⟨a1 , Gui ⟩)2
n i=1
n
1Xt
= a1 Uci t Uci a1
n i=1
X n
t 1 t
= a1 Uci Uci a1
n i=1
= t a1 M V a 1
Et ||a1 ||2 = t a1 a1 .
10
6.2 Recherche du maximum
t
Le problème à résoudre : trouver a1 tel que a1 M V a1 soit maximum avec
t
la contrainte a1 a1 = 1 est le problème de la recherche d'un optimum d'une
fonction de plusieurs variables liées par une contrainte. La méthode des mul-
tiplicateurs de Lagrange peut alors être utilisée.
Montrons que MV est une matrice positive :

Pp
∀x ∈ Rp , t xM V x ≥ 0 =⇒ i,j=1
M V xj
p
X
= xi cov(vi , vj )xj
i,j=1
p
X
= V ar xi v i ≥0
i=1
et comme MV est symétrique, elle est diagonalisable dans une base de

vecteurs propres. On diagonalise MV et on cherche ∆1 tel qu'il soit le plus
proche possible du nuage des points.
1
Pn 2
Ainsi I∆1 = i=1 d (xi , h∆1 i ) doit être minimal.
n
p
On a : IG = I∆1 + I∆⊥ . On cherche a1 ∈ R de norme 1 (
1
||a1 ||2 = 1 tel que
I∆⊥1 soit maximal, c'est-à-dire
n
1X 2
I∆⊥1 = d (h∆1 i , G) maximal.
n i=1
Théorème 2. Théorème des extréma liés (multiplicateur de Lagrange) ap-

pliqué à l'ACP :
Soient f et g des fonctions de Classe C 1 sur un ouvert U de Rn à valeurs

t t
dans R telles que f (a) = aM V a et g(a) = aa − 1.
p
Si a est un extremum de f sur l'ensemble {a ∈ R : g(a) = 0}, alors il
existe λ ∈ R tel que ∇f (a)= λ∇g(a).
Remarque 1. g(a) = 0 signie que ||a||2 = 1 =⇒ ||a|| = 1. Le maximum

existe car l'ensemble est non vide et compact. C'est la sphère unité.
Soit ∇f (a) = 2M V a et ∇g(a) = 2a alors il existe λ ∈ R tel que

M V a = λa donc λ valeur propre de M V et a vecteur propre associé.
t t t
Donc, f (a) = aM V a = aλa = λ aa = λ car ||a|| = 1.
D'après le théorème des extréma liés, on tire que λ = λ1 qui est la plus
grande valeur propre de la matrice MV et a1 est un vecteur propre de norme
1 associé. Alors, λ1 = I∆⊥1 .
11
7 Recherche des axes suivants
Pour trouver le deuxième axe principal ∆2 , on écrit qu'on cherche a2 ∈ Rp

t
vecteur directeur unitaire de ∆2 qui maximise la fonction f (a) = aM V a
sous les contraintes :
g(a) = ||a||2 − 1 = t aa − 1 = 0 et g1 (a) = ⟨a1 , a⟩ = t a1 a = 0.
Le théorème des extrema liés (ou la théorie des multiplicateurs de La-

grange), nous dit que si a est solution de ce problème de maximisation sous
contrainte, alors nécessairement il existe deux réels λ et µ (les multiplicateurs
de Lagrange) tels que :
∇f (a) = λ∇g(a) + µ∇g1 (a) ⇐⇒ 2M V a = 2λa + µa1

t t
En faisant le produit à gauche par a1 , et en utilisant que a1 a1 = 1 et
t
a1 a = 0, on obtient que µ = 2 t a1 M V a.
En utilisant la symétrie de la matrice MV et le fait que a1 est le vecteur
propre de MV associé à la valeur propre λ1 , on obtient que :
µ = 2 t a1 M V a = 2 t at1 M V a = 2 t (M V a1 )a = 2 λt1 a1 a = 0.
Donc M V a = λa alors a2 est le vecteur propre associé à λ et a2 ⊥ a1 et

f (a2 ) = t a2 M V a2 = λ2 =⇒ λ2 est la seconde plus grande valeur propre.
On peut montrer que le plan déni par les axes ∆1 et ∆2 est le sous-espace
de dimension 2 qui porte l'inertie maximum. Ainsi, on peut rechercher de
nouveaux axes en suivant le même principe. Les nouveaux axes sont tous
vecteurs propres de M V correspondant aux valeurs propres ordonnées. La
matrice de covariance M V étant une matrice symétrique réelle, elle possède
p vecteurs propres réels formant une base orthogonale de Rp :



 ∆1 ⊥ ∆2 ⊥ . . . ⊥ ∆p

a ⊥ a ⊥ . . . ⊥ a
1 2 p


 λ1 ≥ λ2 ≥ . . . ≥ λp
I ⊥ ≥ I ⊥ ≥ . . . ≥ I ⊥

∆1 ∆2 ∆p
On passera de la base orthogonale initiale des variables centrées à la nou-

velle base orthogonale des vecteurs propres de MV. Les nouveaux axes encore
appelés axes principaux sont les droites portées par les vecteurs propres as-
sociés.
12
8 Contribution des axes à l'inertie totale
Il s'agit ici de voir comment chaque valeur propre contribue à l'inertie

totale.
L'ACP permet d'obtenir une représentation graphique des individus dans un
espace de dimension plus faible que p mais celle-ci n'est qu'une vision dé-
formée de la réalité. L'un des points les plus délicats de l'interprétation des
résultats d'une ACP consiste à apprécier cette déformation ou autrement dit
la perte d'information engendrée par la réduction de la dimension et à dé-
terminer le nombre d'axes à retenir. Le critère habituellement utilisé pour
mesurer la qualité d'une ACP est le pourcentage d'inertie totale expliquée.
En utilisant le théorème de Huygens, on peut décomposer l'inertie totale

du nuage des individus :
IG = λ1 + λ2 + . . . + λp
La contribution absolue de l'axe ∆k à l'inertie totale du nuage des indi-
vidus est égale à : ca(∆k /IG ) = λk , valeur propre qui lui est associée.
Sa contribution relative est égale à :
λk
cr(∆k /IG ) =
λ1 + λ2 + . . . + λp
Ces pourcentages d'inertie sont des indicateurs qui rendent compte de la
part de variabilité du nuage des individus expliquée par ces sous-espaces. Si
les dernières valeurs propres ont des valeurs faibles, on pourra négliger la
variabilité qu'expliquent les axes correspondants. On se contente souvent de
faire des représentations du nuage des individus dans un sous-espace engendré
par les d premiers axes si ce sous-espace explique un pourcentage d'inertie
proche de 1. On peut ainsi réduire l'analyse à un sous-espace de dimension
d < p.
8.1 Interprétation des résultats d'une ACP
L'ACP fournit des représentations graphiques permettant de visualiser les

relations entre variables ainsi que l'existence éventuelle de groupes d'indivi-
dus et de groupes de variables. Les résultats d'une ACP se présentent sous la
forme de graphiques plans et de tableaux dont l'interprétation constitue une
des phases les plus délicates de l'analyse et doit se faire selon une démarche
précise que nous expliquons dans la suite.
Avant d'aborder la phase d'interprétation proprement dite, il est utile de
commencer par une brève lecture préliminaire des résultats dont le but est
13
en gros de s'assurer du contenu du tableau de données. En eet, il est pos-
sible qu'en examinant le premier plan principal on observe quelques individus
complètement extérieurs au reste de la population traduisant la présence soit
de données erronées telles que des fautes de frappes ou une erreur de mesure
qu'il faut corriger soit d'individus totalement diérents des autres qu'il faut
retirer de l'analyse pour mieux observer les individus restants ; on pourra les
réintroduire a posteriori comme éléments supplémentaires. À la suite de cette
étude préalable, on peut alors examiner de plus près les résultats de l'ACP ;
on passe à la phase d'interprétation qui comporte plusieurs étapes.
8.2 Nombre d'axes à retenir
Dans le cas pratique, les seuls critères applicables sont des critères empi-
riques dont le plus connu est celui de Kaiser : en données centrées réduites,
on retient les composantes principales correspondant à des valeurs propres
supérieures à 1 ce qui revient à ne s'intéresser qu'aux composantes qui ap-
portent plus que les variables initiales. On peut aussi regarder le diagramme
des valeurs propres qui désigne le graphe de la fonction j 7→ λj , où (λj )j est
la suite des valeurs propres de MV classées par ordre décroissant. On utilise
alors la règle du coude qui consiste à détecter l'existence d'un coude (cassure)
et on retient les valeurs propres avant la cassure. Mais ceci n'est pas toujours
aisé en pratique.
Figure 2 Diagramme de coude
14
9 Représentation des individus dans les axes
construits
Considérons notre ancienne base qui est Uci ∈ Rp . An de représenter les
individus dans le plan des nouveaux axes, il sut de calculer leurs coordon-
−−→
nées dans les axes construits en projettant orthogonalement le vecteur Gui
sur l'axe ∆k . En utilisant le changement de base, on a :
−−→
yik = ⟨Gui , ak ⟩ = t ak Uci
Désignons par Yi le vecteur des coordonnées de l'unité ui et A est la
matrice du changement de base. C'est une matrice orthogonale de norme 1
par conséquent son inverse est égale à sa transposée. Ainsi,
 
yi1
 ..
 .


Yi = A−1 Uci = t A Uci =  yik
 

 . 
 .. 
yip
9.1 Qualité de représentation des individus

−−→
Le principe est le suivant : il faut que l'angle entre le vecteur Gui et l'axe
ou le plan soit le plus petit possible. Pour cela, on calcule le carré du cosinus
de cet angle et plus il est proche de 1, plus l'individu ui sera bien représenté
−−→
en projection sur cet axe ou ce plan. Soit θik l'angle entre Gui et un axe ∆k
de vecteur directeur unitaire ak . Comme déni dans la section 3 et 6 on a :
2
−−→
Gui , ak t
2 ak Uci t Uci ak
cos (θik ) = −−→2 = tU U
Gui ci ci
En général, an d'interpréter la proximité des projections de deux individus

sur un plan ou un axe , on applique le même principe et par le théorème de
Pythagore, on montre que le carré du cosinus de l'angle d'un vecteur avec
un plan engendre par deux vecteurs orthogonaux, est égale à la somme des
carrés des cosinus des angles du vecteur avec chacun des deux vecteurs qui
engendrent le plan. Lorsque deux individus sont bien représentés en projec-
tion sur un axe et que ces projections sont proches alors, on peut dire que
ces individus sont proches dans l'espace.
15
D'après le théorème de Pythagore, on a :
Cos2 (θikk′ ) = Cos2 (θik ) + Cos2 (θik′ )
9.2 Interprétation des nouveaux axes en fonction des
individus
Il est très utile aussi de calculer pour chaque axe la contribution apportée
par les divers individus à cet axe. En calculant l'inertie I∆⊥k , on peut voir la
contribution de cette inertie par rapport à un individu ui particulier.
Soit ca la contribution absolue de ui et cr la contribution relative par
rapport à l'axe ∆k .
D'après la section 6 on a :
1 2 1 −−→ −−→ 1 t
ca(ui /∆k ) n
d (G, h∆ki ) n
⟨Gui , Gak ⟩2 n
ak Uci t Uci ak
cr(ui /∆k ) = = ta M V a
= =
I∆⊥k k k λk λk
Plus la contribution d'un individu est importante, plus sa projection sur cet
Pp
axe sera éloigné du centre de gravité. En remarquant que i=1 cr(ui /∆k ) = 1,
on peut mieux interpréter la contribution de cet individu à la confection d'un
axe. Par exemple, il n'est pas souhaitable qu'un individu ait une contribution
excessive. On pourrait donc éliminer les individus dont la contribution est
trop importante.
10 Représentation des variables
L'ACP construit les composantes principales, nouvelles variables arti-

cielles combinaisons linéaires des variables initiales. En eet, la représenta-
tion des individus est faite dans l'espace des anciennes variables. On fait une
16
Figure 3 Cercle de corrélations
changement de base dans cet espace. Les nouveaux axes sont des combinai-
sons linéaires des anciens axes et par conséquent les nouvelles variables Zk
seront des combinaisons linéaires des anciennes variables Vcj calculées comme
suit :
p
X
Zk = akj Vcj = Xc ak
j=1
Il s'agit ensuite d'étudier la liaison des anciennes variables avec les compo-
santes principales et qui se traduit par le calcul des coecients de corrélations
entre elles qui varient entre −1 et 1. On obtient donc le cercle de corrélation
sur lequel chacune des variables est repérée par ses coordonnées sur les axes
∆1 et ∆2 .
L'examen du cercle de corrélation permet de détecter les éventuels groupes
de variables qui se ressemblent ou au contraire qui s'opposent donnant ainsi
un sens aux axes principaux.
On peut calculer les variances, covariances et coecients de corrélations
des composantes principales. On a par dénition :
nV ar(Zk ) = ||Zk ||2 = ⟨Zk , Zk ⟩ = t Zk Zk = t (Xc ak ) Xc ak = t ak t Xc Xc ak
d'où
1t t
V ar(Zk ) = ak Xc Xc ak = t ak M V ak = λk
n
Par dénition, le coecient de corrélation s'exprime comme suit :
Cov(Zk , Vcj )
Cor(Zk , Vcj ) = p
V ar(Zk )V ar(Vcj )
17
avec
nCov(Zk , Vcj ) = ⟨Zk , Vcj ⟩ = t Zk Vcj = t (Xc ak )Vcj = t ak t Xc Vcj
Soit
x1,1 − x̄1 x1,2 − x̄2 . . . x1,j − x̄j . . . x1,p − x̄p

    
0 0
 ..   .
.
.
.
.
.
.
.  .. 
 .   . . . .  . 


Xc  1  =  xi,1 − x̄1 xi,2 − x̄2 . . . xi,j − x̄j . . . xi,p − x̄p   1 
     
 .   . . . .   . 
 ..   .
.
.
.
.
.
.
.
  .. 
0 xn,1 − x̄1 xn,2 − x̄2 . . . xn,j − x̄j . . . xn,p − x̄p 0
x1,j − x¯j
 
.
.
.
 
 
=  xi,j − x¯j
 

 . 
.
.
 
xn,j − x¯j
= Vcj
Donc
     
0 0 0
 ..   ..   .. 
1  .   .   . 
Cov(Zk , Vcj ) = t ak t Xc Xc  1  = t ak M V  1  = λk t ak  1  = λk akj
     
n  .   .   . 
 ..   ..   .. 
0 0 0
Car
t
ak M V a k = λ k
t
et en multipliant chaque membre de l'égalité par ak on obtient :
t
ak M V I = λk t ak
Enn,
Cov(Zk , Vcj ) λk akj p akj

Cor(Zk , Vcj ) = p =p = λk p
V ar(Zk )V ar(Vcj ) λk V ar(Vcj ) V ar(Vcj )
Où akj est la jième coordonnée du vecteur unitaire ak de l'axe ∆k .
18
10.1 Interprétation et Qualité de la représentation des
variables
L'interprétation d'une ACP consiste à donner une signication à ces com-

posantes principales en fonction des anciennes variables. Plus une ancienne
variable est fortement corrélée avec la composante principale par rapport à
un axe, plus cette variable explique mieux l'information. En ce qui concerne
la qualité de la représentation des variables, si le carré du cosinus de l'angle
−−→
entre Gvj et l'axe (ou le plan, ou le sous espace) est proche de 1 c'est-à-dire
plus proche du cercle alors, on pourra dire que la variable vj est mieux re-
présentée par sa projection sur l'axe (ou le plan, ou le sous-espace). Quant à
la liaison entre les variables, lorsque deux variables sont proches du cercle et
forment un angle aigu alors, elles sont très corrélées positivement. Lorsque
deux variables sont proches du cercle de corrélations et si les vecteurs qui
les rejoignent à l'origine forment un angle droit alors, ces variables ne seront
pas corrélées entre elles. Si elles sont proches du cercle, mais dans des posi-
tions symétriques par rapport à l'origine tout en formant un angle obtu, elles
seront très corrélées négativement.
Références
[1] Gilbert Saporta, Ndèye Niang, Analyse en composantes principales : ap-

plication to Statistical Process Control (chapitre du livre Data Analysis,
de Gérard Govaert, ed. ISTE, 2008).
[2] Gilbert Saporta , Probabilités, Analyse des données et Statistiques, édi-

tions Technip, 1990.
[3] C. Duby, S. Robin, Analyse en Composantes Principales, AgroParis-

Tech,Polycopié de cours.
19

Projetbon

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Projetbon

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE DE ROUEN NORMANDIE

UFR SCIENCES ET TECHNIQUES

Tuteur : Dr. Gaëlle CHAGNY

3 Choix d'une distance 5

6 Recherche de l'axe ∆1 passant par G d'inertie minimum 10

7 Recherche des axes suivants 12

8 Contribution des axes à l'inertie totale 13

9 Représentation des individus dans les axes construits 15

10 Représentation des variables 16

L'ACP est une méthode statistique exploratoire permettant une descrip-

Les données sont les mesures eectuées sur n unités {u1 , u2 , . . . , ui , . . . , un }

et également Vj ∈ Rn le vecteur associé à vj déni par :

Pour faire une représentation géométrique, il faut choisir une distance

ainsi que la norme d'un vecteur :

Le point o correspondant au vecteur de coordonnées toutes nulles n'est

x1,1 − x̄1 x1,2 − x̄2 . . . x1,j − x̄j . . . x1,p − x̄p

et le vecteur des coordonnées centrées de l'unité ui est :

Figure 1  Représentation du nuage de points avec le centre de gravité G

Soit M V la matrice de covariance empirique de p variables quantitatives

On a donc Cov(vi , vi ) = V ar(vi ) pour i=j

5.1 Inertie totale du nuage des individus

C'est une notion fondamentale de l'ACP. On appelle inertie totale du

5.2 Inertie du nuage des individus par rapport à un axe

passant le Centre de Gravité

L'inertie du nuage des individus par rapport à un axe ∆ passant par G

sous-espace vectoriel V passant par G

Elle est égale :

où hV i est la projection orthogonale de ui sur le sous-espace V.

5.4 Décomposition de l'inertie totale

d2 (hV i , ui ) + d2 (hV ⊥i , ui ) = d2 (G, ui ) = d2 (G, hV i ) + d2 (G, hV ⊥i ) (1)

Théorème 1. Théorème fondamental de la Projection orthogonale :

vecteur y ∈ V tel que ||x − y|| = min(||x − z||, z ∈ V ) On appelle projété

orthogonal de x sur V. On le note pV (x) = hV

En particulier ⟨x − pV (x), pV (x) − G⟩ = 0.

En appliquant le théorème de Pythagore, on a :

||x − G||2 = ||x − pV (x)||2 + ||pV (x) − G||2

6 Recherche de l'axe ∆1 passant par G d'iner-

On cherche un axe ∆1 passant par G d'inertie I∆1 minimum car c'est

6.1 Expressions algébriques de I∆⊥1 et de ||a1 ||2

Montrons que MV est une matrice positive :

et comme MV est symétrique, elle est diagonalisable dans une base de

Théorème 2. Théorème des extréma liés (multiplicateur de Lagrange) ap-

Soient f et g des fonctions de Classe C 1 sur un ouvert U de Rn à valeurs

existe λ ∈ R tel que ∇f (a)= λ∇g(a).

Remarque 1. g(a) = 0 signie que ||a||2 = 1 =⇒ ||a|| = 1. Le maximum

Soit ∇f (a) = 2M V a et ∇g(a) = 2a alors il existe λ ∈ R tel que

Pour trouver le deuxième axe principal ∆2 , on écrit qu'on cherche a2 ∈ Rp

g(a) = ||a||2 − 1 = t aa − 1 = 0 et g1 (a) = ⟨a1 , a⟩ = t a1 a = 0.

Le théorème des extrema liés (ou la théorie des multiplicateurs de La-

∇f (a) = λ∇g(a) + µ∇g1 (a) ⇐⇒ 2M V a = 2λa + µa1

Donc M V a = λa alors a2 est le vecteur propre associé à λ et a2 ⊥ a1 et

On passera de la base orthogonale initiale des variables centrées à la nou-

Il s'agit ici de voir comment chaque valeur propre contribue à l'inertie

En utilisant le théorème de Huygens, on peut décomposer l'inertie totale

8.1 Interprétation des résultats d'une ACP

L'ACP fournit des représentations graphiques permettant de visualiser les

8.2 Nombre d'axes à retenir

Figure 2  Diagramme de coude

9.1 Qualité de représentation des individus

En général, an d'interpréter la proximité des projections de deux individus

Cos2 (θikk′ ) = Cos2 (θik ) + Cos2 (θik′ )

9.2 Interprétation des nouveaux axes en fonction des

10 Représentation des variables

L'ACP construit les composantes principales, nouvelles variables arti-

Les données sont les mesures eectuées sur n unités {u1 , u2 , . . . , ui , . . . , un }

et également Vj ∈ Rn le vecteur associé à vj déni par :

Figure 1 Représentation du nuage de points avec le centre de gravité G

Remarque 1. g(a) = 0 signie que ||a||2 = 1 =⇒ ||a|| = 1. Le maximum

Figure 2 Diagramme de coude

En général, an d'interpréter la proximité des projections de deux individus

L'ACP construit les composantes principales, nouvelles variables arti-

L'interprétation d'une ACP consiste à donner une signication à ces com-