Vous êtes sur la page 1sur 18

Analyse de données ISPT

L’ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

1. Introduction.
L’Analyse en Composantes Principales (notée ACP) est une méthode statistique
descriptive qui permet de résumer l’information contenue dans un tableau de données comprenant
n individus et p variables quantitatives ou métriques (échelles d’intervalles ou de proportions
discrètes ou continues et échelles d’attitude). Si nous notons X ce tableau, il se présentera sous la
forme suivante :

1 j p p variables
métriques
1 
 
X = i 
 
( n, p )
xi , j 
 
n  

valeur de la variable j
n individus
prise par l’individu i
Figure n°1 : tableau de données.
Pour clarifier cette présentation, imaginons pour l’instant que les individus sont des
étudiants et que les variables sont des notes obtenues dans différentes matières (bien entendu cet
outil statistique permettra de traiter d’autres types de tableaux comme des tableaux de mesures, de
rangs,…).

Notons que les bases de cette méthode ont été établies par K. Pearson en 1901 et
H. Hotteling en 1933. Il s’agit donc d’un outil relativement ancien mais qui de par sa nature
extrêmement « calculatoire » n’a commencé à être réellement utilisé que lorsque des moyens de
calculs puissants et peu onéreux ont été disponibles.

Si nous revenons à notre tableau de données et que, dans un premier temps, nous nous
intéressons aux individus, nous sommes capables pour chacun d’entre eux de les décrire au travers
d’un certain nombre d’indicateurs statistiques tels que la moyenne (tendance centrale) et l’écart-
type (dispersion) que chaque étudiant a obtenu (nous supposons qu’il n’y a pas de pondérations
entre les différentes matières). En ce qui concerne les variables, le même type de calcul peut être
réalisé.

1
Ainsi, si nous notons xi et si la moyenne et l’écart-type de l’étudiant i et x ′j et s′j la

moyenne et l’écart-type de la matière j (dans notre cas (tableau de notes) ces calculs ont un sens
d’un point de vue statistique), nous obtenons :

1 j p
1  x1  s1 
     
     
X = i xi , j
( n, p )    i
x et si 
     
n  

 
xn 
 
sn 

[x ′ 1 x ′j x ′p ]
et
[s ′1 s ′j s ′p ]
Figure n°2 : tableau de données et statistiques univariées.
Ces différentes statistiques univariées nous permettent déjà de résumer l’information
contenue dans notre tableau de données. Néanmoins, deux étudiants peuvent tout à fait avoir obtenu
une même moyenne et un même écart-type sans que pour autant leurs résultats dans toutes les
matières soient identiques.

1.1. Représentation des individus.


Afin d’illustrer ce problème, considérons l’exemple suivant : nous nous intéressons à trois
étudiants décrits dans un premier temps par une seule matière (variable) notée M1 pour laquelle ils
ont obtenu les résultats suivants :

M1
Etudiant A 20
Etudiant B 16
Etudiant C 4
Dans ces conditions, on peut aisément comparer ces 3 étudiants au travers tout simplement
de la représentation graphique suivante :

C B A M1
0 4 8 12 16 20
Figure n°3 : représentation graphique à une dimension.
Si maintenant nous ajoutons une deuxième variable (M2), comme indiqué dans le tableau ci-
dessous, nous constatons que les étudiants A et B obtiennent la même moyenne (18) et le même

2
écart-type (2) sans pour autant avoir des résultats équivalents dans les deux matières. Comme nous
l’avons déjà noté, les statistiques univariées sont donc ici limitées mais nous pouvons toujours
représenter graphiquement les 3 étudiants afin de visualiser leurs différences :

M1 M2
Etudiant A 20 16
Etudiant B 16 20
Etudiant C 4 4
M2
20 B
16 A
12
8
4 C
0 M1
0 4 8 12 16 20
Figure n°4 : représentation graphique à deux dimensions.
En conservant la même logique, une troisième variable pourrait être ajoutée au deux
premières. Dans ce cas, nous serions encore capables de réaliser un graphique permettant de
comparer les individus entre eux mais pour cela nous devrions déjà « tricher » en représentant sur
une feuille c’est-à-dire dans le plan (espace à deux dimensions) des individus qui en fait sont décrits
par trois variables c’est-à-dire dans un espace à trois dimensions :

M2
20
16
12
8
4
0 M1
0 4 8 12 16 20

M3
Figure n°5 : représentation graphique à trois dimensions.
Si à cette étape, nous ne considérons plus 3 mais 4 variables voire 5, 6, 50, 100 ou plus
encore, il ne sera plus question de représenter graphiquement les individus afin de les comparer. De
plus, nous n’avons étudié que trois individus. Prenons ne serait ce que quelques dizaines

3
d’individus et de nouveau, même avec une ou deux variables, les représentations graphiques
deviendraient inutiles car surchargées.

1.2. Représentation des variables.


En ce qui concerne les variables, nous pouvons enrichir les statistiques univariées à l’aide de
statistiques bivariées. Par exemple, nous pouvons calculer les coefficients de corrélation liant les
p (1 − p )
variables prises deux à deux. Comme il y a p variables, cela nous conduit donc à calculer
2
corrélations :

1 r.12 r1 p 
 
1
R = 
( p, p)  
 
 1

Figure n°6 : matrice des corrélations.

En supposant que sur une année donnée les étudiants obtiennent p=10 notes, nous devrons
donc comparer 45 coefficients de corrélations entre eux ce qui représente un travail relativement
important.

1.3. Définition et objectifs de l’ACP.


Nous venons de voir que les statistiques univariées et bivariées, pour utiles qu’elles soient,
sont limitées. Pour les enrichir, on peut recourir à des représentations graphiques mais celles-ci ne
sont réalisables que dans des situations extrêmement restrictives (2 variables et faible nombre
d’individus). Enfin, examiner les coefficients de corrélations n’est à nouveau réaliste que dans le
cas où le nombre de variables est limité.

Imaginons maintenant que nous désirions traiter et synthétiser l’information contenue


dans un vaste tableau de données (pour fixer les idées, considérons un tableau X comprenant par
exemple n=1 000 lignes (individus) et p=50 colonnes (variables)). Comme les méthodes décrites
précédemment ont montré leurs limites, nous devrons en utiliser une autre, à savoir l’Analyse en
Composantes Principales que nous pouvons définir comme :

Méthode descriptive permettant de résumer sous une forme statistique et graphique le


maximum de l’information contenue dans un (vaste) tableau de données quantitatives.

4
Ainsi, au travers de l’ACP, nous chercherons à représenter les variables en fonction de
leurs corrélations c’est-à-dire à savoir comment se structurent les variables entre elles :
 quelles sont celles qui sont associées ?
 quelles sont celles qui ne le sont pas ?
 quelles sont celles qui vont dans le même sens ?
 quelles sont celles qui s’opposent ?

et à représenter les individus en fonction de leurs « proximités » :


 quels sont ceux qui se ressemblent ?
 quels sont ceux qui sont dissemblables ?

Si nous nous intéressons aux individus (la logique est la même pour les variables), le
problème est que chaque individu est décrit par p variables (on dira qu’il est représenté dans un
espace à p dimensions ou IRp) et que nous ne sommes capables de représenter graphiquement les
individus que dans des espaces de dimension inférieure ou égale à 3 (et même à 2). L’un des
objectifs de l’ACP sera donc de réduire le nombre de variables (trouver des espaces de dimension
plus petite) afin de mieux se représenter (visualiser) les individus.

Concrètement, nous devrons projeter les individus décrits dans un espace à p dimensions
dans un espace à deux dimensions (le plan). Le problème dans ce cas est que nous allons déformer
la réalité (c’est-à-dire la distance séparant les individus dans IRp). Le but de l’ACP sera donc de
projeter au mieux les individus afin de déformer au minimum la réalité.

2. Présentation de l’ACP sur un exemple.

2.1. Le tableau de données.


Pour illustrer la méthodologie de calcul de l’ACP, nous allons considérer un tableau X dans
lequel n=10 étudiants ont été notés sur p=4 matières. Notons que pour les besoins de cette analyse,
les notes en Comptabilité et en Gestion financière sont supposées être sur 40 alors que les deux
autres sont sur 20. Il s’agit, bien sûr, d’un exemple simplifié.

Pour chacun des étudiants, nous avons calculé sa note moyenne (en ramenant les notes de
Comptabilité et de gestion Financière à leur équivalent sur 20) et pour chacune des matières
(variables) la moyenne et l’écart-type1.

1
Vous remarquerez que les écart-types ont été calculés avec n le nombre d’individus au dénominateur et
non pas n-1 car nous ne sommes pas en présence d’un problème d’estimation (inférence statistique).
5
De plus, nous avons ajouté à l’identifiant de chacun des individus le suffixe « + » ou « - »
selon que l’étudiant a obtenu une moyenne générale supérieure ou inférieure à 10.

Statistiques Math Cpta G° Fi Moyenne Ecart-type


Ind1+ 19 14 8 18 11.50 4.32
Ind2- 20 12 4 4 9.00 6.63
Ind3+ 10 10 32 38 13.75 12.68
Ind4- 13 17 4 4 8.50 5.68
Ind5- 6 8 26 24 9.75 9.06
Ind6- 6 3 28 32 9.75 12.87
Ind7+ 19 16 8 20 12.25 4.71
Ind8- 15 18 6 6 9.75 5.36
Ind9+ 9 2 32 30 10.50 13.01
Ind10- 8 7 20 20 8.75 6.26

Moyenne 13 11 17 20
Ecart-type 5.20 5.39 11.32 11.38

Tableau n°1 : données initiales – X.


Dans le tableau ci-dessous figure la matrice des corrélations entre les 4 variables
(Statistiques, Mathématiques, Comptabilité et Gestion Financière) :

Statistiques Math Cpta G° Fi


Statistiques 1.0000 0.7265 -0.8186 -0.6084
Math 0.7265 1.0000 -0.8489 -0.7069
Cpta -0.8186 -0.8489 1.0000 0.9124
G° Fi -0.6084 -0.7069 0.9124 1.0000

Tableau n°2 : matrice R des corrélations.


On constate en examinant cette matrice que nous avons en fait deux groupes de variables :
d’une part les matières que l’on qualifiera de « scientifiques » (Statistiques et Mathématiques) et
d’autre part les matières dites de « gestion » (Comptabilité et Gestion financière). Les matières
scientifiques sont fortement positivement corrélées entre elles (rStat,Math=0.7265) de même que les
matières de gestion (rCpta,G° Fi=0.9124) tandis qu’entre ces deux blocs les corrélations sont fortement
négatives (exemple : rMath,Cpta=-0.8489).

Cela signifie concrètement qu’un étudiant « bon » en statistiques le sera également en


Mathématiques mais en revanche sera plutôt « mauvais » en Comptabilité et en Gestion financière
et inversement. Ce commentaire, facile à obtenir sur cet exemple de taille réduite (faible nombre de
variables et d’individus), sera, comme nous le verrons ultérieurement, le résultat que nous fournira
l’ACP.

2.2. Méthodologie de calcul.


Si on note X1,… Xj,… Xp les différentes variables (Statistiques, Mathématiques,
Comptabilité et Gestion financière) initiales plus ou moins corrélées entre elles, l’ACP va
rechercher de nouvelles variables Y1,… Yj,… Yp que l’on appelle composantes principales qui elles
6
ne seront pas corrélées et qui devront résumer au mieux les données de départ. Ces composantes
principales sont en fait des indices synthétiques, c’est-à-dire, des combinaisons linéaires des
variables initiales (X1,… Xj,… Xp).

2.2.1. Centre de gravité, inertie et centrage et réduction des variables.

Dans un premier temps, nous calculons le centre de gravité du nuage d’individus, c’est-à-
dire, un vecteur contenant les valeurs moyennes de chacune de nos variables. Si nous notons ce
centre de gravité g, nous avons ici g=(13, 11, 17, 20) qui représente en quelque sorte « l’étudiant
moyen ». N’oublions pas que les deux dernières notes sont sur 40.

Nous devons ensuite calculer la dispersion de notre nuage d’individus autour de son centre
1 n 2
de gravité, quantité que nous nommerons inertie totale et qui sera telle que : I = ∑ d (xi , g ) où d2
n i =1
représente simplement le carré de la distance (euclidienne) séparant le point xi du centre de gravité

g. Ainsi, nous obtenons : I = ∑∑ (xij − x j ) ce qui après transformation peut s’écrire I = ∑ s j


p
1 n p 2 2

n i =1 j =1 j =1

c’est-à-dire que l’inertie totale est égale à la somme des variances des p variables.

Dans notre exemple, nous obtenons I=27.05+29.01+128.16+129.44=313.66, l’inertie totale


du nuage étant essentiellement due aux variables Comptabilité et Gestion financière. Ce résultat
dépend du fait que pour ces deux matières la note n’est pas sur 20 mais sur 40. Si jamais nous
transformions les résultats de ces deux matières en notes sur 20, nous obtiendrions
I=27.05+29.01+32.04+32.36=120.46 c’est-à-dire une situation dans laquelle le rôle des variables de
« gestion » serait beaucoup moins important.

Ainsi, le choix de l’échelle de mesure influence fortement la part d’inertie de chacune des
variables (pour s’en convaincre, on peut transformer par exemple la note de Mathématiques en une
note sur 1 000).

Dans notre exemple, il est aisé de ramener toutes les notes à leur équivalent sur 20.
Maintenant, imaginons qu’au lieu de travailler sur des notes, nous nous intéressions à des variables
concernant des individus telles que la taille, le poids, l’âge, le salaire,… Ces variables s’exprimant
naturellement avec des unités de mesure différentes (d’ailleurs, doit-on mesurer le poids en
kilogrammes ou en livres, la taille en centimètres, en mètres ou en pieds, l’âge en jours, en mois ou
en années,…), la seule manière que nous avons de rendre ces données « homogènes » c’est de les
X j − xj
centrer et de les réduire selon la formule habituelle : X *j = . Ainsi donc, l’individu 1 ne sera
sj

7
plus décrit par des notes égales à 19 (Statistiques), 14 (Mathématiques), 8 (Comptabilité) et 18
(Gestion financière) mais par les résultats figurant dans le tableau ci-dessous :

Statistiques Math Cpta G° Fi


Ind1+ 1.2498 0.6127 -0.7773 -0.1406
Ind2- 1.4420 0.2414 -1.1307 -1.3712
Ind3+ -0.4807 -0.1300 1.3427 1.6173
Ind4- 0.0961 1.1697 -1.1307 -1.3712
Ind5- -1.2498 -0.5013 0.8127 0.3867
Ind6- -1.2498 -1.4296 0.9893 1.0899
Ind7+ 1.2498 0.9840 -0.7773 0.0352
Ind8- 0.4807 1.3553 -0.9540 -1.1954
Ind9+ -0.6730 -1.6153 1.3427 0.9141
Ind10- -0.8652 -0.6870 0.2827 0.0352

Moyenne 0 0 0 0
Ecart-type 1 1 1 1

Tableau n°3 : données centrées-réduites2 – X * .


2.2.2. Calcul du premier axe principal et de la première composante (facteur)
principale.

Le premier axe principal est en fait une droite (définie dans IRp) passant par le centre
d’inertie du nuage de points centré-réduit (c’est-à-dire g=0) et maximisant son inertie sur cette
droite. Sans reprendre la démonstration mathématique conduisant à ce résultat3, on montre que cette
droite est engendrée par le vecteur propre (axe, dont la norme est égale à 1) de la matrice des
corrélations R associé à la plus grande valeur propre (maximisation de l’inertie). Dans le tableau
ci-dessous, nous avons fait figurer les 4 valeurs propres (λj) ordonnées dans le sens décroissant et
vecteurs propres (uj) correspondants de R (il y a 4 valeurs et vecteurs propres car R est une matrice
carrée de taille 4×4). Dans un premier temps, nous ne nous intéresserons qu’à u1 et λ1 :

Valeur propres 1 2 3 4
Valeur 3.3189 0.4035 0.2508 0.0268

Vecteurs propres 1 2 3 4
Statistiques -0.4739 -0.7026 -0.4618 0.2615
Math -0.4951 -0.1538 0.8381 0.1698
Cpta 0.5405 -0.1432 0.1271 0.8193
G° Fi 0.4880 -0.6798 0.2610 -0.4812

Tableau n°4 : valeurs et vecteurs propres.

2
Le centre de gravité de ce nouveau nuage de points est par construction égal à 0 et l’inertie totale I au nombre
de variables c’est-à-dire ici que I=p=4.
3
Le lecteur intéressé par une telle démonstration pourra se rapporter aux ouvrages de G. Saporta cités dans la
bibliographie.

8
La première composante principale Y1 (définie pour tout individu i) est égale au produit
scalaire entre le premier vecteur propre (les valeurs de u1 sont écrites en caractères gras) et les
valeurs de X * (en italiques). Ainsi, pour le premier individu, nous avons :

Y1(Ind1+)=-0.4739*1.2498-0.4951*0.6127+0.5405*(-0.7773)+0.4880*(-0.1406)=-1.3844.

En répétant ce calcul à l’ensemble des individus et pour l’ensemble des axes, nous
obtenons :

axe 1 axe 2 axe 3 axe 4


Ind1+ -1.3844 -0.7654 -0.1992 -0.1383
Ind2- -2.0832 0.0437 -0.9653 0.1517
Ind3+ 1.8071 -0.9340 0.7058 0.1739
Ind4- -1.9049 0.8467 0.4343 -0.0427
Ind5- 1.4685 0.5759 0.3613 0.0677
Ind6- 2.3667 0.2153 -0.2108 -0.2836
Ind7+ -1.4825 -0.9420 0.1579 -0.1598
Ind8- -1.9978 0.4031 0.4807 0.1495
Ind9+ 2.2904 -0.0925 -0.6337 0.2098
Ind10- 0.9201 0.6492 -0.1310 -0.1283

Tableau n°5 : composantes principales ou coordonnées des individus sur les nouveaux axes.
En introduction, nous avons vu comment il était possible de représenter graphiquement des
individus décrits par une seule variable. En suivant cette logique de représentation graphique, on
peut positionner nos 10 individus le long d’un axe représentant la première composante principale.
Nous obtenons le résultat suivant :

Ind8- Ind7+ Ind10- Ind5- Ind3+ Ind6-

Ind2- Ind4- Ind1+


-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5
Ind9+

Figure n°7 : représentation des individus sur la première composante principale.


Sans pour l’instant nous livrer à aucune interprétation, on constate qu’il y a deux groupes
d’individus qui s’opposent clairement le long de cet axe.

D’autre part, ces composantes principales possèdent un certain nombre de propriétés


intéressantes. Dans un premier temps, comme elles se calculent à partir d’une combinaison linéaire
avec des variables centrées ( X * ), les composantes principales ont donc une moyenne nulle (elles
sont elles aussi centrées).

De plus, on montre que la variance d’une composante principale est égale à l’inertie du
nuage des points projetés sur l’axe correspondant. Par exemple, la variance de la première
composante principale est égale à la première valeur propre (Var(Y1)=λ1). Sachant que λ1 est par
construction la plus grande des valeurs propres, on voit donc que c’est bien la première composante
principale qui rend le mieux compte de la dispersion des individus.
9
2.2.2.1. Qualité de la première composante principale.

Pour mesurer la qualité d’une composante principale (facteur), on rapporte tout simplement
son inertie (mesurée par λ) à l’inertie totale du nuage de point (I). Ainsi, dans notre exemple où
nous avons λ1=3.3189 et I=p=4, le taux d’inertie restitué par la première composante principale

(facteur) est égal à


λ1 = 3.3189 = 82.97 % .
I =4

Cette valeur approximativement égale à 83 % pourrait être comparée à la « valeur


moyenne » de l’inertie apportée par chaque variable initiale qui dans notre cas est égale à
1/(p=4)=25 % (car nous travaillons sur des données centrée-réduites ou encore avec la matrice des
corrélations). Cette règle, très empirique, nous indique ici que la première composante principale
restitue une très forte part de l’inertie totale et qu’elle résume donc bien l’information contenue
dans notre tableau de données initiales. Cela correspond donc à l’objectif initialement fixé pour la
définir.

En répétant ce processus pour les composantes principales (facteurs) suivantes, nous


obtenons le tableau ci-dessous qui nous indique que si 83 % de l’inertie est restituée par le premier
axe, le deuxième n’en restitue plus que 10 %, le troisième 6 % et le dernier 1 % :

Valeur propres 1 2 3 4
Valeur 3.3189 0.4035 0.2508 0.0268
% d'inertie 83% 10% 6% 1%

Tableau n°6 : taux d’inertie.


2.2.2.2. Qualité de la représentation des individus sur la première composante principale.

Comme nous l’avons déjà précisé, la projection d’un individu décrit dans IRp sur une droite
(IR1) conduit à déformer la réalité (distance entre les individus). Partant de là, nous utilisons un
indicateur nous permettant de juger de la qualité de cette projection à savoir le cosinus carré de
l’angle formé par le vecteur X i* et le premier axe principal4. Un cosinus carré ayant une valeur
proche de 1 traduit une bonne (« fidèle ») représentation de l’individu sur l’axe correspondant et
inversement si le cosinus carré est proche de zéro.

Cette étape est extrêmement importante car si nous nous reportons à la figure n°7 page 9, le
commentaire que nous avons fait n’est pertinent que si les individus sont bien représentés. Dans
notre exemple (cf. tableau ci-dessous), on constate que les individus sont tous bien représentés sur
l’axe 1.

4
Le détail du calcul des cosinus carrés peut être trouvé dans les deux ouvrages de G. Saporta ou dans celui de
L. Lebart, A. Morineau et M. Piron.

10
axe 1 axe 2 axe 3 axe 4
Ind1+ 0.7483 0.2287 0.0155 0.0075 1
Ind2- 0.8194 0.0004 0.1759 0.0043 1
Ind3+ 0.6998 0.1869 0.1068 0.0065 1
Ind4- 0.8000 0.1580 0.0416 0.0004 1
Ind5- 0.8221 0.1264 0.0498 0.0017 1
Ind6- 0.9703 0.0080 0.0077 0.0139 1
Ind7+ 0.7009 0.2830 0.0080 0.0081 1
Ind8- 0.9056 0.0369 0.0524 0.0051 1
Ind9+ 0.9203 0.0015 0.0705 0.0077 1
Ind10- 0.6504 0.3238 0.0132 0.0126 1

Tableau n°7 : cosinus carrés des individus sur les nouveaux axes.
Remarque : les 1 apparaissant dans la dernière colonne indiquent simplement que les
individus sont parfaitement représentés dans un espace défini par les 4 axes ce qui est
logique puisqu’initialement ils sont décrits par p=4 variables.

2.2.2.3. Contribution des individus à la formation de la première composante principale.

Arrivé à cette étape, il serait intéressant de savoir dans quelle mesure chaque individu
contribue à la formation de la première composante principale5. Cela pourra notamment s’avérer
utile pour vérifier qu’un individu contribuant trop fortement n’est pas en fait atypique ou
« victime » d’une erreur de saisie. Pour notre exemple, nous obtenons :

axe 1 axe 2 axe 3 axe 4


Ind1+ 6% 15% 2% 7%
Ind2- 13% 0% 37% 9%
Ind3+ 10% 22% 20% 11%
Ind4- 11% 18% 8% 1%
Ind5- 6% 8% 5% 2%
Ind6- 17% 1% 2% 30%
Ind7+ 7% 22% 1% 10%
Ind8- 12% 4% 9% 8%
Ind9+ 16% 0% 16% 16%
Ind10- 3% 10% 1% 6%

100% 100% 100% 100%

Tableau n°8 : contribution des individus à la formation des nouveaux axes.


Ces résultats nous indiquent que les individus 6 et 9 contribuent « fortement » à la formation
de la première composante principale. Nous verrons dans le cours comment traiter le problème
des individus atypiques.

5
De nouveau, le détail des calculs n’est pas repris dans cette note introductive.

11
2.2.3. Calcul du deuxième axe principal et de la deuxième composante (facteur)
principale.

Le deuxième axe et la deuxième composante principale vont être déterminés de façon


analogue aux premiers. En fait, on montre que le deuxième axe est orthogonal au premier (on peut
le vérifier en calculant le coefficient de corrélation linéaire entre les deux premières composantes
principales) et qu’il est engendré par le deuxième vecteur propre de la matrice des corrélations
associé à la valeur propre λ2 (cf. tableau n°4 page 8). Il apporte donc à son tour la plus grande part
d’inertie (restante) possible.

La deuxième composante principale (tableau n°5 page 9) ainsi que les cosinus carrés
(tableau n°7 page 11) et les contributions des individus (tableau n°8 page 11) sont calculés de la
même façon que pour la première.

A l’aide des résultats concernant la deuxième composante principale, on va pouvoir enrichir


la figure n°7 de la page 9 en représentant les individus non plus seulement le long d’une droite mais
dans un plan défini par les deux premières composantes principales, plan que l’on a coutume de
nommer premier plan factoriel :

1.0

Ind4-
0.8
Ind10-
0.6 Ind5-

Ind8- 0.4
Ind6-
0.2

Ind2-
0.0
-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5
Ind9+
-0.2

-0.4

-0.6

Ind1+ -0.8
Ind7+ Ind3+
-1.0

Figure n°8 : représentation des individus dans le premier plan factoriel6.

6
L’axe horizontal représente la première composante principale et l’axe vertical la deuxième.

12
Sachant de plus que le premier axe restitue 83 % de l’inertie et que le second en restitue
10 %, nous sommes autorisés à sommer ces deux taux d’inertie spécifiques aux deux premiers axes
pour obtenir le taux d’inertie restitué par le premier plan factoriel à savoir celui engendré par les
composantes principales (facteurs) 1 et 2. C’est ce que nous appelons l’inertie cumulée et qui
apparaît dans le tableau ci-dessous :

Valeur propres 1 2 3 4
Valeur 3.3189 0.4035 0.2508 0.0268
% d'inertie 83% 10% 6% 1%
% cumulé 83% 93% 99% 100%

Tableau n°9 : pourcentages d’inertie cumulés.


On constate ainsi que ce premier plan factoriel défini à l’aide des deux premières
composantes principales permet de restituer quasiment toute l’information (93 %) contenue dans
notre tableau initial mais en divisant le nombre de variables par 2 (2 composantes vs. 4 variables
(Statistiques, Mathématiques, Comptabilité et Gestion Financière)).

Si maintenant nous revenons à la figure précédente (figure n°8 page 12), on constate la
présence de quatre groupes d’individus symbolisés à l’aide d’ellipses. Avant d’aller plus loin, il faut
vérifier que ces individus sont bien représentés. Pour cela, on va sommer les cosinus carrés des
individus sur les composantes 1 et 2 (cf. tableau ci-dessous). Ce faisant, on constate que tous les
individus sont bien représentés et on est donc autorisé à interpréter leur proximité sur le premier
plan factoriel comme représentant leur proximité par rapport aux 4 variables initiales.

axe 1 axe 2 Somme


Ind1+ 0.7483 0.2287 0.9770
Ind2- 0.8194 0.0004 0.8197
Ind3+ 0.6998 0.1869 0.8868
Ind4- 0.8000 0.1580 0.9580
Ind5- 0.8221 0.1264 0.9485
Ind6- 0.9703 0.0080 0.9784
Ind7+ 0.7009 0.2830 0.9839
Ind8- 0.9056 0.0369 0.9425
Ind9+ 0.9203 0.0015 0.9218
Ind10- 0.6504 0.3238 0.9742

Tableau n°10 : cosinus carrés des individus dans le premier plan factoriel.
Ces résultats ne nous permettent pas pour l’instant d’obtenir des informations très
intéressantes si ce n’est que les deux premières composantes principales résument très bien (93 %)
l’information contenue dans notre tableau de données et qu’il semblerait que nous ayons 4 groupes
d’individus. En effet, nous ne savons pas comment qualifier ces groupes.

Nous avons substitué aux 4 variables initiales deux composantes principales. Le problème
est que si nous savons à quoi correspondent les variables initiales (on visualise bien la différence
existant entre les Mathématiques et la Comptabilité), nous ne savons pas ce que concrètement
13
représentent les composantes principales. Une étape extrêmement importante de toute ACP va donc
consister à qualifier les composantes principales (facteurs).

2.2.3. Calcul des corrélations entre les composantes principales (facteurs principaux) et
les variables initiales.

De même que pour les cosinus carrés et les contributions des individus, nous ne présentons
pas ici le détail des calculs permettant d’obtenir les corrélations entre les variables et les
composantes principales (facteurs principaux). En revanche, nous allons nous intéresser aux
commentaires des résultats que nous obtenons et qui vont se faire à deux niveaux.

facteur 1 facteur 2 facteur 3 facteur 4


Statistiques -0.8634 -0.4463 -0.2313 0.0428
Math -0.9020 -0.0977 0.4197 0.0278
Cpta 0.9847 -0.0910 0.0636 0.1340
G° Fi 0.8890 -0.4318 0.1307 -0.0787

Tableau n°11 : corrélations variables/facteurs.


1.0

0.8

0.6

0.4

0.2

Mathématiques
0.0
-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0

-0.2
Comptabilité

-0.4
Statistiques Gestion financière
-0.6

-0.8

-1.0
Figure n°9 : cercle des corrélations.

14
Remarque : comme une corrélation est nécessairement comprise entre –1 et +1, nous
représentons les variables à l’intérieur d’un cercle de rayon égal à 1 comme nous pouvons
le constater ci-dessus.

2.2.3.1. Corrélations entre les variables initiales.

Avant toute chose, il est nécessaire de vérifier la qualité de la représentation d’une variable
dans un plan donné. On dira qu’une variable est bien représentée si elle est fortement corrélée avec
les composantes (facteurs) ou, en d’autre termes, si la pointe du vecteur qui la représente est proche
du cercle des corrélations. Dans notre exemple, toutes les variables sont donc bien représentées.

Sachant que les variables sont bien décrites dans le plan 1-2, nous observons deux groupes
qui s’opposent avec d’un coté les matières dites « scientifiques » et de l’autre les matières de type
« gestion ».

Remarque : le fait que nous trouvions les matières « scientifiques » à gauche et les
matières de « gestion » à droite n’a aucune interprétation. En effet, le cercle des
corrélations (et partant de là les plans factoriels des individus) est défini à une symétrie
horizontale et/ou verticale près. Concrètement, la seule information intéressante est liée à
l’opposition entre ces deux groupes de variables.

De façon générale, lorsque l’angle séparant deux variables est proche de 180° cela traduit
une forte corrélation négative (comme entre Mathématiques et Comptabilité). Si l’angle est
proche de 0°, on sera en présence d’une forte corrélation positive (comme entre Comptabilité et
Gestion Financière). Finalement, un angle de 90° (vecteurs orthogonaux) équivaut à une
corrélation nulle entre les deux variables.

2.2.3.1. Corrélations entre les variables initiales et les composantes (facteurs) principales.

En appliquant la règle que nous venons de définir, nous constatons que l’angle entre les
variables Mathématiques et Comptabilité et le premier facteur (horizontal) est soit proche de 180°
soit proche de 0°. Par conséquent, il y a une forte corrélation (on ne précise pas son signe) entre ces
deux variables et la première composante. Cette première composante se définira donc comme
représentant une opposition entre Mathématiques (et dans une moindre mesure Statistiques) et
Comptabilité (et dans une moindre mesure Gestion Financière).

De façon résumée, l’axe 1 traduit tout simplement une opposition entre matières
« scientifiques » et matières de type « gestion ». Si nous rapportons cette observation au
graphique n°7 de la page 9 (repris ci-dessous), nous pouvons en déduire que les individus 2, 8, 4, 7
et 1 sont « bons » en mathématiques et les autres (6, 9, 3, 5 et 10) en comptabilité (vous pouvez
consulter le tableau des données initiales (tableau n°1 de la page 6) pour vérifier cette information).
15
Ind8- Ind7+ Ind10- Ind5- Ind3+ Ind6-

Ind2- Ind4- Ind1+


-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5
Ind9+

Maintenant que nous avons défini le premier axe, il nous faut en faire autant pour le second.
Dans cet exemple, ce n’est pas évident. Néanmoins, nous remarquons que toutes les variables
pointent dans une même direction par rapport à l’axe 2 (vers le bas). Cela nous permet de déduire
que si l’axe 1 oppose les « scientifiques » aux « gestionnaires » et bien l’axe 2 va lui opposer les
« bons étudiants » (en bas) aux « mauvais étudiants » en haut (rappelez vous que seule l’opposition
compte et pas le fait d’être en haut ou en bas).

Pour illustrer ces propos, si vous consultez le graphique n°8 de la page 12, vous constaterez
que tous les étudiants dont l’identifiant se termine par un « + » (moyenne supérieure à 10) sont en
bas et les autres (identifiant se terminant par un « - ») sont en haut. Partant de là, on peut affiner nos
commentaires et qualifier les quatre groupes que nous avions obtenus :

Individus 10, 5 et 6 : moyenne générale inférieure à 10 mais pas


trop « mauvais » en Comptabilité et Gestion Financière,

Individus 9 et 3 : moyenne générale supérieure à 10 et surtout


« bons » en Comptabilité et Gestion Financière,

Individus 7 et 1 : moyenne générale supérieure à 10 et surtout


« bons » en Mathématiques et Statistiques,

Individus 2, 8 et 4 : moyenne générale inférieure à 10 mais pas


trop « mauvais » en Mathématiques et Statistiques.

3. Conclusion.
Nous avons dans cette note présenté les bases de l’ACP. Néanmoins, un certain nombre de
points comme la possibilité de projeter des variables et/ou des individus illustratifs (ou
supplémentaires) restent à développer.

De plus, nous avons volontairement cherché à minimiser le formalisme mathématique. Cela


s’explique par le fait que tous les calculs sont réalisés automatiquement par les ordinateurs et que
l’interprétation est beaucoup plus importante que la technique en elle-même.

16
Bibliographie.

Sont présentés ci-dessous un certain nombre d’ouvrages permettant soit d’approfondir


l’aspect mathématique de l’ACP (ouvrages techniques), soit de l’étudier sous un angle plus
pragmatique (ouvrages pratiques).

Ouvrages « techniques ».

L’Analyse des Données, JM. Bouroche et G. Saporta, Que Sais-Je ? n°1854, PUF.

Statistique Exploratoire Multidimensionnelle, L. Lebart, A. Morineau et M. Piron, Dunod.

Probabilités, Analyse des Données et Statistique, G. Saporta, Editions Technip.

Méthodes Statistiques en Gestion, M. Tenenhaus, Dunod.

Ouvrages « pratiques ».

Market – Etudes et Recherches en Marketing, Y. Evrard, B. Pras et E. Roux, Nathan.

Guide pratique d’Analyse des Données, JP. Crauser, Y. Harvatopoulos et P . Sarnin, Les Editions
d’Organisation.

17
SOMMAIRE.

1. Introduction. ............................................................................................................ 1

1.1. Représentation des individus.................................................................................................2

1.2. Représentation des variables.................................................................................................4

1.3. Définition et objectifs de l’ACP.............................................................................................4

2. Présentation de l’ACP sur un exemple.................................................................. 5

2.1. Le tableau de données. ...........................................................................................................5

2.2. Méthodologie de calcul...........................................................................................................6

2.2.1. Centre de gravité, inertie et centrage et réduction des variables. .....................................7

2.2.2. Calcul du premier axe principal et de la première composante (facteur) principale. .......8

2.2.2.1. Qualité de la première composante principale. .................................................................. 10

2.2.2.2. Qualité de la représentation des individus sur la première composante principale........... 10

2.2.2.3. Contribution des individus à la formation de la première composante principale............. 11

2.2.3. Calcul du deuxième axe principal et de la deuxième composante (facteur) principale. 12

2.2.3. Calcul des corrélations entre les composantes principales (facteurs principaux) et les
variables initiales. .....................................................................................................................14

2.2.3.1. Corrélations entre les variables initiales............................................................................ 15

2.2.3.1. Corrélations entre les variables initiales et les composantes (facteurs) principales.......... 15

3. Conclusion. ............................................................................................................. 16

Bibliographie.............................................................................................................. 17

18

Vous aimerez peut-être aussi