Chapitre 2 L'Analyse en Composantes Principales (ACP)

Module d’Analyse des Données 5ème année Economie et Prospective
Chapitre 2 : L’Analyse en Composantes Principales
(ACP)
1. Introduction
L’Analyse en Composantes Principales (ACP) est sans doute la méthode d’analyse de
données la plus connue et la plus utilisée. Proposée dès les années 30 par HOTELLING (1933),
mais nécessitant d’importants calculs numériques, L’ACP n’est devenue une technique
opérationnelle qu’à partir des années 60, avec le développement des moyens de calculs
informatique.
Elle est la méthode de base en statistique exploratoire multidimensionnelle (ou analyse des
données)
- Multidimensionnelle : l’analyse porte sur plusieurs variables
- Exploratoire : descriptive (par opposition à inférentielle) Il s’agit de résumer
l’information portant sur plusieurs variables en :
- faisant émerger des liaisons entre variables
- formant des groupes d’individus se ressemblant.
L’analyse en composantes principales présente de nombreuses variantes selon les
transformations apportées au tableau de données : le nuage de points des individus peut être
centré ou non, parmi ces variantes, l’analyse en composantes principales normée (nuage centré-
réduit) certainement la plus utilisée.
2. Les données en ACP

En ACP les données se présentent dans un tableau X à n lignes et p colonnes où :
- Chaque ligne représente un individu
- Chaque colonne représente une variable
Les variables sont quantitatives : la matrice X est constituée de valeurs numériques
Analyse des données 1

X est une matrice (n × p) de valeurs numériques :
Un individu est un élément de
Le ième individu :
Une variable est un élément de
La jème variable :

3. Principe de l’ACP
Le principe de l’ACP est d’obtenir une représentation approchée du nuage des individus
N(I) dans un sous espace de faible dimension k inférieur ou égale à p et pour cela on projette
les individus sur un sous espace de dimension faible, le choix de sous espace de projection
s’effectue suivant le critère : « les distances en projection doivent être déformées le plus
possible ».ce qui veut dire l’inertie du nuage projetée sur le sous espace (F) doit être maximale.
On dispose des observations de p variables quantitatives sur n individus, on associe à
chaque individu poids Pi. Les valeurs sont rangées dans un tableau à n lignes et p colonnes ;
On note X la matrice associée à ce tableau :
Où est la valeur prise par la variable j sur l’individu i. (on peut écrire aussi )
Une variable j sera identifié au vecteur , et un individu i sera identifié au
Vecteur .
3.1 Les Poids affectés aux Individus (Données Centrées Réduites)

A) La Matrice des Poids
Afin de calculer la distance entre deux variables, il est parfois nécessaire d’attribuer
des poids aux individus selon l’importance que l’on souhaite leur donner.
On appellera alors matrice des poids la matrice :

Souvent, on aura : D = (1/n) In où In est la matrice identité, c’est-à-dire que l’on
affecte le même poids à chaque individu : = (1/n)
B) Le Centre De Gravité du Tableau

On appellera centre de gravité associé à la matrice des poids D le vecteur g défini par :
Est en fait la moyenne pondérée des valeurs de la variable j prises par l’ensemble des
individus.
C) Le Tableau De Données Centrées Réduites
On note :
Où est la variance de la variable j.
On note de même la covariance entre les
variables j et et le coefficient de corrélation linéaire entre les variables j et .
Le tableau centré réduite associé à X, noté Z, est défini
Par :
Où : la matrice associé à (Données Centrées)

D) La Matrice de Variance-Covariance et La Matrice de Corrélation
En utilisant les notions précédentes, la matrice de variance-covariance s’écrit :
La Matrice de Corrélation : R
En effet, R est la matrice de variance-covariance du tableau de données centrées réduites.

Ainsi, R résume la structure des dépendances linéaires entre p variables.
E) La détermination des facteurs et des composantes principales (traitement géométrique)

Lors de la projection, le nuage de points peut être déformé est donc serait
différent de réel, alors les méthodes d’ajustement consistent a minimisé cette possible
déformation et ce en maximisant les distances projetées.
Comme la régression, l’analyse en composantes principales ACP peut être présentée dans deux
espaces : celui des individus et celui des variables.
La dispersion d’un nuage de points unidimensionnel par rapport à sa moyenne se
mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuage par rapport à son
barycentrese se mesure par l’inertie.
On remarque que l’inertie est définie comme la somme des distances au carré des
points à leur centre de gravité. Dans le cas où les variables sont quantitatives, c’est aussi la
somme des variances empiriques de chacune des variables, c’est à dire la trace de la matrice de
variance-covariance empirique
L’inertie I : est une quantité réelle qui mesure la dispersion des individus dans
l’espace à p dimensions.
- Lorsque les variables sont centrées et réduites I = p

- Une inertie nulle signifie que tous les individus sont identiques

Décomposition de l’inertie
• L’Idée : construction d’une suite de p axes permettant de restituer la forme du

nuage
• Construction itérative
• On en déduit des représentations planes simples à interpréter
• Principe de réduction de la dimension
• Basé sur la décomposition de l’inertie
• 1er axe : Axe principal de variabilité du nuage
p
• Direction de R qui maximise l’inertie projetée : On cherche telle que
maximum.
• Projection orthogonale des points sur l’axe 1 :
• On cherche ensuite un axe , orthogonal à qui maximise l’inertie projetée

• C’est le second axe de variabilité du nuage
• Ce second axe présente moins de variabilité que le précédent …etc.

1) Dans l’espace des individus N(I)

L’objet de l’ACP est de décrire de façon synthétique la dispersion du nuage de
points selon les étapes suivantes :
- A l’étape 1, L’ACP détermine l’axe F1 passant par l’origine selon lequel la dispersion
du nuage de points est maximale ; cet axe F1 passe au plus près du nuage de points,
c'est-à-dire est tel que la moyenne des carrées des distances entre les n points et l’axe F1
est minimale.
Soit le vecteur directeur normé de F1 ; est alors le vecteur propre normé associé à la
valeur propre la plus élevée de la matrice de corrélation entre les variables
2
3
- A l’étape p, L’ACP détermine l’axe Fp passant par l’origine, de vecteur directeur
normé orthogonal aux axes ( ) des étapes précédentes, selon lequel la
dispersion du nuage de points est maximales ; cet axe Fp passe au plus près du nuage
de points, c'est-à-dire est tel que la moyenne des carrées des distances entre les n points
et l’axe Fp est minimale.
2) Dans l’espace des variables N(J)
- A l’étape 1, L’ACP détermine U1 le vecteur propre de : associé à sa valeur
propre la plus élevée.

2
3
- A l’étape p, L’ACP détermine une variable synthétique Up résumant le mieux
possible les variables de départ, et non corrélée aux (p-1) premières composantes
principales c'est-à-dire détermine Up le vecteur propre de associé à sa pième
valeur propre la plus élevée disponible.

F) La Démarche de La Méthode (traitement algébrique)
Algébriquement, il s’agit de chercher les valeurs propres maximales de la matrice des

données et par conséquent ses vecteurs propres associés qui représenteront ces sous
espaces vectoriels (axes factoriels ou principales).
La démarche de l’ACP peut se résume donc dans l’algorithme suivant :
 Calcul des moyennes des variables
 Calcul de l’écart type des variables tel que
Si les écarts types sont égaux alors les variables sont homogènes, et on utilise une
ACP simple (non normée).
Sinon les variables sont hétérogènes, on utilisera une ACP normée.
 Calcul du tableau Z centré réduit.
 Calcul de la matrice à diagonaliser R.
 Calcul des valeurs propres de la matrice R, i = 1…p rangés par ordre décroissant
 Détermination des vecteurs propres associés aux valeurs propres i= 1…p ou
le vecteur propre associé à la valeur propre , =
 Calcul des composantes principales
 Présentation des variables : donne les coordonnées des p variables, est aussi le
coefficient de corrélation entre les variables et la α ième composante principale
Ces coordonnées nous permettent de représenter les variables dans un cercle de
corrélation.

4. Interprétation
Pour interpréter les résultats fournis par une ACP, on procédera dans un premier
temps à l’examen de l’inertie de chaque facteur puis on s’intéresse aux éléments contribuant à
la construction et à la définition des facteurs.
Parmi les règles pratiques les plus courantes on s’intéresse en générale aux axes ayant
une inertie supérieure à la moyenne, qui vaut 1 dans le cas d’une ACP normée.
On procède axe par axe pour définir les composantes, l’examen du plan factoriel
permet de visualiser les corrélations entre les variables et identifier des groupes d’individus
ayant pris les mêmes valeurs pour les mêmes variables.
Les variables fortement corrélées avec un axe vont contribuer à la définition de cet
axe , on s’intéresse par conséquent aux variables présentant les fortes coordonnées (ce qui
situent proche du cercle de corrélation) et l’on interprétera les composantes principales en
fonction des groupements de certaines de ces variables et de l’opposition avec les autres,
rappelons que le cosinus de l’angle sous lequel on voit deux variables actives dans le cercle
n’est que le coefficient de corrélation de ces deux variables selon la qualité d’ajustement .
Cette propriété sera plus au moins bien conservées en projection, ou se gardera

d’interprété la distance entre deux variables actives qui ne sont pas proches du cercle de
corrélation.
Ainsi l’examen du plan factoriel permet de visualiser les distances réelles et donc les
corrélations entre les variables actives, et d’apprécier la qualité de leur représentation.
Pour les individus, on s’intéresse à ceux participent à la formation des axes en
calculant la contribution de chaque individus a l’inertie de l’axe α
Où :
: est l’inertie de l’axe ,
: Contribution de l’individu i à l’inertie de cet axe tel que

On s’intéressera surtout aux individus qui ont les plus fortes contributions relatives aux
axes. La représentation des individus sur le plan factoriel permet d’apprécier leur répétition et
de réparer des zones de densités plus ou moins fortes.
4-1) Nombre d’axes à retenir :
Les critères les plus utilisables sont les suivantes :
1°) Interprétation des axes : On retient que les axes que l’on peut attribuer une forme
d’interprétation économique, par exemple, soit directement, soit en terme des variables avec
lesquelles ils sont très corrélés.
2°) Critère de Kaiser (variables centrées et réduites) : On ne retient que les axes associés
aux valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des
variables d’origine.
• Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde
que celles qui sont supérieures à cette moyenne.
4-2) La qualité d’explication des points et des axes
a) Rappel : Produit scalaire

Soient deux vecteurs , le produit scalaire de , noté est défini par :
C'est donc une quantité qui tient compte à la fois de la norme des vecteurs ainsi que de l'angle
qu'ils forment. Deux vecteurs formant un angle aigu donneront un produit scalaire positif alors
que pour deux vecteurs formant un angle obtu, le produit scalaire sera négatif. Entre ces deux
cas, notons que deux vecteurs orthogonaux auront un produit scalaire nul.
On a une autre définition du produit scalaire de deux vecteurs en lien avec leurs coordonnées.
Si l'on considère deux vecteurs , de R3 repérés par leurs coordonnées
et , le produit scalaire peut s'écrire :

Si l'on considère deux vecteurs et de norme 1 et de coordonnées respectives

et on a donc
Autrement dit, pour des vecteurs normés, le produit scalaire donne une mesure de l'angle qu'ils
forment via le cosinus de cet angle et ce produit scalaire correspond à la somme du produit
terme à terme de leurs coordonnées.
Exemple : Pour des vecteurs de norme 1, le produit scalaire donne une mesure de l’angle (via
le cosinus) :
Normé : =1
b) Une mesure de liaison entre deux variables : le coefficient de corrélation linéaire

Si l'on considère les observations de deux variables X et Y : (x1; _ _ _ ; xn) et (y1; _ _ _ ; yn),
le coefficient de corrélation linéaire est défini par le rapport entre leur covariance empirique et
le produit de leurs écart-types :
Si nous considérons deux variables j et j’ associées aux données que nous étudions, leur
coefficient de corrélation linéaire s'écrit donc :

C’est le produit scalaire des deux colonnes centrées-réduites associées (à 1/n près) :
Notons qu'un coefficient de corrélation est toujours compris entre -1 et 1. On voit par
ailleurs, qu'au efficient 1/n prés, rj j’ correspond au produit scalaire entre deux vecteurs
colonnes de la matrice X des données centrées réduites. Comme nous avons dit que les vecteurs
colonnes j et j’ avaient tous les deux la même norme, ce coefficient donne en fait une mesure
du cosinus de l'angle formé par ces vecteurs. Plus précisément, correspond exactement au
cosinus de l'angle formé par ces deux.

On peut interpréter assez facilement un coefficient de corrélation. Pour illustrer, on considère
quelques vecteurs de R2 en figure 3. On dira que deux variables sont corrélées positivement si,
lorsque l'une a tendance à prendre des valeurs supérieures à sa moyenne sur certains individus,
l'autre à tendance à prendre également des valeurs supérieures à sa moyenne sur ces mêmes
individus. Ainsi, géométriquement, lorsque les coordonnées de l'une seront grandes, les
coordonnées de l'autre le seront aussi.
On comprend donc que deux variables fortement corrélées pourront être représentées par des
vecteurs presque colinéaires et de même sens comme les vecteurs U1 et U2. L'angle entre les
deux étant de mesure presque nulle, le cosinus vaut presque 1. Si deux variables sont corrélées
négativement c'est que quand l'une prend des valeurs supérieures à la moyenne sur certains
individus, l'autre à tendance à prendre au contraire des valeurs inférieures à sa moyenne sur les
mêmes individus.

Donc:
Qualité de représentation d'un élément (individu ou variable) par un axe :
La qualité de représentation d'un élément i par l'axe α est donnée par le rapport de
l'inertie de la projection de l'élément i sur l'axe α et de l'inertie totale de l'élément i :
Où est l'angle entre (Oi) et l'axe α.
Ainsi si est proche de 1, alors i est proche de l'axe α et donc du plan de

projection contenant l'axe α. Cette qualité se généralise au plan.
Si un individu i est proche du plan, sa distance à G (l'individu moyen) dans le plan est
proche de la valeur réelle. De même les distances dans le plan entre deux individus bien
représentés sont proches de la réalité.

4-3) Les Points Explicatifs

On appelle point explicatif de l’axe de rang , les éléments j de N(J) dont la contribution
est prépondérante par rapport a l’ensemble des contributions.
C'est-à-dire, ceux dont la contribution est supérieure à la moyenne des contributions.
On dresse un tableau à deux colonnes qui contiendra ces éléments selon leurs
coordonnées (positives ou négatives).
4-4) Points Expliqués

On appelle points expliqués par l’axe de rang α, les points j de N(J), dont la
corrélation avec l’axe de rang est forte sans pour autant la contribution relative du point j a
l’axe soit forte.
De la même façon que précédemment, on se fixe un seuil de dépouillement des
résultats (Cor (α) = 0.5) et on répartit les points j en deux colonnes selon leurs coordonnées.
Afin d’interpréter les points i de N(I), on utilise les mêmes règles d’interprétations que
celles utilisées pour les points j de N(J).

5. Qualités et Limites de l’ACP :

L'ACP est une méthode puissante pour synthétiser et résumer de vastes populations
décrites par plusieurs variables quantitatives. Elle permet entre autre de dégager de grandes
catégories d'individus et de réaliser un bilan des liaisons entre les variables. Par cette analyse
nous pouvons mettre en évidence de grandes tendances dans les données telles que des
regroupements d'individus ou des oppositions entre individus (ce qui traduit un comportement
radicalement différent de ces individus) ou entre variables (ce qui traduit le fait que les
variables sont inversement corrélées). Les représentations graphiques fournies par l'ACP sont
simples et riches d'informations.
L'ACP peut être une première analyse pour l'étude d'une population dont les résultats
seront enrichis par une autre analyse factorielle ou encore une classification automatique des
données.
Par Contre d’un point de vue technique, L'ACP a pour objet l’étude de la structure de la
matrice des variances-covariances ou de la matrice des corrélations. Mais, ce procédé est
imparfait dans la mesure que le nuage est déformé par la projection, même si cette dernière est
la plus idéale possible. Certains points sont plus altérés que d’autres par la transformation.
Ainsi l’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication
est évidente et fait que l’analyse en composantes principales soit redondante ; ou bien elle est
contingente pour l'analyste et dans ce dernier cas elle n'apporte pas des renseignements très
convaincants pour l'analyse économétrique postérieure.

Chapitre 2 L'Analyse en Composantes Principales (ACP)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 2 L'Analyse en Composantes Principales (ACP)

Transféré par

Droits d'auteur :

Formats disponibles

Module d’Analyse des Données 5ème année Economie et Prospective

Chapitre 2 : L’Analyse en Composantes Principales

2. Les données en ACP

Analyse des données 1

X est une matrice (n × p) de valeurs numériques :

Un individu est un élément de

Une variable est un élément de

Analyse des données 2

On dispose des observations de p variables quantitatives sur n individus, on associe à

On note X la matrice associée à ce tableau :

Une variable j sera identifié au vecteur , et un individu i sera identifié au

3.1 Les Poids affectés aux Individus (Données Centrées Réduites)

Analyse des données 3

Souvent, on aura : D = (1/n) In où In est la matrice identité, c’est-à-dire que l’on

affecte le même poids à chaque individu : = (1/n)

B) Le Centre De Gravité du Tableau

Où est la variance de la variable j.

On note de même la covariance entre les

variables j et et le coefficient de corrélation linéaire entre les variables j et .

Le tableau centré réduite associé à X, noté Z, est défini

Où : la matrice associé à (Données Centrées)

Analyse des données 4

D) La Matrice de Variance-Covariance et La Matrice de Corrélation

En utilisant les notions précédentes, la matrice de variance-covariance s’écrit :

En effet, R est la matrice de variance-covariance du tableau de données centrées réduites.

E) La détermination des facteurs et des composantes principales (traitement géométrique)

- Lorsque les variables sont centrées et réduites I = p

Analyse des données 5

• L’Idée : construction d’une suite de p axes permettant de restituer la forme du

• Projection orthogonale des points sur l’axe 1 :

• On cherche ensuite un axe , orthogonal à qui maximise l’inertie projetée

Analyse des données 6

1) Dans l’espace des individus N(I)

valeur propre la plus élevée de la matrice de corrélation entre les variables

- A l’étape p, L’ACP détermine l’axe Fp passant par l’origine, de vecteur directeur

normé orthogonal aux axes ( ) des étapes précédentes, selon lequel la

et l’axe Fp est minimale.

2) Dans l’espace des variables N(J)

- A l’étape 1, L’ACP détermine U1 le vecteur propre de : associé à sa valeur

propre la plus élevée.

- A l’étape p, L’ACP détermine une variable synthétique Up résumant le mieux

principales c'est-à-dire détermine Up le vecteur propre de associé à sa pième

valeur propre la plus élevée disponible.

Analyse des données 7

F) La Démarche de La Méthode (traitement algébrique)

Algébriquement, il s’agit de chercher les valeurs propres maximales de la matrice des

 Calcul des moyennes des variables

 Calcul de l’écart type des variables tel que

ACP simple (non normée).

Sinon les variables sont hétérogènes, on utilisera une ACP normée.

 Calcul du tableau Z centré réduit.

 Calcul de la matrice à diagonaliser R.

 Détermination des vecteurs propres associés aux valeurs propres i= 1…p ou

le vecteur propre associé à la valeur propre , =

 Calcul des composantes principales

coefficient de corrélation entre les variables et la α ième composante principale

Ces coordonnées nous permettent de représenter les variables dans un cercle de

Analyse des données 8

Cette propriété sera plus au moins bien conservées en projection, ou se gardera

: est l’inertie de l’axe ,

: Contribution de l’individu i à l’inertie de cet axe tel que

Analyse des données 9

4-1) Nombre d’axes à retenir :