Vous êtes sur la page 1sur 13

[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

Suite chapitre n°2 : L’Analyse en Composantes Principales

Section 1 : Présentation de l’Analyse en composantes Principale


(ACP)
I. Données statistiques et notion de l’ACP
Les données statistiques sont présentés dans ce cas sous la forme d’un tableau formé de
q variables en colonnes et de p observations (ou individus) en lignes (voir chapitre1).
Ce tableau peut être interprété comme une matrice X de dimension p  q :

 x11 x12  x1q 


 
 x 21 x 22  x 2 q 
X pq 
    
 
x x p 2  x pq 
 p1
 Cette matrice peut être interprétée comme donnée par :
 q points Cj de IRp : une colonne est interprétée comme un point dans l’espace de
dimension p
 Et p points Li de IRq : une ligne est interprétée comme un point dans l’espace de
dimension q.

Le nuage des points ligne : L1,L2…Lp ( c'est-à-dire les observations ou les individus) sur un
espace IRq de dimension q est le suivant :

Définition : L’ACP (Hotelling 1933) a pour objectif de réduire le nombre de données, souvent

1
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

très élevé, d’un tableau de données représenté, algébriquement comme une matrice et
géométriquement comme un nuage de points. Elle consiste à l’étude des projections des points
de ce nuage sur un axe (appelé axe factoriel ou principal), un plan ou un hyperplan
judicieusement déterminé.

Le problème est que lorsque on passe d’un espace de q dimensions à un espace de dimensions
plus petites, l’information retenue ne sera pas la même, il y’aura sans doute une déformation de
l’information. Le rôle de l’ACP est de trouver des espaces de dimensions plus petites
minimisant ces déformations.

II. Détermination des axes factoriels (ACP non normée ou non


réduite)

1. Le nombre d’axes factoriels


On sait (voir chapitre 1) que toute matrice symétrique est diagonalisable, la matrice X’X est
une matrice diagonalisable (toujours). Mathématiquement la détermination des axes factoriels
revient à diagonaliser la matrice X’X.
Soit X' X  P  D  P1
D : est la matrice diagonale des valeurs propres
P : la matrice des vecteurs propres.
 1 0  0 
 
 0 2  0 
D , avec 1   2  3  .........
    
 
0 0 0  
 q 
Calculons la trace de X’X :
Tr(X’X)=Tr(PDP-1)=Tr(PP-1D)=Tr(D). En effet d’après les propriétés de la trace on a
Tr(AB)=Tr(BA).
q
Soit Tr X' X     i
i 1

Une part contributive importante de la Tr(X’X) est déterminée par les s premières valeurs
propres 1,  2 ,...s avec s  q en raison des valeurs numériques décroissantes de ces valeurs.

On dit que l’information perdue est alors relativement faible. Si c’est le cas le nombre d’axe
factoriel à retenir serait égal à s.

2
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

2. Signification des axes factoriels :


L’objectif de l’ACP est de faire apparaitre les variables latentes (cachées) qui sont d’un nombre
plus réduit que les variables initiales d’une série de données.
Toutefois la question qui se pose, est celle de l’interprétation qu’on peut donner à un axe
factoriel, en présence d’un problème réel (concret) économique ou autre ?
Si on tient compte du fait qu’un facteur est avant tout un concept mathématique, la réponse à
une telle question est rendue difficile à concevoir.

L’interprétation de ce concept dépend des opérations avec lesquelles il s’est développé. Si ces
opérations se sont réalisés sans aucune référence économique, par exemple, on ne peut attendre
que ces facteurs ainsi obtenus, n’auront aucune interprétation économique, sauf par chance !
Dans le cas où le problème étudié est bien spécifié. Par exemple, dans une analyse des budgets
de consommations des particuliers, souvent le premier axe sera un indicateur de la position
sociale des familles les uns par rapport autres, tandis que les axes suivants ne peuvent pas être
interpréter que par le comportement subjectif de la personne qui fait l’étude.
En pratique, des points voisins du nuage représentent des comportements (économiques)
analogues. D’où la notion de proximité (de deux ou plusieurs points du nuage).

3. Notion de proximité et projection des points du nuage initial


On considère deux points de l’espace IRq : Lm=(xm1,xm2,…,xmq) et Ln=(xn1,xn2,…xnq) , nous
avons vu que la distance euclidienne d(Lm,Ln) entre ces deux points est

dLm , Ln    x mj  x nj ² . Ces points seront plus proches lorsque la somme précédente


j q

j1

est plus petite.

 Etude de projection de deux points de IRq sur un axe


On considère Lm et Ln deux points de IRq avec : Lm=(xm1,xm2…,xmq) et Ln=(xn1,xn2,…,xnq)
La projection de ces deux points sur un axe Fu de vecteur unitaire u, a pour résultat deux autres
points qu’on les note lm et ln.

3
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

Ln

Lm

Fu
u lm ln

Rappel : Le segment lmln résultat de la projection du vecteur Lm-Ln sur Fu est égale au produit

scalaire du vecteur Lm-Ln et le vecteur u : lm l n  L m  L n , u  u T L m  L n  .

La distance d(lm, ln) serait plus proche de la distance d(Lm,Ln) lorsqu’elle est plus grande.
Autrement, la déformation produite par la projection serait plus faible lorsque l’amplitude de la
projection lmln serait plus grande.

 Etude de projection d’un nuage de points de IRq sur un axe


Considérons un axe Fu, de vecteur unitaire u c'est-à-dire uTu=1,
On montre que pour que la déformation du nuage soit minime lors de la projection, il faut que
la longueur ou les amplitudes des projections des distances des différents points du nuage soient
maximales.

Formellement il faut que  lmln ² soit maximale ;


m, n

 lmln ²   u ' Lm  Ln ²   u T Lm  Ln u T Lm  Ln 


T

m, n m, n m, n

  
 

  u T Lm  Ln  L m  Ln  u  u T   Lm  L n Lm  Ln  u  u T 2p²u  2p² u Tu
T

m,n m , n 
Avec  la matrice des variances-covariances du nuage des p points

Donc maximiser  lmln ² revient à maximiser u T u sous la condition uTu =1


m, n

u, étant le vecteur propre de  c'est-à-dire la première composante principale du nuage.

4. Récapitulation : Démarche d’une ACP non normée


Soit la matrice des données Xp,q=[xij] ;
Algébriquement l’ACP consiste à chercher les valeurs propres maximales de la matrice des

4
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

données et par conséquent ses vecteurs propres associés qui représenteront ces sous espaces
vectoriels (axes factoriels ou principales). La démarche à suivre pour une ACP non normée peut
être résumée ainsi :
a. Trouver la matrice X’X
b. Chercher les valeurs propres
 Ecrire le polynôme caractéristique de X’X
 Déterminer les valeurs propres de la matrice symétrique X’X
 Classer les valeurs propres selon l’ordre décroissant,
A noter que : Tr X' X   Tr AA P1   Tr   1   2  ...   q

Les premières valeurs propres représentent une part contributive importante de


la trace de X’X. Ainsi dans la pratique on peut se limiter aux s premières valeurs
propres et l’information perdue serait alors relativement faible.

c. Chercher les axes factoriels


Les valeurs propres trouvées étant simples, les espaces propres associés aux
vecteurs propres seront des droites vectorielles (on les appelle des axes factoriels
ou des facteurs)
Il existe plusieurs méthodes pour sélectionner les valeurs propres, la plus utilisée
est celle qui consiste à sélectionner les valeurs propres supérieures à la moyenne
des valeurs propres (voir section suivante).

d. Faire la représentation graphique


Il s’agit dans cette étape de projeter les observations et les variables sur les axes
factoriels (premier plan factoriel).

e. Interprétation des axes


Dans cette étape on cherche à interpréter les axes factoriels, la contribution des
variables et des individus, et finalement à identifier les variables et les individus
supplémentaires.

5
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

Exercice :
 5 1 1 
 
1. Soit A   2 4  2  , réaliser l’ACP de la matrice A
 1 1 3 
 
2. Expliquer la liaison entre le choix de la composante et l’écart type de la variable.

Aide pour répondre à l’exercice :


1. On montre que les valeurs propres sont 1  2 ,  2  4 , 3  6

0 1 1


     
Les vecteurs propres sont v1   1  , v 2   0  , v3   1 
1 1  0
     

2. L’importance que prendront les variables dans le calcul des composantes principales
est fonction de leur ordre de grandeur. Une variable ayant un écart type important
aura plus de poids qu’une variable de faible écart-type. Il s’ensuit donc que les
variables de fort écart-type construiront les premières composantes. Toutefois la
lecture des résultats d’une ACP peut devenir compliquée. C’est pour remédier à
ça qu’il convient de centrer et réduire les variables.

5. Limite de l’ACP

D’un point de vue technique, l’ACP a pour objet l’étude de la structure de la matrice des
variances-covariances ou de la matrice des corrélations.
Mais, ce procédé est imparfait dans la mesure que le nuage est déformé par la projection, même
si cette dernière est la plus idéale possible. Certains points sont plus altérés que d’autres par la
transformation.
L’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication est évidente
et fait que l’ACP soit redondante ; ou bien elle est contingente pour l’analyste et dans ce dernier
cas elle n’apporte pas des renseignements très convaincantes pour l’analyse économétrique
postérieure.

6
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

Section 2 : Aspects pratiques : Démarche d’une ACP réduite

On a vu que l’objectif de l’ACP est de projeter un nuage de p points de IR q sur un axe, un plan
ou un hyperplan déterminé de telle manière que la projection déforme le moins possible le
nuage.
Souvent on réalise une ACP normée (ou réduite) pour se débarrasser des effets des unités de
mesure différentes.
Toutefois cette réduction peut être omise parfois par choix plutôt arbitraire, d’autres fois par
nécessité. Voici quelques éléments qui diffèrent entre les deux types d’ACP :

ACP non réduite ACP réduite


Données Variables exprimées dans la Variables exprimées dans des
même unité, avec des valeurs unités de mesure différentes,
de même ordre de grandeur ou d’ordre de grandeur trop
différentes
Valeurs propres Somme = somme des Somme = somme des
variances des variables de variances des variables
départ réduites, c'est-à-dire p =
nombre de variables
L’ACP réduite se prête mieux que la non réduite à la représentation des variables par cercle
de corrélations, puisque les variables ne sont pas réduites au départ, mais l’interprétation telle
qu’elle est pratiquée dans ce cours reste valable pour les deux types d’ACP

I. Critères de sélection des axes factoriels :


Comme nous l’avons signalé auparavant il existe plusieurs méthodes pour déterminer
les axes.
1. Critère de Kaiser : on ne retient que les axes associés à des valeurs propres
supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des variables
d’origine. (Autrement la moyenne des valeurs propres étant 1, on ne garde que
celles qui sont supérieures à cette moyenne)

7
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

2. Critère d’interprétation : on retient que les axes que l’on peut attribuer une
forme d’interprétation économique, par exemple, soit directement, soit en terme
des variables avec lesquelles ils sont très corrélés.
3. Critère d’éboulis : on cherche un ‘’coude’’ dans le graphe des valeurs propres
et on ne conserve que les valeurs jusqu’au ce coude.

Valeur propre

Numéro du composant (ou axe)

Exemple :

0,15
Scree plot 100

80
Valeur propre

Inertie (%)
0,1
60

40
0,05
20

0 0
F1 F2 F3 F4 F5 F6 F7 F8 F9
axe

Dans la pratique Elle consiste à retenir les 2 premiers axes au moins, puis de "couper"
l'éboulis (ou scree plot) des valeurs propres entre les valeurs propres dont la différence
est maximum.

Considérons les valeurs propres suivantes relatives aux axes factoriels F1,F2…F6

Axe F1 F2 F3 F4 F5 F6
Valeur propre 3,193 1,247 0,855 0,475 0,169 0,061

Dans cet exemple, les différences entre valeurs propres à partir de la deuxième sont :
vp(2)-vp(3)= 0,392
vp(3)-vp(4)= 0,380
vp(4)-vp(5)= 0,307

8
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

vp(5)-vp(6)=0,108.
La différence maximum est entre les axes 2 et 3, on retient donc 2 axes.

Remarque. Il existe d'autres règles de choix du nombre d'axes. La règle de l'éboulis combinée
avec celle de Kaiser est une des meilleures. En effet, on commence par regarder combien de
valeurs propres sont supérieures à la moyenne. Puis on regarde si la dernière valeur propre
retenue (supérieure à la moyenne) est suffisamment éloignée de celle qui la suit (inférieure à la
moyenne). Si oui, on reste sur la décision de la règle de Kaiser, si non, on coupera au saut plus
important le plus près.
La prise en compte de la part d'inertie expliquée peut faire pencher la balance vers plus d'axes
ou moins d'axes que ce que la règle de Kaiser amène.

On se limite dans ce cours à la règle de Kaiser qui consiste à ne retenir que les axes associés
à des valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle
des variables d’origine. (Autrement la moyenne des valeurs propres étant 1, on ne garde
que celles qui sont supérieures à cette moyenne).

II. Démarche d’une ACP normée


La démarche à suivre pour effectuer une ACP réduite se résume ainsi :

 Etape 1 : transformer la matrice X des données en une matrice Z de données


centrées réduites :
 x11 x12  x1q   z11 z12  z1q 
   
 x 21 x 22  x 2 q   z 21 z 22  z 2q 
Soit X pq   , la matrice Z s’écrit Zpq  
        
   
x x p 2  x pq  z  z pq 
 p1  p1 z p 2
ip

x ij  X j  x ij
Avec z ij 
X j
, Xj  i 1
p
, X j  
1 ip
p i 1

 x ij  X j ²

 Etape 2 : on détermine la matrice  des variances-covariances du nuage. Il s’agit


d’une matrice carrée d’ordre q, avec :
1 T
 Z Z , qui est une matrice symétrique donc diagonalisable.
p

Cette matrice n’est autre que la matrice de corrélations  puisque les variables sont

9
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

1 T
centrées réduites.   Z Z
p

 Etape 3 : Chercher les valeurs propres de la matrice 


 Chercher le polynôme caractéristique de  ,
 Chercher les valeurs propres,
Soit D la matrice diagonale des valeurs propres semblable à  ,   PDP1
 1 0  0
 
 0 2  0 q
D  . On sait que la trace de tr  trD    k , or la trace de
    k 1
 
0 0 
 q 

 n’est autre que la somme des variances des variables Zj : tr   VZ j  .
q

j1

En pratique, on arrête l’extraction des valeurs propres lorsque la somme des s valeurs
propres que l’on a déterminé représentent un pourcentage satisfaisant de la variance.

 Etape 4 : Chercher les axes factoriels :


Ce sont les vecteurs propres u1, u2,…,us associés aux valeurs propres 1 ,  2 ,..., s
Les axes factoriels sont perpendiculaires et ne sont pas corrélés entre eux. Dans la
majorité des cas, ne sont pris en considération que les deux, les trois ou les quatre
premiers axes factoriels.

 Etape 5 : faire la représentation graphique du nuage et des variables


 On représente graphiquement les individus par un nuage de points : projeter les
p observations sur les deux premiers axes factoriels (premier plan factoriel). Une
proximité entre les projections de deux points d’observations s’interprète
comme un comportement analogue pour les q variables.
Les coordonnées des individus sur le premier et le deuxième axe factoriel sont
données par la multiplication Z u1 et Z u 2
 On représente graphiquement les variables par un cercle des corrélations. Une
corrélation entre deux variables pouvant être vue comme le cosinus de l'angle
entre ces deux variables,
Les coordonnées des variables sur le premier et le deuxième axe factoriel sont

10
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

déterminés successivement par 1  u1 et  2  u 2 . D’une manière générale

les coordonnées des variables sur l’axe k est k  u k

Une coordonnée s’interprète comme la corrélation entre les variables d’origine et


les nouvelles variables synthétiques (axes principaux). On interprète ce coefficient
comme n’importe quelle corrélation linéaire.

Représentation des variables Représentation des individus

F2 F2
1

F1 F1

-1 1

 Etape 6 : on cherche, si c’est possible une signification des axes factoriels.


La synthèse des informations contenues dans le graphe doit permettre à l’économiste de
trouver une signification des axes.
Pour savoir quelles variables donnent du sens à chaque axe et quelles variables il est
inutile d’interpréter, on examine :
 Pour les variables :
o Les Contributions des variables aux axes : pour savoir quelles variables
donneront du sens à chaque axe, on examine pour chaque axe les
coordonnées des variables qui ne sont que des corrélations.
o Les cosinus carrés qui ne sont autres que les carrés des coordonnées des
variables

 Pour les individus :


o La Contribution des individus à une composante : c’est la part de la
variance d’une composante principale qui provient d’un individu donné.
(Souvent, si cette contribution est supérieure de 2 à 4 fois à son poids,
l’individu définit la composante. Si elle est très supérieure aux autres, on

11
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

dit qu’il est surreprésenté et on peut avoir intérêt à mettre l’individu en


donnée supplémentaire).
cik2
o Le cosinus carré d’un individu i est définit par : q
avec cik le
c 2
ij
j 1

coordonné de l’individu i dans la composante k.

 Etape 7 : On détermine la qualité de l’analyse


 Qualité globale de la représentation :
La qualité de la représentation obtenue par k valeurs propres est la proportion de
k
j
j1
l’inertie expliquée : q
j
j1

 Qualité locale de la représentation


On cherche à déterminer si le nuage de points est très aplati par la projection sur les
sous espaces principaux. Dans ce cas, deux individus éloignés pourraient
artificiellement sembler proches les uns des autres.

Remarques :
 L'inertie totale du nuage des individus (qui est un nuage dans un espace à q dimensions),
est égale à la somme des variances des variables. Elle est la même pour le tableau de
données réduites (c'est-à-dire q) que pour le tableau des composantes principales.
 Les variances des composantes principales sont appelées valeurs propres. Elles sont
ordonnées dans l'ordre décroissant.
 On appelle aussi les composantes principales des "axes" ou "dimensions" ou "facteurs".
Le vocabulaire qu'on emploiera, qui a une signification bien précise dans un contexte
plus mathématique, utilisera indifféremment ces termes pour désigner la même notion,
c'est-à-dire les différents résumés de l'ensemble des variables.

III. Applications

On considère le tableau des données suivant :

12
[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

Individus Variables
X1 X2 X3
1 0 4 6
2 0 0 6
3 8 4 2
4 8 0 2

1. Trouver les propriétés statistiques des variables.


2. Réaliser l’ACP des données du tableau (utiliser une ACP réduite). Représenter
graphiquement les individus et les variables sur le premier plan principal. Toujours discuter
les résultats.
3. Calculer les moyennes et les variances des composantes principales. En déduire l’inertie
totale du nuage des individus.

13

Vous aimerez peut-être aussi