Complément de Cours ACP Chapitre 2 Hechmy Badry

[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020
Suite chapitre n°2 : L’Analyse en Composantes Principales
Section 1 : Présentation de l’Analyse en composantes Principale

(ACP)
I. Données statistiques et notion de l’ACP
Les données statistiques sont présentés dans ce cas sous la forme d’un tableau formé de
q variables en colonnes et de p observations (ou individus) en lignes (voir chapitre1).
Ce tableau peut être interprété comme une matrice X de dimension p  q :
 x11 x12  x1q 

 
 x 21 x 22  x 2 q 
X pq 
    
 
x x p 2  x pq 
 p1
 Cette matrice peut être interprétée comme donnée par :
 q points Cj de IRp : une colonne est interprétée comme un point dans l’espace de
dimension p
 Et p points Li de IRq : une ligne est interprétée comme un point dans l’espace de
dimension q.
Le nuage des points ligne : L1,L2…Lp ( c'est-à-dire les observations ou les individus) sur un
espace IRq de dimension q est le suivant :
Définition : L’ACP (Hotelling 1933) a pour objectif de réduire le nombre de données, souvent
1
très élevé, d’un tableau de données représenté, algébriquement comme une matrice et
géométriquement comme un nuage de points. Elle consiste à l’étude des projections des points
de ce nuage sur un axe (appelé axe factoriel ou principal), un plan ou un hyperplan
judicieusement déterminé.
Le problème est que lorsque on passe d’un espace de q dimensions à un espace de dimensions
plus petites, l’information retenue ne sera pas la même, il y’aura sans doute une déformation de
l’information. Le rôle de l’ACP est de trouver des espaces de dimensions plus petites
minimisant ces déformations.
II. Détermination des axes factoriels (ACP non normée ou non

réduite)
1. Le nombre d’axes factoriels

On sait (voir chapitre 1) que toute matrice symétrique est diagonalisable, la matrice X’X est
une matrice diagonalisable (toujours). Mathématiquement la détermination des axes factoriels
revient à diagonaliser la matrice X’X.
Soit X' X  P  D  P1
D : est la matrice diagonale des valeurs propres
P : la matrice des vecteurs propres.
 1 0  0 
 
 0 2  0 
D , avec 1   2  3  .........
    
 
0 0 0  
 q 
Calculons la trace de X’X :
Tr(X’X)=Tr(PDP-1)=Tr(PP-1D)=Tr(D). En effet d’après les propriétés de la trace on a
Tr(AB)=Tr(BA).
q
Soit Tr X' X     i
i 1
Une part contributive importante de la Tr(X’X) est déterminée par les s premières valeurs
propres 1,  2 ,...s avec s  q en raison des valeurs numériques décroissantes de ces valeurs.
On dit que l’information perdue est alors relativement faible. Si c’est le cas le nombre d’axe
factoriel à retenir serait égal à s.
2
2. Signification des axes factoriels :

L’objectif de l’ACP est de faire apparaitre les variables latentes (cachées) qui sont d’un nombre
plus réduit que les variables initiales d’une série de données.
Toutefois la question qui se pose, est celle de l’interprétation qu’on peut donner à un axe
factoriel, en présence d’un problème réel (concret) économique ou autre ?
Si on tient compte du fait qu’un facteur est avant tout un concept mathématique, la réponse à
une telle question est rendue difficile à concevoir.
L’interprétation de ce concept dépend des opérations avec lesquelles il s’est développé. Si ces
opérations se sont réalisés sans aucune référence économique, par exemple, on ne peut attendre
que ces facteurs ainsi obtenus, n’auront aucune interprétation économique, sauf par chance !
Dans le cas où le problème étudié est bien spécifié. Par exemple, dans une analyse des budgets
de consommations des particuliers, souvent le premier axe sera un indicateur de la position
sociale des familles les uns par rapport autres, tandis que les axes suivants ne peuvent pas être
interpréter que par le comportement subjectif de la personne qui fait l’étude.
En pratique, des points voisins du nuage représentent des comportements (économiques)
analogues. D’où la notion de proximité (de deux ou plusieurs points du nuage).
3. Notion de proximité et projection des points du nuage initial

On considère deux points de l’espace IRq : Lm=(xm1,xm2,…,xmq) et Ln=(xn1,xn2,…xnq) , nous
avons vu que la distance euclidienne d(Lm,Ln) entre ces deux points est
dLm , Ln    x mj  x nj ² . Ces points seront plus proches lorsque la somme précédente

j q
j1
est plus petite.
 Etude de projection de deux points de IRq sur un axe

On considère Lm et Ln deux points de IRq avec : Lm=(xm1,xm2…,xmq) et Ln=(xn1,xn2,…,xnq)
La projection de ces deux points sur un axe Fu de vecteur unitaire u, a pour résultat deux autres
points qu’on les note lm et ln.
3
Ln
Lm
Fu
u lm ln
Rappel : Le segment lmln résultat de la projection du vecteur Lm-Ln sur Fu est égale au produit
scalaire du vecteur Lm-Ln et le vecteur u : lm l n  L m  L n , u  u T L m  L n  .
La distance d(lm, ln) serait plus proche de la distance d(Lm,Ln) lorsqu’elle est plus grande.
Autrement, la déformation produite par la projection serait plus faible lorsque l’amplitude de la
projection lmln serait plus grande.
 Etude de projection d’un nuage de points de IRq sur un axe

Considérons un axe Fu, de vecteur unitaire u c'est-à-dire uTu=1,
On montre que pour que la déformation du nuage soit minime lors de la projection, il faut que
la longueur ou les amplitudes des projections des distances des différents points du nuage soient
maximales.
Formellement il faut que  lmln ² soit maximale ;

m, n
 lmln ²   u ' Lm  Ln ²   u T Lm  Ln u T Lm  Ln 

T
m, n m, n m, n
  
 

  u T Lm  Ln  L m  Ln  u  u T   Lm  L n Lm  Ln  u  u T 2p²u  2p² u Tu
T

m,n m , n 
Avec  la matrice des variances-covariances du nuage des p points
Donc maximiser  lmln ² revient à maximiser u T u sous la condition uTu =1

m, n
u, étant le vecteur propre de  c'est-à-dire la première composante principale du nuage.
4. Récapitulation : Démarche d’une ACP non normée

Soit la matrice des données Xp,q=[xij] ;
Algébriquement l’ACP consiste à chercher les valeurs propres maximales de la matrice des
4
données et par conséquent ses vecteurs propres associés qui représenteront ces sous espaces
vectoriels (axes factoriels ou principales). La démarche à suivre pour une ACP non normée peut
être résumée ainsi :
a. Trouver la matrice X’X
b. Chercher les valeurs propres
 Ecrire le polynôme caractéristique de X’X
 Déterminer les valeurs propres de la matrice symétrique X’X
 Classer les valeurs propres selon l’ordre décroissant,
A noter que : Tr X' X   Tr AA P1   Tr   1   2  ...   q
Les premières valeurs propres représentent une part contributive importante de

la trace de X’X. Ainsi dans la pratique on peut se limiter aux s premières valeurs
propres et l’information perdue serait alors relativement faible.
c. Chercher les axes factoriels

Les valeurs propres trouvées étant simples, les espaces propres associés aux
vecteurs propres seront des droites vectorielles (on les appelle des axes factoriels
ou des facteurs)
Il existe plusieurs méthodes pour sélectionner les valeurs propres, la plus utilisée
est celle qui consiste à sélectionner les valeurs propres supérieures à la moyenne
des valeurs propres (voir section suivante).
d. Faire la représentation graphique

Il s’agit dans cette étape de projeter les observations et les variables sur les axes
factoriels (premier plan factoriel).
e. Interprétation des axes

Dans cette étape on cherche à interpréter les axes factoriels, la contribution des
variables et des individus, et finalement à identifier les variables et les individus
supplémentaires.
5
Exercice :
 5 1 1 
 
1. Soit A   2 4  2  , réaliser l’ACP de la matrice A
 1 1 3 
 
2. Expliquer la liaison entre le choix de la composante et l’écart type de la variable.
Aide pour répondre à l’exercice :

1. On montre que les valeurs propres sont 1  2 ,  2  4 , 3  6
0 1 1

     
Les vecteurs propres sont v1   1  , v 2   0  , v3   1 
1 1  0
     
…
2. L’importance que prendront les variables dans le calcul des composantes principales
est fonction de leur ordre de grandeur. Une variable ayant un écart type important
aura plus de poids qu’une variable de faible écart-type. Il s’ensuit donc que les
variables de fort écart-type construiront les premières composantes. Toutefois la
lecture des résultats d’une ACP peut devenir compliquée. C’est pour remédier à
ça qu’il convient de centrer et réduire les variables.
…
5. Limite de l’ACP
D’un point de vue technique, l’ACP a pour objet l’étude de la structure de la matrice des
variances-covariances ou de la matrice des corrélations.
Mais, ce procédé est imparfait dans la mesure que le nuage est déformé par la projection, même
si cette dernière est la plus idéale possible. Certains points sont plus altérés que d’autres par la
transformation.
L’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication est évidente
et fait que l’ACP soit redondante ; ou bien elle est contingente pour l’analyste et dans ce dernier
cas elle n’apporte pas des renseignements très convaincantes pour l’analyse économétrique
postérieure.
6
Section 2 : Aspects pratiques : Démarche d’une ACP réduite
On a vu que l’objectif de l’ACP est de projeter un nuage de p points de IR q sur un axe, un plan
ou un hyperplan déterminé de telle manière que la projection déforme le moins possible le
nuage.
Souvent on réalise une ACP normée (ou réduite) pour se débarrasser des effets des unités de
mesure différentes.
Toutefois cette réduction peut être omise parfois par choix plutôt arbitraire, d’autres fois par
nécessité. Voici quelques éléments qui diffèrent entre les deux types d’ACP :
ACP non réduite ACP réduite

Données Variables exprimées dans la Variables exprimées dans des
même unité, avec des valeurs unités de mesure différentes,
de même ordre de grandeur ou d’ordre de grandeur trop
différentes
Valeurs propres Somme = somme des Somme = somme des
variances des variables de variances des variables
départ réduites, c'est-à-dire p =
nombre de variables
L’ACP réduite se prête mieux que la non réduite à la représentation des variables par cercle
de corrélations, puisque les variables ne sont pas réduites au départ, mais l’interprétation telle
qu’elle est pratiquée dans ce cours reste valable pour les deux types d’ACP
I. Critères de sélection des axes factoriels :

Comme nous l’avons signalé auparavant il existe plusieurs méthodes pour déterminer
les axes.
1. Critère de Kaiser : on ne retient que les axes associés à des valeurs propres
supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des variables
d’origine. (Autrement la moyenne des valeurs propres étant 1, on ne garde que
celles qui sont supérieures à cette moyenne)
7
2. Critère d’interprétation : on retient que les axes que l’on peut attribuer une
forme d’interprétation économique, par exemple, soit directement, soit en terme
des variables avec lesquelles ils sont très corrélés.
3. Critère d’éboulis : on cherche un ‘’coude’’ dans le graphe des valeurs propres
et on ne conserve que les valeurs jusqu’au ce coude.
Valeur propre
Numéro du composant (ou axe)
Exemple :
0,15
Scree plot 100
80
Valeur propre
Inertie (%)
0,1
60
40
0,05
20
0 0
F1 F2 F3 F4 F5 F6 F7 F8 F9
axe
Dans la pratique Elle consiste à retenir les 2 premiers axes au moins, puis de "couper"
l'éboulis (ou scree plot) des valeurs propres entre les valeurs propres dont la différence
est maximum.
Considérons les valeurs propres suivantes relatives aux axes factoriels F1,F2…F6
Axe F1 F2 F3 F4 F5 F6
Valeur propre 3,193 1,247 0,855 0,475 0,169 0,061
Dans cet exemple, les différences entre valeurs propres à partir de la deuxième sont :
vp(2)-vp(3)= 0,392
vp(3)-vp(4)= 0,380
vp(4)-vp(5)= 0,307
8
vp(5)-vp(6)=0,108.
La différence maximum est entre les axes 2 et 3, on retient donc 2 axes.
Remarque. Il existe d'autres règles de choix du nombre d'axes. La règle de l'éboulis combinée
avec celle de Kaiser est une des meilleures. En effet, on commence par regarder combien de
valeurs propres sont supérieures à la moyenne. Puis on regarde si la dernière valeur propre
retenue (supérieure à la moyenne) est suffisamment éloignée de celle qui la suit (inférieure à la
moyenne). Si oui, on reste sur la décision de la règle de Kaiser, si non, on coupera au saut plus
important le plus près.
La prise en compte de la part d'inertie expliquée peut faire pencher la balance vers plus d'axes
ou moins d'axes que ce que la règle de Kaiser amène.
On se limite dans ce cours à la règle de Kaiser qui consiste à ne retenir que les axes associés
à des valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle
des variables d’origine. (Autrement la moyenne des valeurs propres étant 1, on ne garde
que celles qui sont supérieures à cette moyenne).
II. Démarche d’une ACP normée

La démarche à suivre pour effectuer une ACP réduite se résume ainsi :
 Etape 1 : transformer la matrice X des données en une matrice Z de données

centrées réduites :
 x11 x12  x1q   z11 z12  z1q 
   
 x 21 x 22  x 2 q   z 21 z 22  z 2q 
Soit X pq   , la matrice Z s’écrit Zpq  
        
   
x x p 2  x pq  z  z pq 
 p1  p1 z p 2
ip
x ij  X j  x ij
Avec z ij 
X j
, Xj  i 1
p
, X j  
1 ip
p i 1

 x ij  X j ²
 Etape 2 : on détermine la matrice  des variances-covariances du nuage. Il s’agit

d’une matrice carrée d’ordre q, avec :
1 T
 Z Z , qui est une matrice symétrique donc diagonalisable.
p
Cette matrice n’est autre que la matrice de corrélations  puisque les variables sont
9
1 T
centrées réduites.   Z Z
p
 Etape 3 : Chercher les valeurs propres de la matrice 

 Chercher le polynôme caractéristique de  ,
 Chercher les valeurs propres,
Soit D la matrice diagonale des valeurs propres semblable à  ,   PDP1
 1 0  0
 
 0 2  0 q
D  . On sait que la trace de tr  trD    k , or la trace de
    k 1
 
0 0 
 q 

 n’est autre que la somme des variances des variables Zj : tr   VZ j  .
q
j1
En pratique, on arrête l’extraction des valeurs propres lorsque la somme des s valeurs
propres que l’on a déterminé représentent un pourcentage satisfaisant de la variance.
 Etape 4 : Chercher les axes factoriels :

Ce sont les vecteurs propres u1, u2,…,us associés aux valeurs propres 1 ,  2 ,..., s
Les axes factoriels sont perpendiculaires et ne sont pas corrélés entre eux. Dans la
majorité des cas, ne sont pris en considération que les deux, les trois ou les quatre
premiers axes factoriels.
 Etape 5 : faire la représentation graphique du nuage et des variables

 On représente graphiquement les individus par un nuage de points : projeter les
p observations sur les deux premiers axes factoriels (premier plan factoriel). Une
proximité entre les projections de deux points d’observations s’interprète
comme un comportement analogue pour les q variables.
Les coordonnées des individus sur le premier et le deuxième axe factoriel sont
données par la multiplication Z u1 et Z u 2
 On représente graphiquement les variables par un cercle des corrélations. Une
corrélation entre deux variables pouvant être vue comme le cosinus de l'angle
entre ces deux variables,
Les coordonnées des variables sur le premier et le deuxième axe factoriel sont
10
déterminés successivement par 1  u1 et  2  u 2 . D’une manière générale
les coordonnées des variables sur l’axe k est k  u k
Une coordonnée s’interprète comme la corrélation entre les variables d’origine et

les nouvelles variables synthétiques (axes principaux). On interprète ce coefficient
comme n’importe quelle corrélation linéaire.
Représentation des variables Représentation des individus
F2 F2
1
F1 F1
-1 1
 Etape 6 : on cherche, si c’est possible une signification des axes factoriels.

La synthèse des informations contenues dans le graphe doit permettre à l’économiste de
trouver une signification des axes.
Pour savoir quelles variables donnent du sens à chaque axe et quelles variables il est
inutile d’interpréter, on examine :
 Pour les variables :
o Les Contributions des variables aux axes : pour savoir quelles variables
donneront du sens à chaque axe, on examine pour chaque axe les
coordonnées des variables qui ne sont que des corrélations.
o Les cosinus carrés qui ne sont autres que les carrés des coordonnées des
variables
 Pour les individus :

o La Contribution des individus à une composante : c’est la part de la
variance d’une composante principale qui provient d’un individu donné.
(Souvent, si cette contribution est supérieure de 2 à 4 fois à son poids,
l’individu définit la composante. Si elle est très supérieure aux autres, on
11
dit qu’il est surreprésenté et on peut avoir intérêt à mettre l’individu en

donnée supplémentaire).
cik2
o Le cosinus carré d’un individu i est définit par : q
avec cik le
c 2
ij
j 1
coordonné de l’individu i dans la composante k.
 Etape 7 : On détermine la qualité de l’analyse

 Qualité globale de la représentation :
La qualité de la représentation obtenue par k valeurs propres est la proportion de
k
j
j1
l’inertie expliquée : q
j
j1
 Qualité locale de la représentation

On cherche à déterminer si le nuage de points est très aplati par la projection sur les
sous espaces principaux. Dans ce cas, deux individus éloignés pourraient
artificiellement sembler proches les uns des autres.
Remarques :
 L'inertie totale du nuage des individus (qui est un nuage dans un espace à q dimensions),
est égale à la somme des variances des variables. Elle est la même pour le tableau de
données réduites (c'est-à-dire q) que pour le tableau des composantes principales.
 Les variances des composantes principales sont appelées valeurs propres. Elles sont
ordonnées dans l'ordre décroissant.
 On appelle aussi les composantes principales des "axes" ou "dimensions" ou "facteurs".
Le vocabulaire qu'on emploiera, qui a une signification bien précise dans un contexte
plus mathématique, utilisera indifféremment ces termes pour désigner la même notion,
c'est-à-dire les différents résumés de l'ensemble des variables.
III. Applications
On considère le tableau des données suivant :
12
Individus Variables
X1 X2 X3
1 0 4 6
2 0 0 6
3 8 4 2
4 8 0 2
1. Trouver les propriétés statistiques des variables.

2. Réaliser l’ACP des données du tableau (utiliser une ACP réduite). Représenter
graphiquement les individus et les variables sur le premier plan principal. Toujours discuter
les résultats.
3. Calculer les moyennes et les variances des composantes principales. En déduire l’inertie
totale du nuage des individus.
13

Complément de Cours ACP Chapitre 2 Hechmy Badry

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Complément de Cours ACP Chapitre 2 Hechmy Badry

Transféré par

Droits d'auteur :

Formats disponibles

[FSEG Tunis El Manar, Cours de Mr Hechmy Badry] 16 mars 2020

Suite chapitre n°2 : L’Analyse en Composantes Principales

Section 1 : Présentation de l’Analyse en composantes Principale

 x11 x12  x1q 

II. Détermination des axes factoriels (ACP non normée ou non

1. Le nombre d’axes factoriels

2. Signification des axes factoriels :

3. Notion de proximité et projection des points du nuage initial

dLm , Ln    x mj  x nj ² . Ces points seront plus proches lorsque la somme précédente

est plus petite.

 Etude de projection de deux points de IRq sur un axe

scalaire du vecteur Lm-Ln et le vecteur u : lm l n  L m  L n , u  u T L m  L n  .

 Etude de projection d’un nuage de points de IRq sur un axe

Formellement il faut que  lmln ² soit maximale ;

 lmln ²   u ' Lm  Ln ²   u T Lm  Ln u T Lm  Ln 

Donc maximiser  lmln ² revient à maximiser u T u sous la condition uTu =1

u, étant le vecteur propre de  c'est-à-dire la première composante principale du nuage.

4. Récapitulation : Démarche d’une ACP non normée

Les premières valeurs propres représentent une part contributive importante de

c. Chercher les axes factoriels

d. Faire la représentation graphique

e. Interprétation des axes

Aide pour répondre à l’exercice :

0 1 1

Section 2 : Aspects pratiques : Démarche d’une ACP réduite

ACP non réduite ACP réduite

I. Critères de sélection des axes factoriels :

Numéro du composant (ou axe)

II. Démarche d’une ACP normée

 Etape 1 : transformer la matrice X des données en une matrice Z de données

 Etape 2 : on détermine la matrice  des variances-covariances du nuage. Il s’agit

 Etape 3 : Chercher les valeurs propres de la matrice 

 Etape 4 : Chercher les axes factoriels :

 Etape 5 : faire la représentation graphique du nuage et des variables

déterminés successivement par 1  u1 et  2  u 2 . D’une manière générale

les coordonnées des variables sur l’axe k est k  u k

Une coordonnée s’interprète comme la corrélation entre les variables d’origine et

Représentation des variables Représentation des individus

 Etape 6 : on cherche, si c’est possible une signification des axes factoriels.

 Pour les individus :

dit qu’il est surreprésenté et on peut avoir intérêt à mettre l’individu en

coordonné de l’individu i dans la composante k.

 Etape 7 : On détermine la qualité de l’analyse

 Qualité locale de la représentation

On considère le tableau des données suivant :

1. Trouver les propriétés statistiques des variables.

Vous aimerez peut-être aussi