Vous êtes sur la page 1sur 13

Page | 1

Résumé du Chapitre 2 : l’ACP

Résumé du Chapitre 2 : L’Analyse en Composantes


Principales

▪ L’Analyse en Composantes Principales (ACP) est une méthode de l’analyse des


données qui permet de réduire le nombre des données.
▪ Lorsque le nombre de données est très élevé, il serait difficile d’en tirer des conclusions
et de les analyser.
▪ Le tableau des données se présente algébriquement sous la forme d’une matrice et
géométriquement sous la forme d’un nuage de points. L’ACP consiste à l’étude des
projections des points de ce nuage sur un axe appelé axe factoriel ou principal, un plan
ou un hyperplan qui seront déterminés avec pertinence. Toutefois on risque que le nuage
de points soit déformé et sera différent du nuage réel. Les méthodes d’ajustement
permettent de minimiser cette possible déformation et ce en maximisant les distances
projetées.
▪ Mathématiquement, le meilleur ajustement du nuage sera obtenu par des espaces
vectoriels. Algébriquement, il s’agit de chercher les valeurs propres maximales de la
matrice des données et par conséquent ses vecteurs propres associés qui représenteront
ces sous espaces vectoriels (axes factoriels ou principales).

Section 1 : Présentation de l’Analyse en composantes Principale


(ACP)

I. Données statistiques et notion de l’ACP

o Les données statistiques sont présentées généralement sous la forme d’un


tableau formé de q variables en colonnes et de p observations (ou individus) en
lignes (voir chapitre1).
o Ce tableau peut être interprété comme une matrice X de dimension 𝑝 × 𝑞 :

1
Page | 2
Résumé du Chapitre 2 : l’ACP

𝑥11 𝑥12 ⋯ 𝑥1𝑞


𝑥21 𝑥22 ⋯ 𝑥2𝑞
𝑋𝑝×𝑞 =( ⋮ ⋮ ⋱ ⋮ )
𝑥𝑝1 𝑥𝑝2 ⋯ 𝑥𝑝𝑞
o Cette matrice peut être interprétée comme donnée par :
▪ q points Cj de IRp : une colonne est interprétée comme un point dans l’espace de
dimension p
▪ Et p points Li de IRq : une ligne est interprétée comme un point dans l’espace de
dimension q.

Le nuage des points ligne : L1,L2…Lp ( c'est-à-dire les observations ou les individus) sur un
espace IRq de dimension q est le suivant :

Définition : L’ACP (Hotelling 1933) a pour objectif de réduire le nombre de données, souvent
très élevé, d’un tableau de données représenté, algébriquement comme une matrice et
géométriquement comme un nuage de points. Elle consiste à l’étude des projections des points
de ce nuage sur un axe (appelé axe factoriel ou principal), un plan ou un hyperplan
judicieusement déterminé.
Le problème est que lorsque on passe d’un espace de q dimensions à un espace de dimensions
plus petites, l’information retenue ne sera pas la même, il y ‘aura sans doute une déformation
de l’information. Le rôle de l’ACP est de trouver des espaces de dimensions plus petites
minimisant ces déformations.

2
Page | 3
Résumé du Chapitre 2 : l’ACP

II. Détermination des axes factoriels (ACP non normée ou non


réduite)

1. Le nombre d’axes factoriels


o On sait (voir chapitre 1) que toute matrice symétrique est diagonalisable, la matrice X’X
est une matrice diagonalisable (toujours). Mathématiquement la détermination des axes
factoriels revient à diagonaliser la matrice X’X.
−1
o Soit X' X = P  D  P
D : est la matrice diagonale des valeurs propres
P : la matrice des vecteurs propres.
 1 0  0 
 
 0 2  0 
D=
    
 
0 0 0  
 q
, avec 𝜆1 ≻ 𝜆2 ≻ 𝜆3 ≻. . . . . . . . .
Calculons la trace de X’X :
Tr(X’X)=Tr(PDP-1)=Tr(PP-1D)=Tr(D). En effet d’après les propriétés de la trace on a
Tr(AB)=Tr(BA).
𝑞
Soit 𝑇𝑟(𝑋′𝑋) = ∑𝑖=1 𝜆𝑖
• Une part contributive importante de la Tr(X’X) est déterminée par les s premiers
valeurs propres 𝜆1 , 𝜆2 , . . . 𝜆𝑠 avec 𝑠 ≺ 𝑞en raison des valeurs numériques
décroissantes de ces valeurs. On dit que l’information perdue est alors
relativement faible. Si c’est le cas le nombre d’axe factoriel à retenir serait égal à
s.

2. Signification des axes factoriels :


• L’objectif de l’ACP est de faire apparaitre les variables latentes (cachées) qui sont
d’un nombre plus réduit que les variables initiales d’une série de données.
• Toutefois la question qui se pose, est quelle est l’interprétation qu’on peut donner à
un axe factoriel, en présence d’un problème réel (concret) économique ou autre ?
• Si on tient compte du fait qu’un facteur est avant tout un concept mathématique, la
réponse à une telle question est rendue difficile à concevoir.
• En pratique, des points voisins du nuage représentent des comportements
(économiques) analogues. D’où la notion de proximité (de deux ou plusieurs points
3
Page | 4
Résumé du Chapitre 2 : l’ACP

du nuage).

3. Notion de proximité et projection des points du nuage initial


On considère deux points de l’espace IRq : Lm=(xm1,xm2,…,xmq) et Ln=(xn1,xn2,…xnq) , nous
avons vu que la distance euclidienne d(Lm,Ln) entre ces deux points est

d(Lm , Ln ) =  (x mj − x nj )²
j= q

j=1
. Ces points seront plus proches lorsque la somme précédente
est plus petite.
✓ Etude de projection de deux points de IRq sur un axe
On considère Lm et Ln deux points de IRq avec : Lm=(xm1,xm2…,xmq) et Ln=(xn1,xn2,…,xnq)
La projection de ces deux points sur un axe Fu de vecteur unitaire u, a pour résultat deux autres
points qu’on les note lm et ln.
Ln

Lm

Fu
u lm ln

Rappel : la taille du segment 𝑙𝑚 𝑙𝑛 résultat de la projection du vecteur Lm-Ln sur Fu est égale au

produit scalaire du vecteur Lm-Ln et le vecteur u : 𝑙𝑚 𝑙𝑛 = ⟨𝐿𝑚 − 𝐿𝑛 , 𝑢⟩ = 𝑢𝑇 (𝐿𝑚 − 𝐿𝑛 ).

La distance d(lm, ln) serait plus proche de la distance d(Lm,Ln) lorsque elle est plus grande.
Autrement la déformation produite par la projection serait plus faible lorsque l’amplitude de la
projection 𝑙𝑚 𝑙𝑛 serait plus grande.

✓ Etude de projection d’un nuage de points de IRq sur un axe


o Considérons un axe Fu, de vecteur unitaire u c'est-à-dire uTu=1,
o On montre que pour que la déformation du nuage soit minime lors de la
projection, il faut que la longueur ou les amplitudes des projections des distances
des différents points du nuage soient maximales. Formellement il faut que :
∑𝑚,𝑛 𝑙𝑚 𝑙𝑛 ² soit maximale ;

4
Page | 5
Résumé du Chapitre 2 : l’ACP

𝑇
∑ 𝑙𝑚 𝑙𝑛 ² = ∑ (𝑢′(𝐿𝑚 − 𝐿𝑛 )) ² = ∑ [𝑢𝑇 (𝐿𝑚 − 𝐿𝑛 )][𝑢𝑇 (𝐿𝑚 − 𝐿𝑛 )]
𝑚,𝑛 𝑚,𝑛 𝑚,𝑛

=∑ [𝑢𝑇 (𝐿𝑚 − 𝐿𝑛 )][(𝐿𝑚 − 𝐿𝑛 )𝑇 𝑢] = 𝑢𝑇 [∑ (𝐿𝑚 − 𝐿𝑛 )(𝐿𝑚 − 𝐿𝑛 )] 𝑢 = 𝑢𝑇 [2𝑝²𝛤]𝑢


𝑚,𝑛 𝑚,𝑛

= 2𝑝²(𝑢𝑇 𝛤𝑢)
Avec  la matrice des variances-covariances du nuage des p points
Donc maximiser ∑𝑚,𝑛 𝑙𝑚 𝑙𝑛 ² revient à maximiser 𝑢𝑇 𝛤𝑢 sous la condition uTu =1
u, étant le vecteur propre de  c'est-à-dire la première composante principale du nuage.

4. Récapitulation : Démarche d’une ACP


Soit la matrice des données Xp,q=[xij]
Algébriquement l’ACP consiste à chercher les valeurs propres maximales de la matrice
des données et par conséquent ses vecteurs propres associés qui représenteront ces sous
espaces vectoriels (axes factoriels ou principales). La démarche à suivre pour une ACP
non normée peut être résumée ainsi :
▪ Trouver la matrice X’X
▪ Chercher les valeurs propres
o Ecrire le polynôme caractéristique de X’X
o Déterminer les valeurs propres de la matrice symétrique X’X
o Classer les valeurs propres selon l’ordre décroissant,

A noter que :
( )
Tr (X' X ) = Tr AA P−1 = Tr  = 1 +  2 + ... +  q

Les premières valeurs propres représentent une part contributive importante de


la trace de X’X. Ainsi dans la pratique on peut se limiter aux s premières valeurs
propres et l’information perdue serait alors relativement faible.

▪ Chercher les axes factoriels


Les valeurs propres trouvées étant simples, les espaces propres associés aux
vecteurs propres seront des droites vectorielles (on les appelle des axes factoriels
ou des facteurs)
Critères de sélection des axes factoriels : il existe plusieurs méthodes pour
sélectionner les valeurs propres, la plus utilisée est celle qui consiste à
sélectionner les valeurs propres supérieures à la moyenne des valeurs propres.

5
Page | 6
Résumé du Chapitre 2 : l’ACP

▪ Faire la représentation graphique

Il s’agit dans cette étape de projeter les observations et les variables sur les axes
factoriels (premier plan factoriel).

▪ Interprétation des axes


Dans cette étape on cherche à interpréter les axes factoriels, la contribution des
variables et des individus, et finalement à identifier les variables et les individus
supplémentaire

Exemple :
 5 1 −1 
 
A =  2 4 − 2
 1 −1 3 
1. Soit   , réaliser l’ACP de la matrice A

2. Expliquer la liaison entre le choix de la composante et l’écart type de la variable.

Réponse :
1 = 2 ,  2 = 4 , 3 = 6
1. On montre que les valeurs propres sont
0 1 1
     
v1 =  1  , v 2 =  0  , v3 =  1 
1 1  0
Les vecteurs propres sont      

2. L’importance que prendront les variables dans le calcul des composantes principales est
fonction de leur ordre de grandeur. Une variable ayant un écart type important aura plus
de poids qu’une variable de faible écart-type. Il s’ensuit donc que les variables de fort
écart-type construiront les premières composantes. Toutefois la lecture des résultats
d’une ACP peut devenir compliquée. C’est pour remédier à ça qu’il convient de centrer
et réduire les variables.

Section 2 : Aspects pratiques : Démarche d’une ACP réduite


6
Page | 7
Résumé du Chapitre 2 : l’ACP

o On a vu que l’objectif de l’ACP est de projeter un nuage de p points de IRq sur un axe,
un plan ou un hyperplan déterminé de telle manière que la projection déforme le moins
possible le nuage.
o Souvent on réalise une ACP normée ou réduite pour se débarrasser des effets des unités
de mesure différents.
o Toutefois cette réduction peut être omise parfois par choix plutôt arbitraire, d’autres fois
par nécessité. Voici quelques éléments qui diffèrent entre les deux types d’ACP :
ACP non réduite ACP réduite
Données Variables exprimées dans la Variables exprimées dans des
même unité, avec des valeurs unités de mesure différentes,
de même ordre de grandeur ou d’ordre de grandeur trop
différentes
Valeurs propres Somme = somme des Somme = somme des
variances des variables de variances des variables
départ réduites, c'est-à-dire p =
nombre de variables
L’ACP réduite se prête mieux que la non réduite à la représentation des variables par cercle
de corrélations, puisque les variables ne sont pas réduites au départ, mais l’interprétation telle
qu’elle est pratiquée dans ce cours reste valable pour les deux types d’ACP

I. Critères de sélection des axes factoriels :

Comme nous l’avons signalé auparavant il existe plusieurs méthodes pour déterminer
les axes.

1. Critère de Kaiser : on ne retient que les axes associés à des valeurs propres
supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des variables
d’origine. (Autrement la moyenne des valeurs propres étant 1, on ne garde que
celles qui sont supérieures à cette moyenne)
2. Critère d’interprétation : on retient que les axes que l’on peut attribuer une forme
d’interprétation économique, par exemple, soit directement, soit en termes des
variables avec lesquelles ils sont très corrélés.

7
Page | 8
Résumé du Chapitre 2 : l’ACP

3. Critère d’éboulis : on cherche un ‘’coude’’ dans le graphe des valeurs propres et


on ne conserve que les valeurs jusqu’au ce coude.

Dans la pratique Elle consiste à retenir les 2 premiers axes au moins, puis de "couper"
l'éboulis (ou scree plot) des valeurs propres entre les valeurs propres dont la différence
est maximum.

Exemple :

Considérons les valeurs propres suivantes relatives aux axes factoriels F1,F2…F6

Dans cet exemple, les différences entre valeurs propres à partir de la deuxième sont :

La différence maximum est entre les axes 2 et 3, on retient donc 2 axes.

Remarque. Il existe d'autres règles de choix du nombre d'axes. La règle de l'éboulis combinée
avec celle de Kaiser est une des meilleures. En effet, on commence par regarder combien de
valeurs propres sont supérieures à la moyenne. Puis on regarde si la dernière valeur propre
retenue (supérieure à la moyenne) est suffisamment éloignée de celle qui la suit (inférieure à la
moyenne). Si oui, on reste sur la décision de la règle de Kaiser, si non, on coupera au saut plus

8
Page | 9
Résumé du Chapitre 2 : l’ACP

important le plus près. La prise en compte de la part d'inertie expliquée peut faire pencher la
balance vers plus d'axes ou moins d'axes que ce que la règle de Kaiser amène.

On se limite dans ce cours à la règle de Kaiser qui consiste à ne retenir que les axes associés à
des valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des
variables d’origine. (Autrement la moyenne des valeurs propres étant 1, on ne garde que celles
qui sont supérieures à cette moyenne)

II. Démarche d’une ACP normée

La démarche à suivre pour effectuer une ACP réduite se résume ainsi :

Etape 1 : transformer la matrice X des données en une matrice Z de données centrées


réduites :
𝑥11 𝑥12 ⋯ 𝑥1𝑞
𝑥21 𝑥22 ⋯ 𝑥2𝑞
Soit 𝑋𝑝×𝑞 =( ⋮ ⋮ ⋱ ⋮ ), la matrice Z s’écrit 𝑍𝑝×𝑞 =
𝑥𝑝1 𝑥𝑝2 ⋯ 𝑥𝑝𝑞
𝑧11 𝑧12 ⋯ 𝑧1𝑞
𝑧21 𝑧22 ⋯ 𝑧2𝑞
( ⋮ ⋮ ⋱ ⋮ )
𝑧𝑝1 𝑧𝑝2 ⋯ 𝑧𝑝𝑞
𝑖=𝑝
𝑥𝑖𝑗 −𝑋𝑗 ∑𝑖=1 𝑥𝑖𝑗 1
Avec 𝑧𝑖𝑗 = , 𝑋𝑗 = , 𝜎𝑋𝑗 = √𝑝 ∑𝑖=𝑝
𝑖=1 (𝑥𝑖𝑗 − 𝑋𝑗 ) ²
𝜎𝑋𝑗 𝑝

Etape 2 : on détermine la matrice  des variances-covariances du nuage. Il s’agit d’une


matrice carrée d’ordre q, avec :
1
𝛤 = 𝑝 𝑍 𝑇 𝑍, qui est une matrice symétrique donc diagonalisable.

Cette matrice n’est autre que la matrice de corrélations  puisque les variables sont
1
centrées réduites. 𝛤 = 𝑝 𝑍 𝑇 𝑍 = 𝜌

Etape 3 : Chercher les valeurs propres de la matrice 


▪ Chercher le polynôme caractéristique de  ,
▪ Chercher les valeurs propres,

9
P a g e | 10
Résumé du Chapitre 2 : l’ACP

Soit D la matrice diagonale des valeurs propres semblable à𝛤, 𝛤 = 𝑃𝐷𝑃−1 𝐷 =


𝜆1 0 … 0
0 𝜆2 … 0
( ) . On sait que la trace de 𝑡𝑟𝛤 = 𝑡𝑟𝐷 = ∑𝑞𝑘=1 𝜆𝑘 , or la trace
⋮ ⋮ ⋱ ⋮
0 0 … 𝜆𝑞
de  n’est autre que la somme des variances des variables Zj : 𝑡𝑟𝛤 =
∑𝑞𝑗=1 𝑉(𝑍𝑗 ).

Dans pratique, on arrête l’extraction des valeurs propres lorsque la somme des s valeurs
propres que l’on a déterminées représentent un pourcentage satisfaisant de la variance.

Etape 4 : Chercher les axes factoriels :


1 ,  2 ,..., s
Ce sont les vecteurs propres u1, u2,…,us associés aux valeurs propres
Les axes factoriels sont perpendiculaires et ne sont pas corrélés entre eux. Dans la
majorité des cas, ne sont pris en considération que les deux, les trois ou les quatre
premiers axes factoriels.

Etape 5 : faire la représentation graphique du nuage et des variables


▪ On représente graphiquement les individus par un nuage de points : projeter les
p observations sur les deux premiers axes factoriels (premier plan factoriel). Une
proximité entre les projections de deux points d’observations s’interprète
comme un comportement analogue pour les q variables.
Les coordonnées des individus sur le premier et le deuxième axe factoriel sont
données par la multiplication 𝑍 × 𝑢1 et 𝑍 × 𝑢2
▪ On représente graphiquement les variables par un cercle des corrélations, une
corrélation entre deux variables pouvant être vue comme le cosinus de l'angle
entre ces deux variables,

Les coordonnées des variables sur le premier et le deuxième axe factoriel sont déterminés
successivement par √𝜆1 × 𝑢1 et √𝜆2 × 𝑢2 . D’une manière générale les coordonnées des

variables sur l’axe k est √𝜆𝑘 × 𝑢1

Une coordonnée s’interprète comme la corrélation entre les variables d’origine et les nouvelles
variables synthétiques (axes principaux). On interprète ce coefficient comme n’importe quelle

10
P a g e | 11
Résumé du Chapitre 2 : l’ACP

corrélation linéaire.

Représentation des variables Représentation des individus

F2 F2
1

F1 F1

-1 1

Etape 6 : on cherche, si c’est possible une signification des axes factoriels.


La synthèse des informations contenues dans le graphe doit permettre à l’économiste de
trouver une signification des axes, s’il existe une..
Pour savoir quelles variables donnent du sens à chaque axe et quelles variables il est
inutile d’interpréter, on examine :
▪ Pour les variables :
o Les Contributions des variables aux axes : pour savoir quelles variables
donnent du sens à chaque axe, on examine pour chaque axe les
coordonnées des variables qui ne sont que des corrélations.
o Les cosinus carrés qui ne sont autres que les carrés des coordonnées des
variables

▪ Pour les individus :


o La Contribution des individus à une composante : c’est la part de la
variance d’une composante principale qui provient d’un individu donné.
(Souvent, si cette contribution est supérieure de 2 à 4 fois à son poids,
l’individu définit la composante. Si elle est très supérieure aux autres, on
dit qu’il est surreprésenté et on peut avoir intérêt à mettre l’individu en
donnée supplémentaire).
2
𝑐𝑖𝑘
o Le cosinus carré d’un individu i est définit par : 𝑞 2
∑𝑗=1 𝑐𝑖𝑗
avec cik le

coordonné de l’individu i dans la composante k.

11
P a g e | 12
Résumé du Chapitre 2 : l’ACP

Etape 7 : On détermine la qualité de l’analyse


▪ Qualité globale de la représentation :
La qualité de la représentation obtenue par k valeurs propres est la proportion de
k
j
j=1
q
j
j=1
l’inertie expliquée :
▪ Qualité locale de la représentation
On cherche à déterminer si le nuage de points est très aplati par la projection sur les
sous espaces principaux. Dans ce cas, deux individus éloignés pourraient
artificiellement sembler proches les uns des autres.

Remarque :
L'inertie totale du nuage des individus (qui est un nuage dans un espace à q dimensions), est
égale à la somme des variances des variables. Elle est la même pour le tableau de données
réduites (c'est-à-dire q) que pour le tableau des composantes principales.
Les variances des composantes principales sont appelées valeurs propres. Elles sont ordonnées
dans l'ordre décroissant.
On appelle aussi les composantes principales des "axes", "dimensions", "facteurs". Le
vocabulaire qu'on emploiera, qui a une signification bien précise dans un contexte plus
mathématique, utilisera indifféremment ces termes pour désigner la même notion, c'est-à-dire
les différents résumés de l'ensemble des variables.

➢ Limite de l’ACP

▪ D’un point de vue technique, ce procédé a pour objet l’étude de la structure de la matrice
des variances-covariances ou de la matrice des corrélations.
▪ Mais, le procédé est imparfait dans la mesure que le nuage est déformé par la projection,
même si cette dernière est la plus idéale possible. Certains points sont plus altérés que
d’autres par la transformation.
▪ L’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication est
évidente et fait que l’ACP soit redondante ; ou bien elle est contingente pour l’analyste
et dans ce dernier cas elle n’apporte pas des renseignements très convaincantes pour
l’analyse économétrique postérieure.

12
P a g e | 13
Résumé du Chapitre 2 : l’ACP

III. Applications

On considère le tableau des données suivant :

1. Trouver les propriétés statistiques des variables.


2. Réaliser l’ACP des données du tableau (utiliser une ACP réduite). Représenter
graphiquement les individus et les variables sur le premier plan principal. Toujours
discuter les résultats.
3. Calculer les moyennes et les variances des composantes principales. En déduire l’inertie
totale du nuage des individus.

13

Vous aimerez peut-être aussi