Académique Documents
Professionnel Documents
Culture Documents
1
Page | 2
Résumé du Chapitre 2 : l’ACP
Le nuage des points ligne : L1,L2…Lp ( c'est-à-dire les observations ou les individus) sur un
espace IRq de dimension q est le suivant :
Définition : L’ACP (Hotelling 1933) a pour objectif de réduire le nombre de données, souvent
très élevé, d’un tableau de données représenté, algébriquement comme une matrice et
géométriquement comme un nuage de points. Elle consiste à l’étude des projections des points
de ce nuage sur un axe (appelé axe factoriel ou principal), un plan ou un hyperplan
judicieusement déterminé.
Le problème est que lorsque on passe d’un espace de q dimensions à un espace de dimensions
plus petites, l’information retenue ne sera pas la même, il y ‘aura sans doute une déformation
de l’information. Le rôle de l’ACP est de trouver des espaces de dimensions plus petites
minimisant ces déformations.
2
Page | 3
Résumé du Chapitre 2 : l’ACP
du nuage).
d(Lm , Ln ) = (x mj − x nj )²
j= q
j=1
. Ces points seront plus proches lorsque la somme précédente
est plus petite.
✓ Etude de projection de deux points de IRq sur un axe
On considère Lm et Ln deux points de IRq avec : Lm=(xm1,xm2…,xmq) et Ln=(xn1,xn2,…,xnq)
La projection de ces deux points sur un axe Fu de vecteur unitaire u, a pour résultat deux autres
points qu’on les note lm et ln.
Ln
Lm
Fu
u lm ln
Rappel : la taille du segment 𝑙𝑚 𝑙𝑛 résultat de la projection du vecteur Lm-Ln sur Fu est égale au
La distance d(lm, ln) serait plus proche de la distance d(Lm,Ln) lorsque elle est plus grande.
Autrement la déformation produite par la projection serait plus faible lorsque l’amplitude de la
projection 𝑙𝑚 𝑙𝑛 serait plus grande.
4
Page | 5
Résumé du Chapitre 2 : l’ACP
𝑇
∑ 𝑙𝑚 𝑙𝑛 ² = ∑ (𝑢′(𝐿𝑚 − 𝐿𝑛 )) ² = ∑ [𝑢𝑇 (𝐿𝑚 − 𝐿𝑛 )][𝑢𝑇 (𝐿𝑚 − 𝐿𝑛 )]
𝑚,𝑛 𝑚,𝑛 𝑚,𝑛
= 2𝑝²(𝑢𝑇 𝛤𝑢)
Avec la matrice des variances-covariances du nuage des p points
Donc maximiser ∑𝑚,𝑛 𝑙𝑚 𝑙𝑛 ² revient à maximiser 𝑢𝑇 𝛤𝑢 sous la condition uTu =1
u, étant le vecteur propre de c'est-à-dire la première composante principale du nuage.
A noter que :
( )
Tr (X' X ) = Tr AA P−1 = Tr = 1 + 2 + ... + q
5
Page | 6
Résumé du Chapitre 2 : l’ACP
Il s’agit dans cette étape de projeter les observations et les variables sur les axes
factoriels (premier plan factoriel).
Exemple :
5 1 −1
A = 2 4 − 2
1 −1 3
1. Soit , réaliser l’ACP de la matrice A
Réponse :
1 = 2 , 2 = 4 , 3 = 6
1. On montre que les valeurs propres sont
0 1 1
v1 = 1 , v 2 = 0 , v3 = 1
1 1 0
Les vecteurs propres sont
2. L’importance que prendront les variables dans le calcul des composantes principales est
fonction de leur ordre de grandeur. Une variable ayant un écart type important aura plus
de poids qu’une variable de faible écart-type. Il s’ensuit donc que les variables de fort
écart-type construiront les premières composantes. Toutefois la lecture des résultats
d’une ACP peut devenir compliquée. C’est pour remédier à ça qu’il convient de centrer
et réduire les variables.
o On a vu que l’objectif de l’ACP est de projeter un nuage de p points de IRq sur un axe,
un plan ou un hyperplan déterminé de telle manière que la projection déforme le moins
possible le nuage.
o Souvent on réalise une ACP normée ou réduite pour se débarrasser des effets des unités
de mesure différents.
o Toutefois cette réduction peut être omise parfois par choix plutôt arbitraire, d’autres fois
par nécessité. Voici quelques éléments qui diffèrent entre les deux types d’ACP :
ACP non réduite ACP réduite
Données Variables exprimées dans la Variables exprimées dans des
même unité, avec des valeurs unités de mesure différentes,
de même ordre de grandeur ou d’ordre de grandeur trop
différentes
Valeurs propres Somme = somme des Somme = somme des
variances des variables de variances des variables
départ réduites, c'est-à-dire p =
nombre de variables
L’ACP réduite se prête mieux que la non réduite à la représentation des variables par cercle
de corrélations, puisque les variables ne sont pas réduites au départ, mais l’interprétation telle
qu’elle est pratiquée dans ce cours reste valable pour les deux types d’ACP
Comme nous l’avons signalé auparavant il existe plusieurs méthodes pour déterminer
les axes.
1. Critère de Kaiser : on ne retient que les axes associés à des valeurs propres
supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des variables
d’origine. (Autrement la moyenne des valeurs propres étant 1, on ne garde que
celles qui sont supérieures à cette moyenne)
2. Critère d’interprétation : on retient que les axes que l’on peut attribuer une forme
d’interprétation économique, par exemple, soit directement, soit en termes des
variables avec lesquelles ils sont très corrélés.
7
Page | 8
Résumé du Chapitre 2 : l’ACP
Dans la pratique Elle consiste à retenir les 2 premiers axes au moins, puis de "couper"
l'éboulis (ou scree plot) des valeurs propres entre les valeurs propres dont la différence
est maximum.
Exemple :
Considérons les valeurs propres suivantes relatives aux axes factoriels F1,F2…F6
Dans cet exemple, les différences entre valeurs propres à partir de la deuxième sont :
Remarque. Il existe d'autres règles de choix du nombre d'axes. La règle de l'éboulis combinée
avec celle de Kaiser est une des meilleures. En effet, on commence par regarder combien de
valeurs propres sont supérieures à la moyenne. Puis on regarde si la dernière valeur propre
retenue (supérieure à la moyenne) est suffisamment éloignée de celle qui la suit (inférieure à la
moyenne). Si oui, on reste sur la décision de la règle de Kaiser, si non, on coupera au saut plus
8
Page | 9
Résumé du Chapitre 2 : l’ACP
important le plus près. La prise en compte de la part d'inertie expliquée peut faire pencher la
balance vers plus d'axes ou moins d'axes que ce que la règle de Kaiser amène.
On se limite dans ce cours à la règle de Kaiser qui consiste à ne retenir que les axes associés à
des valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des
variables d’origine. (Autrement la moyenne des valeurs propres étant 1, on ne garde que celles
qui sont supérieures à cette moyenne)
Cette matrice n’est autre que la matrice de corrélations puisque les variables sont
1
centrées réduites. 𝛤 = 𝑝 𝑍 𝑇 𝑍 = 𝜌
9
P a g e | 10
Résumé du Chapitre 2 : l’ACP
Dans pratique, on arrête l’extraction des valeurs propres lorsque la somme des s valeurs
propres que l’on a déterminées représentent un pourcentage satisfaisant de la variance.
Les coordonnées des variables sur le premier et le deuxième axe factoriel sont déterminés
successivement par √𝜆1 × 𝑢1 et √𝜆2 × 𝑢2 . D’une manière générale les coordonnées des
Une coordonnée s’interprète comme la corrélation entre les variables d’origine et les nouvelles
variables synthétiques (axes principaux). On interprète ce coefficient comme n’importe quelle
10
P a g e | 11
Résumé du Chapitre 2 : l’ACP
corrélation linéaire.
F2 F2
1
F1 F1
-1 1
11
P a g e | 12
Résumé du Chapitre 2 : l’ACP
Remarque :
L'inertie totale du nuage des individus (qui est un nuage dans un espace à q dimensions), est
égale à la somme des variances des variables. Elle est la même pour le tableau de données
réduites (c'est-à-dire q) que pour le tableau des composantes principales.
Les variances des composantes principales sont appelées valeurs propres. Elles sont ordonnées
dans l'ordre décroissant.
On appelle aussi les composantes principales des "axes", "dimensions", "facteurs". Le
vocabulaire qu'on emploiera, qui a une signification bien précise dans un contexte plus
mathématique, utilisera indifféremment ces termes pour désigner la même notion, c'est-à-dire
les différents résumés de l'ensemble des variables.
➢ Limite de l’ACP
▪ D’un point de vue technique, ce procédé a pour objet l’étude de la structure de la matrice
des variances-covariances ou de la matrice des corrélations.
▪ Mais, le procédé est imparfait dans la mesure que le nuage est déformé par la projection,
même si cette dernière est la plus idéale possible. Certains points sont plus altérés que
d’autres par la transformation.
▪ L’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication est
évidente et fait que l’ACP soit redondante ; ou bien elle est contingente pour l’analyste
et dans ce dernier cas elle n’apporte pas des renseignements très convaincantes pour
l’analyse économétrique postérieure.
12
P a g e | 13
Résumé du Chapitre 2 : l’ACP
III. Applications
13