Académique Documents
Professionnel Documents
Culture Documents
L3 Math Appl
Chapitre 4:
Analyse en composantes principales
ACP
- 2023/2024-
Page. 1
Analyse factorielle
Les méthodes d'analyse factorielle :
o L’analyse des correspondances (AFC): qui est une technique de base pour
analyser des tables de contingence qui peut être utilisé pour des variables
qualitatives ou quantitatives.
Les techniques factorielles de l’analyse des données ont une partie de fondement générale
commune à toutes : c’est celle qui s’appelle : « Analyse générale » qui est basée sur les
idées développées jadis par Eckart et Young(1936), qu’aujourd’hui elles sont développées
encore plus théoriquement, surtout de point du vue informatique dans les dernières années
et elles construisent « Approximation d’une matrice par d’autres de rang inférieur ».
Page. 2
Ces méthodes impliquent souvent de la même manière les individus (lignes) et les
variables (colonnes). La confrontation des espaces d’individus et de variables enrichit les
interprétations.
Introduction :
Quelques motivations actuelles :
• En informatique : quand il s’agit d’enregistrer un fichier volumineux dans une
mémoire réduite.
• Photos satellites : quand il s’agit d’enregistrer des milliers de photos prises par les
satellites. Chaque photo est représentée par un tableau de 256 x 256 pixels :
Cela parait très improbable de trouver des machines capables de stocker toutes les
données concernant des centaines de milliers voir des millions de photos prises par
des satellites journalièrement.
D’une manière générale, si l’on désire introduire un fichier dans un emplacement réduit en
conservant le maximum d’informations, pour que cela soit possible, il faut synthétiser
l’information contenue dans le fichier et ne garder que ce qui est essentiel.
Ces photos sont obtenues par des projections des objets et des variables dans ces
espaces qui donnent la meilleure photo possible.
Page. 3
Stratégie de l’Analyse en Composantes Principales (ACP) :
D’écrire:
Les données de 3 manières complémentaires
statistique : chaque colonne représente une variable mesurée sur différent
individus,
matricielle: le tableau complet de données est une matrice de nombres réels,
géométrique : chaque ligne du tableau représente les coordonnées d’un point
dans un espace dont la dimension est le nombre de variables.
Le problème
Si P = 3 on peut présenter les individus mais lorsque la dimension est plus grande que 3, il
est impossibles de les visualiser dès que p > 3.
Donc il s’agit de répondre aux questions suivantes :
• Comment obtenir une photo représentative (meilleur photos) de {𝑒′𝑖 , 𝑖 = 1, … , 𝑛}
sur un espace de plus faibles dimension.
• Comment réduire le tableau 𝑿 de la meilleure manière possible :
𝑿 → 𝑪
(𝒏, 𝒑) 𝒒≪𝒑 (𝒏, 𝒒)
Cherché des nouvelles variables [𝐶 1 , … , 𝐶 𝑞 ] non corrélées.
• Cette réduction se fera en éliminant la redondance d’information apportée par les
anciens variables.
Page. 4
Pour réaliser une ACP on suit une démarche en plusieurs étapes :
Page. 5
Avec :
⇒ 𝑳’𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖 𝒆𝒊 : é𝑙é𝑚𝑒𝑛𝑡 𝑑𝑒 𝑅 𝑃
⇒ 𝑳𝒂 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒙𝒋 : é𝑙é𝑚𝑒𝑛𝑡 𝑑𝑒 𝑅 𝑛
𝒋
⇒ 𝒙𝒊 : 𝑒𝑠𝑡 𝑙𝑎 𝑣𝑎𝑙𝑒𝑢𝑟 𝑝𝑟𝑖𝑠𝑒 𝑝𝑎𝑟 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑗 𝑠𝑢𝑟 𝑙’𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢 𝒊
[𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒋 , … , 𝒙𝒑 ]
𝒙𝟏
𝟐
" transposée de 𝑿 notée ∶ 𝑿′ : 𝑿′ = [𝒆𝟏 , 𝒆𝟐 , … 𝒆𝒏 ] = [𝒙 ]
⋮
𝒙𝒑
Alors ;
𝒋
𝒙𝟏 𝒙𝟏𝒊
𝒋 𝟐
La variable 𝑥 𝑗 = 𝒙𝟐 ∈ 𝑅 𝑛 et L’individu: 𝒆′𝒊 = 𝒙𝒊 ∈ 𝑅 𝑝 .
⋮ ⋮
𝒑
𝒋
[𝒙𝒏 ] [𝒙𝒊 ]
Conclusion :
Dans le cas pratique, le nombre de variables p est souvent plus petit que le nombre
d’individus n, donc il est souvent, préférable de se placer sur l’espace𝑅 𝑝 .
Mais, on verra qu’il y a dualité entre l’analyse faite sur 𝑅 𝑝 et l’analyse faite sur 𝑅 𝑛 .
Page. 6
On établira, pour ce faire, des formules dites de transitions qui permettent de faire le
passage de l’analyse faite sur 𝑅 𝑝 vers l’analyse faite sur 𝑅 𝑛 et vice versa.
Remarque :
Dans tout ce qui suit, les vecteurs de 𝑅 𝑝 et de 𝑅 𝑛 sont des vecteurs colonnes.
Exemple de tableau X de notes (de 1à 7) attribuées à P=7 mots, par n=12 répondants
R03 4 3 2 2 3 4 4
R04 5 3 1 5 2 7 1
R05 4 5 2 7 1 4 2
R06 5 7 1 5 2 4 5
R07 4 2 1 3 5 3 6
R08 4 1 3 4 5 4 7
R09 6 6 2 4 7 5 5
R10 6 6 3 5 3 6 6
R11 7 7 5 7 7 6 7
R12 2 2 1 2 1 3 4
𝟕 𝟒 𝟐 𝟐 𝟕 𝟏 𝟔
𝟔 𝟐 𝟏 𝟐 𝟓 𝟏 𝟕
𝟒 𝟑 𝟐 𝟐 𝟑 𝟒 𝟒
𝟓 𝟑 𝟏 𝟓 𝟐 𝟕 𝟏
𝟒 𝟓 𝟐 𝟕 𝟏 𝟒 𝟐
𝑿 𝟓 𝟕 𝟏 𝟓 𝟐 𝟒 𝟓
=
(𝟏𝟐, 𝟕) 𝟒 𝟐 𝟏 𝟑 𝟓 𝟑 𝟔
𝟒 𝟏 𝟑 𝟒 𝟓 𝟒 𝟕
𝟔 𝟔 𝟐 𝟒 𝟕 𝟓 𝟓
𝟔 𝟔 𝟑 𝟓 𝟑 𝟔 𝟔
𝟕 𝟕 𝟓 𝟕 𝟕 𝟔 𝟕
(𝟐 𝟐 𝟏 𝟐 𝟏 𝟑 𝟒)
𝑿 ∶ est une matrice rectangulaire à 𝟏𝟐 lignes et 𝟕 colonnes
𝒆𝟏 = (𝟕, 𝟔, 𝟐, 𝟐, 𝟕, 𝟏, 𝟔)
⋮
⋮
𝒆𝟏𝟐 = (𝟐, 𝟐, 𝟏, 𝟐, 𝟏, 𝟑, 𝟒)
Page. 7
𝟕 𝟔
𝟔 𝟕
𝟒 𝟒
𝟓 𝟏
𝟒 𝟐
𝟓 𝟓
𝒙𝟏 = , ..., 𝒙𝟕 =
𝟒 𝟔
𝟒 𝟕
𝟔 𝟓
𝟔 𝟔
𝟕 𝟕
(𝟐) (𝟒)
• Matrice poids
Chaque individu peut avoir un poids 𝑷𝒊 , tel que : 𝑷𝟏 + ⋯ + 𝑷𝒏 = 𝟏,
C’est poids mesurent l’importance de chaque individu au sein de la population. S’il n’y a pas
de référence entre individus, ils seront affectés chacune d’un même poids. On a souvent 𝑷𝒊 =
𝟏⁄𝒏
On associe aux individus un poids 𝑷𝒊 tel que, 𝑷𝒊 > 0 ; et ∑𝒏𝒊=𝟏 𝒑𝒊 = 𝟏 que l’on
représente par la matrice diagonale de taille 𝒏
𝑷𝟏 0
𝑷𝟐
Dp =
⋱
(0 𝑷𝒏 )
𝟏
Cas uniforme : tous les individus ont le même poids : 𝒑𝒊 = 𝟏⁄𝒏 et 𝑫𝒑 = 𝒏 𝐈𝐧
Cas particuliers: matrices identité (𝑛 × 𝑛) et vecteur unité de taille 𝒏 :
𝟏 0
1
𝟏
In = [ ] , 1n = [ ⋮ ]
⋱
1
0 𝟏
Exemple
𝟏
0
𝟏𝟐
𝟏
𝟏 0
=𝟏𝟐 ( 𝟏
𝟏
Dp = 𝟏𝟐 )
⋱ ⋱
𝟏 ⏟0 𝟏
(0 𝟏𝟐 ) 𝐈𝟏𝟐
Nuages de points associés :
Dans 𝐑𝒑 : « espace des individus » : l’ensemble {(𝑝𝑖 , 𝑒′𝑖 ), 𝑖 = 1, … , 𝑛}⊂ R𝑝 , est le nuage
de points de R𝑝 associé aux individus.
Page. 8
• Point Moyen (Centre de gravité) :
Où le vecteur
̅𝟏 , … , 𝒙
𝐠′ = (𝒙 ̅𝒑 )
Exemple :
𝟕 𝟒 𝟐 𝟐 𝟓 𝟏 𝟔
𝟔 𝟐 𝟏 𝟐 𝟕 𝟏 𝟕
𝟒 𝟑 𝟐 𝟐 𝟑 𝟒 𝟒
𝟓 𝟑 𝟏 𝟓 𝟐 𝟕 𝟏
𝟒 𝟓 𝟐 𝟕 𝟏 𝟒 𝟐
𝟓 𝟕 𝟏 𝟓 𝟐 𝟒 𝟓
𝒙𝟏 = , 𝒙𝟐 = , 𝒙𝟑 = , 𝒙𝟒 = , 𝒙𝟓 = , 𝒙𝟔 = , 𝒙𝟕 =
𝟒 𝟐 𝟏 𝟑 𝟓 𝟑 𝟔
𝟒 𝟏 𝟑 𝟒 𝟓 𝟒 𝟕
𝟔 𝟔 𝟐 𝟒 𝟕 𝟓 𝟓
𝟔 𝟔 𝟑 𝟓 𝟑 𝟔 𝟔
𝟕 𝟕 𝟓 𝟕 𝟕 𝟔 𝟕
(𝟐) (𝟐 ) (𝟏) (𝟐 ) (𝟏) (𝟑 ) (𝟒)
𝟏𝟐 𝟏𝟐
𝟏
𝟏
̅𝒙 = ∑ 𝒑𝒊 𝒙𝟏𝒊 = ∑ 𝒙𝟏𝒊 = 𝟓
𝟏𝟐
𝒊=𝟏 𝒊=𝟏
̅𝒙 = 4 , ̅𝒙𝟑 =2 ,
𝟐
̅𝟒 = 𝟒,
𝒙 ̅𝟓 = 𝟒 , 𝒙
𝒙 ̅𝟔 = 𝟒 ̅𝟕 = 𝟓
,𝒙
Le centre de gravité du nuage est : 𝐠 ′ = (𝟓, 𝟒, 𝟐, 𝟒, 𝟒, 𝟒, 𝟓)
Dans le déroulement d’une ACP, il faut toujours vérifier que le tableau est centré et s’il ne
l’est pas il faut le centrer.
Page. 9
• Tableau centré
En notation matricielle:
𝒀 = 𝑿 − 𝟏𝒏 𝐠′
Nous appelons "Matrice centrée" la matrice :
𝒋 𝒑
𝒙𝟏𝟏 − 𝒙
̅𝟏 ̅𝒋
… 𝒙𝟏 − 𝒙 ⋯ ̅𝒑
𝒙𝟏 − 𝒙
⋮ … ⋮ ⋯ ⋮
𝒋 𝒑
Y = 𝒙𝒊 − 𝒙
𝟏
̅𝟏 ̅𝒋
… 𝒙𝒊 − 𝒙 ⋯ ̅𝒑
𝒙𝟏 − 𝒙
⋮ … ⋮ ⋯ ⋮
𝟏 𝒋 𝒑
[𝒙𝒏 − 𝒙̅𝟏 ̅𝒋
… 𝒙𝒏 − 𝒙 ⋯ ̅𝒑 ]
𝒙𝒏 − 𝒙
Exemple :
Centré le tableau X de notes de l’exemple précédent (la matrice X):
𝒀 = 𝑿 − 𝟏𝒏 𝐠′
Avec :
𝐠 ′ = (𝟓, 𝟒, 𝟐, 𝟒, 𝟒, 𝟒, 𝟓)
𝟕 𝟒 𝟐 𝟐 𝟕 𝟏 𝟔 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟔 𝟐 𝟏 𝟐 𝟓 𝟏 𝟕 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟒 𝟑 𝟐 𝟐 𝟑 𝟒 𝟒 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟓 𝟑 𝟏 𝟓 𝟐 𝟕 𝟏 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟒 𝟓 𝟐 𝟕 𝟏 𝟒 𝟐 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝒀 𝟓 𝟕 𝟏 𝟓 𝟐 𝟒 𝟓 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
= −
(𝟏𝟐, 𝟕) 𝟒 𝟐 𝟏 𝟑 𝟓 𝟑 𝟔 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟒 𝟏 𝟑 𝟒 𝟓 𝟒 𝟕 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟔 𝟔 𝟐 𝟒 𝟕 𝟓 𝟓 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟔 𝟔 𝟑 𝟓 𝟑 𝟔 𝟔 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟕 𝟕 𝟓 𝟕 𝟕 𝟔 𝟕 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
(𝟐 𝟐 𝟏 𝟐 𝟏 𝟑 𝟒) ⏟(𝟓 𝟒 𝟐 𝟒 𝟏 𝟒 𝟓)
𝟏𝐧 𝐠 ′
Page. 10
𝟐 𝟎 𝟎 −𝟐 𝟑 −𝟑 𝟏
𝟏 −𝟐 −𝟏 −𝟐 𝟏 −𝟑 𝟐
−𝟏 −𝟏 𝟎 −𝟐 −𝟏 𝟎 −𝟏
𝟎 −𝟏 −𝟏 𝟏 −𝟐 𝟑 −𝟒
−𝟏 𝟏 𝟎 𝟑 −𝟑 𝟎 −𝟑
𝒀 𝟎 𝟑 −𝟏 𝟏 −𝟐 𝟎 𝟎
(𝟏𝟐, 𝟕) =
−𝟏 −𝟐 −𝟏 −𝟏 𝟏 −𝟏 𝟏
−𝟏 −𝟑 𝟏 𝟎 𝟏 𝟎 𝟐
𝟏 𝟐 𝟎 𝟎 𝟑 𝟏 𝟎
𝟏 𝟐 𝟏 𝟏 −𝟏 𝟐 𝟏
𝟐 𝟑 𝟑 𝟑 𝟑 𝟐 𝟐
(−𝟑 −𝟐 −𝟏 −𝟐 −𝟑 −𝟏 −𝟏 )
On obtient :
𝑦̅ 1=0; ̅𝑦 2 =0; 𝑦̅ 3 =0 ; 𝑦̅ 4 =0 ; 𝑦̅ 5 =0 ; 𝑦̅ 6 =0 ; 𝑦̅ 7 =0 alors 𝐠 = 𝟎ℝ𝒑 ⟹ le tableau Y est centré
❖ Matrice de variance-covariance :
𝑽 = 𝒀′ 𝑫𝒑 𝒀
Remarque :
Dans le cas d’une ACP classique, la matrice à diagonaliser est la matrice des variances
covariances V qui est donnée par :
𝑽 = 𝒀′ 𝑫𝒑 𝒀
Page. 11
𝟐 𝟎 𝟎 −𝟐 𝟑 −𝟑 𝟏
𝟏 −𝟐 −𝟏 −𝟐 𝟏 −𝟑 𝟐
−𝟏 −𝟏 𝟎 −𝟐 −𝟏 𝟎 −𝟏
2 1 −1 0 −1 0 −1 −1 1 1 2 −3 𝟎 −𝟏 −𝟏 𝟏 −𝟐 𝟑 −𝟒
0 −2 −1 −1 1 3 −2 −3 2 2 3 −2 −𝟏 𝟏 𝟎 𝟑 −𝟑 𝟎 –𝟑
0 −1 0 −1 0 −1 −1 1 0 1 3 −1 𝟎 𝟑 −𝟏 𝟏 −𝟐 𝟎 𝟎
⏟ = −2
V −2 −2 1 3 1 −1 0 0 1 3 −2 𝑫 ⏟𝒑 −𝟏 −𝟐 −𝟏 −𝟏 𝟏 −𝟏 𝟏
(7,7) 3 1 −1 −2 −3 −2 1 1 3 −1 3 −3 (𝟏𝟐,𝟏𝟐) −𝟏 −𝟑 𝟏 𝟎 𝟏 𝟎 𝟐
−3 −3 0 3 0 0 −1 0 1 2 2 −1 𝟏 𝟐 𝟎 𝟎 𝟑 𝟏 𝟎
( 1
⏟ 2 −1 −4 −3 0 1 2 0 1 2 −1) 𝟏 𝟐 𝟏 𝟏 −𝟏 𝟐 𝟏
′ 𝟐 𝟑 𝟑 𝟑 𝟑 𝟐 𝟐
Y (−𝟑
⏟ −𝟐 −𝟏 −𝟐 −𝟑 −𝟏 −𝟏 )
𝒀
Question :
Déterminer la matrice V (matrice variance covariance)?
𝒚𝒋
C’est- à- dire : 𝒛𝒋 =
𝝈𝒋
Page. 12
Formule matricielle :
𝐑 = 𝐙′𝐃𝐩 𝐙
Covariances :
Comme 𝒛̅𝒋 = 𝒚
̅𝒋 = 𝟎, les covariances des 𝓩𝒋 sont des corrélations :
Entre individus
Afin de pouvoir considérer la structure du nuage des individus, il faut définir une distance,
qui induira une géométrie.
Inertie :
On définit l'inertie totale d'un nuage de points par la moyenne pondérée des carrés des
distances des points (𝒆𝒊)𝟏≤𝒊≤𝒏du centre de gravité :
Calcul de l’inertie:
𝒑
a) 𝑰𝐠 = 𝑻𝒓(𝑽) = ∑𝒋=𝟏 𝝈𝟐𝒋
Page. 13
Entre variables
Chaque variable 𝒀𝒋 est en faire une liste de 𝒏 valeurs numériques. Pour étudier l’aproximité des
variables entre elles, il faut munir cet espace d’une métrique c’est-à-dire trouver une matrice
d’ordre 𝒏 définie positive et symétrique.
On remarque que le coefficient de corrélation linéaire n'est autre que le cosinus d'angle
entre les deux variables.
1) Axes principaux
Les axes principaux d’inertie : les axes de direction les vecteurs propres de da la matrice
V normés à 1.
On cherche la droite de 𝑹 𝑷 passant par g maximisant l'inertie de nuage projeté sur elle.
V up=𝝀𝒑 𝒖𝒑
- les 𝝀𝒑 ≥ 𝟎 sont les valeurs propres de V et sont classées par ordre décroissant :
𝝀𝟏 ≥ 𝝀𝟐 ≥ 𝝀𝟑 ≥ ⋯ ≥ 𝝀𝒑 ≥ 𝟎
- les uq sont les vecteurs propres de V et sont « M-orthonormaux » :
Page. 14
Théorème
La projection sur q variables est obtenue en considérant les q premières valeurs
propres 𝛌𝟏 ,…, 𝛌𝐪 et 𝐮𝟏 ,…, 𝐮𝐪 correspondants, appelés axes principaux.
En Résumé
- En prend 𝑉𝐮 = 𝛌𝐮 est u un vecteur propre de V et 𝛌 est la plus grande valeur propre
associé à la matrice V.
• Le premier axe : est celui qui aura la plus grande valeur propre : 𝝀𝟏
• Le deuxième axe : sera celui de la deuxième valeur propre et ainsi de suite.
- Une base orthonormée du sev Fq de dimension q est { 𝐮𝟏 ,…, 𝐮𝐪 } ,
‖𝑢𝑖 ‖ = 1, 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖 = 1, … , 𝑞; 𝑒𝑡 𝐮𝓵 ⊥ 𝐮𝓵′ si 𝓵 ≠ 𝓵′ , et 𝑢𝑖 est le vecteur propre normé
de la matrice V associé à la 𝑖è𝑚𝑒 plus grande valeur propre 𝝀𝒊 (𝝀𝟏≽ 𝝀𝟐 ≽ 𝝀𝟑 ≽ ⋯ ≽ 𝝀𝒊 )
- 𝒍′ 𝒂𝒙𝒆 △𝒖𝒒 passant par l’origine de 𝑹𝒑 et engendré par le vecteur propre associé à la
𝑞𝑖è𝑚𝑒 plus grand valeur propre de la matrice des variances covariances V est appelé : le
𝑞𝑖è𝑚𝑒 axe factoriel
𝑰𝐠 = 𝑻𝒓(𝑽) = 𝝀𝟏 +· · ·+𝝀𝒑
Page. 15
▪ Covariance : 𝑪𝒐𝒗(𝑪𝒒 , 𝑪𝒒′ ) = 𝟎, les composantes principales ne sont pas corrélées
entre elles.
Donc
𝑪𝒒 𝒆𝒕 𝑪𝒒′ : sont non corrélées⇔ 𝑪𝒒 sont Dp- orthogonaux
⊥ ′
⇔ 𝑪𝒒 𝑪𝒒′ ⇔ (𝒀 × 𝒖𝒒 ) × 𝑫𝑷 × (𝒀 × 𝒖𝒒 ) = 𝟎
𝑫𝑷
𝑽𝒂𝒓(𝑪𝟏 ) = 𝝀𝟏
La variance de la composante principale est égale à l'inertie apportée par l'axe principale qui
lui associé.
En effet :
²
𝑽𝒂𝒓(𝑪𝒒 ) =< 𝑪𝒒 , 𝑪𝒒 >𝑴 = ‖𝑪𝒒 ‖ = 𝐂 𝒒 ′ 𝐃𝐩 𝐂 𝒒
𝑴= 𝐃𝐩
= 𝒖𝒒 ′𝒀′ 𝐃𝐩 𝐘𝒖𝒒
= 𝑢𝑞 ′𝑉𝑢𝑞
= 𝑢𝑞 ′𝜆𝑞 𝑢𝑞
= 𝜆𝑞 𝑢′
⏟ 𝑞 𝑢𝑞
𝑛𝑜𝑟𝑚𝑒 1
= 𝜆𝑞 . 1 = 𝜆𝑞
Cette variance donne la dispersion des objets projetés ou l’allongement des observations
projetées sur l’axe factoriel.
Tandis que les nouvelles variables sont les composantes principales représentées par :
{Cq ; q≥ 1}
Le lien pouvant exister entre une ancienne variable et une nouvelle variable se mesure par
le coefficient de corrélation linéaire entre eux, on a
Page. 16
′
j
cov(Y j , 𝑤q ) cov(Y j , wq ) (Y j ) × 𝐷𝑝 × Wq × 𝑢𝑞
r(Y , wq ) = = =
√var(wq )√var(𝑌 j ) ‖Y j ‖𝐷𝑝 . ‖wq ‖ σ𝑗 . (√λq )
𝐷𝑝
′
(Y j ) × 𝐷𝑝 × Cq × 𝑢𝑞 : est la jème composante du vecteur
Donc on a bien
λq × (𝑢𝑞 )𝑗 (𝑢𝑞 )𝑗
r(Y j , Cq ) = = (√λq )
σ𝑗 × (√λq ) σ𝑗
On constate que sur l’axe factoriel ∆𝑢𝑟 , le coefficient de corrélation entre la nouvelle variable
Cq et l’ancienne variable Y j est fonction de la 𝑗é𝑚𝑒 coordonnée du vecteur 𝑢𝑞 et de sa
longueur qui représente sa variance (√λq ) 𝑓𝑖𝑥é𝑒.
Remarque :
Toutes les variables actives qui interviennent dans la recherche des axes factoriels.
′
𝑑²(𝑗, 𝑗’) = ‖𝑋𝑗 − 𝑋𝑗 ′‖²𝐷𝑝 =< 𝑋𝑗 − 𝑋𝑗 , 𝑋𝑗 − 𝑋𝑗′ >𝐷𝑝
Page. 17
• 𝐶𝑞 est une nouvelle variable centré de variance : 𝝀𝒒
- Pour obtenir ces coordonnées, on écrit que chaque composante principale est une
combinaison linéaire des variables initiales.
𝒑 𝒋
𝑪𝒊𝒒 = ∑𝒋=𝟏 𝒚𝒊 𝒖𝒋𝒒 ,
𝒑
𝐂𝐪 = (𝑪𝟏𝒒 , … , 𝑪𝒏𝒒 ): 𝑪𝒒 = ∑𝒋=𝟏 𝒚𝒋 𝒖𝒋𝒒
Proposition 1 :
𝒀𝜶𝒋 = (𝑿𝒋 )′ × 𝑫𝒑 × 𝒗𝜶
Ce nombre représente la mesure algébrique de la projection 𝐷𝑝 − 𝑜𝑟𝑡ℎ𝑜𝑔𝑜𝑛𝑎𝑙𝑒 de la
variable j sur ∆𝒗𝒒 avec ‖𝒗𝜶 ‖𝐷𝑝 = 1
Proposition 2 :
𝑌 𝛼 = (𝑋)′ × 𝐷𝑝 × 𝒗𝜶 ∈(ℝ𝑝 , 𝐼𝑝 )
En effet :
𝑌1𝛼 (𝑋1 )′ × 𝐷𝑝 × 𝒗𝜶 (𝑋1 )′
𝛼
𝑌 =( ⋮ )=( ⋮ ) = ( ⋮ ) × 𝐷𝑝 × 𝒗𝜶 = (𝑋)′ × 𝐷𝑝 × 𝒗𝜶
𝛼
𝑌𝑝 (𝑋𝑝 )′ × 𝐷𝑝 × 𝒗𝜶 (𝑋𝑝 )′
Page. 18
Ainsi, une base orthonormée du sev Eq de dimension q qui satisfait au critère de moindres
carrés est donnée par {𝒗𝟏 , … , 𝒗𝒓 } ou ‖𝒗‖𝑫𝒑 = 𝟏 pour tout l=1,…,q ; et 𝒗𝒍 ⊥
⏟ 𝒗𝒍′ ; 𝒍 ≠ 𝒍′
𝑫𝒑
et
𝒗𝒊 : est le vecteur propre Dp-normé de la matrice T associé à la lième plus grande valeur
propre : 𝝁𝒊 (𝝁𝟏 ≥, … , ≥ 𝝁𝒍 )
Proposition 3 :
Les matrices T et V ont les mêmes valeurs propres.
Yjα = (X j )′ × Dp × vα
Les individus : Tout individu i décrit par initialement par (Xi )’ sur l’espace (ℝ𝑝 , 𝐼𝑝 )
sera décrit sur l’axe factoriel ∆𝒗𝜶 par :
q
Ci = √λα (vα )i
Représentation : individus et variables sur ∆𝒖𝜶
Les individus : Tout individu i décrit par initialement par (Xi)’ sur l’espace (ℝ𝑝 , 𝐼𝑝 )
sera décrit sur l’axe factoriel ∆𝒖𝜶 par :
q
Ci = Xi uq
◆ Les variables: Toute variable j décrite initialement par Xj sur l’espace (ℝ𝑛 , 𝐷𝑝 ) sera
décrite sur l’axe factoriel ∆𝒖𝜶 par sa projection Dp-orthogonale sur cet axe.
Page. 19
Tableau récapitulatif des résultats :
𝐗 = ∑ √𝝀𝜶 × 𝒗𝜶 × (𝒖𝜶 )′
𝒒≥𝟏
Cq = Z uq
Page. 20
• 𝑪𝟏 = 𝒖𝟏𝟏 𝒁𝟏 + 𝒖𝟏𝟐 𝒁𝟐 + 𝒖𝟏𝟑 𝒁𝟑 + ⋯ + 𝒖𝟏𝒑 𝒁𝒑
• 𝑽𝑨𝑹 (𝑪𝟏 ) = 𝝀𝟏
Les axes factoriels fournissent des images approchées d'un nuage de points. Il est donc
nécessaire de mesurer la qualité de l'approximation, tant pour chacun des points que pour
l'ensemble du nuage.
On calcule :
𝝀𝟏 + 𝝀𝟐 + ⋯ + 𝝀𝒒
% = 100 × ℑ𝑞
𝑰𝐠
Mesure le pourcentage de qualité d’information recueillie sur cet axe ou la part d’inertie
expliquée par l’axe i ⇛ donne la qualité globale de la représentation des individus ou des
variables sur cet axe.
𝝀𝟏 +𝝀𝟐
100 × ℑ1,2 = :
𝑰𝐠
Mesure le pourcentage de qualité d’information recueillie sur ce plan de l’ind ou la var ou la
part d’inertie expliquée par ce plan principale ⇛ donne la qualité globale de la représentation
des individus ou des variables sur ce plan.
- Si par exemple :
𝝀𝟏 +𝝀𝟐
% = 90% : le nuage de points est presque aplati sur un sous espace à deux dimensions
𝑰𝐠
et qu'une représentation du nuage dans le plan des deux premiers axes principaux sera très
satisfaisante.
Page. 21
Variables centrées réduites : on a : 𝑰𝐠 = Tr(R) = p : la somme des valeurs propres est le
nombre de variables.
Les contributions :
◆ Contributions absolus :
La part de l’individu ou de la variable pour la construction de l’axe factoriel.
❖ Cas des individus :
q P q
Ctrabs (i) = i λC iq et ∑ni=1 Ctrabs (i) = 1
q
L’individu correspondant caractérise plus la nouvelle variable C q
◆ Contributions relatives :
La part de l’individu ou de la variable pour la construction de l’axe factoriel.
𝑞 (𝐶𝑖𝑞 )²
𝑐𝑜𝑠 2 (𝜃𝑖 ) = 𝐶𝑟𝑒𝑙 (𝑖) =
‖𝑒𝑖′ ‖²
𝒒
Et : 𝑪 𝒊 = 𝒆𝒊 . 𝒖 𝒒
De plus : (𝑐𝑜𝑠 2 (𝜃𝑖 ) 𝑝𝑟𝑜𝑐ℎ𝑒 1)⇒ 𝑝𝑙𝑢𝑠 𝑙 ′ 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢 𝑒𝑠𝑡 𝑏𝑖𝑒𝑛 𝑟𝑒𝑝𝑟é𝑠𝑒𝑛𝑡é 𝑠𝑢𝑟 ∆𝑢𝑞
2
𝑞
𝑐𝑜𝑠 2 (𝜑𝑗 ) = 𝐶𝑟𝑒𝑙 (𝑗) = (√𝜆𝑞 (𝑢𝑞 )𝑗 )
Page. 22
S'il s'agit du plan (Axe1, Axe2), les proximités entre individus doivent être interprétées avec
prudence : deux points proches l'un de l'autre sur le graphique peuvent correspondre à des
individus éloignés l'un de l'autre. Pour interpréter ces proximités, il est nécessaire de tenir
compte des qualités de représentation des individus.
Se méfier également des individus proches de l'origine : mal représentés, ou proches de la
moyenne, ils ont, de toutes façons, peu contribué à la formation des axes étudiés.
Choix de la dimension :
L′ACP consiste à réduire la dimension de l'espace des individus, on cherche alors la dimension de
notre nouvel espace d'individu et pour cela on a les deux critères Kaiser et de Cattel :
o Critère de Kaiser :
𝐈𝐩
On ne retient que les axes dont l'inertie (la valeur propre) est supérieure à l'inertie moyenne .
𝐩
Dans le cas d'une ACP normée on ne retiendra que les axes associés à des valeurs propres
𝐈𝐩
supérieures à 1 ( 𝐩 = 𝟏)
Page. 23
Remarque :
Eboulis des valeurs propres : on cherche un «coude » dans le graphe des valeurs propres
Exemple :
Interprétation interne :
Pour donner une signification à la composante principale il faut la relier aux variables
initiales 𝒁 𝒋 , en calculant le coefficient de corrélation r (C, 𝒁 𝒋 ) est on s'intéresse au plus fort
coefficient en valeur absolue.
S’écrit :
𝐣
𝐜𝐨𝐯(𝐳 𝐣 , 𝐂𝐪 ) 𝐜𝐨𝐯(𝐳 𝐣 , 𝐂𝐪 )
𝐫(𝐳 , 𝐂𝐪 ) = = = (√𝛌𝐪 ) × (𝒖𝒒 )
𝒋
√𝐯𝐚𝐫(𝐂𝐪 )√𝐯𝐚𝐫(𝐳 𝐣 ) √𝐯𝐚𝐫(𝐂𝐪 )
Ces calculs s'effectuent pour chaque composante principale et pour un couple de composantes
principales 𝑪𝟏 et 𝑪𝟐 on représente ces corrélations sur un cercle appelé cercle de corrélation.
Page. 24
Chaque variable 𝑿 𝒋 est représenté par l'abscisse r(𝑿 𝒋 ,c1) et l'ordonné r(𝑿 𝒋 ,c²)
On interprète deux types de positions :
1) Les positions des variables par rapport aux axes afin de déterminer quelles sont les
variables qui font les axes.
2) Les positions des variables étant les unes par rapport aux autres. Le coefficient de
corrélation entre deux variables étant le cosinus de l’angle formé par les vecteurs
correspondants on en déduit que :
2-1) deux variables qui sont proches ou confondus sont corrélées positivement
(coefficient de corrélation proche de 1),
2-2) deux variables opposées (formant un angle de 𝝅) sont corrélées négativement
(coefficient de corrélation proche de -1),
𝝅
2-3) deux variables positionnées (formant un angle de ) ne sont pas corrélées
𝟐
Exemple :
Interprétation :
On remarque que x1 ; x 2 ; x 3 : est corrélé positivement avec C1 ,
x 4 ; x 5 anticorrélé de cet axe et x 6 ; x 7 ; x 8 non corrélé avec C1.
Page. 25
Exemple de déroulement manuel d’une ACP
Exercice :
Le tableau de données suivant : regroupe les observations de 6 individus décrits par 3
variables quantitatives :
Note 1 Note 2 Note 3
X1 8 1 0
X2 4 6 5
X3 6 8 7
X4 10 4 7
X5 8 2 5
X6 0 3 6
8 1 0
4 6 5
6 8 7
𝑋=
10 4 7
8 2 5
(0 3 6)
L’ensemble : {(𝑝𝑖 , 𝑒𝑖′ ), i=1,…,𝑛} ⊂ 𝑅𝑝 , est le nuage de points de 𝑅 𝑝 associé aux individus
a) Centrer le tableau :
• le calcul des moyennes pour chacune des variables actives:
6
1 𝑗
𝑥̅ 𝑗 = ∑ 𝑥𝑖
6
𝑖=1
𝑥̅ 1 6
( 2
g = 𝑥̅ = 4)
) (
𝑥̅ 3 5
Page. 26
donc le tableau de départ n’est pas centré car g≠ 0𝑅𝑃 ;
Centré le tableau :
𝑌 = 𝑋 − 1𝑛 g′
8 1 0 6 4 5 2 −3−5
4 6 5 6 4 5 −2 2 0
6 8 7 6 4 5 0 4 2
𝑌= − =
10 4 7 6 4 5 4 0 2
8 2 5 6 4 5 2−2 0
(
⏟0 3 6 ) (
⏟ 6 4 5 ) ( −6 − 1 1 )
𝑋 1𝑛 g′
𝑦̅1 0
2
g = (𝑦̅ ) = (0)
𝑦̅ 3 0
Dans le déroulement d’une ACP, il faut toujours vérifier que le tableau est centré.
1 64 − 8 − 8
𝑉= ( −8 34 22 )
6
−8 22 34
Que peut-on déduire à partir de cette matrice symétrique des variances covariances ?
Page. 27
4
cov(𝑌 1 2)
, 𝑌 −3 1
𝜌(𝑌1 , 𝑌 2 ) = = = − = −0.125
𝜎𝑌 1 𝜎 𝑌 2 32 8
3
De la même manière, on calculera les autres coefficients de corrélation.
Remarques :
• l’ACP n’est performante que si les variables actives «celles qui participent à l’analyse
» sont fortement corrélées entre elles.
• On ne doit pas oublier que l’ACP permet de construire de nouvelles variables
« composantes principales » non corrélées entre elles.
Des que |𝜌|² ≥ 0.2, on estime qu’il y a corrélation mais cela reste bien entendu
que cette estimation est subjective.
▪ Si les variances des variables actives sont très variées et assez élevées par rapport
aux moyennes respectives : des coefficients de variation assez disparaitre, il est
conseillé de dérouler une ACP normé: Il faut pour ce faire centrer et réduire les
variables en entrée. Ce cas conduira à diagonaliser la matrice des corrélations R.
1 64 − 8 − 8
𝑉 = ( −8 34 22 )
6
−8 22 34
𝐏(𝛌)=det (V - 𝛌𝐈) = 𝟎
1 64 − 8 − 8 1 0 0
𝑽 − 𝝀𝑰 = ( −8 34 22 ) − 𝝀 (0 1 0) = 0
6
−8 22 34 0 0 1
(64 − 6𝜆) − 8 − 2
1
𝑑𝑒𝑡 ( −8 (34 − 6𝜆) 22 ) = 0
6
−8 22 (34 − 6𝜆)
Donc
𝑷(𝝀) = 𝟎 ⟹ ( 𝝀 − 𝟏𝟐) × ( 𝝀 − 𝟖) × ( 𝝀 − 𝟐) = 𝟎
Page. 28
On obtient 3 valeurs propres.
𝝀𝟏 = 𝟏𝟐
{ 𝝀𝟐 = 𝟖
𝝀𝟑 = 𝟐
On remarque que
1
𝑡𝑟(𝑉 ) = (64 + 34 + 34) = 22 = 𝝀𝟏 + 𝝀𝟐 + 𝝀𝟑
6
Il faut noter que si les valeurs propres décroissent très rapidement ⟺ il y a des relations
effectives entre les variables actives ou qu’il y a redondance d’information apportée par ces
variables actives qui ont donc participé à l’analyse.
Il est souvent préconisé de représenter graphiquement sur le plan les valeurs propres obtenues.
On ordonnées, on mettra les valeurs de la plus grande à la plus petite, en abscisses les numéros
(éboulis des valeurs propres) et constater de visu la chute de ces valeurs.
Si la chute observée est importante, cela dénote que l’ACP donnera de bons résultats.
Dans ce graphique pour cet exercice, on constate une chute à partir de la seconde valeur propre 𝜆2 .
Dans ce cas, l’inertie expliquée par le premier plan factoriel exprime
𝜆1 + 𝜆2 20
= × 100% = 90,9%
𝜆1 + 𝜆2 + 𝜆3 22
Cela veut dire que nous récupérons 91% de l’information contenue dans le tableau de depart sur ce
plan.
On obtient une bonne visualisation des objets et des variables sur le premier plan factoriel.
Page. 29
b) - Recherche des vecteurs propres normées associés :
𝑉𝑈𝑞 = 𝜆𝑞 𝑈𝑞
Pour k=1 :
𝑉𝑈1 = 𝜆1 𝑈1
On prend :
𝑎
𝑈1 = (𝑏 )
𝑐
Alors :
1 64 −8 −8 𝑎 𝑎
× (−8 34 22 ) × (𝑏 ) = 12 × (𝑏 )
6 𝑐 𝑐
−8 22 34
64𝑎 − 8𝑏 − 8𝑐 = 72𝑎
{−8𝑎 + 34𝑏 + 22𝑐 = 72𝑏
−8𝑎 + 22𝑏 + 34𝑐 = 72𝑐
−8𝑎 − 8𝑏 − 8𝑐 = 0 … (1)
{−8𝑎 − 38𝑏 + 22𝑐 = 0 … (2)
−8𝑎 + 22𝑏 − 38𝑐 = 0 … (3)
On fait alors :
−2 −2
𝑈1∗ = ( 1 ) , ‖𝑈1∗ ‖ = √(𝑢1∗ )𝑡 × 𝑀 × 𝑈1∗ = √(−211) ( 1 ) = √6
1 1
𝑈1∗ 1 −2 𝑈1∗ −1 −2
𝑈1 = = ( 1 ) 𝑜𝑢 𝑈1 = = (1)
‖𝑈1∗ ‖ √6 ‖𝑈1∗ ‖ √6
1 1
On fait la même chose pour 𝑈2 :
1 1 −1 1
𝑈2 = (1) 𝑜𝑢 𝑈2 = (1 )
√3 1 √3 1
Et
Page. 30
1 0
𝑈2 = (−1)
√2 1
−2 0
−1 1
𝑈1 = (1) 𝑈2 = (−1)
√6 √2
1 1
c)- Calculer les composants principaux :
Ainsi, le premier axe factoriel est l’axe engendré par le vecteur 𝑈1 est passant par l’origine de ℝ3 .
• La première composante principale 𝐶1 est donnée par :
𝑪𝟏 = 𝒀𝑼𝟏
2 −3 −5 −12 −2
−2 2 0 6 1
1 −2 1 6 =
𝐶1 = 0 4 2 × ×( 1 )= 1
√6 −1
4 0 2 √6 √6 −6
2 −2 0 1 −6 −1
(−6 −1 1) ( 12 ) ( 2)
Le second et le troisième axe factoriel sont les l’axes passant par l’origine de ℝ3 𝑒𝑡 engendrés
respectivement par les vecteurs propres normés 𝑈2 𝑒𝑡 𝑈3
−6
0
𝐶2 = √6 −6
−6
0
(−6)
On vérifie que
1 1 −2
= (1,1,1) (−1) = 0
×
√3 √6 1
2. Les inerties expliquées par chacun des 2 axes et l’inertie cumulée par le plan correspondant.
Page. 31
12
= 100 × = 54,54%
22
• Inertie expliquée par le second axe :
𝜆2
100 × ℑ2 = 100 ×
𝜆1 + 𝜆2 + 𝜆3
8
= 100 × = 36,36%
22
• Inertie expliquée par le plan :
𝜆1 + 𝜆2
100 × ℑ(1,2) = 100 × = 90,90%
𝜆1 + 𝜆2 + 𝜆3
▪ Sur le premier axe factoriel, on recueille 54,54% tandis que sur le second axe factoriel
36,36% .
▪ Sur le premier plan factoriel, on recueille 90,90% de l’information contenue dans le tableau
initial.
Projection des variables sur les deux premiers axes factoriels :
𝑪(𝟏) = √𝝀𝟏 𝒖𝟏
√12 −2 −2
= ( 1 ) = √2 ( 1 )
√6 1 1
(2) √8 1
𝐶 = √𝜆2 𝑢2 = (1)
√3 1
Corrélation entre anciennes et nouvelles variables :
La corrélation entre la q ième nouvelle variables:
√𝝀𝒒 (𝑼𝒒) 𝒋
𝒋
𝒓(𝑪𝒒 , 𝒀 )=
𝝈 𝒀𝒋
Pour k=1,j=2
√𝝀𝟏 (𝑼𝟏)
𝟐
𝒓(𝑪𝟏 , 𝒀𝟐 )=
𝝈𝒀𝟐
𝟏 𝟏
𝒓(𝑪𝟏 , 𝒀𝟐 ) = √12 (− ) = −𝟎, 𝟓𝟗
𝝈𝒀 𝟐 √𝟔
Page. 32
Représenter graphiquement les individus dans l’espace réduit en utilisant les
composantes principales :
Comme vu précédemment on a l’ensemble des composantes suivantes :
C1 C2
e1 −2√6 −6⁄√3
e2 √6 0
e3 √6 6⁄√3
e4 −√6 6⁄√3
e5 −√6 0
e6 −2√6 −6⁄√3
On va procéder à leurs représentations graphiques en prenant les C1 comme des valeurs dans l’axe
X et les C2 comme des valeurs par rapport à l’axe Y, en d’autres termes :
{ e1 (−2√6, −6⁄√3), e2 (√6, 0), e3 (√6, 6⁄√3), e4 (−√6, 6⁄√3), e5(−√6, 0), e6(−2√6, −6⁄√3).}
5
4
e4 e3
3
2
1
e5 0 e2
-8 -6 -4 -2 -1 0 2 4 6 8
-2
-3
e1 e6
-4
-5
Les contributions :
1) Contribution relative :
Cette première sous partie consistera à calculer la part d’inertie d’un 𝑒𝑖 pris en compte par un
axe 𝑈𝑘 :
2
2( 𝑟
(𝐶𝑘𝑖 )
cos 𝜃𝑖𝑘 ) = 𝐶𝑟𝑒𝑙 (𝑖) =
‖𝑒𝑖 ‖2𝑀
Nous allons prendre un exemple pour mieux comprendre, on va calculer l’angle thêta pour i=1
et k=1 (on remarque que cela représente 𝒆𝟏 ) :
2 2 2
(𝐶11 ) (−2√6) (−2√6)
cos 2 (𝜃11 ) = ‖𝑒1 ‖2𝑀
= = = 24⁄38 = 0.631 (avec 𝒆𝟏 = (2, -3, -5))
𝑒1′ 𝑀𝑒1 ∑3𝑗=1 𝑒1𝑗
²
Page. 33
La valeur de q = {1,2}.
2) La contribution absolue :
Cette deuxième sous partie consistera à calculer la contribution relative d’un 𝑒𝑖 à l’inertie
expliquée de l’axe 𝑈𝑘 :
2 2 2
𝑟 𝑃𝑖 ∙ (𝐶 𝑖𝑞 ) 𝑃𝑖 ∙ (𝐶𝑞𝑖 ) 𝑃𝑖 ∙ (𝐶𝑞𝑖 )
𝑐𝑜𝑠²(𝜃𝑖 ) = 𝐶𝑎𝑏𝑠 (𝑖) = 2 = =
∑𝑛 𝑖
𝑖=1 𝑃𝑖 ∙(𝐶𝑞 )
𝑉𝑎𝑟(𝐶𝑞 ) 𝜆𝑞
2
1
𝑃1 ∙ (𝐶11 )2 1/6 ∙ (−2√6) 1
𝑐𝑜𝑠²(𝜃1 ) = 𝐶𝑎𝑏𝑠 (1) == = = = 0.333
𝜆1 12 3
La valeur de q = {1,2} .
La valeur de i = {1,2, 3, 4, 5,6}.
Page. 34
Figure : des individus et les variables sur le premier plan factoriel
Page. 35