Vous êtes sur la page 1sur 35

Module : Analyse exploratoire

L3 Math Appl

Chapitre 4:
Analyse en composantes principales

ACP

- 2023/2024-

Eseignante SAADI Sihem

Page. 1
Analyse factorielle
Les méthodes d'analyse factorielle :

Constituent un domaine important de l'analyse des données et relèvent de l'analyse


linéaire. Elles sont diverses de par leurs différents domaines d'applications, mais leurs arrière-
plans mathématiques sont très proches. Les méthodes factorielles ont pour objet de résumer
l'information apportée par un ensemble de variables, par un nombre plus restreint de variables
nouvelles appelées "facteurs".

Les principales techniques factorielles sont :

o L’analyse en composantes principales (ACP) : qui analyse un ensemble de


données (observations) faites sur un ensemble de variables quantitatives
(numériques).

o L’analyse des correspondances (AFC): qui est une technique de base pour
analyser des tables de contingence qui peut être utilisé pour des variables
qualitatives ou quantitatives.

o L’analyse canonique : qui contient à la Régression multiple et l’analyse


discriminants comme des cas particulier.

Les techniques factorielles de l’analyse des données ont une partie de fondement générale
commune à toutes : c’est celle qui s’appelle : « Analyse générale » qui est basée sur les
idées développées jadis par Eckart et Young(1936), qu’aujourd’hui elles sont développées
encore plus théoriquement, surtout de point du vue informatique dans les dernières années
et elles construisent « Approximation d’une matrice par d’autres de rang inférieur ».

Figure 1 : deux grandes familles de méthodes

Page. 2
Ces méthodes impliquent souvent de la même manière les individus (lignes) et les
variables (colonnes). La confrontation des espaces d’individus et de variables enrichit les
interprétations.

Les méthodes factorielles :


Parmi ces méthodes ont vous citera une, qui présentera la {mère} de la plupart des
méthodes descriptives multidimensionnelles :

Analyse en composantes principales (ACP)

Introduction :
Quelques motivations actuelles :
• En informatique : quand il s’agit d’enregistrer un fichier volumineux dans une
mémoire réduite.
• Photos satellites : quand il s’agit d’enregistrer des milliers de photos prises par les
satellites. Chaque photo est représentée par un tableau de 256 x 256 pixels :
Cela parait très improbable de trouver des machines capables de stocker toutes les
données concernant des centaines de milliers voir des millions de photos prises par
des satellites journalièrement.

Dans les 2 cas : « il y a nécessité de réduire la dimension de chaque tableau ou de


chaque fichier et de ne retenir que ce qui est essentiel. Il s’agit de synthétiser
l’information contenue dans les données en entrée »

D’une manière générale, si l’on désire introduire un fichier dans un emplacement réduit en
conservant le maximum d’informations, pour que cela soit possible, il faut synthétiser
l’information contenue dans le fichier et ne garder que ce qui est essentiel.

Il s’agit, essentiellement, de réduire, un fichier de donnée volumineux en éliminant les


redondances d’information apportées par les variables dans le fichier de départ.

Les techniques de réductions sont basées sur des photographies de la réalité


multidimensionnelle sur des espaces réduits de préférence des espaces qu’on peut
visualiser.

Ces photos sont obtenues par des projections des objets et des variables dans ces
espaces qui donnent la meilleure photo possible.

Page. 3
Stratégie de l’Analyse en Composantes Principales (ACP) :

Analyse en composantes principales (ACP) est une étude exploratoire appliquées ou on


recherche des ressemblances entre les individus et les liaisons entre les variables en
résumant l’ensemble des variables par un petit nombre de variables synthétiques appelées
composantes principales.

Il s’agit de répondre aux questions suivantes :


• Comment mesurer et éliminer la redondance d’information apportée par le fichier de
données.
• Comment graphiquement les données en entrée et les résultats en sortie.
• Comment interpréter les fichiers de données et les graphes en sortie donc comment
interpréter les résultats de l’analyse.
• etc…
Toutes ces questions et leurs réponses sont regroupées dans ce cours.
Définition:
Le phénomène étudié apparait sous forme de données numériques, c’est possible
regrouper ces données sous forme d’un tableau et interpréter ce tableau comme une
matrice.

D’écrire:
Les données de 3 manières complémentaires
statistique : chaque colonne représente une variable mesurée sur différent
individus,
matricielle: le tableau complet de données est une matrice de nombres réels,
géométrique : chaque ligne du tableau représente les coordonnées d’un point
dans un espace dont la dimension est le nombre de variables.

Le problème
Si P = 3 on peut présenter les individus mais lorsque la dimension est plus grande que 3, il
est impossibles de les visualiser dès que p > 3.
Donc il s’agit de répondre aux questions suivantes :
• Comment obtenir une photo représentative (meilleur photos) de {𝑒′𝑖 , 𝑖 = 1, … , 𝑛}
sur un espace de plus faibles dimension.
• Comment réduire le tableau 𝑿 de la meilleure manière possible :
𝑿 → 𝑪
(𝒏, 𝒑) 𝒒≪𝒑 (𝒏, 𝒒)
Cherché des nouvelles variables [𝐶 1 , … , 𝐶 𝑞 ] non corrélées.
• Cette réduction se fera en éliminant la redondance d’information apportée par les
anciens variables.

Page. 4
Pour réaliser une ACP on suit une démarche en plusieurs étapes :

Partie I. La vision des données

Tableau des données et espace associée

1. Tableau des données :

Page. 5
Avec :
⇒ 𝑳’𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖 𝒆𝒊 : é𝑙é𝑚𝑒𝑛𝑡 𝑑𝑒 𝑅 𝑃
⇒ 𝑳𝒂 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒙𝒋 : é𝑙é𝑚𝑒𝑛𝑡 𝑑𝑒 𝑅 𝑛
𝒋
⇒ 𝒙𝒊 : 𝑒𝑠𝑡 𝑙𝑎 𝑣𝑎𝑙𝑒𝑢𝑟 𝑝𝑟𝑖𝑠𝑒 𝑝𝑎𝑟 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑗 𝑠𝑢𝑟 𝑙’𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢 𝒊

C’est possible de décomposer cette matrice en 𝒏 𝒍𝒊𝒈𝒏𝒆𝒔 𝒆𝒊 : (𝑖 = 1, … , 𝑛) ou on 𝑷 colonnes


𝒙𝒋 : (𝑗 = 1, … , 𝑝)
Une remarque importante : X est un tableau à 2 entrées, qu’on peut lire ou enregistrer
colonne par colonne ou ligne par ligne.
𝒆𝟏
𝒆𝟐

𝒆𝒊

[ 𝒆 𝒏]
𝑿
(𝒏, 𝒑)

[𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒋 , … , 𝒙𝒑 ]

𝑿 : est une matrice rectangulaire à 𝒏 lignes et 𝑷 colonnes.

𝒙𝟏
𝟐
" transposée de 𝑿 notée ∶ 𝑿′ : 𝑿′ = [𝒆𝟏 , 𝒆𝟐 , … 𝒆𝒏 ] = [𝒙 ]

𝒙𝒑
Alors ;
𝒋
𝒙𝟏 𝒙𝟏𝒊
𝒋 𝟐
La variable 𝑥 𝑗 = 𝒙𝟐 ∈ 𝑅 𝑛 et L’individu: 𝒆′𝒊 = 𝒙𝒊 ∈ 𝑅 𝑝 .
⋮ ⋮
𝒑
𝒋
[𝒙𝒏 ] [𝒙𝒊 ]

Conclusion :

Le tableau X peut être regardé comme un ensemble de P vecteurs de 𝑹𝒏 ou comme un


ensemble de n vecteurs de 𝑹𝒑 . Comme il s’agit d’un problème de réduction, il est donc
préférable de regarder X dans l’espace de plus faible dimension.

Dans le cas pratique, le nombre de variables p est souvent plus petit que le nombre
d’individus n, donc il est souvent, préférable de se placer sur l’espace𝑅 𝑝 .

Mais, on verra qu’il y a dualité entre l’analyse faite sur 𝑅 𝑝 et l’analyse faite sur 𝑅 𝑛 .

Page. 6
On établira, pour ce faire, des formules dites de transitions qui permettent de faire le
passage de l’analyse faite sur 𝑅 𝑝 vers l’analyse faite sur 𝑅 𝑛 et vice versa.

Remarque :
Dans tout ce qui suit, les vecteurs de 𝑅 𝑝 et de 𝑅 𝑛 sont des vecteurs colonnes.

Exemple de tableau X de notes (de 1à 7) attribuées à P=7 mots, par n=12 répondants

Mots arbre cadeau danger morale orage politesse sensuel


Répondants
R01 7 4 2 2 7 1 6
R02 6 2 1 2 5 1 7

R03 4 3 2 2 3 4 4

R04 5 3 1 5 2 7 1

R05 4 5 2 7 1 4 2

R06 5 7 1 5 2 4 5
R07 4 2 1 3 5 3 6
R08 4 1 3 4 5 4 7
R09 6 6 2 4 7 5 5

R10 6 6 3 5 3 6 6
R11 7 7 5 7 7 6 7
R12 2 2 1 2 1 3 4

𝟕 𝟒 𝟐 𝟐 𝟕 𝟏 𝟔
𝟔 𝟐 𝟏 𝟐 𝟓 𝟏 𝟕
𝟒 𝟑 𝟐 𝟐 𝟑 𝟒 𝟒
𝟓 𝟑 𝟏 𝟓 𝟐 𝟕 𝟏
𝟒 𝟓 𝟐 𝟕 𝟏 𝟒 𝟐
𝑿 𝟓 𝟕 𝟏 𝟓 𝟐 𝟒 𝟓
=
(𝟏𝟐, 𝟕) 𝟒 𝟐 𝟏 𝟑 𝟓 𝟑 𝟔
𝟒 𝟏 𝟑 𝟒 𝟓 𝟒 𝟕
𝟔 𝟔 𝟐 𝟒 𝟕 𝟓 𝟓
𝟔 𝟔 𝟑 𝟓 𝟑 𝟔 𝟔
𝟕 𝟕 𝟓 𝟕 𝟕 𝟔 𝟕
(𝟐 𝟐 𝟏 𝟐 𝟏 𝟑 𝟒)
𝑿 ∶ est une matrice rectangulaire à 𝟏𝟐 lignes et 𝟕 colonnes
𝒆𝟏 = (𝟕, 𝟔, 𝟐, 𝟐, 𝟕, 𝟏, 𝟔)


𝒆𝟏𝟐 = (𝟐, 𝟐, 𝟏, 𝟐, 𝟏, 𝟑, 𝟒)

Page. 7
𝟕 𝟔
𝟔 𝟕
𝟒 𝟒
𝟓 𝟏
𝟒 𝟐
𝟓 𝟓
𝒙𝟏 = , ..., 𝒙𝟕 =
𝟒 𝟔
𝟒 𝟕
𝟔 𝟓
𝟔 𝟔
𝟕 𝟕
(𝟐) (𝟒)

• Matrice poids
Chaque individu peut avoir un poids 𝑷𝒊 , tel que : 𝑷𝟏 + ⋯ + 𝑷𝒏 = 𝟏,
C’est poids mesurent l’importance de chaque individu au sein de la population. S’il n’y a pas
de référence entre individus, ils seront affectés chacune d’un même poids. On a souvent 𝑷𝒊 =
𝟏⁄𝒏

Exemple: pour n = 12 individus, donc 𝑷𝒊 = 𝟏⁄𝟏𝟐

On associe aux individus un poids 𝑷𝒊 tel que, 𝑷𝒊 > 0 ; et ∑𝒏𝒊=𝟏 𝒑𝒊 = 𝟏 que l’on
représente par la matrice diagonale de taille 𝒏
𝑷𝟏 0
𝑷𝟐
Dp =

(0 𝑷𝒏 )
𝟏
Cas uniforme : tous les individus ont le même poids : 𝒑𝒊 = 𝟏⁄𝒏 et 𝑫𝒑 = 𝒏 𝐈𝐧
Cas particuliers: matrices identité (𝑛 × 𝑛) et vecteur unité de taille 𝒏 :

𝟏 0
1
𝟏
In = [ ] , 1n = [ ⋮ ]

1
0 𝟏

Exemple
𝟏
0
𝟏𝟐
𝟏
𝟏 0
=𝟏𝟐 ( 𝟏
𝟏
Dp = 𝟏𝟐 )
⋱ ⋱
𝟏 ⏟0 𝟏
(0 𝟏𝟐 ) 𝐈𝟏𝟐
 Nuages de points associés :
Dans 𝐑𝒑 : « espace des individus » : l’ensemble {(𝑝𝑖 , 𝑒′𝑖 ), 𝑖 = 1, … , 𝑛}⊂ R𝑝 , est le nuage
de points de R𝑝 associé aux individus.

Page. 8
• Point Moyen (Centre de gravité) :

Le point moyen ou centre de gravité du nuage : c’est le vecteur 𝐠 des moyennes


arithmétiques de chaque variable :
∑𝒏𝒊=𝟏 𝒑𝒊 (𝒙𝟏𝒊 ) ̅𝟏
𝒙
𝐠 = ∑𝒏𝒊=𝟏 𝒑𝒊 (𝒆𝒊 )′ = [ ⋮ ]=[ ⋮ ]
𝒏 𝒑
∑𝒊=𝟏 𝒑𝒊 (𝒙𝒊 ) ̅𝒑
𝒙

Où le vecteur

̅𝟏 , … , 𝒙
𝐠′ = (𝒙 ̅𝒑 )

̅𝒋 : est la moyenne de la variable 𝒙𝒋


𝒙 avec :
𝒏 𝒏
𝒋 𝟏 𝒋
̅𝒋 =
𝒙 ∑ 𝒑𝒊 𝒙𝒊 = ∑ 𝒙𝒊
𝒏
𝒊=𝟏 𝒊=𝟏
Alors, on peut écrire sous forme matricielle :

Remarque: si le tableau de données de départ 𝑿 est centré alors : 𝐠 = 𝟎𝐑𝐏

Exemple :

𝟕 𝟒 𝟐 𝟐 𝟓 𝟏 𝟔
𝟔 𝟐 𝟏 𝟐 𝟕 𝟏 𝟕
𝟒 𝟑 𝟐 𝟐 𝟑 𝟒 𝟒
𝟓 𝟑 𝟏 𝟓 𝟐 𝟕 𝟏
𝟒 𝟓 𝟐 𝟕 𝟏 𝟒 𝟐
𝟓 𝟕 𝟏 𝟓 𝟐 𝟒 𝟓
𝒙𝟏 = , 𝒙𝟐 = , 𝒙𝟑 = , 𝒙𝟒 = , 𝒙𝟓 = , 𝒙𝟔 = , 𝒙𝟕 =
𝟒 𝟐 𝟏 𝟑 𝟓 𝟑 𝟔
𝟒 𝟏 𝟑 𝟒 𝟓 𝟒 𝟕
𝟔 𝟔 𝟐 𝟒 𝟕 𝟓 𝟓
𝟔 𝟔 𝟑 𝟓 𝟑 𝟔 𝟔
𝟕 𝟕 𝟓 𝟕 𝟕 𝟔 𝟕
(𝟐) (𝟐 ) (𝟏) (𝟐 ) (𝟏) (𝟑 ) (𝟒)
𝟏𝟐 𝟏𝟐
𝟏
𝟏
̅𝒙 = ∑ 𝒑𝒊 𝒙𝟏𝒊 = ∑ 𝒙𝟏𝒊 = 𝟓
𝟏𝟐
𝒊=𝟏 𝒊=𝟏
̅𝒙 = 4 , ̅𝒙𝟑 =2 ,
𝟐
̅𝟒 = 𝟒,
𝒙 ̅𝟓 = 𝟒 , 𝒙
𝒙 ̅𝟔 = 𝟒 ̅𝟕 = 𝟓
,𝒙
Le centre de gravité du nuage est : 𝐠 ′ = (𝟓, 𝟒, 𝟐, 𝟒, 𝟒, 𝟒, 𝟓)

Conclusion : le tableau de données de départ 𝑿 n’est pas centré car : 𝐠 ≠ 𝟎𝐑𝐏 .

Dans le déroulement d’une ACP, il faut toujours vérifier que le tableau est centré et s’il ne
l’est pas il faut le centrer.

Page. 9
• Tableau centré

Il est obtenu en centrant les variables autour de leur moyenne

En notation matricielle:

𝒀 = 𝑿 − 𝟏𝒏 𝐠′
Nous appelons "Matrice centrée" la matrice :

𝒋 𝒑
𝒙𝟏𝟏 − 𝒙
̅𝟏 ̅𝒋
… 𝒙𝟏 − 𝒙 ⋯ ̅𝒑
𝒙𝟏 − 𝒙
⋮ … ⋮ ⋯ ⋮
𝒋 𝒑
Y = 𝒙𝒊 − 𝒙
𝟏
̅𝟏 ̅𝒋
… 𝒙𝒊 − 𝒙 ⋯ ̅𝒑
𝒙𝟏 − 𝒙
⋮ … ⋮ ⋯ ⋮
𝟏 𝒋 𝒑
[𝒙𝒏 − 𝒙̅𝟏 ̅𝒋
… 𝒙𝒏 − 𝒙 ⋯ ̅𝒑 ]
𝒙𝒏 − 𝒙

Exemple :
Centré le tableau X de notes de l’exemple précédent (la matrice X):

𝒀 = 𝑿 − 𝟏𝒏 𝐠′

Avec :
𝐠 ′ = (𝟓, 𝟒, 𝟐, 𝟒, 𝟒, 𝟒, 𝟓)

𝟕 𝟒 𝟐 𝟐 𝟕 𝟏 𝟔 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟔 𝟐 𝟏 𝟐 𝟓 𝟏 𝟕 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟒 𝟑 𝟐 𝟐 𝟑 𝟒 𝟒 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟓 𝟑 𝟏 𝟓 𝟐 𝟕 𝟏 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟒 𝟓 𝟐 𝟕 𝟏 𝟒 𝟐 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝒀 𝟓 𝟕 𝟏 𝟓 𝟐 𝟒 𝟓 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
= −
(𝟏𝟐, 𝟕) 𝟒 𝟐 𝟏 𝟑 𝟓 𝟑 𝟔 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟒 𝟏 𝟑 𝟒 𝟓 𝟒 𝟕 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟔 𝟔 𝟐 𝟒 𝟕 𝟓 𝟓 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟔 𝟔 𝟑 𝟓 𝟑 𝟔 𝟔 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
𝟕 𝟕 𝟓 𝟕 𝟕 𝟔 𝟕 𝟓 𝟒 𝟐 𝟒 𝟒 𝟒 𝟓
(𝟐 𝟐 𝟏 𝟐 𝟏 𝟑 𝟒) ⏟(𝟓 𝟒 𝟐 𝟒 𝟏 𝟒 𝟓)
𝟏𝐧 𝐠 ′

𝟕−𝟓 𝟒−𝟒 𝟐−𝟐 𝟐−𝟒 𝟕−𝟒 𝟏−𝟒 𝟔−𝟓


𝟔−𝟓 𝟐−𝟒 𝟏−𝟐 𝟐−𝟒 𝟓−𝟒 𝟏−𝟒 𝟕−𝟓
𝟒−𝟓 𝟑−𝟒 𝟐−𝟐 𝟐−𝟒 𝟑−𝟒 𝟒−𝟒 𝟒−𝟓
𝟓−𝟓 𝟑−𝟒 𝟏−𝟐 𝟓−𝟒 𝟐−𝟒 𝟕−𝟒 𝟏−𝟓
𝟒−𝟓 𝟓−𝟒 𝟐−𝟐 𝟕−𝟒 𝟏−𝟒 𝟒−𝟒 𝟐−𝟓
𝐘
(𝟏𝟐, 𝟕)
= 𝟓−𝟓 𝟕−𝟒 𝟏−𝟐 𝟓−𝟒 𝟐−𝟒 𝟒−𝟒 𝟓−𝟓
𝟒−𝟓 𝟐−𝟒 𝟏−𝟐 𝟑−𝟒 𝟓−𝟒 𝟑−𝟒 𝟔−𝟓
𝟒−𝟓 𝟏−𝟒 𝟑−𝟐 𝟒−𝟒 𝟓−𝟒 𝟒−𝟒 𝟕−𝟓
𝟔−𝟓 𝟔−𝟒 𝟐−𝟐 𝟒−𝟒 𝟕−𝟒 𝟓−𝟒 𝟓−𝟓
𝟔−𝟓 𝟔−𝟒 𝟑−𝟐 𝟓−𝟒 𝟑−𝟒 𝟔−𝟒 𝟔−𝟓
𝟕−𝟓 𝟕−𝟒 𝟓−𝟐 𝟕−𝟒 𝟕−𝟒 𝟔−𝟒 𝟕−𝟓
(𝟐 − 𝟓 𝟐−𝟒 𝟏−𝟐 𝟐−𝟒 𝟏−𝟒 𝟑−𝟒 𝟒 − 𝟓)

Page. 10
𝟐 𝟎 𝟎 −𝟐 𝟑 −𝟑 𝟏
𝟏 −𝟐 −𝟏 −𝟐 𝟏 −𝟑 𝟐
−𝟏 −𝟏 𝟎 −𝟐 −𝟏 𝟎 −𝟏
𝟎 −𝟏 −𝟏 𝟏 −𝟐 𝟑 −𝟒
−𝟏 𝟏 𝟎 𝟑 −𝟑 𝟎 −𝟑
𝒀 𝟎 𝟑 −𝟏 𝟏 −𝟐 𝟎 𝟎
(𝟏𝟐, 𝟕) =
−𝟏 −𝟐 −𝟏 −𝟏 𝟏 −𝟏 𝟏
−𝟏 −𝟑 𝟏 𝟎 𝟏 𝟎 𝟐
𝟏 𝟐 𝟎 𝟎 𝟑 𝟏 𝟎
𝟏 𝟐 𝟏 𝟏 −𝟏 𝟐 𝟏
𝟐 𝟑 𝟑 𝟑 𝟑 𝟐 𝟐
(−𝟑 −𝟐 −𝟏 −𝟐 −𝟑 −𝟏 −𝟏 )

On obtient :
𝑦̅ 1=0; ̅𝑦 2 =0; 𝑦̅ 3 =0 ; 𝑦̅ 4 =0 ; 𝑦̅ 5 =0 ; 𝑦̅ 6 =0 ; 𝑦̅ 7 =0 alors 𝐠 = 𝟎ℝ𝒑 ⟹ le tableau Y est centré

Rappel (variance et écart-type) :


• la variance de x est définie par :

La variance satisfait la formule suivante :

• L’écart-type 𝝈𝒙 est la racine carrée de la variance.

❖ Matrice de variance-covariance :

Matrice de variance-covariance: est une matrice carrée de dimension p , d'un tableau


centré 𝒀 est définie par :

Où : 𝝈𝒋𝓵 =cov( 𝒙𝒋 , 𝒙𝒍 ) et 𝝈²𝒋 =var(𝒙𝒋 )


Formule matricielle :

𝑽 = 𝒀′ 𝑫𝒑 𝒀

Remarque :
Dans le cas d’une ACP classique, la matrice à diagonaliser est la matrice des variances
covariances V qui est donnée par :
𝑽 = 𝒀′ 𝑫𝒑 𝒀

Page. 11
𝟐 𝟎 𝟎 −𝟐 𝟑 −𝟑 𝟏
𝟏 −𝟐 −𝟏 −𝟐 𝟏 −𝟑 𝟐
−𝟏 −𝟏 𝟎 −𝟐 −𝟏 𝟎 −𝟏
2 1 −1 0 −1 0 −1 −1 1 1 2 −3 𝟎 −𝟏 −𝟏 𝟏 −𝟐 𝟑 −𝟒
0 −2 −1 −1 1 3 −2 −3 2 2 3 −2 −𝟏 𝟏 𝟎 𝟑 −𝟑 𝟎 –𝟑
0 −1 0 −1 0 −1 −1 1 0 1 3 −1 𝟎 𝟑 −𝟏 𝟏 −𝟐 𝟎 𝟎
⏟ = −2
V −2 −2 1 3 1 −1 0 0 1 3 −2 𝑫 ⏟𝒑 −𝟏 −𝟐 −𝟏 −𝟏 𝟏 −𝟏 𝟏
(7,7) 3 1 −1 −2 −3 −2 1 1 3 −1 3 −3 (𝟏𝟐,𝟏𝟐) −𝟏 −𝟑 𝟏 𝟎 𝟏 𝟎 𝟐
−3 −3 0 3 0 0 −1 0 1 2 2 −1 𝟏 𝟐 𝟎 𝟎 𝟑 𝟏 𝟎
( 1
⏟ 2 −1 −4 −3 0 1 2 0 1 2 −1) 𝟏 𝟐 𝟏 𝟏 −𝟏 𝟐 𝟏
′ 𝟐 𝟑 𝟑 𝟑 𝟑 𝟐 𝟐
Y (−𝟑
⏟ −𝟐 −𝟏 −𝟐 −𝟑 −𝟏 −𝟏 )
𝒀
Question :
Déterminer la matrice V (matrice variance covariance)?

• Tableau centré et réduit :


Ainsi on définit le tableau des données centrées réduites par 𝒁 tel que :
𝒋 𝒋
𝒚𝒊 𝒙 𝒊 − 𝒙
𝒋 ̅𝒋
𝒛 = 𝒊 =
𝝈𝒋 𝝈𝒋

𝒚𝒋
C’est- à- dire : 𝒛𝒋 =
𝝈𝒋

Qui se calcule matriciellement comme :


𝒁 = 𝒀𝑫𝟏⁄𝝈

On note : 𝑫𝟏⁄𝝈 la matrice diagonale des inverses des écarts types.

Matrice des données centrées réduites :


̅𝟏
𝒙𝟏𝟏 −𝑿 ̅𝒋
𝒙𝟏𝒋 −𝑿 ̅𝒑
𝒙𝟏𝒑 −𝑿
… ⋯
𝝈𝟏 𝝈𝒋 𝝈𝒑
⋮ … ⋮ ⋯ ⋮
̅𝟏
𝒙𝒊𝟏 −𝑿 ̅𝒋
𝒙𝒊𝒋 −𝑿 ̅𝒑
𝒙𝒊𝒑 −𝑿
Z= 𝝈𝟏
… 𝝈𝒋
⋯ 𝝈𝟏
⋮ … ⋮ ⋯ ⋮
̅𝟏
𝒙𝒏𝟏 −𝑿 ̅𝒋
𝒙𝒏𝒋 −𝑿 ̅𝒑
𝒙𝒏𝒑 −𝑿
… ⋯
[ 𝝈𝟏 𝝈𝒋 𝝈𝒑 ]

On note 𝒓𝒋𝓵 = 𝝈𝒋𝓵 ⁄𝝈𝒋 𝝈𝓵 , c’est la matrice 𝒑 × 𝒑 :

Symétrie : 𝒓𝒋𝓵 = 𝒓𝒋𝓵 , la matrice 𝑹 est symétrique

On note: 𝐂𝐨𝐫(𝒋, 𝒍) = 𝒓𝒋𝒍

Ainsi cette matrice va définir la matrice de corrélation

Page. 12
Formule matricielle :

𝑹 = 𝑫𝟏⁄ 𝑽𝑫𝟏⁄ = 𝐙′𝐃𝐩 𝐙


𝝈 𝝈

𝐑 = 𝐙′𝐃𝐩 𝐙

Covariances :
Comme 𝒛̅𝒋 = 𝒚
̅𝒋 = 𝟎, les covariances des 𝓩𝒋 sont des corrélations :

La matrice des variables centrée-réduites est la matrice de corrélation R.

Entre individus
Afin de pouvoir considérer la structure du nuage des individus, il faut définir une distance,
qui induira une géométrie.

On définit la distance entre deux individus par :

𝒅𝟐𝑴 (𝒆𝒊 , 𝒆𝒋 ) = (𝒆𝒊 − 𝒆𝒋 )′ M(𝒆𝒊 − 𝒆𝒋 ) = 〈𝒆𝒊 − 𝒆𝒋 , 𝒆𝒊 − 𝒆𝒋 〉𝑴

Inertie :
On définit l'inertie totale d'un nuage de points par la moyenne pondérée des carrés des
distances des points (𝒆𝒊)𝟏≤𝒊≤𝒏du centre de gravité :

- Inertie totale : La plus petite inertie possible est 𝑰𝐠 , donnée par


𝑛 𝑛 𝑛

𝐼g = ∑ 𝑝𝑖 𝒅𝟐𝑴 (𝒆𝒊 , 𝐠) = ∑ 𝑝𝑖 (𝑒𝑖 − g)′ M(𝑒𝑖 − g) = ∑ 𝑝𝑖 ‖𝑒𝑖 − g‖2𝑀


𝑖=1 𝑖=1 𝑖=1

Interprétation : L’inertie totale mesure l’étalement ou la dispersion du nuage de points

Calcul de l’inertie:

𝒑
a) 𝑰𝐠 = 𝑻𝒓(𝑽) = ∑𝒋=𝟏 𝝈𝟐𝒋

b) 𝑰𝐠 = 𝑻𝒓 (𝑫𝟏⁄ 𝑽) = 𝑻𝒓 (𝑫𝟏⁄𝝈 𝑽𝑫𝟏⁄𝝈 ) = 𝑻𝒓(𝑹) = 𝒑


𝝈²

Page. 13
Entre variables

Chaque variable 𝒀𝒋 est en faire une liste de 𝒏 valeurs numériques. Pour étudier l’aproximité des
variables entre elles, il faut munir cet espace d’une métrique c’est-à-dire trouver une matrice
d’ordre 𝒏 définie positive et symétrique.

Sans hésitation le choix se porte sur la matrice diagonale des poids.


Par conséquent on a :

〈𝒀𝒋 , 𝒀𝒌 〉𝑫𝒑 = ∑𝒏𝒊=𝟏 𝒑𝒊 𝒚𝒋𝒊 𝒚𝒌𝒊

=(𝒀𝒋 )′𝑫𝒑 (𝒀𝒌 )


=COV (𝒀𝒋 , 𝒀𝒌 ) = 𝝈𝒋𝒌
Donc le produit scalaire représente la covariance des variables centrées.
De plus :
〈𝒀𝒋 ,𝒀𝒌 〉𝑫𝒑 𝝈
𝑪𝑶𝑺 𝜽𝒋𝒌 =‖𝐘 𝐣‖‖𝐘 𝐤‖ = 𝝈 𝒋𝒌 = COR(𝒀𝒋 , 𝒀𝒌 )= 𝝆𝒋𝒌
𝝈 𝒋 𝒌

On remarque que le coefficient de corrélation linéaire n'est autre que le cosinus d'angle
entre les deux variables.

Partie II. Les éléments de l’ACP

1) Axes principaux
Les axes principaux d’inertie : les axes de direction les vecteurs propres de da la matrice
V normés à 1.

On cherche la droite de 𝑹 𝑷 passant par g maximisant l'inertie de nuage projeté sur elle.

Propriété: Il existe p réels 𝝀𝟏 , . . . , 𝝀𝑷 et p vecteurs u1, . . . , up, tels que

V up=𝝀𝒑 𝒖𝒑

- les 𝝀𝒑 ≥ 𝟎 sont les valeurs propres de V et sont classées par ordre décroissant :
𝝀𝟏 ≥ 𝝀𝟐 ≥ 𝝀𝟑 ≥ ⋯ ≥ 𝝀𝒑 ≥ 𝟎
- les uq sont les vecteurs propres de V et sont « M-orthonormaux » :

< 𝒖𝒒, 𝒖𝒒 >𝑴 = 𝟏, < 𝒖𝒒, 𝒖𝒍 >𝑴 = 𝟎 𝒔𝒊 𝒒 ≠ 𝒍 .

Page. 14
Théorème
La projection sur q variables est obtenue en considérant les q premières valeurs
propres 𝛌𝟏 ,…, 𝛌𝐪 et 𝐮𝟏 ,…, 𝐮𝐪 correspondants, appelés axes principaux.

En Résumé
- En prend 𝑉𝐮 = 𝛌𝐮 est u un vecteur propre de V et 𝛌 est la plus grande valeur propre
associé à la matrice V.
• Le premier axe : est celui qui aura la plus grande valeur propre : 𝝀𝟏
• Le deuxième axe : sera celui de la deuxième valeur propre et ainsi de suite.
- Une base orthonormée du sev Fq de dimension q est { 𝐮𝟏 ,…, 𝐮𝐪 } ,
‖𝑢𝑖 ‖ = 1, 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖 = 1, … , 𝑞; 𝑒𝑡 𝐮𝓵 ⊥ 𝐮𝓵′ si 𝓵 ≠ 𝓵′ , et 𝑢𝑖 est le vecteur propre normé
de la matrice V associé à la 𝑖è𝑚𝑒 plus grande valeur propre 𝝀𝒊 (𝝀𝟏≽ 𝝀𝟐 ≽ 𝝀𝟑 ≽ ⋯ ≽ 𝝀𝒊 )
- 𝒍′ 𝒂𝒙𝒆 △𝒖𝒒 passant par l’origine de 𝑹𝒑 et engendré par le vecteur propre associé à la
𝑞𝑖è𝑚𝑒 plus grand valeur propre de la matrice des variances covariances V est appelé : le
𝑞𝑖è𝑚𝑒 axe factoriel

Lien des valeurs propres avec l’inertie :

𝑰𝐠 = 𝑻𝒓(𝑽) = 𝝀𝟏 +· · ·+𝝀𝒑

3) Les composantes principales :


Les composantes principales sont les variables 𝐂𝐪 = (𝑪𝟏𝒒 , … , 𝑪𝒏𝒒 ) de taille n définies par
définies par
𝐂𝐪 = 𝐘𝒖𝒒 ∈ (ℝ𝒏 , 𝑫𝒑 )
- Chaque 𝑪 contient les coordonnées des projections M-orthogonales des individus
centrés sur l’axe défini par 𝑙𝑒 𝑣𝑒𝑐𝑡𝑒𝑢𝑟 𝑛𝑜𝑟𝑚é 𝒖𝒒 .
𝐂𝐪 =𝒀𝒖𝒒

Le vecteur 𝑪𝒒 est appelé : la 𝒒𝒊è𝒎𝒆 composante principale (CP).


- C’est une nouvelle variable liée aux anciennes variables « initiales ».
- La 𝒊è𝒎𝒆 composante du vecteur 𝑪𝒒 = (𝑪𝒒 )𝒊 est
(𝑪𝒒 )𝒊 = 𝒀𝒊 × 𝒖𝒒
Propriétés des composantes principales :

▪ Moyenne arithmétique : ̅𝑪̅̅𝒒̅ = 𝟎


²
▪ 𝑽𝑨𝑹 (𝑪𝒒 ) = 𝝀𝒒 =‖𝑪𝒒 ‖
𝑫𝒑
▪ 𝝈𝒘𝒒 = √𝑽𝑨𝑹(𝑪𝒒 )=√𝝀𝒒

Page. 15
▪ Covariance : 𝑪𝒐𝒗(𝑪𝒒 , 𝑪𝒒′ ) = 𝟎, les composantes principales ne sont pas corrélées
entre elles.

Donc
𝑪𝒒 𝒆𝒕 𝑪𝒒′ : sont non corrélées⇔ 𝑪𝒒 sont Dp- orthogonaux
⊥ ′
⇔ 𝑪𝒒 𝑪𝒒′ ⇔ (𝒀 × 𝒖𝒒 ) × 𝑫𝑷 × (𝒀 × 𝒖𝒒 ) = 𝟎
𝑫𝑷

- La première composante principale est donnée par :


𝑪𝟏 = 𝐮𝟏𝟏 𝒚𝟏 + 𝐮𝟏𝟐 𝒚𝟐 + 𝐮𝟏𝟑 𝒚𝟑 + ⋯ + 𝐮𝟏𝒑 𝒚𝒑
𝑪𝟏 : est le vecteur renfermant les cordonnées des projections des individus sur l'axe 1.

𝑽𝒂𝒓(𝑪𝟏 ) = 𝝀𝟏
La variance de la composante principale est égale à l'inertie apportée par l'axe principale qui
lui associé.

En effet :
²
𝑽𝒂𝒓(𝑪𝒒 ) =< 𝑪𝒒 , 𝑪𝒒 >𝑴 = ‖𝑪𝒒 ‖ = 𝐂 𝒒 ′ 𝐃𝐩 𝐂 𝒒
𝑴= 𝐃𝐩

= 𝒖𝒒 ′𝒀′ 𝐃𝐩 𝐘𝒖𝒒
= 𝑢𝑞 ′𝑉𝑢𝑞
= 𝑢𝑞 ′𝜆𝑞 𝑢𝑞

= 𝜆𝑞 𝑢′
⏟ 𝑞 𝑢𝑞
𝑛𝑜𝑟𝑚𝑒 1

= 𝜆𝑞 . 1 = 𝜆𝑞

Cette variance donne la dispersion des objets projetés ou l’allongement des observations
projetées sur l’axe factoriel.

Par construction des axes factoriels :

Liens entre les anciennes variables et nouvelle variables :


Les anciennes variables sont représentées dans ℝ𝒏 par les vecteurs :
{𝑌𝑗 , 𝑗 = 1, … , 𝑃}

Tandis que les nouvelles variables sont les composantes principales représentées par :
{Cq ; q≥ 1}
Le lien pouvant exister entre une ancienne variable et une nouvelle variable se mesure par
le coefficient de corrélation linéaire entre eux, on a

Page. 16

j
cov(Y j , 𝑤q ) cov(Y j , wq ) (Y j ) × 𝐷𝑝 × Wq × 𝑢𝑞
r(Y , wq ) = = =
√var(wq )√var(𝑌 j ) ‖Y j ‖𝐷𝑝 . ‖wq ‖ σ𝑗 . (√λq )
𝐷𝑝

Avec 𝒀𝒋 sont centrés .


var(Cq ) = λq ⟹ √𝑣𝑎𝑟(𝐶𝑞 ) = √λq


(Y j ) × 𝐷𝑝 × Cq × 𝑢𝑞 : est la jème composante du vecteur

Donc on a bien
λq × (𝑢𝑞 )𝑗 (𝑢𝑞 )𝑗
r(Y j , Cq ) = = (√λq )
σ𝑗 × (√λq ) σ𝑗

On constate que sur l’axe factoriel ∆𝑢𝑟 , le coefficient de corrélation entre la nouvelle variable
Cq et l’ancienne variable Y j est fonction de la 𝑗é𝑚𝑒 coordonnée du vecteur 𝑢𝑞 et de sa
longueur qui représente sa variance (√λq ) 𝑓𝑖𝑥é𝑒.

La caractérisation de la nouvelle variable ou de la composante principale se fera par rapport


aux anciennes variables qui lui sont les plus fortement corrélées.
De plus, la valeur de ce coefficient de corrélation est inversement proportionnelle à la
variance de l’ancienne variable.

Remarque :
Toutes les variables actives qui interviennent dans la recherche des axes factoriels.

Représentation : individus et variables sur les axes factoriels :


𝑑²(𝑗, 𝑗’) = ‖𝑋𝑗 − 𝑋𝑗 ′‖²𝐷𝑝 =< 𝑋𝑗 − 𝑋𝑗 , 𝑋𝑗 − 𝑋𝑗′ >𝐷𝑝

a) Représentation des objets sur l’axe factoriel ∆𝒖𝒒 :


Chaque individu ou objet i est décrit par le vecteur (𝑒𝑖 )′ ∈(ℝ𝑝 , 𝐼𝑝 ). Sur l’axe factoriel ∆𝒖𝒒 , cet
individu sera représenté par la projection orthogonale du vecteur (𝑒𝑖 )′ sur cet axe qui est
(𝐶𝑞 )𝑖 = 𝑒𝑖 × 𝒖𝒒 ∈ ℝ
Ainsi, tous les individus seront représentés sur ∆𝒖𝒒 , par le vecteur
𝐶𝑞 = 𝑌 × 𝒖𝒒 ∈(ℝ𝑛 , 𝐷𝑝 )
On a vu que
• 𝐶𝑞 est une nouvelle variable car :
𝐶𝑞 : 𝑃 → ℝ
𝑖 → 𝐶𝑞 (𝑖) = (𝐶𝑞 )𝑖 = 𝑒𝑖 × 𝒖𝒒 ∈ ℝ

Page. 17
• 𝐶𝑞 est une nouvelle variable centré de variance : 𝝀𝒒

Représentation des individus dans un plan principal :


Pour deux composantes principales w1 et w2, on représente chaque individu i par un point
d’abscisse wi1 et d’ordonnée wi2.

À chaque axe est associée une variable appelée composante principale.


- La composante C1 : est le vecteur renfermant les coordonnées des projections des
individus sur l’axe 1.

- La composante C2 : est le vecteur renfermant les coordonnées des projections des


individus sur l’axe 2.

- Pour obtenir ces coordonnées, on écrit que chaque composante principale est une
combinaison linéaire des variables initiales.

𝒑 𝒋
𝑪𝒊𝒒 = ∑𝒋=𝟏 𝒚𝒊 𝒖𝒋𝒒 ,

𝒑
𝐂𝐪 = (𝑪𝟏𝒒 , … , 𝑪𝒏𝒒 ): 𝑪𝒒 = ∑𝒋=𝟏 𝒚𝒋 𝒖𝒋𝒒

b) Représentation des variables sur les axes factoriels ∆𝑽𝒒 :


Pour tout j=1,…,p, la variable j est décrite par le vecteur Xj ∈(ℝ𝑛 , 𝐷𝑝 ) avec ̅̅̅
𝑋𝑗 = 0.
On se place sur (ℝ𝑛 , 𝐷𝑝 )

Proposition 1 :
𝒀𝜶𝒋 = (𝑿𝒋 )′ × 𝑫𝒑 × 𝒗𝜶
Ce nombre représente la mesure algébrique de la projection 𝐷𝑝 − 𝑜𝑟𝑡ℎ𝑜𝑔𝑜𝑛𝑎𝑙𝑒 de la
variable j sur ∆𝒗𝒒 avec ‖𝒗𝜶 ‖𝐷𝑝 = 1

Proposition 2 :
𝑌 𝛼 = (𝑋)′ × 𝐷𝑝 × 𝒗𝜶 ∈(ℝ𝑝 , 𝐼𝑝 )
En effet :
𝑌1𝛼 (𝑋1 )′ × 𝐷𝑝 × 𝒗𝜶 (𝑋1 )′
𝛼
𝑌 =( ⋮ )=( ⋮ ) = ( ⋮ ) × 𝐷𝑝 × 𝒗𝜶 = (𝑋)′ × 𝐷𝑝 × 𝒗𝜶
𝛼
𝑌𝑝 (𝑋𝑝 )′ × 𝐷𝑝 × 𝒗𝜶 (𝑋𝑝 )′

Page. 18
Ainsi, une base orthonormée du sev Eq de dimension q qui satisfait au critère de moindres
carrés est donnée par {𝒗𝟏 , … , 𝒗𝒓 } ou ‖𝒗‖𝑫𝒑 = 𝟏 pour tout l=1,…,q ; et 𝒗𝒍 ⊥
⏟ 𝒗𝒍′ ; 𝒍 ≠ 𝒍′
𝑫𝒑
et
𝒗𝒊 : est le vecteur propre Dp-normé de la matrice T associé à la lième plus grande valeur
propre : 𝝁𝒊 (𝝁𝟏 ≥, … , ≥ 𝝁𝒍 )

Proposition 3 :
Les matrices T et V ont les mêmes valeurs propres.

Proposition 4 : Les formules de transitions


Soit 𝑣𝛼 est vecteur propre normé de T associé à la valeur propre de λα alors 𝒖𝜶 est
vecteur normé de V associé à la valeur propre 𝝀𝜶 et on a :
1
uα = × ((X)′ × Dp × vα )
√λα
1
vα = × X × uα
{ √ λα

Ces formules sont dites formules de transitions

Représentation : individus et variables sur ∆𝑽𝜶


 Les variables : Toute variable j décrite initialement par Xj sur l’espace (ℝ𝑛 , 𝐷𝑝 )
sera décrite sur l’axe factoriel ∆𝒗𝜶 par sa projection Dp-orthogonale sur cet axe.

Yjα = (X j )′ × Dp × vα
 Les individus : Tout individu i décrit par initialement par (Xi )’ sur l’espace (ℝ𝑝 , 𝐼𝑝 )
sera décrit sur l’axe factoriel ∆𝒗𝜶 par :
q
Ci = √λα (vα )i
Représentation : individus et variables sur ∆𝒖𝜶
 Les individus : Tout individu i décrit par initialement par (Xi)’ sur l’espace (ℝ𝑝 , 𝐼𝑝 )
sera décrit sur l’axe factoriel ∆𝒖𝜶 par :
q
Ci = Xi uq
◆ Les variables: Toute variable j décrite initialement par Xj sur l’espace (ℝ𝑛 , 𝐷𝑝 ) sera
décrite sur l’axe factoriel ∆𝒖𝜶 par sa projection Dp-orthogonale sur cet axe.

Yjα = √λα (uα )j

Page. 19
Tableau récapitulatif des résultats :

On se place sur ((ℝ𝑝 , 𝐼𝑝 ) On se place sur ((ℝ𝑛 , 𝐷𝑝 )


L’ind i décrit par (𝑋𝑖 )′ La var j décrite par Xj
Le tableau de données Le tableau de données
X1
X=( ⋮ ) ; (Xi )′ ∈ ℝp X=[X1 , … , X p ]; X j ∈ ℝn
Xn
- La matrice diagonalisée : La matrice diagonalisée :
- V=X’Dp X T=X X’ Dp
- Les axes factoriels: ∆𝑣𝛼 - Les axes factoriels: ∆𝑢𝛼
Sont engendrés par les vect propres Sont engendrés par les vect propres
normés de V sur ∆vα normés de T sur ∆uα
q ′
- L’indi i est décrit par Ci = X i uq La variable j est décrite par : Yjα = (X j ) × Dp × vα
q
-La variable j est décrite par Yjα = √λα (uα )j L’indi i est décrit par Ci = √λα (vα )i

➢ La reconstitution du tableaux de données de départ X :

𝐗 = ∑ √𝝀𝜶 × 𝒗𝜶 × (𝒖𝜶 )′
𝒒≥𝟏

L’ACP sur les données centrées réduites: (ACP normée)


1) Matrice de corrélation :

2) Métrique : on prend la métrique M = Ip.


3) Facteurs principaux : les 𝑼𝒒 sont les p vecteurs propres orthonormés de R,
Ruq = uq λq , avec <uq , ul >=1 si q=ℓ, 0 𝑠𝑖𝑛𝑜𝑛.

Les valeurs propres vérifient

Composantes principales : elles sont données par

Cq = Z uq

La première composante principale C = Z u sera une combinaison linaire des centrés


réduite ayant une variance maximale

Page. 20
• 𝑪𝟏 = 𝒖𝟏𝟏 𝒁𝟏 + 𝒖𝟏𝟐 𝒁𝟐 + 𝒖𝟏𝟑 𝒁𝟑 + ⋯ + 𝒖𝟏𝒑 𝒁𝒑

• 𝑽𝑨𝑹 (𝑪𝟏 ) = 𝝀𝟏

• 𝝈𝑪𝟏 = √𝑽𝑨𝑹(𝑪𝟏 )=√𝝀𝟏

Interprétation et qualité de représentation

Les axes factoriels fournissent des images approchées d'un nuage de points. Il est donc
nécessaire de mesurer la qualité de l'approximation, tant pour chacun des points que pour
l'ensemble du nuage.

𝑳 ′ 𝑨𝑪𝑷 : construit des nouvelles variables dites artificielles, et des représentations


graphiques permettant de visualiser les relations entre les variables, ainsi que l'existence
d'éventuels groupes d'individus et ceux de variables.

Qualité des représentations sur les plans principaux :


Dans une ACP on cherche une représentation des individus dans un espace de dimension réduite
et qui nous fera perdre le moindre d'information possible.

Le critère du pourcentage d'inertie totale expliquée:


permet de déterminer nombre d'axes retenus.

On calcule :
𝝀𝟏 + 𝝀𝟐 + ⋯ + 𝝀𝒒
% = 100 × ℑ𝑞
𝑰𝐠

Mesure le pourcentage de qualité d’information recueillie sur cet axe ou la part d’inertie
expliquée par l’axe i ⇛ donne la qualité globale de la représentation des individus ou des
variables sur cet axe.

𝝀𝟏 +𝝀𝟐
100 × ℑ1,2 = :
𝑰𝐠
Mesure le pourcentage de qualité d’information recueillie sur ce plan de l’ind ou la var ou la
part d’inertie expliquée par ce plan principale ⇛ donne la qualité globale de la représentation
des individus ou des variables sur ce plan.
- Si par exemple :
𝝀𝟏 +𝝀𝟐
% = 90% : le nuage de points est presque aplati sur un sous espace à deux dimensions
𝑰𝐠

et qu'une représentation du nuage dans le plan des deux premiers axes principaux sera très
satisfaisante.

Page. 21
Variables centrées réduites : on a : 𝑰𝐠 = Tr(R) = p : la somme des valeurs propres est le
nombre de variables.

Les contributions :
◆ Contributions absolus :
La part de l’individu ou de la variable pour la construction de l’axe factoriel.
❖ Cas des individus :
q P q
Ctrabs (i) = i λC iq et ∑ni=1 Ctrabs (i) = 1
q
L’individu correspondant caractérise plus la nouvelle variable C q

❖ Cas des variables :


q 2
q ( Vj )
Ctrabs (j) = et ∑pj=1 Ctrabs
q
(j) = 1
λq

◆ Contributions relatives :
La part de l’individu ou de la variable pour la construction de l’axe factoriel.

❖ Cas des individus :


- La qualité de représentation de l’individu sur l’axe factoriel :

𝑞 (𝐶𝑖𝑞 )²
𝑐𝑜𝑠 2 (𝜃𝑖 ) = 𝐶𝑟𝑒𝑙 (𝑖) =
‖𝑒𝑖′ ‖²
𝒒
Et : 𝑪 𝒊 = 𝒆𝒊 . 𝒖 𝒒

De plus : (𝑐𝑜𝑠 2 (𝜃𝑖 ) 𝑝𝑟𝑜𝑐ℎ𝑒 1)⇒ 𝑝𝑙𝑢𝑠 𝑙 ′ 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢 𝑒𝑠𝑡 𝑏𝑖𝑒𝑛 𝑟𝑒𝑝𝑟é𝑠𝑒𝑛𝑡é 𝑠𝑢𝑟 ∆𝑢𝑞

- La qualité de représentation de l’individu i sur le plan (∆𝑢1 , ∆𝑢2 ) :


2 (𝜃 ) 1,2 (𝐶𝑖1 )2 + (𝐶𝑖2 )²
𝑐𝑜𝑠 𝑖 = 𝐶𝑟𝑒𝑙 (𝑖) =
‖𝑒𝑖′ ‖²

❖ Cas des variables :

La qualité de représentation de la variable j sur l’axe factoriel∶ ∆𝑣𝛼

2
𝑞
𝑐𝑜𝑠 2 (𝜑𝑗 ) = 𝐶𝑟𝑒𝑙 (𝑗) = (√𝜆𝑞 (𝑢𝑞 )𝑗 )

Page. 22
S'il s'agit du plan (Axe1, Axe2), les proximités entre individus doivent être interprétées avec
prudence : deux points proches l'un de l'autre sur le graphique peuvent correspondre à des
individus éloignés l'un de l'autre. Pour interpréter ces proximités, il est nécessaire de tenir
compte des qualités de représentation des individus.
Se méfier également des individus proches de l'origine : mal représentés, ou proches de la
moyenne, ils ont, de toutes façons, peu contribué à la formation des axes étudiés.

Choix de la dimension :
L′ACP consiste à réduire la dimension de l'espace des individus, on cherche alors la dimension de
notre nouvel espace d'individu et pour cela on a les deux critères Kaiser et de Cattel :

o Critère de Kaiser :
𝐈𝐩
On ne retient que les axes dont l'inertie (la valeur propre) est supérieure à l'inertie moyenne .
𝐩
Dans le cas d'une ACP normée on ne retiendra que les axes associés à des valeurs propres
𝐈𝐩
supérieures à 1 ( 𝐩 = 𝟏)

o Critère de Cattel (critère du coude) :


Il est basé sur le graphique scree plot qui représente en abscisse les composantes et en
ordonnée les valeurs propres. Sur ce graphique des valeurs propres, on observe un
décrochement (coude) suivi d'une décroissance régulière. On sélectionne les axes avant le
décrochement.

Page. 23
Remarque :
Eboulis des valeurs propres : on cherche un «coude » dans le graphe des valeurs propres

Exemple :

Interprétation interne :
Pour donner une signification à la composante principale il faut la relier aux variables
initiales 𝒁 𝒋 , en calculant le coefficient de corrélation r (C, 𝒁 𝒋 ) est on s'intéresse au plus fort
coefficient en valeur absolue.

S’écrit :
𝐣
𝐜𝐨𝐯(𝐳 𝐣 , 𝐂𝐪 ) 𝐜𝐨𝐯(𝐳 𝐣 , 𝐂𝐪 )
𝐫(𝐳 , 𝐂𝐪 ) = = = (√𝛌𝐪 ) × (𝒖𝒒 )
𝒋
√𝐯𝐚𝐫(𝐂𝐪 )√𝐯𝐚𝐫(𝐳 𝐣 ) √𝐯𝐚𝐫(𝐂𝐪 )

Avec 𝒁𝒋 sont centrés réduites.

Or 𝑪 = 𝒁𝒖 avec u le facteur principal associé à C et vecteur propre de 𝑹 matrice de corrélation


associé à la valeur propre 𝜆
𝐫(𝐳 𝐣 , 𝐂𝐪 ) = (√𝛌𝐪 ) × (𝒖𝒒 )
𝒋

Ces calculs s'effectuent pour chaque composante principale et pour un couple de composantes
principales 𝑪𝟏 et 𝑪𝟐 on représente ces corrélations sur un cercle appelé cercle de corrélation.

[r(z j , C1 )]² + [r(z j , C2 )]² ≤ 1


Dans cet exemple en prend : 𝒛𝒋 = 𝑿𝒋 .

Page. 24
Chaque variable 𝑿 𝒋 est représenté par l'abscisse r(𝑿 𝒋 ,c1) et l'ordonné r(𝑿 𝒋 ,c²)
On interprète deux types de positions :
1) Les positions des variables par rapport aux axes afin de déterminer quelles sont les
variables qui font les axes.
2) Les positions des variables étant les unes par rapport aux autres. Le coefficient de
corrélation entre deux variables étant le cosinus de l’angle formé par les vecteurs
correspondants on en déduit que :
2-1) deux variables qui sont proches ou confondus sont corrélées positivement
(coefficient de corrélation proche de 1),
2-2) deux variables opposées (formant un angle de 𝝅) sont corrélées négativement
(coefficient de corrélation proche de -1),
𝝅
2-3) deux variables positionnées (formant un angle de ) ne sont pas corrélées
𝟐

(coefficient de corrélation égale à 0),

Exemple :

Interprétation :
On remarque que x1 ; x 2 ; x 3 : est corrélé positivement avec C1 ,
x 4 ; x 5 anticorrélé de cet axe et x 6 ; x 7 ; x 8 non corrélé avec C1.

Page. 25
Exemple de déroulement manuel d’une ACP

Exercice :
Le tableau de données suivant : regroupe les observations de 6 individus décrits par 3
variables quantitatives :
Note 1 Note 2 Note 3
X1 8 1 0
X2 4 6 5
X3 6 8 7
X4 10 4 7
X5 8 2 5
X6 0 3 6

8 1 0
4 6 5
6 8 7
𝑋=
10 4 7
8 2 5
(0 3 6)

Nuages de points associés:

• Espace des individus Dans (𝑹𝒑 , 𝑴 = 𝑰𝒑 ) = (𝑹𝟑 , 𝑴 = 𝑰𝟑 )

L’ensemble : {(𝑝𝑖 , 𝑒𝑖′ ), i=1,…,𝑛} ⊂ 𝑅𝑝 , est le nuage de points de 𝑅 𝑝 associé aux individus

a) Centrer le tableau :
• le calcul des moyennes pour chacune des variables actives:
6
1 𝑗
𝑥̅ 𝑗 = ∑ 𝑥𝑖
6
𝑖=1

𝑥̅ 𝑗 : est la moyenne de la variable : 𝑥 𝑗


Après faire le calcul on obtient le résultat suivant :
𝐠 : Le centre de gravité.

𝑥̅ 1 6
( 2
g = 𝑥̅ = 4)
) (
𝑥̅ 3 5

Page. 26
donc le tableau de départ n’est pas centré car g≠ 0𝑅𝑃 ;

Centré le tableau :

𝑌 = 𝑋 − 1𝑛 g′

8 1 0 6 4 5 2 −3−5
4 6 5 6 4 5 −2 2 0
6 8 7 6 4 5 0 4 2
𝑌= − =
10 4 7 6 4 5 4 0 2
8 2 5 6 4 5 2−2 0
(
⏟0 3 6 ) (
⏟ 6 4 5 ) ( −6 − 1 1 )
𝑋 1𝑛 g′

Le calcul des moyennes pour chacune des variables, on obtient

𝑦̅1 0
2
g = (𝑦̅ ) = (0)
𝑦̅ 3 0

Alors le tableau Y est centré

Dans le déroulement d’une ACP, il faut toujours vérifier que le tableau est centré.

b) Calcul de la matrice variance-covariance :


Dans le cas d’une ACP classique, la matrice à diagonaliser est la matrice des variances
covariances V qui est donnée par :
1
𝑉 = 𝑌 ′ 𝐷𝑝 𝑌 = 𝑌 ′ × 𝑌
𝑛
𝟏
Y tableau de donnée centré, 𝑫𝒑 métrique des poids. Dans notre cas : 𝑫𝒑 = 𝟔 𝐈𝟔
On a :

1 64 − 8 − 8
𝑉= ( −8 34 22 )
6
−8 22 34

Que peut-on déduire à partir de cette matrice symétrique des variances covariances ?

Les coefficients de corrélation linéaire entre les variables prises 2 à 2.


Les variances occupent la diagonale tandis que les covariances sont de part et d’autre de la
diagonale.
1 4
cov(𝑌1 , 𝑌 2 ) = (−8) = − = cov(𝑌1 , 𝑌 3 )
6 3
1 11
cov(𝑌 2 , 𝑌 3 ) = (22) =
6 3
1 1
var(𝑌1 ) = 6 (64) , 𝑒𝑡 var(𝑌 2 ) = (34) = var(𝑌 3 )
6

Page. 27
4
cov(𝑌 1 2)
, 𝑌 −3 1
𝜌(𝑌1 , 𝑌 2 ) = = = − = −0.125
𝜎𝑌 1 𝜎 𝑌 2 32 8
3
De la même manière, on calculera les autres coefficients de corrélation.

Remarques :
• l’ACP n’est performante que si les variables actives «celles qui participent à l’analyse
» sont fortement corrélées entre elles.
• On ne doit pas oublier que l’ACP permet de construire de nouvelles variables
« composantes principales » non corrélées entre elles.
Des que |𝜌|² ≥ 0.2, on estime qu’il y a corrélation mais cela reste bien entendu
que cette estimation est subjective.
▪ Si les variances des variables actives sont très variées et assez élevées par rapport
aux moyennes respectives : des coefficients de variation assez disparaitre, il est
conseillé de dérouler une ACP normé: Il faut pour ce faire centrer et réduire les
variables en entrée. Ce cas conduira à diagonaliser la matrice des corrélations R.

Détermination des axes principaux :


Diagonaliser V revient à rechercher ses valeurs propres

a). Recherche des valeurs propres :

1 64 − 8 − 8
𝑉 = ( −8 34 22 )
6
−8 22 34

𝝀 : est la valeur propre de V si elle est solution du polynôme caractéristique.

𝐏(𝛌)=det (V - 𝛌𝐈) = 𝟎

𝑰 est la matrice identité d’ordre 3. On a

1 64 − 8 − 8 1 0 0
𝑽 − 𝝀𝑰 = ( −8 34 22 ) − 𝝀 (0 1 0) = 0
6
−8 22 34 0 0 1

(64 − 6𝜆) − 8 − 2
1
𝑑𝑒𝑡 ( −8 (34 − 6𝜆) 22 ) = 0
6
−8 22 (34 − 6𝜆)

Donc

𝑷(𝝀) = 𝟎 ⟹ ( 𝝀 − 𝟏𝟐) × ( 𝝀 − 𝟖) × ( 𝝀 − 𝟐) = 𝟎

Page. 28
On obtient 3 valeurs propres.

Trier les valeurs propres par ordre décroissant : 𝝀𝟏 > 𝝀𝟐 > 𝝀𝟑 :

𝝀𝟏 = 𝟏𝟐
{ 𝝀𝟐 = 𝟖
𝝀𝟑 = 𝟐

On remarque que
1
𝑡𝑟(𝑉 ) = (64 + 34 + 34) = 22 = 𝝀𝟏 + 𝝀𝟐 + 𝝀𝟑
6

Il faut noter que si les valeurs propres décroissent très rapidement ⟺ il y a des relations
effectives entre les variables actives ou qu’il y a redondance d’information apportée par ces
variables actives qui ont donc participé à l’analyse.

Il est souvent préconisé de représenter graphiquement sur le plan les valeurs propres obtenues.

On ordonnées, on mettra les valeurs de la plus grande à la plus petite, en abscisses les numéros
(éboulis des valeurs propres) et constater de visu la chute de ces valeurs.

Si la chute observée est importante, cela dénote que l’ACP donnera de bons résultats.

Figure : Eboulis des valeurs propres en abscisses le numéro et en ordonnée la valeur

Dans ce graphique pour cet exercice, on constate une chute à partir de la seconde valeur propre 𝜆2 .
Dans ce cas, l’inertie expliquée par le premier plan factoriel exprime

𝜆1 + 𝜆2 20
= × 100% = 90,9%
𝜆1 + 𝜆2 + 𝜆3 22

Cela veut dire que nous récupérons 91% de l’information contenue dans le tableau de depart sur ce
plan.

On obtient une bonne visualisation des objets et des variables sur le premier plan factoriel.

Page. 29
b) - Recherche des vecteurs propres normées associés :

Calculer les vecteurs propres 𝑈𝑞 de la matrice V :

𝑉𝑈𝑞 = 𝜆𝑞 𝑈𝑞

Pour k=1 :

𝑉𝑈1 = 𝜆1 𝑈1

On prend :
𝑎
𝑈1 = (𝑏 )
𝑐
Alors :

1 64 −8 −8 𝑎 𝑎
× (−8 34 22 ) × (𝑏 ) = 12 × (𝑏 )
6 𝑐 𝑐
−8 22 34
64𝑎 − 8𝑏 − 8𝑐 = 72𝑎
{−8𝑎 + 34𝑏 + 22𝑐 = 72𝑏
−8𝑎 + 22𝑏 + 34𝑐 = 72𝑐

−8𝑎 − 8𝑏 − 8𝑐 = 0 … (1)
{−8𝑎 − 38𝑏 + 22𝑐 = 0 … (2)
−8𝑎 + 22𝑏 − 38𝑐 = 0 … (3)

On fait alors :

(1)– (2) : 30b – 30c = 0 → b = c … (4)

(4)– (3) : −8𝑎 + 22b – 38b = 0 → a = −2b … (4)

On pose b=1 sa donne : c=1 et b= -2

−2 −2
𝑈1∗ = ( 1 ) , ‖𝑈1∗ ‖ = √(𝑢1∗ )𝑡 × 𝑀 × 𝑈1∗ = √(−211) ( 1 ) = √6
1 1

𝑈1∗ 1 −2 𝑈1∗ −1 −2
𝑈1 = = ( 1 ) 𝑜𝑢 𝑈1 = = (1)
‖𝑈1∗ ‖ √6 ‖𝑈1∗ ‖ √6
1 1
On fait la même chose pour 𝑈2 :

1 1 −1 1
𝑈2 = (1) 𝑜𝑢 𝑈2 = (1 )
√3 1 √3 1

Et

Page. 30
1 0
𝑈2 = (−1)
√2 1
−2 0
−1 1
𝑈1 = (1) 𝑈2 = (−1)
√6 √2
1 1
c)- Calculer les composants principaux :

Ainsi, le premier axe factoriel est l’axe engendré par le vecteur 𝑈1 est passant par l’origine de ℝ3 .
• La première composante principale 𝐶1 est donnée par :
𝑪𝟏 = 𝒀𝑼𝟏

2 −3 −5 −12 −2
−2 2 0 6 1
1 −2 1 6 =
𝐶1 = 0 4 2 × ×( 1 )= 1
√6 −1
4 0 2 √6 √6 −6
2 −2 0 1 −6 −1
(−6 −1 1) ( 12 ) ( 2)

Le second et le troisième axe factoriel sont les l’axes passant par l’origine de ℝ3 𝑒𝑡 engendrés
respectivement par les vecteurs propres normés 𝑈2 𝑒𝑡 𝑈3

Même chose pour C2 on trouve :

−6
0
𝐶2 = √6 −6
−6
0
(−6)

On vérifie que

1. 𝑈1 ⊥ 𝑈2 , les deux vecteurs sont orthogonaux par construction.


< 𝑈1 , 𝑈2 >= (𝑈2 )′ × 𝑈1

1 1 −2
= (1,1,1) (−1) = 0
×
√3 √6 1
2. Les inerties expliquées par chacun des 2 axes et l’inertie cumulée par le plan correspondant.

• Inertie expliquée par le premier axe :


𝜆1
100 × ℑ1 = 100 ×
𝜆1 + 𝜆2 + 𝜆3

Page. 31
12
= 100 × = 54,54%
22
• Inertie expliquée par le second axe :
𝜆2
100 × ℑ2 = 100 ×
𝜆1 + 𝜆2 + 𝜆3
8
= 100 × = 36,36%
22
• Inertie expliquée par le plan :
𝜆1 + 𝜆2
100 × ℑ(1,2) = 100 × = 90,90%
𝜆1 + 𝜆2 + 𝜆3

▪ Sur le premier axe factoriel, on recueille 54,54% tandis que sur le second axe factoriel
36,36% .
▪ Sur le premier plan factoriel, on recueille 90,90% de l’information contenue dans le tableau
initial.
Projection des variables sur les deux premiers axes factoriels :

• Sur le premier axe :


Les coordonnées des 3 variables sont

𝑪(𝟏) = √𝝀𝟏 𝒖𝟏

√12 −2 −2
= ( 1 ) = √2 ( 1 )
√6 1 1

• Sur le second axe :


Les coordonnées des 3 variables sont

(2) √8 1
𝐶 = √𝜆2 𝑢2 = (1)
√3 1
Corrélation entre anciennes et nouvelles variables :
La corrélation entre la q ième nouvelle variables:

√𝝀𝒒 (𝑼𝒒) 𝒋
𝒋
𝒓(𝑪𝒒 , 𝒀 )=
𝝈 𝒀𝒋

Pour k=1,j=2

√𝝀𝟏 (𝑼𝟏)
𝟐
𝒓(𝑪𝟏 , 𝒀𝟐 )=
𝝈𝒀𝟐
𝟏 𝟏
𝒓(𝑪𝟏 , 𝒀𝟐 ) = √12 (− ) = −𝟎, 𝟓𝟗
𝝈𝒀 𝟐 √𝟔

Page. 32
Représenter graphiquement les individus dans l’espace réduit en utilisant les
composantes principales :
Comme vu précédemment on a l’ensemble des composantes suivantes :

C1 (-2√6, √6, √6, -√6, -√6, 2√6).

C2 (-6/√3, 0, 6/√3, 6/√3, 0, -6/√3).

C1 C2
e1 −2√6 −6⁄√3
e2 √6 0
e3 √6 6⁄√3
e4 −√6 6⁄√3
e5 −√6 0
e6 −2√6 −6⁄√3
On va procéder à leurs représentations graphiques en prenant les C1 comme des valeurs dans l’axe
X et les C2 comme des valeurs par rapport à l’axe Y, en d’autres termes :

{ e1 (−2√6, −6⁄√3), e2 (√6, 0), e3 (√6, 6⁄√3), e4 (−√6, 6⁄√3), e5(−√6, 0), e6(−2√6, −6⁄√3).}

5
4
e4 e3
3
2
1
e5 0 e2
-8 -6 -4 -2 -1 0 2 4 6 8
-2
-3
e1 e6
-4
-5

Les contributions :

1) Contribution relative :
Cette première sous partie consistera à calculer la part d’inertie d’un 𝑒𝑖 pris en compte par un
axe 𝑈𝑘 :
2
2( 𝑟
(𝐶𝑘𝑖 )
cos 𝜃𝑖𝑘 ) = 𝐶𝑟𝑒𝑙 (𝑖) =
‖𝑒𝑖 ‖2𝑀

Nous allons prendre un exemple pour mieux comprendre, on va calculer l’angle thêta pour i=1
et k=1 (on remarque que cela représente 𝒆𝟏 ) :
2 2 2
(𝐶11 ) (−2√6) (−2√6)
cos 2 (𝜃11 ) = ‖𝑒1 ‖2𝑀
= = = 24⁄38 = 0.631 (avec 𝒆𝟏 = (2, -3, -5))
𝑒1′ 𝑀𝑒1 ∑3𝑗=1 𝑒1𝑗
²

Ici par rapport à nos composantes :

Page. 33
La valeur de q = {1,2}.

La valeur de i = {1,2, 3, 4, 5,6}.

2) La contribution absolue :
Cette deuxième sous partie consistera à calculer la contribution relative d’un 𝑒𝑖 à l’inertie
expliquée de l’axe 𝑈𝑘 :
2 2 2
𝑟 𝑃𝑖 ∙ (𝐶 𝑖𝑞 ) 𝑃𝑖 ∙ (𝐶𝑞𝑖 ) 𝑃𝑖 ∙ (𝐶𝑞𝑖 )
𝑐𝑜𝑠²(𝜃𝑖 ) = 𝐶𝑎𝑏𝑠 (𝑖) = 2 = =
∑𝑛 𝑖
𝑖=1 𝑃𝑖 ∙(𝐶𝑞 )
𝑉𝑎𝑟(𝐶𝑞 ) 𝜆𝑞

Nous allons prendre un exemple pour mieux comprendre, on va calculer la contribution


relative pour i=1 et k=1 (on remarque que cela représente la composante c1) :

2
1
𝑃1 ∙ (𝐶11 )2 1/6 ∙ (−2√6) 1
𝑐𝑜𝑠²(𝜃1 ) = 𝐶𝑎𝑏𝑠 (1) == = = = 0.333
𝜆1 12 3

Même chose ici par rapport aux composantes :

La valeur de q = {1,2} .
La valeur de i = {1,2, 3, 4, 5,6}.

Représentation des individus et variables sur le premier plan factoriel :

Page. 34
Figure : des individus et les variables sur le premier plan factoriel

Une petite conclusion pour cet exemple :


Au vu du graphique des individus et des variables sur le premier plan factoriel, on constate
que la variable V3 s’oppose, par rapport au second axe factoriel, aux 2 autres variables
(1 et 2), elles se situent de part et d’autre de cet axe. Les individus 2 et 5 sont mal
représentés sur ce plan car ils se projettent au niveau de l’origine. Enfin, on constate qu’il
y a 2 groupes d’individus qui apparaissent : le premier regroupe les individus (3,4), le
seconde (1,6), il y a opposition entre ces 2 groupes dans ce plan du fait de l’opposition entre
les variables.

Page. 35

Vous aimerez peut-être aussi