Académique Documents
Professionnel Documents
Culture Documents
1
Chapitre 1 :
INTRODUCTION GENERALE
2
3
I/ PREAMBULE
4
L’objectif attendu à la fin de ce cours est que vous soyez autonome
dans la mise en œuvre et l’interprétation de résultats de ces
méthodes d’analyse des données.
5
-> L’analyse en composantes principales (Hotelling, 1933)
qui analyse un ensemble de données (observations) faites
sur un ensemble de variables quantitatives (numériques).
6
Chapitre 2
Analyse En Composantes
Principales
7
Analyse n Composantes Principales
(ACP)
1.- Introduction
Avec
xi,j : valeur du caractère Xj pour l’individu n° i (i=1,…,n)
• L’ACP s’intéresse à des tableaux de données rectangulaires avec
des individus en ligne et des variables quantitatives en colonnes.
1
➔ Pour la variable Xk, on note la moyenne : 𝑥𝑘− = ∑𝑛𝑖=1 𝑥𝑖𝑘
𝑛
1
➔ Pour la variable Xk, on note la variance : 𝑠𝑘2 = ∑𝑛𝑖=1(𝑥𝑖𝑘 − 𝑥𝑘− )2
n
1
Exemple
2
PROBLEMES – OBJECTIFS
I/ Problèmes
Le tableau des données peut-être vu comme un ensemble de lignes ou un
ensemble de colonnes. Trois études complémentaires peuvent alors être
effectuées :
1.- Etude des Individus
• Quand dit-on que deux individus se ressemblent du point de vue de
l’ensemble des variables ?
• Si nous avons plusieurs individus, peut-on faire le bilan de
ressemblances ?
Construction de groupes d’individus homogènes, c.à.d. partition
des individus.
2.- Etudes des Variables
• Recherche des ressemblances entre variables
• Entre variables, on parle plutôt de liaisons
• Liaisons linéaires sont simples, très fréquentes et résument de
nombreuses liaisons coefficient de corrélation
Visualisation de la matrice de corrélations
recherche d’un petit nombre d’indicateurs synthétiques à
partir des données pour résumer beaucoup de variables
Déterminer le nombre minimum de variables indépendantes
qui sont non liées.
3.-Lien entre les deux études
• Caractérisation des classes d’individus par les variables
besoin de procédures automatiques
• Individus spécifiques pour comprendre les liaisons entre
variables
3
utilisation d’individus extrêmes : revenir aux individus
pour voir les choses plus simplement.
II/ Objectifs de l’ACP
• Descriptif exploratoire permettant de visualiser les données
par graphiques simples.
• Synthèse permettant de résumer de grands tableaux de
données individus x variables
4
5
6
7
8
1) Etude Mathématique
A.- Caractéristiques du Nuage NI des Individus dans Rp
➔ Rp est considéré ici comme espace euclidien muni de la
métrique M et du produit scalaire habituel
< u, v >M = u′ . M. v = v ′ . M. u ‘ : est l’opérateur de transposition
➔ la norme euclidienne classique ‖x‖2 M =< x, x >M
➔ la distance euclidienne entre deux vecteurs u et v de Rp
2 (u,
𝑑𝑀 v) = ‖u − v‖2 M
➔ Nuage des individus 𝐼 = {𝑥𝑖 ∈ 𝑅𝑝 : 𝑖 = 1, … , 𝑛}
Un individu 𝑥𝑖 est une matrice colonne 𝑥 ′ = (𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑃 )
I
• Centre de gravité du nuage
C ’ est le Vecteur de Rp ∶ 𝑔 = ∑𝑛
𝑖=1 𝑝𝑖 𝑥𝑖
avec 0 ≤ 𝑝𝑖 ≤ 1 𝑒𝑡 ∑𝑛𝑖=1 𝑝𝑖 = 1
La k-ème coordonnée du vecteur g soit : 𝑔𝑘 = ∑𝑛𝑖=1 𝑝𝑖 𝑥𝑖𝑘
C’est la moyenne pondérée de la variable Xk
I
➔ Matrice d’inertie du nuage par rapport au centre
de gravité g : 𝑉𝑔 = ∑𝑛
𝑖=1 𝑝𝑖 (𝑥𝑖 − 𝑔). (𝑥𝑖 − 𝑔)′
Matrice carré d’ordre p
➔ Moment d’inertie du nuage I par rapport au centre
de gravité g : 𝐼𝑔 = ∑n i=1 pi ‖(xi − g)‖M
2
9
Démonstration Evidente !
➔ Moment d’inertie du Nuage NI par rapport à un axe u1
Soit u1 un vecteur unitaire de Rp et soit u1 le sous espace
vectoriel de Rp engendré par le vecteur u1 ; c.à.d.
u1 = {.u1/ N}
Pour simplifier ; on fait l’hypothèse que les données sont
centrées g = 0
u1⊥
𝛽𝑖 xi
𝑖 u1
On peut écrire 𝑥𝑖 = 𝛼𝑖 + 𝛽𝑖
𝐴𝑣𝑒𝑐 ∶ 𝛼𝑖 = . 𝑢1 𝑒𝑡 𝛽𝑖 = . 𝑣1 𝑒𝑡 < 𝑢1 , 𝑣1 >𝑀 = 0
Définitions :
1) I = ∑𝑛𝑖=1 𝑝𝑖 ‖𝛽𝑖 ‖2𝑀 𝑒𝑡 Iu ⊥ = ∑𝑛𝑖=1 𝑝𝑖 ‖𝛼𝑖 ‖2𝑀
u1 1
Proposition2
1.- Ig = IO = I∆u + I∆⊥u
1 1
2.- I∆⊥u = u′ . M. VO . M. u
1
Démonstration
1) Nous avons Rp= u1 u1⊥ et donc ‖𝑥𝑖 ‖2𝑀 = ‖𝛼𝑖 ‖2𝑀 + ‖𝛽𝑖 ‖2𝑀
D’où le résultat.
2) 𝛼𝑖 =< 𝑥𝑖 , 𝑢1 >𝑀 . 𝑢1 = 𝑢1′ . 𝑀. 𝑥𝑖 où 𝑢1 est unitaire ; il vient :
‖𝛼𝑖 ‖2𝑀 = 2 . ‖𝑢1 ‖2𝑀 = 2 = . = (𝑢1′ . 𝑀. 𝑥𝑖 ). (𝑥𝑖′ . 𝑀. 𝑢1 ) = 𝑢1′ . 𝑀. 𝑥𝑖 . 𝑥𝑖′ . 𝑀. 𝑢1
Et donc ∑𝑛𝑖=1 𝑝𝑖 ‖𝛼𝑖 ‖2𝑀 = 𝑢1′ . 𝑀. (∑𝑛𝑖=1 𝑝𝑖 𝑥𝑖 . 𝑥𝑖′ ). 𝑀. 𝑢1 = 𝑢1′ . 𝑀. 𝑉0 . 𝑀. 𝑢1
10
Par conséquent :
I∆u1 = Ig − Iu⊥1 = 𝑇𝑟𝑎𝑐𝑒 (V0 . M) − 𝑢1′ . 𝑀. 𝑉0 . 𝑀. 𝑢1 CQFD
B) AJUSTEMENT DU NUAGE NI DES INDIVIDUS
a.- Le point de Rp le plus proche du nuage NI est le vecteur g
( Proposition 1)
b.- Problème
On cherche un axe u qui ajuste au mieux le nuage
On cherche un axe u qui rend Iu minimale
On cherche un axe u qui rend Iu⊥ maximale
Solution
Le vecteur u de Rp cherché est le vecteur propre de la
matrice V0.M associé à sa plus grande valeur propre .
En pratique :
On diagonalise la matrice V0.M en déterminant ses
valeurs propres ordonnées de la plus grande à la plus petite.
• A la plus grande valeur propre 1 , est associé le
premier vecteur propre u1 de la matrice V0.M et l’axe
principal ∆u1 ; c’est l’axe le plus proche du nuage I
dont l’inertie est minimale
• A la seconde plus grande valeur propre 2 , est
associé le second vecteur propre u2 de la matrice
V0.M et l’axe principal ∆u2
• Le plan (∆u1 , ∆𝑢2 ) est appelé le premier plan principal
le plus proche du nuage I
11
• En pratique la métrique M considérée est la matrice
1
M= I correspondant à la norme euclidienne classique et
n n
au produit scalaire habituel dans Rp : < u, v >M = ∑i=1 ui . vi
p
12
Exercice d’application
6 élèves ont obtenu les notes suivantes en 3 matières :
Français Maths Histoire
Alexis 9 12 10
Béatrice 15 9 10
Claude 5 10 8
Damien 11 13 14
Emilie 11 13 8
François 3 15 10
Objectif :
On veut réaliser l’analyse en composantes principales normée de ce
tableau, avec représentation simultanée des élèves et des matières sur
le plan d’inertie maximum.
Pour se faire, répondre aux questions suivantes :
1) Déterminer le centre de gravité du nuage des matières.
2) Déterminer la matrice des données normées.
3) Déterminer la matrice des données à diagonaliser pour l’analyse en
composantes principales normée.
4) Vérifier que les vecteurs u1=(1,-1, 0)’ et u2=(1,1,1+ √3)’ sont bien
vecteurs propres de l’analyse et déterminer les valeurs propres
associées.
5) Déterminer le vecteur u3 de l’analyse et la valeur propre associée.
6) Calculer le pourcentage d’inertie expliquée par chaque axe
principal, par le premier plan d’inertie.
Après avoir normé les trois vecteurs propres,
7) Représenter les 6 élèves sur le premier plan principal.
8) Représenter les 3 matières sur le premier plan principal.
9) Donner en quelques lignes une interprétation des résultats à
partir des graphiques précédents.
13
Solution
14
15
16
17
18