Vous êtes sur la page 1sur 25

Professeur : Abdelkrim BENNAR

1
Chapitre 1 :
INTRODUCTION GENERALE

2
3
I/ PREAMBULE

Vous êtes chercheur, étudiant et vous êtes souvent confronté à


l’analyse statistique des données multidimensionnelles.

Vous êtes un industriel ou tout simplement curieux de comprendre


comment extraire ou synthétiser une information complexe contenue
dans de gros tableaux de données issues par exemple d’enquêtes
d’opinions, de la sociologie, de l’écologie, de la biologie, de la
géographie, de l’économie etc etc …

Dans ce cours, nous présenterons plusieurs méthodes exploratoires


multidimensionnelles qui ont pour caractéristique commune d’avoir de
très fort potentiel d’applications. Elles permettent également de
prendre en compte simultanément l’effet de nombreuses variables
ce sui permettra d’avoir une compréhension plus fine et plus profonde
du phénomène étudié comparé à une étude successive des variables
prises une à une.

Un autre aspect important de ces méthodes exploratoires est la


visualisation. On va chercher à visualiser un ensemble d’individus par
un nuage d’individus ou par un arbre hiérarchique et à visualiser un
ensemble de variables .La complémentarité de ces deux visualisation
fait la force de ces méthodes d’analyses exploratoires
multidimensionnelles.

Nous présenterons chaque méthode à partir d’exemples réels qui


feront le plus souvent appel à l’intuition pour décrire le
fonctionnement de ces méthodes.

Des Quizes et exercices issus de problèmes réels issus de jeux


données réelles vous permettent d’une part de mettre en œuvre ces
méthodes et d’autre part de comprendre comment interpréter les
résultats de telles analyses.

4
L’objectif attendu à la fin de ce cours est que vous soyez autonome
dans la mise en œuvre et l’interprétation de résultats de ces
méthodes d’analyse des données.

II/ DESCRIPTION SOMMAIRE DU COURS

Les techniques d’analyse des données ont connu un essor important


surtout avec le développement de l’informatique et big data. Le
volume important des données nécessite comme un prétraitement : la
réduction des données, ce qui est l’objectif principal de l’analyse des
données
Les principales méthodes se séparent en deux groupes:
• Les méthodes de classification,
• Les méthodes factorielles.

Les méthodes de classification visant à réduire la taille


de l’ensemble des individus en formant des groupes
homogènes.
Les méthodes de classification:
• Elles visent à réduire la taille de l’ensemble des individus en
formant des groupes homogènes d’individus ou de variables.
• Ces groupes on les appelle aussi des classes, ou familles, ou
segments, ou clusters.
• La classification est appelée aussi Segmentation ou Clustering ou…
Les méthodes factorielles:
• Elles consistent en la projection sur un espace de dimension
inferieure pour obtenir une visualisation de l’ensemble des liaisons
entre variables tout en minimisant la perte de l’information

Elles cherchent à réduire le nombre de variables en les


résumant par un petit nombre de composantes
synthétiques en utilisant essentiellement des outils de
l’algèbre linéaire et donnant lieu à des représentations
graphiques dans lesquelles les objets à décrire se
transforment en des points sur des axes et des plans.
Les principales techniques factorielles sont :

5
-> L’analyse en composantes principales (Hotelling, 1933)
qui analyse un ensemble de données (observations) faites
sur un ensemble de variables quantitatives (numériques).

-> L’analyse des correspondances (Benzekri, 1964) qui


est une technique de base pour analyser des tables de
contingence qui peut être utilisé pour des variables
qualitatives ou quantitatives positives de nature très
divers.
-> L’analyse canonique.(Hotelling) qui contient à la
Régression multiple et l’analyse discriminante comme des
cas particulier.
Les techniques factorielles de l’analyse des données ont
une partie de fondement générale commune à toutes : c’est
celle qui s’appelle l’ «Analyse générale.
• Si on travaille avec un tableau de variables numériques, on utilisera
l’analyse en composantes principales,
• Si on travaille avec des variables qualitatives, on utilisera l’analyse
des correspondances.
• Les liens entre deux groupes de variables peuvent etre traites par
l’analyse canonique.
Plan du cours :
• Analyse en composantes principales (ACP)
• Analyse factorielle des correspondances (AFC)
• Analyse canonique
• Analyse des correspondances
• Analyse discriminante.
Les méthodes factorielles regroupent :
• L’ACP : L’analyse en composantes principales
• L’ AFC : L’analyse factorielle des correspondances

6
Chapitre 2
Analyse En Composantes
Principales

7
Analyse n Composantes Principales
(ACP)
1.- Introduction

• L’ACP est une branche de la statistique multi-dimensionnelle qui


concerne l’étude de p caractères Quantitatifs sur n individus.
• Cela signifie que l’on mesure p caractères quantitatifs sur n
individus.
• La matrice des données notée X est une matrice (nxp) à n lignes et
p colonnes qui résume les valeurs mesurées de p caractères
X1, X2,….., Xp sur n individus i1,i2,….,in
Au croisement de la ligne numéro i et de la colonne j ; on truve la
valeur xi,j = Valeur du caractère Xj pour l’individu numéro i noté ii
x1,1 x1,2 …… x1,j …. x1,p
x2,1 x2,2 …… x2,j …. x2,p

xn,1 xn,2 …… x1,j …. x1,p

Avec
xi,j : valeur du caractère Xj pour l’individu n° i (i=1,…,n)
• L’ACP s’intéresse à des tableaux de données rectangulaires avec
des individus en ligne et des variables quantitatives en colonnes.

1
➔ Pour la variable Xk, on note la moyenne : 𝑥𝑘− = ∑𝑛𝑖=1 𝑥𝑖𝑘
𝑛
1
➔ Pour la variable Xk, on note la variance : 𝑠𝑘2 = ∑𝑛𝑖=1(𝑥𝑖𝑘 − 𝑥𝑘− )2
n

1
Exemple

2
PROBLEMES – OBJECTIFS
I/ Problèmes
Le tableau des données peut-être vu comme un ensemble de lignes ou un
ensemble de colonnes. Trois études complémentaires peuvent alors être
effectuées :
1.- Etude des Individus
• Quand dit-on que deux individus se ressemblent du point de vue de
l’ensemble des variables ?
• Si nous avons plusieurs individus, peut-on faire le bilan de
ressemblances ?
 Construction de groupes d’individus homogènes, c.à.d. partition
des individus.
2.- Etudes des Variables
• Recherche des ressemblances entre variables
• Entre variables, on parle plutôt de liaisons
• Liaisons linéaires sont simples, très fréquentes et résument de
nombreuses liaisons  coefficient de corrélation
 Visualisation de la matrice de corrélations
 recherche d’un petit nombre d’indicateurs synthétiques à
partir des données pour résumer beaucoup de variables
 Déterminer le nombre minimum de variables indépendantes
qui sont non liées.
3.-Lien entre les deux études
• Caractérisation des classes d’individus par les variables
 besoin de procédures automatiques
• Individus spécifiques pour comprendre les liaisons entre
variables

3
 utilisation d’individus extrêmes : revenir aux individus
pour voir les choses plus simplement.
II/ Objectifs de l’ACP
• Descriptif exploratoire permettant de visualiser les données
par graphiques simples.
• Synthèse permettant de résumer de grands tableaux de
données individus x variables

4
5
6
7
8
1) Etude Mathématique
A.- Caractéristiques du Nuage NI des Individus dans Rp
➔ Rp est considéré ici comme espace euclidien muni de la
métrique M et du produit scalaire habituel
< u, v >M = u′ . M. v = v ′ . M. u ‘ : est l’opérateur de transposition
➔ la norme euclidienne classique ‖x‖2 M =< x, x >M
➔ la distance euclidienne entre deux vecteurs u et v de Rp
2 (u,
𝑑𝑀 v) = ‖u − v‖2 M
➔ Nuage des individus 𝐼 = {𝑥𝑖 ∈ 𝑅𝑝 : 𝑖 = 1, … , 𝑛}
Un individu 𝑥𝑖 est une matrice colonne 𝑥 ′ = (𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑃 )
I
• Centre de gravité du nuage 
C ’ est le Vecteur de Rp ∶ 𝑔 = ∑𝑛
𝑖=1 𝑝𝑖 𝑥𝑖
avec 0 ≤ 𝑝𝑖 ≤ 1 𝑒𝑡 ∑𝑛𝑖=1 𝑝𝑖 = 1
La k-ème coordonnée du vecteur g soit : 𝑔𝑘 = ∑𝑛𝑖=1 𝑝𝑖 𝑥𝑖𝑘
C’est la moyenne pondérée de la variable Xk
I
➔ Matrice d’inertie du nuage  par rapport au centre
de gravité g : 𝑉𝑔 = ∑𝑛
𝑖=1 𝑝𝑖 (𝑥𝑖 − 𝑔). (𝑥𝑖 − 𝑔)′
Matrice carré d’ordre p
➔ Moment d’inertie du nuage I par rapport au centre
de gravité g : 𝐼𝑔 = ∑n i=1 pi ‖(xi − g)‖M
2

On peut énoncer certaines propriétés du Nuage I :


Proposition 1
1.- L’élément rectangulaire de la matrice Vg ; soit
Vg = ∑ni=1 pi (xik − g k ) . (xil − g l )= Vovariance(Xk , Xl )= 𝐶𝑜𝑣(Xk , Xl )
(𝑘,𝑙)
2.- 𝐼𝑔 = ∑ni=1 pi ‖(xi − g)‖2M = Trace(Vg . M)
3.- Si y ∈ Rp , on définit Iy = ∑ni=1 pi ‖(xi − y)‖2M ; alors :
o Iy = 𝐼𝑔 + ‖(𝑦 − 𝑔)‖2𝑀
o Iy est minimal pour 𝑦 = 𝑔

9
Démonstration Evidente !
➔ Moment d’inertie du Nuage NI par rapport à un axe u1
Soit u1 un vecteur unitaire de Rp et soit u1 le sous espace
vectoriel de Rp engendré par le vecteur u1 ; c.à.d.
u1 = {.u1/  N}
Pour simplifier ; on fait l’hypothèse que les données sont
centrées  g = 0
u1⊥
𝛽𝑖 xi

𝑖 u1
On peut écrire 𝑥𝑖 = 𝛼𝑖 + 𝛽𝑖
𝐴𝑣𝑒𝑐 ∶ 𝛼𝑖 = . 𝑢1 𝑒𝑡 𝛽𝑖 =  . 𝑣1 𝑒𝑡 < 𝑢1 , 𝑣1 >𝑀 = 0
Définitions :
1) I = ∑𝑛𝑖=1 𝑝𝑖 ‖𝛽𝑖 ‖2𝑀 𝑒𝑡 Iu ⊥ = ∑𝑛𝑖=1 𝑝𝑖 ‖𝛼𝑖 ‖2𝑀
u1 1
Proposition2
1.- Ig = IO = I∆u + I∆⊥u
1 1
2.- I∆⊥u = u′ . M. VO . M. u
1
Démonstration
1) Nous avons Rp= u1 u1⊥ et donc ‖𝑥𝑖 ‖2𝑀 = ‖𝛼𝑖 ‖2𝑀 + ‖𝛽𝑖 ‖2𝑀
D’où le résultat.
2) 𝛼𝑖 =< 𝑥𝑖 , 𝑢1 >𝑀 . 𝑢1 = 𝑢1′ . 𝑀. 𝑥𝑖 où 𝑢1 est unitaire ; il vient :
‖𝛼𝑖 ‖2𝑀 = 2 . ‖𝑢1 ‖2𝑀 = 2 = .  = (𝑢1′ . 𝑀. 𝑥𝑖 ). (𝑥𝑖′ . 𝑀. 𝑢1 ) = 𝑢1′ . 𝑀. 𝑥𝑖 . 𝑥𝑖′ . 𝑀. 𝑢1
Et donc ∑𝑛𝑖=1 𝑝𝑖 ‖𝛼𝑖 ‖2𝑀 = 𝑢1′ . 𝑀. (∑𝑛𝑖=1 𝑝𝑖 𝑥𝑖 . 𝑥𝑖′ ). 𝑀. 𝑢1 = 𝑢1′ . 𝑀. 𝑉0 . 𝑀. 𝑢1

10
Par conséquent :
I∆u1 = Ig − Iu⊥1 = 𝑇𝑟𝑎𝑐𝑒 (V0 . M) − 𝑢1′ . 𝑀. 𝑉0 . 𝑀. 𝑢1 CQFD
B) AJUSTEMENT DU NUAGE NI DES INDIVIDUS
a.- Le point de Rp le plus proche du nuage NI est le vecteur g
( Proposition 1)
b.- Problème
On cherche un axe u qui ajuste au mieux le nuage

On cherche un axe u qui rend Iu minimale

On cherche un axe u qui rend Iu⊥ maximale
Solution
Le vecteur u de Rp cherché est le vecteur propre de la
matrice V0.M associé à sa plus grande valeur propre .
En pratique :
On diagonalise la matrice V0.M en déterminant ses
valeurs propres ordonnées de la plus grande à la plus petite.
• A la plus grande valeur propre 1 , est associé le
premier vecteur propre u1 de la matrice V0.M et l’axe
principal ∆u1 ; c’est l’axe le plus proche du nuage I
dont l’inertie est minimale
• A la seconde plus grande valeur propre 2 , est
associé le second vecteur propre u2 de la matrice
V0.M et l’axe principal ∆u2
• Le plan (∆u1 , ∆𝑢2 ) est appelé le premier plan principal
le plus proche du nuage I

11
• En pratique la métrique M considérée est la matrice
1
M= I correspondant à la norme euclidienne classique et
n n
au produit scalaire habituel dans Rp : < u, v >M = ∑i=1 ui . vi
p

et la matrice à diagonaliser est :


1
➔ V0 . M = Xc′ . Xc où XC est la matrice des données centrées pour
n
une ACP Normale
1
➔ V0 . M = ′
XN . XN où XN est la matrice des données centrées et
n
réduite pour une ACP Normée
➔ L’étude sera toujours faite sur l’espace 𝐑𝐢𝐧𝐟 (𝐧,𝐩)

12
Exercice d’application
6 élèves ont obtenu les notes suivantes en 3 matières :
Français Maths Histoire
Alexis 9 12 10
Béatrice 15 9 10
Claude 5 10 8
Damien 11 13 14
Emilie 11 13 8
François 3 15 10
Objectif :
On veut réaliser l’analyse en composantes principales normée de ce
tableau, avec représentation simultanée des élèves et des matières sur
le plan d’inertie maximum.
Pour se faire, répondre aux questions suivantes :
1) Déterminer le centre de gravité du nuage des matières.
2) Déterminer la matrice des données normées.
3) Déterminer la matrice des données à diagonaliser pour l’analyse en
composantes principales normée.
4) Vérifier que les vecteurs u1=(1,-1, 0)’ et u2=(1,1,1+ √3)’ sont bien
vecteurs propres de l’analyse et déterminer les valeurs propres
associées.
5) Déterminer le vecteur u3 de l’analyse et la valeur propre associée.
6) Calculer le pourcentage d’inertie expliquée par chaque axe
principal, par le premier plan d’inertie.
Après avoir normé les trois vecteurs propres,
7) Représenter les 6 élèves sur le premier plan principal.
8) Représenter les 3 matières sur le premier plan principal.
9) Donner en quelques lignes une interprétation des résultats à
partir des graphiques précédents.

13
Solution

14
15
16
17
18

Vous aimerez peut-être aussi