Académique Documents
Professionnel Documents
Culture Documents
Cours Complet Analyse Des Données
Cours Complet Analyse Des Données
Arnaud MARTIN
Septembre 2004
1.1
Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Les donnes
1.3
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4
Les mthodes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5
Les logiciels
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6
Plan
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Analyses Factorielles
2.1
2.2
2.3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Principe gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
. . . . . . .
12
2.3.1
Droite d'ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.3.2
Plan d'ajustement
. . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3.3
Sous-espace d'ajustement . . . . . . . . . . . . . . . . . . . . . . . .
14
2.4
. . . . . . .
15
2.5
Relation entre les axes d'inertie et les facteurs des deux nuages . . . . . . .
16
2.6
. . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.7
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
23
3.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.2
Principe de l'ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.2.1
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.2.2
26
3.2.3
. . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.2.4
L'ajustement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.3
Reprsentation simultane
. . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.4
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.5
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
ii
4.2
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
39
4.1.1
39
4.1.2
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
4.1.3
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
Principe de l'AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
4.2.1
43
4.2.2
44
4.2.3
46
4.2.4
47
4.2.5
Reprsentation simultane . . . . . . . . . . . . . . . . . . . . . . .
49
4.3
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5.2
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
57
5.1.1
57
5.1.2
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.1.3
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2.1
Principe de l'ACM
59
5.2.2
5.2.3
66
5.2.4
67
5.3
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
5.4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
6.2
6.3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2
73
6.1.1
75
6.1.2
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
6.1.3
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
Principe de l'AFD
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
6.2.1
La discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
6.2.2
L'aectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
7 Classication
7.1
73
87
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.1.1
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.1.2
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
7.1.3
Les mthodes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
90
iii
7.2.1
7.3
7.4
Principe de l'algorithme
. . . . . . . . . . . . . . . . . . . . . . . .
90
La classication hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . .
91
7.3.1
92
7.3.2
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Glossaire
Indications historiques
101
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
iv
. . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
3.2
4.1
. . . . . . . . . . . . . . . . . . .
3
24
. . . . . . . . . .
26
. . . . . . . . . . . . . . . . . . .
40
4.2
41
4.3
Tableau de contingence.
43
4.4
43
4.5
44
4.6
44
4.7
5.1
58
5.2
59
5.3
60
5.4
61
5.5
62
5.6
. . . . . . . . . . . . . .
63
5.7
64
6.1
75
7.1
. . . . . . . . . . . . . .
88
7.2
96
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . . . . . . . . . . .
45
vi
11
2.2
11
2.3
Le nuage
. . . . . . . . . . . . . . . . . . . . . . . .
2.4
NI
Le nuage NI
2.5
Schma de dualit.
2.6
3.1
3.2
27
. . . . . . . . . . . . .
29
. . . . . . . . . . . . .
30
et sa droite d'ajustement.
. . . . . . . . . . . . . . . . . . . .
13
et sa droite d'ajustement.
. . . . . . . . . . . . . . . . . . . .
15
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
NI
dans IR
X.
. . . . . . . . . . . . .
19
. . . . . . . . . . . . . . . . . . . . . . . .
27
3.5
NK dans IRI . . . . . . . . . . .
Ajustement du nuage NI des individus pour l'ACP.
Ajustement du nuage NK des variables pour l'ACP.
. . . . . . . . . . . . .
31
3.6
32
3.7
. . . .
32
3.8
. . . .
33
3.9
Rsum de l'ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
4.1
Le nuage
3.3
3.4
NI en fonction du nuage NK . .
NK en fonction du nuage NI . .
. . . . . . . . . . . . .
46
4.2
. . . . . . . . . . . . .
48
4.3
50
4.4
51
4.5
Inertie et dpendance.
52
4.6
. . . . . . . . . .
53
4.7
Rsum de l'AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
5.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
J = 3.
. . . . . . . . . . . . . . . . . . . .
NI dans l'espace IR . .
NK dans l'espace IRI . .
61
5.2
5.3
. . . . . . .
65
. . . . . . .
66
5.4
. . . . . . . . . . . . . . . . . . . . . . . .
67
5.5
Rsum de l'ACM.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
6.1
Reprsentation du nuage
. .
77
6.2
78
NI
vii
viii
7.1
. . . . . . . . . . . . . . .
91
7.2
7.3
. . . . . . . . . . . . . . . . . . . . . . . .
93
93
7.4
94
7.5
94
7.6
Ps une partition ps
1. . . . . . . .
=5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
7.7
Exemple de dendrogramme.
. . . . . . . . . . . . . . . . . . . . . . . . . .
97
7.8
98
7.9
99
Iq
Chapitre 1
Introduction
Les statistiques peuvent tre vues en fonction de l'objectif x ; classiquement les mthodes statistiques sont employes soit pour explorer les donnes (nomme statistique
exploratoire) soit pour prdire un comportement (nomme statistique prdictive ou dcisionnelle [Goa03] ou encore infrentielle [Sap90]). La statistique exploratoire s'appuie
sur des techniques descriptives et graphiques. Elle est gnralement dcrite par la statistique descriptive qui regroupe des mthodes exploratoires simples, uni- ou bidimensionnelle (moyenne, moments, quantiles, variance, corrlation, ...) et la statistique exploratoire
multidimensionnelle. L'analyse de donnes s'inscrit dans ce cadre de la statistique exploratoire multidimensionnelle. Nous verrons que des mthodes issues de l'analyse de donnes
peuvent galement servir la statistique prdictive (
Les mthodes d'analyse de donnes ont commences tre dveloppes dans les annes 50 pousses par le dveloppement de l'informatique et du stockage des donnes qui
depuis n'a cess de crotre. L'analyse de donnes a surtout t dveloppe en France par
J.P. Benzcri [Ben80a], [Ben80b] qui a su par l'analyse des correspondances reprsenter
les donnes de manire simple et interprtable. Il dcrit l'analyse de donnes selon cinq
principes, un peu dsuets aujourd'hui :
-
1er
2me
3me
4me
5me
principe : Pour l'analyse des faits complexes et notamment des faits sociaux,
CHAPITRE 1.
INTRODUCTION
quantit de donnes toujours plus importante. Les mthodes dveloppes (et l'analyse de
donnes) sont maintenant souvent intgres avec des mthodes issues de l'informatique et
de l'intelligence articielle (apprentissage numrique et symbolique) dans le
data mining
en traitement du signal et des images, o elles sont souvent employes comme prtraitements (qui peuvent tre vus comme des ltres). En ingnierie mcanique, elles peuvent
aussi permettre d'extraire des informations intressantes sans avoir recours des modles
parfois alourdis pour tenir compte de toutes les donnes.
ais de comprendre que les donnes caractre qualitatif doivent tre adaptes pour les
mthodes numriques.
Les mthodes d'analyse de donnes supposent souvent une organisation des donnes
particulire, naturelle, mais parfois dicile raliser selon l'application et les donnes. Le
choix d'un tableau permet une organisation dans le plan de toutes les donnes et ainsi de
traiter simultanment toute l'information. Ainsi la plupart des mthodes ncessitent une
organisation des donnes prsente par le tableau 1.1. Nous verrons au Chapitre 4 que
selon les donnes ce tableau est quelque peu modi, mais l'ide de tableau reste prsente
dans toutes les mthodes d'analyse de donnes.
1 Les
1.3.
LES OBJECTIFS
Variables
Individus
......
1
.
.
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
......
xik
......
.
.
.
.
.
.
y a peu de donnes. Cependant, ds lors que la taille du tableau est grand, ou que nous
recherchons des relations entre plus de deux individus ou plus de deux variables, cette
reprsentation et les techniques simples de la statistique descriptive ne susent plus.
ressemblances
liaisons
entre
les variables. Ces proximits entre individus et variables vont permettre l'oprateur de
CHAPITRE 1.
dterminer une
typologie
INTRODUCTION
donnes et fournir une synthse des rsultats des analyses. Nous voyons donc que les deux
objectifs prcdemment cits sont trs lis voir indissociables, ce qui entrane souvent
l'utilisation conjointe de plusieurs mthodes d'analyse de donnes.
i.e.
analyse en composantes principales est l'une des mthodes les plus employes. Elle
est particulirement adapte aux variables quantitatives, continues, a priori corrL'
les entre elles. Une fois les donnes projetes dans dirents plans, les proximits
entre variables s'interprtent en termes de corrlations, tandis que les proximits
entre individus s'interprtent en termes de similitudes globales des valeurs observes.
L'
analyse
en pratique, son intrt porte sur son aspect thorique. Elle cherche analyser les
relations entre deux groupes de variables de nature dirente. De ce fait l'analyse
factorielle des correspondances peut tre vu comme analyse canonique particulire
i.e.
i.e.
pralable).
Parmi les mthodes issues de l'analyse discriminante et directement rattaches
1.4.
LES MTHODES
k plus proches voisins ou encore les arbres de dcision. D'autres mthodes issues
data
mining .
L'analyse linaire discriminante est aussi appele analyse factorielle discriminante
car elle est en fait une analyse en composantes principales supervise. Elle dcrit
les individus en classes (celles-ci sont donnes par une variable issue de l'apprentissage) et ensuite aecte de nouveaux individus dans ces classes. C'est donc une
mthode la fois descriptive et prdictive. Elle permet de traiter aussi bien des
variables quantitatives que qualitatives.
rgression logistique
La
d'appartenance
une
consiste
p(C=x)
classe
exprimer
les
comme
une
probabilits
a posteriori
fonction
l'observation
de
[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe,
qu'il faut dterminer les coecients
ln
p(C=x)
1 p(C=x)
i.e.
tels que :
= 0 +
d
X
i=1
i xi :
(1.1)
L'approche des
arbres de dcision
possde une
a priori.
Les deux principales mthodes dveloppes sont la mthode des centres mobiles
(apparente la mthode des
k-means
centres mobiles
de classes choisis alatoirement, puis recalculer ces centres jusqu' obtenir une
convergence. La dicult consiste dans un choix astucieux des centres au dpart
pour une convergence plus rapide et dans le choix d'une distance approprie.
La
CHAPITRE 1.
INTRODUCTION
les individus selon leur ressemblance (resp. dissemblance). Toute la dicult est
dans la dnition d'une mesure de ressemblance et de la distance associe.
Bell Laboratories.
propose
une
macro
payante
permettant
d'eectuer
quelques
mthodes
d'analyse de donnes. Elle est cependant trs limite, utilisable qu'avec Excel sous
Windows et de plus payante. Certaines coles d'ingnieurs s'en contentent (ex. ENITAB, Bordeaux).
- UniWin Plus :
Statgraphics est un logiciel de statistiques gnrales, qui propose un module d'analyse de donnes de treize mthodes. Dvelopp uniquement pour les environnements
Windows, l'accent est port sur les interfaces graphiques. Statgraphics propose un
grand nombre d'analyses statistiques et permet l'utilisation de beaucoup de for-
1.6.
PLAN
mat de donnes. Il est commercialis par Sigma Plus. Statgraphics est enseign par
exemple l'IUT de Vannes.
- Stalab :
Ce logiciel dvelopp par M. Jambu [Jam99b], [Jam99a] tait initialement prvu
pour Windows. Sa convivialit a permis un essor industriel qui semble s'tre rduit.
Il a t utilis pour l'enseignement en coles d'ingnieurs (ex. ENSSAT, Lannion).
- SPAD :
Le logiciel SPAD support entre autre par A. Morineau est toujours maintenu
jour avec de nouvelles mthodes issues de la recherche universitaire. Sa version sous
Windows est conviviale ce qui a pouss son achat par de plus en plus d'industriels.
Le soucis de coller une ralit industrielle fait qu'il est employ en enseignement
(ex. IUT de Vannes, ENSIETA).
1.6 Plan
Ce document ne cherche pas prsenter l'ensemble des mthodes de l'analyse de donnes dont certaines ont t voques dans la section 1.4. Nous prsentons ici les ides des
principales mthodes, ces cls et les rfrences
2 Les
rfrences proposes ne sont pas exhaustives, il existe un grand nombre d'ouvrages de qualit
dans le domaine de l'analyse de donnes.
CHAPITRE 1.
INTRODUCTION
Chapitre 2
Analyses Factorielles
2.1 Introduction
Les analyses factorielles constituent la plupart des analyses de donnes. Elles sont
fondes sur un principe unique, c'est pour cela que nous pouvons parler de l'analyse
factorielle [EP90]. Ce principe repose sur le fait que les deux nuages de points reprsentant
respectivement les lignes et les colonnes du tableau tudi (tableau 1.1) sont construits et
reprsents sur des graphiques. Ces reprsentations des lignes et des colonnes fortement
lies entre elles permettent une analyse plus aise pour l'oprateur.
10
CHAPITRE 2.
ANALYSES FACTORIELLES
liaisons entre les variables quantitatives, puis une analyse des correspondances multiples
peut donner une reprsentation des variables qualitatives en fonction de leur
modalits .
De plus elle n'entrane aucune perte d'information. Cette hypothse est malheureusement
improbable en pratique.
Exemple 2.2.1
anne. Le nombre d'lves est environ de 450, et nous pouvons considrer qu'ils obtiennent
environ 30 notes chacun. Ainsi le tableau reprsentant l'ensemble des notes est constitu de
13 500 valeurs. La rduction prsente ci-dessus permet de rduire ce nombre 480 valeurs
sans perte d'information si l'hypothse est valide. Pour que l'hypothse soit vrie, il
faudrait pouvoir dduire les notes de l'ensemble des lves partir de celles d'un seul
lve et d'un vecteur de pondration. Ceci signie que les notes sont dpendantes les unes
des autres ou encore trs fortement corrles.
En pratique, il faut donc chercher une approximation de rang
analyses cherchent crire le tableau
pour
X . C'est--dire ces
tel que :
(2.1)
et
de nuages sont remarquables aussi bien pour les projections de l'espace des individus que
pour celui des variables (gure 2.2). Par exemple, nous pouvons distinguer des formes
sphriques ne traduisant aucune direction privilgie, des formes allonges donnant une
2.2.
11
PRINCIPE GNRAL
direction privilgie des dpendances, ou encore plusieurs sous-nuages faisant ainsi apparatre plusieurs sous-groupes de la population. D'autres formes sont remarquables telles
que les formes triangulaires ou paraboliques [LMP95]. Le problme est de pouvoir rendre
compte visuellement de la forme des nuages, pour ce faire l'ide est d'tudier les projections sur des droites ou mieux des plans (les projections dans un espace 3 dimensions
seraient intressantes si l'il humain n'tait pas souvent tromp). Il faut donc chercher le
sous-espace qui ajuste au mieux le nuage de points
Nous allons donc chercher ajuster au mieux le nuage des individus dans l'espace des
variables (section 2.3) puis le nuage des variables dans l'espace des individus (section 2.4).
12
CHAPITRE 2.
ANALYSES FACTORIELLES
NI
- dans IR
NI
NI .
dimension
Exemple 2.3.1
S = 10, i.e. si les 1000 points-individus sont contenus dans un sous-espace de dimension
5
10, nous rduisons l'tude des 1000 100 = 10 valeurs de X 1000 10+100 10 = 11000
valeurs.
d1
i.e. une
Preuve
long de
Oi2 =
X
i2I
X
i2I
OHi2 +
X
i2I
iHi2 ;
i de NI
(2.2)
la droite
d1 .
ut1X tX u1, avec u1 le vecteur unitaire de d1. En fait, nous avons l'galit :
X
OHi2 = (X u1 )t (X u1 ) = ut1 X t X u1 ;
i2I
(2.3)
NI
et sa droite d'ajustement.
Preuve
La projection
OHi = xti u1 =
Les
composantes
X
k2K
xik u1j :
composantes de la matrice
(2.4)
X u1 , et donc :
OHi2 = (X u1 )t (X u1 ):
u1
(2.5)
ut1X tX u1
contient u1 .
14
CHAPITRE 2.
Preuve
ANALYSES FACTORIELLES
u1, alors il est dnit par deux vecteurs u0 et u00 dirents de u1. L'inertie le long des
0
00
deux droites portes par u et u est donc infrieure celle de l'inertie le long de la droite
porte par u1 . Il existe donc un sous-espace de dimension deux meilleur que celui dni
0
00
par les deux vecteurs u et u . Nous montrons ainsi la proposition.
Le sous-espace deux dimensions est donc caractris par l'axe
d1
et l'axe
d2
dni
par le vecteur
-
s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRK est constitue par
les S vecteurs propres (u1 ; u2 ; ; uS ) correspondant aux S plus grandes valeurs propres
(1 ; 2 ; ; S ) de la matrice X t X .
Preuve
approche est fonde sur certaines proprits spectrales des matrices symtriques [LMP95].
Soit
L(uS ) le Lagrangien :
L(uS ) = utS X t X uS
o
(utS uS
1);
(2.6)
@L
t
(2.7)
uS = 2X X uS 2uS = 0:
t
Ainsi nous obtenons l'galit X X uS = uS . Or d'aprs Lagrange, une condition nt t
cessaire et susante pour que f (uS ) = uS X X uS soit extremum sachant que g (uS ) =
utS uS 1 = 0 (vrie par la contrainte de normalit), est qu'il existe un nombre tel
que la drive du Lagrangien soit nulle. Le maximum est atteint si
valeur propre de la matrice
uS
X tX .
matrice
X tX
et
NK - dans IR
vS vriant :
vSt XX tvS est maximal,
vSt vS = 1 (contrainte de normalit),
vSt vq = 0 pour tout q = f1; ; S 1g (contrainte d'orthogonalit).
NI
et sa droite d'ajustement.
Le sous-espace d'ajustement est obtenu de la mme manire que dans le cas des individus, par la proposition suivante.
s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRI est constitue par
les S vecteurs propres (v1 ; v2 ; ; vS ) correspondant aux S plus grandes valeurs propres
(1 ; 2 ; ; S ) de la matrice XX t .
16
CHAPITRE 2.
Remarque S
matrice
XX t ,
X tX .
ANALYSES FACTORIELLES
= utS X tX uS
DS
FS = X uS
dS
, respectivement
respectivement
= X t vS
= vSt XX tvS
de
NK . FS
le
facteur
d'ordre
dS ,
NI , respectivement
NI sur le S me axe
K
me
dans IR , de mme GS est le vecteur issu de la projection du nuage NK sur le S
, respectivement
GS
DS
de
axe dans IR .
Proposition 2.5.1 L'inertie le long de l'axe dS , dS , est gale l'inertie le long de l'axe
Preuve
uS =
En multipliant par
et
IR
(2.8)
pGS
S
et dans l'espace IR
IR
X t X uS = S uS ;
(2.9)
XX t vS = S vS :
(2.10)
(XX t)X uS = S (X uS );
et en multipliant par
(2.11)
(X tX )X tvS = S (X tvS ):
S = 1 1
S=1
t
valeur propre de XX . L'quation (2.11) pour
(2.12)
est par dnition la plus grande
montre que
2.5. RELATION ENTRE LES AXES D'INERTIE ET LES FACTEURS DES DEUX NUAGES17
de
puisque :
(2.13)
Pour dmontrer le second point, nous constatons partir de l'quation (2.11) que les
facteurs
FS
avons donc :
vS = kFFS k :
(2.14)
De plus
uS = kGGS k ;
(2.15)
et
Les relations de transition entre les deux espaces peuvent se reprsenter par le schma
de dualit de la gure 2.5 reprsentant les relations entre les axes d'inertie d'un nuage et
les facteurs de l'autre nuage.
FS (i) =
X
k2K
GS ( k ) =
X
i2I
xik GS (k)
S
xik FS (i)
p
(2.16)
Cette proposition montre que les facteurs des deux nuages doivent s'interprter conjointement. L'analyse factorielle consiste donc analyser simultanment le nuage
nuage
NK .
NI
et le
18
CHAPITRE 2.
ANALYSES FACTORIELLES
Preuve
D'aprs les relations fondamentales de l'quation (2.8) nous obtenons les coor-
NI
FS (i)
p
S
vS (i) =
xik uS (k)
= k2K p
NK
uS (k) =
GS (i)
p
S
i2I
(2.17)
xik vS (i)
p
(2.18)
En dveloppant les relations des quations (2.17) et (2.18), nous obtenons facilement les
X.
En eet, puisque
us
par une
est le
sme
me
X us =
s vs ;
(2.19)
2.6.
19
d'o
X
s2K
usuts =
Xp
s2K
s vs uts :
(2.20)
X=
Xp
s2K
s vs uts :
(2.21)
us
et
I:K
X.
sous-espace qui s'ajuste au mieux aux nuages de points. S'ajuster au mieux signie donc
reconstituer au mieux les positions des points des nuages par un nouvel ensemble de
coordonnes.
Si
1
associe
valeurs propres, alors nous disons que la reconstruction est bonne. D'un point de vue
gomtrique ceci signie que le nuage de points s'allonge le long d'une droite. Lorsque
le nuage est ainsi trs tir le long du premier axe, l'inertie du nuage de dpart et la
position des points sont bien reconstitue avec la seule information des coordonnes des
projections des points du nuage.
tr(
X tX
)=
X
s2K
s =
i2I;k2K
xik .
2
X tX .
1 + + S
20
CHAPITRE 2.
ANALYSES FACTORIELLES
Xp
X ' X =
s vs uts :
(2.22)
s=1
Nous passons donc des I:K valeurs du tableau X S (I + K ) nombres pour reconstituer
p
X . Ces nombres sont constitus par les S vecteurs s vs ayant I composantes et les S
vecteurs us ayant K composantes.
Toute la dicult rside dans le choix de S , c'est--dire partir de quelle valeur a-tt
on une bonne reconstruction, ou encore une bonne proportion de la trace de X X ? Nous
voyons donc l'importance de dnir un indice de qualit de la reconstruction. La qualit
globale de la reconstruction peut tre mesure par :
S
X
S =
Le coecient
tr(X t X )
tr(X t X )
=X
s=1
s2K
s
s
(2.23)
premiers facteurs.
2.7 Conclusion
Nous avons prsent dans ce chapitre le principe gnral des analyses factorielles. Cette
approche permet de reprsenter gomtriquement de grands tableaux de donnes dans
des sous-espaces sans perte d'information importante. La dimension des sous-espaces,
i.e.
2.7.
CONCLUSION
21
22
CHAPITRE 2.
ANALYSES FACTORIELLES
Chapitre 3
Analyse en Composantes Principales
3.1 Introduction
L'analyse en composantes principales - que nous notons par la suite ACP - est une des
premires analyses factorielles, et certainement aujourd'hui l'une des plus employes. Dans
[LMP95], nous trouvons l'historique de cette mthode qui fut conue par Karl Pearson en
1901. Elle est sans doute la base de la comprhension actuelle des analyses factorielles.
Son utilisation a cependant t plus tardive avec l'essor des capacits de calculs.
Les principales variantes de l'ACP viennent des dirences de transformations du
tableau de donnes. Ainsi, le nuage de points peut tre centr ou non, rduit ou non.
Le cas le plus tudi, et que nous prsentons ici, est lorsque le nuage de point est centr
et rduit ; dans ce cas nous parlons d'ACP norme. D'autres variantes existent telle que
l'analyse en composante curviligne [DH97] pour remdier au fait que les projections sont
linaires, ou encore l'analyse en composantes indpendantes pour la sparation de sources
[Pha96].
Les donnes
tableau prcdemment vu dans le Chapitre 1 et que nous rappelons dans le tableau 3.1.
Ainsi les donnes sont constitues d'individus et de variables qui dans le cas de l'ACP
doivent tre quantitatives, continues, elles peuvent tre homognes ou non et sont
priori
pour l'individu
i, I
Les objectifs
la valeur de la variable
= f1; ; i; ; I g K
K = f1; ; k; ; K g
indices
xik
a
k
, et
qu'elle cherche reprsenter graphiquement les relations entre individus par l'valuation
de leurs ressemblances, ainsi que les relations entre variables par l'valuation de leurs
liaisons. Comme nous l'avons vu au chapitre prcdent l'tude doit se faire simultanment.
Le but nal de ces reprsentations est l'interprtation par une analyse des rsultats.
23
24
CHAPITRE 3.
Variables
Individus
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
xik
......
.
.
.
.
.
.
les applications sont trs nombreuses. Il y a en fait deux faons d'utiliser l'ACP :
- soit pour l'tude d'une population donne en cherchant dterminer la typologie des
individus et des variables. Par exemple, dans la biomtrie, l'tude des mensurations
sur certains organes peut faire apparatre des caractristiques lies des pathologies, ou encore en conomie, l'tude des dpenses des exploitations par l'ACP peut
permettre des conomies de gestion.
- soit pour rduire les dimensions des donnes sans perte importante d'information,
par exemple en traitement du signal et des images, o l'ACP intervient souvent en
prtraitement pour rduire la quantit de donnes issues de traitements analogiques.
liaisons
ressemblances
entre indi-
Dnition 3.2.1 Deux individus se ressemblent, ou sont proches, s'ils possdent des valeurs proches pour l'ensemble des variables.
Cette dnition sous entend une notion de proximit qui se traduit par une distance.
Ainsi, nous dnissons la distance entre deux individus
d2 (i; j ) =
k2K
(xik
xjk )2 :
i et j
par :
(3.1)
La mtrique ici utilise est donc euclidienne, mais de manire plus gnrale nous pouvons
dnir cette distance par :
d2 (i; j ) = (xi
xj )tM (xi xj );
(3.2)
3.2.
25
PRINCIPE DE L'ACP
K.
Pour tablir un bilan des ressemblances entre individus, nous cherchons rpondre
des questions du type :
- Quels sont les individus qui se ressemblent ?
- Quelles sont ceux qui sont dirents ?
- Existe-t-il des groupes homognes d'individus ?
- Est-il possible de mettre en vidence une typologie des individus ?
De la mme faon que nous avons dni la
de dnir la
liaison
Dnition 3.2.2 Deux variables sont lies si elles ont un fort coecient de corrlation
linaire.
X xik xk
1
xih xh
cov(
k; h)
=
;
r(k; h) = p
sk
sh
var(k) var(h) I i2I
o
xk
et
sk
Remarque
(3.3)
k.
corrlation est dni partir de la covariance, cependant dans de rare cas l'ACP peut
tre fonde sur la matrice de covariance (ACP non-norme) ou encore sur la matrice des
coecients de corrlations des rangs. A partir du coecient de corrlation de l'quation
(3.3), il est possible de dnir une distance entre deux variables
d(k; h) =
1X
I i2I
xik
sk
xk
xih
sh
xh
= 2(1
k et h :
r(k; h)):
(3.4)
De mme que pour les individus, nous cherchons tablir un bilan des liaisons entre
variables en rpondant des questions du type :
- Quelles sont les variables qui sont lies positivement entre elles ?
Pondration
Il est souvent souhaitable que les individus comme les variables jouent le
mme rle. Cependant, dans certaines applications il peut tre intressant de pondrer
diremment chaque individu. Soit
pi
ces poids sont pris tels que la masse totale soit gale 1 (
de la variable
X
i2I
pi xik ;
i2I
(3.5)
26
CHAPITRE 3.
Variables
Individus
1
1
.
.
.
.
.
.
......
......
xik
.
.
.
.
.
.
......
.
.
.
.
.
.
sk
xk
......
.
.
.
.
.
.
r(k; h) =
X
i2I
pi
xik
sk
xk
xih
sh
xh
(3.6)
Nous retrouvons le cas particulier dans lequel les individus ont le mme poids lorsque
pi =
De mme, il est possible de ne pas accorder la mme importance aux direntes va-
d2 (i; j ) =
X
k2K
mk (xik
xjk )2 :
(3.7)
En fait, ces poids ne modient en rien les principes de l'ACP, nous considrons donc par
la suite les cas o les individus et variables ont le mme poids.
X en remplaant les valeurs des xik par xik xk . Le fait de centrer les
donnes prsente dans le cas de l'ACP des proprits intressantes que nous exposons
la section 3.2.3. L'analyse centre rduite ou encore norme, que nous prsentons ici, est
lie la transformation des donnes du tableau
xik
sk
xk
xik
par
. Rduire les donnes permet d'uniformiser les units de mesures. Par exemple,
dans le cas d'une analyse sur la mensuration d'animaux, les dimensions dans le tableau
X
X
ou en
cm
prsent sur le tableau 3.1 devient celui donn par le tableau 3.2.
3.2.
27
PRINCIPE DE L'ACP
NI
donnes centres rduites par ligne, comme nous l'avons dj vu dans le cas gnral d'une
analyse factorielle (
Absence de liens
NI
dans IR
Directions d'allongement
Partition de points
NI des individus est un espace vectoriel K dimensions, dont chaque dimension reprsente une variable (cf. gure 3.1). Le fait d'avoir centr les donnes entrane
que l'origine des axes est confondu avec le centre de gravit G. Ce centre de gravit G
Ainsi le nuage
28
NI
CHAPITRE 3.
va se faire en dcelant d'une part une partition de points et d'autre part des direc-
tions d'allongement. Ainsi sur la gure 3.2 nous reprsentons dirents types de nuages
possibles. Nous pouvons observer une absence de liens, ou bien par exemple une direction
d'allongement suivant plutt le premier axe, ou encore une partition des points en trois
groupes. Si l'tude directe est envisageable dans un espace trois dimensions, ds lors que
K > 3 elle devient impossible. Nous avons donc recours l'approche factorielle partir
de laquelle nous pouvons tudier dirents plans de projection.
centres rduites, que nous considrons ici par colonne, comme nous l'avons dj vu dans
le cas gnral d'une analyse factorielle (gure 2.1 de la section 2.2).
La reprsentation du nuage
NK
1 xik
sk
xk
2
= 1:
(3.8)
k avec elle
r(k; k) = 1. Ainsi le nuage NK est situ sur la sphre unit (de rayon 1) dans
cf. gure 3.3). Il est intressant de noter que le cosinus de l'angle entre les vecteurs
reprsentant
deux
variables
k et h est le produit scalaire
< k; h >= r(k; h). L'interprtation du coecient de corrlation comme un cosinus est
mme, donc
l'espace IR (
une proprit trs importante puisqu'elle donne un support gomtrique, donc visuel, au
coecient de corrlation. Cette proprit ncessite d'avoir au pralable centr les donnes,
ce qui justie une nouvelle fois cette transformation.
L'analyse du nuage
une variable
du nuage
NK
par
Ok
NK
des variables se fera donc par l'tude des angles forms pour
NI
o le
centre de gravit correspond au centre du repre lorsque les donnes sont centres. Ainsi,
ce sont les angles entre les vecteurs reprsentant les variables qui sont peu dforms par
les projections et non pas les distances entre les points du nuage
NK .
Cette tude des angles est impossible raliser directement cause de la dimension
de IR . Elle se fera donc dans les plans de projection issus de l'approche factorielle.
3.2.4 L'ajustement
L'approche factorielle consiste donc approcher ces nuages
NI
et
NK
3.2.
29
PRINCIPE DE L'ACP
NK
dans IR .
fus ; s = 1; ; S g
de la projection du nuage
i se projette en Hi sur uX
1 . Nous cherchons
GHi . En eet, rendre maximum GHi2 revient
X
i2I
i2X
I
i.e.
i2I
iHi2 ), critre
axes factoriels
Dnition 3.2.3 Les S axes factoriels fus ; s = 1; ; S g sont appeles les facteurs prin-
cipaux.
Du fait d'avoir centr les donnes, ce critre permet d'interprter les axes factoriels
comme des directions d'allongement maximum du nuage
NK .
prsentation approche des corrlations entre les variables. La dmarche pour le nuage
30
CHAPITRE 3.
NK
NI
NI
des individus.
k2K
Hk sur v1 .
v1 qui rend maximum
se projette en
OHk2 . Puis, nous cherchons le vecteur v2 orthogonal v1 qui satisfait ce mme critre.
vecteurs recherchs.
v1 dnit une nouvelle variable qui est la combinaison linaire la plus lie
l'ensemble des variables initiales du tableau X . Ainsi les S vecteurs fvs ; s = 1; ; S g
Le vecteur
Dnition 3.2.4 Les S nouvelles variables (axes factoriels) fvs ; s = 1; ; S g sont appeles les composantes principales.
Ce sont ces vecteurs qui sont l'origine du nom de cette analyse factorielle.
rend maximum
k2K
OHk2
sur
variables initiales (la liaison tant entendu au sens du critre maximisant la somme des
3.3.
31
REPRSENTATION SIMULTANE
NK
moindres carrs des corrlations). C'est donc la variable qui synthtise le mieux l'ensemble
des variables initiales. Les axes factoriels rsument donc l'ensemble des variables initiales
du tableau
X.
Eet de taille
sont toutes corrles positivement deux deux. Dans ce cas, elles forment des angles
aigus et le centre de gravit
GK
du nuage
NK
cf.
NK
car toutes les projections des variables sont proches les unes
des autres. En eet le premier axe factoriel rend toujours compte de la position du nuage
NK
espaces IR
nuage
NK
NI
et du
de reprsenter ces deux nuages simultanment sur les plans issus des premiers
axes factoriels. Nous devons cependant prendre garde au fait que les deux nuages ne sont en
ralit pas dans les mmes espaces qui ont des dimensions direntes. Cette reprsentation
simultane est essentiellement pragmatique.
En eet, le nuage des individus
NI
NK
32
CHAPITRE 3.
ces deux nuages. Tout d'abord, l'inertie totale des deux nuages est la mme :
X X xik
1
=
I i2I k2K
sk
xk
2
(3.9)
NI
u1 constituent une nouvelle variable (appele premier facteur, note F1) qui se
confond la norme prs la premire composante principale (illustres sur la gure 3.7).
Ainsi le vecteur
F1
dans IR
est colinaire
pour les projections sur les autres facteurs qui correspondent aux composantes principales
de mme rang. De manire symtrique, les coordonnes des projections du nuage
NI
en fonction du nuage
NK
sur
NK .
3.4.
33
INTERPRTATION
G1
de IR
est colinaire
u1 (axe factoriel de
NI ). Cette notion d'individu type est moins employe que celle de composante principale.
Il est souvent plus facile de tenter de se ramener des individus rels comme individu
type.
NK
en fonction du nuage
s
8
>
>
>
>
>
<
Fs (i) =
>
>
>
>
>
:
1 1
G (i) = p
s
p1
X xik
s k2K
X xik
I s i2I
NI
sk
xk
sk
NI .
Gs (k)
xk
(ou du nuage
(3.10)
Fs (k)
3.4 Interprtation
A partir des relations donnes prcdemment, nous pouvons dnir quelques rgles
pour l'interprtation :
- Un individu sera du ct des variables pour lesquelles il a de fortes valeurs, inversement il sera du ct oppos des variables pour lesquelles il a de faibles valeurs.
- Plus les valeurs d'un individu sont fortes pour une variable plus il sera loign de
l'origine suivant l'axe factoriel dcrivant le mieux cette variable.
- Deux individus une mme extrmit d'un axe (
proches (
i.e. se ressemblent).
i.e.
34
CHAPITRE 3.
- Il n'est pas possible d'interprter la position d'un individu par rapport une seule
variable, et rciproquement, il n'est pas possible d'interprter la position d'une variable par rapport un seul individu. Les interprtations doivent se faire de manire
globale.
Les axes factoriels donnent des images approches des nuages de points
NI
et
NK .
Il est donc ncessaire de dnir des indicateurs pour mesurer la qualit de l'approximation. L'tude d'un plan de projection des sous-espaces vectoriels doit toujours se faire
conjointement avec l'tude des indicateurs. En eet, deux points (individus ou variables)
peuvent se trouver trs proches dans un plan de projection, alors qu'en ralit ils sont
loigns. Nous prsentons ici les principales aides l'interprtation que nous retrouvons
dans [EP90].
La
QLTs (i) =
(OHis)2 = cos2 ;
(Oi)2
QLTs (i)
(3.11)
dans le plan entre deux individus bien reprsents sont proches de la ralit.
QLTN
(OHis)2
N
= i2X
i2N
(Oi)2
(3.12)
Cette qualit mesure l'importance d'un axe factoriel. Bien sr les premiers axes auront
plus d'importance que les suivants. Nous devons juger ces pourcentages en fonction de
la taille du tableau. Par exemple, 10% est une valeur faible si le tableau comporte 10
variables ; c'est une valeur forte dans le cas de 100 variables.
Du fait de la dualit, il est quivalent de calculer ces pourcentages d'inertie partir
du nuage
NI
des individus ou
NK
des variables.
i
l'inertie d'un axe s est donne par le rapport de l'inertie de la projection de i sur l'axe s
La contribution d'un lment
3.5.
35
CONCLUSION
s:
(
OHis )2
CTs (i) = X
:
(Oi)2
(3.13)
i2N
La contribution est importante si elle est proche de 1 pour les variables et doit tre
rapporte au tableau pour les individus. Ce rapport permet de mettre en vidence le
sous-ensemble d'lments ayant particip essentiellement la construction de l'axe. L'interprtation devra en premier lieu s'appuyer sur ces lments.
Pour aider l'interprtation nous proposons de suivre le plan suivant :
- Choisir le nombre d'axes. Notons que le choix du nombre d'axes retenir reste un
problme car il n'y a pas de solutions rigoureuses. Les valeurs propres permettent
de choisir ce nombre par exemple de telle sorte que le pourcentage d'information
cumule soit compris en 80% et 90% environ ou tel que toutes les valeurs propres
soient suprieures 1 ou encore lorsque un saut important sur l'histogramme des
valeurs propres ou sur les recherches de paliers de celles-ci est observ. De plus le
nombre d'axes ne doit pas tre trop grand.
- Etudier les indicateurs de la qualit des approximations.
- Interprter les facteurs simultanment :
- l'aide des contributions des individus,
- l'aide des coordonnes des variables (interprter par axe et par plan),
- l'aide des coordonnes des individus.
- Mettre en vidence des typologies.
Il est possible de faire intervenir des lments illustratifs (appels galement supplmentaires) an d'aider l'oprateur interprter. Ces lments, individus ou variables,
n'interviennent pas dans la construction des axes factoriels, mais sont reprsents pour
l'tape d'interprtation. Dans le cas des variables, il s'agit de variables quantitatives qui
peuvent tre continues ou nominales. L'ajout d'lments illustratifs doit rester exceptionnels, car ils n'appartiennent normalement pas au champ strict de l'tude. Il peut
cependant parfois tre intressant de supprimer un individu provoquant un eet de taille
dans le calcul des axes, et de le faire apparatre pour interprter ses projections en fonction
des autres individus.
3.5 Conclusion
Dans un premier temps rsumons l'analyse en composantes principales l'aide des
neuf tapes de la gure 3.9 :
- 1 : La premire tape concerne la mise en forme des donnes brutes.
- 2 : La deuxime tape consiste centrer et rduire les donnes. Elles sont centres
an d'obtenir des proprits intressantes, et rduites pour uniformiser les units de
mesure.
- 3 : Le tableau est considr comme juxtaposition de lignes.
36
CHAPITRE 3.
NI
nous nous intressons aux distances inter-individuelles qui dterminent les res-
sons ici aux angles des points. Le cosinus de l'angle est le coecient de corrlation.
Toutes les variables sont quidistantes de l'origine car les donnes ont t rduites,
ainsi le nuage
NK
NI
NK
L'ACP est une mthode puissante pour synthtiser et rsumer de vastes populations dcrites par plusieurs variables quantitatives. Elle permet entre autre de dgager
de grandes catgories d'individus et de raliser un bilan des liaisons entre les variables.
Par cette analyse nous pouvons mettre en vidence de grandes tendances dans les donnes telles que des regroupements d'individus ou des oppositions entre individus (ce qui
traduit un comportement radicalement dirent de ces individus) ou entre variables (ce
qui traduit le fait que les variables sont inversement corrles). Les reprsentations graphiques fournies par l'ACP sont simples et riches d'informations. L'ACP peut tre une
premire analyse pour l'tude d'une population dont les rsultats seront enrichis par une
autre analyse factorielle ou encore une classication automatique des donnes.
3.5.
37
CONCLUSION
38
CHAPITRE 3.
Chapitre 4
Analyse Factorielle des
Correspondances
4.1 Introduction
L'analyse factorielle des correspondances a t introduite par [Ben80b] sous le nom
d'analyse des correspondances. Elle porte galement le nom d'analyse des correspondances
binaires en relation avec l'analyse des correspondances multiples que nous prsentons
ensuite. Nous la notons par la suite AFC. Cette analyse peut tre prsente sous de
nombreux points de vues, notamment comme un cas particulier de l'analyse canonique
ou encore de l'analyse factorielle discriminante. Elle peut aussi tre tudie comme une
ACP avec une mtrique spciale (celle du
de contingence
tableaux
entre deux variables nominales. Les domaines d'application de l'AFC sont donc dirents
de ceux de l'ACP qui est adapte aux tableaux de mesures htrognes ou non.
Pour cette analyse aussi nous pouvons donner une longue liste des disciplines ayant
trouv rponse leur problme par l'AFC. Ainsi, l'cologie, la zoologie, la psychologie,
l'conomie, et d'autres encore dans lesquelles il peut tre intressant d'tudier les liaisons
entre deux variables nominales, ont fourni un grand nombre de donnes.
L'AFC conue pour les tableaux de contingence (
aux tableaux de mesures homognes (
de rangs, de prfrences, aux tableaux valeurs logiques (0 ou 1), et encore aux tableaux
issus de questionnaires d'enqutes.
39
40
CHAPITRE 4.
Modalit de la
seconde variable
premire variable
Modalit de la
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
kij
......
.
.
.
.
.
.
Dnition 4.1.1 Un tableau de contingence est un tableau d'eectifs obtenus en croisant les modalits de deux variables qualitatives dnies sur une mme population de n
individus.
L'AFC peut galement tre tendue aux variables quantitatives homognes en dnissant
simplement quelques modalits pour ces variables. Par extension, elle s'applique aussi aux
tableaux individus-variables pour des variables quantitatives homognes, dans ce cas les
individus sont considrs comme des variables.
Nous devons donc considrer les donnes brutes organises de la faon dcrite sur
le tableau 4.1. Dans ce cas,
= f 1; ; I g J
f1; ; J g kij
, et
variable et la modalit
i de la premire
XX
i2I j 2J
avec
kij = n;
(4.1)
fij
fij =
et les marges par :
fi =
kij
;
n
X
j 2J
fij ;
(4.2)
(4.3)
4.1.
41
INTRODUCTION
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
fij
fi
......
.
.
.
.
.
.
marge
marge
fj
et
fj =
X
i2I
fij :
(4.4)
X
i2I
fi =
X
j 2J
fj =
XX
i2I j 2J
fij = 1:
(4.5)
gence ou de frquence pour tudier les liaisons entre les deux variables l'initiative du
tableau. Nous ne pouvons plus dnir les liaisons par les coecients de corrlation comme
pour l'ACP (
(4.6)
Dnition 4.1.3 Nous disons qu'il y a liaison entre ces deux variables, ou que ces deux
variables sont lies si elles ne sont pas indpendantes.
Ainsi nous pouvons dire que :
- Si
fij
et
s'associent plus
que sous l'hypothse d'indpendance. Nous dirons que les deux modalits
s'attirent.
- Si
fij
et
sous l'hypothse d'indpendance. Nous dirons qu'il y a rpulsion entre les deux
modalits
i et j .
42
CHAPITRE 4.
fij
fi
= fj ; 8i 2 I; 8j 2 J;
(4.7)
fij
fj
= fi; 8i 2 I; 8j 2 J:
fj
(4.8)
f
j , et le terme ij
fi
dans la sous-population possdant la modalit i.
population totale possdant la modalit
Ainsi il y a indpendance lorsque les lignes du tableau de frquences sont proportionnelles. Par symtrie il en est de mme pour les colonnes.
proches
si elles s'associent de
4.2.
43
PRINCIPE DE L'AFC
chtain
roux
blond
Total
Couleurs
marron
68
119
26
220
des
noisette
15
54
14
10
93
yeux
vert
29
14
16
64
bleu
20
84
17
94
215
108
286
71
127
592
Total
Prol
brun
chtain
roux
blond
moyen
Couleurs
marron
11,4
20,1
4,3
1,1
37,1
des
noisette
2,5
9,1
2,3
1,6
15,7
yeux
vert
0,8
4,8
2,3
2,7
10,8
bleu
3,3
14,1
2,8
15,8
36,3
18,2
48,3
11,9
21,4
Prol moyen
' 100
I=J =4
n = 592. Le tableau des frquences 4.4 correspondant permet de ne plus tenir compte
la couleur des cheveux et une des quatre modalits de la couleurs de yeux. Ainsi
et
du nombre de femmes total. Ainsi nous pouvons nous demander s'il y a indpendance
entre la couleur des yeux et celle des cheveux, ou encore quelles sont les associations entre
ces couleurs. Sur cet exemple les rponses sont assez faciles, cependant lorsque la taille
des donnes est plus importante, nous ne pouvons travailler directement sur le tableau
des donnes brutes. Comme dans l'ACP, il y a une tape de transformation des donnes.
cf. tableau 4.5). Lorsque le tableau est considr en ligne les donnes
fi , la nouvelle ligne ainsi cre est appele prol-ligne .
Cette normalisation a pour but de considrer les liaisons entre les deux variables au travers
de l'cart entre les pourcentages en lignes. Dans cette exemple
d'avoir les cheveux de couleur
fij
fi
reprsente la probabilit
similaire peut tre fait pour les colonnes du fait du rle symtrique jou par les lignes
44
CHAPITRE 4.
......
1
.
.
.
.
.
.
......
1
.
.
.
.
.
.
.
.
.
.
.
.
fij
fi
......
.
.
.
.
.
.
......
...
...
fij
fj
...
...
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
chtain
roux
blond
Couleurs
marron
30,9
54,0
11,8
3,1
des
noisette
16,1
58,0
15,0
10,7
vert
7,8
45,3
21,8
25,0
bleu
9,3
39,0
7,9
43,7
18,2
48,3
11,9
21,4
yeux
Prol moyen
Prol
moyen
' 100
' 100
' 100
' 100
' 100
fij
fj
i sachant qu'elle a les cheveux de couleur j . Si nous reprenons notre exemple sur
les couleurs de cheveux et des yeux, nous obtenons les prols-lignes et les prols-colonnes
donns respectivement par les tableaux 4.6 et 4.7.
couleur . Le tableau 4.7 fournit la rpartition de la couleur des yeux selon les modalits de
la couleur des cheveux. Nous avons donc par exemple 31 chances sur 100 que les femmes
qui ont les yeux marrons aient les cheveux de couleur brun, et 63 chances sur 100 que les
femmes qui ont les cheveux de couleur brun aient les yeux marrons. Nous savons aussi
partir du tableau 4.4 que 11 femmes sur 100 ont la fois les yeux marrons et les cheveux
de couleur brun.
2
4.2.
45
PRINCIPE DE L'AFC
Prol
brun
chtain
roux
blond
moyen
5,5
37,1
Couleurs
marron
62,9
41,6
36,6
des
noisette
13,8
18,8
19,7
7,8
15,7
yeux
vert
4,6
10,1
19,7
12,5
10,8
bleu
18,5
29,3
23,9
74,0
36,3
Prol moyen
' 100 ' 100 ' 100 ' 100 ' 100
X 1
d2 (i; i0 ) =
f
j 2J j
et entre deux colonnes
La matrice diagonale
et
1
f j
1
IR . Cette pondration
fij
fi
fi0 j
fi0 :
2
fij
fj
fij 0
f j 0
2
(4.9)
(4.10)
j 0 par :
X 1
d2 (j; j 0 ) =
f
i2I i
f j
fi
Remarque
dienne usuelle entre les points-lignes ou entre les points-colonnes exprims partir du
tableau de frquence ne traduit que les dirences d'eectifs entre deux modalits. La
distance euclidienne entre les prols-lignes ou entre les prols-colonnes permet de bien
modliser les ressemblances entre deux modalits. Par exemple pour la distance entre
deux prols-lignes est donne par :
X fij
d(i; i0 ) =
fi
j 2J
fi 0 j
fi0 :
2
(4.11)
f j
notre exemple elle favorise les couleurs de cheveux bien reprsentes tel que le chtain.
C'est pour cette raison que la distance retenue dans l'quation (4.9) (respectivement
(4.10)) l'cart entre les prols est pondr par l'inverse de la masse de la colonne (respec-
46
CHAPITRE 4.
deux modalits d'une mme variable qui possde des prols identiques en une modalit
unique aecte de la somme de leurs masses, sans modier ni les distances entre les modalits de cette variable, ni les distances entre les modalits de l'autre variable. Ainsi, si deux
colonnes proportionnelles d'un tableau sont regroupes, les distances entre prols-lignes
sont inchanges, et rciproquement. Ceci permet de regrouper des modalits voisines pour
ainsi rduire le nombre de modalits et donc la complexit de l'interprtation en garantissant une certaine invariance des rsultats.
cf.
2 ,
NI
peut
dimensions reprsente
f j
j me dimension de IRJ .
nuage NI appartient un
la
HI . Pour l'AFC les poids aects chaque point du nuage sont imposs
et ne sont pas identiques. Le point i a pour poids la frquence marginale fi . Ce poids est
hyperplan, not
4.2.
47
PRINCIPE DE L'AFC
f
i sur l'axe j est donne par ij .
fi
Le barycentre des points de NI munis de ces poids, not GI , est la moyenne pondre
de tous les points sur tous les axes j . La coordonne de GI sur l'axe j est donc donne
coordonne du point
par :
X
i2I
fi
fij
fi
= fj :
(4.12)
Ce barycentre s'interprte galement comme un prol moyen et joue le mme rle pour
l'tude de la liaison entre les deux variables.
HI
et
HJ
importante. Nous ne pouvons donc pas les tudier directement. Ainsi, nous cherchons
fournir des images planes des nuages
NI
et
NJ .
prsente au Chapitre 2.
Ainsi, pour l'ajustement du nuage des prols-lignes, nous cherchons une suite d'axes
centrer le nuage
NI ,
Gi
48
CHAPITRE 4.
NJ
i a pour coordonne
fi
fij
fj
sur le
sur l'ensemble des modalits de la seconde variable. La recherche des axes qui rendent
maximum l'inertie du nuage centr revient donc chercher les classes qui s'cartent le
plus du prol de l'ensemble de la population. Chaque prol-ligne tant muni d'un poids
X
i2I
fi
fi
fij
NI
2
fj
dans IR
(4.14)
u1 qui rende cette inertie maximale, puis par chercher le vecteur unitaire
u2 orthogonal u1 qui vrie le mme critre, etc.
vecteur unitaire
Cette dmarche est semblable celle de l'ACP, l'exception du fait que les lignes
interviennent au travers de leur prol, que la distance entre les prols est celle du
que chaque lment
2
et
Puisqu'en AFC les lignes et les colonnes jouent un rle symtrique, l'ajustement du
nuage
NJ
doivent tre
telles que les distances entre les points de l'image ressemblent le plus possible aux distances
entre les points du nuage
barycentre
GJ .
NJ .
L'analyse du nuage
NJ
4.2.
49
PRINCIPE DE L'AFC
plus riche qu'en ACP car les lignes et les colonnes reprsentent des lments de mme
NI
NJ
et
X
i2I
fi
L'inertie du nuage
X
j 2J
fj
fij
fi
fj
XX
(fij
i2I j 2J
fi fj )2
:
fi fj
(4.15)
NI . Cette inertie
2
reprsente la liaison entre les deux variables. En eet la statistique du habituellement
Nous constatons que l'inertie du nuage
NJ
2
NI
employe pour mesurer la liaison entre deux variables est la somme du rapport avec pour
numrateur le carr de la dirence de l'eectif observ et de l'eectif thorique et pour
dnominateur l'eectif thorique :
XX
i2I j 2J
(nfij
nfi fj )2
nfi fj
= nINI = nINJ :
(4.16)
et
Nous avons vu au chapitre 2 que les inerties associes chaque axe de mme rang
dans chacun des nuages sont gales, ainsi que les facteurs de mme rang sur les lignes et
les colonnes sont lis par des relations de transition. Ces relations donnent un sens une
reprsentation simultane. Le schma de dualit de la gure 4.3 reprsente les relations de
transition (appeles galement barycentriques, ou encore quasi-barycentriques) donnes
par :
FS (i)
p1
8
>
>
>
>
>
<
FS (i) =
>
>
>
>
>
:
1
GS (j ) = p
X fij
S j 2J
GS (j )
X fij
S i2I
fi
f j
(4.17)
FS (i)
NI , GS (j )
NJ , et S est la
du nuage
du nuage
valeur commune de l'inertie associe chacun de ces axes. Elle est donne par :
S =
X
i2I
X
j 2J
(4.18)
50
CHAPITRE 4.
La projection de la ligne
sur l'axe
S,
chaque
proprit barycentrique.
La reprsentation simultane s'obtient en superposant les projections de chacun des
deux nuages
NI
et
NJ
sur des plans engendrs par des axes de mme rang pour les
deux nuages. Bien sr les deux nuages ne sont pas forcment dans le mme espace. Si la
reprsentation simultane n'est pas adopte par tous pour l'ACP, elle se justie beaucoup
mieux pour l'AFC. En fait pour pouvoir rellement superposer les deux nuages, il faudrait
avoir les mmes barycentres car chaque nuage devrait alors tre contenu dans l'autre. Cette
reprsentation est possible en forant les centres de gravit pour approcher la solution
idale. Les relations seront alors quasi-barycentriques.
4.3 Interprtation
La reprsentation simultane des lignes et des colonnes permet une interprtation aise
des projections. Ainsi la position relative de deux points d'un mme ensemble (ligne ou
colonne), s'interprte en tant que distance. La position d'un point d'un ensemble et tous les
points d'un autre ensemble s'interprte en tant que barycentre. Attention cependant, toute
association entre une ligne et une colonne suggre par une proximit sur le graphique
doit tre contrle sur le tableau.
Reprenons l'exemple prcdent sur la couleur des yeux et des cheveux. La reprsentation simultane sur le premier plan factoriel (
cf.
les femmes aux yeux bleus et aux yeux marrons sont loignes. En conrmation avec le
tableau, nous remarquons que les femmes aux yeux bleus auront tendance avoir les
cheveux blonds, ainsi que pour celles aux yeux marrons qui seront davantage brunes.
Les femmes aux cheveux roux auront plutt les yeux verts ou noisettes. La modalit des
4.3.
51
INTERPRTATION
cheveux chtains est proche de l'origine, elle reprsente donc un prol moyen et n'est
rattache aucune couleur de cheveux.
Fig. 4.4 Reprsentation simultane dans le premier plan sur l'exemple de Cohen.
Pour l'interprtation, il peut tre utile partir des nuages de points d'en dduire les
relations d'indpendance et l'inertie totale et des axes. Nous reprenons les principaux
cas tudis dans [LMP95] sur la gure 4.5. Ainsi une inertie faible du nuage entrane un
nuage concentr autour du centre de gravit tandis qu'une inertie forte donne un nuage
dilat. L'indpendance des variables donne une forme sphrique au nuage, ce qui entrane
aucune direction privilgie pour les axes, l'inertie des axes est donc dans ce cas faible. Au
contraire l'existence d'une dpendance provoque un tirement du nuage dans une direction
donne.
Lorsque les nuages de points sont scinds en plusieurs sous-nuages, il est possible de
rorganiser les donnes du tableau en ordonnant les coordonnes des lignes et des colonnes
fij
X Fs
s2S
(pi)Gs(j ) :
s
(4.19)
(Fs; Gs)
d'un mme rang. Elle dcompose ainsi la liaison des deux variables en
52
CHAPITRE 4.
les modalits
exprime une attirance, sinon elle exprime une rpulsion. L'attirance et la rpulsion seront
d'autant plus grande que la valeur absolue du produit
Puisque le tableau est approch, lorsqu'une partie seulement est considre pour l'analyse, il est important d'employer des indicateurs pour l'interprtation. Ceux utiliss pour
l'AFC sont les mmes que ceux de l'ACP que nous avons vu la section 3.4 du chapitre
prcdent. Nous pouvons donc tudier la qualit de reprsentation d'un lment par un
axe ou un plan. La qualit de reprsentation d'une ligne par un axe
rapport de l'inertie projete du point sur l'axe
fi Fs (i)2
;
fi d2 (GI ; i)
et la qualit de reprsentation d'une ligne par un plan dni par les axes
(4.20)
s et t est donne
par :
fi Fs (i)2
fi Ft (i)2
+
:
fi d2 (GI ; i) fi d2 (GI ; i)
(4.21)
La qualit de reprsentation d'un nuage par un plan est mesure par le rapport de
l'inertie projete du nuage sur l'axe
X
s2S
(4.22)
4.3.
53
INTERPRTATION
Enn la contribution d'un lment l'inertie d'un axe est mesure par le rapport de
l'inertie du point et de l'inertie du nuage. Lorsque l'lment est une ligne, la contribution
l'inertie d'un axe
fi Fs (i)2
;
s
et dans le cas d'un plan form des axes s et t :
(4.23)
(4.24)
Il est aussi possible, comme pour l'ACP, d'ajouter des lments supplmentaires, illustratifs qui sont projets sur les plans tudis. Leur utilisation pour l'AFC est plus frquente
que pour l'ACP, car il peut y avoir beaucoup de variables pour une tude donne qui ne
sont pas considres dans cette analyse. Les projections sur les axes factoriels des prolslignes ou des prols-colonnes de ces lments n'interviennent pas dans les calculs de ces
axes.
Pour une bonne interprtation des plans de projection en AFC, nous proposons de
suivre le plan suivant :
- Choisir le nombre d'axes de projection tudier. Ce choix peut se faire par la mme
approche que celle dcrite pour l'ACP.
- Etudier les valeurs propres. Les valeurs propres proches de 1 traduisent une forte
liaison entre les lignes et les colonnes.
- Etudier la contribution des lignes et des colonnes de la mme faon que pour l'ACP.
- Etudier les coordonnes des lments actifs :
- ceux qui prsentent une forte contribution,
- les extrmes avec une forte qualit de reprsentation (pour qualier le facteur).
54
CHAPITRE 4.
4.4 Conclusion
Nous rsumons l'AFC en neuf tapes illustres par la gure 4.7 :
- 1 : Cette premire tape donne le tableau de contingence des modalits communes
aux deux variables. Les lignes et les colonnes jouent des rles symtriques.
- 2 : Cette deuxime tape modie le tableau en frquences. Ces frquences font
apparatre des lois de probabilits.
- 3 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en divisant par
fj .
NI
centre de de gravit
GI
NI
HI . Le nuage NI
Le nuage
NJ
au centre de gravit
GJ
NJ
HJ . Le nuage NJ
NI
NJ
L'ACP et l'AFC sont direntes en plusieurs points, elles fournissent des clairages
complmentaires. L'AFC est une mthode puissante pour synthtiser et rsumer de vastes
tableaux de contingence. En pratique elle est applique beaucoup d'autres tableaux,
notamment les tableaux individus-variables. Les individus sont alors considrs comme
une variable.
Dans le cas de tableaux de contingence, le principal objectif de cette analyse est de
dgager les liaisons entre deux variables. L'analyse des correspondances multiples que nous
exposons dans le chapitre suivant permet l'tude des liaisons entre plus de deux variables.
4.4.
55
CONCLUSION
56
CHAPITRE 4.
Chapitre 5
Analyse des Correspondances Multiples
5.1 Introduction
L'AFC peut se gnraliser de plusieurs manires dans le cas o non plus deux variables
sont mises en correspondance, mais deux ensembles de variables. La gnralisation la plus
simple et la plus employe est l'analyse des correspondances multiples. Nous la notons dans
ce qui suit ACM. Cette analyse a particulirement t tudie par B. Escoer [EP90] et
J.P. Bezcri [Ben80b].
disjonctifs complets
des tableaux logiques pour des variables codes. Les proprits de tels tableaux font de
l'ACM une mthode spcique aux rgles d'interprtation des reprsentations simples.
Elle permet donc l'tude des liaisons entre plus de deux variables qualitatives, ce qui
tend le spectre d'tude de l'AFC.
L'ACM est donc trs bien adapte au traitement d'enqutes lorsque les variables sont
qualitatives (ou rendues qualitatives). Il est galement possible de n'appliquer cette mthode plusieurs fois en ne prenant en compte que quelques variables.
individus et
variables qualitatives. Une variable qualitative (ou nominale) peut tre dcrite par une
attribue une valeur chaque modalit. Par exemple les modalits pour la couleur d'un vin
peuvent tre 1 pour le rouge, 2 pour le blanc et 3 pour le ros. Les donnes peuvent donc
57
58
CHAPITRE 5.
Variables
Individus
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
xij
......
.
.
.
.
.
.
Tab. 5.1 Reprsentation des donnes sous forme de codage condens pour l'ACM.
xij
i pour la variable j .
= f 1; ; J g
et
xij
est le
donnes ne peuvent donc pas tre traites par l'ACP ou l'AFC prcdemment tudies.
Ce tableau prsente donc des spcicits dont l'analyse factorielle doit tenir compte par
une mthode spcique.
2
est galement
5.2.
59
PRINCIPE DE L'ACM
Variable 1
Individus
Variable
...............
1
.
.
.
.
.
.
Variable
J
K
...............
marge
.
.
.
.
.
.
xik
0100000
0000100
.
.
.
.
.
.
.
.
.
.
.
.
marge
J
I1
Ik
IK
Tab. 5.2 Reprsentation des donnes sous forme de codage condens pour l'ACM.
les modalits d'une mme variable, comporte la valeur 1 une fois (complet) et une fois
seulement (disjonctif ). Chaque modalit
jX
et galement l'ensemble des modalits de cette variable Kj = f1; ; Kj g. Ainsi K =
Kj est la fois le nombre des
Notons
Kj
X
k2Kj
xik = 1; 8(i; j );
i2I
j 2J
= f 1; ; K g
(5.1)
xik = J; 8i;
(5.2)
xik = Ik ; 8k;
(5.3)
k2K
60
CHAPITRE 5.
couleur
origine
apprciation
Individu 1
Individu 2
Individu 3
Individu 4
Individu 5
Individu 6
Individu 7
Individu 8
et
X
k2Kj
Ik = I; 8j:
(5.4)
Les proprits intressantes de l'ACM sont essentiellement dues aux proprits des
tableaux disjonctifs complets. Notons surtout que c'est un tableau binaire dont les lignes
sont de sommes constantes
Exemple 5.2.1
vons l'illustrer par un exemple. Nous supposons avoir des donnes issues d'une enqute
sur l'apprciation du vin. Nous pouvons considrer trois variables : la couleur, l'origine et
l'apprciation de l'individu. Nous reprenons les trois modalits rouge, blanc et ros pour la
couleur codes respectivement par 1, 2 et 3. Nous considrons uniquement deux origines :
Bordeaux et Cte du Rhne, codes par 1 et 2, et quatre modalits pour l'apprciation :
mauvais, moyen, bon et trs bon codes respectivement par 1, 2, 3 et 4. Nous avons ainsi
trois variables (
=3
) et neuf modalits (
=9
donns dans le tableau 5.3. Ainsi, par exemple l'individu 5 a moyennement apprci un
Bordeaux rouge. Le tableau disjonctif complet 5.4 dduit ce tableau initial prsente les
mmes informations. Ainsi, l'individu 5 prsente les modalits : rouge, Bordeaux, moyen.
=2
reprsentes sous la forme d'un tableau de contingence, comme dans l'AFC, mettant ainsi
en correspondance les modalits des deux variables. Il est possible d'tendre ce tableau
une hypertable de contingence lorsque
K2
et
K3 )
premire variable),
=3
cf.
gure 5.1), o
K1
(respectivement
et troisime) variable et
ds que
Iklm
(de la
5.2.
61
PRINCIPE DE L'ACM
Couleur
Origine
Apprciation
Ctes du
Trs
Rouge
Blanc
Ros
Bordeaux
Rhne
Mauvais
Moyen
Bon
Bon
Ind. 1
Ind. 2
Ind. 3
Ind. 4
Ind. 5
Ind. 6
Ind. 7
Ind. 8
J = 3.
tableau de Burt
blance
ressem-
est dtermine par le nombre de modalits en commun. Par exemple dans une
enqute d'opinion, il est important de mettre en vidence une classe d'individus dtermines par des variables. Pour l'tude des variables deux points de vue s'orent nous. Nous
pouvons caractriser les liaisons entre deux variables qualitatives en considrant les modalits, ou encore chercher rsumer l'ensemble des liaisons l'aide de quelques variables
numriques qui synthtisent l'ensemble des variables. Les catgories socio-professionnelles
peuvent ainsi rsumer une variable statut social. La richesse de l'ACM provient de l'tude
d'une troisime classe d'lments, les modalits. De la mme faon que les individus, nous
62
CHAPITRE 5.
Variable
1
..
.
.
.
.
..
.
.
.
.
.
.
..................
Ik
..
.
.
.
..
Ihk
.
.
.
K
marge
Variable
j0
Variable
.........
..
..
JIk
pouvons chercher tablir un bilan des ressemblances entre modalits. Les ressemblances
entre modalits peuvent tre dnies partir du tableau disjonctif complet, ou bien
partir du tableau de Burt. Dans le premier cas une colonne est une variable indicatrice,
ainsi deux modalits se ressemblent si elles sont prsentes ou absentes chez beaucoup
d'individus. Dans le cas du tableau de Burt, une ligne ou une colonne correspond une
classe d'individus, ainsi deux modalits se ressemblent si elles s'associent beaucoup ou peu
aux mmes modalits. Ces deux points de vue aboutissent aux mmes rsultats. L'ACM
peut donc tre vue comme une AFC du tableau disjonctif complet ou comme une AFC
du tableau de Burt.
La richesse apporte par ces trois lments, ne doit pas occulter l'unicit du tableau,
et donc des conclusions parfois redondantes. Il sera donc prfr l'tude des modalits en
priorit.
frquences (
fi =
X xik
k2K
IJ
= I1 ;
xik
. De plus les marges
IJ
(5.5)
5.2.
63
PRINCIPE DE L'ACM
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
xik
IJ.
......
.
.
.
.
.
Ik
IJ
marge
marge
et
fk =
X xik
IJ
i2I
ik
= IJ
:
(5.6)
Une fois les frquences calcules, il faut considrer le tableau en prols-lignes et prols-
cf.
colonnes (
pour les prols-lignes la marge des lignes soit 1 et pour les prols-colonnes la marge des
colonnes soit 1. Ainsi chaque case est compose respectivement de
xik
J
et
xik
.
Ik
NI
NI
HI
d'arrte
, puisque le
des individus. Si les deux individus prsentent globalement les mmes modalits, alors ils
se ressemblent. La distance qui caractrise cette ressemblance entre deux individus
i et l
64
CHAPITRE 5.
......
1
.
.
.
.
.
.
......
1
.
.
.
.
.
.
.
.
.
.
.
.
xik
J.
......
.
.
.
.
.
.
......
...
...
.
.
.
.
.
.
......
xik
Ik
...
...
.
.
.
.
.
.
.
.
.
k
.
.
.
.
.
.
.
.
......
d2 (i; l) =
IJ xik
I J
k2K k
X
xlk 2 1 X I
= J I (xik xlk )2 :
J
k2K k
(xik xlk )2 = 1 si un seul individu
(5.7)
possde la
Chaque modalit peut tre reprsente par le prol-colonne, c'est--dire par les valeurs
k est un point
Ik
constant de
(cf.
IJ
sur l'axe i. Ainsi le
prises par tous les individus pour la modalit considre. Ainsi une modalit
de l'espace IR
et a pour coordonne
NK
GK
xik
Ik
du nuage
sur l'axe
NK
Ik
avec un poids
a pour coordonne
Ik
, not
En notant que
(xik )2 = xik
s'crire :
d (k; h) =
2
(5.8)
I
I +i
Ik Ih k h
X
i2I
xik xih ;
(5.9)
5.2.
65
PRINCIPE DE L'ACM
NI
dans l'espace IR
ce qui est le nombre d'individus possdant une et une seule des deux modalits
multipli par
I
.
Ik Ih
ou
et
modalits. Ainsi, par construction, deux modalits d'une mme variable sont loignes
l'une de l'autre (puisqu'elles ne peuvent pas tre possdes par le mme individu). Deux
modalits possdes par exactement les mmes individus sont confondues, tandis que les
modalits rares sont loignes de toutes les autres et du centre de gravit
GK .
La reprsentation simultane
Il est possible, comme pour l'AFC, de reprsenter simultanment les deux nuages
et
NK
NI
grce la dualit existant entre ces deux nuages. Avec les notations donnes par
8
>
>
>
>
>
<
FS (i) =
>
>
>
>
>
:
1
GS (k) = p
p1
X xik
S k2K
GS (k)
X xik
S i2I
Ik
FS (i)
(5.10)
FS (i) reprsente la projection de la ligne i sur l'axe de rang S de NI , tandis que GS (k)
reprsente la projection de la ligne k sur l'axe de rang S de NK . S reprsente toujours
la valeur commune de l'inertie associe chacun de ces axes de rang S des nuages NI
et NK . Ces relations s'interprtent facilement car les xik ne prennent que les valeurs 0
1 prs, au barycentre des modalits que
ou 1. Ainsi FS (i) est plac au coecient p
S
o
66
CHAPITRE 5.
NK
dans l'espace IR .
FS (i)
et
GS (k),
5.3.
INTERPRTATION
67
5.3 Interprtation
Nous avons vu que deux individus se ressemblent s'ils prsentent globalement les
mmes modalits. Cette ressemblance se traduit par une proximit des individus dans
l'espace IR
multane. De mme si deux modalits d'une mme variable sont proches dans l'espace
68
CHAPITRE 5.
de projection, ceci se traduit par une ressemblance entre les groupes d'individus qui les
ont choisies. La proximit de deux modalits de variables direntes s'interprte en terme
d'
globalement les mmes individus. En fait ces modalits correspondent alors aux points
moyens des individus.
En ce qui concerne la proximit entre modalits et individus, l'interprtation peut se
faire en considrant les modalits comme barycentre de classe d'individus. Il est souvent
ncessaire de se reporter au tableau de donnes pour vrier les conclusions.
Nous rappelons que sur la reprsentation simultane, les nuages
NI
et
NK
ne sont pas
dans les mmes espaces. Il est donc important d'avoir recours des indicateurs sur la
qualit de reprsentation. Les indicateurs pour l'interprtation de l'ACM sont les mmes
que ceux de l'ACP et de l'AFC dj donns, ici pour les individus et les modalits. Ainsi
nous pouvons tudier la qualit de reprsentation de chaque individu et de chaque modalit
par un axe ou par un plan. La contribution d'un individu ou d'une modalit l'inertie
d'un axe ou d'un plan doit aussi tre considre. La notion de variable doit galement
tre prise en compte. Ainsi la contribution d'une variable l'inertie d'un axe peut tre
obtenue en sommant les contributions des modalits de cette variable l'inertie du mme
axe. Nous obtenons ainsi un indicateur de liaison entre la variable et le facteur.
tre des variables (et leurs modalits) ou bien des individus. Les variables supplmentaires
permettent d'enrichir l'interprtation des axes sans avoir participes leur construction.
Une variable supplmentaire couramment employe est la variable qualitative obtenue
par la classication hirarchique (
l'analyse peuvent tre situs par rapport aux individus actifs, ou des groupes d'individus
actifs dans une optique de discrimination.
Il est aussi courant de regrouper les modalits de faible eectif (qui n'ont pas de
signication statistique) pour ensuite les reprsenter en tant qu'lments supplmentaires.
An de ne rien oublier pour l'interprtation des rsultats, nous proposons de suivre le
plan suivant :
- Dnir le nombre de modalits des variables quantitatives, s'il y a des variables
quantitatives intressantes pour l'tude.
- Choisir le nombre d'axes de projection. Ce choix se fait toujours de la mme faon
que pour l'ACP ou l'AFC.
- Etudier les valeurs propres qui reprsentent l'inertie de chaque axe.
- Etudier la contribution des lignes et des modalits de la mme faon que l'ACP.
- Etudier la contribution des variables en sommant les contributions des modalits
d'une variable pour un facteur donn.
- Etudier les coordonnes des modalits et des individus actifs.
- Etudier les coordonnes des variables, des modalits et des individus supplmentaires
s'il y en a.
5.4.
69
CONCLUSION
5.4 Conclusion
Pour conclure ce chapitre, commenons par rsumer l'ACM en dix tapes illustres
sur la gure 5.5 :
- 1 : Cette premire tape donne le tableau des donnes une fois que les variables
qualitatives sont codes de manire condense. Les lignes reprsentent les individus
et les colonnes les variables.
- 2 : Cette deuxime tape transforme le tableau de l'tape prcdente en tableau
disjonctif complet. Les lignes reprsentent toujours les individus, mais prsent les
colonnes reprsentent les modalits. Cette deuxime tape peut galement tre la
transformation du tableau de Burt. Dans ce cas, il y a symtrie entre les lignes et
les colonnes qui reprsentent une classe d'individus.
- 3 : A partir de cette tape nous appliquons l'AFC. Nous transformons le tableau
disjonctif complet en frquences.
- 4 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en multipliant par
IJ
. Ces colonnes sont appeles prol-colonnes.
Ik
K
6 : Les prols-lignes qui constituent le nuage NI sont projets dans l'espace IR . Le
nuage NI se situe dans un hypercube HI .
I
7 : Les prols-colonnes qui constituent le nuage NK sont projets dans l'espace IR .
Le nuage NK se situe dans un hypercube HK .
NI
NK
L'ACM est donc une analyse factorielle qui permet l'tude de plusieurs variables qualitatives, de ce fait elle est une gnralisation de l'AFC. Elle est donc applicable aux
tableaux de variables qualitatives, mais aussi quantitatives aprs construction de classes
partir de celles-ci. Le fait de pouvoir interprter l'ACM de plusieurs faons rend cette
mthode trs riche et d'emploi facile. Elle peut tre trs complmentaire de l'ACP et bien
sr des mthodes de classication.
70
CHAPITRE 5.
a priori
sur les
classes. Nous allons tudier ces deux types de classication dans les chapitres suivants.
5.4.
71
CONCLUSION
72
CHAPITRE 5.
Chapitre 6
Analyse Factorielle Discriminante
6.1 Introduction
L'analyse factorielle discriminante est une des nombreuses mthodes de l'analyse discriminante. Sous ce nom sont regroupes des mthodes de classication qui ncessitent une
connaissance des classes prexistantes. Dans le domaine de la reconnaissance des formes
c'est ce qui est appel classication supervise ou encore apprentissage supervis. Parmi
ces mthodes peuvent tre compts la rgression logistique (mthode semi-paramtrique),
les
k-plus proches voisins, les arbres de dcisions (mthode non paramtrique qui favorise
discrimination
classement
rgression logistique
d'appartenance
une
consiste
classe
p(C=x)
exprimer
comme
les
une
probabilits
fonction
de
[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe,
dterminer les coecients
ln
a posteriori
l'observation
i.e.
qu'il faut
tels que :
p(C=x)
1 p(C=x)
= 0 +
d
X
i=1
i xi :
(6.1)
Il est donc ncessaire d'estimer les paramtres des lois de probabilit, en supposant connue
cette loi. Selon la loi retenue, il est possible de traiter des variables quantitatives, ou
73
74
CHAPITRE 6.
binaires. La fonction de discrimination est ainsi dnie, pour le classement d'un nouvel
individu, la rgle baysienne peut tre applique.
classication baysienne est une autre approche probabiliste qui suppose connues les
probabilits a priori et les distributions des probabilits d'appartenance chaque classe.
La
Dans ce cas c'est une mthode optimale. En pratique, ces probabilits sont estimes
partir de donnes d'apprentissage. Nous prsentons brivement cette mthode trs utilise
en classication, comme mthode de classement de l'analyse factorielle discriminante la
section 6.2.2.
Les
arbres de dcision
tue sur les donnes d'apprentissage, puis l'tape de classement peut tre ralis pour de
nouveaux individus. L'ide de la construction est simple, et se dcompose comme suit :
- chercher la variable qui produit la meilleure division (par exemple celle qui donne
la variance intraclasse la plus faible),
- diviser en deux nuds intermdiaires, les individus selon cette variable,
- chercher les variables qui produisent les meilleurs divisions des nuds intermdiaires,
- poursuivre ainsi jusqu' n'obtenir que des nuds terminaux.
Cependant l'arbre optimal est dicile dterminer. En eet, il faut dnir un critre de
division, un critre d'arrt
i.e.
mdiaire. De plus la complexit est importante pour des arbres plus de deux branches
i.e.
des arbres qui ne sont pas binaires). En outre, elle est dicilement gnralisable
Classication And Regression Tree ) qui est un cas particulier des arbres binaires possde
une construction d'arbres aux proprits intressantes pour la segmentation qui rsout en
partie ces problmes [BFRS93].
L'approche des
d'apprentissage les plus proches au sens d'une certaine distance). C'est donc une approche gomtrique. Nous prsentons plus en dtails cette approche, comme mthode de
classement de l'analyse factorielle discriminante la section 6.2.2.
L'analyse factorielle discriminante est une mthode descriptive et prdictive fonde
sur un modle paramtrique. Elle est galement appele analyse linaire discriminante
factorielle discriminante, et nous utilisons l'abrviation AFD. En eet, cette mthode peut
tre vu comme une analyse factorielle, car son aspect descriptif fait appel des calculs
d'axes principaux. C'est une mthode avant tout prdictive qui discrimine les individus
selon des classes connues. Son aspect prdictif de classement de nouveaux individus peut
en fait faire appel d'autres mthodes de classication gomtriques ou probabilistes.
L'analyse factorielle discriminante peut galement tre vu comme une analyse canonique particulire ou encore comme une extension de la rgression multiple prsente par
exemple dans [LMP95].
6.1.
75
INTRODUCTION
Variables
Individus
......
......
y
1
1
.
.
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
xik
Fonctions
......
.
.
.
.
.
.
discriminantes
Q
Observations
Aectation
stables, i.e.
peu dpendants
considre comme une approche de rfrence laquelle sont souvent compares les autres
mthodes.
variables et rpartis en
Q classes donnes par la variable nominale y (cf. tableau 6.1). Les Q classes sont a priori
connues. La variable nominale y possde donc Q modalits. I reprsente la fois le nombre
d'individus et l'ensemble des individus I = f1; ; I g, K reprsente la fois le nombre de
variables et l'ensemble des variables K = f1; ; K g, et Q reprsente la fois le nombre
de modalits de la variable y et l'ensemble Q = f1; ; Qg. xik est la valeur de la variable
k pour l'individu i.
76
CHAPITRE 6.
l'chantillon d'apprentissage,
dont les valeurs sparent
discrimination
des classes.
- Le second objectif consiste dterminer la classe de nouveaux individus pour lesquels nous observons les valeurs des
aectation d'un nouvel individu dans une classe. Il s'agit d'un problme de
classement par opposition au problme de classication qui est la construction de
tape d'
Exemple 6.1.1
ce service sont rencontres essentiellement cinq pathologies. Il est ais de raliser une vingtaine d'examens et des analyses peu coteuses. Cependant pour dterminer une des cinq
pathologies il est ncessaire d'entreprendre des interventions trs coteuses. Les donnes
sont ainsi constitues de 500 individus et 20 variables, de plus la variable nominale
y est
l'espace IR
. Notons
NI
6.2.
77
PRINCIPE DE L'AFD
de la classe
dans IR
, et
NI
X
gq = I1 xi:
q i2I
q
(6.2)
X
B = I1 Iq (gq G)(gq G)t;
q2Q
(6.3)
et la matrice de covariance intraclasse qui est la somme pondre des covariances interclasses est donne par :
XX
(xi gq )(xi gq )t:
W = I1
q2Q i2Iq
(6.4)
V = B + W:
(6.5)
La gure 6.2 illustre cette proposition. Le mme nuage est reprsent deux fois en reliant
les points pour le calcul de la covariance totale gauche et de la somme des covariances
interclasse et intraclasse droite.
78
CHAPITRE 6.
Preuve
vkk0 =
1 X(x
I i2I
Gk )(xik0
ik
1 X X(x
Gk 0 ) =
I q2Q i2Iq
ik
Gk )(xik0
Gk = xik :
I
Gk0 );
(6.6)
(6.7)
Or
(xik
Gk ) = (xik
gqk ) + (gqk
Gk );
(6.8)
X
i2Iq
(xik
gqk )(gqk0
Gk 0 ) =
X
i2Iq
(gqk
Gk )(xik0
gqk0 ) = 0:
(6.9)
Donc uniquement deux des quatre termes de la partie droite de l'quation (6.6) sont non
nuls et nous pouvons crire :
bkk0 =
et
wkk0 =
1 X I (g
I q2Q
qk
1 X X(x
I q2Q i2Iq
ik
Gk )(gqk0
gqk )(xik0
(6.10)
Gk0 );
gqk0 );
(6.11)
(6.12)
6.2.
79
PRINCIPE DE L'AFD
Q centres de gravit sur ces axes doivent tre les plus loignes, tan-
dis que les projections de chaque sous-nuage sur ces axes doivent tre les plus regroupes
autour des projections des centres de gravit.
La marche suivre est identique celle d'une analyse factorielle. La premire combinaison linaire est donc celle qui maximise la variance interclasse et minimise la variance
intraclasse. Puis, la deuxime combinaison linaire est celle qui est non corrle la premire et qui discrimine au mieux les classes au sens du mme critre (maximisation de la
variance interclasse et minimisation de la variance intraclasse). Les autres combinaisons
linaires sont dtermines de la mme faon. Ces combinaisons linaires sont appeles
X
k2K
ak (xik
gqk ):
La variance de la variable
i2I
i2I
k2K
ou encore
XX X
ak ak0 (xik
var(a) = I1
La variance de
i2I k2K k0 2K
t
est donc
gqk )(xik0
a Va.
gqk0 ) =
(6.13)
#2
gqk ) ;
XX
k2K k0 2K
(6.14)
ak ak0 vkk0 :
(6.15)
Ba = Va;
(6.18)
et lorsque la matrice
(6.19)
80
CHAPITRE 6.
Remarque
avec :
ckq =
Et posons :
Iq
(g
I qk
Gk ):
(6.21)
a = V 1Cv:
(6.22)
non sans importance de dtection (et non plus de classication). Dans ce cas, il n'y a donc
qu'un seul axe factoriel discriminant
gravit des deux classes
o le vecteur
(6.24)
ou encore :
I1 I2
(g
I 1
g2):
(6.25)
V 1ccta = a;
(6.26)
(6.27)
= ct V
c;
(6.28)
a = V 1 c:
(6.29)
est appele distance gnralise entre les deux classes ou encore distance de Mahalanobis .
Dans ce cas de deux classes, l'AFD est quivalente la rgression multiple [LMP95].
L'AFD peut aussi tre vue comme une ACP des centres de gravit
avec une pondration pour ces individus donne par la mtrique
gq de chaque classe
6.2.
81
PRINCIPE DE L'AFD
La reprsentation
Comme les autres mthodes factorielles, il est possible de reprsenter les individus dans
les plans factorielles discriminants. Il est aussi possible comme pour l'ACP de reprsenter
les variables en traant le cercle de corrlation des
variables.
s
:
s
(6.30)
s2S
Iq
I
atsV 1gq
2
Iq 1
I s
(6.31)
atsV 1gq
2
(6.32)
Dans une optique de classication, la qualit de la discrimination peut tre dnie par
le rapport du nombre d'individus bien classs par le nombre total d'individus. Ce critre
reste classique.
6.2.2 L'aectation
Lorsque les fonctions discriminantes ont t dtermines, nous souhaitons trouver la
classe d'aectation d'un nouvel individu. Il existe plusieurs rgles d'aectation (ou de
classement) d'un nouvel individu
i0
q.
i0
dcrit par le
d2e (xi0 ; gq ) =
X
k2K
(xi0k
gqk )2 :
(6.33)
82
CHAPITRE 6.
zr = utr (xi0
G) ;
(6.34)
G est le centre de gravit du nuage NI dni par le vecteur (Gk )k=1;::;K , r dsigne
ime
l'axe principal issu de l'analyse, et ur est le r
vecteur propre normalis de la
matrice des covariances totales V, dnie prcdemment, correspondant la valeur
o
propre
rX
max
r=1
(6.35)
G), rmax est le nombre de valeurs propres retenues, qui peut tre
ici le rang de la matrice X des donnes initiales.
0
La distance du nouvel individu i dcrit par le vecteur xi0 au centre de gravit gq
1
du sous-ensemble des individus Iq dans la mtrique V
(i.e. sous la condition :
t
u Vu = 1) est :
o
zqr = ut (gq
deV
2
(xi0 ; gq ) =
rX
max
r=1
(zr zqr )2 :
r
(6.36)
i0 au centre de gravit
dMl (xi0 ; gq ) =
2
t (g
wqs = vqs
q
smax
X(q)
s=1
(wsq wqs)2 ;
sq
(6.38)
sous-nuage d'individus
Iq .
6.2.
83
PRINCIPE DE L'AFD
Distance du
2
La distance du
sxk =
donc :
X
i2I
xik , sxi0
X
k2K
xi0 k
et
s
k2K xk
sgq
d2 (xi0 ; gq ) =
2
rX
max
r=1
k2K
xi0 k
sxi0
2
(6.39)
gqk
sgq
szr
zqr
szq
zr
sz
2
(6.40)
dM (x
positif :
g )=
i0 ; q
X
k2K
xi 0 k
!1
gqk j
(6.41)
dM (xi0 ; gq ) =
rX
max
r=1
jzr zqr j
!1
(6.42)
dT (xi0 ; gq ) = max
jzr
r
zqr j:
(6.43)
) ou locale (mtrique
Wq 1, o
84
CHAPITRE 6.
i0
au sous-nuage d'individus
Iq le plus reprsent dans son voisinage. Le voisinage est tendu jusqu' ce qu'il contienne
k individus. Ainsi notons :
Kq (i0 ) = card fi 2 I
tel que
i 2 Iq ; i 2 Vk (i0 )g ;
(6.44)
Vk (i0 ) dsigne le voisinage de l'individu i0 form par k individus. Cet ensemble peut se
formaliser pour k = 1 par :
o
Vk (i0 ) = Vk (i0 ) [ fi 2 I r Vk
(6.45)
k quelconque :
1 tel que
(6.46)
Nous voyons que la aussi la dnition d'une distance adquate est importante. Il est
possible d'employer une des distance prcdemment prsentes.
La dcision est alors prise en cherchant le maximum de
aect la classe
argmax Kq (i0)).
q2Q
k plus proches
voisins ous.
Cette approche trs coteuse donne de bons rsultats. C'est pourquoi elle sert souvent
de mthode de comparaison en reconnaissance des formes avec d'autres approches moins
coteuses.
Ce type d'aectation ne prend cependant pas en compte les probabilits
a priori
de
chaque classe.
Approche baysienne
Cette approche probabiliste simple consiste aecter l'individu
dividus
Iq
i0 au sous-nuage d'in-
nous avons :
P (Iq =i0 ) =
(6.47)
q0 2Q
Il sut alors de maximiser
connatre les probabilits
tre estimes, mais il faut alors tre sr de la capacit de gnralisation des donnes
d'apprentissage. Il faut de plus estimer la probabilit
- soit une estimation partir des frquences et dans ce cas il faut encore tre sr de
la capacit de gnralisation des donnes d'apprentissage,
6.3.
85
CONCLUSION
a priori P (Iq )
locale (
6.3 Conclusion
L'AFD est une mthode trs utilise de nos jours. Sa simplicit de mise en uvre fait
que nous la retrouvons dans de nombreux logiciels. Elle est adquate pour la reprsentation
des donnes dans des espaces qui discriminent au mieux les individus selon des classes
connues. Cette reprsentation permet de dgager des informations partir d'un grand
nombre de donnes souvent dicile interprter. Elle permet galement l'aectation de
nouveaux individus dans les classes existantes. Il est alors possible de rendre la mthode
adaptative pour tenir compte de ces nouvelles observations.
Il peut s'avrer trs enrichissant de l'employer en complment d'une autre analyse
factorielle telles que l'ACP ou l'ACM.
86
CHAPITRE 6.
Chapitre 7
Classication
7.1 Introduction
La classication sans
a priori
taxonomie littralement la
science des lois de l'ordre [Ben80a]. Les mthodes de classication font parties intgrante
de l'analyse de donnes. Dans le domaine de la reconnaissance des formes elle porte le
clustering, les
classes tant des clusters. Le terme anglais classication dsigne davantage classement i.e.
le fait d'aecter des objets des classes prdnies, voire analyse de donnes en gnral.
87
88
CHAPITRE 7.
Variables
Individus
......
1
.
.
.
.
.
.
......
CLASSIFICATION
.
.
.
.
.
.
......
.
.
.
.
.
.
xik
......
.
.
.
.
.
.
dcrite par le
tableau 7.1, o
xik
Les variables peuvent tre quantitatives continues ou issues de tableaux de contingences, ou binaires issues de tableaux logiques, ou encore qualitatives. An de traiter
l'ensemble de ces types de variables, c'est la mesure de similarit ou dissimilarit qui doit
tre adapte aux types de donnes. En eet, nous nous doutons qu'il est important de
dnir une mesure de similarit pour regrouper des lments ou de dissimilarit pour les
loigner. Une mesure de similarit ou de dissimilarit est une distance l'exception que
l'ingalit triangulaire n'est pas exige. Ces mesures peuvent tre des distances dans le cas
de variables quantitatives. Ainsi, il est prfrable d'employer une distance euclidienne, de
Mahalanobis ou de Minkowsky pour les variables quantitatives continues et une distance
du
2
a
par Jaccard,
a+b+c
a
par Russel et Rao,
a+b+c+d
2a par Dice,
2a + b + c
7.1.
INTRODUCTION
89
a
par Sokal et Sneath,
a + 2(b + c)
a+d
par Sokal et Michener,
a+b+c+d
a
a
+
par Kulzinsky,
a+b a+c
a+d
par Rogers et Tanimoto,
a + d + 2(b + c)
ad bc
par Yule,
ad + bc
jad bcj
[(a + b)(c + d)(a + c)(b + d)]2 par Pearson,
a
[(a + b)(c + d)(a + c)(b + d)]2 par Ochia.
90
CHAPITRE 7.
CLASSIFICATION
Nous nous contentons ici de prsenter deux mthodes, deux algorithmes, les plus utiliss et qui se retrouvent dans la plupart des logiciels de statistiques. Nous prsentons une
mthode conduisant des partitions, la mthode des centres mobiles la section 7.2, puis
une mthode conduisant des hirarchies, la classication hirarchique la section 7.3.
miques dveloppe par E. Diday [CDG 89]. Cette mthode d'un formalisme trs simple
n'en est pas moins trs ecace pour de vastes tableaux de donnes. Elle est de plus rapide,
mais cependant pas toujours optimale.
La mthode des centres mobiles est fonde sur une mthode de partitionnement directe
des individus connaissant par avance le nombre de classes attendues.
d.
NI
dans l'espace IR
Cette distance
muni
cf. section 7.1.2). En pratique, il s'agit souvent de la distance eucli2 qui est implmente. Supposons de plus, que nous souhaitons partitionner
NI en Q classes avec Q I .
- tape 0 : Nous choisissons Q individus dans le nuage NI qui constituent Q centres
provisoires des Q classes. Le choix de ces centres est important pour la rapidit de
la convergence, et les connaissances a priori doivent ici tre mises prot, s'il y en
a. Dans le cas contraire, le plus courant, il sut de tirer alatoirement ces centres
par un tirage sans remise. Notons par
0
0
0
;
:::;
C
;
:::;
C
C
q
1
Q
0
0
0
I1 ; :::; Iq ; :::; IQ
0
en Q classes. Un individu i appartient au sous-nuage Iq
NI des individus
0
s'il est plus proche de Cq
du nuage
que de tous les autres centres. Dans un espace deux dimensions, les sous-nuages
sont dlimits deux deux par des droites mdiatrices des centres des sous-nuages,
c'est ce qui est applel
intervient.
- tape 1 :
diagramme de Vorono.
nouveaux centres
intervient de nouveau ici. Ces nouveaux centres induisent une nouvelle partition
La convergence de l'algorithme est garantie [LMP95]. Le critre d'arrt est celui de deux
partitions identiques. D'autres critres permettent d'augmenter la rapidit. Par exemple,
7.3.
91
LA CLASSIFICATION HIRARCHIQUE
nous pouvons cesser les itrations lorsque la variance intraclasse de toutes les classes est
susamment faible, ou encore lorsqu'un nombre d'itrations dni
Cette algorithme est illustr sur la gure 7.1 dans le cas o
centre obtenu est le plus proche. L'tape 1 prsente les nouveaux centres et les sous-nuages
dont ils sont les centres de gravit. De nouveau, l'tape 2 fournit les centres de gravit
des nouveaux sous-nuages
I12 et I22 .
De nombreux algorithmes sont fonds sur un principe similaire. Les deux principaux
sont les nues dynamiques et les
des nues dynamiques se situe au niveau de la raectation des individus chaque classe.
Aprs avoir dtermin les centres de gravit, un
comme tant l'individu le plus proche du centre de gravit de chaque classe. La raectation se fait alors en fonction de la distance des autres individus aux noyaux de chaque
classe. Ce formalisme a permis plusieurs gnralisations de la mthode.
La mthode des
k-means aprs avoir choisi une premire fois les centres mobiles, recal-
cule le centre de chaque classe ds lors qu'un individu y est aect. La position du centre
est donc modie chaque aectation, ce qui permet d'avoir une bonne partition en peu
d'itrations. D'autres algorithmes sont prsents par exemple dans [Ben80a].
92
CHAPITRE 7.
CLASSIFICATION
- les algorithmes ascendants : la construction des classes se fait par des agglomrations
successives des lments deux deux,
- les algorithmes descendants : la construction des classes se fait par dichotomies
successives de l'ensemble des lments.
Ces deux approches conduisent une hirarchie des partitions des lments. La seconde approche est beaucoup moins employe que la premire, nous prsentons donc ici
la premire approche.
Mthodes d'agrgation
Supposons que le nuage initial, par exemple
(ou d'une mesure de similarit ou dissimilarit)
ou des groupes d'individus repose sur des rgles de calcul des distances entre ces classes
(individus ou groupes d'individus) disjointes, appeles
Soit
x, y
et
x et y
critre d'agrgation.
h,
saut minimal
saut maximal
(7.1)
moyenne
d(h; z ) =
- distance
(7.2)
d(x; z ) + d(y; z )
d(h; z ) =
et
ny
(7.3)
le nombre d'individus de
nx d(x; z ) + ny d(y; z )
:
nx + ny
x et y :
(7.4)
Ces mthodes d'agrgation ont l'avantage de conduire des calculs simples et possdent des proprits mathmatiques intressantes. Cependant, les rsultats ne sont pas
toujours bons. En particulier, la distance du saut minimal peut entraner des
chane,
eets de
illustrs sur la gure 7.2. Sur le nuage de points reprsent sur cette gure, les
7.3.
93
LA CLASSIFICATION HIRARCHIQUE
de Ward. La solution au problme voqu ci-dessus est donc de considrer les lments prenons les individus - comme un nuage de points
NI
I = Iintra + Iinter :
(7.5)
Reprenons la gure 7.3 illustrant cette proposition. Le mme nuage est reprsent deux
fois en reliant les points pour le calcul de l'inertie totale gauche et de la somme des
inerties interclasse et intraclasse droite. Considrons que chaque individu
est muni
94
CHAPITRE 7.
d'une masse
CLASSIFICATION
I=
o
X
q2Q
mq d2(gq ; G) +
XX
q2Q i2Iq
NIq
et
mid2(xi; gq );
(7.6)
Ainsi la qualit globale d'une partition est lie l'homognit interne des sous-nuages
et donc galement l'loignement des sous-nuages. Par exemple, la gure 7.4 illustre deux
partitions en deux sous-nuages, celui de gauche avec une inertie intraclasse faible, celui
de droite avec une inertie intraclasse leve.
Ps une partition ps
1.
7.3.
95
LA CLASSIFICATION HIRARCHIQUE
bb
:
c = mmaa ++ m
m
a
(7.7)
L'inertie interclasse de
or l'inertie de la partition
et celle de la partition
Is
=I
inter(c)
intra(a)
I
inter(ab)
En remplaant
1 par :
+I
I
=I
(7.9)
+I
intra(b)
= mcd2(c; G) + I
intra(a)
inter(Ps )
+I
intra(b)
Ps
(7.10)
la partition
Ps
(7.11)
inter(Ps 1 )
I
+I
, nous obtenons :
(7.12)
inter
a et b d'une
Algorithme
L'algorithme de classication hirarchique ascendante est simple et facile programmer. Son droulement suit les tapes suivantes :
- tape 1 : Nous considrons le nuage
NI
PI
de
lments.
i.e.
PI
individus.
((I 1) (I 1))
des distances,
puis nous recherchons les deux nouveaux lments agrger. L'agrgation des deux
lments fournit une partition
individus.
96
CHAPITRE 7.
CLASSIFICATION
=5
individus.
Nud
(6)
(7)
(8)
(9)
benjamin
(1)
(2)
(6)
(8)
an
(3)
(5)
(4)
(7)
eectif
(m 1)) (I (m 1)))
des distances,
puis nous cherchons agrger deux lments jusqu' ce qu'il n'en reste plus qu'un
qui constitue la dernire partition
P1 .
NI de cinq individus
rarchique
galement appel
dendrogramme
arbre hi-
de dissimilarit (
Vocabulaire li au dendrogramme
- Les
lments terminaux
an et benjamin. L'arbre de la gure 7.7 peut ainsi tre dcrit par le tableau 7.2.
- L'agrgation repose sur les ingalits des distances entre elles. Nous pouvons obtenir
le mme classement en des couples d'lments en classant ces couples par ordre
croissant des distances. Un tel classement est appel
ordonnance.
7.3.
97
LA CLASSIFICATION HIRARCHIQUE
hirarchie peut tre dcrite par une famille H d'lments de I telle que :
I 2 H , fig 2 H 8i 2 I ,
8A, B 2 H , A \ B 2 fA; B; ;g i.e. deux classes sont soit disjointes, soit l'une est
- La
-
- Une
(7.13)
La hirarchie est gnralement indice par les valeurs des distances (ou indices de
dissimilarit) correspondant chaque tape d'agrgation.
- En coupant l'arbre par une droite horizontale, nous obtenons une
hirarchie donne ainsi une chane de
partitions de 1
partition.
Une
classes.
Les hirarchies indices ont une proprit particulirement intressante, car elle peuvent
tre vues comme un ensemble muni d'une
une distance
x = y , d(x; y) = 0, 8x; y 2 NI ,
- d(x; y ) = d(y; x),
8x; y 2 NI (relation de symtrie),
- d(x; y ) d(x; z ) + d(y; z ),
8x; y; z 2 NI (ingalit triangulaire).
Cette distance d est une ultramtrique si elle vrie une condition plus forte que l'ingalit
triangulaire donne par d(x; y ) max(d(x; z ); d(y; z )) 8x; y; z 2 NI . La distance du saut
minimal est la plus grande ultramtrique infrieure la mtrique d initiale.
-
98
CHAPITRE 7.
CLASSIFICATION
7.3.2 Interprtation
L'interprtation repose essentiellement sur la lecture du dendrogramme. Elle devient
problmatique lorsque le nombre d'individus est trs important. Elle doit se faire de haut
en bas an d'examiner d'abord les partitions qui possdent peu de classes, pour ensuite
entrer dans des considrations plus dtailles. Nous cherchons, essentiellement la partition
qui prsente le plus d'intrt. Pour cela, il faut chercher construire des classes homognes.
Une bonne partition,
i.e. une bonne coupure de l'arbre, doit comporter peu de classes avec
une inertie intraclasse faible et une inertie interclasse leve. Pour le choix de la coupure,
nous pouvons galement nous aider de la courbe des indices. Ainsi nous devons rechercher
le nud aprs lequel il y a une perte d'indice importante. Ceci peut galement se lire sur
le dendrogramme.
Exemple 7.3.1
Kendall, Stuart et Grin en 1963. Ces donnes sont composes d'chantillons de sol dcrits
par cinq variables sur leur composition : sable, limon, argile, matire organique, pH. La
gure 7.8 prsente le dendrogramme obtenu par 'approche de Ward, tandis que la gure
7.9 prsente la courbe des indices. Nous constatons partir de ces deux gures qu'une
coupure en cinq classes fournit des classes homognes et loignes des autres classes. De
plus, cette coupure est conforte par le taux de variance intraclasse qui est de 22,3%, alors
que le taux de variance interclasse est de 77,7%.
i.e.
classes obtenues. Pour ce faire il faut trouver les variables reprsentatives de chaque classe,
pour ensuite interprter ces classes partir des variables explicatives. Deux indicateurs
sont essentiellement employs pour cette interprtation :
7.3.
99
LA CLASSIFICATION HIRARCHIQUE
Fig. 7.9 Courbe des indices sur les donnes de composition du sol.
- l'
individus,
- la
variance du diple
nud tudi.
Nous avons une excentricit forte pour une classe lorsque celle-ci est loigne du centre
de gravit
donc plus elle est porteuse de sens et mrite d'tre exploite. La mesure de l'excentricit
q est donne par : d2 (gq ; G). Il est intressant d'tudier la contribution relative
de la variable classiante l'excentricit de la classe q donne par :
de la classe
Cork (q) =
o
gqk
gqk
2
d2 (gq ; G)
(7.14)
variable
Cette tude peut se faire par la variance. Ainsi un diple allong dans la direction du
100
CHAPITRE 7.
Iq
CLASSIFICATION
Codk (q) =
(ak
bk )2
:
d2 (a; b)
(7.15)
A l'aide de l'excentricit, nous pouvons ainsi tudier pourquoi les individus sont regroups dans la classe tudie, et pourquoi les nuds an et benjamin sont spars.
7.4.
101
CONCLUSION
- Il est de plus intressant de faire un tableau rcapitulatif donnant pour chaque classe
les individus qui y appartiennent, ainsi que les variables qui caractrisent chaque
classe. Ce tableau permet de rsumer simplement l'ensemble de l'interprtation.
7.4 Conclusion
Nous avons dans ce chapitre prsent uniquement deux mthodes (ou famille de mthodes) de classication : la mthode des centres mobiles et la classication hirarchique
ascendante. Les mthodes de classication sont cependant trs nombreuses. Il existe entre
de la mthode des centres mobiles et de la classication hirarchique. Elle est particulirement bien adapte aux tableaux de donnes comportant des milliers d'individus, pour
lesquels le dendrogramme est dicile lire. Les tapes de l'algorithme sont les suivantes :
- Une premire tape consiste appliquer la mthode des centres mobiles de faon
obtenir une partition de quelques dizaines, voire quelques centaines de groupes
homognes.
- Ensuite, la classication hirarchique est applique sur ces groupes. Le dendrogramme et la courbe des indices permet de dnir le nombre de classes nales
retenir.
- Une fois ce nombre dtermin, an d'optimiser la classication, la mthode des
centres mobiles est de nouveau applique l'ensemble des individus de dpart pour
obtenir une partition correspondant celle trouve par le dendrogramme. Dans cette
dernire tape les centres mobiles initiaux peuvent tre considrs comme tant les
barycentres des classes issues de la partition ralise par la classication hirarchique
an d'obtenir une convergence plus rapide.
La classication est une phase importante de l'analyse des donnes. Il est prfrable
de l'employer en complment des analyses factorielles (particulirement la classication
ascendante hirarchique qui utilise la mthode de Ward pour l'agrgation). Il est conseill
d'appliquer la classication aprs les analyses factorielles. Cependant, les classes peuvent
constituer des variables supplmentaires dans l'ACP, l'AFC ou encore l'ACM.
102
CHAPITRE 7.
CLASSIFICATION
Glossaire
Indications historiques
- Bayes (Thomas) 1702-1761 : mathmaticien anglais, il tablit la relation liant les
probabilits conditionnelles aux probabilits
a priori.
- Benzcri (Jean-Paul) : mathmaticien franais, il est l'inventeur de l'analyse factorielle des correspondances (AFC) et le fondateur de l'cole franaise d'analyse des
donnes. Il s'intressa en particulier aux donnes textuelles.
- Burt (Sir Cyril) 1883-1971 : psychologue britannique, innovateur certain d'un point
de vue mthodologique en analyse de donnes, il est surtout connu pour ses fraudes
scientiques et ses falsications d'observations.
- Huygens (Christiaan) 1629-1695 : galement orthographi Huyghens, exprimentateur et thoricien nerlandais, il proposa un trait sur le calcul des probabilits. En
mcanique, il dveloppa la thorie du pendule qu'il appliqua pour rguler les mouvements d'horloges, et s'intressa au problme du choc par la quantit de mouvement.
- Mahalanobis (Prasanta Chandra) 1893-1972 : physicien et mathmaticien indien, il
s'intressa beaucoup aux statistiques. Il est surtout connu pour la distance qui porte
son nom. Il tudia les analyses graphiques des fractiles (quantiles), et les statistiques
D-square,
103
104
GLOSSAIRE
105
RAPPEL DE DFINITIONS
Rappel de dnitions
- Aectation : c'est une tape de classement.
- Caractres : donnes caractrisant les individus.
- Caractre qualitatif : le caractre n'est pas mesurable.
- Caractre qualitatif pur ou variable nominale : les modalits ne possdent pas
de structure d'ordre.
- Caractre qualitatif ordonn ou variable ordinale : les modalits qualitatives
sont ordonnes.
- Caractre quantitatif : le caractre est mesurable, on y associe le nom de variable
statistique (numrique).
- Variable
discrte
les
valeurs
prises
par
la
variable
sont
des
valeurs
ponctuelles.
- Variable continue : les valeurs prises par la variable sont numriques d'un intervalle donn.
- Classement : attribution d'lments dans une classe prexistante.
- Classication : construction des classes les plus homognes possibles dans un chantillon.
I individus dcrits
K variables et xik une donne du tableau i = 1; :::; I et k = 1; :::; K , le coecient
0
de corrlation linaire entre deux variables k et k est donn par :
cov(xk ; xk0 ) :
(7.16)
k k0
variables et
xik
0
corrlation empirique entre deux variables k et k
i = 1; :::; I
et
individus
k = 1; :::; K , la
XX
cov(xk ; xk0 ) = I1
(xik xk )(xjk0 xk0 ):
i2I j 2I
(7.17)
106
GLOSSAIRE
xik
i = 1; :::; I
xrk =
une donne du tableau
i = 1; :::; I
et
1 X xr :
et
(7.18)
ik
I i2I
xik
variables et
donne par :
xk =
1 Xx
I i2I
ik :
(7.19)
xik
i = 1; :::; I
et
donne par :
k2 =
1 X(x
I i2I
ik
xk )2 :
(7.20)
Bibliographie
L'analyse de donnes (Tome 1) La taxinomie. Dunod, 1980.
: L'analyse de donnes (Tome 2) L'analyse des correspon-
[Ben80a]
J.P. Benzecri :
[Ben80b]
J.P. Benzecri
[Ber72]
[BFRS93]
[Bro03]
dances.
Dunod, 1980.
C. Berge :
Graphes et hypergraphes.
Dunod, 1972.
drainy :
[Cel03]
G.
Hermes
P. Demartines et J. Hrault :
[EP90]
[Goa03]
[HL03]
IEEE Transac-
[Jam99a]
[Jam99b]
[Kun00]
sionnelle.
dunod, 1995.
[Mar04]
[Pag03]
J. Pags :
dances. Extensions et applications au traitement statistique des donnes sensorielles. Hermes Sciences publications, 2003.
107
108
[Pha96]
BIBLIOGRAPHIE
D.T. Pham :
44(11):27682779, 1996.
[Sap90]
G. Saporta :
1990.
[Vap99]
V.N. Vapnik :
Springer, 1999.
Index
aectation, 76, 105
locale, 82, 85
algorithme
de Manhattan, 83
ascendant, 92
de Minkowsky, 83
descendant, 92
de Tchebychev, 83
2 , 45, 83
approche baysienne, 84
du
arbre
du saut maximal, 92
additif, 89
du saut minimal, 92
hirarchique, 96
euclidienne, 81
association, 68
gnralise, 80
axe
moyenne, 92
d'inertie, 15
factoriel, 15
moyenne gnralise, 92
distribution, 105
chantillon, 105
Benzcri, 1, 103
eectif, 105
eets de chane, 92
caractre, 2, 3, 105
qualitatif, 105
quantitatif, 105
classement, 73, 76, 87, 105
classication, 76, 105
clustering, 87
codage condens, 57
coecient de corrlation linaire, 25, 105
composante principale, 30
corrlation empirique, 105
lments terminaux, 96
lment illustratif, 35, 53, 68
quivalence distributionnelle, 45
excentricit, 99
facteur, 16, 29
fonction de rpartition, 105
fonction linaire discriminante, 79
fouille de donnes, 2
hirarchie, 89, 97
covariance, 105
data mining, 2, 5
dendrogramme, 96
binaire, 97
indice, 97
Huygens, 77, 93, 103
diagramme de Vorono, 90
individu, 3, 105
indpendance, 41
distance, 88, 97
de Mahalanobis, 80
globale, 82
110
INDEX
liaison, 3, 24, 41
variance, 1, 106
du diple, 99
mesure de similarit, 88
Minkowsky, 83, 103
modalit, 2, 10, 106
moment, 1, 106
moyenne, 1, 106
mthode CART, 5, 74
ordonnance, 96
partition, 89
Pearson, 23, 45, 103
population, 2, 106
pourcentage de la variance, 20
prol-colonne, 44, 47, 64
prol-ligne, 43, 46, 64
pyramide, 89
quantile, 1, 106
relation de dualit, 32
relation de transition, 16
ressemblance, 3, 24, 25, 61, 106
rgle de Bayes, 84
supervis, 4, 73, 87
tableau
de Burt, 61
de contingence, 39, 106
disjonctif complet, 57, 59
taux d'inertie, 20
taxonomie, 87, 106
Tchebychev, 83, 103
typologie, 4, 106
ultramtrique, 97
unit statistique, 3, 105
variable, 3
continue, 105
discrte, 105
nominale, 2
ordinale, 2