Cours Complet Analyse Des Données

L'analyse de donnes
Polycopi de cours ENSIETA - Rf. : 1463
Arnaud MARTIN
Septembre 2004
Table des matires

1 Introduction
1.1
Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Les donnes
1.3
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4
Les mthodes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5
Les logiciels
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6
Plan
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Analyses Factorielles
2.1
2.2
2.3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Principe gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Ajustement du nuage des individus dans l'espace des variables
. . . . . . .
12
2.3.1
Droite d'ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.3.2
Plan d'ajustement
. . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3.3
Sous-espace d'ajustement . . . . . . . . . . . . . . . . . . . . . . . .
14
2.4
Ajustement du nuage des variables dans l'espace des individus
. . . . . . .
15
2.5
Relation entre les axes d'inertie et les facteurs des deux nuages . . . . . . .
16
2.6
Reconstruction des donnes
. . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.7
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3 Analyse en Composantes Principales
23
3.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.2
Principe de l'ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.2.1
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.2.2
La transformation des donnes . . . . . . . . . . . . . . . . . . . . .
26
3.2.3
L'analyse des nuages
. . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.2.4
L'ajustement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.3
Reprsentation simultane
. . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.4
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.5
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
ii
TABLE DES MATIRES
4 Analyse Factorielle des Correspondances

4.1
4.2
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
39
4.1.1
Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . .
39
4.1.2
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
4.1.3
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
Principe de l'AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
4.2.1
43
4.2.2
La ressemblance entre prols . . . . . . . . . . . . . . . . . . . . . .
44
4.2.3
Les nuages des deux prols . . . . . . . . . . . . . . . . . . . . . . .
46
4.2.4
L'ajustement des deux nuages . . . . . . . . . . . . . . . . . . . . .
47
4.2.5
Reprsentation simultane . . . . . . . . . . . . . . . . . . . . . . .
49
4.3
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5 Analyse des Correspondances Multiples

5.1
5.2
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
57
5.1.1
57
5.1.2
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.1.3
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2.1
Principe de l'ACM
59
5.2.2
L'analyse factorielle des correspondances du tableau disjonctif complet 62
5.2.3
L'analyse factorielle des correspondances du tableau de Burt . . . .
66
5.2.4
Les variables quantitatives . . . . . . . . . . . . . . . . . . . . . . .
67
5.3
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
5.4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
6 Analyse Factorielle Discriminante

6.1
6.2
6.3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2
73
6.1.1
75
6.1.2
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
6.1.3
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
Principe de l'AFD
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
6.2.1
La discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
6.2.2
L'aectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
7 Classication
7.1
73
87
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.1.1
Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.1.2
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
7.1.3
Les mthodes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
Mthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . . . . .
90
iii
TABLE DES MATIRES
7.2.1
7.3
7.4
Principe de l'algorithme
. . . . . . . . . . . . . . . . . . . . . . . .
90
La classication hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . .
91
7.3.1
Principe de la classication hirarchique ascendante . . . . . . . . .
92
7.3.2
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Glossaire
Indications historiques
101
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Rappel de dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
iv
TABLE DES MATIRES
Liste des tableaux

1.1
Reprsentation des donnes.
. . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
Reprsentation des donnes pour l'ACP.
3.2
Reprsentation des donnes centre-rduites pour l'ACP.
4.1
Reprsentation des donnes pour l'AFC.
. . . . . . . . . . . . . . . . . . .
3
24
. . . . . . . . . .
26
. . . . . . . . . . . . . . . . . . .
40
4.2
Tableau des frquences relatives pour l'AFC. . . . . . . . . . . . . . . . . .
41
4.3
Tableau de contingence.
43
4.4
Tableau des frquences observes. . . . . . . . . . . . . . . . . . . . . . . .
43
4.5
Les prol-ligne et prol-colonne. . . . . . . . . . . . . . . . . . . . . . . . .
44
4.6
Prols-lignes (exprims en pourcentages-lignes arrondis).
44
4.7
Prols-colonnes (exprims en pourcentages-colonnes arrondis).
5.1
Reprsentation des donnes sous forme de codage condens pour l'ACM.
58
5.2
Reprsentation des donnes sous forme de codage condens pour l'ACM.
59
5.3
Exemple du vin : tableau initial. . . . . . . . . . . . . . . . . . . . . . . . .
60
5.4
Exemple du vin : tableau disjonctif complet. . . . . . . . . . . . . . . . . .
61
5.5
Reprsentation des donnes sous forme du tableau de Burt. . . . . . . . . .
62
5.6
Mise en frquences du tableau disjonctif complet.
. . . . . . . . . . . . . .
63
5.7
Les prol-lignes et prol-colonnes pour l'ACM. . . . . . . . . . . . . . . . .
64
6.1
Reprsentation des donnes pour l'AFD.
75
7.1
Reprsentation des donnes pour la classication.
. . . . . . . . . . . . . .
88
7.2
Relation entre les nuds de l'arbre. . . . . . . . . . . . . . . . . . . . . . .
96
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . . . . . . . . . . .
45
vi
LISTE DES TABLEAUX
Table des gures

2.1
Les nuages de points. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2
Les formes de nuages de points.
11
2.3
Le nuage
. . . . . . . . . . . . . . . . . . . . . . . .
2.4
NI
Le nuage NI
2.5
Schma de dualit.
2.6
Dcomposition en valeurs singulires du tableau
3.1
Nuage des individus
3.2
Dirents types de nuages. . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
Nuage des variables
. . . . . . . . . . . . .
29
. . . . . . . . . . . . .
30
et sa droite d'ajustement.
. . . . . . . . . . . . . . . . . . . .
13
. . . . . . . . . . . . . . . . . . . .
15
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
NI
dans IR
X.
. . . . . . . . . . . . .
19
. . . . . . . . . . . . . . . . . . . . . . . .
27
3.5
NK dans IRI . . . . . . . . . . .
Ajustement du nuage NI des individus pour l'ACP.
Ajustement du nuage NK des variables pour l'ACP.
. . . . . . . . . . . . .
31
3.6
L'eet de taille dans IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
3.7
Forme de dualit exprimant le nuage
. . . .
32
3.8
Forme de dualit exprimant le nuage
. . . .
33
3.9
Rsum de l'ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
4.1
Le nuage
3.3
3.4
NI en fonction du nuage NK . .
NK en fonction du nuage NI . .
. . . . . . . . . . . . .
46
4.2
NI des prols-lignes dans l'espace IRJ . . .

I
Le nuage NJ des prols-colonnes dans l'espace IR .
. . . . . . . . . . . . .
48
4.3
Le schma de dualit pour l'AFC. . . . . . . . . . . . . . . . . . . . . . . .
50
4.4
Reprsentation simultane dans le premier plan sur l'exemple de Cohen. . .
51
4.5
Inertie et dpendance.
52
4.6
Relation entre la forme du nuage de points et le tableau.
. . . . . . . . . .
53
4.7
Rsum de l'AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
5.1
Hypertable de contingence pour
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
J = 3.
. . . . . . . . . . . . . . . . . . . .
NI dans l'espace IR . .
NK dans l'espace IRI . .
61
5.2
Reprsentation du nuage des individus
5.3
Reprsentation du nuage des modalits
. . . . . . .
65
. . . . . . .
66
5.4
Schma de dualit pour l'ACM.
. . . . . . . . . . . . . . . . . . . . . . . .
67
5.5
Rsum de l'ACM.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
6.1
Reprsentation du nuage
. .
77
6.2
Illustration de la formule de Huygens. . . . . . . . . . . . . . . . . . . . . .
78
NI
des individus partitionns dans l'espace IR
vii
viii
TABLE DES FIGURES
7.1
Illustration de l'algorithme des centres mobiles.
. . . . . . . . . . . . . . .
91
7.2
Illustration de l'eet de chane.
7.3
. . . . . . . . . . . . . . . . . . . . . . . .
93
Illustration de la formule de Huygens. . . . . . . . . . . . . . . . . . . . . .
93
7.4
Illustration d'une inertie intraclasse faible et leve. . . . . . . . . . . . . .
94
7.5
Illustration du passage d'une partition
94
7.6
Illustration de l'algorithme de classication avec avec un nuage de

individus.
Ps une partition ps
1. . . . . . . .
=5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
7.7
Exemple de dendrogramme.
. . . . . . . . . . . . . . . . . . . . . . . . . .
97
7.8
Dendrogramme sur les donnes de composition du sol. . . . . . . . . . . . .
98
7.9
Courbe des indices sur les donnes de composition du sol. . . . . . . . . . .
99
7.10 Reprsentation d'un sous-nuage
Iq
dans un plan de projection. . . . . . . . 100
7.11 Caractrisation de la variance du diple dans une direction. . . . . . . . . . 100
Chapitre 1
Introduction
Les statistiques peuvent tre vues en fonction de l'objectif x ; classiquement les mthodes statistiques sont employes soit pour explorer les donnes (nomme statistique
exploratoire) soit pour prdire un comportement (nomme statistique prdictive ou dcisionnelle [Goa03] ou encore infrentielle [Sap90]). La statistique exploratoire s'appuie
sur des techniques descriptives et graphiques. Elle est gnralement dcrite par la statistique descriptive qui regroupe des mthodes exploratoires simples, uni- ou bidimensionnelle (moyenne, moments, quantiles, variance, corrlation, ...) et la statistique exploratoire
multidimensionnelle. L'analyse de donnes s'inscrit dans ce cadre de la statistique exploratoire multidimensionnelle. Nous verrons que des mthodes issues de l'analyse de donnes
peuvent galement servir la statistique prdictive (
cf. chapitre 6).
Les mthodes d'analyse de donnes ont commences tre dveloppes dans les annes 50 pousses par le dveloppement de l'informatique et du stockage des donnes qui
depuis n'a cess de crotre. L'analyse de donnes a surtout t dveloppe en France par
J.P. Benzcri [Ben80a], [Ben80b] qui a su par l'analyse des correspondances reprsenter
les donnes de manire simple et interprtable. Il dcrit l'analyse de donnes selon cinq
principes, un peu dsuets aujourd'hui :
-
1er
2me
3me
4me
5me
principe : Statistique n'est pas probabilit.

principe : Le modle doit suivre les donnes et non l'inverse.
principe : Il convient de traiter simultanment des informations concernant le
plus grand nombre possible de dimensions.

-
principe : Pour l'analyse des faits complexes et notamment des faits sociaux,
l'ordinateur est indispensable.

-
principe : Utiliser un ordinateur implique d'abandonner toutes techniques
conues avant l'avnement du calcul automatique.

Ces cinq principes montrent bien l'approche d'une part de la statistique la dirence
des probabilits - les modles doivent coller aux donnes - et d'autre part de l'analyse de
donnes - il faut traiter le plus grand nombre de donnes simultanment ce qui implique
l'utilisation de l'ordinateur et ainsi l'utilisation de nouvelles techniques adaptes.
L'analyse de donnes fait toujours l'objet de recherche pour s'adapter tout type de
donnes et faire face des considrations de traitements en temps rel en dpit de la
CHAPITRE 1.
INTRODUCTION
quantit de donnes toujours plus importante. Les mthodes dveloppes (et l'analyse de
donnes) sont maintenant souvent intgres avec des mthodes issues de l'informatique et
de l'intelligence articielle (apprentissage numrique et symbolique) dans le
data mining
traduit en franais par fouille de donnes ou encore extraction de connaissance partir

de donnes [HL03].
1.1 Domaines d'application

Aujourd'hui les mthodes d'analyse de donnes sont employes dans un grand nombre
de domaines qu'il est impossible d'numrer. Actuellement ces mthodes sont beaucoup
utilises en marketing par exemple pour la gestion de la clientle (pour proposer de nouvelles ores cibles par exemple). Elles permettent galement l'analyse d'enqutes par
exemple par l'interprtation de sondages (o de nombreuses donnes qualitatives doivent
tre prises en compte). Nous pouvons galement citer la recherche documentaire qui est
de plus en plus utile notamment avec internet (la dicult porte ici sur le type de donnes textuelles ou autres). Le grand nombre de donnes en mtorologie a t une des
premire motivation pour le dveloppement des mthodes d'analyse de donnes. En fait,
tout domaine scientique qui doit grer de grande quantit de donnes de type vari ont
recours ces approches (cologie, linguistique, conomie,
dustriel (assurance, banque, tlphonie,
etc ) ainsi que tout domaine in-
etc ). Ces approches ont galement t mis prot
en traitement du signal et des images, o elles sont souvent employes comme prtraitements (qui peuvent tre vus comme des ltres). En ingnierie mcanique, elles peuvent
aussi permettre d'extraire des informations intressantes sans avoir recours des modles
parfois alourdis pour tenir compte de toutes les donnes.
1.2 Les donnes

Nous considrons tout d'abord que la
population 1 peut tre dcrite par des donnes de
caractres : qualitatif ou quantitatif. Les caractres qualitatifs peuvent tre

purs (variables nominales ) i.e. que les modalits ne possdent pas de structure d'ordre
ou ordonns (variables ordinales ) i.e. que les modalits qualitatives sont ordonnes. Il est
deux types de
ais de comprendre que les donnes caractre qualitatif doivent tre adaptes pour les
mthodes numriques.
Les mthodes d'analyse de donnes supposent souvent une organisation des donnes
particulire, naturelle, mais parfois dicile raliser selon l'application et les donnes. Le
choix d'un tableau permet une organisation dans le plan de toutes les donnes et ainsi de
traiter simultanment toute l'information. Ainsi la plupart des mthodes ncessitent une
organisation des donnes prsente par le tableau 1.1. Nous verrons au Chapitre 4 que
selon les donnes ce tableau est quelque peu modi, mais l'ide de tableau reste prsente
dans toutes les mthodes d'analyse de donnes.
1 Les
mots en italique sont dnis dans le glossaire page 103.
1.3.
LES OBJECTIFS
Variables
Individus
......
1
.
.
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
......
xik
......
.
.
.
.
.
.
Tab. 1.1 Reprsentation des donnes.
individus ou encore units statistiques sont reprsents en

ligne et sont chacun dcrits par des variables ou caractres . Nous conserverons les notations du tableau 1.1 dans la suite du document. xik est donc la valeur de la variable k pour
l'individu i avec k = 1; :::; K et i = 1; :::; I . Par abus de notations, pour des considrations
de simplication de celles-ci, I reprsente la fois le nombre d'individus et l'ensemble des
individus f1; :::; i; :::; I g, de mme K reprsente le nombre de variables et l'ensemble des
variables f1; :::; k; :::; K g.
Cette reprsentation des donnes peut faciliter la lecture de petits tableau, i.e. lorsqu'il
Ainsi les observations ou
y a peu de donnes. Cependant, ds lors que la taille du tableau est grand, ou que nous
recherchons des relations entre plus de deux individus ou plus de deux variables, cette
reprsentation et les techniques simples de la statistique descriptive ne susent plus.
1.3 Les objectifs

Les objectifs que se sont xs les chercheurs en analyse de donnes sont donc de
rpondre aux problmes poss par des tableaux de grandes dimensions. Les objectifs sont
souvent prsents en fonction du type de mthodes, ainsi deux objectifs ressortent : la
visualisation des donnes dans le meilleur espace rduit et le regroupement dans tout
l'espace.
Les mthodes de l'analyse de donnes doivent donc permettre de reprsenter synthtiquement de vastes ensembles numriques pour faciliter l'oprateur dans ses dcisions. En
fait d'ensembles numriques, les mthodes d'analyse de donnes se proposent galement
de traiter des donnes qualitatives, ce qui en fait des mthodes capables de considrer un
grand nombre de problmes. Les reprsentations recherches sont bien souvent des reprsentations graphiques, comme il est dicile de visualiser des points dans des espaces de
dimensions suprieures deux, nous chercherons reprsenter ces points dans des plans.
Ces mthodes ne se limitent pas une reprsentation des donnes, ou du moins pour la
rendre plus aise, elles cherchent les
ressemblances
entre les individus et les
liaisons
entre
les variables. Ces proximits entre individus et variables vont permettre l'oprateur de
CHAPITRE 1.
dterminer une
typologie
INTRODUCTION
des individus et des variables, et ainsi il pourra interprter ses
donnes et fournir une synthse des rsultats des analyses. Nous voyons donc que les deux
objectifs prcdemment cits sont trs lis voir indissociables, ce qui entrane souvent
l'utilisation conjointe de plusieurs mthodes d'analyse de donnes.
1.4 Les mthodes

L'analyse de donnes regroupe deux familles de mthodes suivant les deux objectifs
cits prcdemment :
Une partie des mthodes cherche reprsenter de grands ensembles de donnes
par peu de variables
i.e.
recherche les dimensions pertinentes de ces donnes. Les
variables ainsi dtermines permettent une reprsentation synthtique recherche.

Parmi ces mthodes de nombreuses analyses sont issues de l'analyse factorielle, telles
que l'analyse en composantes principales, l'analyse factorielle des correspondances,
l'analyse factorielle des correspondances multiples, ou encore l'analyse canonique.
analyse en composantes principales est l'une des mthodes les plus employes. Elle
est particulirement adapte aux variables quantitatives, continues, a priori corrL'
les entre elles. Une fois les donnes projetes dans dirents plans, les proximits
entre variables s'interprtent en termes de corrlations, tandis que les proximits
entre individus s'interprtent en termes de similitudes globales des valeurs observes.
L'
analyse factorielle des correspondances (ou analyse des correspondances binaires)
a t conue pour l'tude des tableaux de contingence obtenus par croisement de

variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est surtout adapte ce type de variables. Dans cette approche, les lignes
et les colonnes ont un rle symtrique et s'interprtent de la mme faon. L'
factorielle des correspondances multiples
analyse
est une extension de l'analyse factorielle
des correspondances qui ne permet que le croisement de deux variables qualitatives.

Elle est donc adapte la description de grands tableaux de variables qualitatives
analyse canonique est trs peu utilise
par exemple pour le traitement d'enqutes. L'
en pratique, son intrt porte sur son aspect thorique. Elle cherche analyser les
relations entre deux groupes de variables de nature dirente. De ce fait l'analyse
factorielle des correspondances peut tre vu comme analyse canonique particulire
[CDG 89], [LMP95].

Une autre partie des mthodes cherche classer les donnes de manire automatique. Ces mthodes sont complmentaires avec les prcdentes pour synthtiser et
analyser les donnes et rpondre plus particulirement l'objectif x de caractriser
les proximits entre individus et celles entre variables. Ces mthodes de classica-
i.e.
tion sont soit apprentissage supervis (
qui ncessitent une base de donnes
d'apprentissage - ces mthodes sont appeles en statistique les analyses discrimi-
i.e.
nantes) soit apprentissage non-supervise (
qui ne ncessitent aucune donne
pralable).
Parmi les mthodes issues de l'analyse discriminante et directement rattaches
1.4.
LES MTHODES
l'analyse de donnes il y a l'analyse linaire discriminante, la rgression logistique,

les
k plus proches voisins ou encore les arbres de dcision. D'autres mthodes issues
de l'intelligence articielle et du monde de la reconnaissance des formes peuvent

tre rattaches l'analyse discriminante telles que le perceptron multicouche (et
les autres rseaux de neurones) et les chanes de Markov [Kun00] ou encore issues
de la thorie de l'apprentissage statistique telle que les machines vecteurs de
supports [Vap99]. Si ces dernires ne sont pas toujours considres comme faisant partie de l'analyse de donnes, elles sont parfaitement intgres dans le
data
mining .
L'analyse linaire discriminante est aussi appele analyse factorielle discriminante
car elle est en fait une analyse en composantes principales supervise. Elle dcrit
les individus en classes (celles-ci sont donnes par une variable issue de l'apprentissage) et ensuite aecte de nouveaux individus dans ces classes. C'est donc une
mthode la fois descriptive et prdictive. Elle permet de traiter aussi bien des
variables quantitatives que qualitatives.
rgression logistique
La
d'appartenance
une
consiste
p(C=x)
classe
exprimer
les
comme
une
probabilits
a posteriori
fonction
l'observation
de
[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe,
qu'il faut dterminer les coecients
ln
p(C=x)
1 p(C=x)
i.e.
tels que :
= 0 +
d
X
i=1
i xi :
(1.1)
k plus proches voisins repose sur l'ide simple d'attribuer un nouvel

individu la classe majoritaire parmi ses k plus proches voisins (individus de la
L'approche des
base d'apprentissage les plus proches au sens d'une certaine distance).

Les
arbres de dcision
ncessitent souvent une construction dlicate et dici-
lement gnralisable si les donnes d'apprentissage sont peu reprsentatives de
Classication And Regression Tree )
la ralit. La mthode CART (
possde une
construction d'arbre aux proprits intressantes pour la segmentation [BFRS93].

Les mthodes de classication automatique ne ncessitant pas d'apprentissage
orent un intrt important lorsque les donnes sont compltement inconnues.
Elles permettent ainsi de dgager des classes qui ne sont pas videntes
a priori.
Les deux principales mthodes dveloppes sont la mthode des centres mobiles
(apparente la mthode des
k-means
ou des nues dynamiques (comme un
cas particulier)) et la classication hirarchique ascendante ou descendante. Nous

pouvons galement citer les approches fondes sur les graphes et hypergraphes
[Ber72].
La mthode des
centres mobiles
consiste associer les individus des centres
de classes choisis alatoirement, puis recalculer ces centres jusqu' obtenir une
convergence. La dicult consiste dans un choix astucieux des centres au dpart
pour une convergence plus rapide et dans le choix d'une distance approprie.
La
classication hirarchique ascendante (resp. descendante) consiste regrouper
CHAPITRE 1.
INTRODUCTION
les individus selon leur ressemblance (resp. dissemblance). Toute la dicult est
dans la dnition d'une mesure de ressemblance et de la distance associe.
1.5 Les logiciels

Les mthodes d'analyse de donnes nes de la recherche universitaire sont depuis
longtemps entres dans le monde industriel. Il y a cependant peu de logiciels qui savent
intgrer ces mthodes pour une recherche exploratoire aise dans les donnes. Nous citons
ici cinq logiciels :
- SAS :
Ce logiciel est un logiciel de statistique trs complet et trs performant. Il a d'abord
t dvelopp pour l'environnement Unix, mais est maintenant accessible sous tout
environnement. Il permet une puissance de calcul importante et ainsi est trs bien
adapt tous traitements statistiques sur des donnes trs volumineuses. Son manque
de convivialit et surtout son prix fait qu'il est encore peu employ dans les entreprises qui ne se ddient pas compltement la statistique. De nombreux cours universitaires de statistique sont proposs avec ce logiciel qui s'approche d'un langage
(ex. Universit de Rennes 1).
- Splus :
Splus est la fois un langage statistique et graphique interactif interprt et orient
objet. C'est donc la fois un logiciel statistique et un langage de programmation.
La particularit de ce langage est qu'il permet de mlanger des commandes peu
volues des commandes trs volues. Il a t dvelopp par Statistical Sciences
autour du langage S, conu par les
Bell Laboratories.
Depuis, Splus est devenu
proprit de Mathsoft aprs le rachat de Statistical Sciences. Il est parfois employ

pour l'enseignement (ex. Universit Paul Sabatier de Toulouse III).
- R :
Ce logiciel est la version gratuite de Splus. Il est tlchargeable sous www.r-project.org
pour tous systmes d'exploitation. Il soure galement de peu de convivialit et
semble encore trs peu employ en industrie. De part sa gratuit, il est de plus
en plus employ pour la ralisation de cours de statistiques (ex. Universit Paul
Sabatier de Toulouse III, Universit de Lyon 1).
- XlStat :
Excel
propose
une
macro
payante
permettant
d'eectuer
quelques
mthodes
d'analyse de donnes. Elle est cependant trs limite, utilisable qu'avec Excel sous
Windows et de plus payante. Certaines coles d'ingnieurs s'en contentent (ex. ENITAB, Bordeaux).
- UniWin Plus :
Statgraphics est un logiciel de statistiques gnrales, qui propose un module d'analyse de donnes de treize mthodes. Dvelopp uniquement pour les environnements
Windows, l'accent est port sur les interfaces graphiques. Statgraphics propose un
grand nombre d'analyses statistiques et permet l'utilisation de beaucoup de for-
1.6.
PLAN
mat de donnes. Il est commercialis par Sigma Plus. Statgraphics est enseign par
exemple l'IUT de Vannes.
- Stalab :
Ce logiciel dvelopp par M. Jambu [Jam99b], [Jam99a] tait initialement prvu
pour Windows. Sa convivialit a permis un essor industriel qui semble s'tre rduit.
Il a t utilis pour l'enseignement en coles d'ingnieurs (ex. ENSSAT, Lannion).
- SPAD :
Le logiciel SPAD support entre autre par A. Morineau est toujours maintenu
jour avec de nouvelles mthodes issues de la recherche universitaire. Sa version sous
Windows est conviviale ce qui a pouss son achat par de plus en plus d'industriels.
Le soucis de coller une ralit industrielle fait qu'il est employ en enseignement
(ex. IUT de Vannes, ENSIETA).
1.6 Plan
Ce document ne cherche pas prsenter l'ensemble des mthodes de l'analyse de donnes dont certaines ont t voques dans la section 1.4. Nous prsentons ici les ides des
principales mthodes, ces cls et les rfrences
donnes permettront au lecteur d'appro-
fondir les mthodes prsentes et de comprendre les autres.

Nous commencerons ainsi par l'tude de quelques analyses factorielles. Le premier
chapitre prsente le principe gnral des analyses factorielles. Les chapitres 3, 4 et 5
prsentent respectivement l'analyse en composantes principales, l'analyse factorielle des
correspondances et l'analyse des correspondances multiples. Nous proposons ensuite au
chapitre 6 l'tude d'une analyse discriminante : l'analyse factorielle discriminante qui
peut galement tre vue comme une analyse factorielle. Dans le cadre des mthodes de
classication non-supervise nous prsentons la classication hirarchique au chapitre 7.
2 Les
rfrences proposes ne sont pas exhaustives, il existe un grand nombre d'ouvrages de qualit
dans le domaine de l'analyse de donnes.
CHAPITRE 1.
INTRODUCTION
Chapitre 2
Analyses Factorielles
2.1 Introduction
Les analyses factorielles constituent la plupart des analyses de donnes. Elles sont
fondes sur un principe unique, c'est pour cela que nous pouvons parler de l'analyse
factorielle [EP90]. Ce principe repose sur le fait que les deux nuages de points reprsentant
respectivement les lignes et les colonnes du tableau tudi (tableau 1.1) sont construits et
reprsents sur des graphiques. Ces reprsentations des lignes et des colonnes fortement
lies entre elles permettent une analyse plus aise pour l'oprateur.
2.1.1 Les objectifs

Les analyses factorielles tentent de rpondre la question : tenant compte des ressemblances des individus et des liaisons entre variables, est-il possible de rsumer toutes
les donnes par un nombre restreint de valeurs sans perte d'information importante ? En
eet en cherchant rduire le nombre de variables dcrivant les donnes, la quantit
d'information ne peut tre que rduite, au mieux maintenue. La motivation de cette rduction du nombre de valeurs vient du fait que des valeurs peu nombreuses sont plus
faciles reprsenter gomtriquement et graphiquement (un des objectifs de l'analyse de
donnes).
2.1.2 Domaines d'application

L'ensembles des mthodes d'analyses factorielles permettent de rpondre la plupart
des problmes poss par les applications auxquelles se consacre l'analyse de donnes.
Le choix d'une analyse par rapport une autre se fera en fonction du type de donnes
(quantitatif, qualitatif, mais aussi textuelle) et de la quantit de donnes. Il est bien sr
possible lorsque le cas se prsente d'appliquer une analyse sur les donnes quantitatives
de la population puis une autre analyse sur les donnes qualitatives. Ainsi dans le cadre
d'un enqute par exemple, une analyse en composantes principales peut faire ressortir les
10
CHAPITRE 2.
ANALYSES FACTORIELLES
liaisons entre les variables quantitatives, puis une analyse des correspondances multiples
peut donner une reprsentation des variables qualitatives en fonction de leur
modalits .
2.1.3 Les donnes

Dans ce chapitre, nous retenons la reprsentation des donnes sous forme de tableau
(tableau 1.1, page 3), et les notations associes.
2.2 Principe gnral

Le principe gnral de l'analyse factorielle est fond sur une double hypothse. Sup-
u1 K composantes et un vecteur colonne v1

I composantes tel que le tableau X = xki s'crive X = v1 ut1 , o ut1 est le vecteur
transpos de u1 . Ainsi des I + K valeurs des vecteurs u1 et v1 , les I:K valeurs de X sont
posons qu'il existe un vecteur colonne
retrouves. Cette rduction devient vite intressante ds lors que
I et K sont assez grands.
De plus elle n'entrane aucune perte d'information. Cette hypothse est malheureusement
improbable en pratique.
Exemple 2.2.1
Considrons l'ensemble des notes des lves de l'ENSIETA durant une
anne. Le nombre d'lves est environ de 450, et nous pouvons considrer qu'ils obtiennent
environ 30 notes chacun. Ainsi le tableau reprsentant l'ensemble des notes est constitu de
13 500 valeurs. La rduction prsente ci-dessus permet de rduire ce nombre 480 valeurs
sans perte d'information si l'hypothse est valide. Pour que l'hypothse soit vrie, il
faudrait pouvoir dduire les notes de l'ensemble des lves partir de celles d'un seul
lve et d'un vecteur de pondration. Ceci signie que les notes sont dpendantes les unes
des autres ou encore trs fortement corrles.
En pratique, il faut donc chercher une approximation de rang
analyses cherchent crire le tableau
pour
X . C'est--dire ces
tel que :
X = v1 ut1 + v2 ut2 + : : : + vS utS + E;
(2.1)
E est une matrice de I lignes et K colonnes de termes ngligeables dite matrice

rsiduelle. Ainsi les I:K valeurs initiales de X sont reconstitues de faon satisfaisante par
les S:(I + K ) valeurs des S vecteurs vq et uq . Les donnes sont donc soit considres en tant
qu'individus dcrits par leurs K variables l'aide des vecteurs uq K composantes, soit
en tant que variables dcrites par les I individus l'aide des vecteurs vq I composantes.
o
La rsolution de ce problme passe donc par la considration des deux nuages de

points ou encore des deux reprsentations gomtriques associes (gure 2.1). Nous obtenons ainsi
points dans l'espace IR
et
points dans l'espace IR . Plusieurs formes
de nuages sont remarquables aussi bien pour les projections de l'espace des individus que
pour celui des variables (gure 2.2). Par exemple, nous pouvons distinguer des formes
sphriques ne traduisant aucune direction privilgie, des formes allonges donnant une
2.2.
11
PRINCIPE GNRAL
direction privilgie des dpendances, ou encore plusieurs sous-nuages faisant ainsi apparatre plusieurs sous-groupes de la population. D'autres formes sont remarquables telles
que les formes triangulaires ou paraboliques [LMP95]. Le problme est de pouvoir rendre
compte visuellement de la forme des nuages, pour ce faire l'ide est d'tudier les projections sur des droites ou mieux des plans (les projections dans un espace 3 dimensions
seraient intressantes si l'il humain n'tait pas souvent tromp). Il faut donc chercher le
sous-espace qui ajuste au mieux le nuage de points
i.e. chercher minimiser les dforma-
tions que la projection implique.
Fig. 2.1 Les nuages de points.
Fig. 2.2 Les formes de nuages de points.
Nous allons donc chercher ajuster au mieux le nuage des individus dans l'espace des
variables (section 2.3) puis le nuage des variables dans l'espace des individus (section 2.4).
12
CHAPITRE 2.
2.3 Ajustement du nuage des individus dans l'espace

des variables
L'objectif est de fournir des images approches du nuage des individus - que nous
noterons
NI
- dans IR
. Nous considrons pour la visualisation des images planes de
Nous faisons l'hypothse que le nuage
NI
NI .
est contenu dans un sous-espace vectoriel de
S infrieure K , i.e. que nous supposons que la matrice E de l'quation (2.1)

est nulle. Plus gnralement, nous supposons que le nuage NI est reconstitu de manire
satisfaisante dans un sous-espace de dimension S . Nous pouvons ainsi reconstruire les
I individus, et donc l'ensemble de la population et du tableau X associ partir des
coordonnes des individus sur S nouveaux axes. Les I:K valeurs du tableau X sont donc
remplaces par I:S (coordonnes)+K:S (composantes).
dimension
Exemple 2.3.1
Si nous considrons 1000 lves qui obtiennent chacun 100 notes, et si
S = 10, i.e. si les 1000 points-individus sont contenus dans un sous-espace de dimension
5
10, nous rduisons l'tude des 1000 100 = 10 valeurs de X 1000 10+100 10 = 11000
valeurs.
2.3.1 Droite d'ajustement

Dans un premier temps, cherchons un sous-espace vectoriel une dimension,
NI . Nous considrons donc

le cas o S = 1. La projection sur la droite d1 qui ajuste au mieux le nuage NI donne la
dispersion ou inertie maximale le long de la droite d1 .
droite
d1
i.e. une
passant par l'origine, qui ajuste au mieux le nuage
Proposition 2.3.2 Maximiser la dispersion le long de la droite d1 revient minimiser

les distances des points du nuage NI la droite d1 , c'est--dire que la droite d1 passe au
plus prs de tous les points du nuage NI .
Preuve
long de
En eet, en prenant les notations de la gure 2.3, maximiser la dispersion le
d1 revient maximiser la somme

X
i2I
Oi2 =
X
i2I
X
i2I
OHi2 , or par le thorme de Pythagore :
OHi2 +
X
i2I
iHi2 ;
le deuxime terme reprsentant les distances des points
i de NI
(2.2)
la droite
d1 .
Proposition 2.3.3 Maximiser la dispersion le long de la droite d1 revient maximiser
ut1X tX u1, avec u1 le vecteur unitaire de d1. En fait, nous avons l'galit :
X
OHi2 = (X u1 )t (X u1 ) = ut1 X t X u1 ;
i2I
qui reprsente l'inertie le long de l'axe d1 .
(2.3)
2.3. AJUSTEMENT DU NUAGE DES INDIVIDUS DANS L'ESPACE DES VARIABLES13
Fig. 2.3 Le nuage
NI
OHi de Oi sur le sous-espace une dimension d1 port par u1

est le produit scalaire de Oi par u1 (OHi =< Oi; u1 >). Ainsi en munissant cet espace de
Preuve
La projection
la mtrique euclidienne sans restreindre le problme :
OHi = xti u1 =
Les
composantes
OHi sont donc les I

X
i2I
X
k2K
xik u1j :
composantes de la matrice
(2.4)
X u1 , et donc :
OHi2 = (X u1 )t (X u1 ):
Nous avons ainsi dmontr la proposition.
Le problme revient donc trouver
u1
(2.5)
qui maximise la forme quadratique
ut1X tX u1
ut1u1 = 1. Le sous-espace une dimension optimal au sens de l'inertie

maximale est donc l'axe d1 dni par le vecteur u1 solution de ce problme.
avec la contrainte
2.3.2 Plan d'ajustement

Cherchons maintenant dterminer le sous-espace deux dimensions s'ajustant au
mieux au nuage
NI , nous considrons donc le cas o S = 2.
Proposition 2.3.4 Le sous-espace deux dimensions qui ajuste au mieux le nuage NI
contient u1 .
14
CHAPITRE 2.
Preuve
En eet, par un raisonnement par l'absurde, si ce sous-espace ne contient pas
u1, alors il est dnit par deux vecteurs u0 et u00 dirents de u1. L'inertie le long des
0
00
deux droites portes par u et u est donc infrieure celle de l'inertie le long de la droite
porte par u1 . Il existe donc un sous-espace de dimension deux meilleur que celui dni
0
00
par les deux vecteurs u et u . Nous montrons ainsi la proposition.

Le sous-espace deux dimensions est donc caractris par l'axe
u2 orthogonal u1 vriant donc :

ut2X tX u2 est maximal,
ut2u2 = 1 (contrainte de normalit),
ut2u1 = 0 (contrainte d'orthogonalit).
d1
et l'axe
d2
dni
par le vecteur
-
2.3.3 Sous-espace d'ajustement

Dans le cas o S 2, par rcurrence, le sous-espace S dimensions s'ajustant au
mieux au nuage NI contient les vecteurs u1 ; u2 ; ; uS 1 . Ce sous-espace est engendr
par le sous-espace (u1 ; u2 ; ; uS 1 ) de dimension S
1 et le vecteur uS orthogonal ce
sous-espace (i.e. tous les uq ) et vriant :
t t
- uS X X uS est maximal,
t
- uS uS = 1.
Proposition 2.3.5 Une base orthonorme du sous-espace vectoriel de dimension S ,
s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRK est constitue par
les S vecteurs propres (u1 ; u2 ; ; uS ) correspondant aux S plus grandes valeurs propres
(1 ; 2 ; ; S ) de la matrice X t X .
Remarque S est au plus gal au rang de la matrice X t X , et dans le cas de l'galit la

matrice
Preuve
de l'quation (2.1) est nulle.
Cette proposition peut se dmontrer par la mthode de Lagrange, une autre
approche est fonde sur certaines proprits spectrales des matrices symtriques [LMP95].
Soit
L(uS ) le Lagrangien :
L(uS ) = utS X t X uS
o
(utS uS
1);
(2.6)
est un multiplicateur de Lagrange i.e. une constante. Le maximum du Lagrangien

i.e. :
est atteint lorsque la drive s'annule,
@L
t
(2.7)
uS = 2X X uS 2uS = 0:
t
Ainsi nous obtenons l'galit X X uS = uS . Or d'aprs Lagrange, une condition nt t
cessaire et susante pour que f (uS ) = uS X X uS soit extremum sachant que g (uS ) =
2.4. AJUSTEMENT DU NUAGE DES VARIABLES DANS L'ESPACE DES INDIVIDUS15
utS uS 1 = 0 (vrie par la contrainte de normalit), est qu'il existe un nombre tel
que la drive du Lagrangien soit nulle. Le maximum est atteint si
valeur propre de la matrice
uS
X tX .
est la plus grande
est donc le vecteur propre correspondant la plus grande valeur propre de la
matrice
X tX
et
utS X tX uS = utS uS = est l'inertie projete sur l'axe dS .
2.4 Ajustement du nuage des variables dans l'espace

des individus
De la mme faon que pour le nuage des individus
nuage des variables - que nous noterons
NK - dans IR
NI , nous cherchons une image du
. L'approche est identique celle du
X t au lieu de X . Avec les notations

t
t
t
t
de la gure 2.4, l'inertie le long de la droite DS s'crit (X vS )(X vs ) = vS XX vS . Ainsi,
nuage des individus, il sut simplement de considrer
vS vriant :
vSt XX tvS est maximal,
vSt vS = 1 (contrainte de normalit),
vSt vq = 0 pour tout q = f1; ; S 1g (contrainte d'orthogonalit).
l'axe factoriel (ou axe d'inertie) est dtermin par

-
Fig. 2.4 Le nuage
NI
Le sous-espace d'ajustement est obtenu de la mme manire que dans le cas des individus, par la proposition suivante.
Proposition 2.4.1 Une base orthonorme du sous-espace vectoriel de dimension S ,
s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRI est constitue par
les S vecteurs propres (v1 ; v2 ; ; vS ) correspondant aux S plus grandes valeurs propres
(1 ; 2 ; ; S ) de la matrice XX t .
16
CHAPITRE 2.
Remarque S
matrice
XX t ,
est au plus gal au rang de la matrice
X tX .
qui est gal au rang de la
2.5 Relation entre les axes d'inertie et les facteurs des

deux nuages
Nous montrons ici quelles sont les relations, dites relations de transition, entre les
ajustements dans les deux espaces.
Notons :
-
= utS X tX uS
DS
FS = X uS
dS
, respectivement
respectivement
= X t vS
= vSt XX tvS
l'inertie le long de l'axe
de
NK . FS
le
facteur
d'ordre
dS ,
NI , respectivement
NI sur le S me axe
K
me
dans IR , de mme GS est le vecteur issu de la projection du nuage NK sur le S
, respectivement
GS
DS
de
est donc le vecteur issu de la projection du nuage
axe dans IR .
Proposition 2.5.1 L'inertie le long de l'axe dS , dS , est gale l'inertie le long de l'axe
DS , DS , nous la notons S .

Les formules de transition entre les deux espaces
relations de fondamentales :
8
FS
>
v
>
S = p
>
<
S
>
>
>
:
Preuve
uS =
En multipliant par
et
IR
sont donnes par les
(2.8)
pGS
S
Par dnition, nous avons dans l'espace IR
et dans l'espace IR
IR
X t X uS = S uS ;
(2.9)
XX t vS = S vS :
(2.10)
dans l'quation (2.9), nous obtenons :
(XX t)X uS = S (X uS );
et en multipliant par
(2.11)
X t dans l'quation (2.10), nous obtenons :
(X tX )X tvS = S (X tvS ):
S = 1 1
S=1
Considrons dans un premier temps le cas o
t
valeur propre de XX . L'quation (2.11) pour
(2.12)
est par dnition la plus grande
montre que
X u1 est un vecteur propre
2.5. RELATION ENTRE LES AXES D'INERTIE ET LES FACTEURS DES DEUX NUAGES17
XX t , donc la valeur propre associe 1 est ncessairement telle que 1 1 . De pus

1 est la plus grande valeur propre de X t X . L'quation (2.12) montre que X t v1 est un
t
vecteur propre de X X , donc la valeur propre associe 1 est ncessairement telle que
1 1 . Ainsi nous obtenons que 1 = 1 .
t
De mme, nous pouvons montrer que toutes les valeurs propres non nulles de X X et
t
XX sont les mmes, ainsi S = S . Le premier point de la proposition est donc dmontr,
de
puisque :
utS X tX uS = vSt XX tvS = S :
(2.13)
Pour dmontrer le second point, nous constatons partir de l'quation (2.11) que les
facteurs
FS
et les vecteurs unitaires
vS sont les vecteurs propres de la matrice XX t, nous
avons donc :
vS = kFFS k :
(2.14)
De plus
kFS k2 = utS X tX uS = S . Nous montrons ainsi la premire galit de l'quation
(2.8). La seconde galit se montre de mme en constatant que :
uS = kGGS k ;
(2.15)
et
kGS k2 = vSt XX tvS = S .
Les relations de transition entre les deux espaces peuvent se reprsenter par le schma
de dualit de la gure 2.5 reprsentant les relations entre les axes d'inertie d'un nuage et
les facteurs de l'autre nuage.
Proposition 2.5.2 Les relations de transitions entre les facteurs s'crivent :

8
>
>
>
>
>
>
>
>
>
<
>
>
>
>
>
>
>
>
>
:
FS (i) =
X
k2K
xik uS (k) = k2K p

X
GS ( k ) =
X
i2I
xik GS (k)
xik vS (i) = i2I
S
xik FS (i)
p
(2.16)
Cette proposition montre que les facteurs des deux nuages doivent s'interprter conjointement. L'analyse factorielle consiste donc analyser simultanment le nuage
nuage
NK .
NI
et le
18
CHAPITRE 2.
Fig. 2.5 Schma de dualit.
Preuve
D'aprs les relations fondamentales de l'quation (2.8) nous obtenons les coor-
NI
donnes de chaque point du nuage
sur les axes factoriels :
FS (i)
p
S
vS (i) =
xik uS (k)
= k2K p
et les coordonnes de chaque point du nuage
NK
uS (k) =
GS (i)
p
S
i2I
(2.17)
sur les axes factoriels :
xik vS (i)
p
(2.18)
En dveloppant les relations des quations (2.17) et (2.18), nous obtenons facilement les
relations de transition de l'quation (2.16).
2.6 Reconstruction des donnes

Il est possible de reconstruire de manire exacte le tableau de donnes
dcomposition en valeurs singulires de la matrice
X.
En eet, puisque
us
par une
est le
sme
X t X , correspondant la valeur propre s et vs

t
vecteur propre de norme 1 de la matrice XX , correspondant la mme valeur
vecteur propre de norme 1 de la matrice

est le
me
propre, nous avons :
X us =
s vs ;
(2.19)
2.6.
19
RECONSTRUCTION DES DONNES
d'o
X
s2K
usuts =
Xp
s2K
s vs uts :
(2.20)
Les vecteurs propres tant orthogonaux et de norme 1, nous obtenons :
X=
Xp
s2K
Cette formule de reconstruction du tableau

partir des valeurs propres
s vs uts :
(2.21)
X par dcompositions en valeurs singulires
s (qui sont aussi les inerties), et des vecteurs propres associs
us et vs peut s'illustrer par la gure 2.6.
Fig. 2.6 Dcomposition en valeurs singulires du tableau
Cette reconstruction exacte suppose donc avoir

vecteurs propres
us
et
I:K
X.
valeurs contenues dans les
vs. Nous avons vu dans la section 2.3.3 que nous cherchons le
sous-espace qui s'ajuste au mieux aux nuages de points. S'ajuster au mieux signie donc
reconstituer au mieux les positions des points des nuages par un nouvel ensemble de
coordonnes.
Premier plan d'ajustement
Si
1
associe
u1 est grande par rapport aux autres
valeurs propres, alors nous disons que la reconstruction est bonne. D'un point de vue
gomtrique ceci signie que le nuage de points s'allonge le long d'une droite. Lorsque
le nuage est ainsi trs tir le long du premier axe, l'inertie du nuage de dpart et la
position des points sont bien reconstitue avec la seule information des coordonnes des
projections des points du nuage.
S premiers axes d'ajustement
Un repre form par les
premiers axes factoriels
permet de reconstituer les positions de dpart avec une bonne prcision, si

reprsente une bonne proportion de la trace de la matrice
tr(
X tX
)=
X
s2K
s =
i2I;k2K
xik .
2
X tX .
1 + + S
En eet, rappelons que
20
CHAPITRE 2.
Nous obtenons ainsi une reconstruction approche
X du tableau X en se limitant aux
premiers axes factoriels, nous avons :
Xp
X ' X =
s vs uts :
(2.22)
s=1
Nous passons donc des I:K valeurs du tableau X S (I + K ) nombres pour reconstituer
p
X . Ces nombres sont constitus par les S vecteurs s vs ayant I composantes et les S
vecteurs us ayant K composantes.
Toute la dicult rside dans le choix de S , c'est--dire partir de quelle valeur a-tt
on une bonne reconstruction, ou encore une bonne proportion de la trace de X X ? Nous
voyons donc l'importance de dnir un indice de qualit de la reconstruction. La qualit
globale de la reconstruction peut tre mesure par :
S
X
S =
Le coecient
tr(X t X )
tr(X t X )
=X
s=1
s2K
s
s
(2.23)
S est encore appel taux d'inertie ou pourcentage de la variance relatif aux
premiers facteurs.
2.7 Conclusion
Nous avons prsent dans ce chapitre le principe gnral des analyses factorielles. Cette
approche permet de reprsenter gomtriquement de grands tableaux de donnes dans
des sous-espaces sans perte d'information importante. La dimension des sous-espaces,
i.e.
l'approximation de la reconstruction de ces tableaux se fait en cherchant minimiser la

perte d'information. La quantit globale de reconstruction permet de quantier cette perte
d'information. Une fois la dimension du sous-espace choisie, les donnes sont reprsentes
graphiquement par des projections sur les dirents plans qui constituent le sous-espace.
Bien sr les premiers plans factoriels sont ceux contenant le plus d'information.
La dcomposition en valeurs singulires prsente dans ce chapitre peut tre applique
tous tableaux de donnes prsents comme sur le tableau 1.1. Cette dcomposition
fait appel des distances euclidiennes, c'est--dire des formes quadratiques dnies
positives. Les maximisations de l'inertie pour les ajustements des sous-espaces sont lies
ces distances. Il existe d'autres approches qui modient ces distances ou la nature des sousespaces [EP90], [LMP95]. En particulier ce qui est souvent recherch dans ces mthodes
est la non-linarit des projections, mieux adapte aux donnes compliques.
Avant d'appliquer cette approche gnrale un tableau quelconque, il est important de
tenir compte des donnes de dpart. Pour se faire, nous allons les transformer en fonction
de leur type. Ainsi dans les trois prochains chapitres nous allons voir comment transformer
2.7.
CONCLUSION
21
des donnes quantitatives dans le cadre de l'analyse en composantes principales, et des

donnes qualitatives dans les cas de l'analyse factorielle de correspondances et de celle
des correspondances multiples.
22
CHAPITRE 2.
Chapitre 3
Analyse en Composantes Principales
3.1 Introduction
L'analyse en composantes principales - que nous notons par la suite ACP - est une des
premires analyses factorielles, et certainement aujourd'hui l'une des plus employes. Dans
[LMP95], nous trouvons l'historique de cette mthode qui fut conue par Karl Pearson en
1901. Elle est sans doute la base de la comprhension actuelle des analyses factorielles.
Son utilisation a cependant t plus tardive avec l'essor des capacits de calculs.
Les principales variantes de l'ACP viennent des dirences de transformations du
tableau de donnes. Ainsi, le nuage de points peut tre centr ou non, rduit ou non.
Le cas le plus tudi, et que nous prsentons ici, est lorsque le nuage de point est centr
et rduit ; dans ce cas nous parlons d'ACP norme. D'autres variantes existent telle que
l'analyse en composante curviligne [DH97] pour remdier au fait que les projections sont
linaires, ou encore l'analyse en composantes indpendantes pour la sparation de sources
[Pha96].
Les donnes
Les donnes pour l'ACP sont gnralement prsentes sous la forme du
tableau prcdemment vu dans le Chapitre 1 et que nous rappelons dans le tableau 3.1.
Ainsi les donnes sont constitues d'individus et de variables qui dans le cas de l'ACP
doivent tre quantitatives, continues, elles peuvent tre homognes ou non et sont
priori
corrles entre elles. Rappelons que nous notons
pour l'individu
i, I
Les objectifs
la valeur de la variable
dsigne la fois le nombre d'individus et l'ensemble des indices
= f1; ; i; ; I g K
K = f1; ; k; ; K g
indices
xik
a
k
, et
dsigne la fois le nombre d'individus et l'ensemble des

.
Les objectifs de l'ACP sont ceux d'une analyse factorielle, c'est--dire
qu'elle cherche reprsenter graphiquement les relations entre individus par l'valuation
de leurs ressemblances, ainsi que les relations entre variables par l'valuation de leurs
liaisons. Comme nous l'avons vu au chapitre prcdent l'tude doit se faire simultanment.
Le but nal de ces reprsentations est l'interprtation par une analyse des rsultats.
23
24
CHAPITRE 3.
ANALYSE EN COMPOSANTES PRINCIPALES
Variables
Individus
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
xik
......
.
.
.
.
.
.
Tab. 3.1 Reprsentation des donnes pour l'ACP.
Les domaines d'application
De part la nature des donnes que l'ACP peut traiter,
les applications sont trs nombreuses. Il y a en fait deux faons d'utiliser l'ACP :
- soit pour l'tude d'une population donne en cherchant dterminer la typologie des
individus et des variables. Par exemple, dans la biomtrie, l'tude des mensurations
sur certains organes peut faire apparatre des caractristiques lies des pathologies, ou encore en conomie, l'tude des dpenses des exploitations par l'ACP peut
permettre des conomies de gestion.
- soit pour rduire les dimensions des donnes sans perte importante d'information,
par exemple en traitement du signal et des images, o l'ACP intervient souvent en
prtraitement pour rduire la quantit de donnes issues de traitements analogiques.
3.2 Principe de l'ACP

3.2.1 Les objectifs
Dans un premier temps reprenons les objectifs de l'ACP et dtaillons-les. Nous avons
vu que pour atteindre les objectifs de l'ACP il faut valuer les
vidus ainsi que les
liaisons
ressemblances
entre indi-
entre variables. Ces deux notions peuvent tre interprtes de
direntes faons, il est donc important de bien les dnir.
Dnition 3.2.1 Deux individus se ressemblent, ou sont proches, s'ils possdent des valeurs proches pour l'ensemble des variables.
Cette dnition sous entend une notion de proximit qui se traduit par une distance.
Ainsi, nous dnissons la distance entre deux individus
d2 (i; j ) =
k2K
(xik
xjk )2 :
i et j
par :
(3.1)
La mtrique ici utilise est donc euclidienne, mais de manire plus gnrale nous pouvons
dnir cette distance par :
d2 (i; j ) = (xi
xj )tM (xi xj );
(3.2)
3.2.
25
PRINCIPE DE L'ACP
est une matrice symtrique dnie positive de taille
K.
Pour tablir un bilan des ressemblances entre individus, nous cherchons rpondre
des questions du type :
- Quels sont les individus qui se ressemblent ?
- Quelles sont ceux qui sont dirents ?
- Existe-t-il des groupes homognes d'individus ?
- Est-il possible de mettre en vidence une typologie des individus ?
De la mme faon que nous avons dni la
de dnir la
liaison
ressemblance entre individus, il est essentiel
entre des variables.
Dnition 3.2.2 Deux variables sont lies si elles ont un fort coecient de corrlation
linaire.
Le coecient de corrlation linaire est donn par :

X xik xk
1
xih xh
cov(
k; h)
=
;
r(k; h) = p
sk
sh
var(k) var(h) I i2I
o
xk
et
sk
sont respectivement la moyenne et l'cart-type de la variable
Remarque
(3.3)
k.
Dans le cadre de l'ACP norme que nous prsentons ici, le coecient de
corrlation est dni partir de la covariance, cependant dans de rare cas l'ACP peut
tre fonde sur la matrice de covariance (ACP non-norme) ou encore sur la matrice des
coecients de corrlations des rangs. A partir du coecient de corrlation de l'quation
(3.3), il est possible de dnir une distance entre deux variables
d(k; h) =
1X
I i2I
xik
sk
xk
xih
sh
xh
= 2(1
k et h :
r(k; h)):
(3.4)
De mme que pour les individus, nous cherchons tablir un bilan des liaisons entre
variables en rpondant des questions du type :
- Quelles sont les variables qui sont lies positivement entre elles ?
i.e. lies ngativement) ?
- Quelles sont celles qui s'opposent (
- Existe-t-il des groupes de variables corrles entre elles ?

- Est-il possible de mettre en vidence une typologie des variables ?
Pondration
Il est souvent souhaitable que les individus comme les variables jouent le
mme rle. Cependant, dans certaines applications il peut tre intressant de pondrer
diremment chaque individu. Soit
pi
le poids aect chaque individu, par commodit
ces poids sont pris tels que la masse totale soit gale 1 (
de la variable
k est dnie par :

xk =
X
i2I
pi xik ;
i2I
pi = 1). Ainsi la moyenne
(3.5)
26
CHAPITRE 3.
Variables
Individus
1
1
.
.
.
.
.
.
......
......
xik
.
.
.
.
.
.
......
.
.
.
.
.
.
sk
xk
......
.
.
.
.
.
.
Tab. 3.2 Reprsentation des donnes centre-rduites pour l'ACP.
et le coecient de corrlation devient :
r(k; h) =
X
i2I
pi
xik
sk
xk

xih
sh
xh
(3.6)
Nous retrouvons le cas particulier dans lequel les individus ont le mme poids lorsque
pi =
De mme, il est possible de ne pas accorder la mme importance aux direntes va-
mk le poids associ la variable k, la distance de l'quation (3.1) entre deux

individus i et j devient :
riables. Soit
d2 (i; j ) =
X
k2K
mk (xik
xjk )2 :
(3.7)
En fait, ces poids ne modient en rien les principes de l'ACP, nous considrons donc par
la suite les cas o les individus et variables ont le mme poids.
3.2.2 La transformation des donnes

Il existe plusieurs transformations utilises. L'analyse centre consiste modier les
donnes du tableau
X en remplaant les valeurs des xik par xik xk . Le fait de centrer les
donnes prsente dans le cas de l'ACP des proprits intressantes que nous exposons
la section 3.2.3. L'analyse centre rduite ou encore norme, que nous prsentons ici, est
lie la transformation des donnes du tableau
xik
sk
xk
en remplaant les valeurs des
xik
par
. Rduire les donnes permet d'uniformiser les units de mesures. Par exemple,
dans le cas d'une analyse sur la mensuration d'animaux, les dimensions dans le tableau
X
X
peuvent tre exprimes en
ou en
cm
selon les variables. Ainsi le tableau de donnes
prsent sur le tableau 3.1 devient celui donn par le tableau 3.2.
3.2.
27
PRINCIPE DE L'ACP
3.2.3 L'analyse des nuages

Analyse du nuage des individus
Pour l'analyse du nuage
NI
des individus, nous considrons donc le tableau 3.2 des
donnes centres rduites par ligne, comme nous l'avons dj vu dans le cas gnral d'une
cf. gure 2.1 page 11).
analyse factorielle (
Fig. 3.1 Nuage des individus
Absence de liens
NI
dans IR
Directions d'allongement
Partition de points
Fig. 3.2 Dirents types de nuages.
NI des individus est un espace vectoriel K dimensions, dont chaque dimension reprsente une variable (cf. gure 3.1). Le fait d'avoir centr les donnes entrane
que l'origine des axes est confondu avec le centre de gravit G. Ce centre de gravit G
Ainsi le nuage
peut s'interprter comme l'individu moyen de la population. L'interprtation de ce nuage
28
NI
CHAPITRE 3.
va se faire en dcelant d'une part une partition de points et d'autre part des direc-
tions d'allongement. Ainsi sur la gure 3.2 nous reprsentons dirents types de nuages
possibles. Nous pouvons observer une absence de liens, ou bien par exemple une direction
d'allongement suivant plutt le premier axe, ou encore une partition des points en trois
groupes. Si l'tude directe est envisageable dans un espace trois dimensions, ds lors que
K > 3 elle devient impossible. Nous avons donc recours l'approche factorielle partir
de laquelle nous pouvons tudier dirents plans de projection.
Analyse du nuage des variables

L'analyse du nuage
NK des variables se fait toujours partir du tableau 3.2 des donnes
centres rduites, que nous considrons ici par colonne, comme nous l'avons dj vu dans
le cas gnral d'une analyse factorielle (gure 2.1 de la section 2.2).
La reprsentation du nuage
NK
des variables se situe dans un espace vectoriel
dimensions, chaque dimension reprsentant un individu de la population totale. La norme

de chaque variable
k est telle que :

X
i2I
1 xik
sk
xk
2
= 1:
(3.8)
Cette norme correspond galement au coecient de corrlation de la variable
k avec elle
r(k; k) = 1. Ainsi le nuage NK est situ sur la sphre unit (de rayon 1) dans
cf. gure 3.3). Il est intressant de noter que le cosinus de l'angle entre les vecteurs
reprsentant
deux
variables
k et h est le produit scalaire
< k; h >= r(k; h). L'interprtation du coecient de corrlation comme un cosinus est
mme, donc
l'espace IR (
une proprit trs importante puisqu'elle donne un support gomtrique, donc visuel, au
coecient de corrlation. Cette proprit ncessite d'avoir au pralable centr les donnes,
ce qui justie une nouvelle fois cette transformation.
L'analyse du nuage
une variable
du nuage
NK
par
Ok
NK
des variables se fera donc par l'tude des angles forms pour
et les axes factoriels. Il est bon de noter que le centre de gravit
n'est pas l'origine de la sphre unit, la dirence du nuage
NI
o le
centre de gravit correspond au centre du repre lorsque les donnes sont centres. Ainsi,
ce sont les angles entre les vecteurs reprsentant les variables qui sont peu dforms par
les projections et non pas les distances entre les points du nuage
NK .
Cette tude des angles est impossible raliser directement cause de la dimension
de IR . Elle se fera donc dans les plans de projection issus de l'approche factorielle.
3.2.4 L'ajustement
L'approche factorielle consiste donc approcher ces nuages
NI
et
NK
dans des sous-
espaces vectoriels permettant de fournir quelques images planes de ces nuages.
3.2.
29
PRINCIPE DE L'ACP
Fig. 3.3 Nuage des variables
NK
dans IR .
Ajustement du nuage des individus

Nous avons vu la section 2.3 du chapitre prcdent, qu'il faut chercher une suite
fus ; s = 1; ; S g
de directions privilgies - les axes factoriels - an de fournir une
reprsentation simplie du nuage

rapport au centre de gravit
plus les directions
NI . Chaque direction us rend maximum l'inertie par

NI sur l'axe factoriel us . De
de la projection du nuage
us sont orthogonales deux deux.
i se projette en Hi sur uX
1 . Nous cherchons
GHi . En eet, rendre maximum GHi2 revient
Avec les notations de la gure 3.4 l'individu

donc
u1 qui rend maximum l'inertie
X
i2I
i2X
I
i.e.
rendre minimum l'cart entre le nuage des individus et sa projection (

classique des moindres carrs. Ensuite, il faut trouver
i2I
iHi2 ), critre
u2 orthogonal u1 qui satisfait
le mme critre. Nous pouvons procder ainsi jusqu' l'obtention des
axes factoriels
donnant une reprsentation susamment bonne.
Dnition 3.2.3 Les S axes factoriels fus ; s = 1; ; S g sont appeles les facteurs prin-
cipaux.
Du fait d'avoir centr les donnes, ce critre permet d'interprter les axes factoriels
comme des directions d'allongement maximum du nuage
NK .
Ajustement du nuage des variables

Nous cherchons ici obtenir des variables synthtiques
fvs ; s = 1; ; S g et une re-
prsentation approche des corrlations entre les variables. La dmarche pour le nuage
30
CHAPITRE 3.
Fig. 3.4 Ajustement du nuage
NK
reste la mme que pour le nuage
NI
NI
des individus pour l'ACP.
des individus.
Ainsi, avec les notations de la gure 3.5, la variable
k2K
Hk sur v1 .
v1 qui rend maximum
se projette en
Nous cherchons le premier axe factoriel en dterminant le vecteur
OHk2 . Puis, nous cherchons le vecteur v2 orthogonal v1 qui satisfait ce mme critre.
Nous poursuivons cette dmarche jusqu' l'obtention des
vecteurs recherchs.
v1 dnit une nouvelle variable qui est la combinaison linaire la plus lie
l'ensemble des variables initiales du tableau X . Ainsi les S vecteurs fvs ; s = 1; ; S g
Le vecteur
tant orthogonaux deux deux, les
nouvelles variables correspondantes sont non cor-
rles entre elles.
Dnition 3.2.4 Les S nouvelles variables (axes factoriels) fvs ; s = 1; ; S g sont appeles les composantes principales.
Ce sont ces vecteurs qui sont l'origine du nom de cette analyse factorielle.
vs est son coecient de corrlation

avec vs du fait que les variables tudies sont centres rduites. Ainsi le vecteur v1 qui
X
La coordonne d'une variable initiale de
rend maximum
k2K
OHk2
sur
quivaut la combinaison linaire la plus lie l'ensemble des
variables initiales (la liaison tant entendu au sens du critre maximisant la somme des
3.3.
31
REPRSENTATION SIMULTANE
Fig. 3.5 Ajustement du nuage
NK
des variables pour l'ACP.
moindres carrs des corrlations). C'est donc la variable qui synthtise le mieux l'ensemble
des variables initiales. Les axes factoriels rsument donc l'ensemble des variables initiales
du tableau
X.
Eet de taille
Un problme peut apparatre lorsque dans une population les variables
sont toutes corrles positivement deux deux. Dans ce cas, elles forment des angles
aigus et le centre de gravit
GK
du nuage
NK
cf.
est loin de l'origine de la sphre unit (
gure 3.6). Le premier axe factoriel est alors proche de la direction

reprsente mal le nuage
NK
OGK , ce qui fait qu'il
car toutes les projections des variables sont proches les unes
des autres. En eet le premier axe factoriel rend toujours compte de la position du nuage
NK
par rapport l'origine.
3.3 Reprsentation simultane

Nous avons vu la section 2.5 qu'il existe des relations de transition entre les deux
espaces IR
nuage
NK
et IR . L'ACP permet pour une interprtation simultane du nuage
NI
et du
de reprsenter ces deux nuages simultanment sur les plans issus des premiers
axes factoriels. Nous devons cependant prendre garde au fait que les deux nuages ne sont en
ralit pas dans les mmes espaces qui ont des dimensions direntes. Cette reprsentation
simultane est essentiellement pragmatique.
En eet, le nuage des individus
NI
et le nuage des variables
NK
sont deux reprsenta-
32
CHAPITRE 3.
Fig. 3.6 L'eet de taille dans IR .

tions du mme tableau de donnes
X . Ainsi des relations fortes (relation de dualit ) lient
ces deux nuages. Tout d'abord, l'inertie totale des deux nuages est la mme :

X X xik
1
=
I i2I k2K
sk
xk
2
(3.9)
De plus, les projections de tous les points du nuage des individus

factoriel
NI
sur le premier axe
u1 constituent une nouvelle variable (appele premier facteur, note F1) qui se
confond la norme prs la premire composante principale (illustres sur la gure 3.7).
Ainsi le vecteur
F1
dans IR
est colinaire
v1 (axe factoriel de NK ). Il en est de mme
pour les projections sur les autres facteurs qui correspondent aux composantes principales
de mme rang. De manire symtrique, les coordonnes des projections du nuage
Fig. 3.7 Forme de dualit exprimant le nuage

l'axe factoriel
NI
en fonction du nuage
NK
sur
NK .
v1 constituent un nouvel individu (premier facteur, not G1), ce que nous
3.4.
33
INTERPRTATION
reprsentons sur la gure 3.8. Ce vecteur
G1
de IR
est colinaire
u1 (axe factoriel de
NI ). Cette notion d'individu type est moins employe que celle de composante principale.
Il est souvent plus facile de tenter de se ramener des individus rels comme individu
type.
Fig. 3.8 Forme de dualit exprimant le nuage
NK
en fonction du nuage
Les relations algbriques des deux dualits prcdentes au rang
s
8
>
>
>
>
>
<
Fs (i) =
>
>
>
>
>
:
1 1
G (i) = p
s
p1
X xik
s k2K
X xik
I s i2I
est l'inertie projete du nuage
NI
sk
xk
sk
NI .
s sont donnes par :
Gs (k)
xk
(ou du nuage
(3.10)
Fs (k)
NK ) sur l'axe factoriel au rang s.
Notons que les facteurs peuvent tre ngatifs.

Cette reprsentation est donc essentiellement une aide pour l'interprtation.
3.4 Interprtation
A partir des relations donnes prcdemment, nous pouvons dnir quelques rgles
pour l'interprtation :
- Un individu sera du ct des variables pour lesquelles il a de fortes valeurs, inversement il sera du ct oppos des variables pour lesquelles il a de faibles valeurs.
- Plus les valeurs d'un individu sont fortes pour une variable plus il sera loign de
l'origine suivant l'axe factoriel dcrivant le mieux cette variable.
- Deux individus une mme extrmit d'un axe (
proches (
i.e. se ressemblent).
i.e.
loigns de l'origine) sont
- Deux variables trs corrles positivement sont du mme ct sur un axe.
34
CHAPITRE 3.
- Il n'est pas possible d'interprter la position d'un individu par rapport une seule
variable, et rciproquement, il n'est pas possible d'interprter la position d'une variable par rapport un seul individu. Les interprtations doivent se faire de manire
globale.
Les axes factoriels donnent des images approches des nuages de points
NI
et
NK .
Il est donc ncessaire de dnir des indicateurs pour mesurer la qualit de l'approximation. L'tude d'un plan de projection des sous-espaces vectoriels doit toujours se faire
conjointement avec l'tude des indicateurs. En eet, deux points (individus ou variables)
peuvent se trouver trs proches dans un plan de projection, alors qu'en ralit ils sont
loigns. Nous prsentons ici les principales aides l'interprtation que nous retrouvons
dans [EP90].
Qualit de reprsentation d'un lment (individu ou variable) par un axe
La
i par l'axe s est donne par le rapport de l'inertie

de la projection de l'lment i sur l'axe s et de l'inertie totale de l'lment i :
qualit de reprsentation d'un lment
QLTs (i) =
(OHis)2 = cos2 ;
(Oi)2
QLTs (i)
(3.11)
est l'angle entre (Oi) et l'axe s. Ainsi si

est proche de 1, alors i est proche
de l'axe s et donc du plan de projection contenant l'axe s.
Cette qualit se gnralise au plan. Si un individu i est proche du plan, sa distance
G (l'individu moyen) dans le plan est proche de la valeur relle. De mme les distances
o
dans le plan entre deux individus bien reprsents sont proches de la ralit.
Qualit de reprsentation d'un nuage par un axe
Cette qualit est donne par le
pourcentage d'inertie associ un axe, c'est--dire le rapport de l'inertie de la projection

du nuage sur l'axe et de l'inertie totale du nuage :
QLTN
(OHis)2
N
= i2X
i2N
(Oi)2
(3.12)
Cette qualit mesure l'importance d'un axe factoriel. Bien sr les premiers axes auront
plus d'importance que les suivants. Nous devons juger ces pourcentages en fonction de
la taille du tableau. Par exemple, 10% est une valeur faible si le tableau comporte 10
variables ; c'est une valeur forte dans le cas de 100 variables.
Du fait de la dualit, il est quivalent de calculer ces pourcentages d'inertie partir
du nuage
NI
des individus ou
NK
des variables.
Contribution d'un lment l'inertie d'un axe
i
l'inertie d'un axe s est donne par le rapport de l'inertie de la projection de i sur l'axe s
La contribution d'un lment
3.5.
35
CONCLUSION
et de l'inertie de la projection de l'ensemble du nuage sur l'axe
s:
(
OHis )2
CTs (i) = X
:
(Oi)2
(3.13)
i2N
La contribution est importante si elle est proche de 1 pour les variables et doit tre
rapporte au tableau pour les individus. Ce rapport permet de mettre en vidence le
sous-ensemble d'lments ayant particip essentiellement la construction de l'axe. L'interprtation devra en premier lieu s'appuyer sur ces lments.
Pour aider l'interprtation nous proposons de suivre le plan suivant :
- Choisir le nombre d'axes. Notons que le choix du nombre d'axes retenir reste un
problme car il n'y a pas de solutions rigoureuses. Les valeurs propres permettent
de choisir ce nombre par exemple de telle sorte que le pourcentage d'information
cumule soit compris en 80% et 90% environ ou tel que toutes les valeurs propres
soient suprieures 1 ou encore lorsque un saut important sur l'histogramme des
valeurs propres ou sur les recherches de paliers de celles-ci est observ. De plus le
nombre d'axes ne doit pas tre trop grand.
- Etudier les indicateurs de la qualit des approximations.
- Interprter les facteurs simultanment :
- l'aide des contributions des individus,
- l'aide des coordonnes des variables (interprter par axe et par plan),
- l'aide des coordonnes des individus.
- Mettre en vidence des typologies.
Il est possible de faire intervenir des lments illustratifs (appels galement supplmentaires) an d'aider l'oprateur interprter. Ces lments, individus ou variables,
n'interviennent pas dans la construction des axes factoriels, mais sont reprsents pour
l'tape d'interprtation. Dans le cas des variables, il s'agit de variables quantitatives qui
peuvent tre continues ou nominales. L'ajout d'lments illustratifs doit rester exceptionnels, car ils n'appartiennent normalement pas au champ strict de l'tude. Il peut
cependant parfois tre intressant de supprimer un individu provoquant un eet de taille
dans le calcul des axes, et de le faire apparatre pour interprter ses projections en fonction
des autres individus.
3.5 Conclusion
Dans un premier temps rsumons l'analyse en composantes principales l'aide des
neuf tapes de la gure 3.9 :
- 1 : La premire tape concerne la mise en forme des donnes brutes.
- 2 : La deuxime tape consiste centrer et rduire les donnes. Elles sont centres
an d'obtenir des proprits intressantes, et rduites pour uniformiser les units de
mesure.
- 3 : Le tableau est considr comme juxtaposition de lignes.
36
CHAPITRE 3.
- 4 : Le tableau est considr comme juxtaposition de colonnes.

- 5 : Les individus sont reprsents dans un espace
NI
dimensions. Dans le nuage
nous nous intressons aux distances inter-individuelles qui dterminent les res-
G reprsente un individu moyen.

6 : Les variables sont reprsentes dans un espace I dimensions. Nous nous intres-
semblances. Le centre de gravit

-
sons ici aux angles des points. Le cosinus de l'angle est le coecient de corrlation.
Toutes les variables sont quidistantes de l'origine car les donnes ont t rduites,
ainsi le nuage
NK
se situe sur une hypersphre.
- AF : Analyse Factorielle. Cette phase permet de mettre en vidence une suite de

directions. Dans l'tape 7 ces directions sont des directions d'allongement, et dans
l'tape 8 les axes s'interprtent comme des variables synthtiques.
- 7 : Cette tape consiste projeter les points du nuage
NI
sur le premier plan
factoriel. C'est un premier ajustement, il peut y en avoir d'autres suivre. Les

distances s'interprtent alors comme des ressemblances entre les individus.
- 8 : Cette tape consiste projeter les points du nuage
NK
sur le premier plan
factoriel. Ici aussi, c'est un premier ajustement, et il peut y en avoir d'autres

suivre. Les coordonnes reprsentent les coecients de corrlation avec les facteurs
sur les individus.
- Les relations de transition expriment les rsultats d'une analyse factorielle (AF)
dans un espace en fonction des rsultats de l'autre.
- 9 : Cette tape est la reprsentation simultane de nuages de points qui se trouvent
initialement dans des espaces de dimensions direntes. Cette reprsentation issue
des relations de transition permet des interprtations des axes simultanes.
L'ACP est une mthode puissante pour synthtiser et rsumer de vastes populations dcrites par plusieurs variables quantitatives. Elle permet entre autre de dgager
de grandes catgories d'individus et de raliser un bilan des liaisons entre les variables.
Par cette analyse nous pouvons mettre en vidence de grandes tendances dans les donnes telles que des regroupements d'individus ou des oppositions entre individus (ce qui
traduit un comportement radicalement dirent de ces individus) ou entre variables (ce
qui traduit le fait que les variables sont inversement corrles). Les reprsentations graphiques fournies par l'ACP sont simples et riches d'informations. L'ACP peut tre une
premire analyse pour l'tude d'une population dont les rsultats seront enrichis par une
autre analyse factorielle ou encore une classication automatique des donnes.
3.5.
37
CONCLUSION
Fig. 3.9 Rsum de l'ACP.
38
CHAPITRE 3.
Chapitre 4
Analyse Factorielle des
Correspondances
4.1 Introduction
L'analyse factorielle des correspondances a t introduite par [Ben80b] sous le nom
d'analyse des correspondances. Elle porte galement le nom d'analyse des correspondances
binaires en relation avec l'analyse des correspondances multiples que nous prsentons
ensuite. Nous la notons par la suite AFC. Cette analyse peut tre prsente sous de
nombreux points de vues, notamment comme un cas particulier de l'analyse canonique
ou encore de l'analyse factorielle discriminante. Elle peut aussi tre tudie comme une
ACP avec une mtrique spciale (celle du
2 ) [Sap90]. Nous la prsentons ici suivant les
points dgags par une analyse factorielle vus au chapitre 2.
4.1.1 Les domaines d'application

Trs tt cette analyse a t utilise en pratique car elle est conue pour les
de contingence
tableaux
et permet ainsi l'tude des liaisons (dites aussi correspondances) existant
entre deux variables nominales. Les domaines d'application de l'AFC sont donc dirents
de ceux de l'ACP qui est adapte aux tableaux de mesures htrognes ou non.
Pour cette analyse aussi nous pouvons donner une longue liste des disciplines ayant
trouv rponse leur problme par l'AFC. Ainsi, l'cologie, la zoologie, la psychologie,
l'conomie, et d'autres encore dans lesquelles il peut tre intressant d'tudier les liaisons
entre deux variables nominales, ont fourni un grand nombre de donnes.
L'AFC conue pour les tableaux de contingence (
aux tableaux de mesures homognes (
i.e. frquences), peut tre applique
i.e. mme systme d'units), aux tableaux de notes,
de rangs, de prfrences, aux tableaux valeurs logiques (0 ou 1), et encore aux tableaux
issus de questionnaires d'enqutes.
39
40
CHAPITRE 4.
ANALYSE FACTORIELLE DES CORRESPONDANCES
Modalit de la
seconde variable
premire variable
Modalit de la
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
kij
......
.
.
.
.
.
.
Tab. 4.1 Reprsentation des donnes pour l'AFC.
4.1.2 Les donnes

Les donnes, la dirence de l'ACP, doivent tre organises en tableaux de contingence (appels aussi tableau de dpendance ou tableau crois).
Dnition 4.1.1 Un tableau de contingence est un tableau d'eectifs obtenus en croisant les modalits de deux variables qualitatives dnies sur une mme population de n
individus.
L'AFC peut galement tre tendue aux variables quantitatives homognes en dnissant
simplement quelques modalits pour ces variables. Par extension, elle s'applique aussi aux
tableaux individus-variables pour des variables quantitatives homognes, dans ce cas les
individus sont considrs comme des variables.
Nous devons donc considrer les donnes brutes organises de la faon dcrite sur
le tableau 4.1. Dans ce cas,
= f 1; ; I g J
f1; ; J g kij
, et
reprsente le nombre de lignes et l'ensemble des lignes
reprsente le nombre de colonnes et l'ensemble des colonnes
est le nombre d'individus possdant la fois la modalit
variable et la modalit
i de la premire
de la seconde variable. Nous avons donc :
XX
i2I j 2J
avec
kij = n;
(4.1)
n le nombre total d'individus de la population initiale. Nous constatons que sur ce
type de tableau les lignes et les colonnes jouent un rle symtrique.

Davantage que le tableau 4.1, c'est le tableau des frquences relatives 4.2 qui est
considr. Les frquences
fij
sont donnes par :
fij =
et les marges par :
fi =
kij
;
n
X
j 2J
fij ;
(4.2)
(4.3)
4.1.
41
INTRODUCTION
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
fij
fi
......
.
.
.
.
.
.
marge
marge
fj
Tab. 4.2 Tableau des frquences relatives pour l'AFC.
et
fj =
X
i2I
fij :
(4.4)
Nous avons ainsi :
X
i2I
fi =
Liaisons entre les variables
X
j 2J
fj =
XX
i2I j 2J
fij = 1:
(4.5)
Nous avons vu que l'AFC considre un tableau de contin-
gence ou de frquence pour tudier les liaisons entre les deux variables l'initiative du
tableau. Nous ne pouvons plus dnir les liaisons par les coecients de corrlation comme
cf. Chapitre 3).
pour l'ACP (
Dnition 4.1.2 Il y a indpendance entre les deux variables considres si :

fij = fi fj ; 8i 2 I; 8j 2 J:
(4.6)
Dnition 4.1.3 Nous disons qu'il y a liaison entre ces deux variables, ou que ces deux
variables sont lies si elles ne sont pas indpendantes.
Ainsi nous pouvons dire que :
- Si
fij
est suprieur au produit des marges, les modalits
et
s'associent plus
que sous l'hypothse d'indpendance. Nous dirons que les deux modalits
s'attirent.
- Si
fij
est infrieur au produit des marges, les modalits
et
i et j s'associent moins que
sous l'hypothse d'indpendance. Nous dirons qu'il y a rpulsion entre les deux
modalits
i et j .
42
CHAPITRE 4.
Sous l'hypothse d'indpendance nous avons :

- en considrant le tableau comme un ensemble de lignes :
fij
fi
= fj ; 8i 2 I; 8j 2 J;
(4.7)
- en considrant le tableau comme un ensemble de colonnes :
fij
fj
= fi; 8i 2 I; 8j 2 J:
Dans l'quation (4.7), le terme de droite
fj
(4.8)
s'interprte comme le pourcentage de la
f
j , et le terme ij
fi
dans la sous-population possdant la modalit i.
population totale possdant la modalit
reprsente ce mme pourcentage
Ainsi il y a indpendance lorsque les lignes du tableau de frquences sont proportionnelles. Par symtrie il en est de mme pour les colonnes.
4.1.3 Les objectifs

Les objectifs sont les mmes que ceux de l'ACP dans le sens o l'AFC cherche donc
obtenir une typologie des lignes et une typologie des colonnes, puis de relier ces deux typologies. Il faut donc faire ressortir un bilan des ressemblances entre lignes (respectivement
colonnes) en rpondant aux questions du type :
- Quels sont les lignes (respectivement colonnes) qui se ressemblent ?
- Quelles sont celles qui sont direntes ?
- Existe-t-il des groupes homognes de lignes (respectivement colonnes) ?
- Est-il possible de mettre en vidence une typologie des lignes (respectivement des
colonnes) ?
La notion de ressemblance entre deux lignes ou deux colonnes dire cependant de l'ACP.
En eet, deux lignes (respectivement deux colonnes) sont
proches
si elles s'associent de
la mme faon l'ensemble des colonnes (respectivement des lignes),
i.e. elles s'associent
trop ou trop peu par rapport l'indpendance.

Il faut donc chercher les lignes (respectivement colonnes) dont la rpartition s'carte
le plus de l'ensemble de la population, celles qui se ressemblent entre elles et celles qui
s'opposent. An de relier la typologie des lignes avec l'ensemble des colonnes, chaque
groupe de lignes est caractris par les colonnes auxquelles ce groupe s'associe peu ou
fortement. Par symtrie, chaque groupe de colonnes est caractris par les lignes auxquelles
ce groupe s'associe peu ou fortement. Ainsi nous pouvons dcomposer la liaison entre deux
variables en une somme de tendances simples et interprtables et mesurer leur importance
respective.
4.2 Principe de l'AFC

Nous allons prsenter le principe de l'AFC et la dmarche suivre en illustrant les
tapes par un tableau de donnes de faible dimension. De ce fait l'AFC ne se justie
4.2.
43
PRINCIPE DE L'AFC
Couleurs des cheveux

brun
chtain
roux
blond
Total
Couleurs
marron
68
119
26
220
des
noisette
15
54
14
10
93
yeux
vert
29
14
16
64
bleu
20
84
17
94
215
108
286
71
127
592
Total
Tab. 4.3 Tableau de contingence.

Prol
brun
chtain
roux
blond
moyen
Couleurs
marron
11,4
20,1
4,3
1,1
37,1
des
noisette
2,5
9,1
2,3
1,6
15,7
yeux
vert
0,8
4,8
2,3
2,7
10,8
bleu
3,3
14,1
2,8
15,8
36,3
18,2
48,3
11,9
21,4
Prol moyen
' 100
Tab. 4.4 Tableau des frquences observes.
pas vraiment, puisque les conclusions sont immdiates ds le tableau de contingence,

cependant nous verrons clairement le principe et les proprits de cette analyse.
Prenons l'exemple simple de la rpartition de 592 femmes selon les couleurs des yeux et
des cheveux (exemple propos par Cohen en 1980 et repris dans [LMP95]). Le tableau 4.3
de contingence donne le nombre de femmes possdant la fois une des quatre modalits de
I=J =4
n = 592. Le tableau des frquences 4.4 correspondant permet de ne plus tenir compte
la couleur des cheveux et une des quatre modalits de la couleurs de yeux. Ainsi
et
du nombre de femmes total. Ainsi nous pouvons nous demander s'il y a indpendance
entre la couleur des yeux et celle des cheveux, ou encore quelles sont les associations entre
ces couleurs. Sur cet exemple les rponses sont assez faciles, cependant lorsque la taille
des donnes est plus importante, nous ne pouvons travailler directement sur le tableau
des donnes brutes. Comme dans l'ACP, il y a une tape de transformation des donnes.

Nous allons considrer le tableau d'une part comme une suite de lignes, puis comme
cf. tableau 4.5). Lorsque le tableau est considr en ligne les donnes
fi , la nouvelle ligne ainsi cre est appele prol-ligne .
une suite de colonnes (
sont normalises en divisant par
Cette normalisation a pour but de considrer les liaisons entre les deux variables au travers
de l'cart entre les pourcentages en lignes. Dans cette exemple
d'avoir les cheveux de couleur
fij
fi
reprsente la probabilit
j sachant que la couleur des yeux est i. Le prol-ligne i est

i sur l'ensemble des colonnes. Un raisonnement
la probabilit conditionnelle dnie par
similaire peut tre fait pour les colonnes du fait du rle symtrique jou par les lignes
44
CHAPITRE 4.
......
1
.
.
.
.
.
.
......
1
.
.
.
.
.
.
.
.
.
.
.
.
fij
fi
......
.
.
.
.
.
.
......
...
...
fij
fj
...
...
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
Tab. 4.5 Les prol-ligne et prol-colonne.

brun
chtain
roux
blond
Couleurs
marron
30,9
54,0
11,8
3,1
des
noisette
16,1
58,0
15,0
10,7
vert
7,8
45,3
21,8
25,0
bleu
9,3
39,0
7,9
43,7
18,2
48,3
11,9
21,4
yeux
Prol moyen
Prol
moyen
' 100
' 100
' 100
' 100
' 100
Tab. 4.6 Prols-lignes (exprims en pourcentages-lignes arrondis).
et les colonnes. Ainsi

couleur
fij
fj
reprsente la frquence pour une femme d'avoir les yeux d'une
i sachant qu'elle a les cheveux de couleur j . Si nous reprenons notre exemple sur
les couleurs de cheveux et des yeux, nous obtenons les prols-lignes et les prols-colonnes
donns respectivement par les tableaux 4.6 et 4.7.
Le tableau 4.6 reprsente donc les
probabilits conditionnelles d'avoir les cheveux de la couleur
j sachant que les yeux ont la
couleur . Le tableau 4.7 fournit la rpartition de la couleur des yeux selon les modalits de
la couleur des cheveux. Nous avons donc par exemple 31 chances sur 100 que les femmes
qui ont les yeux marrons aient les cheveux de couleur brun, et 63 chances sur 100 que les
femmes qui ont les cheveux de couleur brun aient les yeux marrons. Nous savons aussi
partir du tableau 4.4 que 11 femmes sur 100 ont la fois les yeux marrons et les cheveux
de couleur brun.
4.2.2 La ressemblance entre prols

La ressemblance entre deux lignes ou entre deux colonnes est dnie par une distance
entre prols. La distance employe est celle du
2
et elle est dnie de faon symtrique
4.2.
45
PRINCIPE DE L'AFC
Prol
brun
chtain
roux
blond
moyen
5,5
37,1
Couleurs
marron
62,9
41,6
36,6
des
noisette
13,8
18,8
19,7
7,8
15,7
yeux
vert
4,6
10,1
19,7
12,5
10,8
bleu
18,5
29,3
23,9
74,0
36,3
Prol moyen
' 100 ' 100 ' 100 ' 100 ' 100
Tab. 4.7 Prols-colonnes (exprims en pourcentages-colonnes arrondis).
pour les lignes et les colonnes. Ainsi entre deux lignes
X 1
d2 (i; i0 ) =
f
j 2J j
et entre deux colonnes
La matrice diagonale
et
1
f j
1
IR . Cette pondration
fij
fi
fi0 j
fi0 :
2
fij
fj
fij 0
f j 0
2
(4.9)
(4.10)
j 0 par :
X 1
d2 (j; j 0 ) =
f
i2I i
f j
i et i0 elle est donne par :
dnie la mtrique dans IR , tandis que
fi
dnie celle dans
quilibre l'inuence des colonnes sur la distance entre les lignes
en augmentant les termes concernant les modalits rares.
Remarque
D'autres distances pourraient tre employes, cependant la distance eucli-
dienne usuelle entre les points-lignes ou entre les points-colonnes exprims partir du
tableau de frquence ne traduit que les dirences d'eectifs entre deux modalits. La
distance euclidienne entre les prols-lignes ou entre les prols-colonnes permet de bien
modliser les ressemblances entre deux modalits. Par exemple pour la distance entre
deux prols-lignes est donne par :
X fij
d(i; i0 ) =
fi
j 2J
fi 0 j
fi0 :
2
Cependant cette distance favorise les colonnes ayant une masse
(4.11)
f j
important. Ainsi dans
notre exemple elle favorise les couleurs de cheveux bien reprsentes tel que le chtain.
C'est pour cette raison que la distance retenue dans l'quation (4.9) (respectivement
(4.10)) l'cart entre les prols est pondr par l'inverse de la masse de la colonne (respec-
2 car elle proportionnelle

2
la statistique du de Karl Pearson. De plus cette distance du possde une proprit
fondamentale nomme l'quivalence distributionnelle . Cette proprit permet d'associer
tivement de la ligne). Cette distance est nomme distance du
46
CHAPITRE 4.
deux modalits d'une mme variable qui possde des prols identiques en une modalit
unique aecte de la somme de leurs masses, sans modier ni les distances entre les modalits de cette variable, ni les distances entre les modalits de l'autre variable. Ainsi, si deux
colonnes proportionnelles d'un tableau sont regroupes, les distances entre prols-lignes
sont inchanges, et rciproquement. Ceci permet de regrouper des modalits voisines pour
ainsi rduire le nombre de modalits et donc la complexit de l'interprtation en garantissant une certaine invariance des rsultats.
4.2.3 Les nuages des deux prols

Le nuage des prols-lignes
Lorsque nous nous intressons aux modalits de la premire variable, il faut considrer
les donnes comme une juxtaposition de prols-lignes. Ainsi chaque prol-ligne
tre reprsent comme un point de l'espace IR
cf.
une modalit de la seconde variable (
Fig. 4.1 Le nuage
deux prols est celle
2 ,
NI
dont chacune des
peut
dimensions reprsente
gure 4.1). L'utilisation de la distance entre
des prols-lignes dans l'espace IR .
elle revient aecter le poids
f j
j me dimension de IRJ .
nuage NI appartient un
la
Du fait que la somme de chaque prol-ligne est gale 1, le
HI . Pour l'AFC les poids aects chaque point du nuage sont imposs
et ne sont pas identiques. Le point i a pour poids la frquence marginale fi . Ce poids est
hyperplan, not
4.2.
47
PRINCIPE DE L'AFC
naturel puisqu'il est proportionnel l'eectif de la classe d'individus qu'il reprsente. La
f
i sur l'axe j est donne par ij .
fi
Le barycentre des points de NI munis de ces poids, not GI , est la moyenne pondre
de tous les points sur tous les axes j . La coordonne de GI sur l'axe j est donc donne
coordonne du point
par :
X
i2I
fi
fij
fi
= fj :
(4.12)
Le barycentre s'interprte comme un prol-moyen. Dans l'tude des lignes, il sert de

rfrence pour tudier dans quelle mesure et de quelle faon une classe d'individus dire
de l'ensemble de la population. Ceci se fait par l'tude de l'cart entre le prol de cette
classe et le prol moyen. Ainsi l'tude de la dispersion du nuage autour de son barycentre
quivaut l'tude de l'cart entre prols et marge ou encore l'tude de la liaison entre
les deux variables.
Le nuage des prols-colonnes

La construction du nuage des prols-colonnes est identique celle du nuage des prolslignes du fait de la symtrie entre les lignes et les colonnes en AFC. Ainsi, lorsque nous nous
intressons aux modalits de la seconde variable, il faut considrer les donnes comme une
juxtaposition de prols-colonnes. Chaque prol-colonne
j peut tre reprsent comme un
I dimensions reprsente une modalit de la premire

fij
variable (cf. gure 4.2). Le point i a pour coordonne sur l'axe i la proportion
, et le
fj
poids qui lui est associ est fi . Le nuage NJ appartient un hyperplan not HJ . De plus
le barycentre des points de NJ munis de leur poids a pour coordonne sur l'axe i :
X
f
(4.13)
fj ij = fi :
fj
j 2J
point de l'espace IR dont chacune des
Ce barycentre s'interprte galement comme un prol moyen et joue le mme rle pour
l'tude de la liaison entre les deux variables.
4.2.4 L'ajustement des deux nuages

Les deux hyperplans
HI
et
HJ
sont de grande dimension si la taille des donnes est
importante. Nous ne pouvons donc pas les tudier directement. Ainsi, nous cherchons
fournir des images planes des nuages
NI
et
NJ .
La dmarche reste la mme que celle
prsente au Chapitre 2.
Ainsi, pour l'ajustement du nuage des prols-lignes, nous cherchons une suite d'axes
fus ; s = 1; ; S g sur lesquels le nuage NI est projet. Chaque

us doit rendre maximum l'inertie projete du nuage NI . En pratique, nous devons
orthogonaux deux deux

axe
centrer le nuage
NI ,
ainsi le centre de gravit
Gi
devient l'origine des axes. Une fois le
48
CHAPITRE 4.
Fig. 4.2 Le nuage
nuage centr, la modalit
NJ
des prols-colonnes dans l'espace IR .
i a pour coordonne
fi
fij
fj
exprime la dirence entre la rpartition de la classe
sur le
j me axe. Cette coordonne
et celle de la population totale
sur l'ensemble des modalits de la seconde variable. La recherche des axes qui rendent
maximum l'inertie du nuage centr revient donc chercher les classes qui s'cartent le
plus du prol de l'ensemble de la population. Chaque prol-ligne tant muni d'un poids
fi , l'inertie est donne par :
X
i2I
fi
L'ajustement du nuage des prols-lignes
fi
fij
NI
2
fj
dans IR
(4.14)
revient donc chercher le premier
u1 qui rende cette inertie maximale, puis par chercher le vecteur unitaire
u2 orthogonal u1 qui vrie le mme critre, etc.
vecteur unitaire
Cette dmarche est semblable celle de l'ACP, l'exception du fait que les lignes
interviennent au travers de leur prol, que la distance entre les prols est celle du
que chaque lment
i est aect d'un poids fi .
2
et
Puisqu'en AFC les lignes et les colonnes jouent un rle symtrique, l'ajustement du
nuage
NJ
est semblable celui de
NI . Ainsi les images planes du nuage NJ
doivent tre
telles que les distances entre les points de l'image ressemblent le plus possible aux distances
entre les points du nuage
barycentre
GJ .
NJ .
L'analyse du nuage
NJ
se fait galement par rapport au
4.2.
49
PRINCIPE DE L'AFC
4.2.5 Reprsentation simultane

En AFC, la reprsentation simultane des deux nuages
NI et NJ repose sur une dualit
plus riche qu'en ACP car les lignes et les colonnes reprsentent des lments de mme
NI
nature. Les deux nuages
NJ
et
sont deux reprsentations du mme tableau en le
considrant en tant que prols-lignes et prols-colonnes. L'analyse du tableau passe donc

par les analyses des nuages qui ne sont pas indpendantes.
Remarque sur l'inertie

INI
X
i2I
fi
L'inertie du nuage
X
j 2J
fj
fij
fi
fj
est donne par :
XX
(fij
i2I j 2J
fi fj )2
:
fi fj
(4.15)
NI . Cette inertie
2
reprsente la liaison entre les deux variables. En eet la statistique du habituellement
Nous constatons que l'inertie du nuage
NJ
2
NI
est identique celle du nuage
employe pour mesurer la liaison entre deux variables est la somme du rapport avec pour
numrateur le carr de la dirence de l'eectif observ et de l'eectif thorique et pour
dnominateur l'eectif thorique :
XX
i2I j 2J
(nfij
nfi fj )2
nfi fj
= nINI = nINJ :
(4.16)
2 est gale, au coecient n prs, l'inertie totale du nuage NI

2
du nuage NJ . Ceci justie une nouvelle fois l'emploi de la distance du .
Ainsi la statistique du
et
Nous avons vu au chapitre 2 que les inerties associes chaque axe de mme rang
dans chacun des nuages sont gales, ainsi que les facteurs de mme rang sur les lignes et
les colonnes sont lis par des relations de transition. Ces relations donnent un sens une
reprsentation simultane. Le schma de dualit de la gure 4.3 reprsente les relations de
transition (appeles galement barycentriques, ou encore quasi-barycentriques) donnes
par :
FS (i)
p1
8
>
>
>
>
>
<
FS (i) =
>
>
>
>
>
:
1
GS (j ) = p

X fij
S j 2J
GS (j )
X fij
S i2I
reprsente la projection de la ligne
reprsente la projection de la colonne
fi
f j
(4.17)
FS (i)
sur l'axe de rang
sur l'axe de rang
NI , GS (j )
NJ , et S est la
du nuage
du nuage
valeur commune de l'inertie associe chacun de ces axes. Elle est donne par :
S =
X
i2I
fi [FS (i)]2 =
X
j 2J
fj [GS (j )]2 :
(4.18)
50
CHAPITRE 4.
Fig. 4.3 Le schma de dualit pour l'AFC.
i sur l'axe S est le barycentre des projections des colonnes

colonne j tant aecte du poids fij . Cette proprit est appele
La projection de la ligne
sur l'axe
S,
chaque
proprit barycentrique.
La reprsentation simultane s'obtient en superposant les projections de chacun des
deux nuages
NI
et
NJ
sur des plans engendrs par des axes de mme rang pour les
deux nuages. Bien sr les deux nuages ne sont pas forcment dans le mme espace. Si la
reprsentation simultane n'est pas adopte par tous pour l'ACP, elle se justie beaucoup
mieux pour l'AFC. En fait pour pouvoir rellement superposer les deux nuages, il faudrait
avoir les mmes barycentres car chaque nuage devrait alors tre contenu dans l'autre. Cette
reprsentation est possible en forant les centres de gravit pour approcher la solution
idale. Les relations seront alors quasi-barycentriques.
4.3 Interprtation
La reprsentation simultane des lignes et des colonnes permet une interprtation aise
des projections. Ainsi la position relative de deux points d'un mme ensemble (ligne ou
colonne), s'interprte en tant que distance. La position d'un point d'un ensemble et tous les
points d'un autre ensemble s'interprte en tant que barycentre. Attention cependant, toute
association entre une ligne et une colonne suggre par une proximit sur le graphique
doit tre contrle sur le tableau.
Reprenons l'exemple prcdent sur la couleur des yeux et des cheveux. La reprsentation simultane sur le premier plan factoriel (
cf.
gure 4.4) montre par exemple que
les femmes aux yeux bleus et aux yeux marrons sont loignes. En conrmation avec le
tableau, nous remarquons que les femmes aux yeux bleus auront tendance avoir les
cheveux blonds, ainsi que pour celles aux yeux marrons qui seront davantage brunes.
Les femmes aux cheveux roux auront plutt les yeux verts ou noisettes. La modalit des
4.3.
51
INTERPRTATION
cheveux chtains est proche de l'origine, elle reprsente donc un prol moyen et n'est
rattache aucune couleur de cheveux.
Fig. 4.4 Reprsentation simultane dans le premier plan sur l'exemple de Cohen.
Pour l'interprtation, il peut tre utile partir des nuages de points d'en dduire les
relations d'indpendance et l'inertie totale et des axes. Nous reprenons les principaux
cas tudis dans [LMP95] sur la gure 4.5. Ainsi une inertie faible du nuage entrane un
nuage concentr autour du centre de gravit tandis qu'une inertie forte donne un nuage
dilat. L'indpendance des variables donne une forme sphrique au nuage, ce qui entrane
aucune direction privilgie pour les axes, l'inertie des axes est donc dans ce cas faible. Au
contraire l'existence d'une dpendance provoque un tirement du nuage dans une direction
donne.
Lorsque les nuages de points sont scinds en plusieurs sous-nuages, il est possible de
rorganiser les donnes du tableau en ordonnant les coordonnes des lignes et des colonnes
cf. gure 4.6). Ceci permet alors d'tudier les
de faon regrouper les frquences nulles (
sous-nuages indpendamment en considrant les parties du tableau correspondant.

Gnralement, l'interprtation se limite aux premiers facteurs, nous considrons ainsi
une approximation du tableau initial. Les calculs de reconstruction de l'analyse factorielle
s'appliquent ici. Il est possible de montrer que :
fij
fi fj = fi fj
X Fs
s2S
(pi)Gs(j ) :

s
(4.19)
Cette formule prsente la dcomposition de l'cart du tableau relativement l'hypothse

d'indpendance en une somme de tableaux dont chacun ne dpend que d'un couple de
facteurs
(Fs; Gs)
d'un mme rang. Elle dcompose ainsi la liaison des deux variables en
lments simples. En eet, chaque terme
fi fj Fs (i)Gs (j ) reprsente la liaison simple entre
52
CHAPITRE 4.
Fig. 4.5 Inertie et dpendance.
les modalits
i et j . Ainsi, si Fs (i) et Gs (j ) sont du mme signe, la case (i; j ) du tableau
exprime une attirance, sinon elle exprime une rpulsion. L'attirance et la rpulsion seront
d'autant plus grande que la valeur absolue du produit
Fs (i)Gs (j ) est grande.
Puisque le tableau est approch, lorsqu'une partie seulement est considre pour l'analyse, il est important d'employer des indicateurs pour l'interprtation. Ceux utiliss pour
l'AFC sont les mmes que ceux de l'ACP que nous avons vu la section 3.4 du chapitre
prcdent. Nous pouvons donc tudier la qualit de reprsentation d'un lment par un
axe ou un plan. La qualit de reprsentation d'une ligne par un axe
rapport de l'inertie projete du point sur l'axe
s est donne par le
s par l'inertie totale du point :
fi Fs (i)2
;
fi d2 (GI ; i)
et la qualit de reprsentation d'une ligne par un plan dni par les axes
(4.20)
s et t est donne
par :
fi Fs (i)2
fi Ft (i)2
+
:
fi d2 (GI ; i) fi d2 (GI ; i)
(4.21)
La qualit de reprsentation d'un nuage par un plan est mesure par le rapport de
l'inertie projete du nuage sur l'axe
s et de l'inertie totale du nuage :

s
;
s
X
s2S
multiplie par 100, elle reprsente le pourcentage d'inertie.
(4.22)
4.3.
53
INTERPRTATION
Fig. 4.6 Relation entre la forme du nuage de points et le tableau.
Enn la contribution d'un lment l'inertie d'un axe est mesure par le rapport de
l'inertie du point et de l'inertie du nuage. Lorsque l'lment est une ligne, la contribution
l'inertie d'un axe
s est donne par :
fi Fs (i)2
;
s
et dans le cas d'un plan form des axes s et t :
fi [Fs (i)2 + Ft (i)2 ]

:
s + t
(4.23)
(4.24)
Il est aussi possible, comme pour l'ACP, d'ajouter des lments supplmentaires, illustratifs qui sont projets sur les plans tudis. Leur utilisation pour l'AFC est plus frquente
que pour l'ACP, car il peut y avoir beaucoup de variables pour une tude donne qui ne
sont pas considres dans cette analyse. Les projections sur les axes factoriels des prolslignes ou des prols-colonnes de ces lments n'interviennent pas dans les calculs de ces
axes.
Pour une bonne interprtation des plans de projection en AFC, nous proposons de
suivre le plan suivant :
- Choisir le nombre d'axes de projection tudier. Ce choix peut se faire par la mme
approche que celle dcrite pour l'ACP.
- Etudier les valeurs propres. Les valeurs propres proches de 1 traduisent une forte
liaison entre les lignes et les colonnes.
- Etudier la contribution des lignes et des colonnes de la mme faon que pour l'ACP.
- Etudier les coordonnes des lments actifs :
- ceux qui prsentent une forte contribution,
- les extrmes avec une forte qualit de reprsentation (pour qualier le facteur).
54
CHAPITRE 4.
4.4 Conclusion
Nous rsumons l'AFC en neuf tapes illustres par la gure 4.7 :
- 1 : Cette premire tape donne le tableau de contingence des modalits communes
aux deux variables. Les lignes et les colonnes jouent des rles symtriques.
- 2 : Cette deuxime tape modie le tableau en frquences. Ces frquences font
apparatre des lois de probabilits.
- 3 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en divisant par
fi . Ces lignes sont appeles prol-lignes et peuvent tre
interprtes comme des probabilits conditionnelles.

- 4 : Nous considrons ici le tableau comme une juxtaposition de colonnes aprs
transformation en divisant par
fj .
Ces colonnes sont appeles prol-colonnes et
peuvent tre interprtes comme des probabilits conditionnelles.

- 5 : Les prols-lignes qui constituent le nuage
nuage
NI
se situe dans un hyperplan
centre de de gravit
GI
NI
HI . Le nuage NI
Le nuage
NJ
se situe dans un hyperplan
au centre de gravit
GJ
est analys par rapport au
qui constitue un prol moyen.
- 6 : Les prols-colonnes qui constituent le nuage
sont projets dans l'espace IR . Le
NJ
sont projets dans l'espace IR .
HJ . Le nuage NJ
est analys par rapport
qui constitue un prol moyen.
- AF : Analyse Factorielle. Elle permet de mettre en vidence une suite de directions

orthogonales, d'tudier les projections en 7 et 8 en fonction de leurs proximits entre
elles et par rapport l'origine qui correspond un prol moyen.
- 7 : Cette tape consiste en la projection du nuage
NI
sur le premier plan factoriel.
Les distances correspondent des ressemblances entre les modalits.

NJ

- Relations de transition : ces relations expriment les rsultats d'une AF en fonction
des rsultats de l'autre.
- 9 : Les relations de transition permettent des interprtations simultanes des axes.
Cette reprsentation simultane facilite l'interprtation. Attention toute association
entre un point-ligne et un point-colonne suggre par une proximit doit tre contrle sur le tableau.
L'ACP et l'AFC sont direntes en plusieurs points, elles fournissent des clairages
complmentaires. L'AFC est une mthode puissante pour synthtiser et rsumer de vastes
tableaux de contingence. En pratique elle est applique beaucoup d'autres tableaux,
notamment les tableaux individus-variables. Les individus sont alors considrs comme
une variable.
Dans le cas de tableaux de contingence, le principal objectif de cette analyse est de
dgager les liaisons entre deux variables. L'analyse des correspondances multiples que nous
exposons dans le chapitre suivant permet l'tude des liaisons entre plus de deux variables.
4.4.
55
CONCLUSION
Fig. 4.7 Rsum de l'AFC.
56
CHAPITRE 4.
Chapitre 5
Analyse des Correspondances Multiples
5.1 Introduction
L'AFC peut se gnraliser de plusieurs manires dans le cas o non plus deux variables
sont mises en correspondance, mais deux ensembles de variables. La gnralisation la plus
simple et la plus employe est l'analyse des correspondances multiples. Nous la notons dans
ce qui suit ACM. Cette analyse a particulirement t tudie par B. Escoer [EP90] et
J.P. Bezcri [Ben80b].

Cette analyse trs simple est non plus adapte aux tableaux de contingence de l'AFC,
mais aux tableaux
disjonctifs complets
que nous dcrivons ci-dessous. Ces tableaux sont
des tableaux logiques pour des variables codes. Les proprits de tels tableaux font de
l'ACM une mthode spcique aux rgles d'interprtation des reprsentations simples.
Elle permet donc l'tude des liaisons entre plus de deux variables qualitatives, ce qui
tend le spectre d'tude de l'AFC.
L'ACM est donc trs bien adapte au traitement d'enqutes lorsque les variables sont
qualitatives (ou rendues qualitatives). Il est galement possible de n'appliquer cette mthode plusieurs fois en ne prenant en compte que quelques variables.
5.1.2 Les donnes

L'ACM permet l'tude de tableaux dcrivant une population de
individus et
variables qualitatives. Une variable qualitative (ou nominale) peut tre dcrite par une
I individus dans un ensemble ni non structur, par exemple

non ordonn. Ces variables qualitatives peuvent tre codes par un codage condens qui
application de l'ensembles des
attribue une valeur chaque modalit. Par exemple les modalits pour la couleur d'un vin
peuvent tre 1 pour le rouge, 2 pour le blanc et 3 pour le ros. Les donnes peuvent donc
X dcrite par le tableau 5.1, o I reprsente

la fois le nombre d'individus et l'ensemble des individus I = f1; ; I g, J reprsente
tre reprsentes sous la forme d'une matrice
57
58
CHAPITRE 5.
ANALYSE DES CORRESPONDANCES MULTIPLES
Variables
Individus
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
xij
......
.
.
.
.
.
.
Tab. 5.1 Reprsentation des donnes sous forme de codage condens pour l'ACM.
la fois le nombre de variables et l'ensemble des variables

codage condens de l'individu
Les
xij
i pour la variable j .
= f 1; ; J g
et
xij
est le
reprsentant une codication, en prendre la moyenne n'a aucun sens. Ces
donnes ne peuvent donc pas tre traites par l'ACP ou l'AFC prcdemment tudies.
Ce tableau prsente donc des spcicits dont l'analyse factorielle doit tenir compte par
une mthode spcique.
5.1.3 Les objectifs

Les objectifs que cette mthode spcique, l'ACM, doit remplir sont les mmes que
ceux de l'ACP ou de l'AFC. Il s'agit d'obtenir une typologie des lignes et des colonnes
et relier ces deux typologies. Nous aurons ici trois familles d'lments tudier, les individus, les variables et les modalits des variables. Cette tude se fait par la dnition
de ressemblances et liaisons pour ces trois familles que nous dtaillons dans la section
suivante. An d'tablir un bilan des ressemblances entre individus, comme en ACP nous
cherchons rpondre des questions du type :
- Quels sont les individus qui se ressemblent ?
- Quelles sont ceux qui sont dirents ?
- Existe-t-il des groupes homognes d'individus ?
- Est-il possible de mettre en vidence une typologie des individus ?
Les mmes types de questions se posent pour les variables et les modalits.
5.2 Principe de l'ACM

Le principe de base de l'ACM repose dans un premier temps sur une transformation
des donnes du tableau 5.1 pour modier la codication en nombres binaires. L'analyse
applique ensuite le mme principe que l'AFC, en transformant ce tableau disjonctif complet ainsi obtenu en prols-lignes et en prols-colonnes. La distance du
employe pour dnir les liaisons.
2
est galement
5.2.
59
PRINCIPE DE L'ACM
Variable 1
Individus
Variable
...............
1
.
.
.
.
.
.
Variable
J
K
...............
marge
.
.
.
.
.
.
xik
0100000
0000100
.
.
.
.
.
.
.
.
.
.
.
.
marge
J
I1
Ik
IK
Tab. 5.2 Reprsentation des donnes sous forme de codage condens pour l'ACM.

Une autre reprsentation du tableau 5.1 est le tableau disjonctif complet. Il reprsente
les individus en ligne, alors que les colonnes reprsentent les modalits des variables (et
cf. tableau 5.2). Ainsi, l'intersection de la ligne i avec la colonne

k, la valeur xik vaut 1 si l'individu i possde la modalit k et 0 sinon. Ce tableau porte
le nom de disjonctif complet , car l'ensemble des valeurs xik d'un mme individu pour
non plus les variables) (
les modalits d'une mme variable, comporte la valeur 1 une fois (complet) et une fois
seulement (disjonctif ). Chaque modalit
k est reli une variable j . Nous avons ainsi trois
familles d'lments les individus, les variables et les modalits.
jX
et galement l'ensemble des modalits de cette variable Kj = f1; ; Kj g. Ainsi K =
Kj est la fois le nombre des
Notons
Kj
le nombre des modalits de la variable
modalits toutes variables confondues et l'ensemble

les galits suivantes :
X
k2Kj
xik = 1; 8(i; j );
i2I
j 2J
= f 1; ; K g
. Nous avons donc
(5.1)
xik = J; 8i;
(5.2)
xik = Ik ; 8k;
(5.3)
k2K
60
CHAPITRE 5.
couleur
origine
apprciation
Individu 1
Individu 2
Individu 3
Individu 4
Individu 5
Individu 6
Individu 7
Individu 8
Tab. 5.3 Exemple du vin : tableau initial.
et
X
k2Kj
Ik = I; 8j:
(5.4)
Les proprits intressantes de l'ACM sont essentiellement dues aux proprits des
tableaux disjonctifs complets. Notons surtout que c'est un tableau binaire dont les lignes
sont de sommes constantes
et dont les colonnes sont regroupes par paquet corres-
pondant une variable avec pour somme par ligne gale 1.
Exemple 5.2.1
Pour une meilleure comprhension de cette transformation, nous pou-
vons l'illustrer par un exemple. Nous supposons avoir des donnes issues d'une enqute
sur l'apprciation du vin. Nous pouvons considrer trois variables : la couleur, l'origine et
l'apprciation de l'individu. Nous reprenons les trois modalits rouge, blanc et ros pour la
couleur codes respectivement par 1, 2 et 3. Nous considrons uniquement deux origines :
Bordeaux et Cte du Rhne, codes par 1 et 2, et quatre modalits pour l'apprciation :
mauvais, moyen, bon et trs bon codes respectivement par 1, 2, 3 et 4. Nous avons ainsi
trois variables (
=3
) et neuf modalits (
=9
). Les rsultats de l'enqute ctive sont
donns dans le tableau 5.3. Ainsi, par exemple l'individu 5 a moyennement apprci un
Bordeaux rouge. Le tableau disjonctif complet 5.4 dduit ce tableau initial prsente les
mmes informations. Ainsi, l'individu 5 prsente les modalits : rouge, Bordeaux, moyen.
Lorsque le nombre de variables est rduit deux (
=2
), les donnes peuvent tre
reprsentes sous la forme d'un tableau de contingence, comme dans l'AFC, mettant ainsi
en correspondance les modalits des deux variables. Il est possible d'tendre ce tableau
une hypertable de contingence lorsque
K2
et
K3 )
premire variable),
=3
cf.
gure 5.1), o
K1
(respectivement
reprsente le nombre de modalits de la premire (respectivement deuxime
et troisime) variable et
ds que
Iklm
est le nombre d'individus possdant les modalits
(de la
l (de la deuxime variable) et m (de la troisime variable). Cependant
augmentent le nombre de cases devient trs important et l'hypertable est alors
dicile manier et reprsenter.
5.2.
61
PRINCIPE DE L'ACM
Couleur
Origine
Apprciation
Ctes du
Trs
Rouge
Blanc
Ros
Bordeaux
Rhne
Mauvais
Moyen
Bon
Bon
Ind. 1
Ind. 2
Ind. 3
Ind. 4
Ind. 5
Ind. 6
Ind. 7
Ind. 8
Tab. 5.4 Exemple du vin : tableau disjonctif complet.
Fig. 5.1 Hypertable de contingence pour
J = 3.
L'hypertable tant problmatique pour un grand nombre de variables, pour gnraliser

le tableau de contingence deux variables, il est possible de considrer les tableaux de
contingence entre variables prises deux deux. Nous obtenons ainsi une juxtaposition de
tableaux de contingence. Un tel tableau est appel
c.f. tableau 5.5).
tableau de Burt
du nom de son auteur
Comme en ACP nous cherchons une typologie des individus. La notion de
blance
ressem-
est dtermine par le nombre de modalits en commun. Par exemple dans une
enqute d'opinion, il est important de mettre en vidence une classe d'individus dtermines par des variables. Pour l'tude des variables deux points de vue s'orent nous. Nous
pouvons caractriser les liaisons entre deux variables qualitatives en considrant les modalits, ou encore chercher rsumer l'ensemble des liaisons l'aide de quelques variables
numriques qui synthtisent l'ensemble des variables. Les catgories socio-professionnelles
peuvent ainsi rsumer une variable statut social. La richesse de l'ACM provient de l'tude
d'une troisime classe d'lments, les modalits. De la mme faon que les individus, nous
62
CHAPITRE 5.
Variable
1
..
.
.
.
.
..
.
.
.
.
.
.
..................
Ik
..
.
.
.
..
Ihk
.
.
.
K
marge
Variable
j0
Variable
.........
..

..
JIk
Tab. 5.5 Reprsentation des donnes sous forme du tableau de Burt.
pouvons chercher tablir un bilan des ressemblances entre modalits. Les ressemblances
entre modalits peuvent tre dnies partir du tableau disjonctif complet, ou bien
partir du tableau de Burt. Dans le premier cas une colonne est une variable indicatrice,
ainsi deux modalits se ressemblent si elles sont prsentes ou absentes chez beaucoup
d'individus. Dans le cas du tableau de Burt, une ligne ou une colonne correspond une
classe d'individus, ainsi deux modalits se ressemblent si elles s'associent beaucoup ou peu
aux mmes modalits. Ces deux points de vue aboutissent aux mmes rsultats. L'ACM
peut donc tre vue comme une AFC du tableau disjonctif complet ou comme une AFC
du tableau de Burt.
La richesse apporte par ces trois lments, ne doit pas occulter l'unicit du tableau,
et donc des conclusions parfois redondantes. Il sera donc prfr l'tude des modalits en
priorit.
5.2.2 L'analyse factorielle des correspondances du tableau disjonctif complet

Comme pour l'AFC, nous allons considrer le tableau disjonctif complet en prolslignes et en prols-colonnes. Pour se faire nous modions ce tableau pour considrer les
cf. tableau 5.6). Les frquences fik
frquences (
sont donnes par
sont donnes par :
fi =
X xik
k2K
IJ
= I1 ;
xik
. De plus les marges
IJ
(5.5)
5.2.
63
PRINCIPE DE L'ACM
......
1
.
.
.
.
.
.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
xik
IJ.
......
.
.
.
.
.
Ik
IJ
marge
marge
Tab. 5.6 Mise en frquences du tableau disjonctif complet.
et
fk =
X xik
IJ
i2I
ik
= IJ
:
(5.6)
Une fois les frquences calcules, il faut considrer le tableau en prols-lignes et prols-
cf.
colonnes (
tableau 5.7). Ainsi le tableau est de nouveau modi de faon ce que
pour les prols-lignes la marge des lignes soit 1 et pour les prols-colonnes la marge des
colonnes soit 1. Ainsi chaque case est compose respectivement de
xik
J
et
xik
.
Ik
L'analyse des nuages

Chaque individu du nuage des individus
NI
est reprsent par les modalits qu'il
possde. La marge tant constante, la transformation en prols-lignes ne modie en rien

les donnes. Ainsi le nuage
NI
appartient un hypercube not
HI
d'arrte
, puisque le
cf. gure 5.2). Un individu i est un point de IRK qui

J
xik
a pour coordonne sur l'axe k la valeur
avec un poids identique pour chaque individu
J
1 . Le barycentre G du nuage N a pour coordonne Ik
(car la marge est constante) de
I
I
I
IJ
sur l'axe k . La ressemblance entre deux individus est dnie par les modalits de chacun
prol d'une ligne est soit 0 soit
des individus. Si les deux individus prsentent globalement les mmes modalits, alors ils
se ressemblent. La distance qui caractrise cette ressemblance entre deux individus
i et l
64
CHAPITRE 5.
......
1
.
.
.
.
.
.
......
1
.
.
.
.
.
.
.
.
.
.
.
.
xik
J.
......
.
.
.
.
.
.
......
...
...
.
.
.
.
.
.
......
xik
Ik
...
...
.
.
.
.
.
.
.
.
.
k
.
.
.
.
.
.
.
.
......
Tab. 5.7 Les prol-lignes et prol-colonnes pour l'ACM.

est dnie par :
d2 (i; l) =
IJ xik
I J
k2K k
X
Cette expression est remarquable car

modalit
xlk 2 1 X I
= J I (xik xlk )2 :
J
k2K k
(xik xlk )2 = 1 si un seul individu
(5.7)
possde la
et 0 sinon. Cette distance crot logiquement avec le nombre de modalits qui
i et l, ce qui est recherch. Le poids de la modalit k dans la

I
distance est l'inverse de sa frquence :
. Ainsi si un individu possde une modalit rare,
Ik
dirent pour les individus
il sera loign de tous les autres individus et du centre de gravit.
Chaque modalit peut tre reprsente par le prol-colonne, c'est--dire par les valeurs
k est un point
Ik
constant de
(cf.
IJ
sur l'axe i. Ainsi le
prises par tous les individus pour la modalit considre. Ainsi une modalit
de l'espace IR
et a pour coordonne
gure 5.3). Le barycentre

nuage
NK
GK
xik
Ik
du nuage
sur l'axe
NK
appartient l'hypercube d'arrte
est soit 0 soit
Ik
avec un poids
a pour coordonne
Ik
, not
HK , puisque le prol d'une colonne
k et h est donne par la distance :

X
xik xih 2
2
:
d (k; h) =
I
I
I
k
h
i2I
La ressemblance entre deux modalits
En notant que
(xik )2 = xik
qui ne prennent que les valeurs 1 ou 0, cette distance peut
s'crire :
d (k; h) =
2
(5.8)
I
I +i
Ik Ih k h
X
i2I
xik xih ;
(5.9)
5.2.
65
PRINCIPE DE L'ACM
Fig. 5.2 Reprsentation du nuage des individus
NI
dans l'espace IR
ce qui est le nombre d'individus possdant une et une seule des deux modalits
multipli par
I
.
Ik Ih
ou
Cette distance crot donc avec le nombre d'individus possdant
une et une seule des deux modalits
et
et dcrot avec l'eectif de chacune de ces
modalits. Ainsi, par construction, deux modalits d'une mme variable sont loignes
l'une de l'autre (puisqu'elles ne peuvent pas tre possdes par le mme individu). Deux
modalits possdes par exactement les mmes individus sont confondues, tandis que les
modalits rares sont loignes de toutes les autres et du centre de gravit
GK .
La reprsentation simultane
Il est possible, comme pour l'AFC, de reprsenter simultanment les deux nuages
et
NK
NI
grce la dualit existant entre ces deux nuages. Avec les notations donnes par
le schma de dualit sur la gure 5.4, les relations de transitions s'crivent :
8
>
>
>
>
>
<
FS (i) =
>
>
>
>
>
:
1
GS (k) = p

p1
X xik
S k2K
GS (k)
X xik
S i2I
Ik
FS (i)
(5.10)
FS (i) reprsente la projection de la ligne i sur l'axe de rang S de NI , tandis que GS (k)
reprsente la projection de la ligne k sur l'axe de rang S de NK . S reprsente toujours
la valeur commune de l'inertie associe chacun de ces axes de rang S des nuages NI
et NK . Ces relations s'interprtent facilement car les xik ne prennent que les valeurs 0
1 prs, au barycentre des modalits que
ou 1. Ainsi FS (i) est plac au coecient p
S
o
66
CHAPITRE 5.
Fig. 5.3 Reprsentation du nuage des modalits
NK
dans l'espace IR .
i possde. Inversement, GS (k) est plac au coecient p prs, au barycentre

S
des individus qui possdent la modalit k . Les modalits peuvent ainsi tre vues comme
l'individu
barycentre d'une classe d'individus, ou comme une modalit d'une variable.

Il faudra cependant tenir compte lors de l'interprtation, que malgr cette quivalence
entre les facteurs
mme espace (IR
FS (i)
et
GS (k),
les modalits et les individus n'voluent pas dans le
pour les premiers et IR
pour les seconds).
La reprsentation simultane n'est pas toujours facile interprter, car en pratique le

nombre d'individus et de modalits pouvant tre grand, le graphique devient vite encombr. Elle permet cependant de bien caractriser les rpartitions et les classes d'individus.
5.2.3 L'analyse factorielle des correspondances du tableau de Burt

Nous avons vu que l'ACM peut tre vue comme une analyse factorielle des correspondances du tableau disjonctif complet ou encore du tableau de Burt. L'analyse partir du
tableau disjonctif complet fournit des reprsentations des barycentres de classes d'individus, cependant au lieu de calculer les axes d'inertie du nuage d'individus, puis de projeter
les barycentres sur ces axes, nous pouvons analyser directement le nuage des barycentres
obtenu par le tableau de Burt.
En fait, ces deux approches fournissent exactement les mmes rsultats. Sans dtailler
davantage cette approche, les transformations des donnes ainsi que les relations de transitions issues de l'analyse factorielle des correspondances du tableau de Burt sont donnes
par exemple dans [Pag03] ou [LMP95].
5.3.
INTERPRTATION
67
Fig. 5.4 Schma de dualit pour l'ACM.
5.2.4 Les variables quantitatives

Initialement prvue pour les variables qualitatives, l'ACM peut traiter galement les
variables quantitatives, sous condition qu'elles soient rendues qualitatives. Ceci a un
double intrt. Tout d'abord, rendre des variables quantitatives en variables qualitatives
permet d'obtenir un tableau homogne et ainsi d'analyser l'ensemble de ces variables par
une mme analyse. Un autre intrt est qu'une ACM sur des variables quantitatives codes
en classe peut mettre en vidence des liaisons entre variables non linaires, que l'ACP ne
peut dvoiler. Or les liaisons non linaires sont trs frquentes en pratique.
Pour se faire, il sut de dcouper l'intervalle de variation en sous-intervalles qui dnissent autant de modalits. Ainsi diminuer le nombre de classes, c'est regrouper des
individus de plus en plus dirents et augmenter le nombre de classes, c'est obtenir des
classes plus nombreuses et faible eectif. Il est prfrable de garder un nombre infrieur
huit classes pour pouvoir esprer analyser ces classes correctement. Bien souvent quatre
ou cinq classes susent. Trois classes peuvent par exemple tre interprtes comme trois
modalits mauvais, moyen et bon. Il faut galement choisir correctement les classes, par
exemple en regardant s'il n'existe pas de seuils pour la variable mesure, dtermins par
exemple par l'histogramme. Dans le cas o la variable possde une rpartition homogne
de ses valeurs, il est possible de faire un dcoupage systmatique, par exemple avec des
intervalles rguliers, ou encore avec un nombre d'individus identique dans chaque classe.
5.3 Interprtation
Nous avons vu que deux individus se ressemblent s'ils prsentent globalement les
mmes modalits. Cette ressemblance se traduit par une proximit des individus dans
l'espace IR
ou en pratique dans l'espace de projection choisi pour la reprsentation si-
multane. De mme si deux modalits d'une mme variable sont proches dans l'espace
68
CHAPITRE 5.
de projection, ceci se traduit par une ressemblance entre les groupes d'individus qui les
ont choisies. La proximit de deux modalits de variables direntes s'interprte en terme
d'
association . Ainsi deux modalits de variables direntes s'associent si elles concernent
globalement les mmes individus. En fait ces modalits correspondent alors aux points
moyens des individus.
En ce qui concerne la proximit entre modalits et individus, l'interprtation peut se
faire en considrant les modalits comme barycentre de classe d'individus. Il est souvent
ncessaire de se reporter au tableau de donnes pour vrier les conclusions.
Nous rappelons que sur la reprsentation simultane, les nuages
NI
et
NK
ne sont pas
dans les mmes espaces. Il est donc important d'avoir recours des indicateurs sur la
qualit de reprsentation. Les indicateurs pour l'interprtation de l'ACM sont les mmes
que ceux de l'ACP et de l'AFC dj donns, ici pour les individus et les modalits. Ainsi
nous pouvons tudier la qualit de reprsentation de chaque individu et de chaque modalit
par un axe ou par un plan. La contribution d'un individu ou d'une modalit l'inertie
d'un axe ou d'un plan doit aussi tre considre. La notion de variable doit galement
tre prise en compte. Ainsi la contribution d'une variable l'inertie d'un axe peut tre
obtenue en sommant les contributions des modalits de cette variable l'inertie du mme
axe. Nous obtenons ainsi un indicateur de liaison entre la variable et le facteur.
Les lments supplmentaires
Les lments supplmentaires ou illustratifs peuvent
tre des variables (et leurs modalits) ou bien des individus. Les variables supplmentaires
permettent d'enrichir l'interprtation des axes sans avoir participes leur construction.
Une variable supplmentaire couramment employe est la variable qualitative obtenue
par la classication hirarchique (
cf. chapitre 7). Les individus supplmentaires exclus de
l'analyse peuvent tre situs par rapport aux individus actifs, ou des groupes d'individus
actifs dans une optique de discrimination.
Il est aussi courant de regrouper les modalits de faible eectif (qui n'ont pas de
signication statistique) pour ensuite les reprsenter en tant qu'lments supplmentaires.
An de ne rien oublier pour l'interprtation des rsultats, nous proposons de suivre le
plan suivant :
- Dnir le nombre de modalits des variables quantitatives, s'il y a des variables
quantitatives intressantes pour l'tude.
- Choisir le nombre d'axes de projection. Ce choix se fait toujours de la mme faon
que pour l'ACP ou l'AFC.
- Etudier les valeurs propres qui reprsentent l'inertie de chaque axe.
- Etudier la contribution des lignes et des modalits de la mme faon que l'ACP.
- Etudier la contribution des variables en sommant les contributions des modalits
d'une variable pour un facteur donn.
- Etudier les coordonnes des modalits et des individus actifs.
- Etudier les coordonnes des variables, des modalits et des individus supplmentaires
s'il y en a.
5.4.
69
CONCLUSION
5.4 Conclusion
Pour conclure ce chapitre, commenons par rsumer l'ACM en dix tapes illustres
sur la gure 5.5 :
- 1 : Cette premire tape donne le tableau des donnes une fois que les variables
qualitatives sont codes de manire condense. Les lignes reprsentent les individus
et les colonnes les variables.
- 2 : Cette deuxime tape transforme le tableau de l'tape prcdente en tableau
disjonctif complet. Les lignes reprsentent toujours les individus, mais prsent les
colonnes reprsentent les modalits. Cette deuxime tape peut galement tre la
transformation du tableau de Burt. Dans ce cas, il y a symtrie entre les lignes et
les colonnes qui reprsentent une classe d'individus.
- 3 : A partir de cette tape nous appliquons l'AFC. Nous transformons le tableau
disjonctif complet en frquences.
- 4 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en multipliant par
I . Ces lignes sont appeles les prols-lignes.
- 5 : Nous considrons ici le tableau comme une juxtaposition de colonnes aprs
IJ
. Ces colonnes sont appeles prol-colonnes.
Ik
K
6 : Les prols-lignes qui constituent le nuage NI sont projets dans l'espace IR . Le
nuage NI se situe dans un hypercube HI .
I
7 : Les prols-colonnes qui constituent le nuage NK sont projets dans l'espace IR .
Le nuage NK se situe dans un hypercube HK .
transformation en multipliant par

-
- AF : Analyse Factorielle. Elle permet de mettre en vidence une suite de directions

orthogonales, d'tudier les projections en 8 et 9 en fonction de leurs proximits entre
elles et par rapport l'origine qui correspond un prol moyen.
NI
Les distances correspondent des ressemblances entre les individus.

NK

- Relations de transition : ces relations expriment les rsultats d'une AF en fonction
des rsultats de l'autre. Ce sont des relations barycentriques.
- 10 : Les relations de transition permettent des interprtations simultanes des axes.
Cette reprsentation simultane facilite l'interprtation. Attention toute association
entre un point-ligne et un point-colonne suggre par une proximit doit tre contrle sur le tableau.
L'ACM est donc une analyse factorielle qui permet l'tude de plusieurs variables qualitatives, de ce fait elle est une gnralisation de l'AFC. Elle est donc applicable aux
tableaux de variables qualitatives, mais aussi quantitatives aprs construction de classes
partir de celles-ci. Le fait de pouvoir interprter l'ACM de plusieurs faons rend cette
mthode trs riche et d'emploi facile. Elle peut tre trs complmentaire de l'ACP et bien
sr des mthodes de classication.
70
CHAPITRE 5.
Les mthodes de classication permettent de regrouper les individus en classes selon

leurs ressemblances. Deux types d'approches sont possibles soit nous considrons des
donnes sur lesquelles nous connaissons les direntes classes et nous tentons d'aecter
un nouvel individu dans une des classes connues, soit nous n'avons aucun
a priori
sur les
classes. Nous allons tudier ces deux types de classication dans les chapitres suivants.
5.4.
71
CONCLUSION
Fig. 5.5 Rsum de l'ACM.
72
CHAPITRE 5.
Chapitre 6
Analyse Factorielle Discriminante
6.1 Introduction
L'analyse factorielle discriminante est une des nombreuses mthodes de l'analyse discriminante. Sous ce nom sont regroupes des mthodes de classication qui ncessitent une
connaissance des classes prexistantes. Dans le domaine de la reconnaissance des formes
c'est ce qui est appel classication supervise ou encore apprentissage supervis. Parmi
ces mthodes peuvent tre compts la rgression logistique (mthode semi-paramtrique),
les
k-plus proches voisins, les arbres de dcisions (mthode non paramtrique qui favorise
le dialogue homme-machine) ou encore des mthodes issues de l'intelligence articielle

souvent considres comme des botes noires telles que le perceptron multicouche et les
autres rseaux de neurones, les chanes de Markov [Kun00] ou les machines vecteurs de
support [Vap99]. Un aspect important de la classication supervise est l'chantillonnage
des donnes pour raliser l'apprentissage. Direntes approches d'chantillonnage existent
telles que la technique de Jackknife, du bootstrap ou de la validation croise [LMP95],
[Sap90], nous ne les dtaillons pas ici.
La plupart des mthodes qui ne sont pas issues de l'intelligence articielle peuvent
tre dcrites par deux tapes :
- l'tape de
discrimination
qui cherche dterminer sur les donnes d'apprentissage
une fonction qui discrimine au mieux les donnes,

- l'tape de
classement
qui cherche aecter une nouvelle donne une classe,
l'aide de la fonction tablie dans l'tape prcdente.

La
rgression logistique
d'appartenance
une
consiste
classe
p(C=x)
exprimer
comme
les
une
probabilits
fonction
de
[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe,
dterminer les coecients
ln
a posteriori
l'observation
i.e.
qu'il faut
tels que :
p(C=x)
1 p(C=x)
= 0 +
d
X
i=1
i xi :
(6.1)
Il est donc ncessaire d'estimer les paramtres des lois de probabilit, en supposant connue
cette loi. Selon la loi retenue, il est possible de traiter des variables quantitatives, ou
73
74
CHAPITRE 6.
ANALYSE FACTORIELLE DISCRIMINANTE
binaires. La fonction de discrimination est ainsi dnie, pour le classement d'un nouvel
individu, la rgle baysienne peut tre applique.
classication baysienne est une autre approche probabiliste qui suppose connues les
probabilits a priori et les distributions des probabilits d'appartenance chaque classe.
La
Dans ce cas c'est une mthode optimale. En pratique, ces probabilits sont estimes
partir de donnes d'apprentissage. Nous prsentons brivement cette mthode trs utilise
en classication, comme mthode de classement de l'analyse factorielle discriminante la
section 6.2.2.
Les
arbres de dcision
sont des mthodes de discrimination, souvent employes pour
la segmentation. La reprsentation sous forme d'arbres permet une interprtation rapide
i.e. l'tape de discrimination) est eec-
et aise des rsultats. La construction de l'arbre (
tue sur les donnes d'apprentissage, puis l'tape de classement peut tre ralis pour de
nouveaux individus. L'ide de la construction est simple, et se dcompose comme suit :
- chercher la variable qui produit la meilleure division (par exemple celle qui donne
la variance intraclasse la plus faible),
- diviser en deux nuds intermdiaires, les individus selon cette variable,
- chercher les variables qui produisent les meilleurs divisions des nuds intermdiaires,
- poursuivre ainsi jusqu' n'obtenir que des nuds terminaux.
Cependant l'arbre optimal est dicile dterminer. En eet, il faut dnir un critre de
division, un critre d'arrt
i.e.
une rgle pour dclarer si le nud est terminal ou inter-
mdiaire. De plus la complexit est importante pour des arbres plus de deux branches
i.e.
des arbres qui ne sont pas binaires). En outre, elle est dicilement gnralisable
si les donnes d'apprentissage sont peu reprsentatif de la ralit. La mthode CART
Classication And Regression Tree ) qui est un cas particulier des arbres binaires possde
une construction d'arbres aux proprits intressantes pour la segmentation qui rsout en
partie ces problmes [BFRS93].
L'approche des
k plus proches voisins
repose sur l'ide simple d'attribuer un nouvel
individu la classe majoritaire parmi ses
plus proches voisins (individus de la base
d'apprentissage les plus proches au sens d'une certaine distance). C'est donc une approche gomtrique. Nous prsentons plus en dtails cette approche, comme mthode de
classement de l'analyse factorielle discriminante la section 6.2.2.
L'analyse factorielle discriminante est une mthode descriptive et prdictive fonde
sur un modle paramtrique. Elle est galement appele analyse linaire discriminante
Linear Analysis Discriminant
(LDA) en anglais). Nous conservons ici le nom d'analyse
factorielle discriminante, et nous utilisons l'abrviation AFD. En eet, cette mthode peut
tre vu comme une analyse factorielle, car son aspect descriptif fait appel des calculs
d'axes principaux. C'est une mthode avant tout prdictive qui discrimine les individus
selon des classes connues. Son aspect prdictif de classement de nouveaux individus peut
en fait faire appel d'autres mthodes de classication gomtriques ou probabilistes.
L'analyse factorielle discriminante peut galement tre vu comme une analyse canonique particulire ou encore comme une extension de la rgression multiple prsente par
exemple dans [LMP95].
6.1.
75
INTRODUCTION
Variables
Individus
......
......
y
1
1
.
.
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
xik
Fonctions
......
.
.
.
.
.
.
discriminantes
Q
Observations
Aectation
Tab. 6.1 Reprsentation des donnes pour l'AFD.

L'AFD est une approche trs utilise, et fait prsent partie de tout bon logiciel de statistique ou d'apprentissage. Les domaines d'application sont trs nombreux pour rsoudre
des problmes tels que l'aide au diagnostic (par exemple en mdecine pour la prdiction
de maladies), pour la prdiction de risques (par exemple en mtorologie pour prdire un
risque d'avalanche ou en nance pour prdire un comportement boursier), pour le contrle
de qualit (par exemple prvision de qualit d'un produit agro-alimentaire par des mesures) ou encore pour la reconnaissance des formes (par exemple en traitement d'images).
C'est une mthode importante dans le mtier d'ingnieurs puisque l'aspect essentiel de
l'AFD (et des mthodes de l'analyse discriminante en gnral) est l'aide la dcision. Son
intrt vient galement du fait qu'elle fournit des rsultats
des donnes d'apprentissage et
stables, i.e.
peu dpendants
robuste, i.e. peu dpendants des hypothses. Elle est ainsi
considre comme une approche de rfrence laquelle sont souvent compares les autres
mthodes.
6.1.2 Les donnes

Nous disposons de
individus ou observations dcrits par
variables et rpartis en
Q classes donnes par la variable nominale y (cf. tableau 6.1). Les Q classes sont a priori
connues. La variable nominale y possde donc Q modalits. I reprsente la fois le nombre
d'individus et l'ensemble des individus I = f1; ; I g, K reprsente la fois le nombre de
variables et l'ensemble des variables K = f1; ; K g, et Q reprsente la fois le nombre
de modalits de la variable y et l'ensemble Q = f1; ; Qg. xik est la valeur de la variable
k pour l'individu i.
76
CHAPITRE 6.
6.1.3 Les objectifs

A partir du tableau 6.1, nous constatons que deux objectifs se dessinent :
- Le premier objectif consiste dterminer les fonctions linaires discriminantes sur
i.e. la combinaison linaire des K variables explicatives

au mieux les Q classes. Il s'agit donc d'une tape de
l'chantillon d'apprentissage,
dont les valeurs sparent
discrimination
des classes.
- Le second objectif consiste dterminer la classe de nouveaux individus pour lesquels nous observons les valeurs des
variables explicatives. Cette tape est une
aectation d'un nouvel individu dans une classe. Il s'agit d'un problme de
classement par opposition au problme de classication qui est la construction de
tape d'
classes les plus homognes possibles dans un chantillon.
Exemple 6.1.1
Supposons un service dans un hpital qui comprend 500 patients. Dans
ce service sont rencontres essentiellement cinq pathologies. Il est ais de raliser une vingtaine d'examens et des analyses peu coteuses. Cependant pour dterminer une des cinq
pathologies il est ncessaire d'entreprendre des interventions trs coteuses. Les donnes
sont ainsi constitues de 500 individus et 20 variables, de plus la variable nominale
y est
compose de cinq modalits. L'tape de discrimination tente de rpondre des questions

du type : est-il possible de prvoir avec les vingt examens et analyses, les pathologies des
500 patients sans avoir recours des interventions plus coteuses ? Alors que l'aectation
tente de rpondre des questions du type : Est-il possible de prdire la pathologie d'un
nouveau patient en n'eectuant que les examens et analyses peu coteux ?
En fait derrire ces deux questions il en existe une autre d'ordre plus gnral laquelle tente de rpondre l'analyse factorielle discriminante : Est-ce qu'un grand nombre
de donnes d'accs facile peut contenir une information dcrite par une appartenance
une classe, plus dlicate dterminer ?
6.2 Principe de l'AFD

6.2.1 La discrimination
L'ide du principe de la discrimination repose sur le fait que la discrimination visuelle
est plus aise si :
- les centres de gravit de chaque sous-nuage appartenant une seule classe sont
loigns,
- chaque sous-nuage appartenant une seule classe sont les plus homognes possibles
autour de ces centres de gravit.
Pour ce faire il faut maximiser les variances interclasses (entre les classes) et minimiser
les variances intraclasses ( l'intrieur des classes). Nous parlons galement de variances
externes et internes.
La gure 6.1 reprsente un nuage
l'espace IR
. Notons
NI
des individus partitionns en trois classes dans
Iq le nombre d'individus dans la classe q et l'ensemble des individus
6.2.
77
PRINCIPE DE L'AFD
de la classe
dans IR
q, Iq = fA; ; Iq g. G reprsente le centre de gravit du nuage des individus
, et
gq le centre de gravit de la partition des individus appartenant la classe
q. Le centre de gravit de la classe q est donn par le vecteur :
Fig. 6.1 Reprsentation du nuage
NI
des individus partitionns dans l'espace IR
X
gq = I1 xi:
q i2I
q
(6.2)
La matrice de covariance interclasse est dnie par :
X
B = I1 Iq (gq G)(gq G)t;
q2Q
(6.3)
et la matrice de covariance intraclasse qui est la somme pondre des covariances interclasses est donne par :
XX
(xi gq )(xi gq )t:
W = I1
q2Q i2Iq
(6.4)
Proposition 6.2.1 Formule de dcomposition de Huygens
L'inertie totale du nuage NI est gale la somme de l'inertie interclasse et de l'inertie

intraclasse.
Cette proposition s'nonce galement par le fait que la covariance totale du nuage est la
somme de la covariance interclasse et de la covariance intraclasse :
V = B + W:
(6.5)
La gure 6.2 illustre cette proposition. Le mme nuage est reprsent deux fois en reliant
les points pour le calcul de la covariance totale gauche et de la somme des covariances
interclasse et intraclasse droite.
78
CHAPITRE 6.
Fig. 6.2 Illustration de la formule de Huygens.
Preuve
La matrice de covariance totale est donne par :
vkk0 =
1 X(x
I i2I
Gk )(xik0
ik
1 X X(x
Gk 0 ) =
I q2Q i2Iq
ik
Gk )(xik0
Gk = xik :
I
Gk0 );
(6.6)
(6.7)
Or
(xik
Gk ) = (xik
gqk ) + (gqk
Gk );
(6.8)
nous remarquons ainsi que
X
i2Iq
(xik
gqk )(gqk0
Gk 0 ) =
X
i2Iq
(gqk
Gk )(xik0
gqk0 ) = 0:
(6.9)
Donc uniquement deux des quatre termes de la partie droite de l'quation (6.6) sont non
nuls et nous pouvons crire :
vkk0 = bkk0 + wkk0 ;

avec
bkk0 =
et
wkk0 =
1 X I (g
I q2Q
qk
1 X X(x
I q2Q i2Iq
ce qui dmontre la proposition.
ik
Gk )(gqk0
gqk )(xik0
(6.10)
Gk0 );
gqk0 );
(6.11)
(6.12)
6.2.
79
PRINCIPE DE L'AFD
Fonctions linaires discriminantes

L'AFD consiste trouver les combinaisons linaires dnissant de nouveaux axes tels
que les projections des
Q centres de gravit sur ces axes doivent tre les plus loignes, tan-
dis que les projections de chaque sous-nuage sur ces axes doivent tre les plus regroupes
autour des projections des centres de gravit.
La marche suivre est identique celle d'une analyse factorielle. La premire combinaison linaire est donc celle qui maximise la variance interclasse et minimise la variance
intraclasse. Puis, la deuxime combinaison linaire est celle qui est non corrle la premire et qui discrimine au mieux les classes au sens du mme critre (maximisation de la
variance interclasse et minimisation de la variance intraclasse). Les autres combinaisons
linaires sont dtermines de la mme faon. Ces combinaisons linaires sont appeles
fonctions linaires discriminantes .

Une combinaison linaire
individu
i est donne par :
a est un vecteur dans l'espace IRK . La valeur de a pour un

a(i) =
X
k2K
ak (xik
gqk ):
a est dnie par :

"
X
X X
1
1
2
ak (xik
var(a) = I a (i) = I
La variance de la variable
i2I
i2I
k2K
ou encore
XX X
ak ak0 (xik
var(a) = I1
La variance de
i2I k2K k0 2K
t
est donc
gqk )(xik0
a Va.
gqk0 ) =
(6.13)
#2
gqk ) ;
XX
k2K k0 2K
(6.14)
ak ak0 vkk0 :
(6.15)
D'aprs l'quation (6.5), nous avons :
atVa = atBa + atWa:

(6.16)
Le problme de l'AFD revient donc trouver a tel que l'inertie des sous-nuages des
t
individus Iq projets sur a soit maximale (inertie interclasse a Ba) et chaque sous-nuage
t
t
soit group donc l'inertie intraclasse a Wa soit minimale. Chercher a tel que a Ba soit
t
maximale et a Wa soit minimale est quivalant chercher le maximum de la fonction :
atBa
(6.17)
f (a) = t :
a Va
t
Il est encore quivalent de chercher le maximum de la forme quadratique a Ba sous la
t
contrainte quadratique a Va = 1. Par la mthode du Lagrangien, nous pouvons montrer
alors que :
Ba = Va;
V est inversible, nous obtenons :

V 1Ba = a:
1
Ainsi a est le vecteur propre de V B associ la plus grande valeur propre .
(6.18)
et lorsque la matrice
(6.19)
80
CHAPITRE 6.
Remarque
V1B qui n'est pas a priori symtrique. Posons :

B = Ct C;
(6.20)
Il faut donc diagonaliser
avec :
ckq =
Et posons :
Iq
(g
I qk
Gk ):
(6.21)
a = V 1Cv:
(6.22)
L'quation (6.18) s'crit alors :
CCtV 1Cv = Cv:

(6.23)
t
1
Il sut alors de diagonaliser la matrice symtrique C V C d'ordre Q puis de dduire a
l'aide de v.
En rgle gnrale, il y a Q
1 valeurs propres donc Q 1 axes discriminants. C'est le
cas si
I > K > Q et si les variables ne sont pas lies linairement.
Cas de deux classes

Lorsqu'il n'y a que deux classes (
i.e. Q = 2), nous sommes dans le cas d'un problme
non sans importance de dtection (et non plus de classication). Dans ce cas, il n'y a donc
qu'un seul axe factoriel discriminant
gravit des deux classes
o le vecteur
(6.24)
c de l'espace IRK est dni par :

ck =
Nous avons donc :
ou encore :
a, dtermin par la droite passant par les centres de
g1 et g2 . Ainsi nous pouvons crire :

B = cct;
r
I1 I2
(g
I 1
g2):
(6.25)
V 1ccta = a;
(6.26)
ctV 1ccta = cta:
(6.27)
Donc l'unique valeur propre est donne par :
= ct V
c;
(6.28)
et l'unique fonction discriminante par :
a = V 1 c:
(6.29)
est appele distance gnralise entre les deux classes ou encore distance de Mahalanobis .
Dans ce cas de deux classes, l'AFD est quivalente la rgression multiple [LMP95].
L'AFD peut aussi tre vue comme une ACP des centres de gravit
avec une pondration pour ces individus donne par la mtrique
gq de chaque classe
6.2.
81
PRINCIPE DE L'AFD
La reprsentation
Comme les autres mthodes factorielles, il est possible de reprsenter les individus dans
les plans factorielles discriminants. Il est aussi possible comme pour l'ACP de reprsenter
les variables en traant le cercle de corrlation des
variables.
An de mesurer la qualit de la reprsentation, les mmes indicateurs que l'ACP

peuvent tre employs. Par exemple la qualit de reprsentation d'un nuage par un axe
as est donne par le rapport :
s
:
s
(6.30)
s2S
gq l'axe as est dnie par :
La contribution absolue du centre de gravit
Iq
I
atsV 1gq
2
et la contribution relative du centre de gravit
Iq 1
I s
(6.31)
gq l'axe as est dnie par :
atsV 1gq
2
(6.32)
Dans une optique de classication, la qualit de la discrimination peut tre dnie par
le rapport du nombre d'individus bien classs par le nombre total d'individus. Ce critre
reste classique.
6.2.2 L'aectation
Lorsque les fonctions discriminantes ont t dtermines, nous souhaitons trouver la
classe d'aectation d'un nouvel individu. Il existe plusieurs rgles d'aectation (ou de
classement) d'un nouvel individu
i0
dans une classe
q.
Nous en prsentons ici quelques
unes gomtriques et probabilistes.
Distances aux centres de gravit

Une ide simple consiste aecter un individu la classe dont le centre de gravit est
le plus prs. Nous devons donc dnir la distance entre le point individu
vecteur
i0
dcrit par le
xi0 et le centre de gravit gq du sous-nuage Iq . Rappelons ici quelques distances
qui peuvent tre envisages.

Distance euclidienne
La distance euclidienne usuelle dans IR
d2e (xi0 ; gq ) =
X
k2K
(xi0k
gqk )2 :
(6.33)
82
CHAPITRE 6.
Exprimons cette distance dans le nouvel espace. Notons :
zr = utr (xi0
G) ;
(6.34)
G est le centre de gravit du nuage NI dni par le vecteur (Gk )k=1;::;K , r dsigne
ime
l'axe principal issu de l'analyse, et ur est le r
vecteur propre normalis de la
matrice des covariances totales V, dnie prcdemment, correspondant la valeur
o
propre
r . La distance euclidienne s'crit alors :

d2eV (xi0 ; gq ) =
rX
max
r=1
(zr zqr )2;
(6.35)
G), rmax est le nombre de valeurs propres retenues, qui peut tre
ici le rang de la matrice X des donnes initiales.
0
La distance du nouvel individu i dcrit par le vecteur xi0 au centre de gravit gq
1
du sous-ensemble des individus Iq dans la mtrique V
(i.e. sous la condition :
t
u Vu = 1) est :
o
zqr = ut (gq
deV
2
(xi0 ; gq ) =
rX
max
r=1
(zr zqr )2 :
r
(6.36)
Distance de Mahalanobis globale
X par X^ de terme gnral x^ik = xik gqk , nous

^r les valeurs propres de
diagonalisons alors la matrice W au lieu de V. Notons
W et z^q les coordonnes de l'individu i0 sur les nouveaux axes principaux u^r . La
1
distance de xi0 au centre de gravit gq dans la mtrique W
s'crit :
rX
max
(^zr z^qr )2 :
2
dMg (xi0 ; gq ) =
(6.37)
^ r
r=1
Si nous remplaons les donnes
Distance de Mahalanobis locale

La distance de Mahalanobis locale est la distance de l'individu
i0 au centre de gravit
gq dans la mtrique Wq , o Wq est la matrice des covariances internes de la classe

t (x 0 g ), o g est le centre de gravit du sous-nuage d'individus
Iq . Notons wsq = vsq
i
q
q
Iq dcrit par le vecteur (gqk )k=1;::;K , et wsq est le sime vecteur propre normalis de
Uq Wq U qui correspond la valeur propre sq . La distance s'crit alors :
1
dMl (xi0 ; gq ) =
2
t (g
wqs = vqs
q
smax
X(q)
s=1
(wsq wqs)2 ;
sq
(6.38)
G), et smax(q) est le nombre de valeurs propres retenues dans le
sous-nuage d'individus
Iq .
6.2.
83
PRINCIPE DE L'AFD
Distance du
2
La distance du
2 est dtermine par :

d2 (xi0 ; gq ) =
2
sxk =
donc :
X
i2I
xik , sxi0
X
k2K
xi0 k
et
s
k2K xk
sgq
d2 (xi0 ; gq ) =
2
rX
max
r=1
k2K
xi0 k
sxi0
2
(6.39)
gqk . Dans le nouvel espace, nous avons
gqk
sgq
szr
zqr
szq
zr
sz
2
(6.40)
Cependant cette distance s'applique habituellement aux tableaux de contingence

comme nous l'avons vu pour l'AFC et l'ACM, elle convient donc peu l'AFC en
gnral.
Distance de Minkowsky
Elle dpend d'un paramtre
dM (x
positif :
g )=
i0 ; q
X
k2K
xi 0 k
!1
gqk j
(6.41)
Dans le nouvel espace, nous avons :
dM (xi0 ; gq ) =
rX
max
r=1
jzr zqr j
!1
(6.42)
= 1, nous avons la distance des valeurs absolues aussi nomme distance de

Manhattan, du nom du quartier new-yorkais, = 2, nous retrouvons la distance
euclidienne. Lorsque ! +1, nous obtenons la distance de Tchebychev :
Si
dT (xi0 ; gq ) = max
jzr
r
zqr j:
(6.43)
D'autres distances sont envisageables. Cependant, pour l'AFC il est gnralement

retenu la distance de Mahalanobis globale (mtrique
) ou locale (mtrique
Wq 1, o
Wq est la matrice des covariances internes au sous-nuage Iq ). Cette dernire permettant

de rduire les erreurs d'aectation lorsque les dispersions des classes sont trs direntes.
Une autre approche gomtrique est possible, non plus en considrant les centres de
gravit, mais les individus proches du nouvel individu.
Rgle des k plus proches voisins

Cette mthode d'aectation peut tre employe directement pour la classication dans
l'espace initial. Elle est trs utilise en reconnaissance des formes.
84
CHAPITRE 6.
Le principe est simple, nous aectons le nouvel individu
i0
au sous-nuage d'individus
Iq le plus reprsent dans son voisinage. Le voisinage est tendu jusqu' ce qu'il contienne
k individus. Ainsi notons :
Kq (i0 ) = card fi 2 I
tel que
i 2 Iq ; i 2 Vk (i0 )g ;
(6.44)
Vk (i0 ) dsigne le voisinage de l'individu i0 form par k individus. Cet ensemble peut se
formaliser pour k = 1 par :
o
V1 (i0 ) = fi 2 I tel que d(i0 ; i) d(i0 ; i00 ) 8i00 2 I; i00 6= ig ;

par rcurrence, nous obtenons pour un
Vk (i0 ) = Vk (i0 ) [ fi 2 I r Vk
(6.45)
k quelconque :
1 tel que
d(i0 ; i) d(i0 ; i00 ) 8i00 2 I r Vk 1 ; i00 6= ig :
(6.46)
Nous voyons que la aussi la dnition d'une distance adquate est importante. Il est
possible d'employer une des distance prcdemment prsentes.
La dcision est alors prise en cherchant le maximum de
aect la classe
argmax Kq (i0)).
q2Q
Kq (i0 ) (i.e. que l'individu i0 est
D'autres rgles de dcisions sont envisageables issues
des mthodes de votes [Mar04].

Il existe une variante intressante de cette approche la classication par
k plus proches
voisins ous.
Cette approche trs coteuse donne de bons rsultats. C'est pourquoi elle sert souvent
de mthode de comparaison en reconnaissance des formes avec d'autres approches moins
coteuses.
Ce type d'aectation ne prend cependant pas en compte les probabilits
a priori
de
chaque classe.
Approche baysienne
Cette approche probabiliste simple consiste aecter l'individu
dividus
Iq
pour lequel la probabilit
i0 au sous-nuage d'in-
P (Iq =i0 ) est maximale. Or d'aprs la rgle de Bayes,
nous avons :
P (Iq =i0 ) =
P (i0 =Iq )P (Iq )

:
P (i0 =Iq0 )P (Iq0 )
(6.47)
q0 2Q
Il sut alors de maximiser
connatre les probabilits
P (i0 =Iq )P (Iq ). Cependant pour estimer cette probabilit il faut

a priori P (Iq ), ce qui n'est pas toujours le cas. Elles peuvent
tre estimes, mais il faut alors tre sr de la capacit de gnralisation des donnes
d'apprentissage. Il faut de plus estimer la probabilit
P (i0 =Iq ) qui ncessite :
- soit une estimation partir des frquences et dans ce cas il faut encore tre sr de
la capacit de gnralisation des donnes d'apprentissage,
6.3.
85
CONCLUSION
- soit faire l'hypothse de la distribution. La distribution gaussienne qui peut tre

justie par la loi forte des grands nombres est souvent employe. De plus elle ne
ncessite que l'estimation de deux paramtres (la moyenne et la variance).
Dans ce dernier cas, lorsque les distributions gaussiennes d'appartenance chaque
sous-nuage sont de mme matrice de covariance intraclasse et s'il y a quiprobabilit des
classes (les probabilits
a priori P (Iq )
sont identiques), alors l'approche baysienne est
quivalente aecter la classe du plus proche voisin en utilisant la distance de Mahalanobis
cf. [LMP95] pour plus de dtails).
locale (
Il existe d'autres mthodes d'aectation, car en fait toute mthode de classication

peut tre employe pour cette tape de classement. Bien souvent, les approches les plus
simples donnent de meilleurs rsultats, au dpend d'un cot plus important.
6.3 Conclusion
L'AFD est une mthode trs utilise de nos jours. Sa simplicit de mise en uvre fait
que nous la retrouvons dans de nombreux logiciels. Elle est adquate pour la reprsentation
des donnes dans des espaces qui discriminent au mieux les individus selon des classes
connues. Cette reprsentation permet de dgager des informations partir d'un grand
nombre de donnes souvent dicile interprter. Elle permet galement l'aectation de
nouveaux individus dans les classes existantes. Il est alors possible de rendre la mthode
adaptative pour tenir compte de ces nouvelles observations.
Il peut s'avrer trs enrichissant de l'employer en complment d'une autre analyse
factorielle telles que l'ACP ou l'ACM.
86
CHAPITRE 6.
Chapitre 7
Classication
7.1 Introduction
La classication sans
a priori
est depuis longtemps une problmatique importante
issue surtout de l'tude des phnomnes naturelles et de la biologie en particulier. Toutes

les mthodes ainsi dveloppes appartiennent une science la
taxonomie littralement la
science des lois de l'ordre [Ben80a]. Les mthodes de classication font parties intgrante
de l'analyse de donnes. Dans le domaine de la reconnaissance des formes elle porte le
clustering, les
classes tant des clusters. Le terme anglais classication dsigne davantage classement i.e.
nom de classication non-supervise. Le terme anglais pour classication est
le fait d'aecter des objets des classes prdnies, voire analyse de donnes en gnral.
7.1.1 Les objectifs

La classication a pour principal objectif de rassembler les lments (individus ou variables) qui se ressemblent et/ou de sparer ceux qui dirent. C'est--dire qu'il s'agit de
crer des classes homognes les plus loignes les unes des autres. Si cet objectif est facilement comprhensible, il n'en est pas moins compliqu atteindre. Nous sous-entendons
lorsque nous cherchons classer des lments, qu'il existe des regroupements, soit en
nombre inconnu soit en nombre suppos.
Si nous cherchons souvent regrouper des lments entre eux, c'est an de mieux
interprter une grand quantit de donnes.
Les objectifs de la classication sont donc de regrouper les individus dcrits par un ensemble de variables, ou regrouper les variables observes sur des individus et d'interprter
ces regroupements par une synthse des rsultats. L'intrt de regrouper les individus est
ici de les classer en conservant leur caractre multidimensionnel, et non pas seulement
partir d'une seule variable. Si les variables sont nombreuses il peut tre intressant de les
regrouper an de rduire leur nombre pour une interprtation plus facile.
Les mthodes de classication sont donc complmentaires des analyses factorielles
dcrites dans les chapitres prcdents.
87
88
CHAPITRE 7.
Variables
Individus
......
1
.
.
.
.
.
.
......
CLASSIFICATION
.
.
.
.
.
.
......
.
.
.
.
.
.
xik
......
.
.
.
.
.
.
Tab. 7.1 Reprsentation des donnes pour la classication.
7.1.2 Les donnes

Les donnes de dpart sont souvent organises comme une matrice
dcrite par le
k pour l'individu i, I reprsente la fois

I = f1; :::; I g, et K reprsente la fois le nombre de
variables et l'ensemble K = f1; :::; K g.
tableau 7.1, o
xik
est la valeur de la variable
le nombre d'individus et l'ensemble
Les variables peuvent tre quantitatives continues ou issues de tableaux de contingences, ou binaires issues de tableaux logiques, ou encore qualitatives. An de traiter
l'ensemble de ces types de variables, c'est la mesure de similarit ou dissimilarit qui doit
tre adapte aux types de donnes. En eet, nous nous doutons qu'il est important de
dnir une mesure de similarit pour regrouper des lments ou de dissimilarit pour les
loigner. Une mesure de similarit ou de dissimilarit est une distance l'exception que
l'ingalit triangulaire n'est pas exige. Ces mesures peuvent tre des distances dans le cas
de variables quantitatives. Ainsi, il est prfrable d'employer une distance euclidienne, de
Mahalanobis ou de Minkowsky pour les variables quantitatives continues et une distance
du
2
pour des tableaux de contingences, distances que nous avons dj prsentes la
section 6.2.2 du chapitre prcdent.

Dans le cas de tableaux binaires, un grand nombre de mesures de similarits entre deux
lments ont t dnies partir des quatre quantits. Par exemple pour deux individus
x1 et x2 elles sont donnes par :

- soit a le nombre de fois o x1k = x2k = 1,
- soit b le nombre de fois o x1k = 0 et x2k = 1,
- soit c le nombre de fois o x1k = 1 et x2k = 0,
- soit d le nombre de fois o x1k = x2k = 0.
Les similarits suivantes ont t proposes par dirents auteurs :

-
a
par Jaccard,
a+b+c
a
par Russel et Rao,
a+b+c+d
2a par Dice,
2a + b + c
7.1.
INTRODUCTION
89
a
par Sokal et Sneath,
a + 2(b + c)
a+d
par Sokal et Michener,
a+b+c+d
a
a
+
par Kulzinsky,
a+b a+c
a+d
par Rogers et Tanimoto,
a + d + 2(b + c)
ad bc
par Yule,
ad + bc
jad bcj
[(a + b)(c + d)(a + c)(b + d)]2 par Pearson,
a
[(a + b)(c + d)(a + c)(b + d)]2 par Ochia.
Dans le cas des variables qualitatives, il sut de considrer le tableau de contingence

associ. En eet, si elles n'ont pas le mme nombre de modalits, il est trs dicile de
dnir une distance.
Si le tableau est compos de donnes mixtes, il sut de rendre les variables quantitatives en variables qualitatives en choisissant quelques modalits de la mme faon que
dcrite la section 5.2.4.
7.1.3 Les mthodes

Il existe un grand nombre de mthodes et surtout beaucoup de variantes. Il est possible
de les direntier grossirement soit par leur structure de classication, soit par le type de
reprsentation des classes. Ainsi, nous pouvons distinguer quatre types de reprsentation
[Bro03] :
- Les partitions sont une notion la plus naturelle, chaque individu est aect une
classe et une seule.
- Les hirarchies sont un ensemble de partitions embotes. Ainsi une classe se divise
en sous-classes.
- Les arbres additifs sont une autre vision des hirarchies ; une structure dont les
nuds terminaux sont les individus classs et les nuds intrieurs les classes. Une
extension des arbres additifs est la notion d'arbre au sens de la thorie de graphes.
- Les pyramides sont une gnralisation des hirarchies car elles permettent des empitements entre les classes.
Les mthodes de classication cherchent transformer le tableau de donnes en un
autre tableau ayant de bonnes proprits. C'est donc un problme d'optimisation. Cependant ces tableaux se trouvent dans des espaces discrets, ces transformations ne peuvent
tre dcrites par des fonctions issues de calculs formaliss usuels, et il n'y a pas de solutions mathmatiques exactes. C'est donc dans le cadre des mathmatiques discrtes, que
des solutions approximatives sont proposes dans une dmarche algorithmique.
90
CHAPITRE 7.
CLASSIFICATION
Nous nous contentons ici de prsenter deux mthodes, deux algorithmes, les plus utiliss et qui se retrouvent dans la plupart des logiciels de statistiques. Nous prsentons une
mthode conduisant des partitions, la mthode des centres mobiles la section 7.2, puis
une mthode conduisant des hirarchies, la classication hirarchique la section 7.3.
7.2 Mthode des centres mobiles

Cette mthode peut tre vu comme un cas particulier de l'approche des nues dyna-
miques dveloppe par E. Diday [CDG 89]. Cette mthode d'un formalisme trs simple
n'en est pas moins trs ecace pour de vastes tableaux de donnes. Elle est de plus rapide,
mais cependant pas toujours optimale.
La mthode des centres mobiles est fonde sur une mthode de partitionnement directe
des individus connaissant par avance le nombre de classes attendues.
7.2.1 Principe de l'algorithme

Nous supposons dsirer partitionner le nuage des individus
d'une distance approprie que nous notons par
d.
NI
dans l'espace IR
Cette distance
muni
doit tre choisie en
cf. section 7.1.2). En pratique, il s'agit souvent de la distance eucli2 qui est implmente. Supposons de plus, que nous souhaitons partitionner
NI en Q classes avec Q I .
- tape 0 : Nous choisissons Q individus dans le nuage NI qui constituent Q centres
provisoires des Q classes. Le choix de ces centres est important pour la rapidit de
la convergence, et les connaissances a priori doivent ici tre mises prot, s'il y en
fonction des donnes (

dienne ou du
a. Dans le cas contraire, le plus courant, il sut de tirer alatoirement ces centres
par un tirage sans remise. Notons par

0
0
0
;
:::;
C
;
:::;
C
C
q
1
Q
0

0
0
I1 ; :::; Iq ; :::; IQ
0
en Q classes. Un individu i appartient au sous-nuage Iq
fournissent une premire partition
ces centres. Ces centres
NI des individus
0
s'il est plus proche de Cq
du nuage
que de tous les autres centres. Dans un espace deux dimensions, les sous-nuages
sont dlimits deux deux par des droites mdiatrices des centres des sous-nuages,
c'est ce qui est applel
intervient.
- tape 1 :
diagramme de Vorono.
C11 ; :::; Cq1 ; :::; CQ1 sont dtermins en prenant les

0
0
sous-nuages Iq obtenus par la partition P . La distance d
nouveaux centres
centres de gravit des
Bien sr ce niveau, la distance
intervient de nouveau ici. Ces nouveaux centres induisent une nouvelle partition
P 1 = I11 ; :::; Iq1 ; :::; IQ1 , suivantle mme critre prcdent.

m
m
m sont dtermins en prenant les
tape m : Q nouveaux centres C1 ; :::; Cq ; :::; CQ
m 1 obtenus par la partition P m 1 . Ces nouveaux
centres de gravit des sous-nuages Iq

m = I m ; :::; I m ; :::; I m , suivant le mme
centres induisent une nouvelle partition P
1
q
Q
critre prcdent.
La convergence de l'algorithme est garantie [LMP95]. Le critre d'arrt est celui de deux
partitions identiques. D'autres critres permettent d'augmenter la rapidit. Par exemple,
7.3.
91
LA CLASSIFICATION HIRARCHIQUE
nous pouvons cesser les itrations lorsque la variance intraclasse de toutes les classes est
susamment faible, ou encore lorsqu'un nombre d'itrations dni
Cette algorithme est illustr sur la gure 7.1 dans le cas o
a priori est atteint.

Q = 2. Deux gures
Fig. 7.1 Illustration de l'algorithme des centres mobiles.

prsentent l'tape 0 : le tirage alatoire des centres provisoires
de la premire partition
C10 et C20 et la construction
P 0 = fI10 ; I20 g en aectant chaque individu au sous-nuage dont le
centre obtenu est le plus proche. L'tape 1 prsente les nouveaux centres et les sous-nuages
dont ils sont les centres de gravit. De nouveau, l'tape 2 fournit les centres de gravit
des nouveaux sous-nuages
I12 et I22 .
De nombreux algorithmes sont fonds sur un principe similaire. Les deux principaux
sont les nues dynamiques et les
k-means ou k-moyennes. La dirence pour la mthode
des nues dynamiques se situe au niveau de la raectation des individus chaque classe.
Aprs avoir dtermin les centres de gravit, un
noyau est dtermin pour chaque classe
comme tant l'individu le plus proche du centre de gravit de chaque classe. La raectation se fait alors en fonction de la distance des autres individus aux noyaux de chaque
classe. Ce formalisme a permis plusieurs gnralisations de la mthode.
La mthode des
k-means aprs avoir choisi une premire fois les centres mobiles, recal-
cule le centre de chaque classe ds lors qu'un individu y est aect. La position du centre
est donc modie chaque aectation, ce qui permet d'avoir une bonne partition en peu
d'itrations. D'autres algorithmes sont prsents par exemple dans [Ben80a].
7.3 La classication hirarchique

Il existe principalement deux familles d'algorithmes de classication hirarchique :
92
CHAPITRE 7.
CLASSIFICATION
- les algorithmes ascendants : la construction des classes se fait par des agglomrations
successives des lments deux deux,
- les algorithmes descendants : la construction des classes se fait par dichotomies
successives de l'ensemble des lments.
Ces deux approches conduisent une hirarchie des partitions des lments. La seconde approche est beaucoup moins employe que la premire, nous prsentons donc ici
la premire approche.
7.3.1 Principe de la classication hirarchique ascendante

Le principe repose donc sur la cration chaque tape d'une partition obtenue en agrgeant deux deux les lments (individus ou plus rarement variables) les plus proches. Les
direntes faons de crer un nouveau couple constituent autant de dirents algorithmes
de classication hirarchique ascendante.
Mthodes d'agrgation
Supposons que le nuage initial, par exemple
(ou d'une mesure de similarit ou dissimilarit)
NI , classer est muni d'une distance

d. La faon de regrouper des individus
ou des groupes d'individus repose sur des rgles de calcul des distances entre ces classes
(individus ou groupes d'individus) disjointes, appeles
Soit
x, y
et
trois classes. Si les classes
x et y
critre d'agrgation.
sont regroupes en une seule classe
h,
plusieurs critres d'agrgation sont possibles :

- distance du
saut minimal
d(h; z ) = minfd(x; z ); d(y; z )g;

- distance du
saut maximal
(7.1)
d(h; z ) = maxfd(x; z ); d(y; z )g;

- distance
moyenne
d(h; z ) =
- distance
(7.2)
d(x; z ) + d(y; z )
moyenne gnralise, en notant nx
d(h; z ) =
et
ny
(7.3)
le nombre d'individus de
nx d(x; z ) + ny d(y; z )
:
nx + ny
x et y :
(7.4)
Ces mthodes d'agrgation ont l'avantage de conduire des calculs simples et possdent des proprits mathmatiques intressantes. Cependant, les rsultats ne sont pas
toujours bons. En particulier, la distance du saut minimal peut entraner des
chane,
eets de
illustrs sur la gure 7.2. Sur le nuage de points reprsent sur cette gure, les
groupes A et B ne sont pas facilement discernables par la distance du saut minimal. Il
7.3.
93
Fig. 7.2 Illustration de l'eet de chane.

est dicile de dterminer au niveau de la chane quels points appartiennent A et quels
points appartiennent B. Le critre de la distance moyenne donne de meilleurs rsultats,
mais comme nous le voyons sur la gure (les classes ont alors des formes de cercles), elle a
tendance considrer A et B comme deux classes, alors qu'il s'agit d'un seul sous-nuage.
Pour remdier ce problme, des critres d'agrgation selon la variance sont lis des
calculs d'inertie. Cette mthode est particulirement facile mettre en uvre aprs une
analyse factorielle, les lments tant donns par leurs coordonnes sur les premiers axes
factoriels.
Agrgation selon l'inertie
Cette mthode porte galement le nom de la mthode
de Ward. La solution au problme voqu ci-dessus est donc de considrer les lments prenons les individus - comme un nuage de points
NI dans IRK . L'ide est ensuite d'agrger
les individus en minimisant l'inertie (ou la variance) intraclasse et en maximisant l'inertie

interclasse.
Le principe repose sur la formule de dcomposition de Huygens prsente par la proposiiton 6.2.1 la section 6.2. Ainsi l'inertie totale du nuage
NI
est gale la somme de
l'inertie interclasse et de l'inertie intraclasse :
I = Iintra + Iinter :
(7.5)
Reprenons la gure 7.3 illustrant cette proposition. Le mme nuage est reprsent deux
fois en reliant les points pour le calcul de l'inertie totale gauche et de la somme des
inerties interclasse et intraclasse droite. Considrons que chaque individu
Fig. 7.3 Illustration de la formule de Huygens.
est muni
94
CHAPITRE 7.
d'une masse
CLASSIFICATION
mi et chaque classe q est munie d'une masse mq . Avec les notations de la
gure 7.3, la formule de dcomposition de Huygens s'crit :
I=
o
X
q2Q
mq d2(gq ; G) +
XX
q2Q i2Iq
d reprsente la distance choisie initialement, gq
NIq
et
mid2(xi; gq );
(7.6)
est le centre de gravit du sous-nuage
G le centre de gravit du nuage des individus NI .
Ainsi la qualit globale d'une partition est lie l'homognit interne des sous-nuages
et donc galement l'loignement des sous-nuages. Par exemple, la gure 7.4 illustre deux
partitions en deux sous-nuages, celui de gauche avec une inertie intraclasse faible, celui
de droite avec une inertie intraclasse leve.
Fig. 7.4 Illustration d'une inertie intraclasse faible et leve.

Ainsi pour une agrgation, nous cherchons faire varier le moins possible l'inertie
intraclasse, ce qui est quivalent rendre minimale la perte d'inertie interclasse rsultant
Ps s classes (ou sous-nuages), en associant

deux classes a et b Ps , nous obtenons une partition ps 1 s
1 classes (cf. gure 7.5).
L'lment c obtenu par l'agrgation de a et b a pour masse mc = ma + mb , et il peut
de cette agrgation. Considrons une partition
Fig. 7.5 Illustration du passage d'une partition
Ps une partition ps
1.
7.3.
95
tre dcrit par son centre de gravit donn par :
bb
:
c = mmaa ++ m
m
a
(7.7)
a et de b peut se dcomposer par la formule de Huygens par :

Iinter(ab) = ma d2 (a; G) + mb d2 (b; G) = ma d2 (a; c) + mb d2 (b; c) + mc d2 (c; G); (7.8)
L'inertie interclasse de
or l'inertie de la partition
Ps est donne par :
Is = Iinter(ab) + Iintra(a) + Iintra(b) ;

Ps
et celle de la partition
Is
=I
inter(c)
intra(a)
est donne par :
I
inter(ab)
En remplaant
1 par :
+I
I
Ainsi la perte d'inertie
=I
(7.9)
+I
intra(b)
= mcd2(c; G) + I
intra(a)
inter(ab) due au passage de la partition
inter(Ps )
+I
intra(b)
Ps
= mad2(a; c) + mbd2(b; c):

a b
ma mb 2
d (a; b):
(ab) =
ma + mb
et
(7.10)
la partition
Ps
(7.11)
inter(Ps 1 )
c par sa valeur en fonction de
I
+I
, nous obtenons :
(7.12)
inter
indice de niveau) qui

inertie de l'haltre (ou variance du diple) (a; b). Il est ais de vrier que la somme
des indices de dissimilarit entre toutes les partitions est l'inertie totale du nuage NI .
Cette variation reprsente un indice de dissimilarit (appel aussi

est l'
Le principe de la mthode de Ward est donc de dterminer les lments

partition
Ps qui ont un indice de dissimilarit minimal.
a et b d'une
Algorithme
L'algorithme de classication hirarchique ascendante est simple et facile programmer. Son droulement suit les tapes suivantes :
- tape 1 : Nous considrons le nuage
NI
comme une partition
PI
de
lments.
- tape 2 : Une transformation des donnes s'eectue par la construction partir

de la matrice
dcrite par le tableau 7.1 d'une matrice de distances entre les
individus, partir de la distance retenue initialement. Nous recherchons ensuite

les deux lments agrger (
i.e.
les deux lments les plus proches en terme de
distance ou d'indice de dissimilarit). L'agrgation des deux lments fournit une

partition
PI
individus.
- tape 3 : Nous construisons la nouvelle matrice
((I 1) (I 1))
des distances,
puis nous recherchons les deux nouveaux lments agrger. L'agrgation des deux
lments fournit une partition
individus.
96
CHAPITRE 7.
CLASSIFICATION
Fig. 7.6 Illustration de l'algorithme de classication avec avec un nuage de
=5
individus.
Nud
(6)
(7)
(8)
(9)
benjamin
(1)
(2)
(6)
(8)
an
(3)
(5)
(4)
(7)
eectif
Tab. 7.2 Relation entre les nuds de l'arbre.

- tape
m : Nous calculons la matrice ((I
(m 1)) (I (m 1)))
des distances,
puis nous cherchons agrger deux lments jusqu' ce qu'il n'en reste plus qu'un
qui constitue la dernire partition
P1 .
An d'illustrer cet algorithme, nous donnons un exemple d'un nuage
NI de cinq individus
sur la gure 7.6.

Les tapes successives de cet algorithme peuvent tre reprsentes par un
rarchique
galement appel
dendrogramme
cf. gure 7.7).
arbre hi-
o sont reprsentes en ordonnes les indices
de dissimilarit (
Vocabulaire li au dendrogramme
- Les
lments terminaux
de l'arbre (ou de la hirarchie) sont les individus (ou va-
riables selon ce qui est class).

- Les nuds de l'arbre correspondent aux regroupements de deux lments appels
an et benjamin. L'arbre de la gure 7.7 peut ainsi tre dcrit par le tableau 7.2.
- L'agrgation repose sur les ingalits des distances entre elles. Nous pouvons obtenir
le mme classement en des couples d'lments en classant ces couples par ordre
croissant des distances. Un tel classement est appel
ordonnance.
7.3.
97
Fig. 7.7 Exemple de dendrogramme.
hirarchie peut tre dcrite par une famille H d'lments de I telle que :
I 2 H , fig 2 H 8i 2 I ,
8A, B 2 H , A \ B 2 fA; B; ;g i.e. deux classes sont soit disjointes, soit l'une est
- La
-
incluse dans l'autre.

Ainsi toute classe est la runion des classes qui sont incluses en elle. La famille
des sous-ensembles construits par la classication ascendante hirarchique forme
hirarchie binaire , il en existe d'autres.

hirarchie indice est une hirarchie pour laquelle il existe une fonction v de H
+
dans IR i.e. telle que :
une hirarchie. C'est en fait une
- Une
A B , v(A) v(B ); 8A; B 2 H:
(7.13)
La hirarchie est gnralement indice par les valeurs des distances (ou indices de
dissimilarit) correspondant chaque tape d'agrgation.
- En coupant l'arbre par une droite horizontale, nous obtenons une
hirarchie donne ainsi une chane de
partitions de 1
partition.
Une
classes.
Les hirarchies indices ont une proprit particulirement intressante, car elle peuvent
tre vues comme un ensemble muni d'une
une distance
particulire. En tant que
application qui vrie :
ultramtrique [LMP95]. Une ultramtrique est

distance d associe au nuage NI , elle est une
x = y , d(x; y) = 0, 8x; y 2 NI ,
- d(x; y ) = d(y; x),
8x; y 2 NI (relation de symtrie),
- d(x; y ) d(x; z ) + d(y; z ),
8x; y; z 2 NI (ingalit triangulaire).
Cette distance d est une ultramtrique si elle vrie une condition plus forte que l'ingalit
triangulaire donne par d(x; y ) max(d(x; z ); d(y; z )) 8x; y; z 2 NI . La distance du saut
minimal est la plus grande ultramtrique infrieure la mtrique d initiale.
-
98
CHAPITRE 7.
CLASSIFICATION
7.3.2 Interprtation
L'interprtation repose essentiellement sur la lecture du dendrogramme. Elle devient
problmatique lorsque le nombre d'individus est trs important. Elle doit se faire de haut
en bas an d'examiner d'abord les partitions qui possdent peu de classes, pour ensuite
entrer dans des considrations plus dtailles. Nous cherchons, essentiellement la partition
qui prsente le plus d'intrt. Pour cela, il faut chercher construire des classes homognes.
Une bonne partition,
i.e. une bonne coupure de l'arbre, doit comporter peu de classes avec
une inertie intraclasse faible et une inertie interclasse leve. Pour le choix de la coupure,
nous pouvons galement nous aider de la courbe des indices. Ainsi nous devons rechercher
le nud aprs lequel il y a une perte d'indice importante. Ceci peut galement se lire sur
le dendrogramme.
Exemple 7.3.1
Prenons l'exemple de l'tude des donnes de granulomtrie propose par
Kendall, Stuart et Grin en 1963. Ces donnes sont composes d'chantillons de sol dcrits
par cinq variables sur leur composition : sable, limon, argile, matire organique, pH. La
gure 7.8 prsente le dendrogramme obtenu par 'approche de Ward, tandis que la gure
7.9 prsente la courbe des indices. Nous constatons partir de ces deux gures qu'une
coupure en cinq classes fournit des classes homognes et loignes des autres classes. De
plus, cette coupure est conforte par le taux de variance intraclasse qui est de 22,3%, alors
que le taux de variance interclasse est de 77,7%.
Fig. 7.8 Dendrogramme sur les donnes de composition du sol.
Une fois la coupure faite,
i.e.
le choix de la partition tudier, il faut examiner les
classes obtenues. Pour ce faire il faut trouver les variables reprsentatives de chaque classe,
pour ensuite interprter ces classes partir des variables explicatives. Deux indicateurs
sont essentiellement employs pour cette interprtation :
7.3.
99
Fig. 7.9 Courbe des indices sur les donnes de composition du sol.
excentricit de la classe par rapport au centre de gravit gnral de l'ensemble des
- l'
individus,
- la
variance du diple
constitue par les deux classes an et benjamin agrges au
nud tudi.
Nous avons une excentricit forte pour une classe lorsque celle-ci est loigne du centre
de gravit
G du nuage. Plus l'excentricit est forte, plus la classe dire de la moyenne et
donc plus elle est porteuse de sens et mrite d'tre exploite. La mesure de l'excentricit
q est donne par : d2 (gq ; G). Il est intressant d'tudier la contribution relative
de la variable classiante l'excentricit de la classe q donne par :
de la classe
Cork (q) =
o
gqk
gqk
2
d2 (gq ; G)
(7.14)
gq du sous-nuage Iq sur l'axe reprsentant la

k (cf. gure 7.10). Ainsi, si la contribution est proche de 1, la variable k explique
est la projection du centre de gravit
variable
l'excentricit de la classe. Si le signe est ngatif la variable est corrle ngativement la

classe.
Une classe constitue un sous-nuage, qui peut tre tudie par une analyse factorielle.
Au lieu d'tudier la classe
q, nous pouvons tudier le diple (a; b) de l'an et benjamin.
Cette tude peut se faire par la variance. Ainsi un diple allong dans la direction du
Iq , reprsente une variance leve dans cette direction

(cf. gure 7.11). L'indicateur utilis pour la contribution d'une variable k la divergence
premier axe factoriel du sous-nuage
100
CHAPITRE 7.
Fig. 7.10 Reprsentation d'un sous-nuage
Iq
CLASSIFICATION
dans un plan de projection.
Fig. 7.11 Caractrisation de la variance du diple dans une direction.

entre les deux classes est donn par :
Codk (q) =
(ak
bk )2
:
d2 (a; b)
(7.15)
A l'aide de l'excentricit, nous pouvons ainsi tudier pourquoi les individus sont regroups dans la classe tudie, et pourquoi les nuds an et benjamin sont spars.
Nous proposons de suivre le plan suivant pour l'interprtation de la classication

hirarchique ascendante :
- La premire chose est l'tude du dendrogramme et de la courbe des indices an de
dterminer la partition, ou les partitions tudier. La coupure est ralise au niveau
du ou des sauts importants d'inertie.
- L'tape suivante est l'tude de toutes les classes formes par la ou les partitions plus
nes. Il faut donc regarder quels sont les individus qui composent chaque classe. Il
est de plus important de comprendre :
- quelles sont les variables reprsentatives de chaque classe l'aide de la contribution
relative des variables classiantes l'excentricit de chaque classe,
- quelles sont les variables qui sparent le diple form de l'an et du benjamin
pour chaque classe, l'aide de la contribution de chaque variable la variance du
diple.
7.4.
101
CONCLUSION
- Il est de plus intressant de faire un tableau rcapitulatif donnant pour chaque classe
les individus qui y appartiennent, ainsi que les variables qui caractrisent chaque
classe. Ce tableau permet de rsumer simplement l'ensemble de l'interprtation.
7.4 Conclusion
Nous avons dans ce chapitre prsent uniquement deux mthodes (ou famille de mthodes) de classication : la mthode des centres mobiles et la classication hirarchique
ascendante. Les mthodes de classication sont cependant trs nombreuses. Il existe entre
hybrid classication) qui est un mlange
autre une mthode dite de classication mixte (
de la mthode des centres mobiles et de la classication hirarchique. Elle est particulirement bien adapte aux tableaux de donnes comportant des milliers d'individus, pour
lesquels le dendrogramme est dicile lire. Les tapes de l'algorithme sont les suivantes :
- Une premire tape consiste appliquer la mthode des centres mobiles de faon
obtenir une partition de quelques dizaines, voire quelques centaines de groupes
homognes.
- Ensuite, la classication hirarchique est applique sur ces groupes. Le dendrogramme et la courbe des indices permet de dnir le nombre de classes nales
retenir.
- Une fois ce nombre dtermin, an d'optimiser la classication, la mthode des
centres mobiles est de nouveau applique l'ensemble des individus de dpart pour
obtenir une partition correspondant celle trouve par le dendrogramme. Dans cette
dernire tape les centres mobiles initiaux peuvent tre considrs comme tant les
barycentres des classes issues de la partition ralise par la classication hirarchique
an d'obtenir une convergence plus rapide.
La classication est une phase importante de l'analyse des donnes. Il est prfrable
de l'employer en complment des analyses factorielles (particulirement la classication
ascendante hirarchique qui utilise la mthode de Ward pour l'agrgation). Il est conseill
d'appliquer la classication aprs les analyses factorielles. Cependant, les classes peuvent
constituer des variables supplmentaires dans l'ACP, l'AFC ou encore l'ACM.
102
CHAPITRE 7.
CLASSIFICATION
Glossaire
Indications historiques
- Bayes (Thomas) 1702-1761 : mathmaticien anglais, il tablit la relation liant les
probabilits conditionnelles aux probabilits
a priori.
- Benzcri (Jean-Paul) : mathmaticien franais, il est l'inventeur de l'analyse factorielle des correspondances (AFC) et le fondateur de l'cole franaise d'analyse des
donnes. Il s'intressa en particulier aux donnes textuelles.
- Burt (Sir Cyril) 1883-1971 : psychologue britannique, innovateur certain d'un point
de vue mthodologique en analyse de donnes, il est surtout connu pour ses fraudes
scientiques et ses falsications d'observations.
- Huygens (Christiaan) 1629-1695 : galement orthographi Huyghens, exprimentateur et thoricien nerlandais, il proposa un trait sur le calcul des probabilits. En
mcanique, il dveloppa la thorie du pendule qu'il appliqua pour rguler les mouvements d'horloges, et s'intressa au problme du choc par la quantit de mouvement.
- Mahalanobis (Prasanta Chandra) 1893-1972 : physicien et mathmaticien indien, il
s'intressa beaucoup aux statistiques. Il est surtout connu pour la distance qui porte
son nom. Il tudia les analyses graphiques des fractiles (quantiles), et les statistiques
D-square,
appliqus l'conomie et la biomtrie. Il est un des premiers a avoir
organis le recueil de donnes en Inde.

- Minkowsky (Hermann) 1864-1909 : mathmaticien allemand, il proposa une reprsentation de l'espace-temps quatre dimensions qui fournit une interprtation gomtrique de la relativit restreinte de A. Einstein qui fut son lve.
- Pearson (Karl) 1857-1936 : mathmaticien anglais, il est un des premiers statisticiens. En particulier ses recherches taient tournes vers l'hrdit.
- Tchebychev (Pafnouti Lvovitch) 1821-1894 : mathmaticien russe, son nom est aussi
crit Chebyshov, Chebyshev, ou Tschebysche. Il est connu pour ses travaux dans le
domaine de la probabilit et des statistiques, en particulier l'ingalit de Tchebychev
qui permet de majorer des probabilits (grossirement) et de dmontrer le thorme
de la loi faible des grands nombres.
- Vorono (Georgi Fedoseevich) 1868-1908 : mathmaticien russe, galement transcrit Voronoy, il travailla sur la thorie des nombres, en particulier sur les nombres
algbriques et la gomtrie des nombres. En 1904, il rencontra Minkowski, et ils
s'aperurent qu'ils tudiaient des sujets similaires.
103
104
GLOSSAIRE
- Ward (Abraham) 1902-1950 : mathmaticien, n en Hongrie, il partit Vienne pour

faire ses recherches. Sous l'occupation nazie, d'origine juive, il partit en 1938 aux
Etats-Unis. Ses travaux concernrent les espaces mtriques et plus particulirement
les espaces vectoriels dimension innie. Il obtint galement des rsultats en gomtrie direntielle.
105
RAPPEL DE DFINITIONS
Rappel de dnitions
- Aectation : c'est une tape de classement.
- Caractres : donnes caractrisant les individus.
- Caractre qualitatif : le caractre n'est pas mesurable.
- Caractre qualitatif pur ou variable nominale : les modalits ne possdent pas
de structure d'ordre.
- Caractre qualitatif ordonn ou variable ordinale : les modalits qualitatives
sont ordonnes.
- Caractre quantitatif : le caractre est mesurable, on y associe le nom de variable
statistique (numrique).
- Variable
discrte
les
valeurs
prises
par
la
variable
sont
des
valeurs
ponctuelles.
- Variable continue : les valeurs prises par la variable sont numriques d'un intervalle donn.
- Classement : attribution d'lments dans une classe prexistante.
- Classication : construction des classes les plus homognes possibles dans un chantillon.
I individus dcrits
K variables et xik une donne du tableau i = 1; :::; I et k = 1; :::; K , le coecient
0
de corrlation linaire entre deux variables k et k est donn par :
- Coecient de corrlation linaire : pour un tableau de donnes de

par
rkk0 = (xk ; xk0 ) =
cov(xk ; xk0 ) :
(7.16)
k k0
- Corrlation empirique ou covariance : pour un tableau de donnes de

dcrits par
variables et
xik
une donne du tableau
0
corrlation empirique entre deux variables k et k
i = 1; :::; I
et
individus
k = 1; :::; K , la
est donne par :
XX
cov(xk ; xk0 ) = I1
(xik xk )(xjk0 xk0 ):
i2I j 2I
(7.17)
- Discrimination : la discrimination consiste dterminer une fonction qui spare au

mieux les donnes selon un critre prdni.
- Dispersion : talement des points dtermin par une distance. La dispersion d'un
nuage sur un axe peut tre vu comme l'inertie du nuage sur l'axe. Une mesure de
dispersion est la variance.
- Distribution (ou srie statistique) : les observations d'un caractre forment une distribution.
- chantillon : sous-ensemble de la population.
- Eectif vriant un critre : nombre d'lments vriant ce critre.
- Fonction de rpartition :
F (x) est la proportion des individus de la population dont

x.
le caractre est infrieur
- Individus ou units statistiques : lments de la population.
106
GLOSSAIRE
- Inertie : valeur caractrisant la concentration ou la dispersion de points sur un axe,

un plan ou tout espace. L'inertie peut tre reprsente par une variance.
- Liaison : deux variables sont lies si elles ont un fort coecient de corrlation linaire
ou encore si elles ne sont pas indpendantes.
- Modalit : les modalits d'un caractre sont les valeurs (mesurable ou non) prises
par cette variable.
- Moment d'ordre
riables et
xik
r des individus est donn par :
i = 1; :::; I
xrk =
i = 1; :::; I
et
1 X xr :
et
(7.18)
ik
I i2I
- Moyenne : pour un tableau de donnes de
xik
I individus dcrits par K vak = 1; :::; K , le moment d'ordre
: Pour un tableau de donnes de
individus dcrits par
variables et
k = 1; :::; K , la moyenne des individus est
donne par :
xk =
1 Xx
I i2I
ik :
(7.19)
- Population : ensemble des donnes tudies.
I individus dcrits par K variables et xik

i = 1; :::; I et k = 1; :::; K , le quantile d'ordre (0 1)
est la racine de l'quation F (x) = , o F est la fonction de rpartition.
- Quantile : pour un tableau de donnes de

- Ressemblance : deux individus se ressemblent, ou sont proches, s'ils possdent des

valeurs proches pour l'ensemble des variables.
- Tableau de contingence : c'est un tableau d'eectifs obtenus en croisant les modalits
de deux variables qualitatives dnies sur une mme population.
- Taxonomie : littralement la science des lois de l'ordre, c'est la science de la classication, parfois limite la botanique.
- Typologie : ensemble des limites des domaines connexes (patatodes) faire sur
chaque plan (pour les individus et les variables).
I individus dcrits par K variables et

k = 1; :::; K , la variance des individus est
- Variance : pour un tableau de donnes de
xik
i = 1; :::; I
et
donne par :
k2 =
1 X(x
I i2I
ik
xk )2 :
(7.20)
Bibliographie
L'analyse de donnes (Tome 1) La taxinomie. Dunod, 1980.
: L'analyse de donnes (Tome 2) L'analyse des correspon-
[Ben80a]
J.P. Benzecri :
[Ben80b]
J.P. Benzecri
[Ber72]
[BFRS93]
[Bro03]
dances.
Dunod, 1980.
C. Berge :
Graphes et hypergraphes.
Dunod, 1972.
L. Breiman, J.H. Friedman, R.A.Olshen et C.J. Stone : Classication

and regression tree. Chapman and Hall, 1993.
G. Brossier : Analyse des donnes, chapitre Les lments fondamentaux de
la classication. Hermes Sciences publications, 2003.
[CDG 89] G. Celeux, E. Diday, G. Govaert, Y. Lechevallier et H. Ralambon-
Classication automatique des donnes. Dunod, 1989.

Celeux : Analyse des donnes, chapitre Analyse discriminante.
drainy :
[Cel03]
G.
Hermes
Sciences publications, 2003.

[DH97]
P. Demartines et J. Hrault :
Curvilinear component analysis : A self-
organizing neural network for non linear mapping of data set.
[EP90]
[Goa03]
[HL03]
IEEE Transac-
tions on Neural Networks, 8(1):148154, Janvier 1997.

B. Escoffier et J. Pages : Analyses factorielles simples et multiples objectifs, mthodes et interprtations. Dunod, 1990.
G. Goavert : Analyse des donnes. Hermes Sciences publications, 2003.
G. Hbrail et Y. Lechevallier : Analyse des donnes, chapitre Data Mining et analyse des donnes. Hermes Sciences publications, 2003.
[Jam99a]
[Jam99b]
[Kun00]
Introduction au Data Mining. Eyrolles, 1999.

M. Jambu : Mthodes de base de l'analyse de donnes. Eyrolles, 1999.
M. Kunt : Reconnaissance des formes et analyse de scnes. Presses PolytechM. Jambu :
nique et universitaires romandes, 2000.

[LMP95]
L. Lebart, A. Morineau et M. Piron :
sionnelle.
Statistique exploratoire multidimen-
dunod, 1995.
[Mar04]
A. Martin : La fusion d'informations, 2004.
[Pag03]
J. Pags :
Analyse des donnes,
chapitre Analyse factorielle des correspon-
dances. Extensions et applications au traitement statistique des donnes sensorielles. Hermes Sciences publications, 2003.
107
108
[Pha96]
BIBLIOGRAPHIE
D.T. Pham :
Blind separation of instantaneous mixture of sources via in-
dependent component analysis.
IEEE Transactions on Signal Processing,
44(11):27682779, 1996.
[Sap90]
G. Saporta :
Probabilits Analyse des donnes et Statistique. Edition Technip,
1990.
[Vap99]
V.N. Vapnik :
The nature of Statistical Learning Theory.
Springer, 1999.
Index
aectation, 76, 105
locale, 82, 85
algorithme
de Manhattan, 83
ascendant, 92
de Minkowsky, 83
descendant, 92
de Tchebychev, 83
2 , 45, 83
approche baysienne, 84
du
arbre
du saut maximal, 92
additif, 89
du saut minimal, 92
hirarchique, 96
euclidienne, 81
association, 68
gnralise, 80
axe
moyenne, 92
d'inertie, 15
factoriel, 15
moyenne gnralise, 92
distribution, 105
Bayes, 84, 103
chantillon, 105
Benzcri, 1, 103
eectif, 105
Burt, 61, 66, 103
eets de chane, 92
caractre, 2, 3, 105
qualitatif, 105
quantitatif, 105
classement, 73, 76, 87, 105
classication, 76, 105
clustering, 87
codage condens, 57
coecient de corrlation linaire, 25, 105
composante principale, 30
corrlation empirique, 105
lments terminaux, 96
lment illustratif, 35, 53, 68
quivalence distributionnelle, 45
excentricit, 99
facteur, 16, 29
fonction de rpartition, 105
fonction linaire discriminante, 79
fouille de donnes, 2
hirarchie, 89, 97
covariance, 105
data mining, 2, 5
dendrogramme, 96
binaire, 97
indice, 97
Huygens, 77, 93, 103
diagramme de Vorono, 90
individu, 3, 105
discrimination, 73, 76, 105
indpendance, 41
dispersion, 12, 105
inertie, 12, 93, 106
distance, 88, 97
de Mahalanobis, 80
globale, 82
k plus proches voisins, 83

k-means, 5, 91
109
110
INDEX
liaison, 3, 24, 41
variance, 1, 106
du diple, 99
Mahalanobis, 82, 83, 103
Vorono, 90, 103
mesure de similarit, 88
Minkowsky, 83, 103
modalit, 2, 10, 106
moment, 1, 106
moyenne, 1, 106
mthode CART, 5, 74
ordonnance, 96
partition, 89
Pearson, 23, 45, 103
population, 2, 106
pourcentage de la variance, 20
prol-colonne, 44, 47, 64
prol-ligne, 43, 46, 64
pyramide, 89
quantile, 1, 106
relation de dualit, 32
relation de transition, 16
ressemblance, 3, 24, 25, 61, 106
rgle de Bayes, 84
supervis, 4, 73, 87
tableau
de Burt, 61
de contingence, 39, 106
disjonctif complet, 57, 59
taux d'inertie, 20
taxonomie, 87, 106
Tchebychev, 83, 103
typologie, 4, 106
ultramtrique, 97
unit statistique, 3, 105
variable, 3
continue, 105
discrte, 105
nominale, 2
ordinale, 2
Ward, 93, 98, 104

Cours Complet Analyse Des Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Complet Analyse Des Données

Transféré par

Droits d'auteur :

Formats disponibles

L'analyse de donnes

Polycopi de cours ENSIETA - Rf. : 1463

Table des matires

Ajustement du nuage des individus dans l'espace des variables

Ajustement du nuage des variables dans l'espace des individus

Reconstruction des donnes

3 Analyse en Composantes Principales

La transformation des donnes . . . . . . . . . . . . . . . . . . . . .

L'analyse des nuages

TABLE DES MATIRES

4 Analyse Factorielle des Correspondances

Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . .

La transformation des donnes . . . . . . . . . . . . . . . . . . . . .

La ressemblance entre prols . . . . . . . . . . . . . . . . . . . . . .

Les nuages des deux prols . . . . . . . . . . . . . . . . . . . . . . .

L'ajustement des deux nuages . . . . . . . . . . . . . . . . . . . . .

5 Analyse des Correspondances Multiples

Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . .

La transformation des donnes . . . . . . . . . . . . . . . . . . . . .

L'analyse factorielle des correspondances du tableau disjonctif complet 62

L'analyse factorielle des correspondances du tableau de Burt . . . .

Les variables quantitatives . . . . . . . . . . . . . . . . . . . . . . .

6 Analyse Factorielle Discriminante

Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . .

Mthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . . . . .

TABLE DES MATIRES

Principe de la classication hirarchique ascendante . . . . . . . . .

Rappel de dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

TABLE DES MATIRES

Liste des tableaux

Reprsentation des donnes.

Reprsentation des donnes pour l'ACP.

Reprsentation des donnes centre-rduites pour l'ACP.

Reprsentation des donnes pour l'AFC.

Tableau des frquences relatives pour l'AFC. . . . . . . . . . . . . . . . . .

Tableau des frquences observes. . . . . . . . . . . . . . . . . . . . . . . .

Les prol-ligne et prol-colonne. . . . . . . . . . . . . . . . . . . . . . . . .

Prols-lignes (exprims en pourcentages-lignes arrondis).

Prols-colonnes (exprims en pourcentages-colonnes arrondis).

Reprsentation des donnes sous forme de codage condens pour l'ACM.

Reprsentation des donnes sous forme de codage condens pour l'ACM.

Exemple du vin : tableau initial. . . . . . . . . . . . . . . . . . . . . . . . .

Exemple du vin : tableau disjonctif complet. . . . . . . . . . . . . . . . . .

Reprsentation des donnes sous forme du tableau de Burt. . . . . . . . . .

Mise en frquences du tableau disjonctif complet.

Les prol-lignes et prol-colonnes pour l'ACM. . . . . . . . . . . . . . . . .

Reprsentation des donnes pour l'AFD.

Reprsentation des donnes pour la classication.

Relation entre les nuds de l'arbre. . . . . . . . . . . . . . . . . . . . . . .

LISTE DES TABLEAUX

Table des gures

Les nuages de points. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les formes de nuages de points.

Dcomposition en valeurs singulires du tableau

Nuage des individus

Dirents types de nuages. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Nuage des variables

L'eet de taille dans IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Forme de dualit exprimant le nuage

Forme de dualit exprimant le nuage

NI des prols-lignes dans l'espace IRJ . . .

Le schma de dualit pour l'AFC. . . . . . . . . . . . . . . . . . . . . . . .

Reprsentation simultane dans le premier plan sur l'exemple de Cohen. . .

La ressemblance entre prols . . . . . . . . . . . . . . . . . . . . . .

Les nuages des deux prols . . . . . . . . . . . . . . . . . . . . . . .

Principe de la classication hirarchique ascendante . . . . . . . . .

Rappel de dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Les prol-ligne et prol-colonne. . . . . . . . . . . . . . . . . . . . . . . . .

Prols-lignes (exprims en pourcentages-lignes arrondis).

Prols-colonnes (exprims en pourcentages-colonnes arrondis).

Les prol-lignes et prol-colonnes pour l'ACM. . . . . . . . . . . . . . . . .

Reprsentation des donnes pour la classication.

Table des gures

Dirents types de nuages. . . . . . . . . . . . . . . . . . . . . . . . . . . .

L'eet de taille dans IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NI des prols-lignes dans l'espace IRJ . . .

Illustration de l'eet de chane.

Illustration de l'algorithme de classication avec avec un nuage de

traduit en franais par fouille de donnes ou encore extraction de connaissance partir

etc ). Ces approches ont galement t mis prot

mots en italique sont dnis dans le glossaire page 103.

Tab. 1.1 Reprsentation des donnes.

de l'intelligence articielle et du monde de la reconnaissance des formes peuvent

ncessitent souvent une construction dlicate et dici-

Classication And Regression Tree )

cas particulier)) et la classication hirarchique ascendante ou descendante. Nous

classication hirarchique ascendante (resp. descendante) consiste regrouper