Vous êtes sur la page 1sur 119

L'analyse de donnes

Polycopi de cours ENSIETA - Rf. : 1463

Arnaud MARTIN
Septembre 2004

Table des matires


1 Introduction

1.1

Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Les donnes

1.3

Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4

Les mthodes

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5

Les logiciels

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6

Plan

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Analyses Factorielles
2.1

2.2
2.3

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.1

Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.2

Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.3

Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

Principe gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

Ajustement du nuage des individus dans l'espace des variables

. . . . . . .

12

2.3.1

Droite d'ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

2.3.2

Plan d'ajustement

. . . . . . . . . . . . . . . . . . . . . . . . . . .

13

2.3.3

Sous-espace d'ajustement . . . . . . . . . . . . . . . . . . . . . . . .

14

2.4

Ajustement du nuage des variables dans l'espace des individus

. . . . . . .

15

2.5

Relation entre les axes d'inertie et les facteurs des deux nuages . . . . . . .

16

2.6

Reconstruction des donnes

. . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.7

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

3 Analyse en Composantes Principales

23

3.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

3.2

Principe de l'ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

3.2.1

Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

3.2.2

La transformation des donnes . . . . . . . . . . . . . . . . . . . . .

26

3.2.3

L'analyse des nuages

. . . . . . . . . . . . . . . . . . . . . . . . . .

27

3.2.4

L'ajustement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

3.3

Reprsentation simultane

. . . . . . . . . . . . . . . . . . . . . . . . . . .

31

3.4

Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.5

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

ii

TABLE DES MATIRES

4 Analyse Factorielle des Correspondances


4.1

4.2

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39
39

4.1.1

Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . .

39

4.1.2

Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

4.1.3

Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

Principe de l'AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

4.2.1

La transformation des donnes . . . . . . . . . . . . . . . . . . . . .

43

4.2.2

La ressemblance entre prols . . . . . . . . . . . . . . . . . . . . . .

44

4.2.3

Les nuages des deux prols . . . . . . . . . . . . . . . . . . . . . . .

46

4.2.4

L'ajustement des deux nuages . . . . . . . . . . . . . . . . . . . . .

47

4.2.5

Reprsentation simultane . . . . . . . . . . . . . . . . . . . . . . .

49

4.3

Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

4.4

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

5 Analyse des Correspondances Multiples


5.1

5.2

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57
57

5.1.1

Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . .

57

5.1.2

Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

5.1.3

Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

5.2.1

Principe de l'ACM

La transformation des donnes . . . . . . . . . . . . . . . . . . . . .

59

5.2.2

L'analyse factorielle des correspondances du tableau disjonctif complet 62

5.2.3

L'analyse factorielle des correspondances du tableau de Burt . . . .

66

5.2.4

Les variables quantitatives . . . . . . . . . . . . . . . . . . . . . . .

67

5.3

Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

5.4

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

6 Analyse Factorielle Discriminante


6.1

6.2

6.3

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.2

73

6.1.1

Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . .

75

6.1.2

Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

6.1.3

Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

Principe de l'AFD

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

6.2.1

La discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

6.2.2

L'aectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

85

7 Classication
7.1

73

87

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

7.1.1

Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

7.1.2

Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

88

7.1.3

Les mthodes

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

Mthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . . . . .

90

iii

TABLE DES MATIRES

7.2.1
7.3

7.4

Principe de l'algorithme

. . . . . . . . . . . . . . . . . . . . . . . .

90

La classication hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . .

91

7.3.1

Principe de la classication hirarchique ascendante . . . . . . . . .

92

7.3.2

Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Glossaire
Indications historiques

101
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Rappel de dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

iv

TABLE DES MATIRES

Liste des tableaux


1.1

Reprsentation des donnes.

. . . . . . . . . . . . . . . . . . . . . . . . . .

3.1

Reprsentation des donnes pour l'ACP.

3.2

Reprsentation des donnes centre-rduites pour l'ACP.

4.1

Reprsentation des donnes pour l'AFC.

. . . . . . . . . . . . . . . . . . .

3
24

. . . . . . . . . .

26

. . . . . . . . . . . . . . . . . . .

40

4.2

Tableau des frquences relatives pour l'AFC. . . . . . . . . . . . . . . . . .

41

4.3

Tableau de contingence.

43

4.4

Tableau des frquences observes. . . . . . . . . . . . . . . . . . . . . . . .

43

4.5

Les prol-ligne et prol-colonne. . . . . . . . . . . . . . . . . . . . . . . . .

44

4.6

Prols-lignes (exprims en pourcentages-lignes arrondis).

44

4.7

Prols-colonnes (exprims en pourcentages-colonnes arrondis).

5.1

Reprsentation des donnes sous forme de codage condens pour l'ACM.

58

5.2

Reprsentation des donnes sous forme de codage condens pour l'ACM.

59

5.3

Exemple du vin : tableau initial. . . . . . . . . . . . . . . . . . . . . . . . .

60

5.4

Exemple du vin : tableau disjonctif complet. . . . . . . . . . . . . . . . . .

61

5.5

Reprsentation des donnes sous forme du tableau de Burt. . . . . . . . . .

62

5.6

Mise en frquences du tableau disjonctif complet.

. . . . . . . . . . . . . .

63

5.7

Les prol-lignes et prol-colonnes pour l'ACM. . . . . . . . . . . . . . . . .

64

6.1

Reprsentation des donnes pour l'AFD.

75

7.1

Reprsentation des donnes pour la classication.

. . . . . . . . . . . . . .

88

7.2

Relation entre les nuds de l'arbre. . . . . . . . . . . . . . . . . . . . . . .

96

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . .
. . . . . . .

. . . . . . . . . . . . . . . . . . .

45

vi

LISTE DES TABLEAUX

Table des gures


2.1

Les nuages de points. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.2

Les formes de nuages de points.

11

2.3

Le nuage

. . . . . . . . . . . . . . . . . . . . . . . .

2.4

NI
Le nuage NI

2.5

Schma de dualit.

2.6

Dcomposition en valeurs singulires du tableau

3.1

Nuage des individus

3.2

Dirents types de nuages. . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

Nuage des variables

. . . . . . . . . . . . .

29

. . . . . . . . . . . . .

30

et sa droite d'ajustement.

. . . . . . . . . . . . . . . . . . . .

13

et sa droite d'ajustement.

. . . . . . . . . . . . . . . . . . . .

15

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

NI

dans IR

X.

. . . . . . . . . . . . .

19

. . . . . . . . . . . . . . . . . . . . . . . .

27

3.5

NK dans IRI . . . . . . . . . . .
Ajustement du nuage NI des individus pour l'ACP.
Ajustement du nuage NK des variables pour l'ACP.

. . . . . . . . . . . . .

31

3.6

L'eet de taille dans IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

3.7

Forme de dualit exprimant le nuage

. . . .

32

3.8

Forme de dualit exprimant le nuage

. . . .

33

3.9

Rsum de l'ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

4.1

Le nuage

3.3
3.4

NI en fonction du nuage NK . .
NK en fonction du nuage NI . .

. . . . . . . . . . . . .

46

4.2

NI des prols-lignes dans l'espace IRJ . . .


I
Le nuage NJ des prols-colonnes dans l'espace IR .

. . . . . . . . . . . . .

48

4.3

Le schma de dualit pour l'AFC. . . . . . . . . . . . . . . . . . . . . . . .

50

4.4

Reprsentation simultane dans le premier plan sur l'exemple de Cohen. . .

51

4.5

Inertie et dpendance.

52

4.6

Relation entre la forme du nuage de points et le tableau.

. . . . . . . . . .

53

4.7

Rsum de l'AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

5.1

Hypertable de contingence pour

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

J = 3.

. . . . . . . . . . . . . . . . . . . .

NI dans l'espace IR . .
NK dans l'espace IRI . .

61

5.2

Reprsentation du nuage des individus

5.3

Reprsentation du nuage des modalits

. . . . . . .

65

. . . . . . .

66

5.4

Schma de dualit pour l'ACM.

. . . . . . . . . . . . . . . . . . . . . . . .

67

5.5

Rsum de l'ACM.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

6.1

Reprsentation du nuage

. .

77

6.2

Illustration de la formule de Huygens. . . . . . . . . . . . . . . . . . . . . .

78

NI

des individus partitionns dans l'espace IR

vii

viii

TABLE DES FIGURES

7.1

Illustration de l'algorithme des centres mobiles.

. . . . . . . . . . . . . . .

91

7.2

Illustration de l'eet de chane.

7.3

. . . . . . . . . . . . . . . . . . . . . . . .

93

Illustration de la formule de Huygens. . . . . . . . . . . . . . . . . . . . . .

93

7.4

Illustration d'une inertie intraclasse faible et leve. . . . . . . . . . . . . .

94

7.5

Illustration du passage d'une partition

94

7.6

Illustration de l'algorithme de classication avec avec un nuage de


individus.

Ps une partition ps

1. . . . . . . .

=5

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96

7.7

Exemple de dendrogramme.

. . . . . . . . . . . . . . . . . . . . . . . . . .

97

7.8

Dendrogramme sur les donnes de composition du sol. . . . . . . . . . . . .

98

7.9

Courbe des indices sur les donnes de composition du sol. . . . . . . . . . .

99

7.10 Reprsentation d'un sous-nuage

Iq

dans un plan de projection. . . . . . . . 100

7.11 Caractrisation de la variance du diple dans une direction. . . . . . . . . . 100

Chapitre 1
Introduction
Les statistiques peuvent tre vues en fonction de l'objectif x ; classiquement les mthodes statistiques sont employes soit pour explorer les donnes (nomme statistique
exploratoire) soit pour prdire un comportement (nomme statistique prdictive ou dcisionnelle [Goa03] ou encore infrentielle [Sap90]). La statistique exploratoire s'appuie
sur des techniques descriptives et graphiques. Elle est gnralement dcrite par la statistique descriptive qui regroupe des mthodes exploratoires simples, uni- ou bidimensionnelle (moyenne, moments, quantiles, variance, corrlation, ...) et la statistique exploratoire
multidimensionnelle. L'analyse de donnes s'inscrit dans ce cadre de la statistique exploratoire multidimensionnelle. Nous verrons que des mthodes issues de l'analyse de donnes
peuvent galement servir la statistique prdictive (

cf. chapitre 6).

Les mthodes d'analyse de donnes ont commences tre dveloppes dans les annes 50 pousses par le dveloppement de l'informatique et du stockage des donnes qui
depuis n'a cess de crotre. L'analyse de donnes a surtout t dveloppe en France par
J.P. Benzcri [Ben80a], [Ben80b] qui a su par l'analyse des correspondances reprsenter
les donnes de manire simple et interprtable. Il dcrit l'analyse de donnes selon cinq
principes, un peu dsuets aujourd'hui :
-

1er
2me
3me
4me
5me

principe : Statistique n'est pas probabilit.


principe : Le modle doit suivre les donnes et non l'inverse.
principe : Il convient de traiter simultanment des informations concernant le

plus grand nombre possible de dimensions.


-

principe : Pour l'analyse des faits complexes et notamment des faits sociaux,

l'ordinateur est indispensable.


-

principe : Utiliser un ordinateur implique d'abandonner toutes techniques

conues avant l'avnement du calcul automatique.


Ces cinq principes montrent bien l'approche d'une part de la statistique la dirence
des probabilits - les modles doivent coller aux donnes - et d'autre part de l'analyse de
donnes - il faut traiter le plus grand nombre de donnes simultanment ce qui implique
l'utilisation de l'ordinateur et ainsi l'utilisation de nouvelles techniques adaptes.
L'analyse de donnes fait toujours l'objet de recherche pour s'adapter tout type de
donnes et faire face des considrations de traitements en temps rel en dpit de la

CHAPITRE 1.

INTRODUCTION

quantit de donnes toujours plus importante. Les mthodes dveloppes (et l'analyse de
donnes) sont maintenant souvent intgres avec des mthodes issues de l'informatique et
de l'intelligence articielle (apprentissage numrique et symbolique) dans le

data mining

traduit en franais par fouille de donnes ou encore extraction de connaissance partir


de donnes [HL03].

1.1 Domaines d'application


Aujourd'hui les mthodes d'analyse de donnes sont employes dans un grand nombre
de domaines qu'il est impossible d'numrer. Actuellement ces mthodes sont beaucoup
utilises en marketing par exemple pour la gestion de la clientle (pour proposer de nouvelles ores cibles par exemple). Elles permettent galement l'analyse d'enqutes par
exemple par l'interprtation de sondages (o de nombreuses donnes qualitatives doivent
tre prises en compte). Nous pouvons galement citer la recherche documentaire qui est
de plus en plus utile notamment avec internet (la dicult porte ici sur le type de donnes textuelles ou autres). Le grand nombre de donnes en mtorologie a t une des
premire motivation pour le dveloppement des mthodes d'analyse de donnes. En fait,
tout domaine scientique qui doit grer de grande quantit de donnes de type vari ont
recours ces approches (cologie, linguistique, conomie,
dustriel (assurance, banque, tlphonie,

etc ) ainsi que tout domaine in-

etc ). Ces approches ont galement t mis prot

en traitement du signal et des images, o elles sont souvent employes comme prtraitements (qui peuvent tre vus comme des ltres). En ingnierie mcanique, elles peuvent
aussi permettre d'extraire des informations intressantes sans avoir recours des modles
parfois alourdis pour tenir compte de toutes les donnes.

1.2 Les donnes


Nous considrons tout d'abord que la

population 1 peut tre dcrite par des donnes de

caractres : qualitatif ou quantitatif. Les caractres qualitatifs peuvent tre


purs (variables nominales ) i.e. que les modalits ne possdent pas de structure d'ordre
ou ordonns (variables ordinales ) i.e. que les modalits qualitatives sont ordonnes. Il est
deux types de

ais de comprendre que les donnes caractre qualitatif doivent tre adaptes pour les
mthodes numriques.
Les mthodes d'analyse de donnes supposent souvent une organisation des donnes
particulire, naturelle, mais parfois dicile raliser selon l'application et les donnes. Le
choix d'un tableau permet une organisation dans le plan de toutes les donnes et ainsi de
traiter simultanment toute l'information. Ainsi la plupart des mthodes ncessitent une
organisation des donnes prsente par le tableau 1.1. Nous verrons au Chapitre 4 que
selon les donnes ce tableau est quelque peu modi, mais l'ide de tableau reste prsente
dans toutes les mthodes d'analyse de donnes.

1 Les

mots en italique sont dnis dans le glossaire page 103.

1.3.

LES OBJECTIFS

Variables

Individus

......

1
.
.
.
.
.
.

.
.
.
.
.
.

......

.
.
.
.
.
.

......

xik

......

.
.
.
.
.
.

Tab. 1.1  Reprsentation des donnes.

individus ou encore units statistiques sont reprsents en


ligne et sont chacun dcrits par des variables ou caractres . Nous conserverons les notations du tableau 1.1 dans la suite du document. xik est donc la valeur de la variable k pour
l'individu i avec k = 1; :::; K et i = 1; :::; I . Par abus de notations, pour des considrations
de simplication de celles-ci, I reprsente la fois le nombre d'individus et l'ensemble des
individus f1; :::; i; :::; I g, de mme K reprsente le nombre de variables et l'ensemble des
variables f1; :::; k; :::; K g.
Cette reprsentation des donnes peut faciliter la lecture de petits tableau, i.e. lorsqu'il
Ainsi les observations ou

y a peu de donnes. Cependant, ds lors que la taille du tableau est grand, ou que nous
recherchons des relations entre plus de deux individus ou plus de deux variables, cette
reprsentation et les techniques simples de la statistique descriptive ne susent plus.

1.3 Les objectifs


Les objectifs que se sont xs les chercheurs en analyse de donnes sont donc de
rpondre aux problmes poss par des tableaux de grandes dimensions. Les objectifs sont
souvent prsents en fonction du type de mthodes, ainsi deux objectifs ressortent : la
visualisation des donnes dans le meilleur espace rduit et le regroupement dans tout
l'espace.
Les mthodes de l'analyse de donnes doivent donc permettre de reprsenter synthtiquement de vastes ensembles numriques pour faciliter l'oprateur dans ses dcisions. En
fait d'ensembles numriques, les mthodes d'analyse de donnes se proposent galement
de traiter des donnes qualitatives, ce qui en fait des mthodes capables de considrer un
grand nombre de problmes. Les reprsentations recherches sont bien souvent des reprsentations graphiques, comme il est dicile de visualiser des points dans des espaces de
dimensions suprieures deux, nous chercherons reprsenter ces points dans des plans.
Ces mthodes ne se limitent pas une reprsentation des donnes, ou du moins pour la
rendre plus aise, elles cherchent les

ressemblances

entre les individus et les

liaisons

entre

les variables. Ces proximits entre individus et variables vont permettre l'oprateur de

CHAPITRE 1.

dterminer une

typologie

INTRODUCTION

des individus et des variables, et ainsi il pourra interprter ses

donnes et fournir une synthse des rsultats des analyses. Nous voyons donc que les deux
objectifs prcdemment cits sont trs lis voir indissociables, ce qui entrane souvent
l'utilisation conjointe de plusieurs mthodes d'analyse de donnes.

1.4 Les mthodes


L'analyse de donnes regroupe deux familles de mthodes suivant les deux objectifs
cits prcdemment :
 Une partie des mthodes cherche reprsenter de grands ensembles de donnes
par peu de variables

i.e.

recherche les dimensions pertinentes de ces donnes. Les

variables ainsi dtermines permettent une reprsentation synthtique recherche.


Parmi ces mthodes de nombreuses analyses sont issues de l'analyse factorielle, telles
que l'analyse en composantes principales, l'analyse factorielle des correspondances,
l'analyse factorielle des correspondances multiples, ou encore l'analyse canonique.

analyse en composantes principales est l'une des mthodes les plus employes. Elle
est particulirement adapte aux variables quantitatives, continues, a priori corrL'

les entre elles. Une fois les donnes projetes dans dirents plans, les proximits
entre variables s'interprtent en termes de corrlations, tandis que les proximits
entre individus s'interprtent en termes de similitudes globales des valeurs observes.
L'

analyse factorielle des correspondances (ou analyse des correspondances binaires)

a t conue pour l'tude des tableaux de contingence obtenus par croisement de


variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est surtout adapte ce type de variables. Dans cette approche, les lignes
et les colonnes ont un rle symtrique et s'interprtent de la mme faon. L'

factorielle des correspondances multiples

analyse

est une extension de l'analyse factorielle

des correspondances qui ne permet que le croisement de deux variables qualitatives.


Elle est donc adapte la description de grands tableaux de variables qualitatives

analyse canonique est trs peu utilise

par exemple pour le traitement d'enqutes. L'

en pratique, son intrt porte sur son aspect thorique. Elle cherche analyser les
relations entre deux groupes de variables de nature dirente. De ce fait l'analyse
factorielle des correspondances peut tre vu comme analyse canonique particulire

[CDG 89], [LMP95].


 Une autre partie des mthodes cherche classer les donnes de manire automatique. Ces mthodes sont complmentaires avec les prcdentes pour synthtiser et
analyser les donnes et rpondre plus particulirement l'objectif x de caractriser
les proximits entre individus et celles entre variables. Ces mthodes de classica-

i.e.

tion sont soit apprentissage supervis (

qui ncessitent une base de donnes

d'apprentissage - ces mthodes sont appeles en statistique les analyses discrimi-

i.e.

nantes) soit apprentissage non-supervise (

qui ne ncessitent aucune donne

pralable).
 Parmi les mthodes issues de l'analyse discriminante et directement rattaches

1.4.

LES MTHODES

l'analyse de donnes il y a l'analyse linaire discriminante, la rgression logistique,


les

k plus proches voisins ou encore les arbres de dcision. D'autres mthodes issues

de l'intelligence articielle et du monde de la reconnaissance des formes peuvent


tre rattaches l'analyse discriminante telles que le perceptron multicouche (et
les autres rseaux de neurones) et les chanes de Markov [Kun00] ou encore issues
de la thorie de l'apprentissage statistique telle que les machines vecteurs de
supports [Vap99]. Si ces dernires ne sont pas toujours considres comme faisant partie de l'analyse de donnes, elles sont parfaitement intgres dans le

data

mining .
L'analyse linaire discriminante est aussi appele analyse factorielle discriminante
car elle est en fait une analyse en composantes principales supervise. Elle dcrit
les individus en classes (celles-ci sont donnes par une variable issue de l'apprentissage) et ensuite aecte de nouveaux individus dans ces classes. C'est donc une
mthode la fois descriptive et prdictive. Elle permet de traiter aussi bien des
variables quantitatives que qualitatives.

rgression logistique

La

d'appartenance

une

consiste

p(C=x)

classe

exprimer

les

comme

une

probabilits

a posteriori

fonction

l'observation

de

[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe,
qu'il faut dterminer les coecients

ln

p(C=x)
1 p(C=x)

i.e.

tels que :

= 0 +

d
X
i=1

i xi :

(1.1)

k plus proches voisins repose sur l'ide simple d'attribuer un nouvel


individu la classe majoritaire parmi ses k plus proches voisins (individus de la

L'approche des

base d'apprentissage les plus proches au sens d'une certaine distance).


Les

arbres de dcision

ncessitent souvent une construction dlicate et dici-

lement gnralisable si les donnes d'apprentissage sont peu reprsentatives de

Classication And Regression Tree )

la ralit. La mthode CART (

possde une

construction d'arbre aux proprits intressantes pour la segmentation [BFRS93].


 Les mthodes de classication automatique ne ncessitant pas d'apprentissage
orent un intrt important lorsque les donnes sont compltement inconnues.
Elles permettent ainsi de dgager des classes qui ne sont pas videntes

a priori.

Les deux principales mthodes dveloppes sont la mthode des centres mobiles
(apparente la mthode des

k-means

ou des nues dynamiques (comme un

cas particulier)) et la classication hirarchique ascendante ou descendante. Nous


pouvons galement citer les approches fondes sur les graphes et hypergraphes
[Ber72].
La mthode des

centres mobiles

consiste associer les individus des centres

de classes choisis alatoirement, puis recalculer ces centres jusqu' obtenir une
convergence. La dicult consiste dans un choix astucieux des centres au dpart
pour une convergence plus rapide et dans le choix d'une distance approprie.
La

classication hirarchique ascendante (resp. descendante) consiste regrouper

CHAPITRE 1.

INTRODUCTION

les individus selon leur ressemblance (resp. dissemblance). Toute la dicult est
dans la dnition d'une mesure de ressemblance et de la distance associe.

1.5 Les logiciels


Les mthodes d'analyse de donnes nes de la recherche universitaire sont depuis
longtemps entres dans le monde industriel. Il y a cependant peu de logiciels qui savent
intgrer ces mthodes pour une recherche exploratoire aise dans les donnes. Nous citons
ici cinq logiciels :
- SAS :
Ce logiciel est un logiciel de statistique trs complet et trs performant. Il a d'abord
t dvelopp pour l'environnement Unix, mais est maintenant accessible sous tout
environnement. Il permet une puissance de calcul importante et ainsi est trs bien
adapt tous traitements statistiques sur des donnes trs volumineuses. Son manque
de convivialit et surtout son prix fait qu'il est encore peu employ dans les entreprises qui ne se ddient pas compltement la statistique. De nombreux cours universitaires de statistique sont proposs avec ce logiciel qui s'approche d'un langage
(ex. Universit de Rennes 1).
- Splus :
Splus est la fois un langage statistique et graphique interactif interprt et orient
objet. C'est donc la fois un logiciel statistique et un langage de programmation.
La particularit de ce langage est qu'il permet de mlanger des commandes peu
volues des commandes trs volues. Il a t dvelopp par Statistical Sciences
autour du langage S, conu par les

Bell Laboratories.

Depuis, Splus est devenu

proprit de Mathsoft aprs le rachat de Statistical Sciences. Il est parfois employ


pour l'enseignement (ex. Universit Paul Sabatier de Toulouse III).
- R :
Ce logiciel est la version gratuite de Splus. Il est tlchargeable sous www.r-project.org
pour tous systmes d'exploitation. Il soure galement de peu de convivialit et
semble encore trs peu employ en industrie. De part sa gratuit, il est de plus
en plus employ pour la ralisation de cours de statistiques (ex. Universit Paul
Sabatier de Toulouse III, Universit de Lyon 1).
- XlStat :
Excel

propose

une

macro

payante

permettant

d'eectuer

quelques

mthodes

d'analyse de donnes. Elle est cependant trs limite, utilisable qu'avec Excel sous
Windows et de plus payante. Certaines coles d'ingnieurs s'en contentent (ex. ENITAB, Bordeaux).
- UniWin Plus :
Statgraphics est un logiciel de statistiques gnrales, qui propose un module d'analyse de donnes de treize mthodes. Dvelopp uniquement pour les environnements
Windows, l'accent est port sur les interfaces graphiques. Statgraphics propose un
grand nombre d'analyses statistiques et permet l'utilisation de beaucoup de for-

1.6.

PLAN

mat de donnes. Il est commercialis par Sigma Plus. Statgraphics est enseign par
exemple l'IUT de Vannes.
- Stalab :
Ce logiciel dvelopp par M. Jambu [Jam99b], [Jam99a] tait initialement prvu
pour Windows. Sa convivialit a permis un essor industriel qui semble s'tre rduit.
Il a t utilis pour l'enseignement en coles d'ingnieurs (ex. ENSSAT, Lannion).
- SPAD :
Le logiciel SPAD support entre autre par A. Morineau est toujours maintenu
jour avec de nouvelles mthodes issues de la recherche universitaire. Sa version sous
Windows est conviviale ce qui a pouss son achat par de plus en plus d'industriels.
Le soucis de coller une ralit industrielle fait qu'il est employ en enseignement
(ex. IUT de Vannes, ENSIETA).

1.6 Plan
Ce document ne cherche pas prsenter l'ensemble des mthodes de l'analyse de donnes dont certaines ont t voques dans la section 1.4. Nous prsentons ici les ides des
principales mthodes, ces cls et les rfrences

donnes permettront au lecteur d'appro-

fondir les mthodes prsentes et de comprendre les autres.


Nous commencerons ainsi par l'tude de quelques analyses factorielles. Le premier
chapitre prsente le principe gnral des analyses factorielles. Les chapitres 3, 4 et 5
prsentent respectivement l'analyse en composantes principales, l'analyse factorielle des
correspondances et l'analyse des correspondances multiples. Nous proposons ensuite au
chapitre 6 l'tude d'une analyse discriminante : l'analyse factorielle discriminante qui
peut galement tre vue comme une analyse factorielle. Dans le cadre des mthodes de
classication non-supervise nous prsentons la classication hirarchique au chapitre 7.

2 Les

rfrences proposes ne sont pas exhaustives, il existe un grand nombre d'ouvrages de qualit
dans le domaine de l'analyse de donnes.

CHAPITRE 1.

INTRODUCTION

Chapitre 2
Analyses Factorielles
2.1 Introduction
Les analyses factorielles constituent la plupart des analyses de donnes. Elles sont
fondes sur un principe unique, c'est pour cela que nous pouvons parler de l'analyse
factorielle [EP90]. Ce principe repose sur le fait que les deux nuages de points reprsentant
respectivement les lignes et les colonnes du tableau tudi (tableau 1.1) sont construits et
reprsents sur des graphiques. Ces reprsentations des lignes et des colonnes fortement
lies entre elles permettent une analyse plus aise pour l'oprateur.

2.1.1 Les objectifs


Les analyses factorielles tentent de rpondre la question : tenant compte des ressemblances des individus et des liaisons entre variables, est-il possible de rsumer toutes
les donnes par un nombre restreint de valeurs sans perte d'information importante ? En
eet en cherchant rduire le nombre de variables dcrivant les donnes, la quantit
d'information ne peut tre que rduite, au mieux maintenue. La motivation de cette rduction du nombre de valeurs vient du fait que des valeurs peu nombreuses sont plus
faciles reprsenter gomtriquement et graphiquement (un des objectifs de l'analyse de
donnes).

2.1.2 Domaines d'application


L'ensembles des mthodes d'analyses factorielles permettent de rpondre la plupart
des problmes poss par les applications auxquelles se consacre l'analyse de donnes.
Le choix d'une analyse par rapport une autre se fera en fonction du type de donnes
(quantitatif, qualitatif, mais aussi textuelle) et de la quantit de donnes. Il est bien sr
possible lorsque le cas se prsente d'appliquer une analyse sur les donnes quantitatives
de la population puis une autre analyse sur les donnes qualitatives. Ainsi dans le cadre
d'un enqute par exemple, une analyse en composantes principales peut faire ressortir les

10

CHAPITRE 2.

ANALYSES FACTORIELLES

liaisons entre les variables quantitatives, puis une analyse des correspondances multiples
peut donner une reprsentation des variables qualitatives en fonction de leur

modalits .

2.1.3 Les donnes


Dans ce chapitre, nous retenons la reprsentation des donnes sous forme de tableau
(tableau 1.1, page 3), et les notations associes.

2.2 Principe gnral


Le principe gnral de l'analyse factorielle est fond sur une double hypothse. Sup-

u1 K composantes et un vecteur colonne v1


I composantes tel que le tableau X = xki s'crive X = v1 ut1 , o ut1 est le vecteur
transpos de u1 . Ainsi des I + K valeurs des vecteurs u1 et v1 , les I:K valeurs de X sont
posons qu'il existe un vecteur colonne

retrouves. Cette rduction devient vite intressante ds lors que

I et K sont assez grands.

De plus elle n'entrane aucune perte d'information. Cette hypothse est malheureusement
improbable en pratique.

Exemple 2.2.1

Considrons l'ensemble des notes des lves de l'ENSIETA durant une

anne. Le nombre d'lves est environ de 450, et nous pouvons considrer qu'ils obtiennent
environ 30 notes chacun. Ainsi le tableau reprsentant l'ensemble des notes est constitu de
13 500 valeurs. La rduction prsente ci-dessus permet de rduire ce nombre 480 valeurs
sans perte d'information si l'hypothse est valide. Pour que l'hypothse soit vrie, il
faudrait pouvoir dduire les notes de l'ensemble des lves partir de celles d'un seul
lve et d'un vecteur de pondration. Ceci signie que les notes sont dpendantes les unes
des autres ou encore trs fortement corrles.
En pratique, il faut donc chercher une approximation de rang
analyses cherchent crire le tableau

pour

X . C'est--dire ces

tel que :

X = v1 ut1 + v2 ut2 + : : : + vS utS + E;

(2.1)

E est une matrice de I lignes et K colonnes de termes ngligeables dite matrice


rsiduelle. Ainsi les I:K valeurs initiales de X sont reconstitues de faon satisfaisante par
les S:(I + K ) valeurs des S vecteurs vq et uq . Les donnes sont donc soit considres en tant
qu'individus dcrits par leurs K variables l'aide des vecteurs uq K composantes, soit
en tant que variables dcrites par les I individus l'aide des vecteurs vq I composantes.
o

La rsolution de ce problme passe donc par la considration des deux nuages de


points ou encore des deux reprsentations gomtriques associes (gure 2.1). Nous obtenons ainsi

points dans l'espace IR

et

points dans l'espace IR . Plusieurs formes

de nuages sont remarquables aussi bien pour les projections de l'espace des individus que
pour celui des variables (gure 2.2). Par exemple, nous pouvons distinguer des formes
sphriques ne traduisant aucune direction privilgie, des formes allonges donnant une

2.2.

11

PRINCIPE GNRAL

direction privilgie des dpendances, ou encore plusieurs sous-nuages faisant ainsi apparatre plusieurs sous-groupes de la population. D'autres formes sont remarquables telles
que les formes triangulaires ou paraboliques [LMP95]. Le problme est de pouvoir rendre
compte visuellement de la forme des nuages, pour ce faire l'ide est d'tudier les projections sur des droites ou mieux des plans (les projections dans un espace 3 dimensions
seraient intressantes si l'il humain n'tait pas souvent tromp). Il faut donc chercher le
sous-espace qui ajuste au mieux le nuage de points

i.e. chercher minimiser les dforma-

tions que la projection implique.

Fig. 2.1  Les nuages de points.

Fig. 2.2  Les formes de nuages de points.

Nous allons donc chercher ajuster au mieux le nuage des individus dans l'espace des
variables (section 2.3) puis le nuage des variables dans l'espace des individus (section 2.4).

12

CHAPITRE 2.

ANALYSES FACTORIELLES

2.3 Ajustement du nuage des individus dans l'espace


des variables
L'objectif est de fournir des images approches du nuage des individus - que nous
noterons

NI

- dans IR

. Nous considrons pour la visualisation des images planes de

Nous faisons l'hypothse que le nuage

NI

NI .

est contenu dans un sous-espace vectoriel de

S infrieure K , i.e. que nous supposons que la matrice E de l'quation (2.1)


est nulle. Plus gnralement, nous supposons que le nuage NI est reconstitu de manire
satisfaisante dans un sous-espace de dimension S . Nous pouvons ainsi reconstruire les
I individus, et donc l'ensemble de la population et du tableau X associ partir des
coordonnes des individus sur S nouveaux axes. Les I:K valeurs du tableau X sont donc
remplaces par I:S (coordonnes)+K:S (composantes).

dimension

Exemple 2.3.1

Si nous considrons 1000 lves qui obtiennent chacun 100 notes, et si

S = 10, i.e. si les 1000 points-individus sont contenus dans un sous-espace de dimension
5
10, nous rduisons l'tude des 1000  100 = 10 valeurs de X 1000  10+100  10 = 11000
valeurs.

2.3.1 Droite d'ajustement


Dans un premier temps, cherchons un sous-espace vectoriel une dimension,

NI . Nous considrons donc


le cas o S = 1. La projection sur la droite d1 qui ajuste au mieux le nuage NI donne la
dispersion ou inertie maximale le long de la droite d1 .
droite

d1

i.e. une

passant par l'origine, qui ajuste au mieux le nuage

Proposition 2.3.2 Maximiser la dispersion le long de la droite d1 revient minimiser


les distances des points du nuage NI la droite d1 , c'est--dire que la droite d1 passe au
plus prs de tous les points du nuage NI .

Preuve
long de

En eet, en prenant les notations de la gure 2.3, maximiser la dispersion le

d1 revient maximiser la somme


X
i2I

Oi2 =

X
i2I

X
i2I

OHi2 , or par le thorme de Pythagore :

OHi2 +

X
i2I

iHi2 ;

le deuxime terme reprsentant les distances des points

i de NI

(2.2)

la droite

d1 .

Proposition 2.3.3 Maximiser la dispersion le long de la droite d1 revient maximiser

ut1X tX u1, avec u1 le vecteur unitaire de d1. En fait, nous avons l'galit :
X
OHi2 = (X u1 )t (X u1 ) = ut1 X t X u1 ;
i2I

qui reprsente l'inertie le long de l'axe d1 .

(2.3)

2.3. AJUSTEMENT DU NUAGE DES INDIVIDUS DANS L'ESPACE DES VARIABLES13

Fig. 2.3  Le nuage

NI

et sa droite d'ajustement.

OHi de Oi sur le sous-espace une dimension d1 port par u1


est le produit scalaire de Oi par u1 (OHi =< Oi; u1 >). Ainsi en munissant cet espace de

Preuve

La projection

la mtrique euclidienne sans restreindre le problme :

OHi = xti u1 =
Les

composantes

OHi sont donc les I


X
i2I

X
k2K

xik u1j :

composantes de la matrice

(2.4)

X u1 , et donc :

OHi2 = (X u1 )t (X u1 ):

Nous avons ainsi dmontr la proposition.

Le problme revient donc trouver

u1

(2.5)

qui maximise la forme quadratique

ut1X tX u1

ut1u1 = 1. Le sous-espace une dimension optimal au sens de l'inertie


maximale est donc l'axe d1 dni par le vecteur u1 solution de ce problme.
avec la contrainte

2.3.2 Plan d'ajustement


Cherchons maintenant dterminer le sous-espace deux dimensions s'ajustant au
mieux au nuage

NI , nous considrons donc le cas o S = 2.

Proposition 2.3.4 Le sous-espace deux dimensions qui ajuste au mieux le nuage NI

contient u1 .

14

CHAPITRE 2.

Preuve

ANALYSES FACTORIELLES

En eet, par un raisonnement par l'absurde, si ce sous-espace ne contient pas

u1, alors il est dnit par deux vecteurs u0 et u00 dirents de u1. L'inertie le long des
0
00
deux droites portes par u et u est donc infrieure celle de l'inertie le long de la droite
porte par u1 . Il existe donc un sous-espace de dimension deux meilleur que celui dni
0
00
par les deux vecteurs u et u . Nous montrons ainsi la proposition.

Le sous-espace deux dimensions est donc caractris par l'axe

u2 orthogonal u1 vriant donc :


ut2X tX u2 est maximal,
ut2u2 = 1 (contrainte de normalit),
ut2u1 = 0 (contrainte d'orthogonalit).

d1

et l'axe

d2

dni

par le vecteur
-

2.3.3 Sous-espace d'ajustement


Dans le cas o S  2, par rcurrence, le sous-espace S dimensions s'ajustant au
mieux au nuage NI contient les vecteurs u1 ; u2 ;    ; uS 1 . Ce sous-espace est engendr
par le sous-espace (u1 ; u2 ;    ; uS 1 ) de dimension S
1 et le vecteur uS orthogonal ce
sous-espace (i.e. tous les uq ) et vriant :
t t
- uS X X uS est maximal,
t
- uS uS = 1.
Proposition 2.3.5 Une base orthonorme du sous-espace vectoriel de dimension S ,

s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRK est constitue par
les S vecteurs propres (u1 ; u2 ;    ; uS ) correspondant aux S plus grandes valeurs propres
(1 ; 2 ;    ; S ) de la matrice X t X .

Remarque S est au plus gal au rang de la matrice X t X , et dans le cas de l'galit la


matrice

Preuve

de l'quation (2.1) est nulle.

Cette proposition peut se dmontrer par la mthode de Lagrange, une autre

approche est fonde sur certaines proprits spectrales des matrices symtriques [LMP95].
Soit

L(uS ) le Lagrangien :

L(uS ) = utS X t X uS
o

(utS uS

1);

(2.6)

 est un multiplicateur de Lagrange i.e. une constante. Le maximum du Lagrangien


i.e. :

est atteint lorsque la drive s'annule,

@L

t
(2.7)
uS = 2X X uS 2uS = 0:
t
Ainsi nous obtenons l'galit X X uS = uS . Or d'aprs Lagrange, une condition nt t
cessaire et susante pour que f (uS ) = uS X X uS soit extremum sachant que g (uS ) =

2.4. AJUSTEMENT DU NUAGE DES VARIABLES DANS L'ESPACE DES INDIVIDUS15

utS uS 1 = 0 (vrie par la contrainte de normalit), est qu'il existe un nombre  tel
que la drive du Lagrangien soit nulle. Le maximum est atteint si
valeur propre de la matrice

uS

X tX .

 est la plus grande

est donc le vecteur propre correspondant la plus grande valeur propre de la

matrice

X tX

et

utS X tX uS = utS uS =  est l'inertie projete sur l'axe dS .

2.4 Ajustement du nuage des variables dans l'espace


des individus
De la mme faon que pour le nuage des individus
nuage des variables - que nous noterons

NK - dans IR

NI , nous cherchons une image du

. L'approche est identique celle du

X t au lieu de X . Avec les notations


t
t
t
t
de la gure 2.4, l'inertie le long de la droite DS s'crit (X vS )(X vs ) = vS XX vS . Ainsi,

nuage des individus, il sut simplement de considrer

vS vriant :
vSt XX tvS est maximal,
vSt vS = 1 (contrainte de normalit),
vSt vq = 0 pour tout q = f1;    ; S 1g (contrainte d'orthogonalit).

l'axe factoriel (ou axe d'inertie) est dtermin par


-

Fig. 2.4  Le nuage

NI

et sa droite d'ajustement.

Le sous-espace d'ajustement est obtenu de la mme manire que dans le cas des individus, par la proposition suivante.

Proposition 2.4.1 Une base orthonorme du sous-espace vectoriel de dimension S ,

s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRI est constitue par
les S vecteurs propres (v1 ; v2 ;    ; vS ) correspondant aux S plus grandes valeurs propres
(1 ; 2 ;    ; S ) de la matrice XX t .

16

CHAPITRE 2.

Remarque S
matrice

XX t ,

est au plus gal au rang de la matrice

X tX .

ANALYSES FACTORIELLES

qui est gal au rang de la

2.5 Relation entre les axes d'inertie et les facteurs des


deux nuages
Nous montrons ici quelles sont les relations, dites relations de transition, entre les
ajustements dans les deux espaces.
Notons :
-

= utS X tX uS
DS
FS = X uS

dS

, respectivement

respectivement

= X t vS

= vSt XX tvS

l'inertie le long de l'axe

de

NK . FS

le

facteur

d'ordre

dS ,

NI , respectivement
NI sur le S me axe
K
me
dans IR , de mme GS est le vecteur issu de la projection du nuage NK sur le S
, respectivement

GS

DS

de

est donc le vecteur issu de la projection du nuage

axe dans IR .

Proposition 2.5.1 L'inertie le long de l'axe dS , dS , est gale l'inertie le long de l'axe

DS , DS , nous la notons S .


Les formules de transition entre les deux espaces
relations de fondamentales :
8
FS
>
v
>
S = p
>
<
S
>
>
>
:

Preuve

uS =

En multipliant par

et

IR

sont donnes par les

(2.8)

pGS
S

Par dnition, nous avons dans l'espace IR

et dans l'espace IR

IR

X t X uS = S uS ;

(2.9)

XX t vS = S vS :

(2.10)

dans l'quation (2.9), nous obtenons :

(XX t)X uS = S (X uS );
et en multipliant par

(2.11)

X t dans l'quation (2.10), nous obtenons :

(X tX )X tvS = S (X tvS ):
S = 1 1
S=1

Considrons dans un premier temps le cas o

t
valeur propre de XX . L'quation (2.11) pour

(2.12)
est par dnition la plus grande

montre que

X u1 est un vecteur propre

2.5. RELATION ENTRE LES AXES D'INERTIE ET LES FACTEURS DES DEUX NUAGES17

XX t , donc la valeur propre associe 1 est ncessairement telle que 1  1 . De pus


1 est la plus grande valeur propre de X t X . L'quation (2.12) montre que X t v1 est un
t
vecteur propre de X X , donc la valeur propre associe 1 est ncessairement telle que
1  1 . Ainsi nous obtenons que 1 = 1 .
t
De mme, nous pouvons montrer que toutes les valeurs propres non nulles de X X et
t
XX sont les mmes, ainsi S = S . Le premier point de la proposition est donc dmontr,

de

puisque :

utS X tX uS = vSt XX tvS = S :

(2.13)

Pour dmontrer le second point, nous constatons partir de l'quation (2.11) que les
facteurs

FS

et les vecteurs unitaires

vS sont les vecteurs propres de la matrice XX t, nous

avons donc :

vS = kFFS k :

(2.14)

De plus

kFS k2 = utS X tX uS = S . Nous montrons ainsi la premire galit de l'quation

(2.8). La seconde galit se montre de mme en constatant que :

uS = kGGS k ;

(2.15)

et

kGS k2 = vSt XX tvS = S .

Les relations de transition entre les deux espaces peuvent se reprsenter par le schma
de dualit de la gure 2.5 reprsentant les relations entre les axes d'inertie d'un nuage et
les facteurs de l'autre nuage.

Proposition 2.5.2 Les relations de transitions entre les facteurs s'crivent :


8
>
>
>
>
>
>
>
>
>
<
>
>
>
>
>
>
>
>
>
:

FS (i) =

X
k2K

xik uS (k) = k2K p


X

GS ( k ) =

X
i2I

xik GS (k)

xik vS (i) = i2I

S

xik FS (i)

p

(2.16)

Cette proposition montre que les facteurs des deux nuages doivent s'interprter conjointement. L'analyse factorielle consiste donc analyser simultanment le nuage
nuage

NK .

NI

et le

18

CHAPITRE 2.

ANALYSES FACTORIELLES

Fig. 2.5  Schma de dualit.

Preuve

D'aprs les relations fondamentales de l'quation (2.8) nous obtenons les coor-

NI

donnes de chaque point du nuage

sur les axes factoriels :

FS (i)
p
S

vS (i) =

xik uS (k)

= k2K p

et les coordonnes de chaque point du nuage

NK

uS (k) =

GS (i)
p
S

i2I

(2.17)

sur les axes factoriels :

xik vS (i)

p

(2.18)

En dveloppant les relations des quations (2.17) et (2.18), nous obtenons facilement les

relations de transition de l'quation (2.16).

2.6 Reconstruction des donnes


Il est possible de reconstruire de manire exacte le tableau de donnes
dcomposition en valeurs singulires de la matrice

X.

En eet, puisque

us

par une

est le

sme

X t X , correspondant la valeur propre s et vs


t
vecteur propre de norme 1 de la matrice XX , correspondant la mme valeur

vecteur propre de norme 1 de la matrice


est le

me

propre, nous avons :

X us =

s vs ;

(2.19)

2.6.

19

RECONSTRUCTION DES DONNES

d'o

X
s2K

usuts =

Xp
s2K

s vs uts :

(2.20)

Les vecteurs propres tant orthogonaux et de norme 1, nous obtenons :

X=

Xp
s2K

Cette formule de reconstruction du tableau


partir des valeurs propres

s vs uts :

(2.21)

X par dcompositions en valeurs singulires

s (qui sont aussi les inerties), et des vecteurs propres associs

us et vs peut s'illustrer par la gure 2.6.

Fig. 2.6  Dcomposition en valeurs singulires du tableau

Cette reconstruction exacte suppose donc avoir


vecteurs propres

us

et

I:K

X.

valeurs contenues dans les

vs. Nous avons vu dans la section 2.3.3 que nous cherchons le

sous-espace qui s'ajuste au mieux aux nuages de points. S'ajuster au mieux signie donc
reconstituer au mieux les positions des points des nuages par un nouvel ensemble de
coordonnes.

Premier plan d'ajustement

Si

1

associe

u1 est grande par rapport aux autres

valeurs propres, alors nous disons que la reconstruction est bonne. D'un point de vue
gomtrique ceci signie que le nuage de points s'allonge le long d'une droite. Lorsque
le nuage est ainsi trs tir le long du premier axe, l'inertie du nuage de dpart et la
position des points sont bien reconstitue avec la seule information des coordonnes des
projections des points du nuage.

S premiers axes d'ajustement

Un repre form par les

premiers axes factoriels

permet de reconstituer les positions de dpart avec une bonne prcision, si


reprsente une bonne proportion de la trace de la matrice

tr(

X tX

)=

X
s2K

s =

i2I;k2K

xik .
2

X tX .

1 +    + S

En eet, rappelons que

20

CHAPITRE 2.

Nous obtenons ainsi une reconstruction approche

ANALYSES FACTORIELLES

X  du tableau X en se limitant aux

premiers axes factoriels, nous avons :

Xp
X ' X =
s vs uts :

(2.22)

s=1

Nous passons donc des I:K valeurs du tableau X S (I + K ) nombres pour reconstituer
p
X . Ces nombres sont constitus par les S vecteurs s vs ayant I composantes et les S
vecteurs us ayant K composantes.
Toute la dicult rside dans le choix de S , c'est--dire partir de quelle valeur a-tt
on une bonne reconstruction, ou encore une bonne proportion de la trace de X X ? Nous
voyons donc l'importance de dnir un indice de qualit de la reconstruction. La qualit
globale de la reconstruction peut tre mesure par :

S
X

S =
Le coecient

tr(X t X  )
tr(X t X )

=X
s=1

s2K

s
s

(2.23)

S est encore appel taux d'inertie ou pourcentage de la variance relatif aux

premiers facteurs.

2.7 Conclusion
Nous avons prsent dans ce chapitre le principe gnral des analyses factorielles. Cette
approche permet de reprsenter gomtriquement de grands tableaux de donnes dans
des sous-espaces sans perte d'information importante. La dimension des sous-espaces,

i.e.

l'approximation de la reconstruction de ces tableaux se fait en cherchant minimiser la


perte d'information. La quantit globale de reconstruction permet de quantier cette perte
d'information. Une fois la dimension du sous-espace choisie, les donnes sont reprsentes
graphiquement par des projections sur les dirents plans qui constituent le sous-espace.
Bien sr les premiers plans factoriels sont ceux contenant le plus d'information.
La dcomposition en valeurs singulires prsente dans ce chapitre peut tre applique
tous tableaux de donnes prsents comme sur le tableau 1.1. Cette dcomposition
fait appel des distances euclidiennes, c'est--dire des formes quadratiques dnies
positives. Les maximisations de l'inertie pour les ajustements des sous-espaces sont lies
ces distances. Il existe d'autres approches qui modient ces distances ou la nature des sousespaces [EP90], [LMP95]. En particulier ce qui est souvent recherch dans ces mthodes
est la non-linarit des projections, mieux adapte aux donnes compliques.
Avant d'appliquer cette approche gnrale un tableau quelconque, il est important de
tenir compte des donnes de dpart. Pour se faire, nous allons les transformer en fonction
de leur type. Ainsi dans les trois prochains chapitres nous allons voir comment transformer

2.7.

CONCLUSION

21

des donnes quantitatives dans le cadre de l'analyse en composantes principales, et des


donnes qualitatives dans les cas de l'analyse factorielle de correspondances et de celle
des correspondances multiples.

22

CHAPITRE 2.

ANALYSES FACTORIELLES

Chapitre 3
Analyse en Composantes Principales
3.1 Introduction
L'analyse en composantes principales - que nous notons par la suite ACP - est une des
premires analyses factorielles, et certainement aujourd'hui l'une des plus employes. Dans
[LMP95], nous trouvons l'historique de cette mthode qui fut conue par Karl Pearson en
1901. Elle est sans doute la base de la comprhension actuelle des analyses factorielles.
Son utilisation a cependant t plus tardive avec l'essor des capacits de calculs.
Les principales variantes de l'ACP viennent des dirences de transformations du
tableau de donnes. Ainsi, le nuage de points peut tre centr ou non, rduit ou non.
Le cas le plus tudi, et que nous prsentons ici, est lorsque le nuage de point est centr
et rduit ; dans ce cas nous parlons d'ACP norme. D'autres variantes existent telle que
l'analyse en composante curviligne [DH97] pour remdier au fait que les projections sont
linaires, ou encore l'analyse en composantes indpendantes pour la sparation de sources
[Pha96].

Les donnes

Les donnes pour l'ACP sont gnralement prsentes sous la forme du

tableau prcdemment vu dans le Chapitre 1 et que nous rappelons dans le tableau 3.1.
Ainsi les donnes sont constitues d'individus et de variables qui dans le cas de l'ACP
doivent tre quantitatives, continues, elles peuvent tre homognes ou non et sont

priori

corrles entre elles. Rappelons que nous notons

pour l'individu

i, I

Les objectifs

la valeur de la variable

dsigne la fois le nombre d'individus et l'ensemble des indices

= f1;    ; i;    ; I g K
K = f1;    ; k;    ; K g

indices

xik

a
k

, et

dsigne la fois le nombre d'individus et l'ensemble des


.

Les objectifs de l'ACP sont ceux d'une analyse factorielle, c'est--dire

qu'elle cherche reprsenter graphiquement les relations entre individus par l'valuation
de leurs ressemblances, ainsi que les relations entre variables par l'valuation de leurs
liaisons. Comme nous l'avons vu au chapitre prcdent l'tude doit se faire simultanment.
Le but nal de ces reprsentations est l'interprtation par une analyse des rsultats.

23

24

CHAPITRE 3.

ANALYSE EN COMPOSANTES PRINCIPALES

Variables

Individus

......

1
.
.
.
.
.
.

......

.
.
.
.
.
.

......

.
.
.
.
.
.

xik

......

.
.
.
.
.
.

Tab. 3.1  Reprsentation des donnes pour l'ACP.

Les domaines d'application

De part la nature des donnes que l'ACP peut traiter,

les applications sont trs nombreuses. Il y a en fait deux faons d'utiliser l'ACP :
- soit pour l'tude d'une population donne en cherchant dterminer la typologie des
individus et des variables. Par exemple, dans la biomtrie, l'tude des mensurations
sur certains organes peut faire apparatre des caractristiques lies des pathologies, ou encore en conomie, l'tude des dpenses des exploitations par l'ACP peut
permettre des conomies de gestion.
- soit pour rduire les dimensions des donnes sans perte importante d'information,
par exemple en traitement du signal et des images, o l'ACP intervient souvent en
prtraitement pour rduire la quantit de donnes issues de traitements analogiques.

3.2 Principe de l'ACP


3.2.1 Les objectifs
Dans un premier temps reprenons les objectifs de l'ACP et dtaillons-les. Nous avons
vu que pour atteindre les objectifs de l'ACP il faut valuer les
vidus ainsi que les

liaisons

ressemblances

entre indi-

entre variables. Ces deux notions peuvent tre interprtes de

direntes faons, il est donc important de bien les dnir.

Dnition 3.2.1 Deux individus se ressemblent, ou sont proches, s'ils possdent des valeurs proches pour l'ensemble des variables.
Cette dnition sous entend une notion de proximit qui se traduit par une distance.
Ainsi, nous dnissons la distance entre deux individus

d2 (i; j ) =

k2K

(xik

xjk )2 :

i et j

par :
(3.1)

La mtrique ici utilise est donc euclidienne, mais de manire plus gnrale nous pouvons
dnir cette distance par :

d2 (i; j ) = (xi

xj )tM (xi xj );

(3.2)

3.2.

25

PRINCIPE DE L'ACP

est une matrice symtrique dnie positive de taille

K.

Pour tablir un bilan des ressemblances entre individus, nous cherchons rpondre
des questions du type :
- Quels sont les individus qui se ressemblent ?
- Quelles sont ceux qui sont dirents ?
- Existe-t-il des groupes homognes d'individus ?
- Est-il possible de mettre en vidence une typologie des individus ?
De la mme faon que nous avons dni la
de dnir la

liaison

ressemblance entre individus, il est essentiel

entre des variables.

Dnition 3.2.2 Deux variables sont lies si elles ont un fort coecient de corrlation
linaire.

Le coecient de corrlation linaire est donn par :




X xik xk
1
xih xh
cov(
k; h)
=
;
r(k; h) = p
sk
sh
var(k) var(h) I i2I
o

xk

et

sk

sont respectivement la moyenne et l'cart-type de la variable

Remarque

(3.3)

k.

Dans le cadre de l'ACP norme que nous prsentons ici, le coecient de

corrlation est dni partir de la covariance, cependant dans de rare cas l'ACP peut
tre fonde sur la matrice de covariance (ACP non-norme) ou encore sur la matrice des
coecients de corrlations des rangs. A partir du coecient de corrlation de l'quation
(3.3), il est possible de dnir une distance entre deux variables

d(k; h) =

1X

I i2I

xik

sk

xk

xih

sh

xh

= 2(1

k et h :

r(k; h)):

(3.4)

De mme que pour les individus, nous cherchons tablir un bilan des liaisons entre
variables en rpondant des questions du type :
- Quelles sont les variables qui sont lies positivement entre elles ?

i.e. lies ngativement) ?

- Quelles sont celles qui s'opposent (

- Existe-t-il des groupes de variables corrles entre elles ?


- Est-il possible de mettre en vidence une typologie des variables ?

Pondration

Il est souvent souhaitable que les individus comme les variables jouent le

mme rle. Cependant, dans certaines applications il peut tre intressant de pondrer
diremment chaque individu. Soit

pi

le poids aect chaque individu, par commodit

ces poids sont pris tels que la masse totale soit gale 1 (
de la variable

k est dnie par :


xk =

X
i2I

pi xik ;

i2I

pi = 1). Ainsi la moyenne

(3.5)

26

CHAPITRE 3.

ANALYSE EN COMPOSANTES PRINCIPALES

Variables

Individus

1
1
.
.
.
.
.
.

......

......

xik

.
.
.
.
.
.

......
.
.
.
.
.
.

sk

xk

......

.
.
.
.
.
.

Tab. 3.2  Reprsentation des donnes centre-rduites pour l'ACP.

et le coecient de corrlation devient :

r(k; h) =

X
i2I

pi

xik

sk

xk



xih

sh

xh

(3.6)

Nous retrouvons le cas particulier dans lequel les individus ont le mme poids lorsque

pi =

De mme, il est possible de ne pas accorder la mme importance aux direntes va-

mk le poids associ la variable k, la distance de l'quation (3.1) entre deux


individus i et j devient :
riables. Soit

d2 (i; j ) =

X
k2K

mk (xik

xjk )2 :

(3.7)

En fait, ces poids ne modient en rien les principes de l'ACP, nous considrons donc par
la suite les cas o les individus et variables ont le mme poids.

3.2.2 La transformation des donnes


Il existe plusieurs transformations utilises. L'analyse centre consiste modier les
donnes du tableau

X en remplaant les valeurs des xik par xik xk . Le fait de centrer les

donnes prsente dans le cas de l'ACP des proprits intressantes que nous exposons
la section 3.2.3. L'analyse centre rduite ou encore norme, que nous prsentons ici, est
lie la transformation des donnes du tableau

xik

sk

xk

en remplaant les valeurs des

xik

par

. Rduire les donnes permet d'uniformiser les units de mesures. Par exemple,

dans le cas d'une analyse sur la mensuration d'animaux, les dimensions dans le tableau

X
X

peuvent tre exprimes en

ou en

cm

selon les variables. Ainsi le tableau de donnes

prsent sur le tableau 3.1 devient celui donn par le tableau 3.2.

3.2.

27

PRINCIPE DE L'ACP

3.2.3 L'analyse des nuages


Analyse du nuage des individus
Pour l'analyse du nuage

NI

des individus, nous considrons donc le tableau 3.2 des

donnes centres rduites par ligne, comme nous l'avons dj vu dans le cas gnral d'une

cf. gure 2.1 page 11).

analyse factorielle (

Fig. 3.1  Nuage des individus

Absence de liens

NI

dans IR

Directions d'allongement

Partition de points

Fig. 3.2  Dirents types de nuages.

NI des individus est un espace vectoriel K dimensions, dont chaque dimension reprsente une variable (cf. gure 3.1). Le fait d'avoir centr les donnes entrane
que l'origine des axes est confondu avec le centre de gravit G. Ce centre de gravit G
Ainsi le nuage

peut s'interprter comme l'individu moyen de la population. L'interprtation de ce nuage

28

NI

CHAPITRE 3.

ANALYSE EN COMPOSANTES PRINCIPALES

va se faire en dcelant d'une part une partition de points et d'autre part des direc-

tions d'allongement. Ainsi sur la gure 3.2 nous reprsentons dirents types de nuages
possibles. Nous pouvons observer une absence de liens, ou bien par exemple une direction
d'allongement suivant plutt le premier axe, ou encore une partition des points en trois
groupes. Si l'tude directe est envisageable dans un espace trois dimensions, ds lors que

K > 3 elle devient impossible. Nous avons donc recours l'approche factorielle partir
de laquelle nous pouvons tudier dirents plans de projection.

Analyse du nuage des variables


L'analyse du nuage

NK des variables se fait toujours partir du tableau 3.2 des donnes

centres rduites, que nous considrons ici par colonne, comme nous l'avons dj vu dans
le cas gnral d'une analyse factorielle (gure 2.1 de la section 2.2).
La reprsentation du nuage

NK

des variables se situe dans un espace vectoriel

dimensions, chaque dimension reprsentant un individu de la population totale. La norme


de chaque variable

k est telle que :


X
i2I

1  xik

sk

xk

2

= 1:

(3.8)

Cette norme correspond galement au coecient de corrlation de la variable

k avec elle

r(k; k) = 1. Ainsi le nuage NK est situ sur la sphre unit (de rayon 1) dans
cf. gure 3.3). Il est intressant de noter que le cosinus de l'angle entre les vecteurs
reprsentant
deux
variables
k et h est le produit scalaire
< k; h >= r(k; h). L'interprtation du coecient de corrlation comme un cosinus est
mme, donc

l'espace IR (

une proprit trs importante puisqu'elle donne un support gomtrique, donc visuel, au
coecient de corrlation. Cette proprit ncessite d'avoir au pralable centr les donnes,
ce qui justie une nouvelle fois cette transformation.
L'analyse du nuage
une variable
du nuage

NK

par

Ok

NK

des variables se fera donc par l'tude des angles forms pour

et les axes factoriels. Il est bon de noter que le centre de gravit

n'est pas l'origine de la sphre unit, la dirence du nuage

NI

o le

centre de gravit correspond au centre du repre lorsque les donnes sont centres. Ainsi,
ce sont les angles entre les vecteurs reprsentant les variables qui sont peu dforms par
les projections et non pas les distances entre les points du nuage

NK .

Cette tude des angles est impossible raliser directement cause de la dimension

de IR . Elle se fera donc dans les plans de projection issus de l'approche factorielle.

3.2.4 L'ajustement
L'approche factorielle consiste donc approcher ces nuages

NI

et

NK

dans des sous-

espaces vectoriels permettant de fournir quelques images planes de ces nuages.

3.2.

29

PRINCIPE DE L'ACP

Fig. 3.3  Nuage des variables

NK

dans IR .

Ajustement du nuage des individus


Nous avons vu la section 2.3 du chapitre prcdent, qu'il faut chercher une suite

fus ; s = 1;    ; S g

de directions privilgies - les axes factoriels - an de fournir une

reprsentation simplie du nuage


rapport au centre de gravit
plus les directions

NI . Chaque direction us rend maximum l'inertie par


NI sur l'axe factoriel us . De

de la projection du nuage

us sont orthogonales deux deux.

i se projette en Hi sur uX
1 . Nous cherchons
GHi . En eet, rendre maximum GHi2 revient

Avec les notations de la gure 3.4 l'individu


donc

u1 qui rend maximum l'inertie

X
i2I

i2X
I

i.e.

rendre minimum l'cart entre le nuage des individus et sa projection (


classique des moindres carrs. Ensuite, il faut trouver

i2I

iHi2 ), critre

u2 orthogonal u1 qui satisfait

le mme critre. Nous pouvons procder ainsi jusqu' l'obtention des

axes factoriels

donnant une reprsentation susamment bonne.

Dnition 3.2.3 Les S axes factoriels fus ; s = 1;    ; S g sont appeles les facteurs prin-

cipaux.

Du fait d'avoir centr les donnes, ce critre permet d'interprter les axes factoriels
comme des directions d'allongement maximum du nuage

NK .

Ajustement du nuage des variables


Nous cherchons ici obtenir des variables synthtiques

fvs ; s = 1;    ; S g et une re-

prsentation approche des corrlations entre les variables. La dmarche pour le nuage

30

CHAPITRE 3.

ANALYSE EN COMPOSANTES PRINCIPALES

Fig. 3.4  Ajustement du nuage

NK

reste la mme que pour le nuage

NI

NI

des individus pour l'ACP.

des individus.

Ainsi, avec les notations de la gure 3.5, la variable

k2K

Hk sur v1 .
v1 qui rend maximum

se projette en

Nous cherchons le premier axe factoriel en dterminant le vecteur

OHk2 . Puis, nous cherchons le vecteur v2 orthogonal v1 qui satisfait ce mme critre.

Nous poursuivons cette dmarche jusqu' l'obtention des

vecteurs recherchs.

v1 dnit une nouvelle variable qui est la combinaison linaire la plus lie
l'ensemble des variables initiales du tableau X . Ainsi les S vecteurs fvs ; s = 1;    ; S g
Le vecteur

tant orthogonaux deux deux, les

nouvelles variables correspondantes sont non cor-

rles entre elles.

Dnition 3.2.4 Les S nouvelles variables (axes factoriels) fvs ; s = 1;    ; S g sont appeles les composantes principales.

Ce sont ces vecteurs qui sont l'origine du nom de cette analyse factorielle.

vs est son coecient de corrlation


avec vs du fait que les variables tudies sont centres rduites. Ainsi le vecteur v1 qui
X
La coordonne d'une variable initiale de

rend maximum

k2K

OHk2

sur

quivaut la combinaison linaire la plus lie l'ensemble des

variables initiales (la liaison tant entendu au sens du critre maximisant la somme des

3.3.

31

REPRSENTATION SIMULTANE

Fig. 3.5  Ajustement du nuage

NK

des variables pour l'ACP.

moindres carrs des corrlations). C'est donc la variable qui synthtise le mieux l'ensemble
des variables initiales. Les axes factoriels rsument donc l'ensemble des variables initiales
du tableau

X.

Eet de taille

Un problme peut apparatre lorsque dans une population les variables

sont toutes corrles positivement deux deux. Dans ce cas, elles forment des angles
aigus et le centre de gravit

GK

du nuage

NK

cf.

est loin de l'origine de la sphre unit (

gure 3.6). Le premier axe factoriel est alors proche de la direction


reprsente mal le nuage

NK

OGK , ce qui fait qu'il

car toutes les projections des variables sont proches les unes

des autres. En eet le premier axe factoriel rend toujours compte de la position du nuage

NK

par rapport l'origine.

3.3 Reprsentation simultane


Nous avons vu la section 2.5 qu'il existe des relations de transition entre les deux

espaces IR
nuage

NK

et IR . L'ACP permet pour une interprtation simultane du nuage

NI

et du

de reprsenter ces deux nuages simultanment sur les plans issus des premiers

axes factoriels. Nous devons cependant prendre garde au fait que les deux nuages ne sont en
ralit pas dans les mmes espaces qui ont des dimensions direntes. Cette reprsentation
simultane est essentiellement pragmatique.
En eet, le nuage des individus

NI

et le nuage des variables

NK

sont deux reprsenta-

32

CHAPITRE 3.

ANALYSE EN COMPOSANTES PRINCIPALES

Fig. 3.6  L'eet de taille dans IR .


tions du mme tableau de donnes

X . Ainsi des relations fortes (relation de dualit ) lient

ces deux nuages. Tout d'abord, l'inertie totale des deux nuages est la mme :


X X xik
1
=

I i2I k2K

sk

xk

2

(3.9)

De plus, les projections de tous les points du nuage des individus


factoriel

NI

sur le premier axe

u1 constituent une nouvelle variable (appele premier facteur, note F1) qui se

confond la norme prs la premire composante principale (illustres sur la gure 3.7).
Ainsi le vecteur

F1

dans IR

est colinaire

v1 (axe factoriel de NK ). Il en est de mme

pour les projections sur les autres facteurs qui correspondent aux composantes principales
de mme rang. De manire symtrique, les coordonnes des projections du nuage

Fig. 3.7  Forme de dualit exprimant le nuage


l'axe factoriel

NI

en fonction du nuage

NK

sur

NK .

v1 constituent un nouvel individu (premier facteur, not G1), ce que nous

3.4.

33

INTERPRTATION

reprsentons sur la gure 3.8. Ce vecteur

G1

de IR

est colinaire

u1 (axe factoriel de

NI ). Cette notion d'individu type est moins employe que celle de composante principale.
Il est souvent plus facile de tenter de se ramener des individus rels comme individu
type.

Fig. 3.8  Forme de dualit exprimant le nuage

NK

en fonction du nuage

Les relations algbriques des deux dualits prcdentes au rang

s

8
>
>
>
>
>
<

Fs (i) =

>
>
>
>
>
:

1 1
G (i) = p
s

p1

X xik
s k2K

X xik

I s i2I

est l'inertie projete du nuage

NI

sk

xk

sk

NI .

s sont donnes par :

Gs (k)

xk

(ou du nuage

(3.10)

Fs (k)

NK ) sur l'axe factoriel au rang s.

Notons que les facteurs peuvent tre ngatifs.


Cette reprsentation est donc essentiellement une aide pour l'interprtation.

3.4 Interprtation
A partir des relations donnes prcdemment, nous pouvons dnir quelques rgles
pour l'interprtation :
- Un individu sera du ct des variables pour lesquelles il a de fortes valeurs, inversement il sera du ct oppos des variables pour lesquelles il a de faibles valeurs.
- Plus les valeurs d'un individu sont fortes pour une variable plus il sera loign de
l'origine suivant l'axe factoriel dcrivant le mieux cette variable.
- Deux individus une mme extrmit d'un axe (
proches (

i.e. se ressemblent).

i.e.

loigns de l'origine) sont

- Deux variables trs corrles positivement sont du mme ct sur un axe.

34

CHAPITRE 3.

ANALYSE EN COMPOSANTES PRINCIPALES

- Il n'est pas possible d'interprter la position d'un individu par rapport une seule
variable, et rciproquement, il n'est pas possible d'interprter la position d'une variable par rapport un seul individu. Les interprtations doivent se faire de manire
globale.
Les axes factoriels donnent des images approches des nuages de points

NI

et

NK .

Il est donc ncessaire de dnir des indicateurs pour mesurer la qualit de l'approximation. L'tude d'un plan de projection des sous-espaces vectoriels doit toujours se faire
conjointement avec l'tude des indicateurs. En eet, deux points (individus ou variables)
peuvent se trouver trs proches dans un plan de projection, alors qu'en ralit ils sont
loigns. Nous prsentons ici les principales aides l'interprtation que nous retrouvons
dans [EP90].

Qualit de reprsentation d'un lment (individu ou variable) par un axe

La

i par l'axe s est donne par le rapport de l'inertie


de la projection de l'lment i sur l'axe s et de l'inertie totale de l'lment i :
qualit de reprsentation d'un lment

QLTs (i) =

(OHis)2 = cos2 ;
(Oi)2
QLTs (i)

(3.11)

 est l'angle entre (Oi) et l'axe s. Ainsi si


est proche de 1, alors i est proche
de l'axe s et donc du plan de projection contenant l'axe s.
Cette qualit se gnralise au plan. Si un individu i est proche du plan, sa distance
G (l'individu moyen) dans le plan est proche de la valeur relle. De mme les distances
o

dans le plan entre deux individus bien reprsents sont proches de la ralit.

Qualit de reprsentation d'un nuage par un axe

Cette qualit est donne par le

pourcentage d'inertie associ un axe, c'est--dire le rapport de l'inertie de la projection


du nuage sur l'axe et de l'inertie totale du nuage :

QLTN

(OHis)2

N
= i2X
i2N

(Oi)2

(3.12)

Cette qualit mesure l'importance d'un axe factoriel. Bien sr les premiers axes auront
plus d'importance que les suivants. Nous devons juger ces pourcentages en fonction de
la taille du tableau. Par exemple, 10% est une valeur faible si le tableau comporte 10
variables ; c'est une valeur forte dans le cas de 100 variables.
Du fait de la dualit, il est quivalent de calculer ces pourcentages d'inertie partir
du nuage

NI

des individus ou

NK

des variables.

Contribution d'un lment l'inertie d'un axe

i
l'inertie d'un axe s est donne par le rapport de l'inertie de la projection de i sur l'axe s
La contribution d'un lment

3.5.

35

CONCLUSION

et de l'inertie de la projection de l'ensemble du nuage sur l'axe

s:

(
OHis )2
CTs (i) = X
:
(Oi)2

(3.13)

i2N

La contribution est importante si elle est proche de 1 pour les variables et doit tre
rapporte au tableau pour les individus. Ce rapport permet de mettre en vidence le
sous-ensemble d'lments ayant particip essentiellement la construction de l'axe. L'interprtation devra en premier lieu s'appuyer sur ces lments.
Pour aider l'interprtation nous proposons de suivre le plan suivant :
- Choisir le nombre d'axes. Notons que le choix du nombre d'axes retenir reste un
problme car il n'y a pas de solutions rigoureuses. Les valeurs propres permettent
de choisir ce nombre par exemple de telle sorte que le pourcentage d'information
cumule soit compris en 80% et 90% environ ou tel que toutes les valeurs propres
soient suprieures 1 ou encore lorsque un saut important sur l'histogramme des
valeurs propres ou sur les recherches de paliers de celles-ci est observ. De plus le
nombre d'axes ne doit pas tre trop grand.
- Etudier les indicateurs de la qualit des approximations.
- Interprter les facteurs simultanment :
- l'aide des contributions des individus,
- l'aide des coordonnes des variables (interprter par axe et par plan),
- l'aide des coordonnes des individus.
- Mettre en vidence des typologies.
Il est possible de faire intervenir des lments illustratifs (appels galement supplmentaires) an d'aider l'oprateur interprter. Ces lments, individus ou variables,
n'interviennent pas dans la construction des axes factoriels, mais sont reprsents pour
l'tape d'interprtation. Dans le cas des variables, il s'agit de variables quantitatives qui
peuvent tre continues ou nominales. L'ajout d'lments illustratifs doit rester exceptionnels, car ils n'appartiennent normalement pas au champ strict de l'tude. Il peut
cependant parfois tre intressant de supprimer un individu provoquant un eet de taille
dans le calcul des axes, et de le faire apparatre pour interprter ses projections en fonction
des autres individus.

3.5 Conclusion
Dans un premier temps rsumons l'analyse en composantes principales l'aide des
neuf tapes de la gure 3.9 :
- 1 : La premire tape concerne la mise en forme des donnes brutes.
- 2 : La deuxime tape consiste centrer et rduire les donnes. Elles sont centres
an d'obtenir des proprits intressantes, et rduites pour uniformiser les units de
mesure.
- 3 : Le tableau est considr comme juxtaposition de lignes.

36

CHAPITRE 3.

ANALYSE EN COMPOSANTES PRINCIPALES

- 4 : Le tableau est considr comme juxtaposition de colonnes.


- 5 : Les individus sont reprsents dans un espace

NI

dimensions. Dans le nuage

nous nous intressons aux distances inter-individuelles qui dterminent les res-

G reprsente un individu moyen.


6 : Les variables sont reprsentes dans un espace I dimensions. Nous nous intres-

semblances. Le centre de gravit


-

sons ici aux angles des points. Le cosinus de l'angle est le coecient de corrlation.
Toutes les variables sont quidistantes de l'origine car les donnes ont t rduites,
ainsi le nuage

NK

se situe sur une hypersphre.

- AF : Analyse Factorielle. Cette phase permet de mettre en vidence une suite de


directions. Dans l'tape 7 ces directions sont des directions d'allongement, et dans
l'tape 8 les axes s'interprtent comme des variables synthtiques.
- 7 : Cette tape consiste projeter les points du nuage

NI

sur le premier plan

factoriel. C'est un premier ajustement, il peut y en avoir d'autres suivre. Les


distances s'interprtent alors comme des ressemblances entre les individus.
- 8 : Cette tape consiste projeter les points du nuage

NK

sur le premier plan

factoriel. Ici aussi, c'est un premier ajustement, et il peut y en avoir d'autres


suivre. Les coordonnes reprsentent les coecients de corrlation avec les facteurs
sur les individus.
- Les relations de transition expriment les rsultats d'une analyse factorielle (AF)
dans un espace en fonction des rsultats de l'autre.
- 9 : Cette tape est la reprsentation simultane de nuages de points qui se trouvent
initialement dans des espaces de dimensions direntes. Cette reprsentation issue
des relations de transition permet des interprtations des axes simultanes.

L'ACP est une mthode puissante pour synthtiser et rsumer de vastes populations dcrites par plusieurs variables quantitatives. Elle permet entre autre de dgager
de grandes catgories d'individus et de raliser un bilan des liaisons entre les variables.
Par cette analyse nous pouvons mettre en vidence de grandes tendances dans les donnes telles que des regroupements d'individus ou des oppositions entre individus (ce qui
traduit un comportement radicalement dirent de ces individus) ou entre variables (ce
qui traduit le fait que les variables sont inversement corrles). Les reprsentations graphiques fournies par l'ACP sont simples et riches d'informations. L'ACP peut tre une
premire analyse pour l'tude d'une population dont les rsultats seront enrichis par une
autre analyse factorielle ou encore une classication automatique des donnes.

3.5.

37

CONCLUSION

Fig. 3.9  Rsum de l'ACP.

38

CHAPITRE 3.

ANALYSE EN COMPOSANTES PRINCIPALES

Chapitre 4
Analyse Factorielle des
Correspondances
4.1 Introduction
L'analyse factorielle des correspondances a t introduite par [Ben80b] sous le nom
d'analyse des correspondances. Elle porte galement le nom d'analyse des correspondances
binaires en relation avec l'analyse des correspondances multiples que nous prsentons
ensuite. Nous la notons par la suite AFC. Cette analyse peut tre prsente sous de
nombreux points de vues, notamment comme un cas particulier de l'analyse canonique
ou encore de l'analyse factorielle discriminante. Elle peut aussi tre tudie comme une
ACP avec une mtrique spciale (celle du

2 ) [Sap90]. Nous la prsentons ici suivant les

points dgags par une analyse factorielle vus au chapitre 2.

4.1.1 Les domaines d'application


Trs tt cette analyse a t utilise en pratique car elle est conue pour les

de contingence

tableaux

et permet ainsi l'tude des liaisons (dites aussi correspondances) existant

entre deux variables nominales. Les domaines d'application de l'AFC sont donc dirents
de ceux de l'ACP qui est adapte aux tableaux de mesures htrognes ou non.
Pour cette analyse aussi nous pouvons donner une longue liste des disciplines ayant
trouv rponse leur problme par l'AFC. Ainsi, l'cologie, la zoologie, la psychologie,
l'conomie, et d'autres encore dans lesquelles il peut tre intressant d'tudier les liaisons
entre deux variables nominales, ont fourni un grand nombre de donnes.
L'AFC conue pour les tableaux de contingence (
aux tableaux de mesures homognes (

i.e. frquences), peut tre applique

i.e. mme systme d'units), aux tableaux de notes,

de rangs, de prfrences, aux tableaux valeurs logiques (0 ou 1), et encore aux tableaux
issus de questionnaires d'enqutes.

39

40

CHAPITRE 4.

ANALYSE FACTORIELLE DES CORRESPONDANCES

Modalit de la
seconde variable
premire variable

Modalit de la

......

1
.
.
.
.
.
.

......

.
.
.
.
.
.

......

.
.
.
.
.
.

kij

......

.
.
.
.
.
.

Tab. 4.1  Reprsentation des donnes pour l'AFC.

4.1.2 Les donnes


Les donnes, la dirence de l'ACP, doivent tre organises en tableaux de contingence (appels aussi tableau de dpendance ou tableau crois).

Dnition 4.1.1 Un tableau de contingence est un tableau d'eectifs obtenus en croisant les modalits de deux variables qualitatives dnies sur une mme population de n
individus.
L'AFC peut galement tre tendue aux variables quantitatives homognes en dnissant
simplement quelques modalits pour ces variables. Par extension, elle s'applique aussi aux
tableaux individus-variables pour des variables quantitatives homognes, dans ce cas les
individus sont considrs comme des variables.
Nous devons donc considrer les donnes brutes organises de la faon dcrite sur
le tableau 4.1. Dans ce cas,

= f 1;    ; I g J
f1;    ; J g kij

, et

reprsente le nombre de lignes et l'ensemble des lignes

reprsente le nombre de colonnes et l'ensemble des colonnes

est le nombre d'individus possdant la fois la modalit

variable et la modalit

i de la premire

de la seconde variable. Nous avons donc :

XX
i2I j 2J

avec

kij = n;

(4.1)

n le nombre total d'individus de la population initiale. Nous constatons que sur ce

type de tableau les lignes et les colonnes jouent un rle symtrique.


Davantage que le tableau 4.1, c'est le tableau des frquences relatives 4.2 qui est
considr. Les frquences

fij

sont donnes par :

fij =
et les marges par :

fi =

kij
;
n

X
j 2J

fij ;

(4.2)

(4.3)

4.1.

41

INTRODUCTION

......

1
.
.
.
.
.
.

......

.
.
.
.
.
.

......

.
.
.
.
.
.

fij

fi

......

.
.
.
.
.
.

marge

marge

fj

Tab. 4.2  Tableau des frquences relatives pour l'AFC.

et

fj =

X
i2I

fij :

(4.4)

Nous avons ainsi :

X
i2I

fi =

Liaisons entre les variables

X
j 2J

fj =

XX
i2I j 2J

fij = 1:

(4.5)

Nous avons vu que l'AFC considre un tableau de contin-

gence ou de frquence pour tudier les liaisons entre les deux variables l'initiative du
tableau. Nous ne pouvons plus dnir les liaisons par les coecients de corrlation comme

cf. Chapitre 3).

pour l'ACP (

Dnition 4.1.2 Il y a indpendance entre les deux variables considres si :


fij = fi fj ; 8i 2 I; 8j 2 J:

(4.6)

Dnition 4.1.3 Nous disons qu'il y a liaison entre ces deux variables, ou que ces deux
variables sont lies si elles ne sont pas indpendantes.
Ainsi nous pouvons dire que :
- Si

fij

est suprieur au produit des marges, les modalits

et

s'associent plus

que sous l'hypothse d'indpendance. Nous dirons que les deux modalits
s'attirent.
- Si

fij

est infrieur au produit des marges, les modalits

et

i et j s'associent moins que

sous l'hypothse d'indpendance. Nous dirons qu'il y a rpulsion entre les deux
modalits

i et j .

42

CHAPITRE 4.

ANALYSE FACTORIELLE DES CORRESPONDANCES

Sous l'hypothse d'indpendance nous avons :


- en considrant le tableau comme un ensemble de lignes :

fij
fi

= fj ; 8i 2 I; 8j 2 J;

(4.7)

- en considrant le tableau comme un ensemble de colonnes :

fij
fj

= fi; 8i 2 I; 8j 2 J:

Dans l'quation (4.7), le terme de droite

fj

(4.8)

s'interprte comme le pourcentage de la

f
j , et le terme ij
fi
dans la sous-population possdant la modalit i.
population totale possdant la modalit

reprsente ce mme pourcentage

Ainsi il y a indpendance lorsque les lignes du tableau de frquences sont proportionnelles. Par symtrie il en est de mme pour les colonnes.

4.1.3 Les objectifs


Les objectifs sont les mmes que ceux de l'ACP dans le sens o l'AFC cherche donc
obtenir une typologie des lignes et une typologie des colonnes, puis de relier ces deux typologies. Il faut donc faire ressortir un bilan des ressemblances entre lignes (respectivement
colonnes) en rpondant aux questions du type :
- Quels sont les lignes (respectivement colonnes) qui se ressemblent ?
- Quelles sont celles qui sont direntes ?
- Existe-t-il des groupes homognes de lignes (respectivement colonnes) ?
- Est-il possible de mettre en vidence une typologie des lignes (respectivement des
colonnes) ?
La notion de ressemblance entre deux lignes ou deux colonnes dire cependant de l'ACP.
En eet, deux lignes (respectivement deux colonnes) sont

proches

si elles s'associent de

la mme faon l'ensemble des colonnes (respectivement des lignes),

i.e. elles s'associent

trop ou trop peu par rapport l'indpendance.


Il faut donc chercher les lignes (respectivement colonnes) dont la rpartition s'carte
le plus de l'ensemble de la population, celles qui se ressemblent entre elles et celles qui
s'opposent. An de relier la typologie des lignes avec l'ensemble des colonnes, chaque
groupe de lignes est caractris par les colonnes auxquelles ce groupe s'associe peu ou
fortement. Par symtrie, chaque groupe de colonnes est caractris par les lignes auxquelles
ce groupe s'associe peu ou fortement. Ainsi nous pouvons dcomposer la liaison entre deux
variables en une somme de tendances simples et interprtables et mesurer leur importance
respective.

4.2 Principe de l'AFC


Nous allons prsenter le principe de l'AFC et la dmarche suivre en illustrant les
tapes par un tableau de donnes de faible dimension. De ce fait l'AFC ne se justie

4.2.

43

PRINCIPE DE L'AFC

Couleurs des cheveux


brun

chtain

roux

blond

Total

Couleurs

marron

68

119

26

220

des

noisette

15

54

14

10

93

yeux

vert

29

14

16

64

bleu

20

84

17

94

215

108

286

71

127

592

Total

Tab. 4.3  Tableau de contingence.


Couleurs des cheveux

Prol

brun

chtain

roux

blond

moyen

Couleurs

marron

11,4

20,1

4,3

1,1

37,1

des

noisette

2,5

9,1

2,3

1,6

15,7

yeux

vert

0,8

4,8

2,3

2,7

10,8

bleu

3,3

14,1

2,8

15,8

36,3

18,2

48,3

11,9

21,4

Prol moyen

' 100

Tab. 4.4  Tableau des frquences observes.

pas vraiment, puisque les conclusions sont immdiates ds le tableau de contingence,


cependant nous verrons clairement le principe et les proprits de cette analyse.
Prenons l'exemple simple de la rpartition de 592 femmes selon les couleurs des yeux et
des cheveux (exemple propos par Cohen en 1980 et repris dans [LMP95]). Le tableau 4.3
de contingence donne le nombre de femmes possdant la fois une des quatre modalits de

I=J =4
n = 592. Le tableau des frquences 4.4 correspondant permet de ne plus tenir compte

la couleur des cheveux et une des quatre modalits de la couleurs de yeux. Ainsi
et

du nombre de femmes total. Ainsi nous pouvons nous demander s'il y a indpendance
entre la couleur des yeux et celle des cheveux, ou encore quelles sont les associations entre
ces couleurs. Sur cet exemple les rponses sont assez faciles, cependant lorsque la taille
des donnes est plus importante, nous ne pouvons travailler directement sur le tableau
des donnes brutes. Comme dans l'ACP, il y a une tape de transformation des donnes.

4.2.1 La transformation des donnes


Nous allons considrer le tableau d'une part comme une suite de lignes, puis comme

cf. tableau 4.5). Lorsque le tableau est considr en ligne les donnes
fi , la nouvelle ligne ainsi cre est appele prol-ligne .

une suite de colonnes (

sont normalises en divisant par

Cette normalisation a pour but de considrer les liaisons entre les deux variables au travers
de l'cart entre les pourcentages en lignes. Dans cette exemple
d'avoir les cheveux de couleur

fij
fi

reprsente la probabilit

j sachant que la couleur des yeux est i. Le prol-ligne i est


i sur l'ensemble des colonnes. Un raisonnement

la probabilit conditionnelle dnie par

similaire peut tre fait pour les colonnes du fait du rle symtrique jou par les lignes

44

CHAPITRE 4.

......

1
.
.
.
.
.
.

ANALYSE FACTORIELLE DES CORRESPONDANCES

......

1
.
.
.
.
.
.

.
.
.
.
.
.

fij
fi

......

.
.
.
.
.
.

......

...

...

fij
fj

...

...

.
.
.
.
.
.

.
.
.

......

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.

......

Tab. 4.5  Les prol-ligne et prol-colonne.


Couleurs des cheveux
brun

chtain

roux

blond

Couleurs

marron

30,9

54,0

11,8

3,1

des

noisette

16,1

58,0

15,0

10,7

vert

7,8

45,3

21,8

25,0

bleu

9,3

39,0

7,9

43,7

18,2

48,3

11,9

21,4

yeux

Prol moyen

Prol
moyen

' 100
' 100
' 100
' 100
' 100

Tab. 4.6  Prols-lignes (exprims en pourcentages-lignes arrondis).

et les colonnes. Ainsi


couleur

fij
fj

reprsente la frquence pour une femme d'avoir les yeux d'une

i sachant qu'elle a les cheveux de couleur j . Si nous reprenons notre exemple sur

les couleurs de cheveux et des yeux, nous obtenons les prols-lignes et les prols-colonnes
donns respectivement par les tableaux 4.6 et 4.7.

Le tableau 4.6 reprsente donc les

probabilits conditionnelles d'avoir les cheveux de la couleur

j sachant que les yeux ont la

couleur . Le tableau 4.7 fournit la rpartition de la couleur des yeux selon les modalits de
la couleur des cheveux. Nous avons donc par exemple 31 chances sur 100 que les femmes
qui ont les yeux marrons aient les cheveux de couleur brun, et 63 chances sur 100 que les
femmes qui ont les cheveux de couleur brun aient les yeux marrons. Nous savons aussi
partir du tableau 4.4 que 11 femmes sur 100 ont la fois les yeux marrons et les cheveux
de couleur brun.

4.2.2 La ressemblance entre prols


La ressemblance entre deux lignes ou entre deux colonnes est dnie par une distance
entre prols. La distance employe est celle du

2

et elle est dnie de faon symtrique

4.2.

45

PRINCIPE DE L'AFC

Couleurs des cheveux

Prol

brun

chtain

roux

blond

moyen

5,5

37,1

Couleurs

marron

62,9

41,6

36,6

des

noisette

13,8

18,8

19,7

7,8

15,7

yeux

vert

4,6

10,1

19,7

12,5

10,8

bleu

18,5

29,3

23,9

74,0

36,3

Prol moyen

' 100 ' 100 ' 100 ' 100 ' 100

Tab. 4.7  Prols-colonnes (exprims en pourcentages-colonnes arrondis).

pour les lignes et les colonnes. Ainsi entre deux lignes

X 1
d2 (i; i0 ) =
f
j 2J j
et entre deux colonnes

La matrice diagonale

et

1
f j
1

IR . Cette pondration

fij
fi

fi0 j
fi0 :

2

fij
fj

fij 0
f j 0

2

(4.9)

(4.10)

j 0 par :

X 1
d2 (j; j 0 ) =
f
i2I i

f j

i et i0 elle est donne par :

dnie la mtrique dans IR , tandis que

fi

dnie celle dans

quilibre l'inuence des colonnes sur la distance entre les lignes

en augmentant les termes concernant les modalits rares.

Remarque

D'autres distances pourraient tre employes, cependant la distance eucli-

dienne usuelle entre les points-lignes ou entre les points-colonnes exprims partir du
tableau de frquence ne traduit que les dirences d'eectifs entre deux modalits. La
distance euclidienne entre les prols-lignes ou entre les prols-colonnes permet de bien
modliser les ressemblances entre deux modalits. Par exemple pour la distance entre
deux prols-lignes est donne par :

X fij
d(i; i0 ) =
fi
j 2J

fi 0 j
fi0 :

2

Cependant cette distance favorise les colonnes ayant une masse

(4.11)

f j

important. Ainsi dans

notre exemple elle favorise les couleurs de cheveux bien reprsentes tel que le chtain.
C'est pour cette raison que la distance retenue dans l'quation (4.9) (respectivement
(4.10)) l'cart entre les prols est pondr par l'inverse de la masse de la colonne (respec-

2 car elle proportionnelle


2
la statistique du  de Karl Pearson. De plus cette distance du  possde une proprit
fondamentale nomme l'quivalence distributionnelle . Cette proprit permet d'associer
tivement de la ligne). Cette distance est nomme distance du

46

CHAPITRE 4.

ANALYSE FACTORIELLE DES CORRESPONDANCES

deux modalits d'une mme variable qui possde des prols identiques en une modalit
unique aecte de la somme de leurs masses, sans modier ni les distances entre les modalits de cette variable, ni les distances entre les modalits de l'autre variable. Ainsi, si deux
colonnes proportionnelles d'un tableau sont regroupes, les distances entre prols-lignes
sont inchanges, et rciproquement. Ceci permet de regrouper des modalits voisines pour
ainsi rduire le nombre de modalits et donc la complexit de l'interprtation en garantissant une certaine invariance des rsultats.

4.2.3 Les nuages des deux prols


Le nuage des prols-lignes
Lorsque nous nous intressons aux modalits de la premire variable, il faut considrer
les donnes comme une juxtaposition de prols-lignes. Ainsi chaque prol-ligne

tre reprsent comme un point de l'espace IR

cf.

une modalit de la seconde variable (

Fig. 4.1  Le nuage

deux prols est celle

2 ,

NI

dont chacune des

peut

dimensions reprsente

gure 4.1). L'utilisation de la distance entre

des prols-lignes dans l'espace IR .

elle revient aecter le poids

f j

j me dimension de IRJ .
nuage NI appartient un

la

Du fait que la somme de chaque prol-ligne est gale 1, le

HI . Pour l'AFC les poids aects chaque point du nuage sont imposs
et ne sont pas identiques. Le point i a pour poids la frquence marginale fi . Ce poids est

hyperplan, not

4.2.

47

PRINCIPE DE L'AFC

naturel puisqu'il est proportionnel l'eectif de la classe d'individus qu'il reprsente. La

f
i sur l'axe j est donne par ij .
fi
Le barycentre des points de NI munis de ces poids, not GI , est la moyenne pondre
de tous les points sur tous les axes j . La coordonne de GI sur l'axe j est donc donne
coordonne du point

par :

X
i2I

fi 

fij
fi 

= fj :

(4.12)

Le barycentre s'interprte comme un prol-moyen. Dans l'tude des lignes, il sert de


rfrence pour tudier dans quelle mesure et de quelle faon une classe d'individus dire
de l'ensemble de la population. Ceci se fait par l'tude de l'cart entre le prol de cette
classe et le prol moyen. Ainsi l'tude de la dispersion du nuage autour de son barycentre
quivaut l'tude de l'cart entre prols et marge ou encore l'tude de la liaison entre
les deux variables.

Le nuage des prols-colonnes


La construction du nuage des prols-colonnes est identique celle du nuage des prolslignes du fait de la symtrie entre les lignes et les colonnes en AFC. Ainsi, lorsque nous nous
intressons aux modalits de la seconde variable, il faut considrer les donnes comme une
juxtaposition de prols-colonnes. Chaque prol-colonne

j peut tre reprsent comme un

I dimensions reprsente une modalit de la premire


fij
variable (cf. gure 4.2). Le point i a pour coordonne sur l'axe i la proportion
, et le
fj
poids qui lui est associ est fi . Le nuage NJ appartient un hyperplan not HJ . De plus
le barycentre des points de NJ munis de leur poids a pour coordonne sur l'axe i :
X
f
(4.13)
fj ij = fi :
fj
j 2J
point de l'espace IR dont chacune des

Ce barycentre s'interprte galement comme un prol moyen et joue le mme rle pour
l'tude de la liaison entre les deux variables.

4.2.4 L'ajustement des deux nuages


Les deux hyperplans

HI

et

HJ

sont de grande dimension si la taille des donnes est

importante. Nous ne pouvons donc pas les tudier directement. Ainsi, nous cherchons
fournir des images planes des nuages

NI

et

NJ .

La dmarche reste la mme que celle

prsente au Chapitre 2.
Ainsi, pour l'ajustement du nuage des prols-lignes, nous cherchons une suite d'axes

fus ; s = 1;    ; S g sur lesquels le nuage NI est projet. Chaque


us doit rendre maximum l'inertie projete du nuage NI . En pratique, nous devons

orthogonaux deux deux


axe

centrer le nuage

NI ,

ainsi le centre de gravit

Gi

devient l'origine des axes. Une fois le

48

CHAPITRE 4.

ANALYSE FACTORIELLE DES CORRESPONDANCES

Fig. 4.2  Le nuage

nuage centr, la modalit

NJ

des prols-colonnes dans l'espace IR .

i a pour coordonne

fi 

fij

fj

exprime la dirence entre la rpartition de la classe

sur le

j me axe. Cette coordonne

et celle de la population totale

sur l'ensemble des modalits de la seconde variable. La recherche des axes qui rendent
maximum l'inertie du nuage centr revient donc chercher les classes qui s'cartent le
plus du prol de l'ensemble de la population. Chaque prol-ligne tant muni d'un poids

fi , l'inertie est donne par :

X
i2I

fi

L'ajustement du nuage des prols-lignes

fi 

fij

NI

2

fj

dans IR

(4.14)

revient donc chercher le premier

u1 qui rende cette inertie maximale, puis par chercher le vecteur unitaire
u2 orthogonal u1 qui vrie le mme critre, etc.

vecteur unitaire

Cette dmarche est semblable celle de l'ACP, l'exception du fait que les lignes
interviennent au travers de leur prol, que la distance entre les prols est celle du
que chaque lment

i est aect d'un poids fi .

2

et

Puisqu'en AFC les lignes et les colonnes jouent un rle symtrique, l'ajustement du
nuage

NJ

est semblable celui de

NI . Ainsi les images planes du nuage NJ

doivent tre

telles que les distances entre les points de l'image ressemblent le plus possible aux distances
entre les points du nuage
barycentre

GJ .

NJ .

L'analyse du nuage

NJ

se fait galement par rapport au

4.2.

49

PRINCIPE DE L'AFC

4.2.5 Reprsentation simultane


En AFC, la reprsentation simultane des deux nuages

NI et NJ repose sur une dualit

plus riche qu'en ACP car les lignes et les colonnes reprsentent des lments de mme

NI

nature. Les deux nuages

NJ

et

sont deux reprsentations du mme tableau en le

considrant en tant que prols-lignes et prols-colonnes. L'analyse du tableau passe donc


par les analyses des nuages qui ne sont pas indpendantes.

Remarque sur l'inertie


INI

X
i2I

fi

L'inertie du nuage

X
j 2J

fj

fij
fi

fj

est donne par :

XX

(fij

i2I j 2J

fi fj )2
:
fi fj

(4.15)

NI . Cette inertie
2
reprsente la liaison entre les deux variables. En eet la statistique du  habituellement
Nous constatons que l'inertie du nuage

NJ

2

NI

est identique celle du nuage

employe pour mesurer la liaison entre deux variables est la somme du rapport avec pour
numrateur le carr de la dirence de l'eectif observ et de l'eectif thorique et pour
dnominateur l'eectif thorique :

XX
i2I j 2J

(nfij

nfi fj )2
nfi fj

= nINI = nINJ :

(4.16)

2 est gale, au coecient n prs, l'inertie totale du nuage NI


2
du nuage NJ . Ceci justie une nouvelle fois l'emploi de la distance du  .
Ainsi la statistique du

et

Nous avons vu au chapitre 2 que les inerties associes chaque axe de mme rang
dans chacun des nuages sont gales, ainsi que les facteurs de mme rang sur les lignes et
les colonnes sont lis par des relations de transition. Ces relations donnent un sens une
reprsentation simultane. Le schma de dualit de la gure 4.3 reprsente les relations de
transition (appeles galement barycentriques, ou encore quasi-barycentriques) donnes
par :

FS (i)

p1

8
>
>
>
>
>
<

FS (i) =

>
>
>
>
>
:

1
GS (j ) = p


X fij

S j 2J

GS (j )

X fij
S i2I

reprsente la projection de la ligne

reprsente la projection de la colonne

fi

f j

(4.17)

FS (i)

sur l'axe de rang

sur l'axe de rang

NI , GS (j )
NJ , et S est la

du nuage

du nuage

valeur commune de l'inertie associe chacun de ces axes. Elle est donne par :

S =

X
i2I

fi [FS (i)]2 =

X
j 2J

fj [GS (j )]2 :

(4.18)

50

CHAPITRE 4.

ANALYSE FACTORIELLE DES CORRESPONDANCES

Fig. 4.3  Le schma de dualit pour l'AFC.

i sur l'axe S est le barycentre des projections des colonnes


colonne j tant aecte du poids fij . Cette proprit est appele

La projection de la ligne
sur l'axe

S,

chaque

proprit barycentrique.
La reprsentation simultane s'obtient en superposant les projections de chacun des
deux nuages

NI

et

NJ

sur des plans engendrs par des axes de mme rang pour les

deux nuages. Bien sr les deux nuages ne sont pas forcment dans le mme espace. Si la
reprsentation simultane n'est pas adopte par tous pour l'ACP, elle se justie beaucoup
mieux pour l'AFC. En fait pour pouvoir rellement superposer les deux nuages, il faudrait
avoir les mmes barycentres car chaque nuage devrait alors tre contenu dans l'autre. Cette
reprsentation est possible en forant les centres de gravit pour approcher la solution
idale. Les relations seront alors quasi-barycentriques.

4.3 Interprtation
La reprsentation simultane des lignes et des colonnes permet une interprtation aise
des projections. Ainsi la position relative de deux points d'un mme ensemble (ligne ou
colonne), s'interprte en tant que distance. La position d'un point d'un ensemble et tous les
points d'un autre ensemble s'interprte en tant que barycentre. Attention cependant, toute
association entre une ligne et une colonne suggre par une proximit sur le graphique
doit tre contrle sur le tableau.
Reprenons l'exemple prcdent sur la couleur des yeux et des cheveux. La reprsentation simultane sur le premier plan factoriel (

cf.

gure 4.4) montre par exemple que

les femmes aux yeux bleus et aux yeux marrons sont loignes. En conrmation avec le
tableau, nous remarquons que les femmes aux yeux bleus auront tendance avoir les
cheveux blonds, ainsi que pour celles aux yeux marrons qui seront davantage brunes.
Les femmes aux cheveux roux auront plutt les yeux verts ou noisettes. La modalit des

4.3.

51

INTERPRTATION

cheveux chtains est proche de l'origine, elle reprsente donc un prol moyen et n'est
rattache aucune couleur de cheveux.

Fig. 4.4  Reprsentation simultane dans le premier plan sur l'exemple de Cohen.
Pour l'interprtation, il peut tre utile partir des nuages de points d'en dduire les
relations d'indpendance et l'inertie totale et des axes. Nous reprenons les principaux
cas tudis dans [LMP95] sur la gure 4.5. Ainsi une inertie faible du nuage entrane un
nuage concentr autour du centre de gravit tandis qu'une inertie forte donne un nuage
dilat. L'indpendance des variables donne une forme sphrique au nuage, ce qui entrane
aucune direction privilgie pour les axes, l'inertie des axes est donc dans ce cas faible. Au
contraire l'existence d'une dpendance provoque un tirement du nuage dans une direction
donne.
Lorsque les nuages de points sont scinds en plusieurs sous-nuages, il est possible de
rorganiser les donnes du tableau en ordonnant les coordonnes des lignes et des colonnes

cf. gure 4.6). Ceci permet alors d'tudier les

de faon regrouper les frquences nulles (

sous-nuages indpendamment en considrant les parties du tableau correspondant.


Gnralement, l'interprtation se limite aux premiers facteurs, nous considrons ainsi
une approximation du tableau initial. Les calculs de reconstruction de l'analyse factorielle
s'appliquent ici. Il est possible de montrer que :

fij

fi fj = fi fj

X Fs
s2S

(pi)Gs(j ) :

s

(4.19)

Cette formule prsente la dcomposition de l'cart du tableau relativement l'hypothse


d'indpendance en une somme de tableaux dont chacun ne dpend que d'un couple de
facteurs

(Fs; Gs)

d'un mme rang. Elle dcompose ainsi la liaison des deux variables en

lments simples. En eet, chaque terme

fi fj Fs (i)Gs (j ) reprsente la liaison simple entre

52

CHAPITRE 4.

ANALYSE FACTORIELLE DES CORRESPONDANCES

Fig. 4.5  Inertie et dpendance.

les modalits

i et j . Ainsi, si Fs (i) et Gs (j ) sont du mme signe, la case (i; j ) du tableau

exprime une attirance, sinon elle exprime une rpulsion. L'attirance et la rpulsion seront
d'autant plus grande que la valeur absolue du produit

Fs (i)Gs (j ) est grande.

Puisque le tableau est approch, lorsqu'une partie seulement est considre pour l'analyse, il est important d'employer des indicateurs pour l'interprtation. Ceux utiliss pour
l'AFC sont les mmes que ceux de l'ACP que nous avons vu la section 3.4 du chapitre
prcdent. Nous pouvons donc tudier la qualit de reprsentation d'un lment par un
axe ou un plan. La qualit de reprsentation d'une ligne par un axe
rapport de l'inertie projete du point sur l'axe

s est donne par le

s par l'inertie totale du point :

fi Fs (i)2
;
fi d2 (GI ; i)
et la qualit de reprsentation d'une ligne par un plan dni par les axes

(4.20)

s et t est donne

par :

fi Fs (i)2
fi Ft (i)2
+
:
fi d2 (GI ; i) fi d2 (GI ; i)

(4.21)

La qualit de reprsentation d'un nuage par un plan est mesure par le rapport de
l'inertie projete du nuage sur l'axe

s et de l'inertie totale du nuage :


s
;
s

X
s2S

multiplie par 100, elle reprsente le pourcentage d'inertie.

(4.22)

4.3.

53

INTERPRTATION

Fig. 4.6  Relation entre la forme du nuage de points et le tableau.

Enn la contribution d'un lment l'inertie d'un axe est mesure par le rapport de
l'inertie du point et de l'inertie du nuage. Lorsque l'lment est une ligne, la contribution
l'inertie d'un axe

s est donne par :

fi Fs (i)2
;
s
et dans le cas d'un plan form des axes s et t :

fi [Fs (i)2 + Ft (i)2 ]


:
s + t

(4.23)

(4.24)

Il est aussi possible, comme pour l'ACP, d'ajouter des lments supplmentaires, illustratifs qui sont projets sur les plans tudis. Leur utilisation pour l'AFC est plus frquente
que pour l'ACP, car il peut y avoir beaucoup de variables pour une tude donne qui ne
sont pas considres dans cette analyse. Les projections sur les axes factoriels des prolslignes ou des prols-colonnes de ces lments n'interviennent pas dans les calculs de ces
axes.
Pour une bonne interprtation des plans de projection en AFC, nous proposons de
suivre le plan suivant :
- Choisir le nombre d'axes de projection tudier. Ce choix peut se faire par la mme
approche que celle dcrite pour l'ACP.
- Etudier les valeurs propres. Les valeurs propres proches de 1 traduisent une forte
liaison entre les lignes et les colonnes.
- Etudier la contribution des lignes et des colonnes de la mme faon que pour l'ACP.
- Etudier les coordonnes des lments actifs :
- ceux qui prsentent une forte contribution,
- les extrmes avec une forte qualit de reprsentation (pour qualier le facteur).

54

CHAPITRE 4.

ANALYSE FACTORIELLE DES CORRESPONDANCES

4.4 Conclusion
Nous rsumons l'AFC en neuf tapes illustres par la gure 4.7 :
- 1 : Cette premire tape donne le tableau de contingence des modalits communes
aux deux variables. Les lignes et les colonnes jouent des rles symtriques.
- 2 : Cette deuxime tape modie le tableau en frquences. Ces frquences font
apparatre des lois de probabilits.
- 3 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en divisant par

fi . Ces lignes sont appeles prol-lignes et peuvent tre

interprtes comme des probabilits conditionnelles.


- 4 : Nous considrons ici le tableau comme une juxtaposition de colonnes aprs
transformation en divisant par

fj .

Ces colonnes sont appeles prol-colonnes et

peuvent tre interprtes comme des probabilits conditionnelles.


- 5 : Les prols-lignes qui constituent le nuage
nuage

NI

se situe dans un hyperplan

centre de de gravit

GI

NI

HI . Le nuage NI

Le nuage

NJ

se situe dans un hyperplan

au centre de gravit

GJ

est analys par rapport au

qui constitue un prol moyen.

- 6 : Les prols-colonnes qui constituent le nuage

sont projets dans l'espace IR . Le

NJ

sont projets dans l'espace IR .

HJ . Le nuage NJ

est analys par rapport

qui constitue un prol moyen.

- AF : Analyse Factorielle. Elle permet de mettre en vidence une suite de directions


orthogonales, d'tudier les projections en 7 et 8 en fonction de leurs proximits entre
elles et par rapport l'origine qui correspond un prol moyen.
- 7 : Cette tape consiste en la projection du nuage

NI

sur le premier plan factoriel.

Les distances correspondent des ressemblances entre les modalits.


- 8 : Cette tape consiste en la projection du nuage

NJ

sur le premier plan factoriel.

Les distances correspondent des ressemblances entre les modalits.


- Relations de transition : ces relations expriment les rsultats d'une AF en fonction
des rsultats de l'autre.
- 9 : Les relations de transition permettent des interprtations simultanes des axes.
Cette reprsentation simultane facilite l'interprtation. Attention toute association
entre un point-ligne et un point-colonne suggre par une proximit doit tre contrle sur le tableau.

L'ACP et l'AFC sont direntes en plusieurs points, elles fournissent des clairages
complmentaires. L'AFC est une mthode puissante pour synthtiser et rsumer de vastes
tableaux de contingence. En pratique elle est applique beaucoup d'autres tableaux,
notamment les tableaux individus-variables. Les individus sont alors considrs comme
une variable.
Dans le cas de tableaux de contingence, le principal objectif de cette analyse est de
dgager les liaisons entre deux variables. L'analyse des correspondances multiples que nous
exposons dans le chapitre suivant permet l'tude des liaisons entre plus de deux variables.

4.4.

55

CONCLUSION

Fig. 4.7  Rsum de l'AFC.

56

CHAPITRE 4.

ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre 5
Analyse des Correspondances Multiples
5.1 Introduction
L'AFC peut se gnraliser de plusieurs manires dans le cas o non plus deux variables
sont mises en correspondance, mais deux ensembles de variables. La gnralisation la plus
simple et la plus employe est l'analyse des correspondances multiples. Nous la notons dans
ce qui suit ACM. Cette analyse a particulirement t tudie par B. Escoer [EP90] et
J.P. Bezcri [Ben80b].

5.1.1 Les domaines d'application


Cette analyse trs simple est non plus adapte aux tableaux de contingence de l'AFC,
mais aux tableaux

disjonctifs complets

que nous dcrivons ci-dessous. Ces tableaux sont

des tableaux logiques pour des variables codes. Les proprits de tels tableaux font de
l'ACM une mthode spcique aux rgles d'interprtation des reprsentations simples.
Elle permet donc l'tude des liaisons entre plus de deux variables qualitatives, ce qui
tend le spectre d'tude de l'AFC.
L'ACM est donc trs bien adapte au traitement d'enqutes lorsque les variables sont
qualitatives (ou rendues qualitatives). Il est galement possible de n'appliquer cette mthode plusieurs fois en ne prenant en compte que quelques variables.

5.1.2 Les donnes


L'ACM permet l'tude de tableaux dcrivant une population de

individus et

variables qualitatives. Une variable qualitative (ou nominale) peut tre dcrite par une

I individus dans un ensemble ni non structur, par exemple


non ordonn. Ces variables qualitatives peuvent tre codes par un codage condens qui
application de l'ensembles des

attribue une valeur chaque modalit. Par exemple les modalits pour la couleur d'un vin
peuvent tre 1 pour le rouge, 2 pour le blanc et 3 pour le ros. Les donnes peuvent donc

X dcrite par le tableau 5.1, o I reprsente


la fois le nombre d'individus et l'ensemble des individus I = f1;    ; I g, J reprsente
tre reprsentes sous la forme d'une matrice

57

58

CHAPITRE 5.

ANALYSE DES CORRESPONDANCES MULTIPLES

Variables

Individus

......

1
.
.
.
.
.
.

......

.
.
.
.
.
.

......

.
.
.
.
.
.

xij

......

.
.
.
.
.
.

Tab. 5.1  Reprsentation des donnes sous forme de codage condens pour l'ACM.

la fois le nombre de variables et l'ensemble des variables


codage condens de l'individu
Les

xij

i pour la variable j .

= f 1;    ; J g

et

xij

est le

reprsentant une codication, en prendre la moyenne n'a aucun sens. Ces

donnes ne peuvent donc pas tre traites par l'ACP ou l'AFC prcdemment tudies.
Ce tableau prsente donc des spcicits dont l'analyse factorielle doit tenir compte par
une mthode spcique.

5.1.3 Les objectifs


Les objectifs que cette mthode spcique, l'ACM, doit remplir sont les mmes que
ceux de l'ACP ou de l'AFC. Il s'agit d'obtenir une typologie des lignes et des colonnes
et relier ces deux typologies. Nous aurons ici trois familles d'lments tudier, les individus, les variables et les modalits des variables. Cette tude se fait par la dnition
de ressemblances et liaisons pour ces trois familles que nous dtaillons dans la section
suivante. An d'tablir un bilan des ressemblances entre individus, comme en ACP nous
cherchons rpondre des questions du type :
- Quels sont les individus qui se ressemblent ?
- Quelles sont ceux qui sont dirents ?
- Existe-t-il des groupes homognes d'individus ?
- Est-il possible de mettre en vidence une typologie des individus ?
Les mmes types de questions se posent pour les variables et les modalits.

5.2 Principe de l'ACM


Le principe de base de l'ACM repose dans un premier temps sur une transformation
des donnes du tableau 5.1 pour modier la codication en nombres binaires. L'analyse
applique ensuite le mme principe que l'AFC, en transformant ce tableau disjonctif complet ainsi obtenu en prols-lignes et en prols-colonnes. La distance du
employe pour dnir les liaisons.

2

est galement

5.2.

59

PRINCIPE DE L'ACM

Variable 1

Individus

Variable

...............

1
.
.
.
.
.
.

Variable

J
K

...............

marge

.
.
.
.
.
.

xik

0100000

0000100

.
.
.
.
.
.

.
.
.
.
.
.

marge

J
I1

Ik

IK

Tab. 5.2  Reprsentation des donnes sous forme de codage condens pour l'ACM.

5.2.1 La transformation des donnes


Une autre reprsentation du tableau 5.1 est le tableau disjonctif complet. Il reprsente
les individus en ligne, alors que les colonnes reprsentent les modalits des variables (et

cf. tableau 5.2). Ainsi, l'intersection de la ligne i avec la colonne


k, la valeur xik vaut 1 si l'individu i possde la modalit k et 0 sinon. Ce tableau porte
le nom de disjonctif complet , car l'ensemble des valeurs xik d'un mme individu pour

non plus les variables) (

les modalits d'une mme variable, comporte la valeur 1 une fois (complet) et une fois
seulement (disjonctif ). Chaque modalit

k est reli une variable j . Nous avons ainsi trois

familles d'lments les individus, les variables et les modalits.

jX
et galement l'ensemble des modalits de cette variable Kj = f1;    ; Kj g. Ainsi K =
Kj est la fois le nombre des
Notons

Kj

le nombre des modalits de la variable

modalits toutes variables confondues et l'ensemble


les galits suivantes :

X
k2Kj

xik = 1; 8(i; j );

i2I

j 2J

= f 1;    ; K g

. Nous avons donc

(5.1)

xik = J; 8i;

(5.2)

xik = Ik ; 8k;

(5.3)

k2K

60

CHAPITRE 5.

ANALYSE DES CORRESPONDANCES MULTIPLES

couleur

origine

apprciation

Individu 1

Individu 2

Individu 3

Individu 4

Individu 5

Individu 6

Individu 7

Individu 8

Tab. 5.3  Exemple du vin : tableau initial.

et

X
k2Kj

Ik = I; 8j:

(5.4)

Les proprits intressantes de l'ACM sont essentiellement dues aux proprits des
tableaux disjonctifs complets. Notons surtout que c'est un tableau binaire dont les lignes
sont de sommes constantes

et dont les colonnes sont regroupes par paquet corres-

pondant une variable avec pour somme par ligne gale 1.

Exemple 5.2.1

Pour une meilleure comprhension de cette transformation, nous pou-

vons l'illustrer par un exemple. Nous supposons avoir des donnes issues d'une enqute
sur l'apprciation du vin. Nous pouvons considrer trois variables : la couleur, l'origine et
l'apprciation de l'individu. Nous reprenons les trois modalits rouge, blanc et ros pour la
couleur codes respectivement par 1, 2 et 3. Nous considrons uniquement deux origines :
Bordeaux et Cte du Rhne, codes par 1 et 2, et quatre modalits pour l'apprciation :
mauvais, moyen, bon et trs bon codes respectivement par 1, 2, 3 et 4. Nous avons ainsi

trois variables (

=3

) et neuf modalits (

=9

). Les rsultats de l'enqute ctive sont

donns dans le tableau 5.3. Ainsi, par exemple l'individu 5 a moyennement apprci un
Bordeaux rouge. Le tableau disjonctif complet 5.4 dduit ce tableau initial prsente les
mmes informations. Ainsi, l'individu 5 prsente les modalits : rouge, Bordeaux, moyen.

Lorsque le nombre de variables est rduit deux (

=2

), les donnes peuvent tre

reprsentes sous la forme d'un tableau de contingence, comme dans l'AFC, mettant ainsi
en correspondance les modalits des deux variables. Il est possible d'tendre ce tableau
une hypertable de contingence lorsque

K2

et

K3 )

premire variable),

=3

cf.

gure 5.1), o

K1

(respectivement

reprsente le nombre de modalits de la premire (respectivement deuxime

et troisime) variable et
ds que

Iklm

est le nombre d'individus possdant les modalits

(de la

l (de la deuxime variable) et m (de la troisime variable). Cependant

augmentent le nombre de cases devient trs important et l'hypertable est alors

dicile manier et reprsenter.

5.2.

61

PRINCIPE DE L'ACM

Couleur

Origine

Apprciation

Ctes du

Trs

Rouge

Blanc

Ros

Bordeaux

Rhne

Mauvais

Moyen

Bon

Bon

Ind. 1

Ind. 2

Ind. 3

Ind. 4

Ind. 5

Ind. 6

Ind. 7

Ind. 8

Tab. 5.4  Exemple du vin : tableau disjonctif complet.

Fig. 5.1  Hypertable de contingence pour

J = 3.

L'hypertable tant problmatique pour un grand nombre de variables, pour gnraliser


le tableau de contingence deux variables, il est possible de considrer les tableaux de
contingence entre variables prises deux deux. Nous obtenons ainsi une juxtaposition de
tableaux de contingence. Un tel tableau est appel

c.f. tableau 5.5).

tableau de Burt

du nom de son auteur

Comme en ACP nous cherchons une typologie des individus. La notion de

blance

ressem-

est dtermine par le nombre de modalits en commun. Par exemple dans une

enqute d'opinion, il est important de mettre en vidence une classe d'individus dtermines par des variables. Pour l'tude des variables deux points de vue s'orent nous. Nous
pouvons caractriser les liaisons entre deux variables qualitatives en considrant les modalits, ou encore chercher rsumer l'ensemble des liaisons l'aide de quelques variables
numriques qui synthtisent l'ensemble des variables. Les catgories socio-professionnelles
peuvent ainsi rsumer une variable statut social. La richesse de l'ACM provient de l'tude
d'une troisime classe d'lments, les modalits. De la mme faon que les individus, nous

62

CHAPITRE 5.

ANALYSE DES CORRESPONDANCES MULTIPLES

Variable
1

..

.
.
.

.
..

.
.
.

.
.
.

..................

      Ik            
..

.
.
.

..

      Ihk      
.
.
.

K
marge

Variable

j0

Variable

.........

..


..

JIk

Tab. 5.5  Reprsentation des donnes sous forme du tableau de Burt.

pouvons chercher tablir un bilan des ressemblances entre modalits. Les ressemblances
entre modalits peuvent tre dnies partir du tableau disjonctif complet, ou bien
partir du tableau de Burt. Dans le premier cas une colonne est une variable indicatrice,
ainsi deux modalits se ressemblent si elles sont prsentes ou absentes chez beaucoup
d'individus. Dans le cas du tableau de Burt, une ligne ou une colonne correspond une
classe d'individus, ainsi deux modalits se ressemblent si elles s'associent beaucoup ou peu
aux mmes modalits. Ces deux points de vue aboutissent aux mmes rsultats. L'ACM
peut donc tre vue comme une AFC du tableau disjonctif complet ou comme une AFC
du tableau de Burt.
La richesse apporte par ces trois lments, ne doit pas occulter l'unicit du tableau,
et donc des conclusions parfois redondantes. Il sera donc prfr l'tude des modalits en
priorit.

5.2.2 L'analyse factorielle des correspondances du tableau disjonctif complet


Comme pour l'AFC, nous allons considrer le tableau disjonctif complet en prolslignes et en prols-colonnes. Pour se faire nous modions ce tableau pour considrer les

cf. tableau 5.6). Les frquences fik

frquences (

sont donnes par

sont donnes par :

fi =

X xik
k2K

IJ

= I1 ;

xik
. De plus les marges
IJ
(5.5)

5.2.

63

PRINCIPE DE L'ACM

......

1
.
.
.
.
.
.

......

.
.
.
.
.
.

......

.
.
.
.
.
.

xik
IJ.

......

.
.
.
.
.

Ik
IJ

marge

marge

Tab. 5.6  Mise en frquences du tableau disjonctif complet.

et

fk =

X xik

IJ
i2I

ik
= IJ
:

(5.6)

Une fois les frquences calcules, il faut considrer le tableau en prols-lignes et prols-

cf.

colonnes (

tableau 5.7). Ainsi le tableau est de nouveau modi de faon ce que

pour les prols-lignes la marge des lignes soit 1 et pour les prols-colonnes la marge des
colonnes soit 1. Ainsi chaque case est compose respectivement de

xik
J

et

xik
.
Ik

L'analyse des nuages


Chaque individu du nuage des individus

NI

est reprsent par les modalits qu'il

possde. La marge tant constante, la transformation en prols-lignes ne modie en rien


les donnes. Ainsi le nuage

NI

appartient un hypercube not

HI

d'arrte

, puisque le

cf. gure 5.2). Un individu i est un point de IRK qui


J
xik
a pour coordonne sur l'axe k la valeur
avec un poids identique pour chaque individu
J
1 . Le barycentre G du nuage N a pour coordonne Ik
(car la marge est constante) de
I
I
I
IJ
sur l'axe k . La ressemblance entre deux individus est dnie par les modalits de chacun
prol d'une ligne est soit 0 soit

des individus. Si les deux individus prsentent globalement les mmes modalits, alors ils
se ressemblent. La distance qui caractrise cette ressemblance entre deux individus

i et l

64

CHAPITRE 5.

......

1
.
.
.
.
.
.

ANALYSE DES CORRESPONDANCES MULTIPLES

......

1
.
.
.
.
.
.

.
.
.
.
.
.

xik
J.

......

.
.
.
.
.
.

......

...

...

.
.
.
.
.
.

......

xik
Ik

...

...

.
.
.
.
.
.

.
.
.

k
.
.
.
.
.
.

.
.

......

Tab. 5.7  Les prol-lignes et prol-colonnes pour l'ACM.


est dnie par :

d2 (i; l) =

IJ  xik
I J
k2K k
X

Cette expression est remarquable car


modalit

xlk 2 1 X I
= J I (xik xlk )2 :
J
k2K k
(xik xlk )2 = 1 si un seul individu

(5.7)

possde la

et 0 sinon. Cette distance crot logiquement avec le nombre de modalits qui

i et l, ce qui est recherch. Le poids de la modalit k dans la


I
distance est l'inverse de sa frquence :
. Ainsi si un individu possde une modalit rare,
Ik

dirent pour les individus

il sera loign de tous les autres individus et du centre de gravit.

Chaque modalit peut tre reprsente par le prol-colonne, c'est--dire par les valeurs

k est un point
Ik
constant de
(cf.
IJ
sur l'axe i. Ainsi le

prises par tous les individus pour la modalit considre. Ainsi une modalit

de l'espace IR

et a pour coordonne

gure 5.3). Le barycentre


nuage

NK

GK

xik
Ik

du nuage

sur l'axe

NK

appartient l'hypercube d'arrte

est soit 0 soit

Ik

avec un poids

a pour coordonne

Ik

, not

HK , puisque le prol d'une colonne

k et h est donne par la distance :




X
xik xih 2
2
:
d (k; h) =
I
I
I
k
h
i2I

La ressemblance entre deux modalits

En notant que

(xik )2 = xik

qui ne prennent que les valeurs 1 ou 0, cette distance peut

s'crire :

d (k; h) =
2

(5.8)

I
I +i
Ik Ih k h

X
i2I

xik xih ;

(5.9)

5.2.

65

PRINCIPE DE L'ACM

Fig. 5.2  Reprsentation du nuage des individus

NI

dans l'espace IR

ce qui est le nombre d'individus possdant une et une seule des deux modalits

multipli par

I
.
Ik Ih

ou

Cette distance crot donc avec le nombre d'individus possdant

une et une seule des deux modalits

et

et dcrot avec l'eectif de chacune de ces

modalits. Ainsi, par construction, deux modalits d'une mme variable sont loignes
l'une de l'autre (puisqu'elles ne peuvent pas tre possdes par le mme individu). Deux
modalits possdes par exactement les mmes individus sont confondues, tandis que les
modalits rares sont loignes de toutes les autres et du centre de gravit

GK .

La reprsentation simultane
Il est possible, comme pour l'AFC, de reprsenter simultanment les deux nuages

et

NK

NI

grce la dualit existant entre ces deux nuages. Avec les notations donnes par

le schma de dualit sur la gure 5.4, les relations de transitions s'crivent :

8
>
>
>
>
>
<

FS (i) =

>
>
>
>
>
:

1
GS (k) = p


p1

X xik

S k2K

GS (k)

X xik

S i2I

Ik

FS (i)

(5.10)

FS (i) reprsente la projection de la ligne i sur l'axe de rang S de NI , tandis que GS (k)
reprsente la projection de la ligne k sur l'axe de rang S de NK . S reprsente toujours
la valeur commune de l'inertie associe chacun de ces axes de rang S des nuages NI
et NK . Ces relations s'interprtent facilement car les xik ne prennent que les valeurs 0
1 prs, au barycentre des modalits que
ou 1. Ainsi FS (i) est plac au coecient p
S
o

66

CHAPITRE 5.

ANALYSE DES CORRESPONDANCES MULTIPLES

Fig. 5.3  Reprsentation du nuage des modalits

NK

dans l'espace IR .

i possde. Inversement, GS (k) est plac au coecient p prs, au barycentre


S
des individus qui possdent la modalit k . Les modalits peuvent ainsi tre vues comme
l'individu

barycentre d'une classe d'individus, ou comme une modalit d'une variable.


Il faudra cependant tenir compte lors de l'interprtation, que malgr cette quivalence
entre les facteurs

mme espace (IR

FS (i)

et

GS (k),

les modalits et les individus n'voluent pas dans le

pour les premiers et IR

pour les seconds).

La reprsentation simultane n'est pas toujours facile interprter, car en pratique le


nombre d'individus et de modalits pouvant tre grand, le graphique devient vite encombr. Elle permet cependant de bien caractriser les rpartitions et les classes d'individus.

5.2.3 L'analyse factorielle des correspondances du tableau de Burt


Nous avons vu que l'ACM peut tre vue comme une analyse factorielle des correspondances du tableau disjonctif complet ou encore du tableau de Burt. L'analyse partir du
tableau disjonctif complet fournit des reprsentations des barycentres de classes d'individus, cependant au lieu de calculer les axes d'inertie du nuage d'individus, puis de projeter
les barycentres sur ces axes, nous pouvons analyser directement le nuage des barycentres
obtenu par le tableau de Burt.
En fait, ces deux approches fournissent exactement les mmes rsultats. Sans dtailler
davantage cette approche, les transformations des donnes ainsi que les relations de transitions issues de l'analyse factorielle des correspondances du tableau de Burt sont donnes
par exemple dans [Pag03] ou [LMP95].

5.3.

INTERPRTATION

67

Fig. 5.4  Schma de dualit pour l'ACM.

5.2.4 Les variables quantitatives


Initialement prvue pour les variables qualitatives, l'ACM peut traiter galement les
variables quantitatives, sous condition qu'elles soient rendues qualitatives. Ceci a un
double intrt. Tout d'abord, rendre des variables quantitatives en variables qualitatives
permet d'obtenir un tableau homogne et ainsi d'analyser l'ensemble de ces variables par
une mme analyse. Un autre intrt est qu'une ACM sur des variables quantitatives codes
en classe peut mettre en vidence des liaisons entre variables non linaires, que l'ACP ne
peut dvoiler. Or les liaisons non linaires sont trs frquentes en pratique.
Pour se faire, il sut de dcouper l'intervalle de variation en sous-intervalles qui dnissent autant de modalits. Ainsi diminuer le nombre de classes, c'est regrouper des
individus de plus en plus dirents et augmenter le nombre de classes, c'est obtenir des
classes plus nombreuses et faible eectif. Il est prfrable de garder un nombre infrieur
huit classes pour pouvoir esprer analyser ces classes correctement. Bien souvent quatre
ou cinq classes susent. Trois classes peuvent par exemple tre interprtes comme trois
modalits mauvais, moyen et bon. Il faut galement choisir correctement les classes, par
exemple en regardant s'il n'existe pas de seuils pour la variable mesure, dtermins par
exemple par l'histogramme. Dans le cas o la variable possde une rpartition homogne
de ses valeurs, il est possible de faire un dcoupage systmatique, par exemple avec des
intervalles rguliers, ou encore avec un nombre d'individus identique dans chaque classe.

5.3 Interprtation
Nous avons vu que deux individus se ressemblent s'ils prsentent globalement les
mmes modalits. Cette ressemblance se traduit par une proximit des individus dans
l'espace IR

ou en pratique dans l'espace de projection choisi pour la reprsentation si-

multane. De mme si deux modalits d'une mme variable sont proches dans l'espace

68

CHAPITRE 5.

ANALYSE DES CORRESPONDANCES MULTIPLES

de projection, ceci se traduit par une ressemblance entre les groupes d'individus qui les
ont choisies. La proximit de deux modalits de variables direntes s'interprte en terme
d'

association . Ainsi deux modalits de variables direntes s'associent si elles concernent

globalement les mmes individus. En fait ces modalits correspondent alors aux points
moyens des individus.
En ce qui concerne la proximit entre modalits et individus, l'interprtation peut se
faire en considrant les modalits comme barycentre de classe d'individus. Il est souvent
ncessaire de se reporter au tableau de donnes pour vrier les conclusions.
Nous rappelons que sur la reprsentation simultane, les nuages

NI

et

NK

ne sont pas

dans les mmes espaces. Il est donc important d'avoir recours des indicateurs sur la
qualit de reprsentation. Les indicateurs pour l'interprtation de l'ACM sont les mmes
que ceux de l'ACP et de l'AFC dj donns, ici pour les individus et les modalits. Ainsi
nous pouvons tudier la qualit de reprsentation de chaque individu et de chaque modalit
par un axe ou par un plan. La contribution d'un individu ou d'une modalit l'inertie
d'un axe ou d'un plan doit aussi tre considre. La notion de variable doit galement
tre prise en compte. Ainsi la contribution d'une variable l'inertie d'un axe peut tre
obtenue en sommant les contributions des modalits de cette variable l'inertie du mme
axe. Nous obtenons ainsi un indicateur de liaison entre la variable et le facteur.

Les lments supplmentaires

Les lments supplmentaires ou illustratifs peuvent

tre des variables (et leurs modalits) ou bien des individus. Les variables supplmentaires
permettent d'enrichir l'interprtation des axes sans avoir participes leur construction.
Une variable supplmentaire couramment employe est la variable qualitative obtenue
par la classication hirarchique (

cf. chapitre 7). Les individus supplmentaires exclus de

l'analyse peuvent tre situs par rapport aux individus actifs, ou des groupes d'individus
actifs dans une optique de discrimination.
Il est aussi courant de regrouper les modalits de faible eectif (qui n'ont pas de
signication statistique) pour ensuite les reprsenter en tant qu'lments supplmentaires.

An de ne rien oublier pour l'interprtation des rsultats, nous proposons de suivre le
plan suivant :
- Dnir le nombre de modalits des variables quantitatives, s'il y a des variables
quantitatives intressantes pour l'tude.
- Choisir le nombre d'axes de projection. Ce choix se fait toujours de la mme faon
que pour l'ACP ou l'AFC.
- Etudier les valeurs propres qui reprsentent l'inertie de chaque axe.
- Etudier la contribution des lignes et des modalits de la mme faon que l'ACP.
- Etudier la contribution des variables en sommant les contributions des modalits
d'une variable pour un facteur donn.
- Etudier les coordonnes des modalits et des individus actifs.
- Etudier les coordonnes des variables, des modalits et des individus supplmentaires
s'il y en a.

5.4.

69

CONCLUSION

5.4 Conclusion
Pour conclure ce chapitre, commenons par rsumer l'ACM en dix tapes illustres
sur la gure 5.5 :
- 1 : Cette premire tape donne le tableau des donnes une fois que les variables
qualitatives sont codes de manire condense. Les lignes reprsentent les individus
et les colonnes les variables.
- 2 : Cette deuxime tape transforme le tableau de l'tape prcdente en tableau
disjonctif complet. Les lignes reprsentent toujours les individus, mais prsent les
colonnes reprsentent les modalits. Cette deuxime tape peut galement tre la
transformation du tableau de Burt. Dans ce cas, il y a symtrie entre les lignes et
les colonnes qui reprsentent une classe d'individus.
- 3 : A partir de cette tape nous appliquons l'AFC. Nous transformons le tableau
disjonctif complet en frquences.
- 4 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en multipliant par

I . Ces lignes sont appeles les prols-lignes.

- 5 : Nous considrons ici le tableau comme une juxtaposition de colonnes aprs

IJ
. Ces colonnes sont appeles prol-colonnes.
Ik
K
6 : Les prols-lignes qui constituent le nuage NI sont projets dans l'espace IR . Le
nuage NI se situe dans un hypercube HI .
I
7 : Les prols-colonnes qui constituent le nuage NK sont projets dans l'espace IR .
Le nuage NK se situe dans un hypercube HK .

transformation en multipliant par


-

- AF : Analyse Factorielle. Elle permet de mettre en vidence une suite de directions


orthogonales, d'tudier les projections en 8 et 9 en fonction de leurs proximits entre
elles et par rapport l'origine qui correspond un prol moyen.
- 8 : Cette tape consiste en la projection du nuage

NI

sur le premier plan factoriel.

Les distances correspondent des ressemblances entre les individus.


- 9 : Cette tape consiste en la projection du nuage

NK

sur le premier plan factoriel.

Les distances correspondent des ressemblances entre les modalits.


- Relations de transition : ces relations expriment les rsultats d'une AF en fonction
des rsultats de l'autre. Ce sont des relations barycentriques.
- 10 : Les relations de transition permettent des interprtations simultanes des axes.
Cette reprsentation simultane facilite l'interprtation. Attention toute association
entre un point-ligne et un point-colonne suggre par une proximit doit tre contrle sur le tableau.

L'ACM est donc une analyse factorielle qui permet l'tude de plusieurs variables qualitatives, de ce fait elle est une gnralisation de l'AFC. Elle est donc applicable aux
tableaux de variables qualitatives, mais aussi quantitatives aprs construction de classes
partir de celles-ci. Le fait de pouvoir interprter l'ACM de plusieurs faons rend cette
mthode trs riche et d'emploi facile. Elle peut tre trs complmentaire de l'ACP et bien
sr des mthodes de classication.

70

CHAPITRE 5.

ANALYSE DES CORRESPONDANCES MULTIPLES

Les mthodes de classication permettent de regrouper les individus en classes selon


leurs ressemblances. Deux types d'approches sont possibles soit nous considrons des
donnes sur lesquelles nous connaissons les direntes classes et nous tentons d'aecter
un nouvel individu dans une des classes connues, soit nous n'avons aucun

a priori

sur les

classes. Nous allons tudier ces deux types de classication dans les chapitres suivants.

5.4.

71

CONCLUSION

Fig. 5.5  Rsum de l'ACM.

72

CHAPITRE 5.

ANALYSE DES CORRESPONDANCES MULTIPLES

Chapitre 6
Analyse Factorielle Discriminante
6.1 Introduction
L'analyse factorielle discriminante est une des nombreuses mthodes de l'analyse discriminante. Sous ce nom sont regroupes des mthodes de classication qui ncessitent une
connaissance des classes prexistantes. Dans le domaine de la reconnaissance des formes
c'est ce qui est appel classication supervise ou encore apprentissage supervis. Parmi
ces mthodes peuvent tre compts la rgression logistique (mthode semi-paramtrique),
les

k-plus proches voisins, les arbres de dcisions (mthode non paramtrique qui favorise

le dialogue homme-machine) ou encore des mthodes issues de l'intelligence articielle


souvent considres comme des botes noires telles que le perceptron multicouche et les
autres rseaux de neurones, les chanes de Markov [Kun00] ou les machines vecteurs de
support [Vap99]. Un aspect important de la classication supervise est l'chantillonnage
des donnes pour raliser l'apprentissage. Direntes approches d'chantillonnage existent
telles que la technique de Jackknife, du bootstrap ou de la validation croise [LMP95],
[Sap90], nous ne les dtaillons pas ici.
La plupart des mthodes qui ne sont pas issues de l'intelligence articielle peuvent
tre dcrites par deux tapes :
- l'tape de

discrimination

qui cherche dterminer sur les donnes d'apprentissage

une fonction qui discrimine au mieux les donnes,


- l'tape de

classement

qui cherche aecter une nouvelle donne une classe,

l'aide de la fonction tablie dans l'tape prcdente.


La

rgression logistique

d'appartenance

une

consiste

classe

p(C=x)

exprimer
comme

les
une

probabilits
fonction

de

[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe,
dterminer les coecients

ln

a posteriori
l'observation

i.e.

qu'il faut

tels que :

p(C=x)
1 p(C=x)

= 0 +

d
X
i=1

i xi :

(6.1)

Il est donc ncessaire d'estimer les paramtres des lois de probabilit, en supposant connue
cette loi. Selon la loi retenue, il est possible de traiter des variables quantitatives, ou

73

74

CHAPITRE 6.

ANALYSE FACTORIELLE DISCRIMINANTE

binaires. La fonction de discrimination est ainsi dnie, pour le classement d'un nouvel
individu, la rgle baysienne peut tre applique.

classication baysienne est une autre approche probabiliste qui suppose connues les
probabilits a priori et les distributions des probabilits d'appartenance chaque classe.
La

Dans ce cas c'est une mthode optimale. En pratique, ces probabilits sont estimes
partir de donnes d'apprentissage. Nous prsentons brivement cette mthode trs utilise
en classication, comme mthode de classement de l'analyse factorielle discriminante la
section 6.2.2.
Les

arbres de dcision

sont des mthodes de discrimination, souvent employes pour

la segmentation. La reprsentation sous forme d'arbres permet une interprtation rapide

i.e. l'tape de discrimination) est eec-

et aise des rsultats. La construction de l'arbre (

tue sur les donnes d'apprentissage, puis l'tape de classement peut tre ralis pour de
nouveaux individus. L'ide de la construction est simple, et se dcompose comme suit :
- chercher la variable qui produit la meilleure division (par exemple celle qui donne
la variance intraclasse la plus faible),
- diviser en deux nuds intermdiaires, les individus selon cette variable,
- chercher les variables qui produisent les meilleurs divisions des nuds intermdiaires,
- poursuivre ainsi jusqu' n'obtenir que des nuds terminaux.
Cependant l'arbre optimal est dicile dterminer. En eet, il faut dnir un critre de
division, un critre d'arrt

i.e.

une rgle pour dclarer si le nud est terminal ou inter-

mdiaire. De plus la complexit est importante pour des arbres plus de deux branches

i.e.

des arbres qui ne sont pas binaires). En outre, elle est dicilement gnralisable

si les donnes d'apprentissage sont peu reprsentatif de la ralit. La mthode CART

Classication And Regression Tree ) qui est un cas particulier des arbres binaires possde

une construction d'arbres aux proprits intressantes pour la segmentation qui rsout en
partie ces problmes [BFRS93].
L'approche des

k plus proches voisins

repose sur l'ide simple d'attribuer un nouvel

individu la classe majoritaire parmi ses

plus proches voisins (individus de la base

d'apprentissage les plus proches au sens d'une certaine distance). C'est donc une approche gomtrique. Nous prsentons plus en dtails cette approche, comme mthode de
classement de l'analyse factorielle discriminante la section 6.2.2.
L'analyse factorielle discriminante est une mthode descriptive et prdictive fonde
sur un modle paramtrique. Elle est galement appele analyse linaire discriminante

Linear Analysis Discriminant

(LDA) en anglais). Nous conservons ici le nom d'analyse

factorielle discriminante, et nous utilisons l'abrviation AFD. En eet, cette mthode peut
tre vu comme une analyse factorielle, car son aspect descriptif fait appel des calculs
d'axes principaux. C'est une mthode avant tout prdictive qui discrimine les individus
selon des classes connues. Son aspect prdictif de classement de nouveaux individus peut
en fait faire appel d'autres mthodes de classication gomtriques ou probabilistes.
L'analyse factorielle discriminante peut galement tre vu comme une analyse canonique particulire ou encore comme une extension de la rgression multiple prsente par
exemple dans [LMP95].

6.1.

75

INTRODUCTION

Variables

Individus

......

......

y
1

1
.
.
.
.
.
.

.
.
.
.
.
.

......

.
.
.
.
.
.

xik

Fonctions

......

.
.
.
.
.
.

discriminantes

Q
Observations

Aectation

Tab. 6.1  Reprsentation des donnes pour l'AFD.

6.1.1 Les domaines d'application


L'AFD est une approche trs utilise, et fait prsent partie de tout bon logiciel de statistique ou d'apprentissage. Les domaines d'application sont trs nombreux pour rsoudre
des problmes tels que l'aide au diagnostic (par exemple en mdecine pour la prdiction
de maladies), pour la prdiction de risques (par exemple en mtorologie pour prdire un
risque d'avalanche ou en nance pour prdire un comportement boursier), pour le contrle
de qualit (par exemple prvision de qualit d'un produit agro-alimentaire par des mesures) ou encore pour la reconnaissance des formes (par exemple en traitement d'images).
C'est une mthode importante dans le mtier d'ingnieurs puisque l'aspect essentiel de
l'AFD (et des mthodes de l'analyse discriminante en gnral) est l'aide la dcision. Son
intrt vient galement du fait qu'elle fournit des rsultats
des donnes d'apprentissage et

stables, i.e.

peu dpendants

robuste, i.e. peu dpendants des hypothses. Elle est ainsi

considre comme une approche de rfrence laquelle sont souvent compares les autres
mthodes.

6.1.2 Les donnes


Nous disposons de

individus ou observations dcrits par

variables et rpartis en

Q classes donnes par la variable nominale y (cf. tableau 6.1). Les Q classes sont a priori
connues. La variable nominale y possde donc Q modalits. I reprsente la fois le nombre
d'individus et l'ensemble des individus I = f1;    ; I g, K reprsente la fois le nombre de
variables et l'ensemble des variables K = f1;    ; K g, et Q reprsente la fois le nombre
de modalits de la variable y et l'ensemble Q = f1;    ; Qg. xik est la valeur de la variable
k pour l'individu i.

76

CHAPITRE 6.

ANALYSE FACTORIELLE DISCRIMINANTE

6.1.3 Les objectifs


A partir du tableau 6.1, nous constatons que deux objectifs se dessinent :
- Le premier objectif consiste dterminer les fonctions linaires discriminantes sur

i.e. la combinaison linaire des K variables explicatives


au mieux les Q classes. Il s'agit donc d'une tape de

l'chantillon d'apprentissage,
dont les valeurs sparent

discrimination

des classes.

- Le second objectif consiste dterminer la classe de nouveaux individus pour lesquels nous observons les valeurs des

variables explicatives. Cette tape est une

aectation d'un nouvel individu dans une classe. Il s'agit d'un problme de
classement par opposition au problme de classication qui est la construction de
tape d'

classes les plus homognes possibles dans un chantillon.

Exemple 6.1.1

Supposons un service dans un hpital qui comprend 500 patients. Dans

ce service sont rencontres essentiellement cinq pathologies. Il est ais de raliser une vingtaine d'examens et des analyses peu coteuses. Cependant pour dterminer une des cinq
pathologies il est ncessaire d'entreprendre des interventions trs coteuses. Les donnes
sont ainsi constitues de 500 individus et 20 variables, de plus la variable nominale

y est

compose de cinq modalits. L'tape de discrimination tente de rpondre des questions


du type : est-il possible de prvoir avec les vingt examens et analyses, les pathologies des
500 patients sans avoir recours des interventions plus coteuses ? Alors que l'aectation
tente de rpondre des questions du type : Est-il possible de prdire la pathologie d'un
nouveau patient en n'eectuant que les examens et analyses peu coteux ?
En fait derrire ces deux questions il en existe une autre d'ordre plus gnral laquelle tente de rpondre l'analyse factorielle discriminante : Est-ce qu'un grand nombre
de donnes d'accs facile peut contenir une information dcrite par une appartenance
une classe, plus dlicate dterminer ?

6.2 Principe de l'AFD


6.2.1 La discrimination
L'ide du principe de la discrimination repose sur le fait que la discrimination visuelle
est plus aise si :
- les centres de gravit de chaque sous-nuage appartenant une seule classe sont
loigns,
- chaque sous-nuage appartenant une seule classe sont les plus homognes possibles
autour de ces centres de gravit.
Pour ce faire il faut maximiser les variances interclasses (entre les classes) et minimiser
les variances intraclasses ( l'intrieur des classes). Nous parlons galement de variances
externes et internes.
La gure 6.1 reprsente un nuage

l'espace IR

. Notons

NI

des individus partitionns en trois classes dans

Iq le nombre d'individus dans la classe q et l'ensemble des individus

6.2.

77

PRINCIPE DE L'AFD

de la classe
dans IR

q, Iq = fA;    ; Iq g. G reprsente le centre de gravit du nuage des individus

, et

gq le centre de gravit de la partition des individus appartenant la classe

q. Le centre de gravit de la classe q est donn par le vecteur :

Fig. 6.1  Reprsentation du nuage

NI

des individus partitionns dans l'espace IR

X
gq = I1 xi:
q i2I
q

(6.2)

La matrice de covariance interclasse est dnie par :

X
B = I1 Iq (gq G)(gq G)t;
q2Q

(6.3)

et la matrice de covariance intraclasse qui est la somme pondre des covariances interclasses est donne par :

XX
(xi gq )(xi gq )t:
W = I1
q2Q i2Iq

(6.4)

Proposition 6.2.1 Formule de dcomposition de Huygens

L'inertie totale du nuage NI est gale la somme de l'inertie interclasse et de l'inertie


intraclasse.
Cette proposition s'nonce galement par le fait que la covariance totale du nuage est la
somme de la covariance interclasse et de la covariance intraclasse :

V = B + W:

(6.5)

La gure 6.2 illustre cette proposition. Le mme nuage est reprsent deux fois en reliant
les points pour le calcul de la covariance totale gauche et de la somme des covariances
interclasse et intraclasse droite.

78

CHAPITRE 6.

ANALYSE FACTORIELLE DISCRIMINANTE

Fig. 6.2  Illustration de la formule de Huygens.

Preuve

La matrice de covariance totale est donne par :

vkk0 =

1 X(x

I i2I

Gk )(xik0

ik

1 X X(x

Gk 0 ) =

I q2Q i2Iq

ik

Gk )(xik0

Gk = xik :
I

Gk0 );

(6.6)

(6.7)

Or

(xik

Gk ) = (xik

gqk ) + (gqk

Gk );

(6.8)

nous remarquons ainsi que

X
i2Iq

(xik

gqk )(gqk0

Gk 0 ) =

X
i2Iq

(gqk

Gk )(xik0

gqk0 ) = 0:

(6.9)

Donc uniquement deux des quatre termes de la partie droite de l'quation (6.6) sont non
nuls et nous pouvons crire :

vkk0 = bkk0 + wkk0 ;


avec

bkk0 =
et

wkk0 =

1 X I (g

I q2Q

qk

1 X X(x

I q2Q i2Iq

ce qui dmontre la proposition.

ik

Gk )(gqk0

gqk )(xik0

(6.10)

Gk0 );

gqk0 );

(6.11)

(6.12)

6.2.

79

PRINCIPE DE L'AFD

Fonctions linaires discriminantes


L'AFD consiste trouver les combinaisons linaires dnissant de nouveaux axes tels
que les projections des

Q centres de gravit sur ces axes doivent tre les plus loignes, tan-

dis que les projections de chaque sous-nuage sur ces axes doivent tre les plus regroupes
autour des projections des centres de gravit.
La marche suivre est identique celle d'une analyse factorielle. La premire combinaison linaire est donc celle qui maximise la variance interclasse et minimise la variance
intraclasse. Puis, la deuxime combinaison linaire est celle qui est non corrle la premire et qui discrimine au mieux les classes au sens du mme critre (maximisation de la
variance interclasse et minimisation de la variance intraclasse). Les autres combinaisons
linaires sont dtermines de la mme faon. Ces combinaisons linaires sont appeles

fonctions linaires discriminantes .


Une combinaison linaire
individu

i est donne par :

a est un vecteur dans l'espace IRK . La valeur de a pour un


a(i) =

X
k2K

ak (xik

gqk ):

a est dnie par :


"
X
X X
1
1
2
ak (xik
var(a) = I a (i) = I

La variance de la variable

i2I

i2I

k2K

ou encore

XX X
ak ak0 (xik
var(a) = I1

La variance de

i2I k2K k0 2K
t
est donc

gqk )(xik0

a Va.

gqk0 ) =

(6.13)

#2

gqk ) ;
XX
k2K k0 2K

(6.14)

ak ak0 vkk0 :

(6.15)

D'aprs l'quation (6.5), nous avons :

atVa = atBa + atWa:


(6.16)
Le problme de l'AFD revient donc trouver a tel que l'inertie des sous-nuages des
t
individus Iq projets sur a soit maximale (inertie interclasse a Ba) et chaque sous-nuage
t
t
soit group donc l'inertie intraclasse a Wa soit minimale. Chercher a tel que a Ba soit
t
maximale et a Wa soit minimale est quivalant chercher le maximum de la fonction :
atBa
(6.17)
f (a) = t :
a Va
t
Il est encore quivalent de chercher le maximum de la forme quadratique a Ba sous la
t
contrainte quadratique a Va = 1. Par la mthode du Lagrangien, nous pouvons montrer
alors que :

Ba = Va;

V est inversible, nous obtenons :


V 1Ba = a:
1
Ainsi a est le vecteur propre de V B associ la plus grande valeur propre .

(6.18)

et lorsque la matrice

(6.19)

80

CHAPITRE 6.

Remarque

ANALYSE FACTORIELLE DISCRIMINANTE

V1B qui n'est pas a priori symtrique. Posons :


B = Ct C;
(6.20)

Il faut donc diagonaliser

avec :

ckq =
Et posons :

Iq
(g
I qk

Gk ):

(6.21)

a = V 1Cv:

(6.22)

L'quation (6.18) s'crit alors :

CCtV 1Cv = Cv:


(6.23)
t
1
Il sut alors de diagonaliser la matrice symtrique C V C d'ordre Q puis de dduire a
l'aide de v.
En rgle gnrale, il y a Q
1 valeurs propres donc Q 1 axes discriminants. C'est le
cas si

I > K > Q et si les variables ne sont pas lies linairement.

Cas de deux classes


Lorsqu'il n'y a que deux classes (

i.e. Q = 2), nous sommes dans le cas d'un problme

non sans importance de dtection (et non plus de classication). Dans ce cas, il n'y a donc
qu'un seul axe factoriel discriminant
gravit des deux classes

o le vecteur

(6.24)

c de l'espace IRK est dni par :


ck =

Nous avons donc :

ou encore :

a, dtermin par la droite passant par les centres de

g1 et g2 . Ainsi nous pouvons crire :


B = cct;
r

I1 I2
(g
I 1

g2):

(6.25)

V 1ccta = a;

(6.26)

ctV 1ccta = cta:

(6.27)

Donc l'unique valeur propre est donne par :

 = ct V

c;

(6.28)

et l'unique fonction discriminante par :

a = V 1 c:

(6.29)

 est appele distance gnralise entre les deux classes ou encore distance de Mahalanobis .
Dans ce cas de deux classes, l'AFD est quivalente la rgression multiple [LMP95].
L'AFD peut aussi tre vue comme une ACP des centres de gravit
avec une pondration pour ces individus donne par la mtrique

gq de chaque classe

6.2.

81

PRINCIPE DE L'AFD

La reprsentation
Comme les autres mthodes factorielles, il est possible de reprsenter les individus dans
les plans factorielles discriminants. Il est aussi possible comme pour l'ACP de reprsenter
les variables en traant le cercle de corrlation des

variables.

An de mesurer la qualit de la reprsentation, les mmes indicateurs que l'ACP


peuvent tre employs. Par exemple la qualit de reprsentation d'un nuage par un axe

as est donne par le rapport :

s
:
s

(6.30)

s2S

gq l'axe as est dnie par :

La contribution absolue du centre de gravit

Iq
I

atsV 1gq

2

et la contribution relative du centre de gravit

Iq 1
I s

(6.31)

gq l'axe as est dnie par :

atsV 1gq

2

(6.32)

Dans une optique de classication, la qualit de la discrimination peut tre dnie par
le rapport du nombre d'individus bien classs par le nombre total d'individus. Ce critre
reste classique.

6.2.2 L'aectation
Lorsque les fonctions discriminantes ont t dtermines, nous souhaitons trouver la
classe d'aectation d'un nouvel individu. Il existe plusieurs rgles d'aectation (ou de
classement) d'un nouvel individu

i0

dans une classe

q.

Nous en prsentons ici quelques

unes gomtriques et probabilistes.

Distances aux centres de gravit


Une ide simple consiste aecter un individu la classe dont le centre de gravit est
le plus prs. Nous devons donc dnir la distance entre le point individu
vecteur

i0

dcrit par le

xi0 et le centre de gravit gq du sous-nuage Iq . Rappelons ici quelques distances

qui peuvent tre envisages.


 Distance euclidienne

La distance euclidienne usuelle dans IR

d2e (xi0 ; gq ) =

X
k2K

(xi0k

gqk )2 :

(6.33)

82

CHAPITRE 6.

ANALYSE FACTORIELLE DISCRIMINANTE

Exprimons cette distance dans le nouvel espace. Notons :

zr = utr (xi0

G) ;

(6.34)

G est le centre de gravit du nuage NI dni par le vecteur (Gk )k=1;::;K , r dsigne
ime
l'axe principal issu de l'analyse, et ur est le r
vecteur propre normalis de la
matrice des covariances totales V, dnie prcdemment, correspondant la valeur
o

propre

r . La distance euclidienne s'crit alors :


d2eV (xi0 ; gq ) =

rX
max
r=1

(zr zqr )2;

(6.35)

G), rmax est le nombre de valeurs propres retenues, qui peut tre
ici le rang de la matrice X des donnes initiales.
0
La distance du nouvel individu i dcrit par le vecteur xi0 au centre de gravit gq
1
du sous-ensemble des individus Iq dans la mtrique V
(i.e. sous la condition :
t
u Vu = 1) est :
o

zqr = ut (gq

deV
2

(xi0 ; gq ) =

rX
max
r=1

(zr zqr )2 :
r

(6.36)

 Distance de Mahalanobis globale

X par X^ de terme gnral x^ik = xik gqk , nous


^r les valeurs propres de
diagonalisons alors la matrice W au lieu de V. Notons 
W et z^q les coordonnes de l'individu i0 sur les nouveaux axes principaux u^r . La
1
distance de xi0 au centre de gravit gq dans la mtrique W
s'crit :
rX
max
(^zr z^qr )2 :
2
dMg (xi0 ; gq ) =
(6.37)
^ r
r=1
Si nous remplaons les donnes

 Distance de Mahalanobis locale


La distance de Mahalanobis locale est la distance de l'individu

i0 au centre de gravit

gq dans la mtrique Wq , o Wq est la matrice des covariances internes de la classe


t (x 0 g ), o g est le centre de gravit du sous-nuage d'individus
Iq . Notons wsq = vsq
i
q
q
Iq dcrit par le vecteur (gqk )k=1;::;K , et wsq est le sime vecteur propre normalis de
Uq Wq U qui correspond la valeur propre sq . La distance s'crit alors :
1

dMl (xi0 ; gq ) =
2

t (g
wqs = vqs
q

smax
X(q)
s=1

(wsq wqs)2 ;
sq

(6.38)

G), et smax(q) est le nombre de valeurs propres retenues dans le

sous-nuage d'individus

Iq .

6.2.

83

PRINCIPE DE L'AFD

 Distance du

2

La distance du

2 est dtermine par :


d2 (xi0 ; gq ) =
2

sxk =

donc :

X
i2I

xik , sxi0

X
k2K

xi0 k

et

s
k2K xk
sgq

d2 (xi0 ; gq ) =
2

rX
max
r=1

k2K

xi0 k
sxi0

2

(6.39)

gqk . Dans le nouvel espace, nous avons

gqk
sgq

szr

zqr
szq

zr
sz

2

(6.40)

Cependant cette distance s'applique habituellement aux tableaux de contingence


comme nous l'avons vu pour l'AFC et l'ACM, elle convient donc peu l'AFC en
gnral.
 Distance de Minkowsky
Elle dpend d'un paramtre

dM (x

 positif :

g )=

i0 ; q

X
k2K

xi 0 k

!1

gqk j

(6.41)

Dans le nouvel espace, nous avons :

dM (xi0 ; gq ) =

rX
max
r=1

jzr zqr j

!1

(6.42)

 = 1, nous avons la distance des valeurs absolues aussi nomme distance de


Manhattan, du nom du quartier new-yorkais,  = 2, nous retrouvons la distance
euclidienne. Lorsque  ! +1, nous obtenons la distance de Tchebychev :
Si

dT (xi0 ; gq ) = max
jzr
r

zqr j:

(6.43)

D'autres distances sont envisageables. Cependant, pour l'AFC il est gnralement


retenu la distance de Mahalanobis globale (mtrique

) ou locale (mtrique

Wq 1, o

Wq est la matrice des covariances internes au sous-nuage Iq ). Cette dernire permettant


de rduire les erreurs d'aectation lorsque les dispersions des classes sont trs direntes.
Une autre approche gomtrique est possible, non plus en considrant les centres de
gravit, mais les individus proches du nouvel individu.

Rgle des k plus proches voisins


Cette mthode d'aectation peut tre employe directement pour la classication dans
l'espace initial. Elle est trs utilise en reconnaissance des formes.

84

CHAPITRE 6.

ANALYSE FACTORIELLE DISCRIMINANTE

Le principe est simple, nous aectons le nouvel individu

i0

au sous-nuage d'individus

Iq le plus reprsent dans son voisinage. Le voisinage est tendu jusqu' ce qu'il contienne
k individus. Ainsi notons :
Kq (i0 ) = card fi 2 I

tel que

i 2 Iq ; i 2 Vk (i0 )g ;

(6.44)

Vk (i0 ) dsigne le voisinage de l'individu i0 form par k individus. Cet ensemble peut se
formaliser pour k = 1 par :
o

V1 (i0 ) = fi 2 I tel que d(i0 ; i)  d(i0 ; i00 ) 8i00 2 I; i00 6= ig ;


par rcurrence, nous obtenons pour un

Vk (i0 ) = Vk (i0 ) [ fi 2 I r Vk

(6.45)

k quelconque :

1 tel que

d(i0 ; i)  d(i0 ; i00 ) 8i00 2 I r Vk 1 ; i00 6= ig :

(6.46)

Nous voyons que la aussi la dnition d'une distance adquate est importante. Il est
possible d'employer une des distance prcdemment prsentes.
La dcision est alors prise en cherchant le maximum de
aect la classe

argmax Kq (i0)).
q2Q

Kq (i0 ) (i.e. que l'individu i0 est

D'autres rgles de dcisions sont envisageables issues

des mthodes de votes [Mar04].


Il existe une variante intressante de cette approche la classication par

k plus proches

voisins ous.
Cette approche trs coteuse donne de bons rsultats. C'est pourquoi elle sert souvent
de mthode de comparaison en reconnaissance des formes avec d'autres approches moins
coteuses.
Ce type d'aectation ne prend cependant pas en compte les probabilits

a priori

de

chaque classe.

Approche baysienne
Cette approche probabiliste simple consiste aecter l'individu
dividus

Iq

pour lequel la probabilit

i0 au sous-nuage d'in-

P (Iq =i0 ) est maximale. Or d'aprs la rgle de Bayes,

nous avons :

P (Iq =i0 ) =

P (i0 =Iq )P (Iq )


:
P (i0 =Iq0 )P (Iq0 )

(6.47)

q0 2Q
Il sut alors de maximiser
connatre les probabilits

P (i0 =Iq )P (Iq ). Cependant pour estimer cette probabilit il faut


a priori P (Iq ), ce qui n'est pas toujours le cas. Elles peuvent

tre estimes, mais il faut alors tre sr de la capacit de gnralisation des donnes
d'apprentissage. Il faut de plus estimer la probabilit

P (i0 =Iq ) qui ncessite :

- soit une estimation partir des frquences et dans ce cas il faut encore tre sr de
la capacit de gnralisation des donnes d'apprentissage,

6.3.

85

CONCLUSION

- soit faire l'hypothse de la distribution. La distribution gaussienne qui peut tre


justie par la loi forte des grands nombres est souvent employe. De plus elle ne
ncessite que l'estimation de deux paramtres (la moyenne et la variance).
Dans ce dernier cas, lorsque les distributions gaussiennes d'appartenance chaque
sous-nuage sont de mme matrice de covariance intraclasse et s'il y a quiprobabilit des
classes (les probabilits

a priori P (Iq )

sont identiques), alors l'approche baysienne est

quivalente aecter la classe du plus proche voisin en utilisant la distance de Mahalanobis

cf. [LMP95] pour plus de dtails).

locale (

Il existe d'autres mthodes d'aectation, car en fait toute mthode de classication


peut tre employe pour cette tape de classement. Bien souvent, les approches les plus
simples donnent de meilleurs rsultats, au dpend d'un cot plus important.

6.3 Conclusion
L'AFD est une mthode trs utilise de nos jours. Sa simplicit de mise en uvre fait
que nous la retrouvons dans de nombreux logiciels. Elle est adquate pour la reprsentation
des donnes dans des espaces qui discriminent au mieux les individus selon des classes
connues. Cette reprsentation permet de dgager des informations partir d'un grand
nombre de donnes souvent dicile interprter. Elle permet galement l'aectation de
nouveaux individus dans les classes existantes. Il est alors possible de rendre la mthode
adaptative pour tenir compte de ces nouvelles observations.
Il peut s'avrer trs enrichissant de l'employer en complment d'une autre analyse
factorielle telles que l'ACP ou l'ACM.

86

CHAPITRE 6.

ANALYSE FACTORIELLE DISCRIMINANTE

Chapitre 7
Classication
7.1 Introduction
La classication sans

a priori

est depuis longtemps une problmatique importante

issue surtout de l'tude des phnomnes naturelles et de la biologie en particulier. Toutes


les mthodes ainsi dveloppes appartiennent une science la

taxonomie littralement la

science des lois de l'ordre [Ben80a]. Les mthodes de classication font parties intgrante
de l'analyse de donnes. Dans le domaine de la reconnaissance des formes elle porte le

clustering, les
classes tant des clusters. Le terme anglais classication dsigne davantage classement i.e.

nom de classication non-supervise. Le terme anglais pour classication est

le fait d'aecter des objets des classes prdnies, voire analyse de donnes en gnral.

7.1.1 Les objectifs


La classication a pour principal objectif de rassembler les lments (individus ou variables) qui se ressemblent et/ou de sparer ceux qui dirent. C'est--dire qu'il s'agit de
crer des classes homognes les plus loignes les unes des autres. Si cet objectif est facilement comprhensible, il n'en est pas moins compliqu atteindre. Nous sous-entendons
lorsque nous cherchons classer des lments, qu'il existe des regroupements, soit en
nombre inconnu soit en nombre suppos.
Si nous cherchons souvent regrouper des lments entre eux, c'est an de mieux
interprter une grand quantit de donnes.
Les objectifs de la classication sont donc de regrouper les individus dcrits par un ensemble de variables, ou regrouper les variables observes sur des individus et d'interprter
ces regroupements par une synthse des rsultats. L'intrt de regrouper les individus est
ici de les classer en conservant leur caractre multidimensionnel, et non pas seulement
partir d'une seule variable. Si les variables sont nombreuses il peut tre intressant de les
regrouper an de rduire leur nombre pour une interprtation plus facile.
Les mthodes de classication sont donc complmentaires des analyses factorielles
dcrites dans les chapitres prcdents.

87

88

CHAPITRE 7.

Variables

Individus

......

1
.
.
.
.
.
.

......

CLASSIFICATION

.
.
.
.
.
.

......

.
.
.
.
.
.

xik

......

.
.
.
.
.
.

Tab. 7.1  Reprsentation des donnes pour la classication.

7.1.2 Les donnes


Les donnes de dpart sont souvent organises comme une matrice

dcrite par le

k pour l'individu i, I reprsente la fois


I = f1; :::; I g, et K reprsente la fois le nombre de
variables et l'ensemble K = f1; :::; K g.

tableau 7.1, o

xik

est la valeur de la variable

le nombre d'individus et l'ensemble

Les variables peuvent tre quantitatives continues ou issues de tableaux de contingences, ou binaires issues de tableaux logiques, ou encore qualitatives. An de traiter
l'ensemble de ces types de variables, c'est la mesure de similarit ou dissimilarit qui doit
tre adapte aux types de donnes. En eet, nous nous doutons qu'il est important de
dnir une mesure de similarit pour regrouper des lments ou de dissimilarit pour les
loigner. Une mesure de similarit ou de dissimilarit est une distance l'exception que
l'ingalit triangulaire n'est pas exige. Ces mesures peuvent tre des distances dans le cas
de variables quantitatives. Ainsi, il est prfrable d'employer une distance euclidienne, de
Mahalanobis ou de Minkowsky pour les variables quantitatives continues et une distance
du

2

pour des tableaux de contingences, distances que nous avons dj prsentes la

section 6.2.2 du chapitre prcdent.


Dans le cas de tableaux binaires, un grand nombre de mesures de similarits entre deux
lments ont t dnies partir des quatre quantits. Par exemple pour deux individus

x1 et x2 elles sont donnes par :


- soit a le nombre de fois o x1k = x2k = 1,
- soit b le nombre de fois o x1k = 0 et x2k = 1,
- soit c le nombre de fois o x1k = 1 et x2k = 0,
- soit d le nombre de fois o x1k = x2k = 0.

Les similarits suivantes ont t proposes par dirents auteurs :


-

a
par Jaccard,
a+b+c
a
par Russel et Rao,
a+b+c+d
2a par Dice,
2a + b + c

7.1.

INTRODUCTION

89

a
par Sokal et Sneath,
a + 2(b + c)
a+d
par Sokal et Michener,
a+b+c+d
a
a
+
par Kulzinsky,
a+b a+c
a+d
par Rogers et Tanimoto,
a + d + 2(b + c)
ad bc
par Yule,
ad + bc
jad bcj
[(a + b)(c + d)(a + c)(b + d)]2 par Pearson,
a
[(a + b)(c + d)(a + c)(b + d)]2 par Ochia.

Dans le cas des variables qualitatives, il sut de considrer le tableau de contingence


associ. En eet, si elles n'ont pas le mme nombre de modalits, il est trs dicile de
dnir une distance.
Si le tableau est compos de donnes mixtes, il sut de rendre les variables quantitatives en variables qualitatives en choisissant quelques modalits de la mme faon que
dcrite la section 5.2.4.

7.1.3 Les mthodes


Il existe un grand nombre de mthodes et surtout beaucoup de variantes. Il est possible
de les direntier grossirement soit par leur structure de classication, soit par le type de
reprsentation des classes. Ainsi, nous pouvons distinguer quatre types de reprsentation
[Bro03] :
- Les partitions sont une notion la plus naturelle, chaque individu est aect une
classe et une seule.
- Les hirarchies sont un ensemble de partitions embotes. Ainsi une classe se divise
en sous-classes.
- Les arbres additifs sont une autre vision des hirarchies ; une structure dont les
nuds terminaux sont les individus classs et les nuds intrieurs les classes. Une
extension des arbres additifs est la notion d'arbre au sens de la thorie de graphes.
- Les pyramides sont une gnralisation des hirarchies car elles permettent des empitements entre les classes.
Les mthodes de classication cherchent transformer le tableau de donnes en un
autre tableau ayant de bonnes proprits. C'est donc un problme d'optimisation. Cependant ces tableaux se trouvent dans des espaces discrets, ces transformations ne peuvent
tre dcrites par des fonctions issues de calculs formaliss usuels, et il n'y a pas de solutions mathmatiques exactes. C'est donc dans le cadre des mathmatiques discrtes, que
des solutions approximatives sont proposes dans une dmarche algorithmique.

90

CHAPITRE 7.

CLASSIFICATION

Nous nous contentons ici de prsenter deux mthodes, deux algorithmes, les plus utiliss et qui se retrouvent dans la plupart des logiciels de statistiques. Nous prsentons une
mthode conduisant des partitions, la mthode des centres mobiles la section 7.2, puis
une mthode conduisant des hirarchies, la classication hirarchique la section 7.3.

7.2 Mthode des centres mobiles


Cette mthode peut tre vu comme un cas particulier de l'approche des nues dyna-

miques dveloppe par E. Diday [CDG 89]. Cette mthode d'un formalisme trs simple
n'en est pas moins trs ecace pour de vastes tableaux de donnes. Elle est de plus rapide,
mais cependant pas toujours optimale.
La mthode des centres mobiles est fonde sur une mthode de partitionnement directe
des individus connaissant par avance le nombre de classes attendues.

7.2.1 Principe de l'algorithme


Nous supposons dsirer partitionner le nuage des individus
d'une distance approprie que nous notons par

d.

NI

dans l'espace IR

Cette distance

muni

doit tre choisie en

cf. section 7.1.2). En pratique, il s'agit souvent de la distance eucli2 qui est implmente. Supposons de plus, que nous souhaitons partitionner
NI en Q classes avec Q  I .
- tape 0 : Nous choisissons Q individus dans le nuage NI qui constituent Q centres
provisoires des Q classes. Le choix de ces centres est important pour la rapidit de
la convergence, et les connaissances a priori doivent ici tre mises prot, s'il y en

fonction des donnes (


dienne ou du

a. Dans le cas contraire, le plus courant, il sut de tirer alatoirement ces centres
par un tirage sans remise. Notons par


 0
0
0
;
:::;
C
;
:::;
C
C
q
1
Q
 0

0
0

I1 ; :::; Iq ; :::; IQ
0
en Q classes. Un individu i appartient au sous-nuage Iq

fournissent une premire partition

ces centres. Ces centres

NI des individus
0
s'il est plus proche de Cq
du nuage

que de tous les autres centres. Dans un espace deux dimensions, les sous-nuages
sont dlimits deux deux par des droites mdiatrices des centres des sous-nuages,
c'est ce qui est applel
intervient.
- tape 1 :

diagramme de Vorono.

C11 ; :::; Cq1 ; :::; CQ1 sont dtermins en prenant les


0
0
sous-nuages Iq obtenus par la partition P . La distance d

nouveaux centres

centres de gravit des

Bien sr ce niveau, la distance

intervient de nouveau ici. Ces nouveaux centres induisent une nouvelle partition

P 1 = I11 ; :::; Iq1 ; :::; IQ1 , suivantle mme critre prcdent.



m
m
m sont dtermins en prenant les
tape m : Q nouveaux centres C1 ; :::; Cq ; :::; CQ
m 1 obtenus par la partition P m 1 . Ces nouveaux
centres de gravit des sous-nuages Iq


m = I m ; :::; I m ; :::; I m , suivant le mme
centres induisent une nouvelle partition P
1
q
Q
critre prcdent.

La convergence de l'algorithme est garantie [LMP95]. Le critre d'arrt est celui de deux
partitions identiques. D'autres critres permettent d'augmenter la rapidit. Par exemple,

7.3.

91

LA CLASSIFICATION HIRARCHIQUE

nous pouvons cesser les itrations lorsque la variance intraclasse de toutes les classes est
susamment faible, ou encore lorsqu'un nombre d'itrations dni
Cette algorithme est illustr sur la gure 7.1 dans le cas o

a priori est atteint.


Q = 2. Deux gures

Fig. 7.1  Illustration de l'algorithme des centres mobiles.


prsentent l'tape 0 : le tirage alatoire des centres provisoires
de la premire partition

C10 et C20 et la construction

P 0 = fI10 ; I20 g en aectant chaque individu au sous-nuage dont le

centre obtenu est le plus proche. L'tape 1 prsente les nouveaux centres et les sous-nuages
dont ils sont les centres de gravit. De nouveau, l'tape 2 fournit les centres de gravit
des nouveaux sous-nuages

I12 et I22 .

De nombreux algorithmes sont fonds sur un principe similaire. Les deux principaux
sont les nues dynamiques et les

k-means ou k-moyennes. La dirence pour la mthode

des nues dynamiques se situe au niveau de la raectation des individus chaque classe.
Aprs avoir dtermin les centres de gravit, un

noyau est dtermin pour chaque classe

comme tant l'individu le plus proche du centre de gravit de chaque classe. La raectation se fait alors en fonction de la distance des autres individus aux noyaux de chaque
classe. Ce formalisme a permis plusieurs gnralisations de la mthode.
La mthode des

k-means aprs avoir choisi une premire fois les centres mobiles, recal-

cule le centre de chaque classe ds lors qu'un individu y est aect. La position du centre
est donc modie chaque aectation, ce qui permet d'avoir une bonne partition en peu
d'itrations. D'autres algorithmes sont prsents par exemple dans [Ben80a].

7.3 La classication hirarchique


Il existe principalement deux familles d'algorithmes de classication hirarchique :

92

CHAPITRE 7.

CLASSIFICATION

- les algorithmes ascendants : la construction des classes se fait par des agglomrations
successives des lments deux deux,
- les algorithmes descendants : la construction des classes se fait par dichotomies
successives de l'ensemble des lments.
Ces deux approches conduisent une hirarchie des partitions des lments. La seconde approche est beaucoup moins employe que la premire, nous prsentons donc ici
la premire approche.

7.3.1 Principe de la classication hirarchique ascendante


Le principe repose donc sur la cration chaque tape d'une partition obtenue en agrgeant deux deux les lments (individus ou plus rarement variables) les plus proches. Les
direntes faons de crer un nouveau couple constituent autant de dirents algorithmes
de classication hirarchique ascendante.

Mthodes d'agrgation
Supposons que le nuage initial, par exemple
(ou d'une mesure de similarit ou dissimilarit)

NI , classer est muni d'une distance


d. La faon de regrouper des individus

ou des groupes d'individus repose sur des rgles de calcul des distances entre ces classes
(individus ou groupes d'individus) disjointes, appeles
Soit

x, y

et

trois classes. Si les classes

x et y

critre d'agrgation.

sont regroupes en une seule classe

h,

plusieurs critres d'agrgation sont possibles :


- distance du

saut minimal

d(h; z ) = minfd(x; z ); d(y; z )g;


- distance du

saut maximal

(7.1)

d(h; z ) = maxfd(x; z ); d(y; z )g;


- distance

moyenne

d(h; z ) =
- distance

(7.2)

d(x; z ) + d(y; z )

moyenne gnralise, en notant nx

d(h; z ) =

et

ny

(7.3)

le nombre d'individus de

nx d(x; z ) + ny d(y; z )
:
nx + ny

x et y :
(7.4)

Ces mthodes d'agrgation ont l'avantage de conduire des calculs simples et possdent des proprits mathmatiques intressantes. Cependant, les rsultats ne sont pas
toujours bons. En particulier, la distance du saut minimal peut entraner des

chane,

eets de

illustrs sur la gure 7.2. Sur le nuage de points reprsent sur cette gure, les

groupes A et B ne sont pas facilement discernables par la distance du saut minimal. Il

7.3.

93

LA CLASSIFICATION HIRARCHIQUE

Fig. 7.2  Illustration de l'eet de chane.


est dicile de dterminer au niveau de la chane quels points appartiennent A et quels
points appartiennent B. Le critre de la distance moyenne donne de meilleurs rsultats,
mais comme nous le voyons sur la gure (les classes ont alors des formes de cercles), elle a
tendance considrer A et B comme deux classes, alors qu'il s'agit d'un seul sous-nuage.
Pour remdier ce problme, des critres d'agrgation selon la variance sont lis des
calculs d'inertie. Cette mthode est particulirement facile mettre en uvre aprs une
analyse factorielle, les lments tant donns par leurs coordonnes sur les premiers axes
factoriels.

Agrgation selon l'inertie

Cette mthode porte galement le nom de la mthode

de Ward. La solution au problme voqu ci-dessus est donc de considrer les lments prenons les individus - comme un nuage de points

NI dans IRK . L'ide est ensuite d'agrger

les individus en minimisant l'inertie (ou la variance) intraclasse et en maximisant l'inertie


interclasse.
Le principe repose sur la formule de dcomposition de Huygens prsente par la proposiiton 6.2.1 la section 6.2. Ainsi l'inertie totale du nuage

NI

est gale la somme de

l'inertie interclasse et de l'inertie intraclasse :

I = Iintra + Iinter :

(7.5)

Reprenons la gure 7.3 illustrant cette proposition. Le mme nuage est reprsent deux
fois en reliant les points pour le calcul de l'inertie totale gauche et de la somme des
inerties interclasse et intraclasse droite. Considrons que chaque individu

Fig. 7.3  Illustration de la formule de Huygens.

est muni

94

CHAPITRE 7.

d'une masse

CLASSIFICATION

mi et chaque classe q est munie d'une masse mq . Avec les notations de la

gure 7.3, la formule de dcomposition de Huygens s'crit :

I=
o

X
q2Q

mq d2(gq ; G) +

XX
q2Q i2Iq

d reprsente la distance choisie initialement, gq

NIq

et

mid2(xi; gq );

(7.6)

est le centre de gravit du sous-nuage

G le centre de gravit du nuage des individus NI .

Ainsi la qualit globale d'une partition est lie l'homognit interne des sous-nuages
et donc galement l'loignement des sous-nuages. Par exemple, la gure 7.4 illustre deux
partitions en deux sous-nuages, celui de gauche avec une inertie intraclasse faible, celui
de droite avec une inertie intraclasse leve.

Fig. 7.4  Illustration d'une inertie intraclasse faible et leve.


Ainsi pour une agrgation, nous cherchons faire varier le moins possible l'inertie
intraclasse, ce qui est quivalent rendre minimale la perte d'inertie interclasse rsultant

Ps s classes (ou sous-nuages), en associant


deux classes a et b Ps , nous obtenons une partition ps 1 s
1 classes (cf. gure 7.5).
L'lment c obtenu par l'agrgation de a et b a pour masse mc = ma + mb , et il peut
de cette agrgation. Considrons une partition

Fig. 7.5  Illustration du passage d'une partition

Ps une partition ps

1.

7.3.

95

LA CLASSIFICATION HIRARCHIQUE

tre dcrit par son centre de gravit donn par :

bb
:
c = mmaa ++ m
m
a

(7.7)

a et de b peut se dcomposer par la formule de Huygens par :


Iinter(ab) = ma d2 (a; G) + mb d2 (b; G) = ma d2 (a; c) + mb d2 (b; c) + mc d2 (c; G); (7.8)

L'inertie interclasse de

or l'inertie de la partition

Ps est donne par :

Is = Iinter(ab) + Iintra(a) + Iintra(b) ;


Ps

et celle de la partition

Is

=I

inter(c)

intra(a)

est donne par :

I

inter(ab)

En remplaant

1 par :

+I
I

Ainsi la perte d'inertie

=I

(7.9)

+I

intra(b)

= mcd2(c; G) + I

intra(a)

inter(ab) due au passage de la partition

inter(Ps )

+I

intra(b)

Ps

= mad2(a; c) + mbd2(b; c):


a b
ma mb 2
d (a; b):
(ab) =
ma + mb
et

(7.10)

la partition

Ps

(7.11)

inter(Ps 1 )

c par sa valeur en fonction de

I

+I

, nous obtenons :

(7.12)

inter

indice de niveau) qui


inertie de l'haltre (ou variance du diple) (a; b). Il est ais de vrier que la somme
des indices de dissimilarit entre toutes les partitions est l'inertie totale du nuage NI .

Cette variation reprsente un indice de dissimilarit (appel aussi


est l'

Le principe de la mthode de Ward est donc de dterminer les lments


partition

Ps qui ont un indice de dissimilarit minimal.

a et b d'une

Algorithme
L'algorithme de classication hirarchique ascendante est simple et facile programmer. Son droulement suit les tapes suivantes :
- tape 1 : Nous considrons le nuage

NI

comme une partition

PI

de

lments.

- tape 2 : Une transformation des donnes s'eectue par la construction partir


de la matrice

dcrite par le tableau 7.1 d'une matrice de distances entre les

individus, partir de la distance retenue initialement. Nous recherchons ensuite


les deux lments agrger (

i.e.

les deux lments les plus proches en terme de

distance ou d'indice de dissimilarit). L'agrgation des deux lments fournit une


partition

PI

individus.

- tape 3 : Nous construisons la nouvelle matrice

((I 1)  (I 1))

des distances,

puis nous recherchons les deux nouveaux lments agrger. L'agrgation des deux
lments fournit une partition

individus.

96

CHAPITRE 7.

CLASSIFICATION

Fig. 7.6  Illustration de l'algorithme de classication avec avec un nuage de

=5

individus.
Nud

(6)

(7)

(8)

(9)

benjamin

(1)

(2)

(6)

(8)

an

(3)

(5)

(4)

(7)

eectif

Tab. 7.2  Relation entre les nuds de l'arbre.


- tape

m : Nous calculons la matrice ((I

(m 1))  (I (m 1)))

des distances,

puis nous cherchons agrger deux lments jusqu' ce qu'il n'en reste plus qu'un
qui constitue la dernire partition

P1 .

An d'illustrer cet algorithme, nous donnons un exemple d'un nuage

NI de cinq individus

sur la gure 7.6.


Les tapes successives de cet algorithme peuvent tre reprsentes par un

rarchique

galement appel

dendrogramme

cf. gure 7.7).

arbre hi-

o sont reprsentes en ordonnes les indices

de dissimilarit (

Vocabulaire li au dendrogramme
- Les

lments terminaux

de l'arbre (ou de la hirarchie) sont les individus (ou va-

riables selon ce qui est class).


- Les nuds de l'arbre correspondent aux regroupements de deux lments appels

an et benjamin. L'arbre de la gure 7.7 peut ainsi tre dcrit par le tableau 7.2.

- L'agrgation repose sur les ingalits des distances entre elles. Nous pouvons obtenir
le mme classement en des couples d'lments en classant ces couples par ordre
croissant des distances. Un tel classement est appel

ordonnance.

7.3.

97

LA CLASSIFICATION HIRARCHIQUE

Fig. 7.7  Exemple de dendrogramme.

hirarchie peut tre dcrite par une famille H d'lments de I telle que :
I 2 H , fig 2 H 8i 2 I ,
8A, B 2 H , A \ B 2 fA; B; ;g i.e. deux classes sont soit disjointes, soit l'une est

- La
-

incluse dans l'autre.


Ainsi toute classe est la runion des classes qui sont incluses en elle. La famille
des sous-ensembles construits par la classication ascendante hirarchique forme

hirarchie binaire , il en existe d'autres.


hirarchie indice est une hirarchie pour laquelle il existe une fonction v de H
+
dans IR i.e. telle que :
une hirarchie. C'est en fait une

- Une

A  B , v(A)  v(B ); 8A; B 2 H:

(7.13)

La hirarchie est gnralement indice par les valeurs des distances (ou indices de
dissimilarit) correspondant chaque tape d'agrgation.
- En coupant l'arbre par une droite horizontale, nous obtenons une
hirarchie donne ainsi une chane de

partitions de 1

partition.

Une

classes.

Les hirarchies indices ont une proprit particulirement intressante, car elle peuvent
tre vues comme un ensemble muni d'une
une distance

particulire. En tant que

application qui vrie :

ultramtrique [LMP95]. Une ultramtrique est


distance d associe au nuage NI , elle est une

x = y , d(x; y) = 0, 8x; y 2 NI ,
- d(x; y ) = d(y; x),
8x; y 2 NI (relation de symtrie),
- d(x; y )  d(x; z ) + d(y; z ),
8x; y; z 2 NI (ingalit triangulaire).
Cette distance d est une ultramtrique si elle vrie une condition plus forte que l'ingalit
triangulaire donne par d(x; y )  max(d(x; z ); d(y; z )) 8x; y; z 2 NI . La distance du saut
minimal est la plus grande ultramtrique infrieure la mtrique d initiale.
-

98

CHAPITRE 7.

CLASSIFICATION

7.3.2 Interprtation
L'interprtation repose essentiellement sur la lecture du dendrogramme. Elle devient
problmatique lorsque le nombre d'individus est trs important. Elle doit se faire de haut
en bas an d'examiner d'abord les partitions qui possdent peu de classes, pour ensuite
entrer dans des considrations plus dtailles. Nous cherchons, essentiellement la partition
qui prsente le plus d'intrt. Pour cela, il faut chercher construire des classes homognes.
Une bonne partition,

i.e. une bonne coupure de l'arbre, doit comporter peu de classes avec

une inertie intraclasse faible et une inertie interclasse leve. Pour le choix de la coupure,
nous pouvons galement nous aider de la courbe des indices. Ainsi nous devons rechercher
le nud aprs lequel il y a une perte d'indice importante. Ceci peut galement se lire sur
le dendrogramme.

Exemple 7.3.1

Prenons l'exemple de l'tude des donnes de granulomtrie propose par

Kendall, Stuart et Grin en 1963. Ces donnes sont composes d'chantillons de sol dcrits
par cinq variables sur leur composition : sable, limon, argile, matire organique, pH. La
gure 7.8 prsente le dendrogramme obtenu par 'approche de Ward, tandis que la gure
7.9 prsente la courbe des indices. Nous constatons partir de ces deux gures qu'une
coupure en cinq classes fournit des classes homognes et loignes des autres classes. De
plus, cette coupure est conforte par le taux de variance intraclasse qui est de 22,3%, alors
que le taux de variance interclasse est de 77,7%.

Fig. 7.8  Dendrogramme sur les donnes de composition du sol.

Une fois la coupure faite,

i.e.

le choix de la partition tudier, il faut examiner les

classes obtenues. Pour ce faire il faut trouver les variables reprsentatives de chaque classe,
pour ensuite interprter ces classes partir des variables explicatives. Deux indicateurs
sont essentiellement employs pour cette interprtation :

7.3.

99

LA CLASSIFICATION HIRARCHIQUE

Fig. 7.9  Courbe des indices sur les donnes de composition du sol.

excentricit de la classe par rapport au centre de gravit gnral de l'ensemble des

- l'

individus,
- la

variance du diple

constitue par les deux classes an et benjamin agrges au

nud tudi.
Nous avons une excentricit forte pour une classe lorsque celle-ci est loigne du centre
de gravit

G du nuage. Plus l'excentricit est forte, plus la classe dire de la moyenne et

donc plus elle est porteuse de sens et mrite d'tre exploite. La mesure de l'excentricit

q est donne par : d2 (gq ; G). Il est intressant d'tudier la contribution relative
de la variable classiante l'excentricit de la classe q donne par :
de la classe

Cork (q) =
o

gqk

gqk

2

d2 (gq ; G)

(7.14)

gq du sous-nuage Iq sur l'axe reprsentant la


k (cf. gure 7.10). Ainsi, si la contribution est proche de 1, la variable k explique

est la projection du centre de gravit

variable

l'excentricit de la classe. Si le signe est ngatif la variable est corrle ngativement la


classe.
Une classe constitue un sous-nuage, qui peut tre tudie par une analyse factorielle.
Au lieu d'tudier la classe

q, nous pouvons tudier le diple (a; b) de l'an et benjamin.

Cette tude peut se faire par la variance. Ainsi un diple allong dans la direction du

Iq , reprsente une variance leve dans cette direction


(cf. gure 7.11). L'indicateur utilis pour la contribution d'une variable k la divergence

premier axe factoriel du sous-nuage

100

CHAPITRE 7.

Fig. 7.10  Reprsentation d'un sous-nuage

Iq

CLASSIFICATION

dans un plan de projection.

Fig. 7.11  Caractrisation de la variance du diple dans une direction.


entre les deux classes est donn par :

Codk (q) =

(ak

bk )2
:
d2 (a; b)

(7.15)

A l'aide de l'excentricit, nous pouvons ainsi tudier pourquoi les individus sont regroups dans la classe tudie, et pourquoi les nuds an et benjamin sont spars.

Nous proposons de suivre le plan suivant pour l'interprtation de la classication


hirarchique ascendante :
- La premire chose est l'tude du dendrogramme et de la courbe des indices an de
dterminer la partition, ou les partitions tudier. La coupure est ralise au niveau
du ou des sauts importants d'inertie.
- L'tape suivante est l'tude de toutes les classes formes par la ou les partitions plus
nes. Il faut donc regarder quels sont les individus qui composent chaque classe. Il
est de plus important de comprendre :
- quelles sont les variables reprsentatives de chaque classe l'aide de la contribution
relative des variables classiantes l'excentricit de chaque classe,
- quelles sont les variables qui sparent le diple form de l'an et du benjamin
pour chaque classe, l'aide de la contribution de chaque variable la variance du
diple.

7.4.

101

CONCLUSION

- Il est de plus intressant de faire un tableau rcapitulatif donnant pour chaque classe
les individus qui y appartiennent, ainsi que les variables qui caractrisent chaque
classe. Ce tableau permet de rsumer simplement l'ensemble de l'interprtation.

7.4 Conclusion
Nous avons dans ce chapitre prsent uniquement deux mthodes (ou famille de mthodes) de classication : la mthode des centres mobiles et la classication hirarchique
ascendante. Les mthodes de classication sont cependant trs nombreuses. Il existe entre

hybrid classication) qui est un mlange

autre une mthode dite de classication mixte (

de la mthode des centres mobiles et de la classication hirarchique. Elle est particulirement bien adapte aux tableaux de donnes comportant des milliers d'individus, pour
lesquels le dendrogramme est dicile lire. Les tapes de l'algorithme sont les suivantes :
- Une premire tape consiste appliquer la mthode des centres mobiles de faon
obtenir une partition de quelques dizaines, voire quelques centaines de groupes
homognes.
- Ensuite, la classication hirarchique est applique sur ces groupes. Le dendrogramme et la courbe des indices permet de dnir le nombre de classes nales
retenir.
- Une fois ce nombre dtermin, an d'optimiser la classication, la mthode des
centres mobiles est de nouveau applique l'ensemble des individus de dpart pour
obtenir une partition correspondant celle trouve par le dendrogramme. Dans cette
dernire tape les centres mobiles initiaux peuvent tre considrs comme tant les
barycentres des classes issues de la partition ralise par la classication hirarchique
an d'obtenir une convergence plus rapide.

La classication est une phase importante de l'analyse des donnes. Il est prfrable
de l'employer en complment des analyses factorielles (particulirement la classication
ascendante hirarchique qui utilise la mthode de Ward pour l'agrgation). Il est conseill
d'appliquer la classication aprs les analyses factorielles. Cependant, les classes peuvent
constituer des variables supplmentaires dans l'ACP, l'AFC ou encore l'ACM.

102

CHAPITRE 7.

CLASSIFICATION

Glossaire
Indications historiques
- Bayes (Thomas) 1702-1761 : mathmaticien anglais, il tablit la relation liant les
probabilits conditionnelles aux probabilits

a priori.

- Benzcri (Jean-Paul) : mathmaticien franais, il est l'inventeur de l'analyse factorielle des correspondances (AFC) et le fondateur de l'cole franaise d'analyse des
donnes. Il s'intressa en particulier aux donnes textuelles.
- Burt (Sir Cyril) 1883-1971 : psychologue britannique, innovateur certain d'un point
de vue mthodologique en analyse de donnes, il est surtout connu pour ses fraudes
scientiques et ses falsications d'observations.
- Huygens (Christiaan) 1629-1695 : galement orthographi Huyghens, exprimentateur et thoricien nerlandais, il proposa un trait sur le calcul des probabilits. En
mcanique, il dveloppa la thorie du pendule qu'il appliqua pour rguler les mouvements d'horloges, et s'intressa au problme du choc par la quantit de mouvement.
- Mahalanobis (Prasanta Chandra) 1893-1972 : physicien et mathmaticien indien, il
s'intressa beaucoup aux statistiques. Il est surtout connu pour la distance qui porte
son nom. Il tudia les analyses graphiques des fractiles (quantiles), et les statistiques

D-square,

appliqus l'conomie et la biomtrie. Il est un des premiers a avoir

organis le recueil de donnes en Inde.


- Minkowsky (Hermann) 1864-1909 : mathmaticien allemand, il proposa une reprsentation de l'espace-temps quatre dimensions qui fournit une interprtation gomtrique de la relativit restreinte de A. Einstein qui fut son lve.
- Pearson (Karl) 1857-1936 : mathmaticien anglais, il est un des premiers statisticiens. En particulier ses recherches taient tournes vers l'hrdit.
- Tchebychev (Pafnouti Lvovitch) 1821-1894 : mathmaticien russe, son nom est aussi
crit Chebyshov, Chebyshev, ou Tschebysche. Il est connu pour ses travaux dans le
domaine de la probabilit et des statistiques, en particulier l'ingalit de Tchebychev
qui permet de majorer des probabilits (grossirement) et de dmontrer le thorme
de la loi faible des grands nombres.
- Vorono (Georgi Fedoseevich) 1868-1908 : mathmaticien russe, galement transcrit Voronoy, il travailla sur la thorie des nombres, en particulier sur les nombres
algbriques et la gomtrie des nombres. En 1904, il rencontra Minkowski, et ils
s'aperurent qu'ils tudiaient des sujets similaires.

103

104

GLOSSAIRE

- Ward (Abraham) 1902-1950 : mathmaticien, n en Hongrie, il partit Vienne pour


faire ses recherches. Sous l'occupation nazie, d'origine juive, il partit en 1938 aux
Etats-Unis. Ses travaux concernrent les espaces mtriques et plus particulirement
les espaces vectoriels dimension innie. Il obtint galement des rsultats en gomtrie direntielle.

105

RAPPEL DE DFINITIONS

Rappel de dnitions
- Aectation : c'est une tape de classement.
- Caractres : donnes caractrisant les individus.
- Caractre qualitatif : le caractre n'est pas mesurable.
- Caractre qualitatif pur ou variable nominale : les modalits ne possdent pas
de structure d'ordre.
- Caractre qualitatif ordonn ou variable ordinale : les modalits qualitatives
sont ordonnes.
- Caractre quantitatif : le caractre est mesurable, on y associe le nom de variable
statistique (numrique).
- Variable

discrte

les

valeurs

prises

par

la

variable

sont

des

valeurs

ponctuelles.
- Variable continue : les valeurs prises par la variable sont numriques d'un intervalle donn.
- Classement : attribution d'lments dans une classe prexistante.
- Classication : construction des classes les plus homognes possibles dans un chantillon.

I individus dcrits
K variables et xik une donne du tableau i = 1; :::; I et k = 1; :::; K , le coecient
0
de corrlation linaire entre deux variables k et k est donn par :

- Coecient de corrlation linaire : pour un tableau de donnes de


par

rkk0 = (xk ; xk0 ) =

cov(xk ; xk0 ) :

(7.16)

k k0

- Corrlation empirique ou covariance : pour un tableau de donnes de


dcrits par

variables et

xik

une donne du tableau

0
corrlation empirique entre deux variables k et k

i = 1; :::; I

et

individus

k = 1; :::; K , la

est donne par :

XX
cov(xk ; xk0 ) = I1
(xik xk )(xjk0 xk0 ):
i2I j 2I

(7.17)

- Discrimination : la discrimination consiste dterminer une fonction qui spare au


mieux les donnes selon un critre prdni.
- Dispersion : talement des points dtermin par une distance. La dispersion d'un
nuage sur un axe peut tre vu comme l'inertie du nuage sur l'axe. Une mesure de
dispersion est la variance.
- Distribution (ou srie statistique) : les observations d'un caractre forment une distribution.
- chantillon : sous-ensemble de la population.
- Eectif vriant un critre : nombre d'lments vriant ce critre.
- Fonction de rpartition :

F (x) est la proportion des individus de la population dont


x.

le caractre est infrieur

- Individus ou units statistiques : lments de la population.

106

GLOSSAIRE

- Inertie : valeur caractrisant la concentration ou la dispersion de points sur un axe,


un plan ou tout espace. L'inertie peut tre reprsente par une variance.
- Liaison : deux variables sont lies si elles ont un fort coecient de corrlation linaire
ou encore si elles ne sont pas indpendantes.
- Modalit : les modalits d'un caractre sont les valeurs (mesurable ou non) prises
par cette variable.
- Moment d'ordre
riables et

xik

r des individus est donn par :

i = 1; :::; I

xrk =
une donne du tableau

i = 1; :::; I

et

1 X xr :
et

(7.18)

ik

I i2I

- Moyenne : pour un tableau de donnes de

xik

I individus dcrits par K vak = 1; :::; K , le moment d'ordre

: Pour un tableau de donnes de

une donne du tableau

individus dcrits par

variables et

k = 1; :::; K , la moyenne des individus est

donne par :

xk =

1 Xx

I i2I

ik :

(7.19)

- Population : ensemble des donnes tudies.

I individus dcrits par K variables et xik


i = 1; :::; I et k = 1; :::; K , le quantile d'ordre (0   1)
est la racine de l'quation F (x) = , o F est la fonction de rpartition.

- Quantile : pour un tableau de donnes de


une donne du tableau

- Ressemblance : deux individus se ressemblent, ou sont proches, s'ils possdent des


valeurs proches pour l'ensemble des variables.
- Tableau de contingence : c'est un tableau d'eectifs obtenus en croisant les modalits
de deux variables qualitatives dnies sur une mme population.
- Taxonomie : littralement la science des lois de l'ordre, c'est la science de la classication, parfois limite la botanique.
- Typologie : ensemble des limites des domaines connexes (patatodes) faire sur
chaque plan (pour les individus et les variables).

I individus dcrits par K variables et


k = 1; :::; K , la variance des individus est

- Variance : pour un tableau de donnes de

xik

une donne du tableau

i = 1; :::; I

et

donne par :

k2 =

1 X(x

I i2I

ik

xk )2 :

(7.20)

Bibliographie
L'analyse de donnes (Tome 1) La taxinomie. Dunod, 1980.
: L'analyse de donnes (Tome 2) L'analyse des correspon-

[Ben80a]

J.P. Benzecri :

[Ben80b]

J.P. Benzecri

[Ber72]
[BFRS93]

[Bro03]

dances.

Dunod, 1980.

C. Berge :

Graphes et hypergraphes.

Dunod, 1972.

L. Breiman, J.H. Friedman, R.A.Olshen et C.J. Stone : Classication


and regression tree. Chapman and Hall, 1993.
G. Brossier : Analyse des donnes, chapitre Les lments fondamentaux de
la classication. Hermes Sciences publications, 2003.

[CDG 89] G. Celeux, E. Diday, G. Govaert, Y. Lechevallier et H. Ralambon-

Classication automatique des donnes. Dunod, 1989.


Celeux : Analyse des donnes, chapitre Analyse discriminante.

drainy :
[Cel03]

G.

Hermes

Sciences publications, 2003.


[DH97]

P. Demartines et J. Hrault :

Curvilinear component analysis : A self-

organizing neural network for non linear mapping of data set.

[EP90]

[Goa03]
[HL03]

IEEE Transac-

tions on Neural Networks, 8(1):148154, Janvier 1997.


B. Escoffier et J. Pages : Analyses factorielles simples et multiples objectifs, mthodes et interprtations. Dunod, 1990.
G. Goavert : Analyse des donnes. Hermes Sciences publications, 2003.
G. Hbrail et Y. Lechevallier : Analyse des donnes, chapitre Data Mining et analyse des donnes. Hermes Sciences publications, 2003.

[Jam99a]
[Jam99b]
[Kun00]

Introduction au Data Mining. Eyrolles, 1999.


M. Jambu : Mthodes de base de l'analyse de donnes. Eyrolles, 1999.
M. Kunt : Reconnaissance des formes et analyse de scnes. Presses PolytechM. Jambu :

nique et universitaires romandes, 2000.


[LMP95]

L. Lebart, A. Morineau et M. Piron :

sionnelle.

Statistique exploratoire multidimen-

dunod, 1995.

[Mar04]

A. Martin : La fusion d'informations, 2004.

[Pag03]

J. Pags :

Analyse des donnes,

chapitre Analyse factorielle des correspon-

dances. Extensions et applications au traitement statistique des donnes sensorielles. Hermes Sciences publications, 2003.

107

108

[Pha96]

BIBLIOGRAPHIE

D.T. Pham :

Blind separation of instantaneous mixture of sources via in-

dependent component analysis.

IEEE Transactions on Signal Processing,

44(11):27682779, 1996.
[Sap90]

G. Saporta :

Probabilits Analyse des donnes et Statistique. Edition Technip,

1990.
[Vap99]

V.N. Vapnik :

The nature of Statistical Learning Theory.

Springer, 1999.

Index
aectation, 76, 105

locale, 82, 85

algorithme

de Manhattan, 83

ascendant, 92

de Minkowsky, 83

descendant, 92

de Tchebychev, 83

2 , 45, 83

approche baysienne, 84

du

arbre

du saut maximal, 92

additif, 89

du saut minimal, 92

hirarchique, 96

euclidienne, 81

association, 68

gnralise, 80

axe

moyenne, 92
d'inertie, 15
factoriel, 15

moyenne gnralise, 92
distribution, 105

Bayes, 84, 103

chantillon, 105

Benzcri, 1, 103

eectif, 105

Burt, 61, 66, 103

eets de chane, 92

caractre, 2, 3, 105
qualitatif, 105
quantitatif, 105
classement, 73, 76, 87, 105
classication, 76, 105
clustering, 87
codage condens, 57
coecient de corrlation linaire, 25, 105
composante principale, 30
corrlation empirique, 105

lments terminaux, 96
lment illustratif, 35, 53, 68
quivalence distributionnelle, 45
excentricit, 99
facteur, 16, 29
fonction de rpartition, 105
fonction linaire discriminante, 79
fouille de donnes, 2
hirarchie, 89, 97

covariance, 105
data mining, 2, 5
dendrogramme, 96

binaire, 97
indice, 97
Huygens, 77, 93, 103

diagramme de Vorono, 90

individu, 3, 105

discrimination, 73, 76, 105

indpendance, 41

dispersion, 12, 105

inertie, 12, 93, 106

distance, 88, 97
de Mahalanobis, 80
globale, 82

k plus proches voisins, 83


k-means, 5, 91
109

110

INDEX

liaison, 3, 24, 41

variance, 1, 106
du diple, 99

Mahalanobis, 82, 83, 103

Vorono, 90, 103

mesure de similarit, 88
Minkowsky, 83, 103
modalit, 2, 10, 106
moment, 1, 106
moyenne, 1, 106
mthode CART, 5, 74
ordonnance, 96
partition, 89
Pearson, 23, 45, 103
population, 2, 106
pourcentage de la variance, 20
prol-colonne, 44, 47, 64
prol-ligne, 43, 46, 64
pyramide, 89
quantile, 1, 106
relation de dualit, 32
relation de transition, 16
ressemblance, 3, 24, 25, 61, 106
rgle de Bayes, 84
supervis, 4, 73, 87
tableau
de Burt, 61
de contingence, 39, 106
disjonctif complet, 57, 59
taux d'inertie, 20
taxonomie, 87, 106
Tchebychev, 83, 103
typologie, 4, 106
ultramtrique, 97
unit statistique, 3, 105
variable, 3
continue, 105
discrte, 105
nominale, 2
ordinale, 2

Ward, 93, 98, 104

Vous aimerez peut-être aussi