Vous êtes sur la page 1sur 456

Ludovic Lebart Alain Morineau

Marie Piron
Statistique exploratoire
multidimensionnelle
DUNOD
Ludovic Lebart
C.N.R.S.,
cole nationale suprieure
des tlcommunications
Alain Morineau
Centre international de statistique
et d'informatique appliques
ClSIA
Marie Piron
Institut franais de recherche scientifique
pour le dveloppement en coopration,
ORSrOM
Statistique exploratoire
multidimensionnelle
DLINOD
Ce piclogramme mrile une explico- menh d'enseignemenl suprieur, provo
tian. Son objel e,t d'olerler le leeleur quont une baisse brutale de, achat, de
,ur la menaCe que reprit,enle pour livre, el de revue" ou point que la poi.
l'avenir de l'cril, particulire bilil mme pour le, auteurs de
meni dan, le domaine de l'di DANGER crer de, uvre' nouvelle, el
lion technique el universiloire, de le, foire diler coueelement
le dveloppement moif du e,t aujourd'hui menace.
photo<opillage. Nou, rappelons donc que
le Code de la proprit inlel- Ioule reproduction, partielle ou
lectuelle du 1er juillet 1992 lolole, de la pr,enle publico-
inlerdit en effet expressmenl la lion e,t interdile ,an, oulori,o
photocopie u,oge colleclif ,on, outori lion du Cenlre fronai' d'exploilolion du
,ation de, oyonl' droil. Or, cene pra- drail de copie (CfC, 3 rue Houleleuille,
tique ,e,tgnroli'e dan, le, tablisse- 75006 Pori').
Dunod, Paris, 1995
ISBN 2 10 002886 3
Toute reprsentation ou reproduction, intgrale ou partielle, faite sans le
consentement de l'auteur, ou de ses ayanlS droit, ou ayants cause, est
illicite (loi du 11 mars 1957, alina 1er de l'article 40). Celle
reprsentation ou reproduction, par quelque procd que ce soit,
constituerait une conlrefaon sanctionne par les articles 425 et suivants
du Code pnal. La loi du Il mars 1957 n'autorise, aux tennes des alinas
2 et 3 de l'article 41, que les copies ou reproductions strictement
rserves l'usage priv du copiste et non destines une utilisation
collective d'une part, et d'autre part, que les analyses et les courtes
citations dans un but d'exemple el d'illustration.
Cet ouvrage est ddi la mmoire de Brigitte Escalier
AVANT-PROPOS
Cet ouvrage s'adresse aux praticiens, scientifiques et tudiants de toutes
disciplines qui ont analyser et traiter de grands ensembles de donnes
multidimensionnelles, c'est--dire finalement des recueils de donnes
statistiques se prsentant, totalement ou partiellement, sous forme de
tablea ux rectangulaires.
Le domaine d'application, limit au dpart aux sciences de la vie (biomtrie,
agronomie, cologie) et aux sciences humaines (psychomtrie, socio-
conomie), ne cesse de s'tendre car les possibilits offertes par les outils de
traitement suscitent de nouveaux recueils de mesures. Les applications
industrielles se dveloppent rapidement et le contrle de qualit, l'analyse
des processus de production, la veille technologique, la recherche
documentaire font de plus en plus appel des ensembles de mesures
multidimensionnelles.
On a tent de faire le point sur les dveloppements rcents de la statistique
exploratoire multidimensionnelle en continuit avec un ouvrage
prcdent
1
dont on reprend d'ailleurs, en les dveloppant, certains
chapitres. On s'est ainsi efforc d'intgrer la substance de plusieurs
centaines de publications (dont celles des auteurs) sur le thme de ce
prcdent travail.
Comme toujours pour ce type d'ouvrage qui s'adresse simultanment des
praticiens et des chercheurs de disciplines diverses, plusieurs lectures
devraient tre possibles selon les connaissances du lecteur notamment en
mathmatique et statistique: une lecture pratique, d'utilisateur, pour les
personnes spcialises dans les divers domaines d'application actuels et
potentiels; une lecture plus technique, complte, pour une personne ayant
une formation en mathmatiques appliques et en statistique.
1 Tec/mique de la description statistique, (L.Lebart, A. Morineau, N. Tabard) Dunod,
1977.
VI Statistique exploratoire multidimensionnelle
La statistique exploratoire multidimensionnelle se prolonge naturellement
et se diversifie en des outils et des modles videmment plus complexes
que les mthodes de base. Mais l'essentiel des applications relvent en fait
de la partie la plus accessible. On a fait preuve d'une grande parcimonie
dans l'utilisation de l'outil mathmatique: le niveau d'abstraction choisi
est toujours le niveau minimal compatible avec une prsentation exacte, et
la communication a t favorise au dtriment de la gnralisation. Les
lecteurs mathmaticiens sauront sans difficult introduire les notions qui
permettent des formulations plus lgantes.
L'ensemble doit beaucoup des collaborations et des cadres de travail
divers: au sein du dpartement Economie et Management, de l'Ecole
Nationale Suprieure des Tlcommunications et de l'URA82 du Centre
National de la Recherche Scientifique (URA: Traitement et
Communication de l'Information, dirige par Jean-Pierre Tubach) ; au sein
du Centre International de Statistique et d'Informatique Appliques
(CISIA), du Centre d'Etude de l'Emploi et de l'Institut franais de recherche
scientifique pour le dveloppement en coopration (ORSTOM).
Nous remercions galement les autres collgues, chercheurs ou professeurs
auprs desquels nous avons puis collaboration et soutien, ou simplement
eu d'intressants dbats ou discussions, ou encore accs des documents.
Citons, sans tre exhaustif, Mireille Bardos, Laurent Benzoni, Abdelhalim
Bouamaine, Bernard Burtschy, Pierre Cazes, Frderic Chateau, Jean-Pierre
Fnelon, Christian Mullon, Jrme Pags, Andr Salem, Michel
Tenenhaus, Gilbert Saporta et Wenhua Zhu.
Nous sommes heureux d'adresser ici nos remerciements Gisle Maus et
Jean-Marc Quilb, des ditions Dunod, pour l'accueil qu'ils ont rserv
cet ouvrage.
L. L., A. M., M. P.
Paris, Juillet 1995
Sommaire
Introduction gnrale
Chapitre 1
MTHODES FACTORIELLES
Introduction
Section 1.1 : Analyse gnrale,
dcomposition aux valeurs singulires
1.1.1 Notions lmentaires et principe d'ajustement
1.1.2 Ajustement du nuage des individus
a- Droites d'ajustement
b Caractristiques du sous-espace d'ajustement
1.1.3 Ajustement du nuage des variables
1.1.4 Relation entre les ajustements dans les deux espaces
1.1.5 Reconstitution des donnes de dpart
a Reconstitution exacte
b- Reconstitution approche
c- Qualit de l'approximation
1.1.6 Diversification de l'analyse gnrale
a- Analyse gnrale avec des mtriques
et des critres quelconques
b- Principe des lments supplmentaires
c- Autres approches
1.1.7 Annexe 1 - Dmonstration sur les extrema
de formes quadratiques sous contraintes quadratiques
Section 1.2 : Analyse en Composantes Principales
1.2.1 Domaine d'application
1.2.2 Interprtations gomtriques
a- Pour les n individus
b- Pour les p variables
1.2.3 Analyse du nuage des individus
a- Principe d'ajustement
b- Distance entre individus
c- Matrice diagonaliser
d- Axes factoriels
1.2.4 Analyse du nuage des points-variables
a- distances entre points-variables
b- Distance l'origine
c- Axes factoriels ou composantes principales
1
13
15
15
17
17
19
19
20
22
22
23
24
24
24
27
28
29
32
32
33
33
34
34
34
36
37
37
38
38
39
41
VJll Statistique exploratoire multidimensionnelle
1.2.5
1.2.6
1.2.7
1.2.8
1.2.9
1.2.10
1.2.11
Individus et variables supplmentaires
a- Individus supplmentaires
b- Variables continues supplmentaires
c- Variables nominales supplmentaires
Reprsentation simultane
a- Reprsentation spare des deux nuages
b- Justification d'une reprsentation simultane
Analyse en composantes principales non norme
a- Principe de l'analyse et nuage des individus
b- Nuage des variables
Analyses non-paramtriques
a- Analyse des rangs
b- Analyse en composantes robustes
Aperu sur les autres mthodes drives
Elments pour l'interprtation
a- Inertie lie aux facteurs
b- Aides l'interprtation
Exemple d'application
42
43
43
43
45
45
46
48
49
50
51
51
52
53
53
54
55
57
Section 1.3 : Analyse des correspondances
1.3.1 Domaine d'application
1.3.2 Dmarche et principe; une introduction lmentaire
a- Transformations du tableau de contingence
b- Hypothse d'indpendance
c- Construction des nuages
d- Critre d'ajustement
e- Choix des distances
f- Equivalence distribu tionnelle
g- Relations de transition ou pseudo-barycentriques
h- Justification de la reprsentation simultane
1.3.3 Schma gnral de l'analyse des correspondances
a- Gomtrie des nuages et lments de base
b- Critre maximiser et matrice il diagonaliser
c- Axes factoriels et facteurs
d- Relation entre les deux espaces
e- Relations de transition
f- Reprsentation simultane
g- Autre prsentation de J'analyse des correspondances
h- Formule de reconstitution des donnes
1.3.4 Rgles d'interprtation; inertie, formes de nuages
a- Inertie et test d'indpendance
b- Quelques formes caractristiques de nuages de points
1.3.5 Rgles d'interprtation: contributions et cosinus
a- Contributions
b- Cosinus carrs
c- Exemple numrique
1.3.6 Elments supplmentaires
67
67
68
69
70
71
72
73
74
75
78
79
79
82
84
84
85
86
87
89
89
89
92
94
94
95
97
99
Sommaire IX
1.3.7 Mise en uvre des calculs
a- Analyse par rapport l'origine
ou au centre de gravit du nuage
b- Symtrisation de la matrice diagonaliser
1.3.8 Exemple d'application
100
100
102
103
1.4.8
1.4.5
1.4.3
1.4.4
108
108
109
110
110
III
113
114
114
115
117
117
118
119
120
121
122
123
125
126
127
130
131
132
135
Section 1.4 : Analyse des correspondances multiples
1.4.1 Domaine d'application
1.4.2 Notations et dfinitions
a- Hypercube de contingence
b- Tableau disjonctif complet
c- Tableau des faces de l'hypercube de contingence
ou tableau de contingence de Burt
Principes de l'analyse des correspondances multiples
a- Critre d'ajustement et distance du X2
b- Axes factoriels et facteurs
c- Facteurs et relations pseudo-barycentriques
d- Sous-nuage des modalits d'une mme variable
e- Support du nuage des modalits
f- Meilleure reprsentation simultane
g- Inertie du nuage des modalits et consquences pratiques
h- Rgles d'interprtation
i- Principes du dcoupage en classes
Elments supplmentaires
a- Valeurs-test pour les modalits supplmentaires
b- Variables continues supplmentaires
Analyse du tableau de contingence de Burt:
quivalence avec l'analyse du tableau disjonctif complet
Cas de deux questions
Cas particuliers
a- Toutes les questions ont deux modalits
b- Sous-tableau d'un tableau de correspondances multiples
Exemple d'application numrique
1.4.6
1.4.7
Chapitre 2
QUELQUES MTHODES DE CLASSIFICATION
Introduction 145
Section 2.1 : Agrgation autour des centres mobiles
2.1.1 Bases thoriques de l'algorithme
2.1.2 Justification lmentaire de l'algorithme
2.1.3 Techniques connexes
2.1.4 Formes fortes et groupements stables
148
148
150
151
152
x Statistique exploratoire multidimensionnelle
155
155
156
156
157
159
159
159
161
163
164
165
165
166
167
168
170
171
172
173
173
174
175
Critre d'agrgation selon la variance
a- Notations et principe
b- Perte d'inertie par agrgation de deux lments:
le critre de Ward gnralis
Algorithme de recherche en chane des voisins rciproques
a Algorithme
b- Critre de la mdiane
Exemple numrique d'application
a- Classification des lignes (professions)
b- Classification des colonnes (mdias)
2.2.2
Section 2.2 : Classification hirarchique
2.2.1 Principe
a- Distances entre lments et entre groupes
b Algorithme de classification
c- Elments de vocabulaire
Classification ascendante selon le saut minimal et arbre
de longueur minimale
a- Dfinition d'une ultramtrique
b quivalence entre ultramtrique et hirarchie indice
c- L'ultramtrique sous dominante
d- Arbre de longueur minimale: dfinition et gnralits
e- Arbre de longueur minimale: algorithme de Kruskal
f Arbre de longueur minimale: algorithme de Prim
g- Arbre de longueur minimale: algorithme de Florek et Soli in
h- Lien entre l'arbre et le saut minimal
2.2.4
2.2.5
2.2.3
Section 2.3 : Classification mixte
et description statistique des classes 177
2.3.1 Stratgie de classification mixte 177
a- Les tapes de l'algorithme 177
b Choix du nombre de classes par coupure de l'arbre 179
c- Procdure de consolidation 180
2.3.2 Description statistique des classes 181
a- Valeurs-test pour les variables continues 181
b Valeurs-test pour les variables nominales 182
c- Variables caractristiques d'une classe 184
Section 2.4: Complmentarit entre analyse factorielle
et classification 185
2.4.1 Utilisation conjointe de l'analyse factorielle 185
a- Ncessit... et insuffisance des mthodes factorielles 185
b- Mise en uvre pratique dans le cas de la classification mixte 187
c- Autres aspects de la complmentarit 189
2.4.2 Aspects techniques et thoriques de la complmentarit 189
a- Classification des lignes ou colonnes d'un tableau de contingence 189
b- Un exemple de concidence entre les deux approches 190
Sommaire
2.4.3 Valeurs propres et indices de niveau
a- Quelques ingalits
b- Le cas des tables de contingence structures par blocs
c- Une tude empirique du lien entre valeurs propres et indices
2.4.4 La complmentarit en pratique: un exemple
a- Les tapes
b- L'espace des variables actives
c- Exemples de description automatique de trois classes
d- Projection de variables signaltiques (en supplmentaires)
Chapitre 3
LIENS AVEC
LES MTHODES EXPLICATIVES USUELLES,
MTHODES DRIVES
Introduction
Section 3.1 : Analyse canonique
3.1.1 Formulation du problme et notations
3.1.2 Les variables canoniques
a- Calcul des variables canoniques
b- Interprtation gomtrique
c- Cas de matrices non inversibles
3.1.3 Liens avec l'analyse des correspondances
a- Le cas de l'analyse des correspondances simples
b- L'analyse des correspondances multiples
Section 3.2 : Rgression multiple, modle linaire
3.2.1 Fonnulation du problme: le modle linaire
3.2.2 Ajustement par la mthode des moindres-carrs
a Calcul et proprits de l'ajustement des moindres-carrs
b- Approche gomtrique
c- Le coefficient de corrlation multiple
3.2.3 Lien avec l'analyse canonique
3.2.4 Qualit de l'ajustement
a- Spcification du modle
b- Moyenne et variance des coefficients
c- Tests sous l'hypothse de normalit des rsidus
3.2.5 Rgression rgularise
a- Principe de la rgression rgularise
b- Variables supplmentaires et rgression
c- Expression des coefficients dans la nouvelle base
3.2.6 Rgression sur variables nominales: analyse de la variance
a- Codage des variables nominales
XI
194
194
195
195
199
200
202
202
205
209
213
213
215
215
217
218
219
219
220
223
223
225
226
227
228
229
230
230
231
231
233
234
236
236
237
238
XII Statistique exploratoire multidimensionnelle
b- Modle linaire sans interaction
c- Modle linaire avec interaction
3.2.7 Rgression sur variables mixtes: analyse de la covariance
a- Modles d'analyse de la covariance
b- Test d'un effet diffrenci de x dans chaque classe k
c- Test de l'effet de la variable u
d- Test d'un "effet classe global"
e- Gnralisation de l'analyse de la covariance
3.2.8 Choix des variables, gnralisations du modle
a- Slection et choix des variables explicatives
b- Modles linaires gnraliss
3.2.9 Modles de variables latentes
a- Le modle
b- Estimation des paramtres inconnus
239
240
241
242
243
243
243
244
244
244
245
246
247
249
Section 3.3 : Analyse factorielle discriminante 251
3.3.1 Formulation du problme et notations 251
3.3.2 Fonctions linaires discriminantes 253
a- Dcomposition de la matrice de covariance 254
b- Calcul des fonctions linaires discriminantes 255
c- Diagonalisation d'une matrice symtrique 256
3.3.3 Cas de deux classes: quivalence avec la rgression multiple 257
3.3.4 Lien avec d'autres mthodes 259
a- L'analyse canonique 259
b- L'analyse des correspondances 260
c- Une analyse en axes principaux avec une mtrique particulire 262
3.3.5 Principes des rgles d'affectation (ou de classement) 263
a- Le modle baysien d'affectation 264
b- Le modle baysien dans le cas normal 265
c- Autres rgles d'affectation 266
d- Qualit des rgles de classement 268
3.3.6 Rgularisation en analyse discriminante 269
a- Analyse rgularise de Friedman 270
b- Analyse rgularise par axes principaux 270
3.3.7 Discrimination sur variables nominales 275
a- Analyse factorielle discriminante qualitative 275
b- Analyse discriminante barycentrique 276
c- Note sur le "scoring" 276
3.3.8 Discrimination et rseaux de neurones 277
a- Schma et modle du perceptIOn multi-couches 278
b- Modles non-superviss ou auto-organiss 280
c- Statistique et mthodes neuronales 282
Section 3.4 : Modles log-linaires 284
3.4.1 Formulation du problme et principes de base 284
3.4.2 Ajustement d'un modle log-linaire 285
Sommaire
a- Tableau de contingence deux entres
b- Tableau de contingence p entres
c- modles hirarchiques
3.4.3 Estimation et tests d'ajustement du modle
a- Estimation des paramtres
b- Tests d'ajustement
c- Choix du modle
3.4.4 La rgression logistique
a- Le modle logistique
b- Estimation et tests des coefficients
c- Comparaison de deux modles
d- Modle avec interaction
3.4.5 Modles log-linaire et analyse des correspondances
a- Des champs d'application diffrents
b- Liens thoriques entre l'analyse des correspondances
et les modles log-linaires
c- Difficults de l'articulation exploration-infrence
Section 3.5 : Segmentation
3.5.1 Formulation du problme, principe et vocabulaire
3.5.2 Construction d'un arbre de dcision binaire
a- Algorithme gnral de segmentation
b- Cas de la rgression
c- Cas de la discrimination
3.5.3 Slection du "meilleur sous-arbre"
a- Procdures de slection
b- Estimation de l'Erreur Thorique de Prvision
c- Estimation du Taux d'Erreur Thorique de classement
3.5.4 Divisions qui-rductrices et qui-divisantes
a- Divisions qui-rductrices
b- Divisions qui-divisantes
3.5.5 Lien avec les mthodes de classement
Section 3.6 : Analyses partielles et projetes
3.6.1 Dfinition du coefficient de corrlation partielle
3.6.2 Calcul des covariances et corrlations partielles
a- Cas de deux variables
b- Cas de p variables (X) et de q variables (Z)
3.6.3 Analyse du nuage rsiduel ou analyse partielle
3.6.4 Autres analyses partielles ou projetes
a- Analyse canonique des correspondances
b- Analyse non-symtrique des correspondances
Section 3.7 : Structures de graphe, analyses locales
3.7.1 Variance locale et covariance locale d'une variable
XIII
285
286
287
288
288
289
289
290
291
293
294
294
295
295
298
298
300
302
303
304
304
306
309
312
313
314
314
316
316
316
317
319
319
320
320
321
322
323
324
325
327
328
XN Statistique exploratoire multidimellsiOllllelle
3.7.2
3.7.3
3.7.4
3.7.5
3.7.6
Coefficient de contigut de Geary
Analyse locale
Analyse de contigut et projections rvlatrices
a- Analyse de contigut
b- Reprsentation de groupes par projection
c- Liens avec les analyses partielles
Extensions, gnralisations, applications
Cas particuliers: Structure de partition
a- Analyse inter-classes
b- Analyse intra-classes
329
331
331
331
332
333
334
335
335
336
Section 3.8 : Tableaux multiples, groupes de variables
3.8.1 Quelques travaux de rfrence
3.8.2 Analyses procrustennes
a- Analyse procrustenne orthogonale
b- Analyse procrustenne sans contrainte
c- Formulaire de quelques mthodes d'analyse
3.8.3 Mthode STATIS
a- Notations
b- Comparaison globale entre les tableaux: l'interstructure
c- Le nuage moyen ou compromis: l' intrastructure
d- Reprsentation simultane des nuages partiels:
les trajectoires
3.8.4 Analyse factorielle multiple
a- Une analyse en composantes principales pondre
b- Recherche de facteurs communs (intrastructures)
c- Reprsentation des groupes de variables (interstructure)
d- Reprsentations superposes des nuages partiels
des groupes actifs (trajectoires)
3.8.5 Analyse canonique gnralise
a- Formulation gnrale
b- Proprits de l'Analyse Canonique Gnralise
c- Utilisation en pratique de l'analyse canonique gnralise
Chapitre 4
VALIDIT ET PORTE DES RSULTATS
Introduction
Section 4.1 : Signification des valeurs propres
et des taux d'inertie
4.1.1 Travaux sur la loi des valeurs propres
4.1.2 Approximation de la distribution des valeurs propres
en analyse des correspondances
337
337
339
339
341
341
342
342
342
343
344
344
344
345
346
346
347
348
349
352
357
359
359
361
Sommaire xv
4.1.3
4.1.4
4.1.5
4.1.6
Indpendance des taux d'inertie et de la trace
Exemples d'abaques et tables statistiques
Taux d'inertie et information
a- Caractre partiel des taux d'inertie
b- Quelle infonnation?
Choix du nombre d'axes: quelques rsultats utiles
a- Rgles empiriques
b- Procdures externes
c- Critres de choix statistiques, rsultats asymptotiques
364
366
368
368
371
373
374
374
375
Section 4.2 : Stabilit des axes, des formes, des classes
4.2.1 Mthodes de validation empiriques
a- Calculs de stabilit et de sensibilit
b- Epreuves empiriques de stabilit
4.2.2 Mthodes de rchantillonnage
a- Technique de Jackknife
b- Technique de Bootstrap
c- Validation croise
4.2.3 Zones de confiance, zones de garde
a- Zones de confiance tablies par bootstrap
b- Autres types de simulation bootstrap
c- Zones de gilrde en analyse des correspondances
d - Autres rgions de confiances
4.2.4 Nombre de classes et validation des classifications
a- L'hypothse d'absence de structure, les modles
b- Combien de classes retenir ?
c- Les critres externes
Rfrences bibliographiques
Index des auteurs
Index des matires
379
379
379
382
385
385
387
388
389
389
392
396
398
399
400
402
404
405
429
434
Introduction
La statistique descriptive permet de reprsenter de faon vivante et
assimilable des informations statistiques en les simplifiant et les
schmatisant. La statistique descriptive multidimensionnelle en est la
gnralisation naturelle lorsque ces informations concernent plusieurs
variables ou dimensions.
Mais le passage au multidimensionnel induit un changement qualitatif
important. On ne dit pas en effet que des microscopes ou des appareils
radiographiques sont des instruments de description, mais bien des
instruments d'observation ou d'exploration, et aussi de recherche. La ralit
multidimensionnelle n'est pas seulement simplifie parce que complexe,
mais aussi explore parce que cache.
Le travail de prparation et de codage des donnes, les rgles
d'interprtation et de validation des reprsentations fournies par les
techniques utilises dans le cas multidimensionnel n'ont pas la simplicit
rencontre avec la statistique descriptive lmentaire. Il ne s'agit pas
seulement de prsenter mais d'analyser, de dcouvrir, parfois de vrifier et
prouver, ventuellement de mettre l'preuve certaines hypothses.
C'est pourquoi nous avons choisi de parler dans cet ouvrage de statistique
exploratoire multidimensionnelle.
La statistique et l'infonnatique
Ne au tout dbut du vingtime sicle, notamment la suite des travaux du
prcurseur l'astronome Qutelet et des dmographes et biomtriciens
Galton, Pearson, puis Fisher, la science statistique aura manipul des
chiffres pendant un demi-sicle sans disposer de vritables outils de calcul.
Les appareils que l'on trouve maintenant dans la poche des coliers et dans
tous les bureaux auraient combl les aspirations les plus insenses des
statisticiens jusqu'en 1960. "Il est impensable d'utiliser des mthodes
conues avant l'avnement de l'ordinateur, il faut compltement rcrire la
statistique", crivait en substance Jean-Paul Benzcri ds 1965 dans son cours
la Sorbonne sur l'Analyse des donnes et la reconnaissance des formes.
Cet auteur, qui a profondment marqu le dveloppement des recherches
statistiques au cours des annes rcentes, prconise aussi, de manire un
peu provocante pour une discipline o la notion de modle a jou un rle
central: "le modle doit suivre les donnes et non l'inverse".
2 Statistique exploratoire multidimensionnelle
Aux tats-Unis, John Tukey, le fondateur du courant dsign par
Exploratory Data Analysis (EDA), a une attitude aussi radicale (cf. Mallows
et Tukey, 1982). Il s'en faut cependant de beaucoup que ces deux pionniers
aient t unanimement entendus. A dfaut d'tre repense, la statistique
s'est cependant considrablement enrichie. La priode rcente a connu des
changements tout fait notables du fait de la diffusion des moyens de
calcul: les outils existants ont t amliors, de nouveaux outils sont
apparus, de nouveaux domaines d'application ont t explors.
Meilleurs graphiques
L'informatique, surtout la micro-informatique, a rendu familiers tous les
outils graphiques de la statistique descriptive lmentaire. Autrefois fruits
d'un travail laborieux et coteux, ces reprsentations sont immdiatement
accessibles dans pratiquement tous les logiciels intgrs. Les techniques de
statistique exploratoire multidimensionnelle mettent profit ces interfaces
graphiques pour reprsenter, par exemple, les espaces factoriels et les arbres
de classification: c'est l l'une de leurs fonctions iconographiques qui
gnralise effectivement la statistique descriptive usuelle au cas de variables
nombreuses.
Dsutude des tables statistiques
Classiquement, pour savoir si une quantit, dont la distribution est connue,
ne dpasse pas les limites que lui assignent certaines hypothses, on
consultait la table donnant les valeurs que cette quantit ne dpassera que
dans 5% ou 1% des cas. Le choix de seuils tait impos par la ncessit de
limiter le volume des tables. A partir du moment o la quantit tester est
elle-mme calcule sur ordinateur, il est facile d'adjoindre au programme
une procdure de calcul de la probabilit de dpassement de la valeur
calcule. On gagne en confort, mais aussi en performance, car on pourra
dsormais comparer et trier des statistiques diffrentes grce aux probabilits
de dpassement, comme celles lies aux tests fishriens, voqus au
paragraphe suivant (au del de la thorie classique des tests).
Emphase sur la robustesse, le non-paramtrique
La mise en uvre de la plupart des procdures infrentielles classiques est
hypothque par la pertinence des hypothses techniques
1
et par la
sensibilit ventuelle des rsultats la non-vrification de ces hypothses.
1 Contrairement aux hypothses gnrales qui sont les hypothses d'ordre scientifique
qui rgissent l'tude d'un phnomne, et qui prcdent la phase d'observation ou
d'exprimentation statistique, les hypothses techniques interviennent dans la mise en
uvre pratique des mthodes statistiques. Elles concernent principalement la
spcification des modles et des distributions statistiques impliques dans ces
modles. Certaines hypothses techniques n'ont aucun lien avec les hypothses
gnrales, mais sont au contraire des exigences du modle utilis (exemple: les rsidus
sont indpendants et suivent une loi nonnale dont la matrice des covariances doit tre
spcifie dans le cas de la rgression linaire multiple).
Introduction 3
L'un des principaux obstacles l'utilisation d'estimateurs robustes, c'est--
dire peu sensibles la prsence de points aberrants (vis--vis des
distributions tudies), tait la difficult des calculs mettre en uvre. La
plupart des panoplies existantes se sont donc enrichies de procdures plus
robustes ds l'apparition de moyens de calcul plus puissants. Pour des
raisons analogues, les techniques non-paramtriques qui s'affranchissent
des hypothses les plus lourdes ont connu un regain d'intrt, comme ce ft
le cas des techniques non-paramtriques de discrimination.
Les test "Fishriens", ou tests de permutation
1
, connaissent galement un
renouveau important. Les hypothses statistiques sont prouves par
permutations alatoires de l'ensemble fini des observations effectivement
disponibles: il y aura donc concidence entre les distributions marginales
thoriques et observes. Seul l'obstacle du calcul pouvait faire carter des
techniques fondes sur des hypothses qui pousent aussi troitement la
ralit. Mais les habitudes des praticiens (et aussi le cot de formation, la
matrise des mthodes) sont telles qu'on ne peut attendre une substitution
rapide des outils.
Taille et complexit des problmes
Il n'est pas rare maintenant de traiter des tableaux correspondant des
milliers d'observations et des centaines de variables. Bien sr, les donnes
les plus volumineuses et les plus complexes ont pu tre abordes l'aide
d'outils prexistants. Mais trs vite, l'adage: "c'est l'chelle qui fait le
phnomne" s'est trouv vrifi. Le changement d'chelle du volume des
donnes a rapidement conduit modifier les outils eux-mmes et
imaginer de nouveaux outils dans le cadre de nouvelles approches.
Mthodes algorithmiques
La leve de l'obstacle du calcul a eu pour effet de diffuser l'emploi des
techniques de type algorithmique, au premier rang desquelles se trouvent
les techniques de classification automatique et les mthodes impliquant des
algorithmes coteux (comme les diagonalisations de matrices par exemple).
D'autres techniques, comme les techniques de slection pas--pas, les
techniques d'estimation par la mthode du maximum de vraisemblance, de
programmation dynamique, connaissent des utilisations de plus en plus
frquentes.
Traitement des variables qualitatives
L'tude statistique des variables qualitatives est par nature plus complexe
que celle des variables numriques continues, qui s'appuie gnralement
sur la loi normale et sur les formalismes simples qui en drivent
(maximum de vraisemblance, moindres carrs, par exemple). li n'est donc
pas tonnant que les possibilits de calcul aient permis de fortes avances
1 Cf. sur les tests dits "exacts" : Mehta et al. (1991), Agresti (1992), Good (1994).
4 Statistique exploratoire multidimensionnelle
dans ce domaine: analyse des correspondances simples et multiples dans le
cas descriptif, modles log-linaires, modles logistiques dans le cas
infrentie!.
Mthodes de validation
Les techniques de simulation (ou de Monte-Carlo) connaissent des
applications grande chelle dans tous les domaines o les hypothses
distributionnelles usuelles sont inadaptes. La simulation permet de
construire de l'infrence "sur-mesure" en combinant des sources, des
formes et des niveaux de variabilit dans des processus complexes dont la
formalisation est rigoureusement impossible. Mais le sur-mesure est plus
coteux que le prt--porter.
Les techniques de rchantillonnage telle que les techniques de "Jackknife"
(la variabilit est tudie en procdant des prlvements sans remise dans
l'chantillon) et de "Bootstrap" (la variabilit est tudie en procdant des
tirages pseudo-alatoires avec remise dans l'chantillon) ont le mrite
d'avoir donn lieu des dveloppements thoriques. A l'heure actuelle, le
Bootstrap, qui prsente de notables avantages (taille d'chantillon
inchange, facilit de mise en uvre, proprits thoriques satisfaisantes)
est assez largement utilis.
Les techniques de validation croise sont surtout utilises en analyse
discriminante: pour estimer un vrai taux d'erreur, il convient de tester la
mthode sur des individus ne faisant pas partie de l'chantillon
d'apprentissage. D'o l'ide de procder n analyses discriminantes sur
(n -1) individus, en retirant chaque fois un individu de l'chantillon
d'apprentissage, puis en notant le succs ou l'chec de son affectation. Ces
principes de base peuvent tre ramnags et adapts, notamment au cas des
grands tableaux, mais on devine que le gain d'information ralis a sa
contrepartie en volume de calcul.
Rseaux neuronaux
Les techniques neuronales ou connexionnistes ont une large intersection
avec les mthodes classiques d'analyse des donnes 1, intersection peu
visible de prime abord en raison d'une terminologie et d'un cadre
conceptuel tout fait spcifiques. Inspires l'origine par des modles de
fonctionnement du cerveau, les mthodes connexionnistes peuvent tre
considres comme des mthodes d'analyse non-linaire des donnes.
L'analyse en composantes principales, les mthodes de classification du type
k-means ou nues dynamiques sont des mthodes neuronales non
supervises; la rgression, l'analyse discriminante linaire, des cas
particuliers de mthodes neuronales supervises.
1 L'expression anglaise data analysis a un sens trs gnral de statistique applique
(avec une connotation d'approche pragmatique et informatise). L'quivalent anglais
de l'analyse des donnes serait peu prs muItivariate data analysis.
Introduction 5
Les logiciels
Une des innovations de forme, sinon de fond, de ces dernires annes aura
t la matrialisation des mthodes et des techniques sous forme de
"produits", les logiciels, dvelopps avec des contraintes conomiques et
commerciales de conception, de production, de distribution. Comme tout
produit fini, le logiciel a l'avantage de diffuser et l'inconvnient de figer.
Comme tout produit coteux, il introduit une discrimination par les
moyens financiers disponibles. Comme tout produit l'usage de
spcialistes, il introduit de nouvelles divisions du travail, parfois peu
souhaitables dans un processus de connaissance. Enfin, si cette division du
travail se fait l'chelle internationale, de nouvelles dpendances sont
cres dans des secteurs sensibles: l'acquisition de connaissances, la
recherche fondamentale.
Ces avantages et inconvnients sont indissolublement lis dans les logiciels
statistiques. Les logiciels accessibles et faciles utiliser permettront une large
diffusion des mthodes, mais donneront parfois lieu des utilisa tions
inconsidres dans des domaines o une rflexion minutieuse et une
grande prudence seraient de mise. La mdiation des logiciels est un
nouveau paramtre dont il faut tenir compte
1
.
Nouveaux domaines d'application
L'informatisation et les outils qu'elle a suscit ou dont elle a stimul le
dveloppement (gestionnaires de base de donnes relationnelles, systmes
d'informations gographiques par exemple) ont pour effet le plus vident
de permettre le traitement statistique de recueils de donnes plus grands et
plus complexes, donnant lieu de vritables systmes d'information. Les
mthodes d'analyse des donnes peuvent tre des outils performants pour
exploiter au mieux la structure organise de ces systmes.
On peut citer parmi les domaines rcemment abords: les analyses
d'images, les analyses de squences d'images (donnes de tldtection par
exemple); les analyses de signaux, de processus, de systmes; la recherche
documentaire; les analyses de donnes textuelles; les analyses de grandes
enqutes.
1 Les activits d'un club comme MODULAD (domicili l'INRIA) doivent pallier
certains des inconvnients cits. Rassemblant des crateurs, des dveloppeurs, des
utilisateurs de logiciels, il doit faciliter certains types de communications et de
diffusions. Les tudiants ou chercheurs ont ainsi accs, dans la bibliothque de
programme MODULAD, au "source" des programmes. Naturellement, les faibles
moyens mis en oeuvre ne permettent pas de mener bien les coteuses oprations
d'habillage, d'assurer les qualits de convivialit ncessaires et des mises jour en
fonction des nouveaux matriels et langages. Cette bibliothque, ainsi que les listages
de programmes publies dans les ouvrages ''Techniques de la description statistique"
(L. Lebart, A. Morineau, N. Tabard. Dunod, 1977) et "Traitement des donnes
statistiques" (L. Lebart, A. Morineau, J.-P. Fnelon. Dunod, 1979) peuvent donner
accs la plupart des traitements proposs dans cet ouvrage. Les traitements
correspondant aux exemples ont t raliss l'aide du logiciel SPADN (Lebart et aI.,
1991), actuellement dvelopp et distribu par le C1SIA.
6 Statistique exploratoire multidimensionnelle
Panorama du contenu de ce manuel
Les avances et innovations qui viennent d'tre voques se retrouvent
des degrs divers dans le dveloppement et la mise en uvre de la
statistique exploratoire multidimensionnelle, laquelle est consacre le
prsent ouvrage.
La gamme des mthodes qui permettent de dcrire et d'explorer des
tableaux de donnes statistiques (tableaux mesures-observations, tableaux
de contingence ou tableaux croiss, tableaux de prsence-absence ou
tableaux d'incidence) est assez tendue.
Celles que nous retiendrons seront choisies en fonction de leur aptitude
traiter de tableaux volumineux, de la transparence de leur fonctionnement,
de leur bonne insertion dans l'ventail des mthodes rellement
applicables et appliques.
Deux grandes familles de mthodes rpondent ces exigences:
- [chapitre 1] : les mthodes factorielles l, fondes sur des recherches d'axes
principaux (l'analyse en composantes principales et les analyses des
correspondances simples et multiples sont les mthodes factorielles les plus
utilises) qui produisent essentiellement des visualisations graphiques
planes ou tridimensionnelles des lments dcrire.
- [chapitre 2]: les mthodes de classification qui produisent des
groupements en classes d'objets (ou en familles de classes hirarchises),
obtenus la suite de calculs algorithmiques. Les lments dcrire sont
groups de la manire la moins arbitraire possible partir de leurs vecteurs
de description.
Les points de vue fournis par ces deux types de mthodes sont en fait trs
complmentaires. On insistera sur cette complmentarit qui se
manifeste d'ailleurs plusieurs niveaux, qu'il s'agisse de la possibilit
d'apprhender des structures trs diverses, ou d'aider la lecture des
rsultats.
Lorsqu'on a peu d'information a priori sur les donnes (on parlera alors
de donnes non structures ou amorphes) l'application des techniques
exploratoires multidimensionnelles est gratifiante. Mais il est plus
difficile d'utiliser ce que l'on sait pour essayer d'en savoir plus. Et si
l'information a priori sur les donnes est considrable, d'autres
techniques faisant appel des modles qui utilisent effectivement cette
information sont alors comptitives.
1 Les techniques d'analyse factorielle comprennent dans la littrature statistique
franaise des vingt dernires annes toutes les techniques de reprsentation utilisant
des "axes principaux": analyse en composantes principales, des correspondances
simples et multiples, analyse factorielle dite classique ou des psychologues - alors
que l'expression correspondante en anglais (factor analysis) ne dsigne de faon assez
stricte que cette dernire technique: analyse en facteurs communs et spcifiques de
Spearman, Thurstone, utilise principalement par les psychologues et les
psychomtriciens.
Introduction 7
- [chapitre 3]: les liens avec les mthodes explicatives usuelles, claireront
les utilisateurs sur la vocation spcifique de chacune de ces mthodes. Les
cinq premires sections de ce chapitre prsentent successivement l'analyse
canonique, la rgression multiple et le modle linaire, l'analyse
discriminante, les modles log-linaires et logistiques, les mthodes de
segmentation. Cet ventail de techniques recouvre une part trs importante
des applications potentielles de la statistique.
Il n'existe cependant pas de mthodologie gnrale de mise en uvre des
mthodes exploratoires de base impliquant une articulation et une
synergie avec les mthodes dites explicatives. Chaque application
demande un travail original de codage, de slection et d'agencement
d'outils partictiers en fonction des domaines et des problmes.
Les mthodes d'analyse de tableaux ayant une structure a priori prsentes
dans les trois sections suivantes du chapitre 3 constituent le complment
naturel ou le prolongement des analyses exploratoires. Elles prsentent les
techniques qui tentent d'intgrer en leur sein mme une ventuelle
information externe: les analyses partielles ou conditionnelles permettent
de prendre en compte l'effet de certaines variables; les analyses de
contigut mettent profit des structures de graphes sur les observations
(contenant comme cas particulier les partitions et les sries chronologiques);
enfin les analyses de tableaux multiples tudient le cas de tableaux
comportant plusieurs groupes de variables.
- [chapitre 4] : la validit et la porte des rsultats sont deux thmes d'tudes
qui ont donn lieu des recherches nombreuses au cours des annes
rcentes. Dans une premire section, on fait le point sur les rsultats
thoriques disponibles (difficilement acquis et peu utilisables en pratique)
puis, dans la seconde section, on prsente quelques procdures plus
empiriques, plus souples, incluant les techniques de rchantillonnage,
parmi lesquelles le Bootstrap jouera un rle prdominant.
Les mthodes descriptives et exploratoires de base
Les mthodes tudies dans les deux premiers chapitres sont destines
fournir des reprsentations et des rductions, complmentaires, de
l'information contenue dans de volumineux tableaux de donnes
numriques. D'autres mthodes de description qui ne rentrent pas dans les
deux familles tudies ici ne seront voques que brivement, comme les
mthodes purement graphiques 1, dvolues la reprsentation de tableaux
1 Parmi les mthodes purement graphiques, citons la mthode des visages de Chemoff
(1973), pour laquelle chaque visage correspond un individu et chaque trait du visage
une variable; la mthode des courbes d'Andrews (1972), o les diffrents paramtres
des courbes sont les variables; la mthode des constellations de Wakimoto et Taguri
(1978), dans laquelle, aprs conversion de chaque Xij (valeur de la variable j pour
l'individu i) en un COSOij, chaque individu i est reprsent par un point du plan
complexe comme une somme de variables de modules constants et d'arguments Oij .
8 Statistique exploratoire multidimensionnelle
de petites dimensions, les mthodes de sriation 1, les mthodes de
multidimensional scaling 2.
Elles interviennent souvent dans des contextes particuliers d'application et
sont moins adaptes aux traitements des grands tableaux.
Le tableau de donnes sur lequel sont effectues les rductions ne sera pas
en gnral un tableau de valeurs numriques quelconques. Il doit en
particulier prsenter une certaine homognit de forme et de contenu.
Reprsentation gomtrique lmentaire d'un tableau de donnes
Le tableau de donnes dispose la masse d'information sous forme
rectangulaire.
Pour fixer les ides, les lignes (i=I, ... ,n) peuvent reprsenter les n
individus ou observations, appels plus gnralement units
statistiques; les colonnes (j=I, ... ,p) sont alors les p variables, qui
peuvent tre des mesures (numriques) ou des attributs ou caractres
observs sur les individus (cas de variables nominales)3.
Afin de comprendre le principe des mthodes de statistique exploratoire
multidimensionnelle, il est utile de reprsenter gomtriquement les n
lignes et les p colonnes du tableau de donnes par des points dont les
coordonnes sont prcisment les lments de ce tableau (figure 1).
Deux nuages de points sont alors construits:
- le nuage des n individus (le nuage des points-lignes) situ dans l'espace
p dimensions RP des variables (des colonnes); chacune des n lignes est
reprsente par un point p coordonnes.
- le nuage des p variables (le nuage des points-colonnes) situ dans l'espace
n dimensions Rn des individus (des lignes); chacune des p colonnes est
reprsente par un point n coordonnes.
Le tableau de donnes not X est donc une matrice dans laquelle chaque
vecteur, ligne ou colonne, reprsente un point soit dans RF' soit Rn.
1 Les mthodes de sriations visent faire apparatre des structures particulires de
tableaux par simple rordonnancement de lignes et de colonnes. Pour des exposs de
synthse sur ce sujet, cf. par exemple Arabie (1978), Caraux (1984), Marcotorchino
(1987).
2 Cf. Shepard (1974), Kruskal et Wish (1978), Schiffman et al. (1981).
3 Cette distinction entre variables et individus est commode parce qu'elle se rfre
une situation classique en statistique. Elle correspond au contexte de l'analyse en
composantes principales (section 1.2) qui prcde historiquement l'analyse des
correspondances et ses variantes. Cette distinction n'a videmment pas de sens dans
le cas de tables de contingence pour lesquelles lignes et colonnes jouent des rles
symtriques.
Introduction 9
Chacune des deux dimensions du tableau de donnes permet de dfinir des
distances (ou des proximits) entre les lments dfinissant l'autre
dimension.
L'ensemble des colonnes permet de dfinir, l'aide de formules
appropries, des distances entre lignes. De la mme faon, l'ensemble des
lignes permet de calculer des distances entre colonnes.
1 j P
1 [Er'valeur de la variable j
prise par l'individu i
x=
(n,p) i ....x,ij'" ..
It :
vecteur
:
+
n points dans R
P
..... .... -...
. -.-. . -.
. v;,;- .
. . ..
. . .
. .
RP '
+ It
Ppoints dans R.
.. .
..
. .. . ..
: . ...:.:
..
Rit
Figure 1
Principe de reprsentation gomtrique
Les proximits gomtriques usuelles entre points-lignes et entre points-
colonnes traduisent en fait des associations statistiques soit entre les
individus, soit entre les variables. Les tableaux de distances associs ces
reprsentations gomtriques (simples dans leur principe, mais complexes
en raison du grand nombre de dimensions des espaces concerns) pourront
alors tre dcrits par les deux grandes familles de mthodes que sont les
mthodes factorielles et la classification (figure 2).
Ces reprsentations gomtriques du tableau de dOlUles nous conduisent
naturellement utiliser les notions d'espaces vectoriels, de nuages de
points, de mtriques (permettant de calculer des distances entre points-
lignes ou entre points-colonnes) mais aussi de masses affectes aux points si
l'on ne leur accorde pas la mme importance dans le nuage.
Les dveloppements thoriques des mthodes de statistique exploratoire
multidimensiolUlelle vont reposer sur ces notions.
la Statistique exploratoire multidimellsiollllelle
. V; . ..
. .'
. .
. .
configuration du nuage
de points dans l'espace
~ "-
r ; ~ ; : { 1
visualisation dans
le meilleur espace rduit
(mthodes factorielles, chapitre 1
regroupements dans
tout l'espace
(mthodes de classification, chapitre 2
Figure 2
Les deux grandes familles de mthodes
Ces mthodes impliquent souvent de la mme manire les individus
(lignes) et les variables (colonnes). Les individus ne sont plus de simples
intermdiaires utiliss pour calculer des moyennes ou des corrlations sur
les variables, suivant le schma de la statistique traditionnelle o ils ne sont
que des ralisations d'preuves indpendantes. La confrontation des espaces
d'individus et de variables enrichira les interprtations.
Notations de base
Malgr leur partielle inadaptation aux lments mathmatiques
que l'on va traiter, les notations matricielles seront souvent
utilises par souci de cohrence et volont de communication
avec l'essentiel de la littrature statistique disponible.
Le tableau des donnes soumis l'analyse est dsign par la lettre
majuscule grasse X. La matrice X est d'ordre (n,p), autrement dit,
elle a n lignes et p colonnes. Son terme gnrique est Xij (i
me
observation de la jme variable). Une colonne de X sera dsigne
par la lettre minuscule grasse Xj.
La transpose de Xest note X'; cette matrice a donc p lignes et n
colonnes.
Sauf mention contraire, pour les notations utilisant des caractres
latins, les matrices sont reprsentes par des lettres majuscules
grasses; les vecteurs par des lettres minuscules grasses; et les
scalaires par des lettres minuscules en italique.
Chapitre 1
MTHODES FACTORIELLES
Introduction 13
Introduction
Les mthodes factorielles se proposent de fournir des reprsentations
synthtiques de vastes ensembles de valeurs numriques, en gnral sous
forme de visualisations graphiques.
Pour cela, on cherche rduire les dimensions du tableau de donnes en
reprsentant les associations entre individus et entre variables dans des
espaces de faibles dimensions.
Il est toujours possible de calculer des distances entre les lignes et entre les
colonnes d'un tableau rectangulaire de valeurs numriques, mais il n'est
pas possible de visualiser ces distances de faon immdiate (les
reprsentations gomtriques associes impliquant en gnral des espaces
plus de deux ou trois dimensions): il est ncessaire de procder des
transformations et des approximations pour en obtenir une reprsentation
plane.
C'est une des tches dvolues l'analyse factorielle au sens large: oprer
une rduction de certaines reprsentations "multidimensionnelles".
On recherchera donc des sous-espaces de faibles dimensions (une, deux ou
trois par exemple) qui ajustent au mieux le nuage de points-individus et
celui des points-variables, de faon ce que les proximits mesures dans
ces sous-espaces refltent autant que possible les proximits relles. On
obtient ainsi un espace de reprsentation, l'espace factoriel.
Mais la gomtrie des nuages de points et les calculs de proximits ou de
distances qui en dcoulent diffrent selon la nature des lignes et des
colonnes du tableau analys.
Les colonnes peuvent tre des variables continues ou des variables
nominales ou des catgories dans le cas des tables de contingences. Les lignes
peuvent tre des individus ou des catgories.
La nature des informations, leur codage, les spcificits du domaine
d'application vont introduire des variantes au sein des mthodes
factorielles.
On prsente ici trois techniques fondamentales:
l'analyse en composantes principales (section 1.2) s'applique aux tableaux
de type "variables-individus", dont les colonnes sont des variables
valeurs numriques continues et dont les lignes sont des individus, des
observations, des objets, etc. Les proximits entre variables s'interprtent
en termes de corrlation; les proximits entre individus s'interprtent
en termes de similitudes globales des valeurs observes. Elle peut donner
lieu de nombreuses variantes en s'appliquant par exemple un tableau
14 Mthodes factorielles - chapitre 1
de rangs (diagonalisation de la matrice de corrlation des rangs de
Spearman), ou encore aprs l'limination de l'effet de certaines variables
(analyses locales ou partielles).
l'analyse des correspondances (section 1.3) s'applique aux tableaux de
contingences, c'est--dire aux tableaux de comptages obtenus par le
croisement de deux variables nominales. Ces tableaux ont la particularit
de faire jouer un rle identique aux lignes et aux colonnes. L'analyse
fournit des reprsentations des associations entre lignes et colonnes de
ces tableaux, fondes sur une distance entre profils (qui sont des vecteurs
de frquences conditionneJles) dsigne sous le nom de distance du X
2
.
l'analyse des correspondances multiples (section 1.4) est une extension
du domaine d'application de l'analyse des correspondances, avec
cependant des procdures de calcul et des rgles d'interprtation
spcifiques. Elle fait l'objet d'une mention particulire en raison de
l'tendue de son champ d'application. Elle est particulirement adapte
la description de grands tableaux de variables nominales dont les fichiers
d'enqutes socio-conomiques ou mdicales constituent des exemples
privilgis. Les lignes de ces tableaux sont en gnral des individus ou
observations (il peut en exister plusieurs milliers); les coloIU1es sont des
modalits de variables nominales, le plus souvent des modalits de
rponses des questions.
Les techniques les plus utilises drivent des deux techniques
fondamentales que sont l'analyse en composantes principales et l'analyse
des correspondances. Quelle que soit la constitution du tableau de donnes,
toutes les techniques d'analyse factorielle ont un noyau commun que nous
dsignons sous le nom d'analyse gnrale (section 1.1) et que nous allons
prsenter maintenant.
Section 1.1
Analyse gnrale,
dcomposition aux valeurs singulires
Considrons un tableau de valeurs numriques X ayant n lignes et p
colonnes. Pour prendre un exemple, le tableau X a 1000 lignes et 100
colonnes. Il reprsente les 100 variables observes sur 1000 indi vid us
constituant un chantillon statistique.
Le tableau X possde donc 100 000 lments. Pour des raisons diverses, il
peut exister des liaisons fonctionnelles ou stochastiques entre certaines
variables. Peut-on rsumer ces 100 000 donnes par un nombre infrieur de
valeurs sans perte notable d'information compte tenu des liaisons et
interrelations entre les valeurs?
Nous recherchons en fait une technique de rduction s'appliquant de faon
systmatique divers types de tableaux et conduisant une reconstitution
rapide mais approximative du tableau de dpart.
1.1.1 Notions lmentaires et principe d'ajustement
On a vu prcdemment comment les lignes et les colonnes d'un tableau
rectangulaire permettaient de dfinir des nuages de points.
La position des points dans le nuage est donne par l'ensemble des distances
entre tous les points et dtermine la forme du nuage. C'est elle qui
caractrise la nature et l'intensit des relations entre les individus (lignes) et
entre les variables (colonnes) et rvle les structures de l'information
contenues dans les donnes.
forme allonge forme parabolique forme sphrique
Figure 1.1 - 1
Diffrentes formes de nuages
Par exemple, si le nuage de points est uniformment allong le long d'une
droite, il existe un support linaire dominant pour les points. Une forme
parabolique traduira une relation non linaire tandis qu'un nuage de forme
16 Mthodes factorielles - chapitre 1
sphrique marquera plutt une absence de relation (cf. figure 1.1 - 1). On
peut galement rencontrer, parmi les formes classiques de nuages, des
formes triangulaires ou un nuage compos de quelques amas de points
(figure 1.1 - 2).
forme triangulaire deux sous-nuages
[1.1 - 1]
Figure 1.1 - 2
Autres formes de nuages
Une faon simple de rendre compte visuellement de la forme d'un nuage
est de le projeter sur des droites, ou mieux sur des plans, en minimisant les
dformations que la projection implique. Pour cela, on peut chercher le
sous-espace une dimension H qui maximise la somme des carrs des
distances entre les projections sur H de tous les couples de points (k,k') :
Max{IId
2
(k,k'J}
(H) k k'
Si chaque point est muni d'un masse, c'est la somme pondre que l'on
pourra chercher maximiser:
Max{IIPk Pk' d
2
(k,k')j
(H) k k'
On calcule ainsi le sous-espace vectoriel qui ajuste au mieux le nuage de
points. Nous verrons plus loin, propos de l'analyse en composantes
principales, que ce dernier critre est quivalent au critre ci-dessous (o G
dsigne le point moyen ou centre de gravit des projections) :
Max{IPk
d2
(k,G)}
(H) k
Toutefois, on ne s'intresse pas toujours la forme d'un nuage, mais
quelques fois sa position par rapport l'origine. Ainsi, en analyse en
composantes principales, on s'intresse bien la forme du nuage des points-
observations dans un espace, mais c'est la position par rapport l'origine
des points-variables qui aura du sens dans l'autre espace.
Le modle d'analyse par rapport l'origine dsign ici sous le nom
d'analyse gnrale permet de rendre compte de ces diverses situations. Il
n'est qu'une prsentation sous forme gomtrique de la dcomposition aux
valeurs singulires prsente pour la premire fois par Eckart et Young
(1936, 1939) pour les tableaux rectangulaires, gnralisant les travaux de
Sylvester (1889) relatifs aux matrices carres. Gifi (1990) mentionne
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 17
galement les travaux antrieurs et indpendants de Beltrami (1873) et
Jordan (1874). Cf. galement Gower (1966), Gabriel (1971).
Le problme que l'on se propose de rsoudre est alors un problme de
rduction purement numrique, autrement dit, un problme de
compression de donnes.
Pour exposer cette technique de rduction factorielle, nous nous plaons
successivement dans les espaces vectoriels RP et Rn, avec pour notre
exemple: p =100, n =1000.
1.1.2 Ajustement du nuage des individus
dans l'espace des variables
On envisage ici le nuage de n points-individus dfinis dans l'espace des
variables IR.P et qui sont non pondrs (pour simplifier la formulation).
Chacune des n lignes du tableau X est considre comme un vecteur ou
encore un point de RP.
Si ce nuage est contenu dans un sous-espace vectoriel q dimensions de IIV
et si q est notablement infrieur p, autrement dit, si le tableau X est de rang
q, le problme d'approximation est pratiquement rsolu!.
a - Droites d'ajustement
Commenons par chercher un sous-espace vectoriel une dimension, c'est-
-dire une droite passant par l'origine, qui ralise le meilleur ajustement
possible du nuage de points.
espace IR?
Figure 1.1 - 3
Meilleur ajustement du nuage de points
1 Par exemple, si les 1000 points-individus se trouvent dans un sous-espace 10
dimensions (ou plus gnralement si leurs positions sont reconstitues de faon
satisfaisante partir de leurs positions dans ce sous-espace) il suffit, pour retrouver
les positions relatives de ces points dans IR.P, de connatre la nouvelle base (soit 10
vecteurs 100 dimensions) et les nouvelles coordonnes des points dans cette base
(soit 1000 vecteurs 10 dimensions). On pourrait dans ce cas reconstituer les 100000
nombres partir des 11 000 nombres ainsi dfinis (10x100 + 1000 x 10 = 11 000).
18 Mthodes factorielles - chapitre 1
Il faut pour cela dfinir le vecteur directeur unitaire de cette droite. Soit u ce
vecteur. On dsignera galement par u la matrice colonne associe, et par u'
sa transpose. On exprime que u est unitaire par la relation u'u = 1.
La longueur de la projection OHj d'un vecteur OMi sur le sous-espace une
dimension port par u (figure 1.1 - 3) n'est autre que le produit scalaire de
OMi par u, somme des produits terme terme
l
des composantes de OMi et
de u:
P
OHj = xiu = I,xijUj
j
Chacune des n lignes du tableau X est un vecteur-individu Xi dans RP. Or le
produit matriciel Xu est la matrice-colonne n lments, dont chaque terme
est le produit scalaire d'une ligne de X par u :
Xll xl
p
u
1
Xu= Xij
u.
=
I,xijUj
...
J
j
U
XIII
X
llp
P
Ce sont les n composantes de la matrice colonne Xu qui reprent sur u les n
projections OHj des points du nuage.
Parmi les critres d'ajustement d'un sous-espace un nuage de n points,
celui que l'on retient et qui conduit aux calculs analytiques sans doute les
plus simples, est le critre classique des moindres carrs. Il consiste
rechercher la droite d'allongement maximum du nuage de points et donc
rendre minimale la somme des carrs des carts
n
I,M
j
H
j
2
i=l
Le thorme de Pythagore appliqu chacun des n triangles rectangles du
type HjM
j
conduit la relation:
Comme I,OMj
2
est une quantit fixe, indpendante du vecteur u cherch,
i
il est quivalent de rendre maximale la quantit:
1 On suppose implicitement (et provisoirement) que la mtrique dont est muni cet
espace est la mtrique euclidienne usuelle.
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires
qui s'exprime en fonction de X et u par:
IOH
j
2
=(Xu)'Xu =u'X'Xu
i
19
Pour trouver u, on est donc conduit chercher le maximum de la forme
quadratique u'X'Xu :
{
MaX(u) {u'X'Xu}
sous la contrainte: u'u = 1
Soit Ul le vecteur qui ralise ce maximum. Le sous-espace deux
dimensions s'ajustant au mieux au nuage contient ncessairement le sous-
espace engendr par Ul
1
. On cherche ensuite uz, le second vecteur de base de
ce sous-espace, orthogonal Ul et rendant maximal U2X'XU2.
On recherche de faon analogue le meilleur sous-espace au sens des
moindres carrs q dimensions (pour q ~ p).
b - Caractristiques du sous-espace d'ajustement
Les dmonstrations qui figurent en annexe ( 1.1.7 ci-aprs) conduisent
l'nonc suivant:
/ "le vecteur unitaire u 1 qui caractrise le sous-espace une
: dimension ajustant au mieux le nuage des n points-individus
dans RP, est le vecteur propre de la matrice X'X correspondant la
plus grande valeur propre/..1'"
u ~ gnralement, le sous-espace q dimensions qui ajuste au mieux (au
sens des moindres carrs) le nuage dans RP est engendr par les q premiers
vecteurs propres de la matrice symtrique X'X correspondant aux q plus
grandes valeurs propres. On diagonalisera, par consquent, la matrice X'X
d'ordre (p,p).
L'analyse gnrale effectue donc une rotation du repre autour de l'origine
a et fournit un systme de vecteurs orthonorms dont u 1 puis (u l,U2), ...,
(U1,U2, ... ,Uu,... ,u
p
) passent "au plus prs" du nuage.
1.1.3 Ajustement du nuage des variables dans l'espace des
individus
Plaons-nous maintenant dans l'espace des individus IR", o le tableau X
peut tre reprsent par un nuage de p points-variables dont les n
coordonnes reprsentent les colonnes de X.
1Le raisonnement par l'absurde prouve que s'il ne contenait pas U1, il en existerait un
meilleur contenant U1.
20 Mthodes factorielles - chapitre 1
La dmarche pour ajuster le nuage des p points-variables dans cet espace est
exactement la mme que pour le nuage des points-individus et consiste
rechercher le vecteur unitaire v, puis le sous-espace q dimensions dans Rn
qui ajuste au mieux le nuage de points.
Cela conduit rendre maximale la somme des carrs des p projections sur v,
qui sont les p composantes du vecteur X'v. On maximise la quantit:
(X'v)'X'v = v'XX'v avec la contrainte v'v = 1
Comme prcdemment, nous sommes amens retenir les q vecteurs
propres de XX' correspondant aux q plus grandes valeurs propres. La matrice
diagonaliser sera cette fois la matrice XX' d'ordre (n,n).
On notera Va le vecteur propre de XX' correspondant la valeur propre ~ a
1.1.4 Relation entre les ajustements dans les deux espaces
Recherchons les relations dites de transition entre les deux espaces.
Dans RP, nous avons:
[1.1 - 2]
[1.1 - 3]
et dans Rn:
XX'v
a
=~ a v a
En prmultipliant les deux membres de [1.1 - 2] par X, on obtient:
(XX' )Xu
a
=,a (Xu
a
)
Cette relation montre qu' tout vecteur propre ua de X'X relatif une
valeur propre ,a non nulle, correspond un vecteur propre XU
a
de XX',
relatif la mme valeur propre ,a. Comme on a appel ~ la plus grande
valeur propre de XX', on a ncessairement ,1 S; Ill,
En prmultipliant les deux membres de [1.1 - 3] (pour ex = 1) par X', on voit
de mme X'VI est vecteur propre de X'X relativement la valeur propre ~
d'o la relation III S; ,l, ce qui prouve finalement que ,1 = ~
On verrait de la mme faon que toutes les valeurs propres non nulles des
deux matrices X'X et XX' sont gales! (avec le mme ordre de multiplicit
ventuellement) :
1 Il est donc inutile de refaire les calculs de diagonalisation sur XX', puisqu'une simple
transformation linaire, associe la matrice Xde dpart, nous permet d'obtenir les
directions propres XUa cherches dans Rn. Il suffit de diagonaliser la matrice X'X (p,p)
ou XX' (n,n) ayant la plus petite dimension.
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 21
Remarquons que le vecteur XUa a pour norme
a
(on a u'aXIXUa =
a
) et
donc le vecteur Va unitaire correspondant la mme valeur propre
a
est
facilement calculable en fonction de Ua. On obtient ainsi, pour
a
* 0, les
formules de transition entre les deux espaces, HP et Rn:
j
v
a
=j;;xu
a
1 XI
ua = f1 va
-V
a
[1.1- 4]
[1.1- 5]
X
(n,p)
U 1 liiWt)i'iIWiM- 1
U2 ntWWW't!:!'?4 2
Figure 1.1 - 4
Relations de transitions
Dans RP, Ua est le a
ime
axe factoriel et l'on calcule le vecteur 'Va des
coordonnes sur cet axe par:
'Va =XUa
De mme dans R n, Va est le a
ime
axe factoriel et l'on construit les
coordonnes CJla par:
CJla = X'va
Compte tenu de [1.1 - 4] et [1.1 - 5], les facteurs peuvent se calculer par:
{
'Va =va{f;;
CJla =ua{f;;
Sur le sous-espace de RP engendr par Ua les coordonnes des points du
nuage des individus sont les composantes de X Ua. Ce sont aussi les
composantes de v ~
Les coordonnes des points sur un axe factoriel dans RP sont donc
proportionnelles aux composantes de l'axe factoriel dans Rn correspondant
la mme valeur propre. Il en est de mme pour les coordonnes des points
du nuage des variables o l'on changera RPet Rn.
22 Mthodes factorielles - chapitre 1
Remarques
1) L'orientation des axes est arbitraire. En effet, les vecteurs propres sont dfinis
au signe prs. La figure 1.1 - 5, concernant trois points, montre que toutes les
images, obtenues suivant des orientations diffrentes des facteurs, respectent la
forme du nuage c'est--dire les distances entre les points.
Figure 1.1 - 5
Orientation arbitraire des axes
2) Les vecteurs de coordonnes dans IRP et IRIl ont pour norme:
, Il 2
Ij/alj/a = L<Jlai =,a
et
, P 2
<Pa <Pa = L<Jlaj = ,a
j
1.1.5 Reconstitution des donnes de dpart
Nous dsignons toujours par Ua le a
ime
vecteur propre de norme 1 de la
matrice X'X, correspondant la valeur propre Ica; Va le a
ime
vecteur propre
de norme 1 de XX'. Nous avons:
'Va = XU
a
=va.J,
a - Reconstitution exacte
Postmultiplions les deux membres de cette relation par u'a et sommons sur
l'ensemble des axes! :
1 Certains d'entre eux peuvent correspondre une valeur propre nulle; ils sont alors
choisis de faon complter la base orthonorme forme par les axes prcdents.
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 23
Dsignons par U la matrice d'ordre (p,p) ayant en colonne les vecteurs
propres Ua de X'X. Ces vecteurs tant orthogonaux et de norme 1, on a :
UU' =1 et donc U'U =1
o 1 est la matrice unit. Mais:
p
= UU'
a=l
Les valeurs propres ,a tant toujours ranges par ordre dcroissant, la
formule prcdente devient:
p
X= [1.1-6]
a=l
et apparat comme une formule de reconstitution du tableau X, partir des
,a et des vecteurs Ua et Va associs (figure 1.1- 6).
Figure 1.1 - 6
Reconstitution exacte du tableau de donnes;
dcomposition aux valeurs singulires.
Remarque
Les mthodes d'analyse factorielle reposent toutes sur une proprit mathmatique
des tableaux (ou matrices) rectangulaires: la dcomposition aux valeurs singulires
[Eckart et Young, 1936]. Cela signifie principalement que, sous des conditions
assez gnrales, une matrice rectangulaire peut tre crite de faon unique conune
une "somme optimale" de matrices de rang 1 (produits d'une matrice ligne par une
matrice colonne). Que veut-on dire par somme optimale? que la premire matrice
de rl'mg 1 constitue la meilleure approximation de rang 1 de la matrice initiale (au
sens des moindres carrs), que la somme des deux premires constituent la
meilleure approximation de rang 2, etc!.
b - Reconstitution approche
Si les p-q plus petites valeurs propres sont trs faibles et juges
"ngligeables", on peut limiter la sommation aux q premiers termes
correspondant aux valeurs propres (,1,,2, ... ,,q):
] Cette proprit qui concerne le tableau de donnes lui-mme, et non pas seulement la
matrice de corrlation ou un tableau de distances construit partir des donnes, a ceci
de remarquable qu'elle implique de faon similaire les lignes et les colonnes du tableau.
24 Mthodes factorielles - chapitre 1
q
X"" X* = I,.jv0. u'a. [1.1-7]
0.=1
Si q est notablement infrieur p, on apprcie le gain ralis en comparant
les deux membres de cette relation: le vecteur .J.Vo. a n composantes et le
vecteur Uo. a p composantes.
Les np termes de X sont donc approchs par des termes construits partir
des q(n+p) valeurs contenues dans le membre de droite.
c - Qualit de l'approximation
La qualit de la reconstitution peut tre value par la quantit:
I,I,xij2
r =_i-=-_-;;-
q I,I,xi/
i
On a encore:
Ir X'' X
r q = -tr-X-'-X-
o tr dsigne l'oprateur trace.
Remplaant X et X" par leurs valeurs tires de [1.1 - 6] et [1.1 - 7], on obtient
immdiatement:
I, Ao.
0.5q
r
q
=-p--
I, Ao.
0.=1
Le coefficient rq, infrieur ou gal 1, sera appel taux d'inertie ou encore
pourcentage de variance relatif aux q premiers facteurs. Son interprtation
comme mesure de la qualit numrique de la reconstitution est assez claire,
mais nous verrons plus loin que le problme de sa signification statistique
est dlicat.
1.1.6 Diversification de l'analyse gnrale
La mtrique (c'est--dire la formule de distance) et le critre d'ajustement
(c'est--dire la pondration des points) varient suivant le problme et donc
suivant la nature des variables.
a - Analyse gnrale avec des mtriques et des critres quelconques
Jusqu' prsent, nous avons considr les espaces munis de la mtrique 1
(matrice identit) et nous avons suppos que tous les points du nuage
avaient la mme importance.
1.1 _ Analyse gnrale, dcomposition aux valeurs sillgulires 25
Cependant il arrive que l'on ait travailler avec une mtrique plus gnrale
et avec des individus dont les masses sont diffrentes (pondrations
calcules aprs un redressement d'chantillon, regroupements divers
d'individus, etc.). Ces masses vont intervenir dans les calculs de moyennes
et lors de l'ajustement des sous-espaces.
Gnralisons le principe d'analyse factorielle prsent ci-dessus des
mtriques et des critres quelconques.
Plaons-nous dans l'espace liVet considrons le nuage de n points-lignes
pesants.
Soit X la matrice d'ordre (n,p) des coordonnes c'est--dire le tableau de
donnes, M la matrice symtrique dfinie positive d'ordre (p,p) dfinissant
la mtrique dans RP, et N la matrice diagonale d'ordre (n,n) dont les
lments diagonaux sont les masses mi des n points.
X=
(n,p)
x'.
1
~
(n,n) ~
Figure 1.1 - 7
X, tableau de coordonnes et N, matrice diagonale des masses
Un vecteur unitaire u de R. P vrifie maintenant la relation de
normalisa tion u'Mu = 1.
La coordonne de la projection Hi du point i sur l'axe u va ut :
H
j
=X;Mu
et l'ensemble F des coordonnes des projections sur l'axe u des n points-
lignes s'exprime par:
F=XMU
Figure 1.1 - 8
Mtrique M dans llV
26 Mthodes factorielles - chapitre 1
Compte tenu du critre d'ajustement, on veut trouver le vecteur u qui
rende maximale la somme pondre des carrs des projections:
Max(ulIm;OH1} = Max(u){u'MX'NXMu}
i
sous la contrainte:
u'Mu = 1
Les rsultats de l'annexe de cette section nous montrent que u est le vecteur
propre de la matrice A=X'NXM correspondant la plus grande valeur
propre .
L'quation de l'axe factoriel u dans RP s'crit:
X'NXMu = u
et les coordonnes factorielles des n points sont donnes par la relation:
'l'=XMu
- Relation entre RPet Rn
Si les masses et les mtriques dans RP (N et M) et dans Rn (P, matrice des
masses des p points-colonnes et Q, mtrique dans R") n'ont pas de relations
privilgies entre elles, on perd les relations de transition et la formule de
recons ti tution.
En analyse en composantes principales, on utilise la mme mtrique dans
les deux espaces. En analyse des correspondances, on verra que la matrice
des masses dans un espace est lie la mtrique de l'autre espace, ce qui
permettra de conserver les relations de transition.
- Axes d'inertie
La quantit:
u'MX'NXMu = 'l"N'l' =Lmi'l'l
i
reprsente l'inertie du nuage de points pesants le long de l'axe
d'allongement maximal, l'axe factoriel u. Elle est gale la valeur propre
associe au vecteur propre u.
Les p vecteurs propres dfinissent donc des axes d'inertie du nuage de
points et on les obtient par ordre d'inerties dcroissantes.
La somme de toutes les valeurs propres donne l'inertie totale du nuage.
C'est la trace de la matrice diagonalise A = X'NXM :
P
Trace(A) = L
a
a=1
A est appele matrice d'inertie.
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires
b - Principe des lments supplmentaires
27
L'analyse factorielle permet de trouver des sous-espaces de reprsentation
des proximits entre vecteurs de description d'observations. Elle s'appuie,
pour cela, sur des lments (variables et individus) appels lments actifs.
Mais elle permet aussi de positionner, dans ce sous-espace, des lments
(points-lignes ou points-colonnes du tableau de donnes) n'ayant pas
particip l'analyse qui sont appels lments supplmentaires ou
illustratifs.
Les lments supplmentaires interviennent a posteriori pour caractriser
les axes. Leur introduction dans l'analyse factorielle constitue un apport
fondamental car elle permettra de conforter et d'enrichir l'interprtation
des facteurs.
[;lG
variables
X X+ -.- (ou colonnes)
supplmentaires
lments actifs
;
individus (ou lignes) supplmentaires
Figure 1.1 - 9
Reprsentation des lments supplmentaires
En effet, il est frquent, dans la pratique, que l'on dispose d'informations
complmentaires largissant le tableau de donnes. Ce peut tre de
nouveaux individus (lignes supplmentaires), par exemple un groupe
tmoin extrieur l'chantillon, et il est intressant alors de positionner ces
tmoins dans le nuage des individus analyss.
Trs souvent dans les applications, ce ne sont pas les individus par eux-
mmes qui sont intressants mais certaines de leurs caractristiques
connues par ailleurs; on cherchera alors reprsenter comme "individus"
supplmentaires les centres de gravit des classes d'individus appartenant
une mme catgorie. Ce peut tre aussi de nouvelles variables (colonnes
supplmentaires); on peut disposer d'un ensemble de variables nominales
qu'il est intressant de faire apparatre dans l'analyse ralise sur des
variables continues (et rciproquement). Par ailleurs de nouvelles variables
observes sur l'chantillon initial peuvent tre disponibles alors qu'on les a
volontairement cartes de l'analyse pour ne conserver qu'un corpus
homogne de caractristiques.
Les lments supplmentaires n'interviennent pas dans les calculs
d'ajustement et ne participent donc pas la formation des axes factoriels. On
28 Mthodes factorielles - chapitre 1
cherche uniquement les positionner dans le nuage des individus ou dans
celui des variables en calculant a posteriori leurs coordonnes sur les axes
factoriels.
Les coordonnes des nouvelles variables sur l'axe a sont les composantes
du vecteur:
et les coordonnes des nouveaux individus sur l'axe a sont:
(X+)Ua
Les lments actifs, dfinis dans un espace et servant calculer les plans
factoriels, doivent former un ensemble homogne en texture (c'est--dire
doivent tre de mme nature, continues ou nominales) pour que les
distances entre lments aient un sens. Mais pour interprter les similitudes
entre ces lments, ils doivent aussi tre homognes en contenu c'est--dire
relatifs un mme thme; on compare les objets selon un certain point de
vue et non pas en utilisant sans diffrenciation tous les attributs connus et
souvent disparates. Les variables supplmentaires, quant elles, ne sont pas
soumises cette condition d'homognit.
Cette dichotomie entre variables actives et variables illustratives est
analogue la distinction tablie entre les variables explicatives (exognes) et
les variables expliquer (endognes) dans les modles de rgression
multiple (cf. section 3.2).
D'un point de vue gomtrique, nous verrons que les deux situations sont
d'ailleurs trs similaires. Notons que les points supplmentaires peuvent
tre considrs comme des points actifs affects d'une masse nulle.
c - Autres approches
La dcomposition aux valeurs singulires est une proprit de tous les
tableaux rectangulaires. Elle fait appel des distances euclidiennes, c'est--
dire des formes quadratiques dfinies positives, et des ajustements de
sous-espaces vectoriels par minimisation d'un critre li ces distances.
D'autres approches sont possibles, qui modifient le type de distance, ou la
nature des sous-espaces, ou les deux. Il faut s'attendre perdre beaucoup des
proprits mathmatiques simples de l'analyse gnrale: unicit de la
dcomposition, symtrie des rles jous par les lignes et les colonnes,
simplicit de la formule de reconstitution, positionnement ais de variables
supplmentaires.
D'autres critres d'ajustements peuvent tout d'abord tre utiliss. A la
mthode des moindres carrs min{I,er J (norme dite "L
2
"), on peut par
exemple substituer celle des moindres valeurs absolues min{I,leilJ (norme
dite "LI")' Nous voquerons nouveau ces normes propos de la
rgression, chapitre 3, 3.2.1. Sur les mthodes d'analyse des donnes
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 29
utilisant la norme LI (dite aussi city-black distance) on consultera les
contributions et points de vue de Fichet (1987, 1988, ainsi que dans
Van Cutsem et al., 1994), Arabie (1991) et le recueil dit par Dodge (1987).
Dans un esprit un peu diffrent, Meyer (1994) donne un algorithme pour
ajuster (au sens des moindres carrs, c'est--dire de L2) une matrice de
distances de type L
p
une matrice de dissimilarit donne.
Pour tudier certaines tables de contingence, notamment les tableaux
d'changes, Domenges et Volle (1979) proposent d'utiliser la distance de
Hellinger: d
2
(x,y) = 'I;rJXi - J"Yd ("analyse factorielle sphrique").
Enfin, sans changer la mtrique ni le critre d'ajustement, on peut songer
ajuster d'autres surfaces que des hyperplans. Ainsi, dans le cas de l'analyse
en composantes principales norme qui est, dans l'espace Rn, l'analyse
gnrale de points situs sur une sphre (cf. 1.2.4), Falissard (1995) propose
d'ajuster une hypersphre.
1.1.7 Annexe 1- Dmonstration sur les extrema de formes
quadratiques sous contraintes quadratiques
Le problme est la recherche du vecteur u qui rend maximale la quantit
u'Au, avec la contrainte u'Mu =l, expression o A et M sont des matrices
symtriques; M est de plus dfinie non-ngative et dfinit la mtrique dans
RP.
On donnera deux dmonstrations lmentaires pour la solution de ce
problme. L'une fait appel aux multiplicateurs de Lagrange (calcul classique
d'extremum sous contrainte), l'autre suppose connues certaines proprits
spectrales des matrices symtriques!.
- Dmonstration directe
La forme quadratique u'Au s'crit:
u'Au = 'IaijUiUj
ij
En drivant cette quantit successivement par rapport aux p composantes
du vecteur u, on voit que le vecteur des drives partielles de u'Au s'crit
sous forme matricielle:
(u' Au) = 2Au
u
1 Le problme est ici un peu plus gnral que celui rencontr prcdemment, pour
lequel A =X'X et M = 1o 1 est la matrice unit. Mais cette formulation plus large,
avec une mtrique et des critres quelconques tels que des masses affectes aux points,
sera utile propos de l'analyse des correspondances et de l'analyse discriminante. Elle
n'introduit gure de difficult supplmentaire au niveau des dmonstrations.
30
De mme:
Mthodes factorielles - chapitre 1
a(u' Mu) =2Mu
au
La recherche d'un maximum li implique que s'annulent les drives du
Lagrangien:
L =u Au -(u' Mu-l)
tant un multiplicateur de Lagrange. Par suite:
aL = 2Au - 2Mu = 0
au
exprime la condition d'extremum. On en dduit la relation:
A u = M u [1.1 - 8]
Prmultipliant les deux membres de cette relation par u', et tenant compte
du fait que u'Mu = 1, il vient:
=u' Au
La valeur du paramtre est donc le maximum cherch.
Lorsque la matrice M est dfinie positive, donc inversible, la relation [1.1 - 8]
s'crit alors:
M-
1
A u = u
u est le vecteur propre de la matrice M-
1
A correspondant la plus grande
valeur propre (si celle-ci est unique, ce qui sera le cas gnral).
Appelons dsormais ul' le vecteur u correspondant la plus grande valeur
I telle que la relation [1.1 - 8] soit vrifie. Cherchons le vecteur u2' unitaire
et M-orthogonal ul (c'est--dire tel que u2M u2 =1 et ulM U2 =0), qui
rend maximale la forme quadratique u2A u2'
On est conduit annuler les drives du Lagrangien:
L =U2Au2 -2(U2Mu2
o
2
et 112 sont deux multiplicateurs de Lagrange.
La condition d'extremum s'crit pour u2 :
aL
- =2Au2 - 22Mu2 - Jl2Mul =0
aU2
En multipliant les divers membres de cette relation par u}, on voit que
=0 (puisque Ut A u2 =
1
ul M u2 = 0).
Il reste donc comme prcdemment:
A u2 =
2
M u2
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 31
Quand M est inversible, u
2
est le second vecteur propre de M-
I
A, relatif la
seconde plus grande valeur propre
2
si celle-ci est unique.
La dmonstration s'tend aisment au cas d'un vecteur unitaire ua pour
a :;; p (i.e.: u ~ ua = 1), M-orthogonal aux vecteurs u ~ trouvs
prcdemment u ~ u ~ = a pour ~ < a ) et rendant maximale la forme
u ~ A ua' On a alors:
Et si M est inversible:
- Seconde dmonstration
Nous ne ferons qu'esquisser cette dmonstration, dans le cas o M est
dfinie positive. On peut alors dcomposer cette matrice sous la forme
classique M = L'L, o L est inversible puisque M est suppose dfinie
positive.
Posant alors u = L-Iy, la contrainte de normalisation u'Mu = 1 s'crit
maintenant y'y =l, et la quantit rendre maximale u'Au devient y'S y,
avec S =L'-IAL-
I
.
Soit T la matrice orthogonale (p ,p) dont les colonnes sont les vecteurs
propres ta de S, norms et ordonns suivant les valeurs propres
a
dcroissantes, et soit A la matrice diagonale dont le a
ime
lment vaut
a
.
Posons encore z =T'y (ce qui implique y =T z car T' =T\ On a alors:
y'Sy = y'TAT'y = z'Az
avec la contrainte z'z =1.
La solution est alors proche. On remarque que }.,I;:: z'Az; en effet:

I
_ z'Az = z' (II - A) z ~ 0
Le maximum }.,I est effectivement atteint pour z' =(1,0,0,0, ...,0), donc pour
y =t
l
et pour u
1
=C\. De la relation S t
1
=
1
t
l
, on tire:
L
'-IAL-
I
~
t
l
= 11.1 t
l
D'o, finalement
l
:
IOn note au passage qu'il suffit ici de procder la diagonalisation d'une matrice
symtrique S (aprs avoir dcompos Msous la fonne : M=L'L), alors que la matrice
prcdente M-IA est en gnral non-symtrique. Cette proprit est utilise dans les
programmes de calcul (en particulier en analyse des correspondances), car la recherche
des lments spectraux est notablement plus rapide et fiable dans le cas des matrices
symtriques.
32
Section 1.2
Mthodes factorielles - chapitre 1
Analyse en Composantes Principales
Conue pour la premire fois par Karl Pearson en 1901, intgre la
statistique mathmatique par Harold Hotelling en 1933, l'analyse en
composantes principales n'est vraiment utilise que depuis l'avnement et
la diffusion des moyens de calculs actuels.
La technique d'analyse en composantes principales peut tre prsente de
divers points de vue. Pour le statisticien classique, il s'agit de la recherche
des axes principaux de l'ellipsode indicateur d'une distribution normale
multidimensionnelle, ces axes tant estims partir d'un chantillon. C'est
la prsentation initiale de Hotelling (1933), puis celle des manuels classiques
d'analyse multivarie, comme l'ouvrage fondamental d'Anderson (1958).
Pour les factorialistes classiques, il s'agit d'un cas particulier de la mthode
d'analyse factorielle des psychomtriciens (cas de variances spcifiques
nulles ou gales; cf. Horst, 1965; Harman, 1967; cf. galement 3.2.9).
Enfin, du point de vue plus rcent des analystes de donnes, il s'agit d'une
technique de reprsentation des donnes, ayant un caractre optimal selon
certains critres algbriques et gomtriques et que l'on utilise en gnral
sans rfrence des hypothses de nature statistique ni un modle
particulier. Ce point de vue, fort rpandu actuellement est peut-tre le plus
ancien. C'est celui qui avait t adopt par Pearson (1901). Bien entendu, il
ne s'agissait pas de l'analyse en composantes principales telle que nous la
prsentons, mais les ides essentielles de la mthode taient dj entrevues
par cet auteur. On trouvera une prsentation plus proche de nos
proccupations dans l'article de synthse de Rao (1964).
L'analyse en composantes principales prsente de nombreuses variantes
selon les transformations apportes au tableau de donnes: le nuage des
points-individus peut tre centr ou non, rduit ou non. Parmi ces
variantes, l'analyse en composantes principales norme (nuage centr-
rduit) est certainement la plus utilise et c'est celle-ci que nous choisirons
pour prsenter les principes de l'analyse en composantes principales.
1.2.1 Domaine d'application
L'utilisateur ventuel de l'analyse en composantes principales se trouve
dans la situation suivante: il possde un tableau rectangulaire de mesures,
dont les colonnes figurent des variables valeurs numriques continues
(des mensurations, des taux, etc.) et dont les lignes reprsentent les
individus sur lesquels ces variables sont mesures.
1.2 _ Analyse en Composantes Principales 33
En biomtrie, il est frquent de procder de nombreuses mensurations sur
certains organes ou certains animaux. En micro-conomie, on aura par
exemple relever les dpenses des mnages en divers postes.
D'une manire gnrale, la condition que doivent remplir ces tableaux
numriques pour tre l'objet d'une description par l'analyse en
composantes principales est la suivante: l'une au moins des dimensions du
tableau (les lignes en gnral) est forme d'units ayant un caractre
rptitif, l'autre pouvant tre ventuellement plus htrogne.
Dans les exemples cits, les lignes ont ce caractre rptitif: on les dsignera
en gnral sous le nom d'individus ou d'observations, les colonnes tant
dsignes sous le nom de variables. Quelquefois, ces lignes pourront tre
considres comme des ralisations indpendantes de vecteurs alatoires,
dont les composantes correspondent aux diffrentes variables.
Pour fixer les ides, nous considrons le tableau R des mesures prises sur
quelques milliers d'hommes actifs concernant leurs temps d'activits
quotidiennes. On dispose de 16 variables dcrivant des temps d'activits, en
minutes par jour (sommeil, repos, repas chez soi, etc.). Les personnes
enqutes sont regroupes en 27 groupes selon l'ge, le niveau d'ducation
et le type d'agglomration. Ce sont ces groupes qui sont observs et sont ici
considrs comme des "individus" (cf. tableau 1.2 - l, au 1.2 - 11). Il s'agit
de disposer d'un tableau de dimensions raisonnables dans le cadre d'un
expos pdagogique, et non pas d'un exemple ayant une porte
mthodologique gnrale, une des attitudes de base en analyse descriptive
des donnes tant au contraire "de ne pas rduire a priori le champ de
l'observable" .
Le tableau R aura en colonne les 16 mesures caractrisant les 27
observations. Le terme gnral rij de ce tableau dcrit la dure moyenne de
l'activit j de l'observation i (constituant un groupe d'individus).
Nous voulons avoir une ide de la structure de l'ensemble des 16 activits,
ainsi que des similitudes ventuelles de comportement entre les groupes
d'individus retenus.
1.2.2 Interprtations gomtriques
Les reprsentations gomtriques entre les lignes et entre les colonnes du
tableau de donnes permettent de reprsenter visuellement les proximits
entre les individus et entre les variables.
a - Pour les n individus
Dans RP, les n(n-l) distances attaches aux couples de points qui
reprsentent des individus ont une interprtation directe pour
l'utilisateur:
P
d
2
(i i') - "'(r." - r.., .)2
, - L..J /) 1 )
j=l
[1.2 -1]
34 Mthodes factorielles - chapitre 1
Il s'agit ici de la distance euclidienne classique. Deux points sont trs
voisins si, dans l'ensemble, leurs p coordonnes sont trs proches. Les
deux individus concerns sont alors caractriss par des valeurs presque
gales pour chaque variable. Dans l'exemple voqu ci-dessus, deux
individus reprsents par des points proches consacrent les mmes
temps aux mmes activits.
b - Pour les p variables
Si les valeurs prises par deux variables particulires sont trs VOlsmes
pour tous les individus, ces variables seront reprsentes par deux points
trs proches dans Rn. Cela peut vouloir dire que ces variables mesurent
une mme chose ou encore qu'elles sont lies par une relation
particulire.
Toutefois la dfinition de ces proximits dans les deux espaces est assez
fruste. Des problmes d'chelle de mesure se posent d'emble : le temps
consacr au sommeil est toujours beaucoup plus important que le temps
pass la lecture.
Par ailleurs, dans un cadre plus gnral, comment calculer la distance entre
deux variables si l'une est exprime en centimtre et l'autre en
kilogramme? Comment interprter un loignement moyen dans RP? Est-ce
que deux individus assez proches dans RP ont des valeurs assez voisines
pour chacune des variables, ou au contraire trs proches pour certaines et
loignes pour d'autres?
L'analyse en composantes principales norme permet de donner des
lments de rponses ces questions.
1.2.3 Analyse du nuage des individus
Nous considrons tout d'abord ici le nuage des n individus non pondrs.
Nous voulons, dans l'espace des variables, ajuster le nuage de n points par
un sous-espace une, puis deux dimensions, de faon obtenir sur un
graphique une reprsentation visuelle la plus fidle possible des proximits
existant entre les n individus vis--vis des p variables.
a - Principe d'ajustement
Ce n'est donc plus la somme des carrs des distances l'origine en
projection qu'il faut rendre maximum (cf. formule [1.1 -1]), mais la somme
des carrs des distances entre tous les couples d'individus:
{
Il Il }
Max L L d ~ i , i )
(H) i i'
1.2 _ Analyse en Composantes Principales 35
Autrement dit, la droite d'ajustement Hl ne doit pas tre astreinte passer
par l'origine, comme Ho dans l'analyse gnrale (figure 1.2 -1).
HO
espace RP
Figure 1.2 - 1
Droite d'ajustement du nuage de Il points
Si hi et hi' dsignent les valeurs des projections de deux points-individus i
et i' sur Hl, on a la relation classique:
n n 2 n n nn
Id
2
(i, i') = I(hj - 14.) = nIh? +nI 'li) - 2IhjIhj,
i,i' ;,i' i, i,i' i
= 2n
2
(!:. 14
2
_Ti
2
) = 2n(hj _Ti)2
n i i
o Ti dsigne la moyenne des projections des n individus:
_ 1 n
h=-Ihi
n i
et correspond la projection sur Hl du centre de gravit G du nuage dont la
jme coordonne vaut:
1 n
1'j =- I1j
n .
1
o
Figure 1.2 - 2
Projections sur Hl
Par consquent, on a :
n Il
Id
2
(i, i') = 2n Id
2
(i,G)
i,i'
36 Mthodes factorielles - chapitre 1
Rendre maximum la somme des carrs des distances entre tous les couples
d'individus revient maximiser la somme des carrs des distances entre les
points et le centre de gravit du nuage G :
MaX(H) ~ i A i i'))
l",
est quivalent :
Si l'origine est prise en G, la quantit maximiser sera nouveau la somme
des carrs des distances l'origine, ce qui correspond au problme de
l'analyse gnrale dans IIV (cf. 1.1.2).
Le sous-espace cherch rsulte de l'analyse gnrale du tableau transform
X, de terme gnral:
x - r,.. -r'
1) - 1) )
b - Distance entre individus
La distance entre deux individus i et i' est la distance euclidienne usuelle
donne par la formule [1.2 1].
Il peut exister des valeurs de j pour lesquelles les variables correspondantes
sont d'chelles trs diverses, (exemple: temps pass au sommeil, temps
pass la lecture); on veut que la distance entre deux points soit
indpendante des units sur les variables. On peut parfois dsirer, surtout
lorsque les units de mesures ne sont pas les mmes, faire jouer chaque
variable un rle identique dans la dfinition des proximits entre
individus: on parle alors d'analyse en composantes principales norme.
Pour cela on corrige les chelles en adoptant la distance:
P n-r,
d
2
( i, i') =If-.!L..!..l.)2
j=l sr
Jn
Sj dsignant l'cart-type de la variable j :
2 1 n 2
Sj = - I/r,j - ry)
n i=l
Finalement, nous retiendrons que l'analyse norme dans RP du tableau
brut R est l'analyse gnrale de X, de terme gnral:
n - r'
x .. - _')__) [1.2 - 2]
1) - sj..Jn
Toutes les variables ainsi transformes sont "comparables" et ont mme
dispersion:
1.2 _ Allalyse eIt Composalltes Prillcipales 37
Les variables sont centres rduites. On mesure l'cart la moyenne en
nombre d'carts-types de la variable j.
c - Matrice diagonaliser
En rsum, l'analyse du nuage des points-individus dans RY nous a amen
effectuer une translation de l'origine au centre de gravit de ce nuage et
changer, dans le cas de l'analyse norme, les chelles sur les diffrents axes.
L'analyse du tableau transform X nous conduit diagonaliser la matrice
C =X'x.
Le terme gnral Cjj' de cette matrice s'crit:
n
Cjj' = LXijXij'
i
soit:
1 n (r,' - rj )(7)" - r.)
c"'=-L J J J
JJ n. ss ..
1 J J
c'est--dire:
Cjj' = corO, j'Y
Cjj' n'est autre que le coefficient de corrlation empirique entre les variables j
et j' (d'o l'utilit du coefficient ...;n introduit au dnominateur de la
relation [1.2 - 2]),
La matrice diagonaliser est donc la nultrice de corrlations.
d - Axes factoriels
Les coordonnes des n points-individus sur l'axe factoriel Ua (a
ime
vecteur
propre de la matrice C associ la valeur propre -
a
) sont les n composantes
du vecteur:
'Va = XUa
Le facteur 'Va est une combinaison linaire des variables initiales.
Puisque le nuage des individus est centr sur le centre de gravit, la
moyenne du facteur est nulle:
et sa variance vaut:
var('Va) =-
a
La coordonne du point-individu i sur cet axe s'crit explicitement:
p p 1'," - r
'liai = LUajXij = LUaj.L.,J-
j=1 j=1 sj".Jn
38
1.2.4
Mthodes factorielles - chapitre 1
Analyse du nuage des points-variables
L'analyse gnrale dveloppe dans la section prcdente nous a montr
qu'en effectuant un ajustement dans un espace, on effectuait implicitement
un ajustement dans l'autre espace. Nous avons volontairement choisi de
commencer en travaillant dans ]RP. Dans cet espace, la transformation du
tableau R initial selon la relation [1.2 - 2] avait deux objectifs:
- d'une part obtenir un ajustement qui respecte dans la mesure du possible
les distances entre points-individus;
- d'autre part, faire jouer des rles similaires toutes les variables dans la
dfinition des distances entre individus.
Notons que la formule [1.2 - 2] ne fait pas intervenir de faon symtrique les
lignes et les colonnes du tableau initial R.
Que signifie, dans ]RI1, la proximit entre deux points-variables j et j' si l'on
prend comme coordonnes de ces variables les colonnes du tableau
transform X ?
a - distances entre points-variables
La distance entre variables dcoule de l'analyse dans ]RP. Calculons la
distance euclidienne usuelle entre deux variables j et j':
Il
d
2
(j, j') ='lJXij - Xij'/
;=1
soit:
2 Il 2 Il 2 n
d (J' J") - 'x" + 'x'" - 2' XX'
, - L 1) L 1) L 1) 1)
i=1 i=1 i=1
Remplaant Xij par sa valeur tire de [1.2 - 2] et tenant compte du fait que:
Sf -1~ r ; n 2
) - n L 1) )
;=1
Il 2 Il Il
on obtient: IX;j =Ix' =1 et galement: Ix;jXij' =Cjj'
;=1 ;=1 ;=1
D'o la relation liant la distance dans R. Il entre deux points-variables j et j'
et le coefficient de corrlation Cj{ entre ces variables:
ce qui implique:
d
2
(j, j'Y = 2 (1 - Cjj' )
o 5 d
2
(j, j'Y 5 4
[1.2 - 3]
Dans l'espace ]Rn, le cosinus de l'angle de deux vecteurs-variables est le
coefficient de corrlation entre ces deux variables (Cjj' =cos (j, j'Y). Si ces deux
1.2 _ Analyse en Composantes Prillcipales 39
variables sont la distance 1 de l'origine (i.e. si elles sont de variance unit),
le cosinus n'est autre que leur produit scalaire.
Figure 1.2 - 3
Systme de proximits entre deux points-variables
Le systme de proximits entre points-variables induit par la relation [1.2 - 3]
est familier au statisticien:
- Deux variables fortement corrles sont trs proches l'une de l'autre
(Cjj' =1) ou au contraire les plus loignes possible (Cjj' =-1) selon que la
relation linaire qui les lie est directe ou inverse:
- Deux variables orthogonales (Cjj' = 0) sont distance moyenne.
Les proximits entre points-variables s'interprtent donc en termes de
corrlations.
Co., -1
J} -
d(j, j') "" 0
Cjj' "" 0
d(j, j'Y "" o[i
Cjj' ",,-1
d(j, j')"" 2
Figure 1.2 - 4
Corrlations et distances entre points-variables
b - Distance l'origine
L'analyse dans ]Rn ne se fait pas par rapport au centre de gravit du nuage de
points-variables, contrairement celui des points-individus, mais par
rapport l'origine.
La distance d'une variable j l'origine 0 s'exprime par:
40 Mthodes factorielles - chapitre 1
2 n 2
d (O,j) =LXij =1
i=1
Tous les points-variables sont sur une sphre de rayon 1 centre l'origine
des axes, la sphre des corrlations.
Les plans d'ajustement couperont la sphre suivant de grands cercles (de
rayon 1), les cercles des corrlations, l'intrieur desquels se trouveront les
points-variables.
projection de 4 variables
Plan factoriel
"cercle des corrlations"
Figure 1.2 - 5
Reprsentation de la sphre et du cercle des corrlations
Remarque
La transformation analytique simple [1.2 - 2] a dans les espaces R. P et Rn des
interprtations gomtriques diffrentes. Considrons par exemple l'opration de
centrage des variables Tij ( Tij - fj) :
Dans RP, cette transformation quivaut une translation de l'origine des axes
au centre de gravit (ou point moyen) du nuage (cf. figure 1.2 - 6).
Dans R. n, cette transformation est une projection paralllement la premire
bissectrice des axes sur l'hyperplan qui lui est orthogonaP (cf. figure 1.2 -7).
o
Figure 1.2 - 6
Transformation dans R. P
1 La matrice P d'ordre (n,n) associe cette transformation a pour terme gnral
Pii' = 0;;, - o 8;;, = 1 si i = i', et 0 sinon. P est idempotente: p2 = P.
n
1.2 _ Analyse en Composantes Principales
ind2
IR
n
avec n=2
Figure 1.2 - 7
Transformation dans IRn
41
c - Axes factoriels ou composantes principales
Nous avons vu dans l'analyse gnrale ( 1.1.4.) qu'il est inutile de procder
la diagonalisation de la matrice XX' d'ordre (n,n) une fois connus les
vecteurs propres Ua et les valeurs propres
a
de la matrice C = X'X.
Le vecteur va = ~ u est en effet un vecteur propre unitaire de XX',
-y
a
relativement la mme valeur propre
a
. Le aime facteur dans IR
n
s'crit:
q>a = X' va = ~ X' XUa = uaJ
-y
a
comme \jfa = XUa' on a:
1 X'
<Pa =r:;= \jf a
'lJ
a
alors les coordonnes factorielles <Pal' des points-variables sur l'axe 0: sont
les composantes de X'va soit encore! de ua.ji:;; :
et l'on a :
l/'aj = cor(j, If! a) [1.2 - 4]
La coordonne d'un point-variable sur un axe n'est autre que le coefficient
de corrlation de cette variable avec le facteur \jf a (combinaison linaire des
variables initiales) considr lui-mme comme variable artificielle dont les
coordonnes sont constitues par les n projections des individus sur cet axe.
1 Ce sont en quelque sorte des sous-produits des calculs dj effectus dans l'autre
espace.
42 Mthodes factorielles - chapitre 1
Les axes factoriels tant orthogonaux deux deux, on obtient ainsi une srie
de variables artificielles non corrles entre elles, appeles composantes
principales, qui synthtisent les corrlations de l'ensemble des variables
initiales.
Remarques
1) L'analyse en composantes principales ne traduit que des liaisons linaires entre
les variables. Un coefficient de corrlation faible entre deux variables signifie donc
que celles-ci sont indpendantes linairement alors qu'il peut exister une relation de
degr suprieur 1 (liaison non linaire).
2) La coordonne d'un point-variable sur l'axe Ct est ncessairement infrieure 1
en valeur absolue:
P 2.
et: L,cor (j,'JIa)=l
a=l
3) Le nuage de points-variables dans IR." n'est pas centr sur l'origine.
1.2.5 Individus et variables supplmentaires
On dispose d'informations complmentaires que l'on veut rapporter
l'analyse des temps d'activits des hommes actifs regroups en catgories.
Par exemple, on veut enrichir cette analyse par une srie d'indicateurs
d'habitudes de frquentation-mdia, constituant des variables continues et
par le niveau d'ducation et l'ge qui sont des variables nominales. On
dsire galement positionner, dans le nuage analys, des groupes de femmes
actives, que l'on va mettre en lignes supplmentaires.
Le tableau de donnes R peut tre ainsi complt en colonne par un tableau
n lignes et Ps colonnes R+ et en ligne par un tableau R+ n
s
lignes et p
colonnes. Il n'est pas ncessaire de connatre le tableau R1 n
s
lignes et Ps
colonnes croisant individus et variables supplmentaires (cf. figure 1.2 - 8).
P P5
n
R
R+
R+ Rt
'-
x
x+
Figure 1.2 - 8
Lignes et colonnes supplmentaires
Les tableaux R+et R+ vont tre respectivement transforms en tableaux X+ et
X+ de faon rendre ces nouvelles lignes et colonnes comparables celles de
X.
1.2 _ A/lalyse ell Composalltes Prillcipales 43
Dans l'espace Rn les ps points-variables supplmentaires peuvent tre
continues ou nominales
1
.
a - Individus supplmentaires
Pour situer les individus supplmentaires par rapport aux autres dans
l'espace R.P il est ncessaire de les positionner par rapport au centre' de
gravit du nuage (dj calcul sur les n individus) et de diviser les
coordonnes par les carts-types des variables (dj calculs sur les n
individus). D'o la transformation:
r+ij - ~
x+ij=---
Sj
Les coordonnes des nouveaux points-individus sont donc les n
s
lignes du
vecteur X+u
u
'
En appelant X
s
le tableau [ ~ ] on obtient simultanment les n + n
s
coordonnes des individus analyss et supplmentaires en effectuant le
produit Xsu
u
.
b - Variables continues supplmentaires
Dans R. n, pour que les distances entre variables s'interprtent encore en
termes de corrlations, ces variables doivent tre valeurs numriques
continues et il est indispensable d'effectuer la transformation:
+ -+
+ r ij - rj
X i j ~
J
On calcule donc les nouvelles moyennes et les nouveaux carts-types
correspondant aux variables supplmentaires, pour positionner celles-ci sur
la sphre de ra yon unit.
Les coordonnes des ps variables supplmentaires sur cet axe sont donc les
ps lignes du vecteur X+'vu et correspondent chacune au coefficient de
corrlation entre la variable et le facteur (cf. formule [1.2 - 4]).
c - Variables nominales supplmentaires
Si la variable mettre en supplmentaire est nominale, on ne peut plus
effectuer la mme transformation.
Dans ce cas, on ramne la variable nominale ayant m modalits, m
groupes d'individus dfinis par les modalits de la variable. On traite
1 L'homognit de nature des variables supplmentaires n'est plus exige sous rserve
des transformations indiques.
44 Mthodes factorielles - chapitre 1
ensuite ces m groupes d'individus comme des individus supplmentaires.
Ce sont les centres de gravit de ces groupes d'individus qui vont tre
positionns dans l'espace RP.
Supposons, par exemple, que l'on mesure la taille et le poids de 10
individus et que l'on dsire mettre en supplmentaire la variable sexe.
Nous disposons du tableau de mesures reprsent figure 1.2 - 9.
variables variable nominale
continues

supplmentaire
modalit 1 modalit 2
actives 2 modalits
(homme) (femme)
taille poid sexe
1taille lPoidsl taille poids
----
1
150 45 2
150 45
168 68 1
168 68
175 72 1
175 72
178 70 2
178 70
i
185 70 1
==>
185 70
160 53 2
160 53
165 49 2
165 49
180 90 1
180 90
175 65 2
175 65
10
174 72 2
174 72
-
lignes 1 177 1 75 1
= 1
177
1
75
1
1167
1
59
1
supplm.
167 1 59 1
Figure 1.2 - 9
Les modalits de la variable nominale supplmentaire
sont des individus supplmentaires
On calcule alors la taille et le poids moyens des hommes (177; 75) et celui des
femmes (167; 59). Ce sont ces points moyens qui vont tre positionns parmi
les points-individus.
F
2
j
F
2
lo:hom 1

*
0
*
*: fem


0
* * * *

0 0
0

0 0 Oc ,..

0
0*
,..* .2,..

G



0

G

FI
0c1o.O 0 *
* *
F
1

0
*

0 0 0
* *
*
0
*



0 0
*


0
0

0
Figure 1.2 - 10
Reprsentation d'une variable nominale supplmentaire
La reprsentation par deux points G
1
et G
2
d'une variable nominale deux
modalits est esquisse sur la figure 1.2 - 10.
1.2 _ Analyse en Composait tes Principales 45
L'analyse d'une variable nominale supplmentaire ne se fait donc pas dans
Rn mais dans IfV .
La figure 1.2 - 11 schma tise le posi tionnement des variables
supplmentaires :
F
2
lments actifs
F
2


---
.....,.."' ..........."".....

j'

./
li
l
'\
/

!
~ \ 3



!


FI
\/
............... ~ 2
FI



\}\,



w "'.///






.v"X.



t ~ ...

...
nuage des individus
'(
variables nominales
supplmentaires

nuage des variables


'f
1.2.6
Figure 1.2 - 11
Reprsentation des variables supplmentaires
Reprsentation simultane
L'analyse du nuage des variables est dduite de celle du nuage des
individus: la reprsentation des variables sur les axes factoriels dans ]Rn aide
l'interprtation des axes factoriels dans RP et rciproquement.
a - Reprsentation spare des deux nuages
Mais les deux nuages ne sont pas dans le mme repre, ce qui rend
impossible la reprsentation simultane des individus et des variables.
46 Mthodes factorielles - chapitre 1
Dans l'espace RP Dans l'espace Rn
L'analyse du nuage des n points- L'analyse du nuage des p points-
individus se fait dans le repre: variables se fait dans le repre:
{G, uI""'u
cv
"" upl {O,vI"'" V cv''''v
n
}

/ / / ~ t ; ; ~
~

u
2

i 0
,
G
l
~
vI!


ul
\

//


\,

~ ...... ~ ..... ~
../
... ...v
.............
......
La reprsentation des individus sur les
La reprsentation des variables sur les
axes factoriels fournit la meilleure
axes factoriels fournit une synthse
visualisation approche des distances
graphique de la matrice de corrlations.
entre les individus.
Figure 1.2 - 12
Nuage des individus dans RP
Figure 1.2 - 13
Nuage des variables dans IRn
Les proximits entre individus s'interprtent en termes de similitudes de
comportement vis--vis des variables et les proximits entre variables en
termes de corrlations. Il faut bien se garder d'interprter la distance
sparant un point-variable d'un point-individu car ces deux points ne font
pas partie d'un mme nuage dans un mme espace: la superposition de ces
deux plans factoriels est dnue de sens.
b - Justification d'une reprsentation simultane
Cependant si l'on considre non plus des points-variables mais des
directions de variables dans IRP, on peut alors envisager de reprsenter
simultanment, dans cet espace, la fois les points-individus et des vecteurs
reprsentant les variables.
Dans l'espace IRP des n points-individus, aprs transformation du tableau de
donnes, on dispose de deux systmes d'axes:
- les anciens axes unitaires (el,e2,. .. ,ej,... ep) correspondant aux p variables
avant l'analyse o :
ej' =(0,0, ...,1,0,...,0)
{ej, (j = l, ..., p)} est le systme d'axes de rfrence pour les coordonnes
initiales des individus.
- les nouveaux axes unitaires {ua, (ex =l, .. .,p)} constitus des axes factoriels.
La possibilit d'une reprsentation simultane rside alors dans la
projection (en ligne supplmentaire) de l'ancien axe ej sur le nouvel axe uu.
1.2 _ Analyse eu Composantes Principales
La coordonne de la projection de ej sur Ua. vaut:
ej Ua. = ua.j
47
individui
x =
('l.p)
variable il o... 0 1 0 ... 01 ancien axe ej dans RP
Figure 1.2 - 14
Ancien axe dans RP en supplmentaire
La variable j est lin individu particulier
Il est ainsi possible de reprsenter dans RP les directions donnes par les
variables d'origine sur le plan factoriel du nuage des individus; ces
directions peuvent tre matrialises par des vecteurs unitaires. Ces
vecteurs constituent le repre d'origine dans lequel on a construit le nuage
des individus. Ils sont donc orthogonaux deux deux 1.
Ce qui s'appellera reprsentation simultane est donc "l'crasement" du
repre orthonorm des axes d'origine sur le plan factoriel du nuage des
individus.
F
2
.//'....

/'

l
j

F
1
"
\ ..

"\;."
Figure 1.2 - 15
Projection des anciens axes sur le plan factoriel
du nuage des individus
Rappelons que, dans R/l, la coordonne de la variable j sur l'axe ex est gale
au coefficient de corrlation (cf. formule [1.2 - 4]) entre la variable et le
facteur et vaut:
1 Il apparat donc clairement que cette reprsentation des variables est distincte du
nuage de variables dcrit prcdemment.
48 Mthodes factorielles - chapitre 1
<l'aj ={f;;Uaj
Les deux nuages des variables ne concident donc pas. Ils diffrent l'un de
l'autre par une dilatation dfinie sur chaque axe par le coefficient {f;;.
Dans le cas de la reprsentation simultane, qui est en fait une
reprsentation dans H.P, on n'interprte pas la distance entre deux variables
en terme de corrlation, puiqu'il s'agit en ralit des extrmits de deux
vecteurs unitaires orthogonaux
1
. L'interprtation de la distance entre deux
variables (en terme de corrlation) ne peut se faire
2
que dans IR. n. En tenant
compte de ces considrations, il est licite de comparer, sur la reprsentation
simultane, les positions respectives de deux individus vis--vis de
l'ensemble des variables, ou de deux variables vis--vis de l'ensemble des
individus.
On dispose ainsi d'une perspective dforme du systme d'axes originel
tenant compte des liaisons existant entre les variables initiales.
La direction d'une variable dfinit des zones pour les individus: d'un ct,
ceux qui prennent des fortes valeurs pour cette variable et, l'oppos, ceux
qui prennent des valeurs faibles. On s'intressera l'loignement des
individus dans la direction de la variable. A l'intersection des axes se
trouvent les valeurs moyennes de toutes les variables.
Remarques:
1) Si l'chelle des coordonnes des points-variables a une interprtation en termes
de corrlations, il n'en est pas de mme pour les points-individus. On appliquera il
leurs coordonnes un coefficient de dilatation convenable. La valeur JiilP assure
souvent un positionnement dans le plan compatible avec la rpartition des points-
variables et permet ainsi une reprsentation quilibre des deux nuages.
2) Dans la reprsentation simultane, il ne peut y avoir de variables continues
supplmentaires (elles ne constituent pas des axes d'origine pour le positionnement
des individus). Il peut y avoir des variables nominales supplmentaires car ce sont
des individus supplmentaires.
1.2.7 Analyse en composantes principales non norme
L'analyse en composantes principales non norme revient considrer le
nuage de points centr et non rduit. On gnralisera l'analyse en faisant
jouer maintenant chaque point-individu un rle proportionnel sa masse
(ce que l'on aurait videmment pu faire propos de l'analyse norme).
1 Toutes ces distances sont gales ...[2 dans l'espace complet.
2 On note toutefois que le nuage projet des extrmits des vecteurs unitaires dans lRP
et le nuage des extrmits des vecteurs variables dans Rn ont gnralement des allures
voisines, surtout si les valeurs propres sont presque gales, car alors la dilatation est
peu dformante.
1.2 _ Analyse en Composantes Principales 49
a - Principe de l'analyse et nuage des individus
Plaons-nous dans l'espace RP et considrons le nuage des points-individus
pesants, centr sur le centre de gravit G. L'analyse en composantes
principales revient effectuer une analyse gnrale de points pondrs avec
comme origine le centre de gravit du nuage.
Le tableau de donnes initiales R subit plusieurs transformations: on
construit le tableau X de donnes centres et chaque individu i est affect
d'une masse ou d'un poids
1
Pi lments diagonaux de la matrice diagonale
N.
Le tableau Z soumis l'analyse en composantes principales non norme est
par consquent de la forme:
R =
(n,p)
~
(n,n) ~
Z =
(n,p)
donnes
initiales
1j
donnes
centres
Xij = rij -'j
matrice
des poids
Pi
donnes
transformes
Zij =#j(rij -j)
Figure 1.2 - 16
Transformation du tableau de donnes
en analyse en composantes principales non norme
La matrice diagonaliser est la matrice d'inertie autour du centre de gravit
du nuage G:
A =Z'Z =X'NX
de terme gnral:
n
ajj' = "iPi(rij - j )(rij' - 'j')
;=1
Si les masses reprsentent des frquences, alors la matrice diagonaliser est
la matrice des covariances.
A partir de l, on dtermine les axes factoriels Ua tels que u ~ u a = 1. Les
coordormes factorielles sur ces axes sont donnes par:
'l'a = XUa
dont les composantes s'crivent:
P
li!ai = I.<'ij -'j )uaj
j=l
1 Les termes de masse et de poids sont utiliss indiffremment en statistique. Ils
dsignent souvent des frquences relatives ou des probabilits a priori.
50
avec:
Mthodes factorielles - chapitre 1
n 2
L Pil/!;a =
a
i=1
b - Nuage des variables
L'analyse du nuage des Pvariables dans IR
n
revient faire l'analyse gnrale
du tableau Z :
avec:
n n
LP; =1 et rj =LPir;j
;=1 ;=1
La distance induite entre deux variables s'exprime par:
n
d
2
(j,j') = IJz;j - Zif)2
;=1
soit:
n n n
d
2
(J' J") = z? + "z?, - ZZ'
, L 'l LJ 'l L 'l 'l
;=1 ;=1 ;=1
Par consquent! :
d
2
(j, j') = var( j) +var( j') - 2cov(j, j') [1.2 - 5]
cov(j,j') > 0
...:"d 20,j')
..jVar(j')
o ..... i

cov(j,j') = 0
i'\ : .
""i
cov(j,j') < 0
Figure 1.2 -17
Distance entre deux variables
La distance entre deux variables s'exprime en terme de covariance et
augmente avec les variances. Elle diminue si la liaison est positive et
augmente si la liaison est ngative.
La distance d'une variable l'origine des axes est sa variance:
2 n 2 Il 2
d (0, j) = var(j) =IZ;j =LP;(r;j - rj)
;=1 ;=1
1 La formule [1.2 - 3] est un cas particulier lorsque varO)=varQ')=l, c'est--dire lorsqu'il
s'agit d'une analyse en composantes principales norme.
1.2 _ Analyse ell Composantes Principales 51
Par consquent, pour l'analyse en composantes principales non norme, la
sphre de corrlations n'est plus l'espace de dpartI.
1.2.8 Analyses non-paramtriques
Ces mthodes ne diffrent de la prcdente que par une transformation
prliminaire des donnes. Elles sont recommandes lorsque les donnes de
base sont htrognes. Elles donnent des rsultats d'une grande robustesse,
se prtant par ailleurs des interprtations simples en termes statistiques.
a - Analyse des rangs
Le tableau initial des donnes est transform en tableau de rangs.
L'observation i de la variable j consiste alors en un classement qij : c'est le
rang de l'observation i lorsque les n observations sont classes par ordre de
grandeur. Dans ces conditions, la distance entre deux variables jet j'est
dfinie par la formule
2
:
d
2
(j, j') = ( ~ 1) (qij - qij' /
n n - n+ i=l
L'utilisation des rangs sera justifie dans les contextes suivants:
- Les donnes de base peuvent tre elles-mmes des classements, auquel
cas ce type d'analyse s'impose.
- Les chelles de mesure des variables peuvent tre si diffrentes que
l'opration de rduction pratique par l'analyse en composantes
principales norme reste insuffisante. De plus cette opration ne remdie
pas par exemple la dissymtrie des distributions. Il parat enfin plus
justifi de synthtiser une famille de classements qu'un ensemble trs
htrogne de mesures.
- Les hypothses a priori faites implicitement sur les mesures sont plus
faibles et par consquent moins arbitraires: la loi des distances est
maintenant non-paramtrique; nous disposerons donc de seuils de
confiance qui ne dpendront que de l'hypothse de continuit des lois
des observations, plus plausible que celle de normalit.
- Enfin, les reprsentations fournies sont robustes, trs peu sensibles
l'existence de valeurs aberrantes, ce qui sera souvent une qualit
apprciable.
Les rgles d'interprtation se dduisent de celles de l'analyse en
composantes principales puisque c'est cette analyse que l'on effectue aprs
1 Dans une reprsentation simultane, les anciens axes (distance 1 de l'origine) seront
toujours dans un cercle de corrlations (cf. 1.2.6.).
2 On reconnat dans cette formule le complment 1 du coefficient de corrlation de
Spearman (cf. Kendall, 1962).
52 Mthodes factorielles - chapitre 1
l'opration de transformation en rangs
1
. La proximit entre deux variables
s'interprte en terme de corrlation de rangs: deux variables seront trs
proches pour des classements voisins des observations; au contraire, deux
variables loignes correspondront des classements pratiquement
inverses. Deux observations seront proches si elles ont des rangs similaires
pour chacune des variables. Enfin, dans la reprsentation simultane, on a
une ide de l'ensemble du classement des observations pour une variable
en examinant les positions respectives de cette variable et de l'ensemble des
observations 2.
b - Analyse en composantes robustes
Le critre d'ajustement des moindres-carrs est particulirement bien adapt
la distribution normale. Dans le cas d'une distribution uniforme (cas de
l'analyse des rangs), il tend donner une importance excessive aux
observations extrmes. On rendra donc plus robuste l'analyse par une
transformation qui "normalise" la distribution uniforme des rangs.
Considrons la k
ime
observation de n observations ranges et soit F la
fonction de rpartition de la loi Normale. On remplacera l'observation de
rang k par la valeur yk tire de la jonction de rpartition inverse de la loi
Normale
3
:
Yk =F-
1
(_k_)
n+1
F
o !k
Figure 1.2 - 18
Transformation suivant la fonction de rpartition inverse de la loi Normale
Pour n grand, la transformation est quivalente au remplacement de la
k
ime
observation par l'esprance de la k
ime
observation dans un
chantillon rang de n valeurs normales.
1 Notons qu'il n'est pas indispensable ici de rduire en terme d'cart-type car tous les
rangs ont la mme variance.
2Ajoutons enfin que le caractre non-paramtrique de la reprsentation obtenue permet
de procder des tests de validit sur les valeurs propres. La loi des valeurs propres
issues de l'analyse d'un tableau de rangs ne dpend en effet que des paramtres n et p,
nombres de lignes et de colonnes du tableau. Il est donc possible de procder une
tabu lation permettant de connatre les seuils de signification des valeurs propres.
3 On trouve dj ce type de transformation dans Fisher et Yates (1949).
1.2 _ Analyse ell Composantes Principales
1.2.9 Aperu sur les autres mthodes drives
53
De nombreuses techniques sont directement drives de l'analyse en
composantes principales. Les variantes non-paramtriques du paragraphe
prcdent en sont des exemples.
Certaines prsentations de l'analyse des correspondances (cf. section 1.3)
considrent cette mthode comme une analyse en composantes principale
particulire. Cela est possible si l'on traite les deux espaces (lignes et
colonnes) sparment, ce qui n'est pas l'optique choisie ici. Ce traitement
spar masque un des apports mthodologiques fondamentaux des analyses
factorielles descriptives. L'analyse en composantes principales, qu'il s'agisse
d'analyse norme ou non-norme, analyse les individus par rapport leur
centre de gravit et les variables par rapport l'origine des axes. Cette
dissymtrie de traitement des lignes et des colonnes correspond des
domaines d'applications spcifiques et induit des rgles d'interprtation
particulires. La dcomposition aux valeurs singulires (ou encore analyse
gnrale, ou thorme d'Eckart et Young) est bien le noyau thorique
commun aux deux mthodes.
Citons parmi les mthodes drives l'analyse des corrlations partielles ou
analyse avec variables instrumentales (Rao, 1964), qui sera aborde au
chapitre 3, section 3.6. Dans ce cas, on ne se contente plus d'liminer les
effets de l'htrognit des variables (oprations de centrage et de
rduction) mais on se propose d'liminer galement l'effet d'autres
variables, en procdant une rgression multiple pralable. L'analyse
logarithmique (Kazmierczak,1985) est une analyse en composantes
principales non-norme du tableau (doublement centr en lignes et en
colonnes) des logarithmes des variables initiales. Cette variante possde
d'intressantes proprits de stabilit et de robustesse.
D'autres techniques enfin, comme la rgression sur composantes
principales ( 3.2.5) ou la classification sur facteurs (section 2.4) sont plutt
des techniques complmentaires que drives.
1.2.10 Elments pour l'interprtation
Les axes factoriels permettent d'obtenir la meilleure visualisation approche
(au sens des moindres carrs) des distances entre les individus d'une part et
entre les variables d'autre part. Pour interprter les facteurs, il faut apprcier
correctement cette approximation. On procdera dans un premier temps
un examen de l'inertiel de chaque facteur puis on s'intressera aux
lments contribuant construire et dfinir les facteurs.
1 Inertie, terme emprunt la mcanique, est ici synonyme de variance, terme
statistique.
54 Mthodes factorielles - chapitre 1
a - Inertie lie aux facteurs
Rappelons que la valeur propre (ou l'inertie lie un facteur) est la variance
des coordonnes des points-individus sur l'axe correspondant. C'est un
indice de dispersion du nuage des individus dans la direction dfinie par
l'axe.
Il n'existe pas de critres simples et dfinitifs qui permettent de se prononcer
sur l'importance d'une valeur propre. Les problmes de validit des
rsultats communs l'ensemble des mthodes factorielles seront tudis
plus systmatiquement dans le chapitre 4. On mentionnera ici simplement
les rgles pratiques les plus courantes.
Dans une analyse norme, la somme des inerties est gale au nombre de
variables et donc l'inertie moyenne vaut 1. Chaque axe tant une
combinaison particulire des variables d'origine, on s'intresse en gnral
aux axes ayant une inertie "notablement" suprieure la moyenne!. On
observe souvent une dcroissance assez irrgulire des premires valeurs
propres (Figure 1.2 - 19).
Si les donnes sont peu structures (les variables ne sont pas fortement
corrles entre elles), le nuage a une forme "rgulire". Dans ce cas, les
valeurs propres sont rgulirement dcroissante" (Figure 1.2 - 20) et
l'analyse factorielle ne fournira pas des rsultats intressants.
l""'A*A*Io"'* AAA"*"""'A;U
1" "
I-
I-
I-
I-
I-
l''
l'
1* liA A,,,,,,,,, IiIiAI"UItU U A'" >UA/tH
IAA"*UA* AltA __ /<AHA " ... "
1*"* A'***AAAAAUUUAUHU**UA--.
l'
.............,_.................-.....-
1" .... " AA'*' Ji ... JI ViA' Ali'
1 ... ", ... AH "
1
.........
I-
I-
I-
I......
,-
1'-
1....
I-
i'
Figure 1.2 - 19
Paliers dans la dcroissance
des valeurs propres
Figure 1.2 - 20
Dcroissance rgulire
des valeurs propres
Les pourcentages d'inertie des axes dfinissent les "pouvoirs explicatifs" des
facteurs: ils reprsentent la part de la variance (ou inertie) totale prise en
compte par chaque facteur. Son apprciation doit cependant tenir compte du
nombre de variables et du nombre d'individus. Un taux d'inertie (relatif
un axe) gal 10% peut tre une valeur importante si le tableau possde 100
variables et faible s'il n'en a que 10. Comme nous le signalerons propos de
l'analyse des correspondances (section 1.3) et sur la validit des rsultats
1 Cette rgle, toute empirique, est adopte par certains utilisateurs.
1.2 _ Analyse en Composantes Principales 55
(chapitre 4), l'inertie est une mesure pessimiste du pouvoir explicatif des
facteurs, lie parfois de faon assez arbitraire au codage des donnes.
L'importance d'un facteur peut dpendre d'informations exognes
(variables supplmentaires par exemple).
11 existe d'autres aides l'interprtation qui permettent d'apprcier les rles
respectifs des lignes, des colonnes, des axes en analyse en composantes
principales.
b - Aides l'interprtation
On procde axe par axe pour dfinir les composantes principales. L'examen
du plan factoriel permet de visualiser les corrlations entre les variables et
d'identifier des groupes d'individus ayant pris les mmes valeurs pour les
mmes variables.
Considrons le cas de l'analyse en composantes principales norme.
- les variables
Nous ne nous plaons pas ici dans le cas de la reprsentation simultane
mais dans le nuage des variables (p points de IR
n
).
Les variables fortement corrles avec un axe vont contribuer la dfinition
de cet axe. Cette corrlation se lit directement sur le graphique puisqu'il
s'agit de la coordonne du point-variable j sur l'axe a (formule [1.2 - 4]).
On s'intresse par consquent aux variables prsentant les pl us fortes
coordonnes (ce qui les situent proches du cercle de corrlations) et l'on
interprtera les composantes principales en fonction des regroupements de
certaines de ces variables et de l'opposition avec les autres.
Rappelons que le cosinus de l'angle sous lequel on voit deux points-
variables actives dans Rn n'est autre que le coefficient de corrlation de ces
deux variables. Selon la qualit de l'ajustement, cette proprit sera plus ou
moins bien conserve en projection. On se gardera d'interprter la distance
entre deux variables actives qui ne sont pas proches du cercle de corrlation.
Ainsi l'examen du plan factoriel permet de visualiser les distances relles et
donc les corrlations entre les variables actives et d'apprcier la qualit de
leur reprsentation. La figure 1.2 - 22 du paragraphe suivant donne un
exemple de cercle des corrlations dans le plan des deux premiers facteurs.
Dans le cas des variables continues supplmentaires, les corrlations n'tant
pas transitives, il est prudent de ne pas interprter abusivement les
proximits entre variables en terme de corrlation, bien que celles-ci en
soient souvent de bonnes images. Ceci sera comment plus loin au 1.2.11.
- Les individus
Si les points-individus ne sont pas anonymes pour l'tude, on s'intresse
ceux qui participent la formation des axes. On calcule la contribution de
56 Mthodes factorielles - chapitre 1
chaque point i (de masse mi) l'inertie de l'axe Ct. Celle-ci s'exprime par la
formule:
2
C
(
') - mi lJfai
ra 1 -

a
o
a
est l'inertie de l'axe Ct et est la contribution de l'individu i
l'inertie de cet axe. On a:
n
I,Cra(i) = 1
i=l
On s'intressera surtout aux individus qui ont les plus fortes contributions
relatives aux axes.
Lorsque les n individus sont affects d'une mme masse gale 1/ n,
l'inertie d'un point varie comme sa distance au centre de gravit, Les
individus qui contribuent le plus la dtermination de l'axe sont les plus
excentrs et l'examen des coordonnes factorielles ou la lecture du
graphique suffisent interprter les facteurs dans ce cas. La reprsentation
des individus sur le plan factoriel permet d'apprcier leur rpartition et de
reprer des zones de densits plus ou moins fortes.
- Possibilit d'apparition de facteur "taille"
L'analyse du nuage des variables se faisant partir de l'origine, les variables
peuvent tre toutes situes du mme ct d'un axe factoriel. Une telle
disposition apparat lorsque toutes les variables sont corrles positivement
entre elles. Si pour un individu, une variable prend une valeur forte, toutes
les autres variables prennent galement des valeurs fortes. Cette
caractristique apparat le plus souvent sur le premier axe, que l'on appelle
alors "facteur taille" .
-ind3
.. ; ; , ..
......."........,.
o
oind4
oindS
Figure 1.2 - 21
Exemple de Facteur taille
o
ind7-
oind8
-indl
ind2
0
-ind6
On peut lire, par exemple sur la figure 1.2 - 21, que les individus 4 et 5 ont
des comportements semblables caractriss par des valeurs faibles pour les
1.2 _ Analyse en Composantes Principales 57
trois variables, alors que les individus 2 et 8 ont au contraire simultanment
des bons "scores" pour ces mmes variables. L'orthogonalit des axes fait
qu'il ne peut exister qu'un seul facteur taille.
1.2.11 Exemple d'application
Nous prsentons ici l'exemple (cf. tableau 1.2 - 1) relatif aux temps
d'activits quotidiennes voqu au paragraphe 1.2.1.
Le CESP (Centre d'tude des Supports de Publicit) a relev, dans son
Enqute Budget-temps Multimdia de 1991/1992 auprs de 17 665 personnes,
des descripteurs de frquentation de divers mdias (radio, tlvision, presse)
et des temps d'activits quotidiennes (cf. Boeswillwald, 1992). Ont t
galement releves de nombreuses caractristiques socio-conomiques,
parmi lesquelles l'ge, le sexe, l'activit, le niveau d'ducation, et le lieu de
rsidence de ces personnes, ce qui a conduit crer 96 catgories en croisant
ces divers critres.
Nous nous intressons seulement ici la sous-population des hommes
actifs, soit 27 groupes qui seront, pour cet exemple, les "individus". On
cherche connatre les associations entre les temps consacrs diffrentes
activits par les "individus" observs et tudier les liens entre ces familles
d'activits et les caractristiques de base des individus.
Enfin, on se propose d'tudier le lien entre les activits quotidiennes et la
frquentation de divers mdias (presse, radio, tlvision, cinma). Pour ce
faire, on fera intervenir les caractristiques socio-conomiques (variables
nominales) et les habitudes de frquentation des mdias (variables
numriques continues) en tant que variables supplmentaires.
Lecture du tableau 1.2 - 1
(16 variables continues actives)
Les 27 "individus" (qui sont en ralit dans le cadre de cet exemple des
groupes d'individus) sont reprs par un identificateur en 4 caractres:
-le 1er caractre est l'ge du groupe (l=jeune, 2=moyen, 3=g)
- le 2me caractre est ici toujours gal 1 (car il s'agit ici d'une slection
d' hommes actifs) .
- le 3me est le niveau d'ducation (l=primaire, 2=secondaire,3=suprieur)
-le 4me est le type d'agglomration (l=communes rurales; 2=villes
moyennes; 3=villes importantes; 4=agglomration parisienne;
5,6,7 =groupes mixtes).
(On trouvera des libells plus dtaills des variables dans le tableau 1.2 - 2
ci-aprs.)
On lit par exemple sur la premire ligne du tableau 1.2 - 1 que le groupe
'1111' Ueunes, actifs, peu instruits, ruraux) consacre en moyenne par jour
463.8 minutes au "sommeil", 23.8 minutes des activits regroupes sous la
rubrique "repos", 107.3 minutes pour les "repas chez soi", etc.
Tableau 1.2 - 1: Budget-temps agrg quotidien de 27 groupes d'hommes actifs
1DENT Somm Repo Reps Repr Trar Mna Visi Jard Lois Disq Lect Cour Prom A pi Voit Frq
U1
00
1111
1115
1121
1122
1123
1124
1136
1133
1134
2111
2112
2117
2121
2122
2123
2124
2131
2132
2U3
2134
3116
3117
3121
3122
3123
3136
3137
463.8
515.6
463.3
456.4
478.0
465.1
458.4
457.2
465.2
449.0
450.2
455.2
461. 9
453.7
433.1
438.3
457.7
455.0
467.3
433.5
473 .0
461. 9
453.4
485.1
456.7
444.2
438.4
23.8
58.5
34.2
43.1
44.2
41.6
47.4
30.7
40.2
42.1
63.
47.
39.3
44.7
49.8
32.8
44.0
47.0
37.5
35.6
51.5
60.0
45.6
53.5
43.2
53.6
50.7
107.3
102.7
84.8
74.2
76.7
85.2
94 .7
82.0
78.6
86.2
86.7
95.6
90.3
97.5
91. 7
102.3
87.9
78.9
86.9
76.1
99.3
103.7
86.2
86.0
94.6
90.7
81. 0
4.8
10.4
17 .1
21.9
15.2
23.7
15.1
26.2
31.1
7.9
9.8
9.0
8.5
18.7
12.6
11.1
6.9
31.6
21.9
17 .1
6.3
9.
7.8
.3
12.1
7.2
11.2
300.0
208.8
298.3
239.0
212.3
226.0
314.3
269.8
268.6
312.5
249.6
250.8
323.5
269.0
283.7
)J8.3
313.0
380.6
264.0
355.0
356.3
240.5
358.7
222.
265.3
302.4
306.6
21.3
41.9
18.1
26.0
22.3
37.0
25.3
52.1
36.3
15.1
40.4
30.4
14.9
23.1
22.4
28.0
24.4
23.9
40.8
34.1
21.2
35.3
12.9
24.7
30.5
31.7
19.3
51. 0
30.0
37.8
51.2
42.0
42.5
39.1
37.6
21.6
16.1
55.6
13.5
21.7
39.6
21.0
6.5
23.2
7.
27.6
13.4
27.6
14.5
18.5
23.2
23.7
16.4
23.8
82.3
32.9
55.8
59.7
43.7
16.3
42.4
35.6
4.0
112.9
83.3
57.3
81. 8
93.5
62.9
64.8
63.8
40.0
33.4
31.7
82.1
83.4
54.4
91.9
61.1
97.6
10.5
10.0
2.1
18.4
18.4
18.4
10.7
16.9
25.6
19.4
15.4
3.0
7.9
15.4
3.1
13.1
13.8
9.2
13.0
11.9
12.6
8.6
1.4
4.2
8.5
9.1
4.7
13.6
1.2
4.6
5.9
3.6
2.3
8.7
.9
6.0
6.0
.0
2.2
.9
1.2
3.4
6.2
1.4
.6
.0
1.6
.2
.0
.0
.0
.0
2.
2.4
.0
.0
.6
2.6
.6
6.4
9.4
16.7
8.0
14.8
2.2
.0
.0
5.3
12. 1
7.3
19.8
11.8
10.3
10.8
13.2
1.5
7.
.9
3.7
11.
4.3
18.
41.3
33.7
30.7
52.2
48.3
44.3
34.5
42.8
46.9
32.1
45.0
52.2
26.0
42.0
38.1
34 .9
30.0
23.3
5 . j
37.5
35.7
46.1
34.3
52.9
50.1
38.8
67.6
6.9
8.3
5.9
9.5
14.7
13.7
4.6
10.4
10.7
7.6
9.
15.1
3.8
12.1
11.6
7.4
7.3
1.4
6.7
8.
13.4
5.7
3.3
7.1
17.
13.6
8.
7.1
24.6
8.8
10.8
15.5
19.8
6.4
12.0
21. 9
8.1
10.4
15.7
7.4
10.6
Il.7
14 . 1
7.5
9.
lu.7
22.3
7.1
16.6
10.3
9.9
13.2
Il.4
18.6
52.
29.
56.
72.7
72.8
59.0
61.5
81.4
48.3
60.1
61. 9
49.1
59.6
62.4
47.6
53.2
69.7
59.4
72.8
57.5
40.6
53.3
48.7
75.
46.3
61.8
63.1
135.8
225.8
135.8
142.3
167.7
145.1
103.4
107.6
82.4
153.9
145.4
194.8
130.8
129 .1
168.6
130.5
108.3
100.0
135.2
96.5
107.7
183.7
143.1
166.3
185.3
127.2
143.3
1.2 _ Analyse en Composantes Principales 59
L'analyse du tableau de donnes (tableau 1.2 -1) nous conduit tout d'abord
calculer les paramtres descriptifs lmentaires regroups dans le tableau
1.2 - 2. Les moyennes et cart-types vont servir transformer les variables de
base et n'interviendront plus directement dans la suite. Il importe donc de
prendre connaissance de ces mesures de niveau et de dispersion. Les valeurs
extrmes sont galement utiles pour apprcier la qualit de l'information
recueillie.
Ce tableau donne les mmes paramtres pour les variables continues
supplmentaires. Pour le thme "budget-temps", trois variables seront
projetes a posteriori: autres activits, total des activits domicile, total des
activits dclares en dplacement, ces deux dernires tant des
regroupements de variables actives; pour le thme "frquentation mdia"
(qui donne lieu une mesure de dure globale au niveau des variables
actives) six variables dcrivent les intensits de contacts avec le cinma, la
radio, la tlvision, les presses quotidiennes et magazines, en isolant dans
celle-ci les hebdomadaires dits "News".
Tableau 1.2 - 2
Statistiques sommaires des variables continues
effectif total: 27
IDEN - LIBELLE
variables actives
MOYENNE ECART- MINIMUM MAXIMUM
TYPE
Somm - Sorruneil
Repo Repos
Reps - Repas chez soi
Repr - Repas restaurant
Trar - Travail rmunr
Mna - Mnage
Visi - Visite amis
Jard - Jardinage, Bricolage
Lois - Loisirs extrieur
Disq - Disque cassette
Lect - Lecture livre
Cour - Courses dmarches
Prom - Promenade
A pi - Dplacement a pied
Voit - Dplacement en Voiture
Frq - Frquentation Mdia
458.91
44.63
89.18
13.87
286.27
27.90
27.64
58.49
11. 42
2.54
7.95
40.99
9.06
12.66
58.38
140.58
16.47
8.90
8.90
7.82
46.75
9.29
13.26
27.39
5.95
2.32
5.47
9.47
3.88
5.01
11.29
32.56
433.10
23.80
74.20
.30
208.80
12.90
6.50
4.00
1. 40
.00
.00
23.30
1. 40
6.40
29.40
82.40
515.60
63.10
107.30
31. 60
380.60
52.10
55.60
112.90
25.60
8.70
19.80
67.60
17.60
24.60
81.40
225.80
Variables continues supplmentaires
Autr - Autres activits
Domi - Total Domicile
Tdep - Total Dplacement
Habitudes Cinema
Habitudes Radio.
Habitudes Tlvision
Habitudes Presse Quotidienne
Habitudes Presse magazine
Habitudes Hebdomadaires News
12.71
928.73
88.45
.14
1. 92
3.20
.18
3.56
.31
5.70
49.92
14.65
.14
.23
.37
.14
.74
.18
2.10
826.00
67.50
.00
1.49
2.13
.03
2.00
.00
25.90
1034.00
122.10
.60
2.64
3.90
.53
5.31
.67
Tableau 1.2 - 3 : Matrice des corrlations, et valeurs propres correspondantes
0'\
0
Sommei 1 1 1.00
Repos .21 1. 00
Repas c. .21 .10 1. 00
Repas r. -.08 -.30 -.53 1. 00
T'ravail -.52 -.28 -.02 -.01 1. 00
Mnage .20 .08 -.01 .39 -.46 1. 00
Visites .27 -.08 -.07 .10 -.47 .15 1.00
Jardin. -.09 .19 .43 -.64 .08 -.37 -.02 1. 00
Loisirs -.17 -.61 -.55 .52 .10 -.01 .12 -.39 1. 00
Disques .07 -.17 -.15 .52 -.46 .50 .30 -.42 .25 1. 00
Lecture -.44 -.21 -.15 .3B .24 .OB -.36 -.51 .27 -.01 1.00
Courses -.04 .1B -.17 -.03 -.56 .23 .24 -.24 -.01 .OB .18 1.00
Promen. .00 .09 .04 -.02 -.45 .27 .18 -.01 -.05 .40 -.03 .48 1. 00
A pied .17 .15 -.14 .28 -.38 .49 -.18 -.62 -.09 .48 .27 .37 .30 1. 00
Voiture -.19 -.22 -.55 .21 -.15 .10 .27 .03 .44 -.09 .15 .23 -.11 -.33 1. 00
Frq.medl .40 .42 .37 -.44 -.62 .05 .01 .18 -.45 .07 -.38 .30 .28 .28 -.33 1.00
Somm Repo Reps Repr Trar Mna Visi Jard Lois Disq Lect Coue Prom A pi Voit Frq
+---+
1i'lUMER. 1 VALEUR 1POURCENTAGES 1POURCENTAGES
1 1 PROPRE 1 1CUMULES
1 3.871 24.20 24.20
2 3.660 22.88 47.07
3 2.006 12.54 59.61
4 1.514 9.47 69.08
5 1.126 7.04 76.12
6 . 837 5.23. 81.35
7 .766 4.79 86.15
8 . 596 3.73 89.87
9 .444 2.78 92.65
10 .374 2.34 94.99
11 .246 1. 54 96.53
12 .222 1. 39 97.92
13 .161 1. 01 98.93
14 .114 .72 99.64
15 .037 .23 1 99.88
16 .019 .12 1100.00
HISTOGRAMME DES 16 PREMIERES VALEURS PROPRES
1 ** *.* ~ ~ t t t _ t __ t __ ._ _
f tt.tttt __ t _ _ _ _tt.*t _t. __ ll _
1 .t'.tt._ ,._ _ _ _ _ _._
1 * *_ ,
1 tt_.*.t.*
1 .t.k*ttt_tt _._
1 ..... ,.. * li"" * li II * ...
1 *.******:1110***
1 :1;.,.. * "' "'.,.. .. .,.. 11" *
1
1
1
1
1
1
1
1.2 _ Analyse en Composantes Prillcipales 61
La matrice des corrlations (tableau 1.2 - 3) nous fournit des lments de
description des associations entre variables actives. Sa lecture nous donne
une premire ide du rseau d'interrelations existant entre les variables,
mais l'analyse en composantes principales va permettre d'obtenir une
synthse de ces liaisons.
Le premier rsultat est constitu par la liste des valeurs propres et des
pourcentages de variance (cf. tableau 1.2 - 3). La somme des valeurs propres
est gale au nombre de variables soit 16. Les deux premiers axes fournissent
presque la moiti de l'inertie (47%) mais l'on sait que ces quantits sont
d'interprtation dlicate. On note cependant, la vue de l'histogramme,
qu'il existe une concentration nette du nuage dans un sous-espace deux
dimensions, le plan factoriel principal.
On lira sur le tableau 1.2 - 4 les coordonnes des points variables sur les trois
premiers axes ainsi que les coordonnes des extrmits des axes unitaires (cf.
1.2.6) destins une ventuelle reprsentation simultane des individus
et des variables. Les deux premires valeurs propres tant voisines (3.871 et
3.660), leurs racines carres le sont galement (1.97 et 1.91) et donc les
nuages bidimensionnels des points variables et des anciens axes unitaires
auront des allures trs voisines (cf. 1.2 - 6).
Tableau 1.2 - 4
Coordonnes des variables actives sur les axes 1 3
VARIABLES COORDONNEES ANCIENS AXES UNIT.
1 2 3 1 2 3
Sommeil .22 -.52 .18 .11 -.27 .13
Repos .46 -.40 -.17 .23 -.21 -.12
Repas chez soi .67 -.15 -.23 .34 -.08 - .17
Repas restaurant -.84 .00 -.07 -.43 .00 -.05
Travail rmunr .05 .88 -.34 .03 .46 -.24
Mnage -.40 -.57 -.08 -.20 -.30 -.06
Visite amis -.13 -.33 .73 -.07 -.17 .52
Jardinage, Bricolage .76 .22 .35 .39 .11 .25
Loisirs extrieur -.72 .30 .30 -.37 .16 .21
Disque cassette -.53 -.53 .01 -.27 -.27 .01
Lecture livre -.54 .24 -.50 -.27 .12 -.36
Courses dmarches -.21 -.54 .11 - .11 -.28 .08
Promenade -.10 -.58 .04 -.05 -.30 .03
A pied -.37 -.62 -.57 -.19 -.33 -.40
En Voiture -.41 .22 .65 -.21 .11 .46
Frquentation Mdia .49 -.68 -.05 .25 -.36 -.03
La figure 1.2 - 22 donne une reprsentation des variables sur les deux
premiers axes factoriels. Les donnes tant ici centres rdui tes, les
coordonnes des variables sur les axes sont les coefficients de corrlations
entre ces variables et les facteurs.
Le premier axe oppose les activits extrieures ou d'ouverture (lecture,
loisir extrieur, repas restaurant, dplacement en voiture) des activits
plus intrieures Oardinage, jeux, bricolage, repas chez soi). Le deuxime axe
oppose essentiellement l'activit professionnelle (travail rmunr) aux
62 Mthodes factorielles - chapitre 1
activits de temps disponible ou libre (promenade, disque cassette,
frquentation mdia) mais aussi le temps pass au mnage et au sommeil.
F2
-1
-1
+1
FI
Figure 1.2 - 22
Reprsentation des 16 variables actives dans le plan des facteurs 1 et 2
Les variables supplmentaires (tableau 1.2 - 5 et figure 1.2 - 23) relatives aux
dplacements et aux mdias illustrent ces propos. Les activits "total
dplacement" et "total domicile" caractrisent bien le premier axe. La presse
quotidienne et surtout le cinma sont corrls aux activits dites
d'ouvertures, pour lesquelles le temps pass en dplacement est important.
Le temps pass au domicile est pratiquement au centre de gravit des
activits Repos, Jardinage-bricolage, Repas chez soi, Tlvision, qui est le
media dominant en dure.
Tableau 1.2 - 5
Coordonnes des variables supplmentaires
(ou illustratives) sur les axes 1 3
VARIABLES COORDONNEES
1 2 3
Autres activits .08 .16 .04
Total Domicile .67 -.50 -.21
Total Dplacement -.72 .05 .14
Habitudes Cinema -.87 - .11 -.14
Habitudes Radio. -.27 -.57 .07
Habitudes Tlvision .04 -.55 .34
Habitudes Presse Quot -.39 .01 -.70
Habitudes Presse mag -.24 -.38 -.26
Habitudes Hebdo-News -.46 .20 -.48
1.2 _ Analyse ell Composalltes Prillcipales
+1
63
Hab. News
-1
\.
\

1+1
1
i
1
/
/
Figure 1.2 - 23
Positionnement des variables supplmentaires
(plan de la figure 1.2 - 22)
On pressent le rle de certaines caractristiques sodo-conomiques, qui
seront positionnes dans l'espace des individus. Les positions des individus
dans le plan factoriel (tableau 1.2 - 6 et figure 1.2 - 24) vont permettre
d'expliquer certaines des corrlations observes.
Ainsi, deux groupes (1133 et 1134) se distinguent l'extrme gauche du
premier axe: il s'agit de jeunes actifs instruits des grandes mtropoles
rgionales ou de Paris, qui ont un profil d'activit typ (lecture, repas au
restaurant, .... ), expliquant eux deux 35% de la variance le long de cet axe.
Le second groupe (1115 : jeunes peu instruits habitant dans des communes
de profils varis) se distingue sur le deuxime axe (contribution de 26%).
Remarquons aussi que ce mme groupe a une distance l'origine des axes
(colonne Dl5TO, c'est--dire carr de la distance l'origine) anormalement
leve (47.51) qui confirme son atypicit.
On vrifie sur le tableau de donnes 1.2 - 1 que ce groupe a un temps de
travail moyen exceptionnellement faible (208.8, valeur qui est d'ailleurs le
minimum de cette variable donn par le tableau 1.2 - 2) et des temps
maxima pour "dplacement pied" et "frquentation mdia" (il s'agit
essentiellement d'coute tlvision).
Souvent, dans les applications en vraie grandeur, les individus sont
beaucoup plus nombreux et les identificateurs renvoient en gnral un
64 Mthodes factorielles - chapitre 1
numro de questionnaire ou d'observation. Les variables nominales sont
alors projetes selon la procdure indique au paragraphe 1.2.5.c.
Tableau 1.2 - 6
Coordonnes, contributions et cosinus carrs
des individus sur les axes 1 et 2
INDIVIDUS COORDONNEES CONTRIBUT. COS. CARRE
IDENTIF. DISTO 1 2 1 2 1 2
1111 19.89 2.01 .85 3.8 .7 .20 .04
1115 47.51 2.26 -5.11 4.9 26.4 .11 .55
1121 10.55 -.71 1. 01 .5 1.0 .05 .10
1122 13.29 -1.86 -.64 3.3 .4 .26 .03
1123 14.49 -1.28 -1. 81 1.6 3.3 .11 .23
1124 19.06 -2.72 -2.93 7.1 8.7 .39 .45
1136 10.68 -.56 1. 97 .3 3.9 .03 .36
1133 27.04 -4.21 -.30 17.0 .1 .66 .00
1134 25.35 -4.29 -.91 17.6 .8 .73 .03
2111 12.86 1. 91 2.12 3.5 4.5 .28 .35
2112 17.27 1. 43 -1. 68 2.0 2.8 .12 .16
2117 10.89 1. 03 -2.16 1.0 4.7 .10 .43
2121 10.96 1. 27 2.55 1.5 6.6 .15 .59
2122 7.92 .62 -.21 .4 .0 .05 .01
2123 8.33 .30 -.33 .1 .1 .01 .01
2124 15.54 -.12 2.06 .0 4.3 .00 .27
2131 7.39 .55 2.03 .3 4.2 .04 .56
2132 24.45 -1.17 3.53 1.3 12.6 .06 .51
2133 7.85 -1.63 - .11 2.5 .0 .34 .00
2134 17.19 -2.54 1. 36 6.2 1.9 .37 .11
3116 16.19 2.68 .96 6.9 .9 .45 .06
3117 15.96 2.43 -1. 84 5.7 3.4 .37 .21
3121 13.00 1. 90 2.11 3.4 4.5 .28 .34
3122 17.31 2.12 -.95 4.3 .9 .26 .05
3123 10.26 .56 -1. 74 .3 3.1 .03 .30
3136 9.09 1. 56 .09 2.3 .0 .27 .00
3137 21. 68 -1.55 .08 2.3 .0 .11 .00
Le tableau 1.2 - 7 fournit les coordoJU1es des modalits (ou catgories) de ces
variables qui sont, rappelons-le, les centres de gravit des individus
concerns.
Ces centres de gravit ont t ports sur la figure 1.2 - 24 et les modalits
contigus d'une mme variable nominale (il s'agit en fait de variables
ordinales) ont t jointes par des lignes polygonales. Dans l'hypothse o
les groupes correspondant une modalit particulire pourraient tre
considrs comme tirs au hasard parmi les 27 groupes, ces centres de
gravit ne devraient pas s'loigner beaucoup du centre de gravit du nuage
(origine des axes factoriels).
On peut convertir cette distance au centre de gravit en "valeur-test"!, qui
sera alors la ralisation d'une variable normale centre rduite (deux
premires colonnes du tableau 1.2 - 7).
1 Ces aides l'interprtation sont abordes dans un cadre plus gnral l'occasion de
l'analyse des correspondances multiples, au paragraphe 1.4.4.a.
......
2132
F2
N
1

;::
2121
l:l

2111
!Il
<Il
21 4
Agglol
3121
<Il
1136 2131

;::
rJ
/ c
/
;:!

/
C
2134
!Il
/

1121
/
...
<Il
/
3116
!Il
1111
'"

n
3137
-ii.
l:l

3.6 2.4 2.4


!Il
FI
1133
2123
1122
1134
-1.2
3123 2112
1123 3117
2117
1124 1115
0'>
U1
Figure 1.2 - 24 : Positionnement des individus (symboles 4 chiffres) et des variables nominales (Age, niveau d'ducation, catgories d'agglomration)
66 Mthodes factorielles - chapitre 1
Tableau 1.2 - 7
Valeurs-test et coordonnes des modalits
supplmentaires sur les axes 1 et 2
MODALITES VALEURS-TEST COORDONNEES
IDEN - LIBELLE EFFECT. 1 2 1 2
AGE
A-35 - Jeunes 9 -2.3 -1. 6 -1.26 -.87
A+35 - Age-Moy 11 .3 1.8 .15 .83
A+50 - Ages 7 2.1 -.3 1. 39 -.18
Education
prim
-
primaire 7 3.0 -1.5 1. 96 -.98
seco
-
secondaire 11 .0 -.2 .01 -.08
supe
-
superieur 9 -2.8 1.6 -1. 54 .86
Agglomration (EXTRAITS)
AGG1
- -
de 20 000 6 1.6 2.5 1.15 1.78
AGG2 - de 20 a 100 000 5 .3 .0 .23 .01
AGG3
-
Plus de 100 000 5 -1.5 -1.1 -1. 25 -.86
AGG4 - Paris 4 -2.6 -.1 -2.42 - .11
Autrement dit, dans l'hypothse d'un tirage au hasard, la valeur-test d'une
catgorie supplmentaire a 95 chances sur 100 d'tre comprise dans
l'intervalle [-1.96 et +1.96]1. Comme on le lit sur le tableau 1.2 -7, la valeur-
test du point "Paris" sur l'axe horizontal est de -2.6. C'est une modalit dont
la position est significativement diffrente de l'origine.
La figure 1.2 - 24, tout comme le tableau 1.2 - 7, montrent que les trois
variables nominales permettent surtout d'identifier le premier axe,
opposant les jeunes instruits urbains aux personnes plus ges et moins
instruites. Seules les communes rurales (Agglol) semblent lies au second
axe.
Le lecteur de ces graphiques doit garder l'esprit le fait qu'il s'agit ici
d'identification passive par des variables nominales d'une analyse ralise
uniquement partir des temps d'activit. 11 ne s'agit pas d'une tude des
liaisons existant entre ces variables nominales, mme si certaines
proximits peuvent paratre familires.
1 Naturellement, l'intervalle de confiance prcdent est trop troit, car le test est rpt
sur plusieurs modalits; il convient de ne le considrer que comme donnant un ordre
de grandeur.
Section 1.3
Analyse des Correspondances
L'analyse des correspondances, prsente sous ce nom et dveloppe par
Benzcri (1969), a un certain nombre de prcurseurs, parmi lesquels il fa ut
citer Guttman (1941), Hayashi (1956).
Comme l'analyse en composantes principales, l'analyse des
correspondances peut tre prsente selon divers points de vue. Il est
d'ailleurs difficile de faire l'historique prcis de cette mthode. Les principes
thoriques remontent probablement aux travaux de Fisher (1940) sur les
tables de contingences, dans un cadre de statistique infrentielle classique.
Depuis les travaux de Benzcri (1973) et de Escofier-Cordier (1965), on utilise
surtout les proprits algbriques et gomtriques de l'outil descriptif que
constitue l'analyse
1
. Cette mthode n'est pas un cas particulier de l'analyse
en composantes principales bien que l'on puisse se ramener cette
technique en faisant des changements de variables appropris ( condition
de traiter chaque espace sparment). On peut la prsenter comme un cas
particulier de l'analyse canonique (cf. section 3.1) lorsque les donnes ont un
codage "disjonctif" et galement comme un cas particulier de l'analyse
discriminante (cf. section 3.3). On peut enfin montrer qu'il s'agit de la
recherche de la meilleure reprsentation simultane de deux ensembles
constituant les lignes et les colonnes d'un tableau de donnes (cf. 1.3.3).
1.3.1 Domaine d'application
L'analyse des correspondances a un domaine d'application diffrent de
l'analyse en composantes principales. Alors que l'on rserve cette dernire
aux tableaux de mesures ventuellement htrognes et au traitement de
variables numriques continues, l'analyse des correspondances est une
mthode adapte aux tableaux de contingence et permet d'tudier les
ventuelles relations existant entre deux variables nominales. Nous
verrons la section suivante (1.4) qu'elle fournit, par extension, des
descri ptions satisfaisantes de certains tablea ux de codages discontinus.
Le tableau de contingence (dit aussi de dpendance, ou tableau crois) est
obtenu en ventilant une population selon deux variables nominales.
1 Les anctres les plus lointains de l'analyse des correspondances seraient, de faon
tout fait indpendante, Richardson et Kuder (1933) et Hirschfeld (1935). Les
premiers auteurs visaient une meilleure slection des vendeurs de la socit Practer and
Gambie, alors que le dernier tudiait une proprit de statistique mathmatique. Cette
varit de contextes est caractristique de l'analyse des correspondances, mthode
aussi utile en pratique que stimulante du point de vue thorique. Cf. les rfrences
historiques de Hill (1974), Benzcri (1982 a).
68 Mthodes factorielles _ chapitre 1
L'ensemble des colonnes du tableau dsigne les modalits d'une variable et
l'ensemble des lignes correspond celles de l'autre variable. De ce fait, les
lignes et les colonnes, qui dsignent deux partitions d'une mme
population, jouent des rles symtriques et sont traites de faon analogue.
1.3.2 Dmarche et principe: une introduction lmentaire
Nous allons utiliser, pour illustrer notre propos, une table de contingence
de faible dimension pour laquelle le recours l'analyse des correspondances
ne se justifie pas vraiment, mais qui va permettre de prsenter de faon
simple les principes de cette mthode et les proprits qui en dcoulent
1
.
Bien que les lignes et les colonnes jouent un rle similaire, nous
conservons les mmes notations que pour l'analyse gnrale.
Considrons le tableau de contingence K n lignes et p colonnes obtenu en
ventilant une population de 592 femmes suivant leurs couleurs des yeux et
des cheveux.
Tableau 1.3 - 1
Tableau de contingence,
rpartition de 592 femmes suivant les couleurs des yeux et des cheveux.
couleur des cheveux
brun chtain roux blond Total
marron 68 119 26 7 220
couleur noisette 15 54 14 10 93
des vert 5 29 14 16 64
veux bleu 20 84 17 94 215
Total 108 286 71 127 592
Source: Snee (1974)
En lignes est prsente la variable "couleur des yeux" n =4 modalits (ou
catgories) et en colonnes est donne la variable "couleur des cheveux"
p = 4 modalits.
A l'intersection d'une ligne et d'une colonne, nous avons le nombre k
ij
de
femmes ayant simultanment la couleur i des yeux et la couleur j de
cheveux. Le total marginal k
i
. est le nombre de femmes ayant les yeux de
couleur i, alors que le total marginal k.
j
est le nombre de femmes ayant les
cheveux de couleur j.
On a les relations suivantes:
P
ki. = I,kij
j
1 Une prsentation technique plus dtaille sera l'objet des paragraphes suivants de la
mme section.
1.3 _ Analyse des correspondances
qui, en termes de frquences relatives, donnent lieu aux relations:
69
I,f;j = 1
i,j
Y-a-t-il indpendance entre la couleur des yeux et celle des cheveux? Sinon
quels types d'associations existent entre ces couleurs?
a - Transfonnations du tableau de contingence
Pour analyser un tableau de contingence, ce n'est pas le tableau d'effectifs
bruts qui nous intresse mais les tableaux des profils-lignes et celui des
profils-colonnes c'est--dire les rpartitions en pourcentage l'intrieur
d'une ligne ou d'une colonne.
On note les profils-lignes:
f;j k
ij
-=-
f. k.
JI. 1.
et les profils-colonnes:
Tableau 1.3 - 2
Profils-lignes (pourcentages-lignes arrondis)
couleur des cheveux
brun chtain roux blond total
couleur marron 31 54 12 3 100
des noisette 16 58 15 11 100
yeux vert 8 45 22 25 100
bleu 9 39 8 44 100
profil moyen 18 48 12 22 100
f;j kij
-=-
Ji k.j
Le tableau 1.3 - 2 des profils-lignes (multiplis par 100) indique la rpartition
de la couleur des cheveux pour chaque modalit de couleur des yeux. Ce
sont en somme les probabilits conditionnelles d'avoir les cheveux de la
couleur j sachant que les yeux ont la couleur i. Cette rpartition sur
l'ensemble de la population tudie donne le profil moyen:
k
fj =1-
Tableau 1.3 - 3
Profils-colonnes (pourcentages-colonnes arrondis)
couleur des cheveux profil
brun chtain roux blond moyen
couleur marron 63 42 37 6 37
des noisette 14 19 20 8 16
yeux vert 5 10 20 13 11
bleu 19 29 24 74 36
total 100 100 100 100 100
70 Mthodes factorielles _ chapitre 1
Le tableau 1.3 - 3 des profils-colonnes (multiplis par 100) fournit la
rpartition de la couleur des yeux suivant chaque modalit de couleur des
cheveux et le profil moyen de la couleur des yeux:
k
Ji. =1:
b - Hypothse d'indpendance
On s'intresse aux liens ventuels entre couleurs des yeux et des cheveux.
On sait qu'il y a indpendance entre deux variables alatoires i et j prenant
leurs valeurs sur deux ensembles de tailles n et p, dont la loi jointe est Pij et
les lois marginales Pi. et P.j' si pour tout i et pour tout j on a (avec les
notations usuelles) :
Pij = Pi. P.j
La traduction de cette relation en termes d'estimations empiriques est la
suivante:
fij = Afj
Naturellement, mme sous l'hypothse d'indpendance, une telle relation
n'est qu'approximativement vraie. Le classique test du X
2
de Karl Pearson
pour les tables de contingence permet prcisment d'apprcier l'cart entre
les lois empiriques fij etfJj'
Consultons le tableau 1.3 - 4 des frquences observes f;j qui n'est autre que
la tableau 1.3 - 1 divis par sa somme (592) et multipli par 100 pour plus de
lisibilit.
Tableau 1.3 - 4
Tableau de frquences observes
couleur des chevetlx profil
brun chtain roux blond moyen
couleur marron 11 20 4 1 37
des noisette 3 9 2 2 16
yeux vert 1 5 2 3 11
bleu 3 14 3 16 36
profil moyen 18 48 12 21 100
Parmi les 37% de femmes aux yeux marrons par exemple, on devrait
observer, sous l'hypothse d'indpendance, 18% de femmes brunes (ce qui
ferait alors 7% de l'ensemble des femmes, au lieu des 11 % rellement
observs), 48% aux cheveux chtains (ce qui ferait 18% au lieu de 20%), etc.
Construisons le tableau de "frquences thoriques" Afj sous l'hypothse
d'indpendance (cf. tableau [1.3 - 5]) :
1.3 _ Analyse des correspondances
Tableau 1.3 - 5
Tableau de frquences thoriques
couleur des cheveux profil
brun chtain roux blond moyen
couleur marron 7 18 4 8 37
des noisette 3 8 2 3 16
yeux vert 2 5 1 2 Il
bleu 7 18 12 8 36
profil moyen 18 48 12 21 100
71
Cette hypothse s'exprime aussi sur les profils-lignes. En effet, il en dcoule
que, quelque soit j :
/1. =fj
JI.
Si tous les profils "couleurs des yeux" sont identiques entre eux, et par
consquent identiques au profil moyen correspondant, il y a indpendance
entre les couleurs des yeux et celles de cheveux puisque la connaissance
d'une couleur des yeux ne change pas la rpartition de la couleur des
cheveux.
Il en est de mme pour les profils-colonnes o, quelque soit i :
fi - (.
fj - JI.
Ainsi, examiner les proximits entre les profils revient examiner la
proximit entre chaque profil et son profil moyen, ce qui permet d'tudier la
liaison entre deux variables nominales, c'est--dire l'cart l'indpendance.
Sur un tableau de dimension importante, la lecture directe des profils-lignes
et des profils-colonnes est difficile, ainsi que la comparaison de ces profils
avec leur profil moyen.
Nous allons voir comment la construction du nuage, le choix du critre
d'ajustement et celui de la distance, s'imposent de par la nature mme des
donnes analyses.
c - Construction des nuages
Pour l'analyse d'un tableau de contingence, nous raisonnerons en termes de
profils, ce qui permet de rendre comparables les modalits d'une mme
variable. Les proximits entre les points s'interprteront en terme de
similitude.
- Nuage des n lignes
L'ensemble des profils-lignes forme un nuage de n points dans l'espace des
p colonnes et reprsente ici le nuage des 4 modalits de couleurs des yeux.
Chaque point i a pour coordonnes dans RP:
{
lij .. -1 2 }
/i.,J- , ,...,p
72 Mthodes factorielles _ chapitre 1
Il est affect d'une masse li. qui est sa frquence relative.
Pk
Puisque L.!L =1, les n points du nuage sont situs dans un sous-espace
j=1 fi.
P-1 dimensions.
Le centre de gravit de ce nuage est la moyenne des profils-lignes affects de
leurs masses et correspond au profil moyen, c'est--dire au profil de la
couleur des cheveux sur l'ensemble de la population. Sa jme composante
vaut:
n fij_
Iii. T - fj
1=1 JI.
C'est la frquence marginale des colonnes.
- Nuage des p colonnes
De la mme faon, l'ensemble des p profils-colonnes constitue un nuage de
p points dans l'espace des n lignes et reprsente ici le nuage des 4 modalits
de couleur des cheveux.
Les coordonnes dans Rn du point j sont donnes par:
!
fi
j
.. _ 1 2 }
f
.'z- 1 ""In
-J
Chaque point est affect d'une masse fi'
Les p points du nuage sont situs dans un sous-espace n-l dimensions
nk
puisque I.!L= 1.
i=J!j
Le centre de gravit du nuage des profils-colonnes est le profil moyen de la
couleur des yeux. Sa i
me
composante vaut:
P k
.-!!L. - r.
-Jf- -JI.
J=1 .J
C'est la frquence marginale des lignes.
d - Critre d'ajustement
On cherche reprsenter gomtriquement les similitudes entre les
diffrentes modalits d'une mme variable, ce qui nous conduit
reprsenter les proximits entre les profils et le profil moyen dfini sur
l'ensemble de la population!. Ceci nous amne, comme en analyse en
1 Un nuage de points concentr autour de son centre de gravit est un nuage dont les
points-profils sont proches du profil moyen, et donc traduira une certaine
indpendance entre les deux variables nominales.
1.3 _ Analyse des correspondances 73
[1.3 - 2]
composantes principales dans le cas des points-individus, considrer le
nuage de points centr sur son centre de gravit.
Dans la construction des nuages de RP et de Rn (cf. tableaux 1.3 - 2 et 1.3 - 3),
le choix des profils comme coordonnes donne toutes les modalits de
couleur des yeux et celles de cheveux la mme importance. L'importance est
cependant restitue au travers de la masse affecte chaque point
(proportionnelle sa frquence), afin de ne pas privilgier les classes
d'effectifs faibles et de respecter la rpartition relle de la population. Cette
masse interviendra d'une part lors du calcul des coordonnes du centre de
gravit du nuage et d'autre part dans le critre d'ajustement.
Pour le calcul de l'ajustement, la quantit rendre maximale sera donc la
somme pondre des carrs des distances entre les points et le centre de
gravit du nuage (c'est--dire l'inertie de la droite d'allongement maximum
du nuage) en utilisant une distance entre profils qu'il reste dfinir.
e - Choix des distances
La distance euclidienne usuelle entre deux points-lignes exprime sur le
tableau d'effectifs bruts ne ferait que traduire les diffrences d'effectifs entre
deux modalits de couleurs des yeux. En revanche, la distance euclidienne
usuelle entre deux profils-lignes traduit bien la ressemblance ou la
diffrence entre les deux couleurs des yeux sans tenir compte des effectifs
totaux de ces modalits:
<l2(i,i') = ~ l i j _li.-:)2
J=l ft. Ji.
Cependant, cette distance favorise les colonnes qui ont une masse fj
importante c'est--dire les couleurs de cheveux qui sont bien reprsentes
dans la population tudie.
Pour remdier cela, et aussi pour d'autres proprits qui seront
dveloppes ci-dessous, on pondre chaque cart par l'inverse de la masse
de la colonne et l'on calcule une nouvelle distance appele! la distance du
X
2
:
d
2
(i,i') =~ ~ I i : _li.-:)2 [1.3-1]
J=lf
J
li. Ji .
On dfinit de la mme manire la distance entre les profils-colonnes par:
d
2(. .') _~ 1 [Iii Jir )2
J,J - ~ ---
i=l!i. f j fr
1 L'inertie totale des nuages de points lignes (ou de points colonnes) calcule avec cette
distance est proportionnelle au classique X
2
de Karl Pearson utilis pour prouver
l'indpendance des lignes et des colonnes d'une table de contingence. D'o le nom de
distance du X
2
.
74 Mthodes factorielles _ chapitre 1
profil i :
{!!J..
k
"couleur des
(i)
cheveux noisette"
li. J}
profil i':
{!il
"
couleur des
cheveux bleu"
li'. kp
poids des colonnes f.j
Figure 1.3 - 1
Distance du X
2
C'est cette distance pondre, ainsi que le rle symtrique jou par les lignes
et les colonnes du tableau de contingence, qui particularisent l'analyse des
correspondances et lui assurent des proprits remarquables que ne possde
pas l'analyse en composantes principales; l'quivalence distributionnelle et
les relations de transition.
f - Equivalence distributionnelle
La proprit d'quivalence distributionnelle permet d'agrger deux
modalits d'une mme variable ayant des profils identiques en une
nouvelle modalit affecte de la somme de leurs masses, sans rien changer,
ni aux distances entre les modalits de cette variable, ni aux distances entre
les modalits de l'autre variable.
Si par exemple les deux profils-lignes i' et i" sont identiques dans !IV, on les
agrge en un profil-ligne i dont la masse sera la somme des frquences des
deux profils i' et i". Les deux points i' et i" tant confondus cela ne modifie
pas la configuration du nuage de points dans RP.
JRP R!

e. . e.
fr.)
.

Il

Il (i"; fo .. )

Il. 1

,. 1. 1-
/'

0
1
/"
Figure 1.3 - 2
Equivalence distributionnelle: points-lignes confondus
1.3 _ Analyse des correspondances 75
Mais surtout, les distances entre colonnes restent inchanges. Il en est de
mme pour des profils-colonnes dans Rn ayant les mmes proprits.
Cette proprit est fondamentale puisqu'elle garantit une certaine
invariance des rsultats vis--vis de la nomenclature choisie pour la
construction des modalits d'une variable, sous condition de regrouper des
modalits aux profils semblables.
On ne perd pas d'information en agrgeant certaines classes et l'on n'en
gagne pas en subdivisant des classes homognes.
j'
Figure 1.3 - 3
Equivalence distributionnelle: invariance des distances entre colonnes
vis--vis de l'agrgation des lignes
Prenons le cas de deux tables de contingences issues du recensement de la
population, l'une croisant professions et dpartements, l'autre professions
et rgions. Sous l'hypothse d'homognit des dpartements d'une mme
rgion par rapport aux professions, il sera quivalent de raliser l'analyse
des correspondances sur les dpartements et sur les rgions. Les
configurations du nuage des professions, pour les deux analyses, seront
semblables (voir la dmonstration au 1.3.3.a).
g - Relations de transition ou quasi-barycentriques
Une des caractristiques de l'analyse des correspondances est l'existence de
relations de type barycentrique qui lient graphiquement les deux variables
reprsentes en ligne et en colonne.
L'ide est simple et revient reprsenter les histogrammes des profils-
colonnes dans le nuage des profils-lignes et rciproquement.
Supposons fix le nuage des couleurs des yeux (nuage des profils-lignes)
dans un espace 2 dimensions comme reprsent sur la figure 1.3 - 4. Le
centre du graphique reprsente le profil moyen (la distribution marginale)
des couleurs des yeux.
76 Mthodes factorielles _ chapitre 1
axe 2
y ~
.
y.NOISETTE
y.VERT
y.B;EU
axe 1
Figure 1.3 - 4
Nuage des couleurs des yeux
Considrons maintenant l'histogramme dcrivant le profil des cheveux
bruns suivant la couleur de yeux (cf. tableau 1.3 - 3 des profils-
colonnes) reprsent figure 1.3 - 5..
80
60
40
20
o
cheve/lx bruns
Figure 1.3 - 5
Histogramme des cheveux bruns
Cet histogramme va permettre de positionner le point-colonne "cheveux
bruns" dans le nuage des points-lignes (le nuage des couleurs des yeux) :
chaque point i reprsentant une couleur des yeux est pondr par sa
frquence relative telle qu'elle est dcrite par l'histogramme.
y.VERT
Figure 1.3 - 6
Position du point "cheveux bruns"
comme barycentre des points "couleurs des yeux"
1.3 _ Analyse des correspondances 77
On construit ainsi le barycentre de ces points qui correspond au point
"cheveux bruns". Il est contenu dans une enveloppe convexe constitue par
l'ensemble des points pondrs (cf. figure 1.3 - 6). Cette modalit sera attire
par les yeux marrons, compte tenu de sa masse plus leve. Elle sera par
contre loigne des yeux verts.
Chaque point j "couleur des cheveux" est ainsi un barycentre particulier des
points i "couleur des yeux", le point i tant affect de la masse "part de la
couleur i des yeux sachant que la couleur des cheveux est j", (c'est--dire le
profil-colonne fij / fj)'
axe2
axe 1
y.VERT
Figure 1.3 - 7
Reprsentation des points "couleurs des yeux" et positionnement
des points "couleurs des cheveux" en barycentres
Si l'on considre maintenant le nuage des profils-colonnes, c'est-dire le
nuage des couleurs des cheveux, il est naturel de procder de la mme faon
et de reprsenter l'histogramme de chaque couleur des yeux dans ce nuage.
On positionne donc chaque point-ligne i "couleur des yeux" comme
barycentre des points j "couleurs des cheveux" pondrs par la part de la
couleur j des cheveux dans la couleur i des yeux, donne par les profils-
lignes {f
ij
/ fi) (cf. figure 1.3 - 8).
ch.BRUN
Figure 1.3 - 8
Reprsentation des points "couleurs des cheveux" et positionnement
des points "couleurs des yeux" en barycentres
78 Mthodes factorielles _ chapitre 1
Les relations barycentriques vont justifier et donner un sens la
reprsentation simultane des deux nuages dfinis dans les deux espaces.
h - Justification de la reprsentation simultane
D'aprs le schma de l'analyse gnrale, on pourrait envisager l'analyse des
deux nuages de points de manire indpendante et l'interprter comme une
analyse en composantes principales o toute l'information entre les deux
nuages transite par les facteurs de mmes rangs. Compte tenu des relations
barycentriques, il en est autrement en analyse des correspondances.
Ces relations montrent qu'il existe une possibilit de reprsentation
particulire! : il est possible de positionner chaque point d'un nuage parmi
l'ensemble des points de l'autre nuage.
Ainsi, dans le nuage des profils-lignes, chaque profil-colonne est au
barycentre des points du nuage. Projet sur un plan, nous disposons d'une
premire reprsentation simultane (cf. figure 1.3 -7). De mme, chaque
profil-ligne est barycentre de l'ensemble des profils-colonnes et constitue,
avec les axes de mmes rangs, une deuxime reprsentation simultane (cf.
figure 1.3 - 8).
Mais nous voulons une seule reprsentation simultane des deux nuages
de points et la situation idale serait de les superposer.
ch.BRUN
y.MARRON
ch.CHATAI
y.NOISETTE
ch.ROUX
axe 2
y.VERT
.
y.BLEU
ch.BLOND
axe 1
Figure 1.3 - 9
Reprsentation simultane;
Relations quasi-barycentriques
Ceci est a priori impossible par dfinition mme du barycentre puisque
chaque ensemble devrait alors tre contenu dans l'autre. Il est cependant
possible de forcer cette reprsentation en dilatant (sur chaque axe) les centres
de gravit (figure 1.3 - 9). On pourra alors reprsenter sur de mmes axes (et
1 Cette possibilit est due au fait que les coordonnes d'origine (les profils) sont des
nombres positifs dont la somme vaut 1.
1.3 _ Allalyse des correspolldallces 79
donc sur un mme plan) l'ensemble des lignes et des colonnes afin
d'approcher au mieux la situation idale. Les relations seront quasi-
barycentriques (cf. 1.3.3).
Les yeux bleus s'associent aux cheveux blonds, les yeux marrons aux
cheveux bruns. Les cheveux roux sont attirs par les yeux noisettes et verts
qui les caractrisent. La catgorie des cheveux chtains est assez proche de
l'origine du plan reprsentant le profil moyen et n'est spcifique d'aucune
couleur des yeux
l
.
Nous verrons que le droulement de l'analyse des correspondances, compte
tenu des rles symtriques des lignes et des colonnes du tableau de
contingence et des proprits de la distance du X
2
, aboutit naturellement
aux relations barycentriques ( un coefficient prs qui est le coefficient de
dilatation permettant la reprsentation simultane unique).
1.3.3 Schma gnral de l'analyse des correspondances
L'analyse des correspondances revient effectuer l'analyse gnrale d'un
nuage de points pondrs dans un espace muni de la mtrique du X
2
. On
fera donc rfrence l'analyse gnrale avec des mtriques et des critres
quelconques (cf. 1.1.6.a).
a - Gomtrie des nuages et lments de base
Contrairement l'analyse en composantes principales, le tableau de
donnes subit deux transformations, l'une en profils-lignes, l'autre en
profils-colonnes, partir desquelles vont tre construits les nuages de points
dans HP et dans Rn (figure 1.3 - 10).
Pour faire le lien avec l'analyse gnrale (cf. section 1.1), nous adopterons
des notations matricielles (figure 1.3 -11).
Les transformations opres sur le tableau des donnes peuvent s'crire
partir des trois matrices F, D
n
et Op qui dfinissent les lments de base de
l'analyse.
F d'ordre (n,p) dsigne le tableau des frquences relatives; D
n
d'ordre (n,n)
est la matrice diagonale dont les lments diagonaux sont les marges en
lignes fi. ; D
p
est la matrice diagonale d'ordre (p,p) des marges en colonnes
fi"
1 On dispose le plus souvent d'un tableau de donnes de dimension importante et la
reprsentation du nuage des points non dilat et des barycentres correspondants, dans
un des espaces, fournit un graphique confus puisque les barycentres seront souvent
rassembls prs de l'origine du plan. Une seule reprsentation simultane, la
reprsentation dite quasi-barycentrique, du fait de la dilatation des nuages de points
qu'elle ncessite, offre l'avantage d'une lecture plus facile du graphique.
80
Mthodes factorielles _ chapitre 1
Tableau de contingence K
nuage des n points
dans IIV
. .
. .
..
..~ 1. : :
R P ~
nuage des ppoints
dans Rn
Figure 1.3 -10
Transformations du tableau de contingence
j
Marges-lignes 0 n
i fij --t----+"f
Frquences
relatives F
-< n
~ Profils-lignes O ~
(!!LI
k l(j)
Marges-colonnes Op
-.. Profils-colonnes utF '
k
( .!.!L
f
l
, ~ i
.)
Figure 1.3 - 11
Frquences, marges, profils
1.3 _ Analyse des correspondances 81
Les deux nuages de points (dans l'espace des colonnes et dans l'espace des
lignes) sont construits de manire analogue. Nous rcapitulons ici les
lments de base de l'analyse qui vont permettre la construction des
facteurs.
Tableau 1.3 - 6
Les lments de base de l'analyse: rcapitulation
Nuage de n points-lignes
Elments
Nuage de p points-colonnes
dans l'espace lRP
de base
dans l'espace R
I1
X = X= D
p
I
F'
Pcoordonnes (point-ligne i )
Analyse du
n coordonnes (point-colonne j )
lij . 1 2
tableau X
lij . 1 2
-, pour J= , , ... ,p. -, pourl= , , ... ,n.
li.
fj
M=D
p
I

avec
d
2
(i,i') = _Ii': r
la mtrique M
d'(j, j = i -,-[h
j
- hi' J
J=lf
J
li. Ii .
'-li; J. J..
1- l. .J .j
N=D
n
et le critre N
N=D
p
masse du point i :
li.
masse du point j :
fj
Remarques
1) La matrice N des masses dans un espace est lie la mtrique M utilise dans
l'autre espace.
2) Il existe une diffrence fondamentale avec l'analyse en composantes principales:
les transformations faites sur les donnes brutes dans les deux espaces sont
identiques (car les ensembles mis en correspondance jouent des rles analogues).
Elles correspondent des transformations analytiques diffrentes: le tableau des
nouvelles coordonnes dans l'espace des colonnes n'est pas le simple transpos de
celui des nouvelles coordonnes dans l'espace des lignes. En composantes
principales, des transformations trs diffrentes conduisaient une mme formle
analytique.
Dmonstration de l'quivalence distributionnelle
La distance du X
2
a pour effet d'accorder une mme importance, d'W1e part
aux colonnes quelles que soient leurs frquences relatives dans le calcul de
la distance entre deux profils-lignes, et d'autre part aux lignes s'il s'agit du
calcul de la distance entre profils-colonnes.
Elle offre l'avantage de vrifier le principe d'quivalence distributionnelle
l
(cf. figure 1.3 - 2). Ce principe assure la robustesse des rsultats de l'analyse
1 La distance euclidienne usuelle entre profils ne possde pas la proprit
d'quivalence distributionnelle, mais d'autres distances possdent cette proprit (cf.
Escofier, 1978).
82 Mthodes factorielles _ chapitre 1
[1.3 - 3]
des correspondances vis vis de l'arbitraire du dcoupage en modalits des
variables nominales. Il s'exprime de la faon suivante dans RP;
si deux points-lignes 1 et i2 sont confondus dans IRl, on a pour tout j :
& = fi 2j = fioj
/;1' /;2' /;0'
On a en particulier;
fid +fi
2
j = fioj
/;1' +/;2' fia.
D'o, puisque les dnominateurs sont gaux, on a pour tout j :
filj +fi
2
j = fioj
Les calculs des quantits fj = lfij ne sont donc pas affects et les distances
i
i(i,i') donnes par la formule [1.3 -1] sont invariantes.
Montrons maintenant que les distances entre colonnes ne changent pas. La
distance d
2
(j,j') donne par la formule [1.3 - 2] contient entre autres les deux
termes A(il) et A(i2) correspondant aux indices il et i2 :
A(
') A(')- ljfid fi d,)2 ljfi2
j
fi 2r )2
11 + 12 -- --- +- ----
fil' fj fr fi
2
. h fr
Ces deux termes sont remplacs par un seul terme A(iO) tel que:
A(
' ) _ 1 jfi
o
j
fi
o
])2
la -- ---
1;0' fj fr
Remarquons par exemple que;
A(i
1
)=2-J fi1j _ filr )2
fil.lfiJj fiJ]
A(il) et A(i2Y s'crivent de la mme faon et les quantits entre accolades
sont gales, d'aprs la relation [1.3 - 3], un mme nombre que l'on notera
B. On a donc:
A(il) + A(i2) = {. B+ r. B= (. B=A(io)
)11' )/2' )/0'
D'o l'invariance de la distance d
2
(j,j').
b - Critre maximiser et matrice diagonaliser
Nous voulons reprsenter graphiquement les proximits entre profils.
Nous nous plaons donc, dans les deux espaces, aux centres de gravit des
nuages. Cependant, et c'est l une des particularits de l'analyse des
correspondances, il est quivalent de procder l'analyse par rapport
1.3 _ Analyse des correspondances 83
l'origine ou par rapport aux centres de gravit, condition de ngliger dans
le premier cas l'axe factoriel qui joint l'origine au centre de gravit
l
.
Nous commencerons par effectuer l'analyse gnrale par rapport l'origine,
l'expression des formules tant plus simple, puis nous montrerons, au
paragraphe 1.3.7, l'quivalence avec l'analyse effectue par rapport aux
centres de gravit.
Plaons-nous dans l'espace des colonnes
2
RP et cherchons l'axe d'inertie
maximum du nuage des points-lignes passant par l'origine 0 et engendr
par un vecteur-unitaire u pour la mtrique DpI. Ceci nous amne
maximiser la somme pondre des carrs des projections sur l'axe (cf.
1.1.1) c'est--dire:
Max{If;. d
2
U, a)}
u .
et rendre maximale la quantit:
, 0-1F'0-I
FO
-l
u p n pU
avec la contrainte:
U'O-I
U
= 1
P
U est vecteur propre de la matrice:
S=F'O-I
FO
-l
n p
associ la plus grande valeur propre . diffrente de 1.
La matrice diagonaliser est donc la matrice S de terme gnral:
n kk'
S"- 13....!L
JJ - ('f"
i=1J/. .)
De la mme faon, on doit rendre maximum dans Rn, la quantit:
v'
avec la contrainte:

n
V est vecteur propre de la matrice:
T = FO-
1
F' 0-
1
P n
1 Cet axe est associ la valeur propre gale l, appele valeur propre triviale.
2 Compte tenu de la symtrie du tableau de contingence, les dmonstrations dans
l'autre espace se dduisent par pennutation des indices i et j (c'est--dire transposition
de Fet permutation des matrices D
p
et D
n
).
84 Mthodes factorielles _ chapitre 1
c - Axes factoriels et facteurs
Nous supposons ici que p correspond la plus petite dimension du tableau
de donnes. Aprs avoir cart la valeur propre triviale gale 1 et le
vecteur propre associ, nous retenons, de la diagonalisation de la matrice,
les p-l valeurs propres non nulles et les vecteurs propres associs. Nous
obtenons ainsi au plus p-l axes factoriels.
Tableau 1.3 - 7
Elments de construction de l'analyse
Dans RP
t- Elments de construction
Dans Rn
S = F' 0-l
FO
-l
Matrice diagonaliser
T = rn-IF' 0-
1
n p p n
SUa = aua
Axe factoriel TVa = av
a
0-l
FD
-l
0-1F' 0-
1
"'a = n p Ua
Coordonnes factorielles
<Pa = p n va
P k
n k
lJIai = l
qJ aj = l --!Lvai
j=lfi.f
J
i=lfi.f
J
Les coordonnes factorielles sont centres :
n P
LAlJIai =Ifj({Jaj =0
i=l j=l
et de variance gale a. :
[1.3 - 4J
[1.3 - 5J
d - Relation entre les deux espaces
L'analyse gnrale a montr que les matrices Set T ont les mmes valeurs
propres non nulles
a
et qu'entre le vecteur propre unitaire Ua de S associ

a
et le vecteur propre unitaire Va de T relatif la mme valeur propre, il
existe les relations dites de transition:
[1.3 -6J
[1.3-7J
La comparaison de ces
factorielles:
{
Va = :ft:;FDp
1
U
a
ua
'IJ
a
relations avec les expressions des coordonnes
et
0
-I
FO
-l
"'a= n pUa
0
-I
F
, D-l
<Pa = p n Va
[1.3 - 8J
[1.3 - 9]
1.3 _ Analyse des correspondances 85
montre que celles-ci sont lies aux composantes des axes de l'autre espace
par les formules:
[1.3 -10]
[1.3 -11]
[1.3 -12]
[1.3 -13]
e - Relations de transition (ou quasi-barycentriques)
Les substitutions dans la relation [1.3 - 9) de Va par sa valeur tire de [1.3 - 10)
et dans la relation [1.3 - 8] de Ua par sa valeur tire de [1.3 - 11] conduisent
aux relations fondamentales existant entre les coordonnes des points-
lignes et des points-colonnes sur l'axe ex, les relations quasi-barycentriques:
!
lfIai = ,f !p-'Paj
'V"'a J=1 JI.
1 n k
'Paj = FA .L
f
J
. lfIai
'V"'a 1=1 .J
1
Ainsi, au coefficient de dilatation -- prs, les projections des points

reprsentatifs d'un nuage sont, sur un axe, les barycentres des projections
des points reprsentatifs de l'autre nuage.
(
k) La matrice de terme gnral permettant de calculer les coordonnes
Ji.
d'un point i partir de tous les points j (relation [1.3 - 12)) n'est autre que le
tableau des profils-lignes.
La coordonne de la modalit i d'une des variables est la moyeIUle des
modalits j de l'autre variable pondres par les frquences conditioIUlelles
du profil de i. De mme, la relation [1.3 - 13) montre que la coordonne de la
modalit j est la moyenne de l'ensemble des modalits i pondres par les
frquences conditionnelles du profil de j.
Remarques
1) Toutes les valeurs propres sont ncessairement infrieures ou gales 1. En effet
puisque:
on a:
et finalement:
86 Mthodes factorielles _ chapitre 1
min{ Ip(1.J.} $ {i;1jI(1.; $ 71'Ulx{ Ip(1.J}
(j) (j)
d'o:
max{..[f;; 1jI(1.;} $ 71'Ulx( Ip(1.J.}
(i) (j)
De la mme manire, on a :
71'UlX [..[f;;Ip(1.J. J $ 71'Ulx{ ljIa;}
(j) (i)

71'Ul X{..[f;;Ip(1.J. }$ 71'UlX{Ip(1.J. }
(il (j)
u $. J
2) Les relations quasi-barycentriques ne sont pas des cas particuliers des relations
de transitions tablies lors de l'analyse gnrale car les matrices "de passage" ne
sont pas transposes l'une de l'autre.
<
1
pcolonnes
tableau
de
contingence
nuage de p points
dans Rn
f - Reprsentation simultane
Les relations quasi-barycentriques justifient la reprsentation simultane
des lignes et des colonnes. La figure 1.3 - 12 illustre schmatiquement le
processus de l'analyse des correspondances.
nligr-
nuage de n points
dans R
P


!J...... *C:
. ..
\

1
relations quasi-barycentriques
t
reprsentation simultane
Figure 1.3 - 12
Schma de la reprsentation simultane
1.3 _ Analyse des correspondances 87
soit
Si les mthodes factorielles sont fondes sur le calcul des distances entre
points-lignes et entre points-colonnes, la distance entre un point-ligne et un
point-colonne n'a pas de sens puisque ces points sont dans des espaces
diffrents. L'analyse des correspondances offre cependant la possibilit de
positionner et d'interprter un point d'un ensemble relatif un espace par
rapport l'ensemble des autres points dfinis dans l'autre espace.
g - Autre prsentation de l'analyse des correspondances
La recherche de la meilleure reprsentation simultane des ensembles
lignes et colonnes, introduite au paragraphe 1.3.2, est une faon de prsenter
l'analyse des correspondances qui conduit directement aux formules de
calculs analytiques des facteurs. Nous cherchons reprsenter sur un
mme axe l'ensemble des lignes et l'ensemble des colonnes, pour approcher
la situation idale suivante:
li] Chaque point-colonne j est barycentre des points-lignes i, ceux-ci tant
affects d'une masse Pi proportionnelle leur importance dans la
modalit j c'est--dire de la masse: Pi = f f i ~
.j
Ces masses constituent, pour chaque colonne j, les profils-colonnes du
Il
tableau de donnes avec LPi = 1.
i=1
[ii] Chaque point-ligne i est barycentre des points-colonnes j, chaque point-
colonne tant affect de la masse qj reprsentant la part de la modalit j
dans la modalit i c'est--dire: qj =li
fi
!
1.
Ces masses constituent, pour chaque ligne i, les profils-lignes du tableau
p
de donnes avec Lqj = 1.
j=l
Nous dfinissons ainsi des relations strictement barycentriques entre les
deux ensembles. Si <Pj dsigne la coordonne du point-colonne j sur un axe,
et si 'JI i dsigne la coordonne du point-ligne i sur ce mme axe, les
conditions li] et [ii] s'crivent respectivement:
[
Il k
Cl'j =L~ lfIi
i=lfj
Pk
lfIi =L~ I j
j=lfi.
Ces relations sont en gnral impossibles raliser simultanment, car elles
impliquent que chaque ensemble soit contenu dans l'autre. (Il existe une
solution triviale, pour laquelle tous les points des deux ensembles sont
confondus avec le point d'abscisse 1).
88 Mthodes factorielles _ chapitre 1
Pour approcher cette situation idale, nous cherchons un coefficient P
positif et le plus proche possible de l, tel que l'on ait les relations:
[1.3 -14]
[13 -15]
Remarquons que P est ncessairement suprieur (ou gal) 1 sinon les
relations [1.3 - 14] et [1.3 - 15] impliqueraient encore que chacun des deux
ensembles recouvre un intervalle de l'axe strictement contenu dans
l'intervalle recouvert par l'autre. On est donc conduit chercher le plus
petit P positif tel que [1.3 - 14] et [1.3 - 15] soient vrifies.
Dans [1.3 - 14], par exemple, remplaons '" par sa valeur tire de [1.3 - 15] :
D-
1
F' D-
1
F =J...
p n q> p2 q>
Prmultipliant l'quation de l'axe factoriel u dans llV par D
r
/ :
Dp1F' ~ l F p l u = Dp1u
On rappelle que les coordonnes factorielles dans Rn valent (cf. formule
[1.3 - 11]):
On a donc:
Dp1F' ~ l F q =<p
Et par identification, on obtient:
relations quasi-
1
P="Jf
d'o
1
=2"
P
Les relations [1.3 - 14] et [1.3 - 15] ne sont autres que les
barycentriques [1.3 - 12] et [1.3 - 13] dfinies prcderrunent
1
.
On peut tendre la recherche de la meilleure reprsentation p-barycentrique
sur un axe, celle de la meilleure reprsentation (Pl,P2)-barycentrique dans
un plan repr par deux axes orthogonaux, puis gnraliser un sous-espace
de dimension quelconque. On trouve alors la reprsentation simultane
fourme par l'analyse des correspondances 2.
1 Puisque le coefficient ~ doit tre suprieur ou gal l, on dmontre galement de
cette faon le rsultat dj tabli au paragraphe (e) ci-dessus selon lequel, en analyse
des correspondances, toutes les valeurs propres sont infrieures ou gales 1.
2 Nous verrons galement au chapitre 3 d'autres prsentation de l'analyse des
correspondances (cas particulier des analyses canoniques, discriminantes). D'autres
points de vue complmentaires sont dvelopps par Escoufier (1985,1988).
1.3 _ Analyse des correspondances 89
[1.3 -17]
h - Fonnule de reconstitution des donnes
Les calculs du paragraphe 1.1.5 s'appliquent galement au cas de l'analyse
des correspondances, en notant toutefois que les vecteurs Ua et Va sont
maintenant orthonorms pour les mtriques DpI et ~ I En partant des
relations [1.3 - 6] et [1.3 - 7] (cf. 1.3.3.d), et en suivant un raisonnement
analogue celui du paragraphe 1.1.5, on obtient la formule:
p
fij = fi,fj L~ 'Pajlflai [1.3 - 16]
a=l
qui s'crit aussi, en faisant intervenir la premire valeur propre qui vaut 1,
et les facteurs correspondants (voir plus bas, paragraphe 1.3 - 7a) :
p
fij =fifj(l+ L ~ 'Pajlflai)
a=2
1.3.4 Rgles d'interprtation: inertie, fonnes de nuages
Les nuages de points-lignes et de points-colonnes vont tre reprsents dans
les plans de projection forms par les premiers axes factoriels pris deux
deux. La lecture des graphiques ncessite cependant des rgles
d'interprtation, en particulier pour apprcier les proximits, identifier les
lments responsables de la formation des facteurs et ceux qui en sont des
caractristiques. Ces rgles s'appuient sur le bilan de l'opration de
rduction que constitue la squence des valeurs propres et des pourcentages
d'inertie, ainsi que sur un ensemble de coefficients classiques: les
contributions absolues et les cosinus carrs, qui seront tudis au paragraphe
1.3.5.
La valeur de l'inertie globale n'a pas toujours une interprtation
intressante. En analyse en composantes principales norme (section 1.2) et,
nous verrons, en analyse des correspondances multiples (section 1.4),
l'inertie totale dpend uniquement du nombre de variables. On interprte,
en revanche, les pourcentages d'inertie de chaque axe les uns par rapport
aux autres.
Les problmes de validit et de porte des rsultats seront abords au
chapitre 4 dans un cadre gnral. On se bornera dans cette section quelques
considrations gnrales.
a - Inertie et test d'indpendance
En analyse des correspondances, nous l'avons vu ( 1.3.2.e), la valeur de
l'inertie globale est lie au test classique du X
2
.
L'inertie totale l du nuage de points par rapport au centre de gravit s'crit
par dfini tion :
90 Mthodes factorielles _ chapitre 1
1 = ikd
2
(i,G) = ffl
2
(j,G) = f i/i
j
Ji,li)2
i=1 j=1 j=1i=1 fif]
L'effectif total tant k, on reconnat en kI la statistique qui est
asymptotiquement distribue suivant la loi du X
2
(n-l)(p-l) degrs de
libert (sous l'hypothse d'indpendance) :
X
2
=kI
L'inertie s'exprime galement par:
p-1
1= L,.
a
a=1
La somme des valeurs propres non triviales d'une analyse des
correspondances a donc une interprtation statistique simple. On pourra
rejeter l'hypothse nulle d'indpendance des variables en lignes et en
colonnes si la valeur observe X
2
dpasse la valeur xt qui a une probabilit
d'tre dpasse infrieure un seuil fix au pralable!.
La valeur de l'inertie est un indicateur de la dispersion du nuage et mesure
la liaison entre les deux variables.
Cependant, on ne s'intresse pas seulement la dispersion du nuage mais
surtout l'existence de directions privilgies dans ce nuage.
On consulte les inerties de chaque axe (valeurs propres) ainsi que les taux
d'inertie correspondants. Cet examen nous renseigne sur la forme du
nuage: forme "sphrique" (pas de direction privilgie) ou forme non
sphrique (directions privilgies).
Tableau 1.3 - 8
Valeurs propres, pourcentages d'inertie pour la table 1.3 - 1
NO VALEUR POUR- POURCENT.
PROPRE CENTAGE CUMULE
1 .2088 89.37 89.37
*******************************
2 .0222 9.51 98.89
***
3 .0026 1.11 100.00
*
Trace .2336
=
INERTIE TOTALE)
Le tableau 1.3 - 8 donne les valeurs des trois valeurs propres non nulles de
l'analyse de la table 1.3 -1. L'inertie totale (0.2336), somme des trois valeurs
propres, multiplie par l'effectif total de la table (592) donne la valeur 138.29
1 Cette faon d'oprer un test d'hypothse correspond l'usage classique des tables
statistiques donnant les valeurs X5 pour chaque degr de libert et pour certains seuils
conventionnels (0.05 ou 0.01 en gnral). Souvent les logiciels donnent directement la
probabilit que le X
2
calcul soit dpass. Il suffit alors, sans recours une table, de
comparer cette probabilit aux seuils prcdents.
1.3 _Analyse des correspondallces 91
qui doit tre une ralisation d'un X
2
9 degrs de libert dans l'hypothse
d'indpendance des lignes et des colonnes de la table. Un tel X
2
ne dpasse.
21.7 que dans 1% des cas (seuil 0.01) .
L'hypothse d'indpendance des couleurs des yeux et des cheveux est donc
rejete. C'est dans une telle circonstance qu'interviendra utilement
l'analyse des correspondances, pour dcrire cette dpendance entre lignes et
colonnes.
D'une faon gnrale, deux variables sont indpendantes si les profils de
leurs modalits sont identiques (aux fluctuations d'chantillonnage prs)
aux profils moyens (cf. 1.3.3.b) : l'inertie totale est faible et il n'existe pas de
direction privilgie. Gomtriquement, cela signifie que tous les points
sont concentrs autour du centre de gravit du nuage suivant une forme
sphrique. Ceci se traduit par le schma de la figure 1.3 - 13.

Figure 1.3 - 13
Situation d'indpendance
Ces indicateurs, portant d'une part sur l'inertie totale et d'autre part sur
l'inertie des axes et leurs taux d'inertie, ont donc un intrt au moment de
l'interprtation.
On schmatise les principaux cas sur la figure 1.3 - 14. On remarque que,
dans les situations 2 et 4, les nuages ont des taux d'inertie identiques mais
une inertie totale diffrente. Par ailleurs, les situations 3 et 4 rvlent deux
nuages de mme inertie totale et des taux d'inertie diffrents.
Le test du X
2
permet de dtecter ces deux dernires situations, mais ne
permet pas de mettre en vidence la situation 2 (cf. section 4.1 pour l'tude
de cette question).
Enfin, l'inertie d'un facteur mesure la liaison qu'il met en vidence. Elle ne
peut tre suprieure 1 (cf. 1.3.3.f). Une valeur propre qui tend vers 1
indique une dichotomie au niveau des donnes; on obtient pour chaque
variable deux groupes de modalits sparant le nuage de points en deux
sous-nuages. Cela peut signifier galement l'existence d'un groupe de points
isols des autres points (constituant alors l'autre groupe).
92 Mthodes factorielles _ chapitre 1
Directions
Taux d'inerties des axes
Nuage
Faible
inertie
Inertie
Forte
inertie
Forme "sphrique"
1- INDPENDANCE
faible inertie totale
pas de direction privilgie
3- DPENDANCE
forte inertie totale
pas de direction privilgie
Forme "non-sphrique"
2- DPENDANCE
faible inertie totale
direction privilgie
4- DPENDANCE
forte inertie totle
direction privilgie
Figure 1.3 - 14
Indpendance et dpendances
Lorsque deux valeurs propres sont proches de l, on obtient trois sous-
nuages et les modalits des variables se dcomposent en trois groupes. Si
toutes les valeurs propres sont proches de l, chaque modalit d'une variable
est en correspondance presque exclusive avec une seule modalit de l'autre
variable.
Cependant des valeurs propres faibles (signifiant que les profils sont proches
du profil moyen) ne doivent pas empcher une interprtation des axes
d'inertie associs. Ceux-ci peuvent rvler une structure intressante et plus
difficilement perceptible. Ce point sera repris au chapitre 4, 4.1.3.
b - Quelques fonnes caractristiques de nuages de points
Envisageons quelques formes classiques de nuages afin de montrer
comment la configuration du nuage de points projet permet de rorganiser
le tableau de donnes, par permutation des lignes et des colonnes et ainsi de
mieux l'interprter.
1.3 _ Analyse des correspondances 93
- Le nuage de points est scind en deux sous-nuages
Le tableau de donnes peut tre rorganis en ordonnant les coordonnes
des lignes et des colonnes sur le premier facteur. On obtient de faon
schmatique:
...
.
G
FI
Figure 1.3 -15
Nuage de points scind en deux sous-nuages
Il peut tre intressant d'analyser sparment les deux sous-nuages dfinis
par les deux tableaux de correspondances (II,JI) et (I2,h)
- Le nuage se dcompose en trois sous-nuages de points
On rorganise de la mme manire le tableau de donnes par permutation
des lignes et des colonnes. Les trois sous-nuages peuvent galement faire
l'objet d'analyses spares.
.
. .
..
.
.
.
...
..
..
Figure 1.3 - 16
Nuage de points scind en trois sous-nuages
- "L'effet Guttman"
On peut aboutir ainsi la situation o le nuage de points a une forme
parabolique. Le tableau correspondant est rordonn suivant une diagonale
relativement charge:
...
.
.. .
. .
.
..
. :.
..
..
Figure 1.3 - 17
Effet Guttman et structure possible du tableau
94 Mthodes factorielles _ chapitre 1
Cette situation met en vidence "l'effet Guttman" qui traduit une
redondance des deux variables: de la connaissance de la ligne i, on en
dduit la colonne j. Toute l'information est quasiment donne par le
premier facteur.
Pourtant le tableau n'est pas de rang 1 et l'on disposera de p-l facteurs. Mais
le deuxime facteur est une fonction du second degr du premier facteur, le
troisime est une fonction du troisime degr, etc. L'information donne
par les axes de rang ultrieurs traduit le mme phnomne. Cependant
l'examen du deuxime facteur affine l'interprtation du premier axe!.
Gnralement l'effet Guttman apparat lorsque les variables sont ordonnes
(variables continues transformes en variables nominales). Un axe (souvent
le premier) oppose les valeurs extrmes et un autre axe oppose les valeurs
intermdiaires aux valeurs extrmes. L'effet Guttman met parfois en
vidence une structure triviale qui pourra cependant tre intressante si la
forme parabolique n'est pas parfaite. Les points de rupture sont alors
intressants analyser.
1.3.5 Rgles d'interprtation: contributions et cosinus
Deux sries de coefficients apportent une information supplmentaire par
rapport aux coordonnes factorielles:
- les contributions, parfois appeles contributions absolues, qui expriment
la part prise par une modalit de la variable dans l'inertie (ou variance)
"explique" par un facteur;
- les cosinus carrs, parfois appels contributions relatives ou qualit de
reprsenta tion, qui expriment la part prise par un facteur dans la
dispersion d'une modalit de la variable.
C'est aprs l'examen de ces coefficients que l'on pourra interprter les
graphiques factoriels en tenant compte des relations de transition.
a - Contributions
On cherche connatre les lments responsables de la construction de l'axe
a. Calculons la variance des coordolU1es des n points-lignes i sur l'axe a,
chacun d'eux tant muni de la masse f;..
L'origine tant prise au centre de gravit, les coordonnes factorielles sont
centres (cf. formule [1.3 - 4]) et la variance vaut -
a
(cf. formule [1.3 - 5]).
Ainsi le quotient:
! Sur l'effet Guttman en analyse des correspondances, cf. 8enzcri (1973, chapitre H.8-
7 et 11.8-10), Heiser (1986), Van RijckevorseI (1987) ; Tenenhaus (1994, chapitre 7, 9).
1.3 _ Analyse des correspondances 95
C
(
.) - f;.l{I?n
ra 1 -

a
mesure la part de l'lment i dans la variance prise en compte sur l'axe Cl.
Ce quotient est appel contribution de l'lment i l'axe Cl et permet de
savoir dans quelle proportion un point i contribue l'inertie
a
du nuage
projet sur l'axe a.
On notera que pour tout axe a:
n
I,Cra(i) = 1
i=l
G
i
G
i
-0
ft
..
-0
ft
..
G i' G
i'
-0

..
-0
ft
..
Cr
a
(i) < Cra(i')
CraU) < CraU')
Ji <k
l{Iai < l{Iai
1. 1.
G
J ,..
-
G
i'
,..
-
Cr
a
(i) = CraU')
f i . ~ = k . ~
Figure 1.3 - 18
Contributions l'axe Cl : trois cas de figure.
De la mme faon on dfinit la contribution de l'lment j l'axe a par:
frp2.
C
(
.) - .) a)
ra] ---

a
avec la relation:
p
I,Cra(j) = 1
j=l
Pour trouver une ventuelle signification un axe, on s'intresse d'abord
aux points ayant une forte contribution. Ce sont eux qui fixent la position de
l'axe (dans RP pour les points i, et dans Rn pour les points j).
b - Cosinus carrs
On cherche apprcier si un point est bien reprsent sur un sous-espace
factoriel.
Les axes factoriels de chaque espace constituent des bases orthonormes. Le
carr de la distance d'un point au centre de gravit se dcompose en somme
de carrs des coordonnes sur ces axes.
Pour un point i de RF, on a :
96 Mthodes factorielles _ chapitre 1
d
2
(j, G) = f -l(/;j - J'J2
J
' r. )
j=l.j )1.
On remarque que la distance s'annule lorsque le profil du point est gal au
profil moyen.
Le carr de la projection de la variable i sur l'axe CI. vaut
(j, G) =
Notons que:
L = d
2
(j,G)
a
Un point i dans RP est plus ou moins proche de l'axe CI.. La proximit entre
deux points projets sur l'axe CI. correspond d'autant mieux leur distance
relle que les points sont plus proches de l'axe.
G
Figure 1.3 -19
Projection du point i sur l'axe a
La "qualit" de la reprsentation du point i sur l'axe a peut tre value par
le cosinus de l'angle entre l'axe et le vecteur joignant le centre de gravit du
nuage au point i :


d
2
(i,G)
Cette quantit, appele cosinus carr, reprsente la part de la distance au
centre prise en compte dans la direction CI.. On l'appelle aussi la contribution
relative du facteur la position du point i.
Plus le cosinus carr est proche de 1, plus la position du point observ en
projection est proche de la position relle du point dans l'espace (figure 1.3-
20).
On apprcie la qualit de la reprsentation d'un point dans un plan en
faisant la somme des cosinus carrs sur les axes tudis.
Notons que pour tout i :
1.3 _ Analyse des correspondances 97
G
a
i

'" 0
mal reprsent sur l'axe a
'" 1
bien reprsent sur l'axe Ct
Figure 1.3 - 20
Qualit de reprsentation d'un point j sur l'axe lX
Ce qui vient d'tre dit des n points-lignes peut tre transpos aux p lments
de l'autre ensemble. On mesure la contribution relative du facteur Ct la
position du point j par le cosinus carr de j :
'P
2
.
Cos
2
<J) = aj
a d
2
<j,G)
et l'on a galement pour tout j :
= 1
a
Pour analyser les proximits entre points, on s'intresse surtout aux points
ayant un cosinus carr lev. Les proximits entre ces points, observs dans
le sous-espace factoriel, donnent une bonne image de leurs proximits
relles.
Remarque
Pour les contributions ainsi que pour les cosinus carrs, il n'y a pas de valeurs
"seuils" partir desquelles on peut dire que telle ou telle valeur est "forte" ou
"faible". Les apprciations se font empiriquement, en fonction de l'ensemble des
valeurs calcules et varient d'un jeu de donnes un autre!.
c - Exemple numrique
L'exemple concerne toujours l'analyse des correspondances de la table 1.3-
1. Les coordonnes sur le premier axe (tableau 1.3 - 9) montrent que la
couleur des cheveux "blond" s'oppose toutes les autres sur le premier axe,
mais surtout "brun". Le point "blond" a une contribution de 71.7% au
premier axe et un cosinus carr de 0.99 : il est pratiquement sur cet axe et ne
pourra donc pas caractriser les axes ultrieurs. Notons que le point "roux" a
une contribution trs faible sur le premier axe (1.0%).
1 Notons qu'il est usuel de multiplier par 100 les contributions, de faon exprimer en
pourcentage la participation de chaque point.
98 Mthodes factorielles _ chapitre 1
Tableau 1.3 - 9
Coordonnes, contributions, cosinus carrs
pour l'analyse des correspondances de la table 1.3-1
COLONNES COORDONNEES CONTRIBUTIONS COSINUS CARRES
123 123 123
-.50 .21 -.06 22.2 37.9 21.6 .84 .15 .01
-.15 -.03 .05 5.1 2.3 44.3 .86 .04 .09
-.13 -.32 -.08 1.0 55.1 31.9 .13 .81 .05
.84 .07 -.02 71.7 4.7 2.2 .99 .01 .00
COORDONNEES CONTRIBUTIONS COSINUS CARRES
1 2 3 1 2 3 1 2 3
-.49 .09 -.02 43.1 13 .. 0 6.7 .97 .03 .00
-.21 -.17 .10 3.4 19.8 61.1 .54 .34 .12
.16 -.34 -.09 1.4 55.9 31.9 .18 .77 .05
.55 .08 .00 52.1 11.2 .3 .98 .02 .00
YEUX
y.marron
y.noisette
y.vert
y.b1eu
CHEVEUX
Ch.Brun
Ch.chatain
Ch.roux
Ch.blond
LIGNES
Le second axe (dont on a vu qu'il correspondait une valeur propre prs de
dix fois plus petite que le premier) est essentiellement construit par la
couleur "roux" (55.1 %) qui s'oppose simultanment "brun" et "blond". La
couleur "roux" est le seul point bien reprsent sur l'axe 2 (cosinus carr de
0.81). Pour les points-lignes, le premier axe est construit presque
exclusivement par les yeux "marrons" et "bleus" (contributions de 43.1% et
52.1%), points situs pratiquement sur l'axe (cosinus carrs de 0.97 et 0.98), le
second axe tant surtout li aux yeux "verts".
) axe 2 (9.5%)
0.6
ch.brun 0.3
X
y.marron
ch.chatain
y.bleu

ch.blond
x
_0.6 _0.3 X 0

0.3 0.6
axe 1 (89.4%)
y.noisette
x
ch.roux

y.vert
- 0.6
Figure 1.3 - 21
Premier plan factoriel pour l'analyse de la table 1.3 -1
On note que la consultation des coordonnes pouvait faire penser que les
yeux "noisettes" et "verts" jouaient un certain rle dans la construction du
1.3 _ Analyse des correspondances 99
premier axe. La figure 1.3 - 21 qui utilise les deux premires coordonnes,
montre le caractre suggestif de la reprsentation graphique simultane des
lignes et des colonnes. Elle permet d'interprter les proximits ou distances
entre points d'un mme ensemble par leur association avec ceux de l'autre
ensemble.
Pourquoi par exemple le point "ch.blond" est-il plus excentr que le point
"y.bleu" sur ce premier axe trs dominant? Parce que les cheveux blonds
sont beaucoup mieux caractriss par les yeux bleus que l'inverse: d'aprs le
tableau 1.3 - 3 (profils colonnes), 74% des blonds ont les yeux bleus, alors que
d'aprs le tableau 1.3 - 2 (profils lignes) 44% des personnes ayant les yeux
bleus ont des cheveux blonds.
En d'autres termes, dans la relation quasi-barycentrique qui permet de
positionner le point "ch.blond", le point "y.bleu" a un poids relatif de 0.74,
alors que dans la relation quasi-barycentrique qui permet de positionner le
point "y.bleu", le point "blond" n'a qu'un poids relatif de 0.44.
1.3.6 Elments supplmentaires
On dispose par exemple de Ps colonnes supplmentaires qui concernent des
modalits de variables nominales, analogues aux colonnes de la table de
contingence.
Il s'agit de situer ces nouveaux points-colonnes par rapport aux p points
analyss. Soit kif la i
me
coordonne de la jme colonne supplmentaire. Son
profil est donn par:
{
kif . 1 + ~ k
+;l =l,2, ... ,n avec k.
j
=L. ij
k
j
i=1
On projette ce point j sur l'axe a en utilisant la mme formule de transition
[1.3 - 13] que pour les colonnes du tableau de frquences:
+ 1 ~ kif
qJaj = ~ L. e l/Iai
V/'o,a 1=1 .J
Pour une modalit i d'une variable porte en ligne supplmentaire, on aura
de faon analogue (formule de transition 1.3 - 12) :
1 p k*
III ~ - '" IJ in .
'rOM - ~ - - e't"aJ
V/'o,a J=l l.
A l'instar des lments analyss, les modalits supplmentaires se calculent
et s'interprtent comme des quasi-barycentres.
100 Mthodes factorielles _ chapitre 1
Remarques
1) Les lments en supplmentaires, n'intervenant pas dans la construction du
nuage, sont affects d'un poids nul et leur contribution est donc nulle. En revanche,
les cosinus carrs restent des aides l'interprtation de ces lments 1.
2) La somme des cosinus carrs d'un lment supplmentaire sur l'ensemble des
facteurs peut tre infrieure 1 alors que pour les lments actifs elle est
exactement gale 1.
En effet, supposons n>p et plaons-nous dans l'espace des lignes. Un point-
colonne actif j est dfini dans Rn mais il est situ, par l'analyse, dans l'espace
factoriel p - 1 dimensions. Il suffit de p - 1 coordonnes pour positionner cet
lment. Un lment-colonne supplmentaire j+ sera positionn dans l'espace
p - 1 dimensions construit par l'analyse alors qu'il appartient RP. Les lments
supplmentaires ne sont donc pas entirement contenus dans l'espace factoriel
2
.
1.3.7 Mise en uvre des calculs
La distance du X
2
ne diffre en fait de la mtrique euclidienne usuelle que
par l'introduction d'une pondration. On peut se ramener la mtrique
euclidienne usuelle par un changement de coordonnes initial. Les calculs
en sont simplifis et, notamment, la matrice diagonaliser devient
symtrique. Par ailleurs, l'analyse par rapport aux centres de gravit est
quivalente l'analyse par rapport l'origine.
a - Analyse par rapport l'origine ou au centre de gravit du nuage
Nous raisonnerons, pour fixer les ides, dans RP.
Le centre de gravit G du nuage des profils-lignes a pour jime composante:
n li'
gj = .Iii. 0/.- =fj
1=1 )/.
k li'
L'analyse par rapport au centre de gravit revient remplacer 1. par...!L - fj
)/. Ii.
c'est--dire par lij - IiJj .
li.
Remarquons que le nuage est contenu dans un hyperplan J{ P -1
dimensions dfini pour tout i par la relation:
f lij 1
j=1
k
1 Pour une vue d'ensemble sur le rle et l'utilisation des variables supplmentaires en
analyse des correspondances, cf. Cazes (1982).
2 Cette remarque vaut galement pour l'analyse en composantes principales.
1.3 _Analyse des correspondances 101
Ce sous-espace contient le centre de gravit G et les axes factoriels de
l'analyse par rapport G. La somme des composantes de ces facteurs est
nulle.
Analyse par rapport il
l'origine des axes initiaux
Analyse par rapport au
centre de gravit du nuage
Figure 1.3 - 22
Analyse dans ]R3
Dans l'analyse par rapport l'origine, la premire direction u 1 est l'axe
joignant l'origine au centre de gravit du nuage orthogonalement J{.
L'inertie projete sur cet axe vaut l, gale la distance entre l'origine et le
centre de gravit, puisque la projection des points du nuage sur cet axe est
confondue avec le centre de gravit. Les p -1 axes suivants (U2, ...,Ua, ...,u
p
)
contenus dans Jf constituent une base dfinissant des directions de droites
d'inertie maximum du nuage. Ils concident avec les p-1 premiers axes de
l'analyse par rapport au centre de gravit (Ul, ... u ~ ... ,Up_1)'
Le pime axe correspond U1 et n'indique aucune direction dans Jfpuisqu'il
n'est pas contenu dans J{. Son inertie (valeur propre) associe, est nulle.
S tant la matrice diagonaliser du nuage non centr et So celle du nuage
centr, on a les relations: 1
sJr = sj] - fi
et pour 1 < a < p - 1 :
et
~ =u
1
et ~ =a et 1..
1
=1
Ainsi dans RP (et il en est de mme dans Rn), il est quivalent de raliser
l'analyse des correspondances sur le tableau de donnes centres de terme
gnral:
hj - f.
/; -1
l.
ou sur le tableau de donnes non centres de terme gnral:
102
f;j
/;
/.
Mthodes factorielles _ chapitre 1
On peut donc diagonaliser la matrice S de l'analyse par rapport l'originel,
en prenant soin d'liminer le premier vecteur propre reliant l'origine au
centre de gravit du nuage et la valeur propre associe gale 1.
b - Symtrisation de la matrice diagonaliser
La matrice diagonaliser S = F' dans RP, n'est pas en gnral
symtrique. Son terme gnral s'crit:
_ n f;jf;j'
s"'-L -
JJ . 1 /; f Of
1. .J
Considrons la matrice = F' symtrique et la matrice diagonale.
On exprime alors S de la manire suivante:
S =O-l/2
0
-l/
2
P P
Partant de la relation Su = ,u, il vient:
O-l/2
0
-l/2
u
=,u
p p
Prmultiplions les deux membres par et en posant = w, on
obtient:
La matrice A est symtrique
A =0-l/2O-l/2 =0-l/2
F
, 0-l
FO
-l/2
ppp n p
et:
Aw = ,w
Les matrices S et A ont mmes valeurs propres ,. Leurs vecteurs propres
sont lis par la relation:
u =0-l/2
w
P
Il est plus facile de diagonaliser la matrice A de terme gnral:
n f;jf;j'
a, = L --i;==f==
JJ r. Iff,
1 JiV .J .J
1 Compte tenu du critre d'ajustement, on considre l'inertie totale du nuage centr,
gale la trace tr(5) de 5 et l'on a: tr(5 )-1.
1.3 _ Analyse des correspondances 103
(j=l, ... ,p)
Remarque:
C'est la matrice diagonaliser si l'on choisit de prendre comme coordonnes
initiales du point i, les p quantits:
f;j
Xij =TV
J;'\Vj
Dans ce cas, la distance du X
2
entre deux points i et i' devient, avec les nouvelles
coordonnes, la distance euclidienne usuelle:
p [/;. /;,.]2
d
2
(i,i')=L, I} _ I}
j=l f;.F; k.:P;
Cette transformation du tableau des frquences relatives conduit la
diagonalisation d'une matrice symtrique.
Notons que les coordonnes du centre de gravit Gsont alors:
G
i
= ..jTj
et les coordonnes du point i aprs recentrage;
f;j _ {T; = f;j - f;/j
f;. :.[l; -1 f;. {f;
1.3.8 Exemple d'application
L'exemple concerne l'analyse d'un tableau de contingence qui croise 8
professions et catgories socioprofessionnelles (PCS) et 6 types de mdias
pour un chantillon de 12 388 "contacts mdia" relatifs 4433 personnes
interroges. L'individu statistique sera pour nous le "contact mdia" et non
la personne interroge dans l'enqute. Comme ce fut le cas pour l'exemple
trait au paragraphe 1.2.11, les donnes sont extraites de l'Enqute Budget-
temps MuItimditl 1991-1992 du CESP.
Afin d'interprter plus efficacement les reprsentations obtenues, on
projettera en lments supplmentaires certaines autres caractristiques de
la population enqute telles que le sexe, l'ge, le niveau d'instruction.
Nous disposons des tables de contingence suivantes (cf. tableau 1.3 - 10).
Pour le premier blocs K de 8 lignes (lignes actives) on trouve,
l'intersection de la ligne i et de la colonne j le nombre kij d'individus
appartenant la catgorie i et ayant eu la veille (un jour de semaine) au
moins un contact avec le type de mdia j. Les blocs suivants (lignes
supplmentaires) s'interprtent de faon analogue. Une personne
interroge pouvant avoir des contacts avec plusieurs mdias, les sommes en
ligne reprsentent des "nombres de contacts"l.
1 Il Ya 12388 contacts pour 4433 individus concerns. Les chiffres publis ici ayant
t arrondis aprs un redressement, les totaux relatifs aux diffrentes partitions de la
population peuvent ne pas concider.
104 Mthodes factorielles _ chapitre 1
Tableau 1.3 - 10
Tables de contingence croisant les types de contacts-mdia (colonnes)
avec professions, sexe, ge, niveau d'ducation (lignes).
Radio Tl. Quot.N. Quot R. P.Mag. P.TV
Professions
Agriculteur 96 118 2 71 50 17
Petit patron 122 136 11 76 49 41
Prof. Cad. S. 193 184 74 63 103 79
Prof. interm 360 365 63 145 141 184
Employ 511 593 57 217 172 306
Ouvrier quaI 385 457 42 174 104 220
Ouvrier n-q 156 185 8 69 42 85
Inactif 1474 1931 181 852 642 782
Sexe
Homme 1630 1900 285 854 621 776
Femme 1667 2069 152 815 683 938
Age
15-24 ans 660 713 69 216 234 360
25-34 ans 640 719 84 230 212 380
35-49 ans 888 1000 130 429 345 466
50-64 ans 617 774 84 391 262 263
65 ans ou + 491 761 70 402 251 245
Education
Primaire 908 1307 73 642 360 435
Secondaire 869 1008 107 408 336 494
Techn. prof. 901 1035 80 140 311 504
suprieur 619 612 177 209 298 281
On cherche dcrire les ventuelles affinits entre les groupes
socioprofessionnels et les diffrents types de mdias.
L'analyse des correspondances de la table K conduit aux valeurs propres
consignes dans le tableau 1.3 -11.
Tableau 1.3 - 11
Valeurs propres, pourcentages d'inertie pour la table K
"Professions-Contacts mdia" (8 premires lignes de la table 1.3 -11)
NUM. VALEUR POURCENT. POURCENT.
PROPRE CUMULE
1 . 0139
2 . 0072
3 .0008
4 .0003
5 .0001
SOMME .0223
62.20
32.37
3.70
1. 36
.37
62.20
94.56
98.26
99.63
100.00
Le produit de la trace t =0.0223 par l'effectif total k =12388 vaut:
kt = 276.25
Dans l'hypothse d'indpendance des lignes et des colonnes de la table, cette
quantit serait une ralisation d'un X
2
35 degrs de libert (not Xs)
[35 = (8-1) (6-1)].
1.3 _ Allalyse des correspolldallces 105
Lorsque le nombre de degrs de libert n dpasse 30, on considre que la
X
2
-n
variable u = n
0L
est une variable normale (de Laplace-Gauss) centre
"I/2n
rduite. Ici, u = 28.8 (28.8 carts-types de la moyenne). L'hypothse
d'indpendance est videmment rejete.
Deux facteurs sont dominants et reprsentent prs de 95% de l'inertie totale.
Les coordOIUles et les aides l'interprtation correspondants figurent dans
le tableau 1.3 - 12. Celui-ci dOIUle galement les coordonnes et les cosinus
carrs des lignes supplmentaires.
Tableau 1.3 - 12
Poids relatifs (P.REt>, Distances l'origine (DIS), coordonnes, contributions et
cosinus carrs des lments sur les trois premiers axes
FREQUENCES
LIBELLES P.REL DIS
COORDONNEES
3
CONTRIBUTIONS
3
COSINUS CARRES
3
COLONNES ACTIVES
Radio
Tlvision
Quotidien nat.io
Quotidien regio
Presse Magazine
Presse Mag. T.V.
LIGNES ACTIVES
Agriculteur
Pet i t pat ran
Prof. Cadre Sup
Prof. int.erm
Employ
Ouvrier quaI
Ouvrier n-q
Inaet i f
26.61
32.04
3.54
13.46
10.52
13.84
2.86
3.51
5.62
10.15
14.98
11.16
4.40
47 .32
.00
.00
.29
.02
.03
.03
.13
.03
.19
.01
.01
.01
.02
.00
-.01
.05
-.54
.11
-.09
.01
.17
.07
-.43
-.11
.02
.04
.12
.03
.02
.00
-.01
-.11
-.13
.16
-.31
-.14
-.06
.03
.10
.10
.09
-.03
-.05
.02
.02
.01
.02
.03
-.07
-.06
.00
-.03
-.01
-.02
-.04
.03
.4 1. 8
6.6 .0
74.6 .0
11.5 22.4
6.8 25.6
.1 50.1
5.7 38.0
1.2 10.0
75.0 2.9
8.3 1.5
.3 18.9
1.5 15.9
4.4 5.5
3.6 7.3
70.4
10.5
1.8
.4
4.5
12.4
17.9
17.7
.1
11.8
.5
5.1
8.4
38.7
.08
.85
.99
.49
.32
.00
.21
.15
.98
.80
.03
.14
.56
.37
.17
.00
.00
.49
.62
.96
.74
.67
.02
.08
.93
.74
.36
.39
.75
.OB
.00
.00
.01
.03
.04
.14
.00
.07
.00
.03
.06
.24
LIGNES ILLUSTRATIVES (SUPPLEMENTAIRES)
Homme
Femme
15-24 ans
25-34 ans
35-49 ans
50-64 ans
6S ans ou +
Primaire
Secondaire
Teehn. pro f .
Suprieur
48.97 .01
51. 05 .00
18.18 .02
18.28 .02
26.30 .00
19.30 .01
17.92 .03
30.07 .03
26.01 .00
23.98 .07
17.73 .09
-.05
.05
-.02
-.03
-.03
.02
.07
.13
.00
-.03
-.29
-.02
.02
.10
.12
.01
-.10
-.14
-.08
.04
.18
-.02
-.01
.01
-.04
-.01
-.01
.00
.07
.02
.00
-.04
-.01
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.48
.49
.02
.05
.61
.05
.14
.63
.00
.01
.99
.11
.10
.56
.87
.10
.80
.58
.24
.69
.46
.00
.02
.02
.08
.01
.07
.00
.16
.02
.00
.02
.00
On note que l'lment "Quotidien national" dont la frquence relative
(colonne P.REL) est trs faible (3.54%) a une distance au point moyen
(colonne DIS) trs leve: le profil correspondant est donc atypique. Il
contribue pour 74.6% la construction du premier axe, qui en est trs proche
(cosinus carr: 0.99). Ce mme premier axe est caractris par la ligne active
106 Mthodes factorielles _ chapitre 1
"Prof.Cadre" (profession librale, cadres suprieurs) et par la ligne
supplmentaire "Suprieur" (niveau d'tude suprieur).
Le second axe spare la "Presse Magazine de Tlvision" (associe aux
catgories employs et ouvriers, et aux classes d'ges plutt jeunes) de la
presse magazine (Presse TV exclue) et de la presse quotidienne rgionale,
toutes deux associes aux agriculteurs et aux petits patrons, et des
catgories d'ge plus leves.
Les figures 1.3 - 23 et 1.3 - 24 rsument ce rseau d'associations.
" axe 2 (32.4%)
0.30
axe 1 (62.2%)
-

Quot.Reg.
x
Petits Patrons
o
~ c t i f s 0.15
Press, Mag
-0.15
Pr.Mag.TV
0.15
.j:Juvriers
x x Ouvriers n.q.
Employs
Prof. Interm.
x ~ dia Ilv.
-0.15 - 0.45 - 0.30
x
Prof. Cad. Sup.

Quot.Nat.
- 0.30
A&liculteurs
Figure 1.3 - 23
Variables actives dans le premier plan factoriel
Il est clair dans une analyse de ce type que le premier axe correspond une
interprtation ponctuelle: les contacts mdia avec la presse quotidienne
nationale sont, de faon significative, surtout le fait de cadres suprieurs
et/ou de personnes d'un haut niveau d'ducation. Ce rsultat n'est
cependant pas d'emble visible sur le tableau 1.3 - 10.
En revanche, les positions des points sur les deux figures donnent une
interprtation plus nuance du second axe: les professions salaries, de
niveau d'ducation moyen, composes surtout de jeunes (contact mdia:
Presse magazine TV), s'opposent aux petits patrons et agriculteurs, en
moyenne sensiblement plus gs et moins instruits (contacts: presse
magazine autre que TV, et presse quotidienne rgionale).
Que se passe-t-il si l'on supprime, au sein des colonnes actives, la colonne
"Quot. N." dont le rle est prdominant, pour la positionner en lment
supplmentaire?
1.3 _Analyse des correspolldallces
J ~ axe 2 (32.4%)
0.30
107
- 0.45 - 0.30
Suprieur x
Teclul. prof.
x
25-34 ans
x
15-24 ans
x
35-49 ans Femme
x x 0.15
o x
-0.1 5 o ~ m Secondaire
x x Primaire
50-64 ans
-0.15 65 Js ou +
- 0.30
axe 1 (62.2%)
"'"
Figure 1.3 - 24
Variables supplmentaires ou iIIustralives dans le premier plan factoriel
On a vu que cette colonne est presque situe sur l'axe 1 (cosinus carr de
0.99). Sa suppression enlverait 74.6% de l'inertie dans cette direction
(valeur de la contribution), et donc l'inertie dans cette direction serait
infrieure celle du second axe actuel! sur lequel la colonne supprime a
d'ailleurs une contribution nulle. Donc le nouveau premier axe d'inertie
maximale sera trs voisin de l'ancien second axe. Tous calculs faits, on
trouve, aprs suppression de la colonne en question, une premire valeur
propre de 0.0074 (la seconde valeur propre valait 0.0072) et des coordonnes
sur ce nouveau premier axe qui diffrent d'au plus de 0.01 de celles de
l'ancien second axe. Le nouveau second axe (sur lequel la colonne
supplmentaire "Presse Quot." a une coordonne de 0.54 et un cosinus carr
de 0.88) est trs voisin de l'ancien premier axe.
Cet exemple aura illustr le positionnement de lignes supplmentaires et de
colonnes supplmentaires, l'usage simultan des trois types d'aides
l'interprtation (valeurs propres, contributions, cosinus carrs) ainsi que le
caractre itratif de l'analyse, qui fait penser un "pluchage" progressif des
nuages de points profils. L'exemple du paragraphe 2.4.4 illustrera aussi cette
dmarche en montrant la complmentarit de l'analyse factorielle avec la
classification automatique.
1 25.4 %(complment 100 de 74.6 %) de 0.0139 (premire valeur propres q) est en
effet trs infrieur 0.0072 (seconde valeur propre
Section 1.4
Analyse des Correspondances Multiples
L'analyse des correspondances introduite dans la section prcdente peut se
gnraliser de plusieurs faons au cas o plus de deux ensembles sont mis
en correspondance. Une des gnralisations la plus simple et la plus utilise
est l'analyse des correspondances multiples qui permet de dcrire de vastes
tableaux binaires, dont les fichiers d'enqutes socio-conomiques
constituent un exemple privilgi: les lignes de ces tableaux sont en gnral
des individus ou observations (il peut en exister plusieurs milliers) ; les
colonnes sont des modalits de variables nominales, le plus souvent des
modalits de rponses des questions. Il s'agit en fait d'une simple
extension du domaine d'application de l'analyse des correspondances, avec
cependant des procdures de calcul et des rgles d'interprtation spcifiques.
On peut faire remonter les principes de cette mthode Guttman (1941),
mais aussi Burt (1950) ou Hayashi (1956). D'autres types d'extension ont
t proposs par Benzcri (1973), Escofier-Cordier (1965), et par Masson (1974)
qui s'appuie notamment sur les travaux de Carroll (1968), Horst (l961) et
Kettenring (1971)1.
1.4.1 Domaine d'application
L'analyse des correspondances multiples est une analyse des
correspondances simple applique non plus une table de contingence,
mais un tableau disjonctif complet. Les proprits d'un tel tableau sont
intressantes, les procdures de calculs et les rgles d'interprtation des
reprsentations obtenues sont simples et spcifiques.
L'extension du domaine d'application de l'analyse des correspondances se
fonde sur l'quivalence suivante: si pour n individus, on dispose des
valeurs (rponses) prises par deux variables nominales ayant
respectivement Pl et P2 modalits, il est alors quivalent de soumettre
l'analyse des correspondances le tableau de contingence (Pl, P2) croisant les
deux variables ou d'analyser le tableau binaire n lignes et (Pl + P2)
1 L'analyse des correspondances multiples a t dveloppe galement sur le nom
d'Homogeneity Analysis par l'quipe de J. de Leeuw depuis 1973 (cf. Gifi, 1990) et sous
le nom de Dual Scaling par Nishisato (1980). Une application de l'analyse des
correspondances un tableau disjonctif complet se trouve dans Nakache (1973).
L'ensemble des rsultats et proprits prsents dans cette section figurent, avec des
programmes et des exemples, dans Lebart et Tabard (1973). Le nom d'analyse des
correspondances multiples figure pour la premire fois dans Lebart (1975 a). Un expos
synthtique de ces diverses approches a t ralise par Tenenhaus et Young (1985).
1.4 _ Analyse des Correspondances Multiples 109
colonnes dcrivant les rponses. L'analyse de ce dernier tableau est plus
coteuse, mais plus intressante, car elle se gnralise immdiatement au
cas de plus deux variables nominales.
1.4.2 Notations et dfinitions
3- de 30 34 ans;
6- de 45 49 ans;
Une partie gnralement importante des fichiers d'enqute se compose de
rponses des questions mises sous forme disjonctive complte: les
diverses modalits de rponses s'excluent mutuellement et une modalit
est obligatoirement choisie.
Par exemple la question:
Etes-vous?
1- clibataire, 2- mari(e) ou vivant maritalement,
3- veuj(ve), 4- divorc(e), 5- non rponse,
cinq modalits de rponses (dont une non-rponse) sont possibles.
Une variable continue peut tre transforme en variable nominale par le
dcoupage en classes des valeurs de la variable. Par exemple, la question
"ge de l'enqut", on prvoit 8 modalits de rponse:
1- moins de 25 ans; 2- de 25 29 ans;
4- de 35 39 ans; 5- de 40 44 ans;
7- de 50 ans et plus; 8- non-rponse.
Si l'on dsigne par s le nombre des questions poses n individus, on
dispose ainsi d'un tableau de donnes Rayant n lignes et s colonnes mis
sous forme de codage condens, illustr sur la figure 1.4 - 1 par un tableau
pour lequel s :: 3 et n :: 12.
Le terme gnral riq dsigne la modalit de la question q choisie par le sujet
i. En notant Pq le nombre des modalits de rponses une question q, on a:
riq .;, Pq .
Mais un tel tableau n'est pas exploitable: les sommes en ligne et en colonne
n'ont pas de sens. Il faut recoder les variables.
R=
(n,s)
n
Figure 1.4 - 1
Tableau de donnes sous forme de codage condens
110 Mthodes factorielles _ chapitre 1
a - Hypercube de contingence
Pour disposer de toute l'information, on peut construire l'hypercube de
contingence H croisant les 5 questions et dont les lments constituent
l'ventail des rponses possibles des sujets enquts. On dispose d'un
ensemble-produit des modalits des 5 questions dont les lments sont
constitus des suites de 5 modalits, chacune tant prise dans une question
diffrente.
Pour 5=3 questions ayant respectivement 3,2 et 4 modalits, il existe 24
combinaisons possibles de rponses selon lesquelles sont rparties les
individus. Dans le cas de deux questions, l'hypertable est le tableau de
contingence. Pour un nombre important de questions, l'hypertable sera en
gnral presque vide. Si l'on pose 1000 individus 12 questions ayant
chacune 10 modalits de rponse, le nombre de rponses possibles distinctes
vaut 10
12
. Au plus une case sur un milliard de l'hypertable ne sera pas vide.
b - Tableau disjonctif complet
On dsigne par 1 l'ensemble des n sujets ayant rpondu au questiOImaire et
par P le nombre total des modalits des 5 questions. On a :
s
P = IP
q
q=1
On construit, partir du tableau de donnes R, le tableau Z n lignes et P
colonnes dcrivant les 5 rponses des n individus par un codage binaire. Le
tableau Z est la juxtaposition de 5 sous-tableaux:
Z = (Z}, Z2, ... , Zq, ... , Zsl
1
n
5=3 p=9

<--- >-
2

4
0 1

0 Il 0 0 0 1

oi 2

1

3 0 1 1 0 0 1 0
>;
3

1 2
0 0
1
d 0 0 0

1 1
1 2

4
1 0 0
li
0 0 0 1

1
*
,
1
,
2 3
1 0
0*
0
Il 0 0 1 0
R=
2
1
2 3
ltri+"
Z=
0 1 0]
0
li
0 0 1 0
(n,s)
3 1

1
(n,p) 0 0
1 0: 1 0 0 0
1
l,
1
,
1 1 0

1
oi
1 0 0 0

,
2 1

2
0 1 Ot 1
0;
0 1 0 0
2

2 3
0 1 O
0 0 0 1 0

l' ,
\
11
li
3
,
2 2
0 0 0 0 1 0 0
<-
,
1

1

4
1 0
0\
0
1
0 0 0
,
1 1
Figure 1.4 -.2
Construction du tableau disjonctif complet Z
Le sous-tableau Zq, n lignes et Pq colonnes, est tel que sa ligne contient
Pq - 1 fois la valeur 0 et une fois la valeur 1 dans la colonne correspondant
la modalit de la question q choisie par le sujet i. Autrement dit le tableau
Zq dcrit la partition des n individus induite par les rponses la question q.
1.4 _ Analyse des Correspondances Multiples 111
Le tableau Z est appel tableau disjonctif complet dont le terme gnral
s'crit :
Zij = 1 ou Zij = 0
selon que le sujet i a choisi la modalit j de la question q ou non.
Les marges en ligne du tableau disjonctif complet sont constantes et gales
p
au nombre s de questions: Zi. = L Zij = s
j=l
n
Les marges en colorme : Z = L Z correspondent au nombre de
-J ;=1 IJ
sujets ayant choisi la modalit j de la question q.
On vrifie que, pour chaque sous-tableau Zq, l'effectif total est bien:
Zq = z.j = n
JEq
La somme des marges dorme l'effectif total Z du tableau Z soit:
n p
Z = L LZ = ns
. 1 . 1 J
1= J=
c - Tableau des faces de l'hypercube de contingence ou tableau de
contingence de Burt
L'ensemble des Pq modalits de rponse une question permet de
partitionner l'chantillon en au plus Pq classes. La donne de deux
questions mises sous forme disjonctive complte permet de raliser deux
partitions de l'ensemble des individus enquts et l'on obtient un tableau
de contingence. L'analyse du tableau croisant les deux partitions peut tre
gnralise au cas de s partitions, s tant un entier suprieur 2.
On construit, partir du tableau disjonctif complet Z, le tableau symtrique
B d'ordre (p,p) qui rassemble les croisements deux deux de toutes les
variables:
B=Z'Z
B est appel tableau de contingence de Burt
1
associ au tableau disjonctif
complet Z.
n
Le terme gnral de B s'crit: bjj' = ZijZij'
1=1
B est une juxtaposition de tableaux de contingence.
1 Sir Cyril Burt a t un incontestable innovateur au point de vue mthodologique (cf.
son article prcit de 1950, dans lequel il prconise le calcul de B, et sa diagonalisation
aprs une normalisation qui correspond celle de l'analyse des correspondances
multiples). Il est peut-tre encore plus clbre pour les falsifications d'observations et
les graves fraudes scientifiques et dontologiques dont il a t l'auteur.
112
Les marges sont pour tout j p
Mthodes factorielles _ chapitre 1
et l'effectif total b vaut:
b = 52
n
Le tableau B est form de 52 blocs o l'on distingue:
le bloc Z'qZq' indic par (q,q'), d'ordre (Pq ,pq') qui n'est autre que la table
de contingence croisant les rponses aux questions q et q'.
le qime bloc carr Z'qZq obtenu par le croisement d'une variable avec
elle-mme. C'est une matrice d'ordre (pq, Pq), diagonale puisque deux
modalits d'une mme question ne peuvent tre choisies
simultanment. Les termes diagonaux sont les effectifs des modalits de
la question q.
1 1 1 1
Zj
Zq Zs
...... -
---
..........
0100 100 00001
- _....
---
-_......
Z =
(Il,p)
p
>
n
B =Z'Z =
(P,p)
Figure 1.4 - 3
Construction du tableau des faces de l'hypercube (tableau de Burt) B
partir du tableau disjonctif complet Z
Nous dsignerons par D la matrice diagonale, d'ordre (p,p) ayant les mmes
lments diagonaux que B ; ces lments sont les effectifs correspondant
chacune des modalits (cf. figure 1.4 - 4) :
djj =bjj =z.j
dj) = 0 pour tout j' *j
La matrice D peut tre galement considre comme forme de 52 blocs.
Seules les 5 matrices diagonales D
q
= Z'qZq (q =1, .. 5) constituant les blocs
diagonaux de B sont des matrices non nulles.
1.4 _ Analyse des Correspondances Multiples 113
B=
(p,p)
p=9
<1( >-

osd2310131
1200
..... .... .....t...... ..,.;",.... .. ..... ....
222!60;2211

,, J 1.. ....
10112;2000
012 21j 0300
130;,13,0040
21011210003
D=
(p,p)
400; OO'! 0000
OSO! 00,,0000
003l 00; 0000
..">'.. ..:.olV'hX.""N' ..
000160; 0000
'M;":
000\ OO! 0300
ooo! 0010040
OOOi 0003
1.4.3
Figure (1.4 - 4 )
Tableau de Burt B et matrice diagonale D associe
(donnes des figures 1.4 - 1 et 1.4 - 2)
Principes de l'analyse des correspondances multiples
L'analyse des correspondances multiples est l'analyse des correspondances
d'un tableau disjonctif complet.
00 010(10
n
tableau disjonctif complet

analyse des
correspondances
nuage des nuage des modalits
(points-colonnes)
..
* *
.
: .

.:

..
11
-...
o
.11
....
.- ,..
* . .
Figure 1.4 - 5
Analyse des correspondances multiples
Ses principes sont donc ceux de l'analyse des correspondances savoir:
114 Mthodes factorielles _ chapitre 1
mmes transformations du tableau de donnes en profils-lignes et en
profils-colonnes;
mme critre d'ajustement avec pondration des points par leurs profils
marginaux;
mme distance, celle du X
2
.
L'analyse des correspondances multiples prsente cependant des proprits
particulires dues la nature mme du tableau disjonctif complet. Nous
allons noncer les principes de cette analyse partir du tableau disjonctif
complet puis nous montrerons l'quivalence avec l'analyse du tableau de
Burt.
a - Critre d'ajustement et distance du X
2
Les individus sont tous affects d'une masse identique gale mi
1
et
n
Z
chacune des modalits j est pondre par sa frquence m. = -l
) ns
La distance du X
2
applique un tableau disjonctif complet conserve un
sens. En effet, dans Rn, la distance entre modalits s'crit :
2
d
2
(. ") _ [Zi
j
Zi
j
']
J,] - ""n ---
i=l z.j z.j'
Ainsi deux modalits choisies par les mmes individus concident. Par
ailleurs, les modalits de faible effectif sont loignes des autres modalits.
Dans RP, la distance entre deux individus i et i' s'exprime par:
d
2 (' ") 1 -t. n ( )2
1,1 = - ",,- z.. -Z,
S . 1z. 1) / )
)= .)
Deux individus sont proches s'ils ont choisi les mmes modalits. Ils sont
loigns s'ils n'ont pas rpondu de la mme manire
l
.
b - Axes factoriels et facteurs
En reprenant les rsultats de l'analyse des correspondances et les notations
adoptes (cf. 1.3.3.b), on pose
2
:
1
F=-Z
ns
de terme gnral
z..
h' =...!J...
/) ns
1 On note qu'une modalit j intervient d'autant plus dans le calcul de la distance entre
deux individus que sa masse est plus faible.
2 In est la matrice identit d'ordre (n,n) et ij est tel que:
8ij = 1 si i = j et 8ij = 0 si i '* j
1.4 _ Analyse des Correspondances Multiples
1
Z
o =-0 de terme gnral
J.=
8..
2
P ns
.J IJ ns
1
8..
0 = -1 de terme gnral
li =

n
n
n l.
n
115
Pour trouver les axes factoriels Ua on diagonalise la matrice:
S = F' ~ F O p =2Z' Z 0-
1
s
de terme gnral (attention, s [sans indice] dsigne le nombre de questions
dans ce chapitre):
1 n
s.. , - --LZ"z",
JJ - s Z ". IJ IJ
.J 1=1
Dans RF, l'quation du a
ime
axe factoriel Ua est:
1 Z' 0-
1
~
- Z Ua =lI.aU
a
S
L'quation du a
ime
facteur <Pa = 0-1
ua
s'crit :
2O-lZ' Z <Pa = A.a<Pa
s
De mme, l'quation du a
ime
facteur \Va dans IR
n
s'crit:
2
Z0
-
1
Z
' \Va = A.a'JI
a
s
Les facteurs <Pa et 'JIa (de norme A.a) reprsentent les coordonnes des
points-lignes et des points-colonnes sur l'axe factoriel a.
Les relations de transition entre les facteurs <Pa et 'JIa sont:
c - Facteurs et relations quasi-barycentriques
La coordonne factorielle de l'individu j sur l'axe a est donne par:
_ 1 *' Zij
li!ai - ~ L. -;;CPaj
""'a J=l 1.
c'est--dire:
1 P
li!ai = rl LCPaj
s"a jep(i)
[1.4 -1]
[1.4 - 2]
[1.4 -3]
116 Mthodes factorielles _ chapitre 1
[1.4 - 4]
o pm dsigne l'ensemble des modalits choisies par l'individu i.
Au coefficient + prs, l'individu i se trouve au point moyen du nuage
-yAo.
des modalits qu'il a choisies.
F
2
+
....
individui
Figure 1.4 - 6
Projection d'un individu
au point moyen des modalits choisies
De mme, la coordoIU1e de la modalit j sur l'axe n est donne par:
1 n Zij
({Jaj = rr- L -;:lJfai
-y "'0. 1=1 -J
c'est--dire:
1 n
({Jaj = ..j[; LlJfai
z-J 0. iE[(j)
o l(j) dsigne l'ensemble des individus ayant choisi la modalit j.
Avant la dilatation sur l'axe n, la modalit j se trouve au point moyen du
nuage des individus qui l'ont choisie comme rponse.
modalit j
G
Figure 1.4 - 7
Projection d'une modalit
au point moyen des individus concerns
Dans le calcul des relations quasi-barycentriques [1.4 - 4], les individus ne
sont pas pondrs. Il s'agit de simples calculs de moyeIU1es arithmtiques de
coordonnes.
1.4 _ Analyse des Correspondances Multiples 117
d - Sous-nuage des modalits d'une mme variable
Le nuage des modalits dans RI! peut tre dcompos en 5 s o u s n ~ e s le
qme correspondant l'ensemble des Pq modalits de la variable q. Ces sous-
nuages ont mme centre de gravit G qui est celui du nuage global.
En effet, les coordonnes des points du sous-nuage relatif la variable qsont
les colonnes de ZqOql et les lments diagonaux de lOq sont les masses
n
relatives des Pq points de ce sous-nuage. Puisque:
LZij =1
jepq
alors la i
me
composante du centre de gravit du sous-nuage vaut:
d Z 1
G
. - ~ .J1.....!l... - - - G
ql - L.J .. - - 1
jepq n dIJ n
o il apparat que Gqi ne dpend pas de q.
Les composantes <Pq des modalits d'une variable q (relatives aux facteurs
non-triviaux <p) sont centres puisque ces facteurs correspondent une
analyse du nuage aprs translation de l'origine en G. Les facteurs opposent
les modalits d'une mme variable.
Figure 1.4 - 8
Composantes centres
Remarques
1) Si le tableau disjonctif n'est pas complet (c'est--dire si, pour au moins un
individu, aucune modalit de rponse une question n'a t choisie), les modalits
d'une mme variable ne sont plus centres sur le centre de gravit du nuage global.
2) Le codage disjonctif complet permet de transformer une variable continue en une
variable nominale dont les modalits sont des classes ordonnes. Il est alors utile
de tracer la trajectoire qui relie les classes, trajectoire qui peut suggrer des liaisons
non linaires entre cette variable et les axes.
e - Support du nuage des modalits
Les coordonnes des modalits dans IR
n
sont les colonnes de Z 0-
1
. Elles
engendrent un sous-espace dont la dimension est le rang de ZD-l, donc le
rang de Z = [Zl,Z2,...,Zq,...,Zs].
118 Mthodes factorielles _ chapitre 1
Tous les sous-espaces engendrs par les Zq ont en commun la premire
bissectrice note Ll. Le rang maximum de Z est donc:
Pl + (P2 - 1) + ... + (Ps - 1) = P - s + 1
Le rang maximum de la matrice diagonaliser 0-l Z'Z sera donc P - s + 1
Mais dans l'analyse du nuage par rapport l'origine 0, la premire
bissectrice est vecteur propre correspondant la valeur propre 1 (le nuage
est contenu dans le sous-espace 0-1-orthogonal Ll).
Dans l'analyse par rapport au centre de gravit G, on trouvera donc P- s
valeurs propres non nulles. En choisissant une base dans le support du
nuage, on pourra se ramener la recherche d'lments propres d'une
matrice d'ordre p - s .
f - Meilleure reprsentation simultane
La prsentation de l'analyse des correspondances peut tre formule ici de
faon particulire en raison du codage spcifique au tableau disjonctif
complet.
Nous cherchons sur un mme axe les coordonnes des n individus et des p
modalits de faon que:
la coordonne d'un individu i soit la moyenne arithmtique des
coordonnes des modalits qu'il a choisies ( une dilatation Pprs, que
l'on s'efforcera de rendre minimale).
la coordonne d'une modalit j soit la moyenne arithmtique des
coordonnes des individus qui l'ont choisie ( une mme dilatation P
prs).
Bien entendu, on obtient les relations dite quasi-barycentriques issues de
l'analyse du tableau disjonctif complet Z avec, pour le coefficient de
dilatation (3, la valeur minimale P=J>: :

l'JI = s.fA. Z cp
La reprsentation simultane des individus et des modalits est importante
pour l'interprtation des rsultats. Cependant elle n'est pratiquement pas
utilise, d'une part pour des raisons d'encombrement graphique (on dispose
souvent de plusieurs centaines voire de plusieurs milliers d'individus) et
d'autre part parce que les individus sont, dans la plupart des applications,
anonymes. Ils ne prsentent de l'intrt que par l'intermdiaire de leurs
caractristiques. On peut cependant vouloir projeter les individus sur un
plan factoriel afin d'apprcier leur rpartition et les zones de densit.
1.4 _ Analyse des Correspondances Multiples 119
g - Inertie du nuage des modalits et consquences pratiques
On rappelle que la distance du X
2
dans Rn est la mtrique
La distance entre la modalit j et le centre de gravit du nuage G, dont toutes
les n coordonnes valent 2, s'crit:
n
[
)
2
2 . n zij 1 n
d (j,G)=nL --- =--1
;=1 Zj n z.j
La distance d'une modalit au centre de gravit est d'autant plus grande que
l'effectif est plus faible.
- Inertie d'une modalit
L'inertie I(j) de la modalit j vaut:
I(j) =m
j
d
2
(j,G)
avec:
Z
m=2
1 ns
d'o:
z.j)
5 n
La part d'inertie due une modalit de rponse est d'autant plus grande que
l'effectif dans cette modalit est plus faible.
Le maximum 1 serait atteint par une modalit d'effectif nul. En
5
consquence, on vite, au moment du codage, les modalits faibles effectifs
susceptibles de perturber les directions des premiers axes factoriels.
- Inertie d'une question
L'inertie de la question q, note l (q), vaut:
Pq 1
I(q)= LI(j)=-(Pq-1)
j=l 5
Ainsi la part d'inertie due une question est fonction croissante du nombre
de modalits de rponse.
La part minimale 1 correspond aux questions 2 modalits. D'o l'intrt
5
d'quilibrer le systme des questions, c'est--dire le dcoupage des variables
modalits, si on veut faire jouer le mme rle toutes les questions.
120 Mthodes factorielles _ chapitre 1
- Inertie totale
On en dduit que l'inertie totale l vaut:
Pz
1= "" 1(q) = "" ~ l , i , G )
L L ns ]
q j=l
d'o:
I=P..-l
S
En particulier, elle vaut 1 dans le cas o toutes les questions ont deux
modalits de rponse (cas o p=2s). On verra au paragraphe 1.4.7.a que dans
ce cas, analyse des correspondances multiples et analyse en composantes
principales donnent des rsultats quivalents.
L'inertie totale dpend uniquement du nombre de variables et de modalits
et non des liaisons entre les variables. C'est une quantit qui, dans le cadre
de l'analyse des correspondances multiples (comme dans celui de l'analyse
en composantes principales norme), n'a pas de signification statistique.
h - Rgles d'interprtation
Dire qu'il existe des affinits entre rponses, c'est dire aussi qu'il existe des
individus qui ont choisi simultanment toutes ou presque toutes ces
rponses.
L'analyse des correspondances multiples met alors en vidence des types
d'individus ayant des profils semblables quant aux attributs choisis pour les
dcrire. Compte tenu des distances entre les lments du tableau disjonctif
complet et des relations barycentriques particulires, on exprime:
la proximit entre individus en terme de ressemblances:
deux individus se ressemblent s'ils ont choisi globalement les mmes
modalits.
- la proximit entre modalits de variables diffrentes en terme
d'association:
ces modalits correspondent aux points moyens des individus qui les ont
choisies et sont proches parce qu'elles concernent globalement les mmes
individus ou des individus semblables.
- la proximit entre deux modalits d'une mme variable en terme de
ressemblance:
par construction, les modalits d'une mme variable s'excluent. Si elles
sont proches, cette proximit s'interprte en terme de ressemblance entre
les groupes d'individus qui les ont choisies (vis--vis d'autres variables
actives de l'analyse).
Les rgles d'interprtation des rsultats (coordonnes, contributions, cosinus
carrs) concernant les lments actifs d'une analyse des correspondances
multi pIes sont sensiblement les mmes que celles d'une analyse des
1.4 _Analyse des Correspondances Multiples
] 2]
correspondances simple (cf. 1.3.5). On calcule la contribution et la qualit
de reprsentation de chaque modalit et de chaque individu, si ceux-ci ne
sont pas anonymes pour l'analyse.
Cependant, la notion de variable doit tre prise en compte au moment de
l'interprtation, ceci au travers de ses modalits. Compte tenu de la
dcomposition de l'inertie du nuage des modalits, on calcule la
contribution d'une variable au facteur a en sommant les contributions de
ses modalits sur ce facteur:
Cra(q) ='LCra(j)
jeq
On repre ainsi, en plus des modalits responsables des axes factoriels, les
variables qui ont particip la dfinition du facteur. On obtient un
indicateur de liaison entre la variable et le facteur [cf. Escofier, 1979 cJ.
En revanche, les rgles d'interprtation des valeurs propres et des taux
d'inertie sont diffrentes (on a vu que la trace n'avait plus d'interprtation
statistique). On se reportera au chapitre 4 sur la validit et porte des
rsultats pour plus de dtails.
i - Principes du dcoupage en classes
Les variables continues, pour tre actives dans une analyse des
correspondances multiples, doivent tre soit rendues nominales (dcoupes
en classes), soit recodes selon deux colonnes numriques
1
.
Lorsque l'on cherche ainsi dcouper une variable en classes, on est
confront plusieurs problmes: combien de classes choisir et comment les
choisir? O placer les bornes des classes d'une variable continue? La
consultation de la distribution de chaque variable (tris--plat et
histogrammes) est indispensable pour effectuer ces choix.
Certains principes, dduits des proprits de l'analyse des correspondances
multiples (cf. 1.4.3.g), peuvent tre utiliss pour guider la phase de
recodage: constituer des modalits d'effectifs semblables, dcouper les
variables de manire avoir un nombre comparable de modalits. Pour
donner un ordre de grandeur, un dcoupage entre 4 8 modalits convient
dans la plupart des applications.
Il s'agit par consquent de trouver un compromis entre un dcoupage
techniquement acceptable selon ces principes et un dcoupage qui exhibe au
mieux l'information retenir. On ne peut gnralement pas avoir recours
des algorithmes aveugles pour laborer un dcoupage satisfaisant 2. On
1 Cf. le recodage prconis par Escofier (] 979 b) prsent au 3.8.5.c.
2 L'algorithme de Fisher (] 958) fournit W1e partition optimale exacte (critre variance
inter /variance totale maximal), mais ce critre rend trs mal compte des mlanges de
distributions ayant des variances trs ingales et ne spare donc pas des classes
qU'W1e inspection visuelle d'histogramme distinguerait sans hsiter.
122 Mthodes factorielles _ chapitre 1
retiendra par exemple une modalit de faible effectif si celle-ci est
importante pour l'tude. De mme pour slectionner les bornes des classes
d'une variable continue, on respectera un ou plusieurs seuils naturels dans
le contexte de l'tude, ou significatifs aprs examen de l'histogramme (le
dcoupage en classes d'amplitudes gales est parfois inappropri).
Ces principes sont moins rigoureux pour une variable supplmentaire.
N'intervenant pas dans la formation des facteurs ou des classes, on a parfois
intrt effectuer un dcoupage fin pour les variables supplmentaires.
La transformation de variables continues en variables nominales
occasionne une perte de l'information brute mais prsente certains
avantages: exploiter simultanment des variables nominales et continues
en correspondances multiples; valider a posteriori les donnes en
permettant d'observer l'ventuelle contigut des classes voisines; et mettre
en vidence les ventuelles liaisons non linaires entre variables continues.
Pour un expos de synthse sur les mthodes de codage, on consultera Cazes
(1990), Grelet (1993). L'article prcit de Cazes et les travaux de Gallego
(1982), van Rijckevorsel (1987) portent en particulier sur l'utilisation du
codage flou en analyse des correspondances.
1.4.4 Elments supplmentaires
L'utilisation des lments supplmentaires en analyse des correspondances
multiples permet de prendre en compte toute l'information susceptible
d'aider comprendre ou interprter la typologie induite par les lments
actifs.
Ceci est particulirement intressant lorsque l'ensemble des variables se
dcompose en thme, c'est--dire en groupes de variables homognes quant
leur contenu.
Dans l'analyse du tableau disjonctif complet, on fera intervenir des
lments supplmentaires pour:
Enrichir l'interprtation des axes par des variables n'ayant pas particip
leur construction. On projettera alors dans l'espace des variables les
centres de groupes d'individus dfinis par les modalits des variables
supplmentaires.
Adopter une optique de prvision en projetant les variables
supplmentaires dans l'espace des individus. Celles-ci seront
"expliques" par les variables actives. On peut projeter des individus
supplmentaires dans l'espace des variables, pour les situer par rapport
aux individus actifs ou par rapport des groupes d'individus actifs dans
une optique de discrimination (cf. section 3.3).
.
Suivant la nature des variables supplmentaires, nominales ou continues,
on interprte diffremment leur position sur les axes factoriels.
1.4 _Analyse des Correspondances Multiples
lments actifs lments supplmentaires
0( "'
123
variables
nominales
variables
nominales
variables
continues
tableau de donnes
individus
F
2
F
2
variables
nominales

.
.


+

.


+

.

.

. .
.
F)

FI

..
.

.

.

.
+
+
.

.. .

.
.


.
.
lments actifs
/
variables F
2
continues ,.
'"
xl.......
0\
a
F
2
variables
nominales
il
...
;-"""-""'.1 FI
\ ."" I
X4

........w ..b
lments
Figure 1.4 - 9
Reprsentation des variables supplmentaires
en analyse des correspondances multiples
a - Valeurs-test pour les modalits supplmentaires
Tout comme pour l'analyse des correspondances simples, il n'est pas
ncessaire de projeter en supplmentaire toutes les modalits d'une
variable nominale.
La coordonne factorielle qJaj d'une modalit j sur un axe ex (que cette
modalit figure parmi les variables actives ou qu'eUe soit supplmentaire)
est le produit par le coefficient + de la moyenne arithmtique des
.../a.
coordonnes lfIai des individus ayant choisi cette modalit j de rponse:
1 n
qJ aj = ...p:;; L lfIai
z.j a ieI( j)
124 Mthodes factorielles _ chapitre 1
o /(j) est l'ensemble des individus ayant choisi la modalit j. Ceci suggre
alors le test d'hypothse suivant.
Supposons qu'une modalit supplmentaire j concerne nj individus
(nj =z-j). Si ces nj individus sont tirs au hasard (hypothse nulle Ho) parmi
les n individus analyss (tirage suppos sans remise), la moyenne de nj
coordonnes tires au hasard dans l'ensemble fini des n valeurs If/ai est une
variable alatoire Xaj :
avec pour esprance :
E(Xaj)= 0
et pour variance) :
n-n' .
VarHo(Xaj)=-_J ---!J...
n -1 nj
La coordonne ({)aj de la modalit supplmentaire est lie la variable
alatoire Xaj par la relation:
On a donc:
et:
n-n' 1
Var(({)aj) = __J
n -1 nj
La quantit taj :
taj = ~ nn-_nj ({)aj
mesure en nombre d'cart-types la distance entre la modalit j, c'est--dire le
quasi-barycentre des nj individus, et l'origine sur l'axe factoriel a.. On
appelle cette quantit "valeur-test". D'aprs le thorme de la limite
centrale, sa distribution tend vers une loi de Laplace-Gauss centre rduite.
Ainsi, la position d'une modalit est intressante dans une direction ex
donne si le sous-nuage qu'elle constitue occupe une zone troite dans cette
direction et si cette zone est loigne du centre de gravit du nuage.
La valeur-test est un critre qui permet d'apprcier rapidement si une
modalit a une position "significative" sur un axe. On considre
gnralement comme occupant une "position significative" les modalits
dont les valeurs-test sont suprieures 2 en valeur absolue, correspondant
approximativement au seuil 5%.
1 Il s'agit de la fonnule classique donnant la variance d'une moyenne lors d'un tirage
sans remise de nj objets parmi n, en fonction de la variance totale ,a.
1.4 _ Analyse des Correspondances Multiples 125
Le calcul simultan de plusieurs valeurs-test ou de plusieurs seuils de
probabilits se heurte l'cueil des comparaisons multiples, bien connu des
statisticiens.
Supposons que l'on projette 100 modalits supplmentaires qui soient
vraiment tires au hasard. Les valeurs-test attaches ces modalits sont
alors toutes des ralisations de variables alatoires normales centres
rduites indpendantes.
Dans ces conditions, en moyenne, sur 100 valeurs-test calcules, 5 seront en
dehors de l'intervalle [-1.96, +1.96], et 5 dpasseront la valeur 1.65 (test
unilatral ). Le seuil de 5% n'a de sens en fait que pour un seul test, et non
pour des tests multiples. On rsout de faon pragmatique cette difficult en
choisissant un seuil plus svre
l
.
On note que les valeurs-test n'ont de sens que pour les modalits
supplmentaires ou encore pour les modalits actives ayant des
contributions absolues faibles, c'est--dire se comportant comme des
modalits supplmentaires
2

Lorsque l'on dispose d'un nombre important de modalits


supplmentaires, les valeurs-test permettent de reprer rapidement les
modalits utiles l'interprtation d'un axe ou d'un plan factoriel.
b - Variables continues supplmentaires
Il est possible de positionner des variable continues en lment
supplmentaire (sans transformation au pralable en variable nominale par
dcoupage en classes).
On calcule, comme dans l'analyse en composantes principales norme, le
coefficient de corrlation de ces variables avec le facteur. Celui-ci fournit la
coordonne de la variable continue sur l'axe factoriel (cf. la schmatisation
de la figure 1.4 - 9). Les carrs des coefficients obtenus sont l'quivalent des
cosinus carrs.
La position d'une variable sur un plan dfinit donc la direction o se
situent les fortes valeurs de la variable. Ceci est d'autant plus vrai que la
variable est proche du cercle de corrlations (de rayon 1) : il existe dans ce cas
une liaison forte et linaire entre la variable et les facteurs 3.
1 Les valeurs-tests permettent surtout de classer les modalits supplmentaires par
ordre d'intrt dcroissant, ce qui constitue une aide prcieuse l'interprtation des
facteurs.
2 Les coordonnes sur un axe des individus correspondant une modalit active ne
peuvent tre considres comme tirs au hasard, puisque cette modalit aura contribu
construire l'axe.
3 La lecture de la trajectoire des classes d'une variable continue transforme en variable
nominale apporte souvent plus de prcision que la seule position de la variable
considre comme continue (dtection ventuelle de liaisons non linaires).
126 Mthodes factorielles _ chapitre 1
1.4.5 Analyse du tableau de contingence de Burt :
Equivalence avec l'analyse du tableau disjonctif complet
Le tableau B de correspondance multiple, obtenu partir d'un tableau
disjonctif complet, est un assemblage particulier des tableaux de contingence
qui sont les faces de l'hypercube de contingence.
L'analyse des correspondances applique un tableau disjonctif complet Z
est quivalente l'analyse du tableau de Burt B et produit les mmes
facteurs.
L'analyse des correspondances du tableau de Burt B, tableau symtrique
d'ordre (p,p), se ramne l'analyse d'un nuage de p points-modalits dans
RP. Les marges de ce tableau, en ligne comme en colonne, sont les lments
diagonaux de la matrice s o.
Compte tenu de l'quation [1.4 - 2] donnant le cx.
ime
facteur <Pa de l'analyse
du tableau disjonctif complet Z, la matrice diagonaliser est:
S =2
0
-
1
Z
'z =2
0
-
1
B
s s
Pour l'analyse du tableau de 8 associ Z, le tableau des frquences relatives
F s'crit:
1
F=-B
ns
2
et
On diagonalise la matrice:
ce qui donne:
S"=S2
En prmultipliant les deux membres de [1.4 - 2] par 20 -
1
8, on obtient:
s
1 0-l
BO
-1
8
12
2" <Po. =l\.a<Pa
S
Les facteurs des deux analyses sont donc colinaires dans RF mais les
valeurs propres associes diffrent. Celles issues de l'analyse de B, notes B,
sont le carr de celles issues de l'analyse de Z :

B
=
2
[1.4 - S]
Les facteurs <Pa issus de l'analyse de Z, reprsentant les coordonnes
factorielles des modalits, ont pour norme , alors que le facteur
correspondant de l'analyse de B, not <PBo., aura pour norme 2.
1.4 _Analyse des Correspondances Multiples 127
D'o la relation liant les deux systmes de coordonnes factorielles:
<PB = <P {f;; [1.4 - 6]
1.4.6 Cas de deux questions
Dans le cas de deux questions q1 et q2, le tableau disjonctif complet s'crit:
Z = [ZI, Z2]
et nous ramne directement l'analyse du tableau de contingence.
Il est alors quivalent, au point de vue de la description des associations
entre modalits, d'effectuer:
[1] l'analyse des correspondances du tableau Z d'ordre (n,p);
[2] l'analyse des correspondances du tableau B d'ordre (p,p);
[3] l'analyse des correspondances du tableau K =Z
l
Z2 d'ordre (Pl, PZ).
L'quivalence entre l'analyse des correspondances du tableau disjonctif
complet Z et celle du tableau des correspondances multiples B a t donne
dans le cas gnral de plusieurs questions.
q2
~
tableau disjonctif
complet,Z
"'-
tableau de
Burt, ZZ
)

* *

0
1'1
1'1

0
*
0
tableau de
contingence, Z';Z 2
J
Figure 1.4 - 10
Equivalence des trois analyses des correspondances
Intressons-nous maintenant l'quivalence entre l'analyse des
correspondances du tableau disjonctif complet Z = [ZI, Z2] d'ordre (n,p) et
celle du tableau de contingence K =Z
l
Z2 d'ordre (Pl, PZ) avec P =Pl + pz .
128 Mthodes factorielles _ chapitre 1
Montrons que, pour tout couple de facteurs ("'a, (jla) relatifs une mme
valeur propre Ila issus de l'analyse du tableau de contingence Z
I
Z2, il
correspond un facteur <1>a de l'analyse de Z (ou celle de B), avec:
Rappelons que l'on note 01 =ZIZI et O
2
=Z2Z2 et que:

Les lments diagonaux de 0
1
et O
2
sont respectivement les marges en ligne
et en cololU1e du tableau ZZ2'
L'analyse de ce tableau nous conduit aux relations de transition:
j
"'a = k Ol Zi
Z
2 <Pa
1 0-
1
Z'Z
(jla = 2 2 1"'a
vila
On peut crire ces relations sous la forme du systme:
JOlI (Ol"'a +Z
I
Z2(jla) =
102"1 (02(jla +Z2
Z
1"'a) =
soit encore:
[
0
01
0 ]-1 [0
1
Zi
Z
2] ["'a] = (1 +
02 Z2
Z
1 O
2
(jla (jla
Cette quation s'crit de faon plus condense:
0-lZ'Z <%la = (1 <%la
[1.4 -7]
[1.4 - 8]
[1.4 - 9]
Aprs multiplication des deux membres par 2, soit ici!:. , il vient:
s 2
2
0
-
1
Z
'z <%la =(1 +..jl;; )<%la
s 2
On y recolU1at la relation [1.4 - 2] avec:

2
Si Ila est la a
ime
plus grande valeur propre issue de l'analyse du tableau de
contingence ZlZ2, alors
a
est la a
ime
plus grande valeur propre issue de
l'analyse de Z.
1.4 _ Analyse des Correspondances Multiples 129
Si par exemple Pl P2, l'analyse de Z conduit :
[
'V ] .
- Pl facteurs du type CP:' correspondant la valeur propre 2 '
- Pl facteurs du type [ 'l'a ], correspondant la valeur propre 1-
-CPa 2
- P2 -Pl facteurs du type
1
[:J correspondant la valeur propre %.
Les rsultats relatifs aux trois analyses quivalentes sont rassembls dans le
tableau 1.4 -1.
Tableau 1.4 - 1
Equivalence des analyses des trois tableaux
dans le cas de deux questions
Tableau analys Dimension Facteur Valeur propre
Z
l
Z2
(Pl, P2)
'v dans R
P
I
tableau de contingence
cP dans R
P
2

Z = [Zl, Z2]
(p,n)
$ = [:J

tableau disjonctif op = Pl + p2
2
complet
B =Z'Z
<l1l = $..f):.
')...2
Tableau de Burt
(p,p)
Remarques:
1) Les analyses de correspondances appliques ces trois types de tableaux,
reposant sur la mme information brute, donnent les mmes axes factoriels, mais
avec des valeurs propres diffrentes, donc des taux d'inertie diffrents. Les
relations existant entre les taux d'inertie nous montrent que ceux-ci seront toujours
plus levs pour l'analyse du tableau de contingence ZlZ2 que pour l'analyse du
tableau disjonctif complet Z.
Ainsi, la somme des valeurs propres non triviales issues de l'analyse de Z vaut:
Pl +P2 -1
2
Comme les valeurs propres sont infrieures ou gales l, aucun facteur ne peut
avoir un taux d'inertie suprieur en pourcentage :
2x100
Pl +P2-
2
Prenons l'exemple du tableau de contingence croisant les 8 professions et les 6
mdias (cf. 1.3.8). Le premier facteur prend en compte 50% de l'inertie totale. La
remarque ci-dessus montre que l'analyse du tableau disjonctif correspondant ne
1 Les axes compltent la base des 'l'a dans JRP
130 Mthodes factorielles _ chapitre 1
peut pas donner un premier facteur expliquant plus de =16,6%. Les taux
8+6-2
d'inertie sont donc dpendants du codage prliminaire de l'information brute. Il
faut donc viter de les interprter en termes "d'information". On reviendra sur ce
point la section 4.1.
2) Dans l'analyse du tableau disjonctif complet Z, les points reprsentant les
diverses modalits de rponses aux deux questions sont les lments d'un mme
ensemble, l'ensemble des colonnes de Z.
Au contraire dans l'analyse du tableau de contingence ZlZ2, ils se scindent en
points-lignes et en points-eolonnes (cf. figure 1.4 -11).
Tableau
disjonctif
(n,p)
ql q2
d(j,j') dans lIf
Tableau de
contingence
(pl'P2 )
q2
j est au barycentre des p2
modalits de l'autre variable
Figure 1.4 - 11
Proximit entre deux modalits de variables diffrentes
Le fait que les reprsentations obtenues dans l'espace des premiers facteurs
soient identiques ( une dilatation prs, due au fait que les valeurs propres
ne sont pas les mmes) montre que la reprsentation simultane des points-
lignes et des points-colonnes en analyse des correspondances n'est pas un
simple artifice graphique.
L'interprtation de la position de deux modalits relatives deux variables
diffrentes dpend du tableau d'analyse. Dans le tableau disjonctif complet,
cette position s'interprte en terme de distance. Dans le tableau de
contingence, la distance entre une ligne et une colonne n'a pas de sens et
une modalit est au "quasi-barycentre" des modalits de l'autre variable.
L'analyse de ces deux tableaux fournit des reprsentations similaires.
1.4.7 Cas particuliers
Dans le cas o toutes les variables ont deux modalits, l'analyse des
correspondances multiples se ramne l'analyse en composantes
principales des variables caractrises par une seule de leurs modalits. Dans
le cas o l'ensemble des questions peut tre partitionn en deux groupes
l'intrieur desquels les questions sont indpendantes, l'analyse des
correspondances multiples se ramne l'analyse de la correspondance entre
1.4 _ Analyse des Correspolldallces Multiples 131
les deux groupes: juxtaposition de tables de contingences constituant un
sous-tableau du tableau de Burt.
a - Toutes les questions ont deux modalits
Les variables n'tant reprsentes que par une seule de leurs modalits
p - s = f, on obtient directement la matrice diagonaliser qui n'est autre que
2
la matrice des corrlations entre variables (Nakhl, 1976). Rappelons que
d'aprs [1.4 - 2] :
[1.4 -10]
Explicitons cette relation o 0 dsigne la matrice diagonale ayant les mmes
lments diagonaux que B et o 1et j dsignent deux modalits:
2l b
lj
cPj = ~ [1.4 -11]
s jEpbu
L'ensemble p des p modalits est partitionn en deux sous-ensembles pl et
p2 forms respectivement des premires et des deuximes modalits de
chacune des s questions:
Pour tout q ES:
(
.1 .2}
Pq = Jq,Jq
avec ~ E pl et ~ E p2. Notons les relations, pour tout q ES:
l ~ + l ~ =bU pour tout 1E P
Cette relation exprime que ceux qui ont choisi la rponse 1 et l'une 0 U
l'autre des deux modalits de la question Jq sont simplement ceux qui ont
choisi la rponse 1.
b'
H
+b. 22 = n et b.J.1cP. 1 = -b'2'2cP.2
JqJq JqJq JqJq Jq JqJq Jq
La premire relation exprime que tous les individus doivent choisir au
moins une modalit de rponse pour chaque question, et la seconde traduit
le fait que les coordonnes sont centres pour chaque question.
Il suffit donc de restreindre la sommation de la relation [1.4 - 11] au seul
ensemble pl, dont l'lment courant sera dsormais not j :
_1 l (br _ (bu - blj)bjj ) cP = ~
sbu. 1 J n - b.. J
JEP JJ
Ce qui peut s'crire:
n br - bu b..
L J JJ cP = ~
. 1 S (n - bu ) bu J
JEP
[1.4 -12]
132 Mthodes factorielles _ chapitre 1
Calculons les moments empiriques centrs du second ordre des 5 variables
caractrises par leurs premires modalits:
1 bub
Cov([, j) = -(br - _JJ)
n J n
1 b4.
Var(j)=-(b .. _-.ll...)
n JJ n
Le terme gnral de la matrice des corrlations des 5 variables s'crit:
n bJj _ bu bjj
Cor([, j) =
bjj (n-b
u
) bu
Il est clair que si (f!>, ) est la solution de l'quation [1.4 -12] alors (cP*, *) est
la solution de:
L Cor(l,j)f!>l = *f!>t
j
Ep
l
avec:
et:
* = s
Les facteurs et les valeurs propres d'une analyse des correspondances
multiples de 5 variables deux modalits (p =25) sont bien relis par une
relation simple ceux d'une analyse en composantes principales normes
effectues sur les premires (ou les secondes) modalits de' chacune des 5
questions (slection de 5 colonnes du tableau disjonctif complet).
b - Sous-tableau d'un tableau de correspondances multiples
Lorsque l'ensemble des 5 questions est partitionn en au moins deux sous-
ensembles S} et S2 totalisant respectivement Pl et PZ modalits (avec
Pl + pz =p), on peut vouloir analyser le sous-tableau B12 croisant ces deux
sous-ensembles obtenu partir du tableau de correspondances multiples.
- Analyse du sous-tableau
L'analyse du tableau des correspondances multiples B permet d'tudier les
liaisons entre toutes les questions.
L'analyse du sous-tableau B12 permet d'tudier les relations existant entre
les lments de s} et ceux de S2 sans tenir compte des dpendances internes
SI, ni des dpendances internes S2. Le groupe de questions s} est caractris
par ses associations avec les questions de S2 et rciproquement (cf. Leclerc,
1975).
1.4 _ Analyse des Correspondances Multiples 133

Sous-tableau B12
Tableau de Burt B
Figure 1.4 - 12
Sous-tableau B
12
du tableau de contingence de Burt B
Lorsqu'un des groupes est rduit une seule question qo' le tableau de
donnes est une bande du tableau des correspondances multiples croisant la
variable % avec un groupe de variables ne contenant pas %.
C'est aussi le tableau des barycentres des groupes d'individus dfinis par les
modalits de %.
Nous verrons ( 3.3.8.b) que l'analyse d'une bande d'un tableau de
correspondances multiples constitue une mthode de discrimination
appele analyse discriminante barycentrique.
Les rsultats obtenus par l'analyse des correspondances du tableau de Burt B
et celle de la tranche B}2 sont en gnral diffrents (les nuages relatifs ces
tableaux ne sont pas dans le mme espace). Ce sont les objectifs de l'tude
qui doivent guider le choix du tableau analyser.
... ": :
'
',',.
Figure 1.4 -13
Bande du tableau
des correspondances multiples
Cependant, si les variables de chaque sous-ensemble sont indpendantes
entre elles, les analyses ralises partir des tableau B et Bu sont
quivalentes et celles de chaque sous-ensemble SI et S2 ne prsentent pas
d'intrt.
134 Mthodes factorielles _ chapitre 1
- Cas o l'analyse multiple se ramne une correspondance binaire
Le cas d'une correspondance binaire s'est rvl particulirement
intressant du point de vue des calculs mettre en uvre. En effet,
l'analyse du tableau des correspondances multiples d'ordre (p,p) est
quivalente l'analyse des correspondances du tableau de contingence
croisant les modalits des deux questions, ce qui conduit diagonaliser une
matrice dont l'ordre est dtermin par le plus petit des nombres Pl et p2.
Nous retiendrons la proprit suivante. Si l'intrieur des deux sous-
ensembles SI et S2 les questions sont indpendantes, l'analyse des 5 questions
se ramne celle d'une correspondance binaire, et donc la diagonalisation
d'une matrice d'ordre Inf(pl, p2).
Nous dirons ici que deux questions q et q' sont indpendantes si la table de
contingence correspondante vrifie la relation
l
;
ZqZq' =l.dqd
q
'
n
o les vecteurs d
q
et d
q
' ont respectivement pour composantes les lments
diagonaux de ZqZq et Zq'Zq' (c'est--dire les lments diagonaux de Oq et
Oq' par dfinition de ces matrices).
Ecrivons de nouveau la relation [1.4 -la] en partitionnant <l> en deux blocs
<l>sl et <l>S2; on dcoupe galement les matrices B et 0 en quatre blocs, de
faon faire apparatre la partition s = SI V S2 :
B=[B
11
B
12
] 0 =[0
1
0]
B
21
B
22
0 O
2
On obtient les deux relations:
Remarquons que les SI (respectivement S2) blocs diagonaux de 011B11
(respectivement 021B22) sont des matrices unit dont les ordres
correspondent aux cardinaux de chacune des questions.
On a d'autre part, pour k E{l, 2} ;
, , 0-I
Z
' Z 10-l
d
d'
qEsk;q ESk;q:;tq q q q'=- q q q'
n
En dsignant par e
q
un vecteur dont les q composantes valent 1 ;
1 Bien entendu, l'indpendance thorique entre les deux questions n'implique pas que
cette relation soit exactement vrifie sur l'chantillon.
1.4 _ Analyse des Correspondances Multiples
0
-1
Z
' Z 1 d'
q' q q' =-e
q
q'
n
135
Les relations =0 (centrage des modalits relatives chaque question)
impliquent finalement;
= et
1 1
Le systme ci-dessus s'crit alors;
l01"1B12 = (s -1)
l02
1B
21 =(s -1)
D'o par substitution;
021B21011B12<%>S2 =(.s _1)2
Ainsi <%>S2 est obtenu par diagonalisation d'une matrice d'ordre (51, 52). On
en dduit facilement <%>Sl'
Remarquons que B12 est obtenu par juxtaposition des tableaux de
contingence croisant l'ensemble des modalits des questions du premier
groupe avec celles relatives au second groupe. Les marges du tableau B12
sont les lments diagonaux de 52B1 et 5182.
Les facteurs issus de l'analyse des correspondances directe du tableau B12
considr comme un tableau de contingence vrifient la relation;
-1-01B2P11B12'J1 = 'JI
5
1
5
2
Ils sont donc proportionnels aux facteurs trouvs prcdemment
1
.
1.4.8 Exemple d'application numrique
L'exemple qui va suivre concerne un petit sous-chantillon (105 individus,
9 questions) de l'enqute "Conditions de vie et aspirations des Franais" 2.
Le tableau 1.4 - 2 est le tableau de donnes proprement dit, en codage
condens (cf. section 1.4.2 ci-dessus), l'exception de la variable V2 (ge) qui
est numrique.
1 Ces proprits concernant les sous-tableaux de tableaux de Burt ont t tudies par
A. Leclerc (1975), puis gnralises par P. Cazes (cf. Cazes, 1977, 1980, 1981).
2 Pour une prsentation gnrale, des rfrences relatives cette enqute et des
exemples d'application en vraie grandeur, cf. 2.4.4.
136 Mthodes factorielles _ chapitre 1
Tableau 1.4 - 2
Tableau de donnes R en codage condens
nO
VI V2 V3 V4 V5 V6 V7 V8 V9
nO
VI V2 V3 V4 V5 V6 V7 V8 V9
1 2 27 1 2 2 1 1 2 1 54 2 54 1 2 2 2 1 1 1
2 2 42 1 3 2 2 1 1 3 55 2 48 1 3 2 2 1 1 1
3 1 71 1 2 2 2 2 1 1 56 2 30 1 3 2 1 1 1 1
4 1 52 1 2 2 1 1 2 1 57 2 50 1 2 2 2 2 1 1
5 2 36 1 2 2 2 2 1 3 58 1 21 1 2 1 2 2 2 2
6 1 22 2 2 2 2 1 2 3 59 2 47 1 2 2 2 2 1 2
7 1 26 2 2 2 2 2 2 2 60 1 51 2 2 2 2 1 1 2
8 2 43 1 2 1 1 2 2 1 61 1 27 2 3 2 1 2 1 2
9 2 33 1 2 2 2 2 1 1 62 2 37 2 3 2 1 2 1 2
10 2 54 2 4 2 2 1 1 3 63 1 67 1 4 2 2 1 1 1
11 1 57 1 3 2 1 1 2 3 64 2 30 2 3 2 2 1 1 3
12 1 33 1 2 2 1 1 1 1 65 1 40 2 2 2 2 2 1 2
13 1 65 1 2 2 2 1 2 1 66 1 67 1 4 2 2 2 1 1
14 2 58 1 2 2 2 2 2 2 67 2 51 1 2 2 2 2 2 1
15 2 33 1 3 2 1 2 1 1 68 1 35 2 2 2 1 1 1 2
16 1 37 1 4 2 2 2 1 1 69 1 24 1 2 2 2 1 1 3
17 1 46 1 3 2 2 1 1 2 70 1 34 2 4 2 2 2 1 4
18 2 30 2 3 2 1 2 1 1 71 1 55 1 4 2 1 1 2 2
19 1 64 1 2 2 2 1 2 1 72 1 41 1 2 2 1 1 1 1
20 2 64 1 2 2 2 2 2 1 73 1 32 1 2 2 1 2 1 2
21 1 41 1 3 2 2 2 2 1 74 1 35 1 2 1 2 1 1 1
22 1 56 1 3 2 2 1 1 1 75 2 27 2 2 2 2 2 1 2
23 2 21 1 3 1 1 1 2 1 76 2 22 2 2 2 2 1 1 2
24 2 49 1 2 2 1 1 1 1 77 2 31 2 2 2 2 1 1 1
25 1 60 2 2 1 2 2 2 2 78 1 35 2 3 2 2 2 1 3
26 1 63 1 1 2 1 1 2 1 79 2 33 2 2 1 1 1 2 1
27 2 46 1 3 1 1 2 1 1 80 1 39 1 2 2 1 2 1 4
28 2 53 2 2 2 2 2 1 3 81 2 21 1 2 2 2 2 2 3
29 2 29 2 3 2 2 1 1 2 82 2 51 1 3 2 2 2 1 3
30 1 59 1 3 2 2 2 1 1 83 2 35 1 3 2 2 1 1 1
31 2 48 1 3 2 2 2 1 3 84 1 58 2 2 2 2 2 1 3
32 2 19 2 2 2 2 2 1 3 85 1 54 1 1 2 1 1 2 3
33 1 56 1 2 2 2 2 2 1 86 2 21 2 3 2 1 2 2 2
34 1 30 1 4 1 2 2 1 3 87 1 29 2 2 2 2 2 1 1
35 2 66 2 3 2 1 1 1 1 88 2 32 1 1 2 2 1 1 3
36 2 30 1 3 2 1 1 1 1 89 2 40 1 2 1 1 2 2 1
37 2 39 1 3 1 1 1 1 1 90 1 34 2 2 1 2 2 2 2
38 1 52 1 2 2 2 2 1 3 91 1 33 2 3 2 2 2 1 2
39 1 23 1 1 2 1 1 1 1 92 2 82 1 1 2 2 1 2 1
40 1 52 1 1 1 2 2 2 3 93 1 69 1 3 2 2 1 2 1
41 1 47 1 1 1 1 2 1 1 94 2 38 2 2 2 2 1 1 3
42 1 47 1 3 2 2 1 1 1 95 1 80 1 3 2 1 1 1 1
43 2 71 2 2 1 2 2 2 1 96 2 39 1 2 1 1 1 1 4
44 2 64 1 2 2 1 1 2 1 97 2 61 1 1 1 2 1 2 1
45 1 37 2 2 1 2 2 2 3 98 1 67 1 2 2 2 1 2 3
46 2 62 1 2 2 2 2 2 1 99 1 24 1 2' 1 2 2 2 2
47 1 45 2 1 2 2 2 1 2 100 2 43 1 3 2 2 2 1 1
48 1 26 2 2 2 2 1 2 2 101 1 54 2 1 2 2 2 2 2
49 2 40 1 2 1 1 1 1 1 102 2 76 1 2 2 2 2 2 1
50 1 23 1 3 2 2 2 1 2 103 2 45 1 1 1 1 1 2 2
51 2 28 1 2 1 2 2 1 2 104 2 24 1 2 2 2 2 2 1
52 1 40 2 2 1 2 2 2 2 105 2 80 1 2 2 2 1 2 1
53 1 40 1 2 2 2 1 1 1
Les libells des questions figurent dans le tableau 1.4 - 3, les libells des
modalits correspondantes se retrouveront dans les listages de rsultats plus
bas. Les libells abrgs en 4 caractres seront utiliss pour les
reprsentations graphiques. Les 4 variables actives servent calculer les
1.4 _ Analyse des Correspondaltces Multiples 137
distances et les axes, les 4 variables illustratives et la variable continue
illustrative servent interprter a posteriori les axes et les proximits.
Tableau 1.4 - 3
Description des libells des 9 questions
4 questions actives 13 modalits associes
-V3- La famille est le seul endroit ou l'on se sent bien (2 modalits)
FADI = oui, FAD2 = non.
-V4- Les dpenses de logement sont pour vous une charge (4 modalits)
DLDI = ngligeable, DLD2 = sans gros problme,
DL03 = une lourde charge, DL04 = Une trs lourde charge.
-V7- Avez-vous souffert rcemment de mal au dos (2 modalits)
MADI = oui, MAD2 = non.
-VB-Vous imposez-vous rgulirement des restrictions (2 modalits)
REDI = oui, RE02 = non.
4 questions illustratives 10 modalits associes
-VI- Sexe de l'enqut(e) (2 modalits)
MASC = masculin, FEMI = fminin.
-VS Disposez-vous d'un magntoscope (2 modalits)
MAGI = oui, MAG2 = non.
-V6- Avez-vous souffert rcemment de maux de tte (2 modalits)
MWI =oui, MT02 = non.
-V9- Regardez-vous la tlvision? (4 modalits)
TVDI = tous les jours, TV02 = assez souvent,
TV03 = pas trs souvent, TV04 = jamais.
1 variable continue ill ustratives
-V2- Age de l'enqut(e) (continue)
Les tableaux disjonctifs complets correspondant aux variables nominales ne
sont pas prsents et ne sont jamais dvelopps tels quels dans les calculs. Le
tableau de Burt (tableau 1.4 - 4) est calcul directement partir du codage
condens
1
. Le tableau 1.4 - 4 ne reprsente que la moiti infrieure du
tableau de Burt relatif aux 4 questions actives. On trouve dans ce tableau les
6 tableaux de contingence croisant les 4 questions actives deux deux. Sur la
diagonale se trouvent les questions croises avec elles-mmes, et donc les
effectifs correspondant chaque modalit.
On vrifie ensuite (tableau 1.4 - 5) qu'il y a 6 valeurs propres non nulles
(6 = P- s), et on peut constater que les taux d'inertie correspondant chaque
valeur propre sont modestes, malgr la petite taille de cet exemple
pdagogique. Il s'agit l d'une proprit propre cette mthode: les taux
d'inertie sont toujours des mesures trs pessimistes de l'information
extraite, car le codage disjonctif induit une orthogonalit artificielle des
colonnes du tableau. Plusieurs indicateurs de remplacement ont t
proposs.
1 Cette procdure divise le nombre d'oprations par le coefficient (s/p)2, s tant le
nombre de questions actives et p le nombre total de modalits correspondantes. Dans
le cas d'applications courantes (p > 100, n> 1000, n tant le nombre d'individus) ce
gain est trs apprciable.
138 Mthodes factorielles _ chapitre 1
Tableau 1.4 - 4
Tableau de Burt des s = 4 questions actives
1 FAOl FA02 1 DLOI DL02 DL03 DL04 1 MAOl MA02 1 REOI RE02 1
FAOl 1 72 0 1
FA02 1 0 33 1
-----+-----------+---------------------+
DLOI 1 9 2 1 Il 0 0 0 1
DL02 1 37 20 1 0 57 0 0 1
DL03 1 21 9 1 0 0 30 0 1
DL04 1 5 2 1 0 0 0 7
1
MAO 1 1 38 12 1
MA02 1 34 21 1
REO 1 1 42 22 1
RE02 1 30 Il 1
24 16
33 14
29 25
28 5
3 1 50 0 1
4 1 0 55 1
6 1 31 33 1 64 0 1
1 1 19 22 1 0 41 1
1 FA01 FA02 1 DL01 DL02 DL03 DL04 1 MA01 MA02 1 RE01 RE02 1
On peut considrer les carrs des valeurs propres, qui sont les valeurs
propres de l'analyse des correspondances du tableau de Burt considr
comme tableau de donnes (cf. 1.4.5) et qui fournissent des taux d'inertie
un peu moins pessimistes. On peut galement prendre en compte des
fonctions particulires des valeurs propres comme mesures de l'inertie
(Benzcri, 1979)1.
Tableau 1.4 - 5
Valeurs propres et taux d'inertie
POURCENT. POURCENT.
CUMULE
NUMERO
l
2
3
4
5
6
Total
VALEUR
PROPRE
.3416
.3175
.2520
.2232
.2075
.1582
1.5000
22.77
21.17
16.80
14.88
13 .84
10.54
100.00
22.77 www.w_ w ** * __ *_*
43.94 **********ff**********_********
60.74 ********.*.*****.***
75.62 ****** "'.*
89 .. 46 --.- _._ _-
100.00 *._*--*---
Le tableau 1.4 - 6 fournit les indicateurs ncessaires pour interprter les
positions des modalits actives.
Les rgles de lecture sont semblables celles du tableau 1.3 - 13 relatif
l'analyse des correspondances simple. Seuls les calculs de contributions
cumules pour les modalits de chaque question ont t ajouts. Leur
interprtation est immdiate. li est clair, par exemple, que les deux questions
relatives aux dpenses de logement et aux restrictions dfinissent
entirement le premier axe.
l Benzcri a propos la quantit qui est voisine de ')..2 si le nombre
5-1 5
de questions 5 est grand, et qui correspond, dans le cas 5 = 2, la valeur propre Il de
l'analyse des correspondances de la table de contingence croisant les deux questions
[dans ce cas, en effet, pO.) =Ji = (n -1 )2). (voir aussi 4.1.5.a).
--------------------------------------------+--------------------+-----------------+-----------------
---------------------------------------------+--------------------+-----------------+------------------
FMI oui 17.14 .46
1 .14 -.42 .12 1.0 9.3 .9 .05 .38 .03
FA02 non 7.86 2.18
1
-.31 .91 -.26 2.3 20.4 2.1 .05 .38 .03
--------------------------------------------+--------- CUMUL 3.3 29.7 3.0 +-----------------
3 2 1
1 COSINUS CARRES
3 2 1
1 CONTRIBUTIONS
3 2
COORDONNEES
1 P.REL DISTO 1
MODALITES
Tableau 1.4.6
Coordonnes, contributions et cosinus carrs des modalits actives sur les axes 1 3
- les dpenses de logement sont pour vous une charge
- la famille est le seul endroit ou l'on se sent bien
roEN - LIBELLE
DL01 - ngligeable 2.62 8.55 1.32 -1. 32 .33 -1 13 .4 14.4 1.2 .20 .20 .01
DL02 - sans gros problme 13 .57 .84 .41 .52 - .11
1
6.7 11.8 .6 .20 .33 .01
DL03 - une lourde charge 7.14 2.50 -1. 00 -.50 -.72 1 21.1 5.7 14.8 .40 .10 .21
DL04 - trs lourde charge 1. 67 14.00 -1.11 -.05 3.45
1
6.0 .0 78.7 .09 . :00 .85
--------------------------------------------+--------- CUMUL 47.2 31.9 95.2 +-----------------
- avez-vous souffert rcemment de mal au dos
MAO 1 oui 11. 90 1.10
1
.03 -.73 -.14 .0 19.8 .9 .00 .48 .02
MA02 non 13 .10 .91
1 -.02 .66 .13 .0 18.0 .8 .00 .48 .02
--------------------------------------------+--------- CUMUL .0 37.9 1.86 +-----------7-----
- vous imposez-vous rgulierement des restrictions
--------------------------------------------+---------
RE01
RE02
oui
non
15.24
9.76
.64 1 -.66 -.06
1.56 1 1.03 .10
.01
-.01
CUMUL
19.3 .2 .0 .68 .01 .00
:i0.2 .3 .0 .68 .01 .00
49.5 .5 .0 +-----------------
140 Mthodes factorielles _ chapitre 1
Le tableau 1.4 - 7 donne les valeurs-test (cf. section l.4.4.a ci-dessus) et les
coordonnes des modalits supplmentaires sur les trois premiers axes. On
note que les seules coordonnes significatives sur le premier axe sont
relatives la possession d'un magntoscope (valeurs-test de 2.S). Les
mentions de maux de ttes et l'coute de la tlvision - toutes deux lies
l'ge - sont caractristiques du deuxime axe.
Le tableau 1.4 - 8 est relatif la variable continue "ge". On y lit sa moyenne,
son cart-type, et ses coefficients de corrlation avec les trois premiers axes.
La structure du nuage des modalits actives est dcrite par le plan factoriel
de la figure 1.4 - S, qui rsume donc les 6 tables de contingence.
Le petit nombre de questions et le faible nombre d'individus limitent
l'intrt des rsultats, mais permettent en revanche de comprendre le
mcanisme de la mthode. Les deux questions les plus lies (dpenses de
logements et restrictions) emportent le premier axe, la question relative aux
dpenses de logement intervenant avec un poids double compte tenu du
nombre de ses modalits (cf. 1.4 .3-g). Les deux questions restantes, plus
faiblement lies, caractrisant le deuxime axe.
La reprsentation simultane des lignes et des colonnes lie l'analyse des
correspondances n'est pas utilise sur la figure 1.4 - 5. Les 105 points-lignes
correspondent des individus anonymes; seules leurs caractristiques
prsentent de l'intrt. Les individus n'interviennent donc que par le
truchement des variables supplmentaires.
Les positions des modalits supplmentaires doivent tre tempres par
leurs valeur-tests. Dans les tudes en vraie grandeur o ces modalits
peuvent tre trs nombreuses, seules celles ayant des valeurs-test
significatives sont portes sur les graphiques. Ainsi, la variable sexe
(valeurs-test 0.5 et 0.4 sur les axes 1 et 2) pourrait ne pas figurer dans ce plan
factoriel. De mme, la modalit TV04, (ne regarde jamais la tlvision)
malgr sa position relativement excentre gauche, n'est pas non plus
significative (valeur-test = -1.0) car elle ne concerne que 3 individus.
Remarquons que la seule phase du processus permettant de procder une
infrence statistique est prcisment le calcul des valeurs-test relatives aux
modalits supplmentaires. Malgr la taille modeste de l'chantillon et le
petit nombre de variables, on peut rejeter l'hypothse d'indpendance entre
la possession d'un magntoscope (point MAC2) et l'aisance financire telle
qu'elle est dcrite par les modalits (OLOl, DL02, RE2).
La variable continue ACE est reprsente comme un axe, en pointill. Cette
direction a une certaine cohrence, malgr la faible taille de l'chantillon
(les individus plus gs ont des ides plus traditionalistes sur la famille,
sont plus souvent propritaires de leur logements, plus frquemment
tlspectateurs).
Tableau 1.4.7
Coordonnes et valeurs-test des modalits illustratives sur les axes 1 3.
---------------------------------------------+--------------------+-----------------------+----------
- avez-vous souffert rcemment de maux de tete
---------------------------------------------+--------------------+-----------------------+----------
- regardez-vous la tlvision ?
.98
1. 02
3.77
.27
2.18
.46
-.19
.09
.21
-.21
.09
-.02
.13
-.03
.04
-.04
-.45
.21
.01
.00
.05
-.05
.54
-.14
.5
-.5
.7
-.7
.4 2.1
-.4 -2.1
.0 -3.1 -1.3
.0 3.1 1.3
.5
-.5
2.8
-2.8
53.00
52.00
22.00
83.00
33.00
72.00
53
52
22
83
33
72
MAG1 - oui
MAG2 - non
MT01 - oui
MT02 - non
HASC - masculin
FEMI - feminin
---------------------------------------------+--------------------+-----------------------+----------
-sexe de l'enqut(e)
---------------------------------------------+--------------------+-----------------------+----------
- disposez-vous d'un magntoscope
MODALITES 1 VALEURS-TEST 1 COORDONNEES 1
---------------------------------------------1--------------------1-----------------------1----------
IDEN - LIBELLE EFF. P. ABS 1 1 2 3 1 1 2 3 1 DISTO.
TV01 -
tous les jours 53 53.00 .7 -3.4 -.2 .07 -.33 -.02
TV02 - assez souvent 27 27.00 .1 3.3 -.9 .02 .56 -.16
TV03 - pas trs souvent 22 22.00 -.6 .3 .4 - .11 .07 .08
TV04 - jamais 3 3.00 -1.0 .7 1.9 -.56 .39 1.11
.98
2.89
3.77
34.00
Tableau 1.4.8
Coordonnes (corrlations) de la variable continue illustrative sur les axes 1 3.
VARIABLE CONTINUE CARACTERISTIQUES CORRELATIONS
-------------------------------+------------------------------------+----------------------
-------------------------------+------------------------------------+----------------------
-(age) age de l'enquete(e) 105 43.89 15.50 1 .23 -.23 .15
(IDEN) LIBELLE COURT EFFECTIF MOYENNE EC.TYPE 1 1 2 3
......

......
Figure 1.4.5
Position des modalits actives et illustratives sur le premier plan factoriel.
Les modalits "conscutives" des questions actives sont jointes par des lignes polygonales. On vrifie que l'origine est bien un
centre de gravit pour les modalits de chaque question, ce qui implique un alignement avec l'origine pour les questions 2
modalits. Les variables "restrictions" (RE2 = ne s'impose pas de restriction) et "dtpense de logement" (Dun = ngligeables, DL02 = sans
gros problme) dterminent le premier axe, illustr a posteriori par la position du point MAG2 (possession d'un magntoscope). La
variable continue AGE est repre par ses coefficients de corrlation avec les axes (flche en pointill).
Modalits actives
C Modalitsillustratives
MAOl
Chapitre 2
QUELQUES MTHODES
DE CLASSIFICATION
Introduction 145
Introduction
Les techniques de classification automatique sont destines produire des
groupements de lignes ou de colonnes d'un tableau. Il s'agit le plus souvent
d'objets ou d'individus dcrits par un certain nombre de variables ou de
caractres. La classification est une branche de l'analyse des donnes qui a
donn lieu des publications nombreuses et diversifies. Les ouvrages
spcialiss (notamment, en langue franaise, le tome 1 du trait d'analyse
des donnes de Benzcri, 1973) contiennent en gnral d'importantes
considrations historiques et de rigoureux dveloppements formels sur la
notion de classification. L'ouvrage de base, historique, est celui de Sokal et
Sneath (1963). Les premiers manuels publis furent ceux de Lerman (1970),
Anderberg (1973), Benzcri (1973), Hartigan (1975), Lerman (1981) et Gordon
(1981) auxquels nous ne pouvons que renvoyer le lecteur pour des
pralables fondamentaux
I
. Nous nous bornerons ici aux principes de base
des mthodes les plus largement utilises.
Les circonstances d'utilisation sont sensiblement les mmes que celles des
mthodes d'analyse factorielle descriptive prsentes au chapitre 1:
l'utilisateur se trouve face un tableau rectangulaire de valeurs
numriques. Ce tableau peut tre un tableau de valeurs numriques
continues (valeur de la variable j pour l'individu i, l'intersection de la
ligne i et de la colonne j du tableau), un tableau de contingence (croisant
deux partitions d'une mme population), ou encore un tableau de prsence-
absence (valeurs aou 1 selon que tel individu ou objet possde tel caractre
ou attribut). Dans certaines applications, l'utilisateur peut disposer d'un
tableau carr symtrique de similarits ou de distances.
Le recours aux techniques de classification automatique est sous-tendu par
quelques ides gnrales concernant le champ d'observation. On suppose
que certains regroupements doivent exister, ou au contraire on exige que
certains regroupements soient effectus. Autrement dit, on ne se satisfait
pas d'une visualisation plane et continue des associations statistiques et l'on
manifeste, implicitement ou explicitement, un intrt pour la mise en
vidence de classes d'individus ou de caractres. Les reprsentations
synthtiques se manifestent soit sous la forme de partitions des ensembles
tudis (lignes ou colonnes du tableau analys), soit sous la forme de
hirarchie de partitions que nous dfinirons de faon plus prcise
ultrieurement. Quelquefois, il s'agira d'arbres au sens de la thorie des
1 Une des premires synthse historique sur le sujet est celle de Cormack (1971). Une
synthse de travaux plus rcents en classification hirarchique a t faite par Gordon
(1987). Cf. galement les manuels gnraux de Chandon et Pinson (1981), Jambu et
Lebeaux (1978), Murtagh (1985), Roux (1985), Kaufman et Rousseeuw (1990).
146 Quelques mthodes de classificatioll _ Chapitre 2
graphes, arbres dont les sommets sont les objets classer. Enfin on pourra
rechercher des classes empitantes ou simplement mettre en vidence des
zones forte densit, laissant de nombreux individus ou caractres non
classs.
A une mme famille de rsultats correspond parfois des dmarches et des
interprtations diffrentes. Il peut s'agir de dcouvrir une partition ayant
une existence relle (cette existence tant conjecture avant l'analyse
statistique ou tant rvle l'issue des calculs) ou l'on veut au contraire
utiliser les partitions produites comme des outils ou des intermdiaires de
calculs permettant une exploration des donnes 1.
Pour l'essentiel, les techniques de classification font appel une dmarche
algorithmique et '1.on aux calculs formaliss usuels. Alors que les valeurs
des composantes des axes factoriels, par exemple, sont la solution d'une
quation pouvant s'crire sous une forme trs condense (mme si sa
rsolution est complexe), la dfinition des classes ne se fera qu' partir d'une
formulation algorithmique: une srie d'oprations est dfinie de faon
rcursive et rptitive. Il en dcoule que la mise en uvre de la plupart des
techniques de classification ne ncessite que des notions mathmatiques
relativement lmentaires.
Il existe plusieurs familles d'algorithmes de classification: les algorithmes
conduisant directement des partitions comme les mthodes d'agrgation
autour de centres mobiles; les algorithmes ascendants (ou encore
agglomratifs) qui procdent la construction des classes par agglomration
successive des objets deux deux, et qui fournissent une hirarchie de
partitions des objets; enfin les algorithmes descendants (ou encore divisifs)
qui procdent par dichotomies successives de l'ensemble des objets, et qui
peuvent encore fournir une hirarchie de partitions. On se limitera ici aux
deux premires techniques de classification:
les groupements peuvent se faire par recherche directe d'une partition,
en affectant les lments des centres provisoires de classes, puis en
recentrant ces classes, et en affectant de faon itrative ces lments. Il
s'agit des techniques d'agrgation autour de centres mobiles, apparentes
la mthode des "nues dynamiques", ou mthode "k-means", qui sont
particulirement intressantes dans le cas des grands tableaux (section
2.1)
les groupements peuvent se faire par agglomration progressive des
lments deux deux. C'est le cas de la classification ascendante
hirarchique qui est prsente ici suivant plusieurs critres
d'agrgations. Nous envisagerons d'une part la technique "du saut
minimal" quivalente, d'un certain point de vue, la recherche de
l'arbre de longueur minimale, et d'autre part la technique d'agrgation
1 Cette dernire dmarche gnralise en quelque sorte la construction d'histogrammes
de la statistique unidimensionnelle: en vue d'une tude plus aise, les observations
sont regroupes par paquets homognes, mme si la construction de ces paquets
implique un dcoupage quelque peu arbitraire d'un ensemble continu.
Introduction 147
"selon la variance", intressante par la compatibilit de ses rsultats avec
certaines analyses factorielles (section 2.2).
Ces techniques prsentent des avantages diffrents et peuvent tre utilises
conjointement. Il est ainsi possible d'envisager une stratgie de
classification base sur un algorithme mixte, particulirement adapt au
partitionnement d'ensembles de donnes comprenant des milliers
d'individus classer (section 2.3).
Un des avantages des mthodes de classification est de donner lieu des
lments (les classes) souvent plus faciles dcrire automatiquement que
les axes factoriels. Les outils de description seront voqus la section 2.3.
Enfin, la pratique montre que l'utilisateur a intrt utiliser de faon
conjointe les mthodes factorielles et les mthodes de classification. Les
aspects thoriques et pratiques de la complmentarit entre ces deux
familles de mthodes exploratoires seront abords la section 2.4
Section 2.1
Agrgation autour des centres mobiles
Bien qu'elle ne fasse appel qu' un formalisme limit et que son efficacit
soit dans une large mesure atteste par les seuls rsultats exprimentaux, la
mthode de classification autour de centres mobiles est probablement la
technique de partitionnement la mieux adapte actuellement aux vastes
recueils de donnes ainsi que la plus utilise pour ce type d'application.
Prod uisant des partitions des ensembles tudis, elle est utilise aussi bien
comme technique de description et d'analyse que comme technique de
rduction, gnralement en association avec des analyses factorielles et
d'autres mthodes de classification.
L'algorithme peut tre imput principalement Forgy (1965), bien que de
nombreux travaux (parfois antrieurs: Thorndike, 1953), le plus souvent
postrieurs (MacQueen,l967; Bali and Hall, 1967) aient t mens
paralllement et indpendamment pour introduire des variantes ou des
gnralisations. Cette mthode peut tre considre comme un cas
particulier de techniques connues sous le nom de nues dynamiques
tudies dans un cadre formel par Diday (1971).
Elle est particulirement intressante pour les gros fichiers numriques car
les donnes sont traites en lecture directe: le tableau des donnes, conserv
sur une mmoire auxiliaire (disque, CD-ROM), est lu plusieurs fois de faon
squentielle, sans jamais encombrer de zones importantes dans la mmoire
centrale de l'ordinateur. La lecture directe permet galement d'utiliser au
mieux les particularits du codage des donnes, ce qui rduit le temps de
calcul dans le cas des codages disjonctifs.
2.1.1 Bases thoriques de l'algorithme
Soit un ensemble 1 de n individus partitionner, caractriss par p
caractres ou variables. On suppose que l'espace RP supportant les n points-
individus est muni d'une distance approprie note d (souvent distance
euclidienne usuelle ou distance du X
2
). On dsire constituer au maximum q
classes. Les tapes de l'algorithme sont illustres par la figure 2.1 - 1.
tape 0: On dtermine q centres provisoires de classes (par exemple, par
tirage pseudo-alatoire sans remise de q individus dans la
population classifier, selon une prconisation de MacQueen).
Les q centres:
{cf, ... ~ ... ,Cn
2.1 _ Classification autour de celttres mobiles 149
CO


le


0 .
.

CO
2




[0



1



[0
2
Tirage au hasard
des centres
cf et d
Constitution des classes
~ et Ig

Nouveaux centres
ci et d
et nouvelles classes
Il et d
Nouveaux centres
d et ci
et nouvelles classes
If et d
Figure 2.1 - 1
Etapes de l'algorithme
induisent une premire partition pO de l'ensemble des individus l
en q classes:
{Ir ... ~ ... ,In
Ainsi l'individu i appartient la classe ~ s'il est plus proche de
cZ que de tous les autres centres
1
.
tape 1: On dtermine q nouveaux centres de classes:
{cl, ...,cl, ... ,Cn
en prenant les centres de gravit des classes qui viennent d'tre
obtenues:
{ ~ ...,If,... ,In
Ces nouveaux centres induisent une nouvelle partition pl de l
construite selon la mme rgle que pour pO.
l Les classes sont alors dlimites dans l'espace par les cloisons polydrales convexes
formes par les plans mdiateurs des segments joignant tous les couples de centres.
150 Quelques mthodes de classificatioll _ Chapitre 2
La partition pl est forme des classes notes:
{
1 1 1}
11, ... ,lk"'" lq
tape rn: On dtermine q nouveaux centres de classes:
{Cin, ...,Cr, ... ,qn}
en prenant les centres de gravit des classes qui ont t obtenues
lors de l'tape prcdente,
{l
m-1 lm-1 lm-1}
1 , ... , k , ... , q
Ces nouveaux centres induisent une nouvelle partition pm de
l'ensemble 1 forme des classes:
{l
m lm lm}
1 , ... , k , ... , q
Le processus se stabilise ncessairement (voir paragraphe suivant) et
l'algorithme s'arrte soit lorsque deux itrations successives conduisent la
mme partition, soit lorsqu'un critre convenablement choisi (par exemple,
la mesure de la variance intra-classes) cesse de dcrotre de faon sensible,
soit encore parce qu'un nombre maximal d'itrations a t fix a priori.
Gnralement, la partition obtenue finalement dpend du choix initial des
centres.
2.1.2 Justification lmentaire de l'algorithme
On va montrer que la variance intra-classes ne peut que dcrotre (ou rester
stationnaire) entre l'tape m et l'tape rn + 1. Des rgles d'affectation
1
permettent de faire en sorte que cette dcroissance soit stricte et donc de
conclure la convergence de l'algorithme puisque l'ensemble de dpart 1 est
fini
2
.
Supposons que les n individus de l'ensemble classer 1 soient munis de
masses relatives Pi (leur somme vaut 1) et soit d
2
(i,Cr) le carr de la
distance entre l'individu i et le centre de la classe k l'tape m. Nous nous
intressons la quantit critre:
vern) = f JP;d
2
(i,qn)j
k=11 ;eI!cn
1 Ces rgles sont des conventions de programmation propres chaque variante ou
spcification de l'algorithme.
2 Bien entendu ce n'est pas la convergence, mais la vitesse de convergence qui
justifierait en pratique l'utilisation de la mthode.
2.1 _ Classificatioll autour de celltres mobiles 151
Rappelons qu' l'tape m, la classe Ir est forme des individus plus proches
de Cr que de tous les autres centres (ces centres tant des centres de gravit
des classes I;r-l de l'tape prcdente).
La variance intra-classes l'tape m est la quantit:
V(m) = f f iPid2(i,qn+l))
k=ll iElr
o Cle
n
+
1
est le centre de gravit de la classe lien. A l'tape m + 1, la quantit
critre s'crit:
On va montrer que:
v(m) V(m) v(m+l)
ce qui tablira la dcroissance simultane du critre et de la variance intra-
classes. En notant Pk la somme des Pi pour i E lien, remarquons tout d'abord
d'aprs le thorme de Huygens:
q
v(m) = V(m)+ LPkd2(Clen+1,Cn
k=l
ce qui tablit la premire partie de l'ingalit.
La seconde partie dcoule du fait qu'entre les accolades qui apparaissent
dans les dfinitions de V(m) et v(m), seules changent les affectations des
points aux centres. Puisque lfc
n
+
1
est l'ensemble des points plus proches de
Cle
n
+
1
que de tous les autres centres, les distances n'ont pu que dcrotre (ou
rester inchanges) au cours de cette raffectation.
2.1.3 Techniques connexes
Il existe de nombreux algorithmes dont le principe gnral est voisin de
l'algorithme d'agrgation autour de centres mobiles mais qui en diffrent
cependant sur certains points
l
.
Ainsi, dans la technique des nues dynamiques (Diday, 1972, 1974), les
classes ne sont pas caractrises par un centre de gravit, mais par un certain
nombre d'individus classer, dnomms "talons", qui constituent alors
un "noyau" ayant pour certaines utilisations un meilleur pouvoir descriptif
1 Pour des informations plus dtailles sur les techniques d'agrgation autour des
centres mobiles, on pourra consulter les ouvrages de Benzcri (1973) et Anderberg
(1973).
152 Quelques mthodes de classification _ Chapitre 2
que des centres ponctuels. Ce formalisme a permis plusieurs gnralisations
de la mthode.
La mthode dite des k-means (k-moyennes) introduite par MacQueen (1967)
commence effectivement par un tirage pseudo-alatoire de centres
ponctuels. Cependant la rgle de calcul des nouveaux centres n'est pas la
mme. On n'attend pas d'avoir procd la raffectation de tous les
individus pour modifier la position des centres: chaque raffectation
d'individus entrane une modification de la position du centre
correspondant. En une seule itration, cette procdure peut ainsi donner
une partition de bonne qualit. Mais celle-ci dpendra de l'ordre des
individus sur le fichier, ce qui n'est pas le cas pour la technique expose
prcdemment 1.
2.1.4 Fonnes fortes et groupements stables
Les algorithmes d'agrgation autour de centres mobiles convergent vers des
optima locaux. Le problme de la recherche d'une partition optimale en q
classes (en prenant comme critre la variance intra-classes, qu'il faut alors
rendre minimale sur l'ensemble des partitions possibles en q classes) n'a pas
jusqu' prsent dorm lieu un algorithme satisfaisant
2
. Les partitions
obtenues dpendent en gnral des premiers centres choisis.
La procdure de recherche de groupements stables (ou encore formes fortes),
suggre pour l'essentiel par E. Diday (1972), permet de remdier au moins
partiellement cet inconvnient. Elle a surtout l'avantage de nuancer les
rsultats souvent trop frustes que l'on obtient dans le cadre rigide d'une
seule partition, en mettant en vidence les zones forte densit du nuage
des points-individus. Cette technique consiste effectuer plusieurs
partitions partir de plusieurs ensembles diffrents de centres, et retenir
comme groupements stables les ensembles d'individus qui ont toujours t
affects une mme classe dans chacune des partitions (cf. figure 2.1 - 2).
Supposons que l'on effectue s partitions {Pl, P2, ..., Psl en q classes chacune.
Dans la partition-produit, la classe indexe par {k], k2, ..., ksl contient les
individus ayant appartenu la classe k] de Pl, puis la classe k
2
de P2, etc.,
enfin la classe k
s
de P
s
. Les classes contenant plus d'un individu de la
partition-produit constitueront les groupements stables.
1 D'autres mthodes diffrent par le choix initial des centres (individus quidistants
pour Thorndike (1953), par l'introduction de seuils ou de protections destins modifier
ventuellement le nombre des classes. Ainsi la technique propose sous le nom lsodata
par Bail et Hall (1965) met en jeu plusieurs paramtres destins piloter l'laboration
de la partition.
2 Dans le cas o les individus ne sont dcrits que par un seul paramtre, le calcul d'une
partition optimale exacte est possible car il existe une relation d'ordre entre les
individus, ce qui limite considrablement l'ventail des partitions examiner (cf. W.D.
Fisher, 1958).
2.1 _ Classification autour de centres mobiles 153
En pratique, le nombre de groupements stables ayant un effectif notable sera
trs infrieur qS.
Premire partition
i i
I:::!!l::l 1 38 1 35 1 40 1
. [ ~ 1 5 1 251 0 1
e u ~ m e 43 1 30 1 8 1 5 1
partitIOn 40 1 3 1 2 1 35 1
Partition-produit
Figure 2.1 - 2
Groupements stables dans la partition-produit
Sur les 38 individus de la classe 1 de la partition l, on en retrouve 30 dans la
classe 2 de la partition 2.
Pour fixer les ides, on obtient sur 1000 individus une premire partition en
6 classes autour de centres mobiles (15 itrations ont t ncessaires pour
assurer une stabilit des groupes). On rpte deux fois cette procdure. Le
tableau 2.1 - 1 donne les effectifs des 6 classes des 3 partitions de base
successives.
Tableau 2.1 - 1
Trois partitions de base en 6 classes
1 2 3 4 5 6
Partition 1 127 188 229 245 151 60
Partition 2 232 182 213 149 114 110
Partition 3 44 198 325 99 130 204
Ces 3 partitions sont, l'tape suivante, croises entre elles et l'on obtient
3
6
= 216 classes. Les individus de chacune de ces 216 classes sont ceux qui ont
toujours t regroups ensemble dans les 3 partitions de base. Ils constituent
les groupements stables. En fait seulement 50 groupes ne sont pas vides et
seulement 10 ont plus de 15 individus.
La distribution de ces individus est donne dans le tableau 2.1- 2.
Tableau 2.1 - 2
Groupements stables
rangs par effectifs dcroissants
Groupes 1 10 168 118 114 107 88 83 78 26 22 16
Groupes Il 20 15 14 12 12 12 11 10 7 7 7
Groupes 21 30 6 6 4 4 4 4 3 3 3 3
Groupes 31 40 3 3 3 2 2 2 2 2 2 2
Groupes 41 50 1 1 1 1 1 1 1 1 1 1
154 Quelques mthodes de classification _ Chapitre 2
Remarque
La recherche des groupements stables constitue une exploration des
zones de fortes densit dans l'espace, mais ne fournit pas une partition
utilisable en pratique, car le nombre de classes est en gnral trop lev,
et corrlativement les effectifs de certaines classes sont trop faibles (cf. les
50 groupements du tableau 2.1 - 2). De faon pragmatique, on peut
utiliser les premiers groupements stables pour dfinir une partition de la
faon suivante: le nombre de classes pourra tre suggr par le nombre
de groupements d'effectifs notables: ainsi, les 7 premiers groupements
du tableau 2.1 - 2 ont des effectifs importants (il y a de plus un cart
important entre 78 et 26). Les classes seront obtenues par raffectation des
individus restants aux groupements retenus les plus proches (affectation
des individus des groupements 8 50 autour des centres des 7 premiers
groupements pour notre exemple). Mais nous verrons que les mthodes
mixtes de la section 2.3 permettent de perfectioIU1er cette dmarche.
Section 2,2
Classification hirarchique
Les principes gnraux communs aux diverses techniques de classification
ascendante hirarchique sont galement extrmement simples. Il est
difficile de leur trouver une paternit car ces principes relvent plus du bon
sens que d'une thorie formalise. Les exposs les plus systmatiques et les
plus anciens sont peut-tre ceux de Sokal et Sneath (1963), puis de Lance et
Williams (1967). Pour une revue synthtique, cf. Gordon (1987).
2.2.1 Principe
Le principe de l'algorithme consiste crer, chaque tape, une partition
obtenue en agrgeant deux deux les lments les plus proches. On
dsignera alors par lment la fois les individus ou objets classer eux-
mmes et les regroupements d'individus gnrs par l'algorithme. Il y a
diffrentes manires de considrer le nouveau couple d'lments agrgs,
d'o un nombre important de variantes de cette technique.
L'algorithme ne fournit pas une partition en q classes d'un ensemble de n
objets mais une hirarchie de partitions, se prsentant sous la forme
d'arbres appels galement dendrogrammes et contenant n - 1 partitions.
L'intrt de ces arbres est qu'ils peuvent donner une ide du nombre de
classes existant effectivement dans la population.
Figure 2.2 - 1
Dendrogramme ou arbre hirarchique
Chaque coupure d'un arbre fournit une partition, ayant d'autant moins de
classes et des classes d'autant moins homognes que l'on coupe plus haut.
156 Quelques mthodes de classification _ Chapitre 2
a - Distances entre lments et entre groupes
On suppose au dpart que l'ensemble des individus classer est muni d'une
distance
l
. Ceci ne suppose donc pas que les distances soient toutes calcules
au dpart: il faut pouvoir les calculer ou les recalculer partir des
coordonnes des points-individus, celles-ci devant tre accessibles
rapidement. On construit alors une premire matrice de distances entre tous
les individus.
Une fois constitu un groupe d'individus, il convient de se demander
ensuite sur quelle base on peut calculer une distance entre un individu et
un groupe et par la suite une distance entre deux groupes. Ceci revient
dfinir une stratgie de regroupements des lments, c'est--dire se fixer des
rgles de calcul des distances entre groupements disjoints d'individus,
appeles critres d'agrgation. Cette distance entre groupements pourra en
gnral se calculer directement partir des distances des diffrents lments
impliqus dans le regroupement.
Par exemple, si x, y, z sont trois objets, et si les objets x et y sont regroups en
un seul lment not h, on peut dfinir la distance de ce groupement z par
la plus petite distance des divers lments de h z :
d(h,z) = Min {d(x,z), d(y,z) }
Cette distance s'appelle le saut minimal (single linkage) (Sneath,1957 ;
Johnson,1967) et constitue un critre d'agrgation.
On peut galement dfinir la distance du saut maximal (ou diamtre) en
prenant la plus grande distance des divers lments de h z :
d(h,z) = Max (d(x,z), d(y,z) }
Une autre rgle simple et frquemment employe est celle de la distance
moyenne; pour deux objets x et y regroups en h :
d(h z)= (d(x,z)+d(y,z)}
, 2
Plus gnralement, si x et y dsignent des sous-ensembles disjoints de
l'ensemble des objets, ayant respectivement nx et ny lments, h est alors un
sous-ensemble form de n
x
+ ny lments et on dfinit:
(nxd(x,z) +nyd(Y,z)}
d( h, z) =------"---
n
x
+n
y
b - Algorithme de classification
L'algorithme fondamental de classification ascendante hirarchique se
droule de la faon suivante:
1 Il s'agira parfois simplement d'une mesure de dissimilarit. Dans ce cas, l'ingalit
triangulaire d(x,y) d(x,z) + d(y,z) n'est pas exige).
2.2 _ Classification hirarchique 157
tape 1: il yan lments classer (qui sont les n individus);
tape 2: on construit la matrice de distances entre les n lments et l'on
cherche les deux plus proches, que l'on agrge en un nouvel
lment. On obtient une premire partition n-l classes;
tape 3: on construit une nouvelle matrice des distances qui rsultent de
l'agrgation, en calculant les distances entre le nouvel lment et
les lments restants (les autres distances sont inchanges). On se
trouve dans les mmes conditions qu' l'tape l, mais avec
seulement (n-l) lments classer et en ayant choisi un critre
d'agrgation. On cherche de nouveau les deux lments les plus
proches, que l'on agrge. On obtient une deuxime partition avec
n-2 classes et qui englobe la premire;
tape m : on calcule les nouvelles distances, et l'on ritre le processus
jusqu' n'avoir plus qu'un seul lment regroupant tous les
objets et qui constitue la dernire partition.
Nous illustrons cette procdure en prenant comme objets classer cinq
points (figure 2.2 - 2).
Etape 1 Etape 2
Etape 4
Etape 3
Etape 5
Figure 2.2 - 2
Agglomration progressive de 5 points
Les regroupements successifs peuvent tre reprsents par un arbre ou
dendrogramme, comme le montre la figure 2.2 - 3 o l'on a port en
ordonne les valeurs des indices ou encore distances correspondant aux
diffrents niveaux d'agrgation.
c - Elments de vocabulaire
Quelques remarques vont nous permettre d'introduire les notions et la
terminologie habituellement utilises en classification ascendante
hirarchique. Le fonctionnement de l'algorithme nous montre que les
distances (avec ces rgles de calcul) n'interviennent que par les ingalits
158 Quelques mthodes de classificatiolt _ Chapitre 2
qui existent entre elles. Le mme arbre ( une dilatation prs des ordoIU1es)
aurait t obtenu partir d'un simple classement des couples d'objets dans
l'ordre des distances croissantes. Un tel classement s'appelle une
ordonnance (unE: prordonnance s'il y a des distances gales). Dans ce cas on
tracera conventionnellement l'arbre avec des niveaux quidistants.
La famille H des parties de l'ensemble l des objets construite partir
d'algorithmes ascendants forme ce que l'on appelle une hirarchie. Cette
famille a pour proprit de contenir l'ensemble tout entier (l E H) ainsi que
chacun des objets pris isolment (i E l => (il EH). Les autres couples de
parties h, h' de H sont alors soit disjointes (h n h' = 0), soit incluses l'une
dans l'autre (h ch'). En effet lors du fonctionnement de l'algorithme,
chaque fois qu'une classe se forme partir d'lments disjoints, elle est elle-
mme considre comme un nouvel lment, donc strictement incluse
dans une classe ultrieure (cf. figure 2.2 - 2).
Les objets ou individus (l, 2, 3, 4, 5) sont les lments terminaux de l'arbre
(ou de la hirarchie). Les classes 6,7,8,9 sont les nuds de l'arbre: ce sont
des classes issues de regroupements de deux lments (terminaux ou non)
numrots la suite des lments terminaux et dont chacune dtermine
une nouvelle partition. On appelle arbitrairement an et benjamin, les
deux lments groups constituant un nud (cf. figure 2.2 - 3).
~ :Jo
ft>
~
arbre hirarchique indice
;;:
01
:>
p'"
f"l
5'
1;;'
ou dendrogramme
1
::r.
11>0
3
-.
:;'
-----
9 6 8
(9)
7
---- .. _-
-- -- -
8 3 4 6
(8)
(7)
(6)
~ ~
7 2 5 2
rl----
6 2 3 4
(1) (3) (4)
(2)
(5)
,
!
lments terminaux
Figure 2.2 - 3
Arbre hirarchique et lments de vocabulaire
On a une hirarchie indice si toute partie h de la hirarchie est associe
une valeur numrique v(ll) ~ 0 compatible avec la relation d'inclusion au
sens suivant:
si h c h' alors v(ll) < v(h')
La hirarchie de la figure 2.2 - 3 est indice de faon naturelle par les valeurs
des distances correspondant chaque tape d'agrgation (ces distances sont
2.2 _ Classificatioll hirarchique 159
portes en ordonnes). L'indice est la distance dterminant le
regroupement.
En "coupant" l'arbre de la figure 2.2 - 3 par une droite horizontale, on
obtient une partition, d'autant plus fine que la section est proche des
lments terminaux. Si par exemple l'indice est suprieur 4 et infrieur
9, on obtient une partition en deux classes {l,3,4} et {2,5}. Si il vaut 3, on
obtient trois classes {l,3}, {4} et {2,5}. Une hirarchie permet donc de fournir
une chane de n partitions ayant de 1 n classes.
2.2.2 Classification ascendante selon le saut minimal et arbre de
longueur minimale
Ce mode de classification hirarchique, prsent lors de l'illustration du
paragraphe prcdent, est particulirement simple mettre en uvre et
possde des proprits intressantes que nous allons noncer et tudier.
a - Dfinition d'une ultramtrique
Nous allons montrer que la notion de hirarchie est troitement lie une
certaine classe de distances entre individus, que l'on appelle les distances
ultramtriques. Pour la hirarchie produite par l'algorithme du saut
minimal, on montrera que la distance ultramtrique correspondante est,
dans un certain sens, la plus proche de la distance initiale. Ce sera
l'ultramtrique infrieure maximale, appele encore sous-dominante. On
montrera ensuite que l'application de cette mthode est pratiquement
quivalente la rsolution d'un problme classique de recherche
oprationnelle: la mise en vidence de l'arbre de longueur minimale sur
un graphe. Rappelons qu'un ensemble E est muni d'une mtrique ou
distance d, si d est une application valeurs positives ou nulles obissant
aux conditions suivantes:
1. d(x,y) = 0 si et seulement si x = y.
2. d(x,y) = d(y,x) (symtrie)
3. d(x,y) d(x,z) + d(y,z) (ingalit triangulaire)
Cette distance sera dite ultramtrique si elle vrifie la condition suivante,
plus forte que l'ingalit triangulaire:
4. d(x,y) Max ( d(x,z), d(y,z) }
b - quivalence entre ultramtrique et hirarchie indice
Il est quivalent de munir un ensemble fini E d'une ultramtrique ou de
dfinir une hirarchie indice de parties de cet ensemble. Montrons tout
d'abord que toute hirarchie indice permet de dfinir une distance entre
lments ayant les proprits requises. On prendra comme distance d(x,y) la
160 Quelques mthodes de classificatioll _ Chapitre 2
valeur de l'indice correspondant la plus petite partie contenant la fois x
et y.
En remplissant ainsi le tableau des valeurs de d correspondant la
hirarchie de la figure 2.2 - 3, on obtient la matrice des distances du tableau
2.2 - 1. On peut noter que l'ingalit 4 ci-dessus est vrifie par toutes les
distances de ce tableau. Ainsi par exemple:
d(1,2) ::; Max ( d(1,5), d(2,5) )
Tableau 2.2 1
Matrice des distances
(1) (2) (3) (4) (5)
(1) 0 9 1 4 9
(2) 9 0 9 9 2
(3) 1 9 0 4 9
(4) 4 9 4 0 9
(5) 9 2 9 9 0
Montrons plus gnralement que l'on a toujours:
d(x,y) ::; Max ( d(x,z) + d(y,z) )
Rappelons que deux parties de la hirarchie H sont soit disjointes, soit lies
par une relation d'inclusion. Appelons Mx, z) la plus petite partie de H
contenant x et z (dont l'indice est par consquent d(x, z)). Puisque Mx, z) et
My, z) ne sont pas disjointes, on a par exemple Mx, z) c My, z). Et x, y, z
tant tous trois contenus dans My, z), on a obligatoirement:
Mx, y) c h(y, z) d'o d(x,y) d(y,z)
ce qui tablit l'ingalit.
Rciproquement, toute ultramtrique d on peut faire correspondre une
hirarchie indice dont d soit l'indice associ. Il suffit d'appliquer
l'algorithme du saut minimal au tableau des distances correspondant. On
s'aperoit alors qu'il est inutile de procder au calcul des distances chaque
tape: il suffira de rayer l'un des deux lments agrgs.
En effet, si x et y sont agrgs en t, il faut en principe calculer les distances au
nouvel lment t (cf. figure 2.2 - 4). Or on a obligatoirement, pour tout
lment z non encore agrg, d(z,x) d(x,y) et d(z,y) d(x,y) , sinon (z,x) ou
(z,y) auraient t agrgs la place de (x,y).
Pour une ultramtrique, cela implique la fois d(z,x) d(z,y), et
d(z,y) d(z,x) c'est--dire d(z,x) =: d(z,y), ce que l'on exprime de faon image
2.2 _ Classification hirarchique 161
en disant que, pour une ultramtrique, tous les triangles sont isocles, avec
le plus petit cot pour base (figure 2.2 - 4).
z
Figure 2.2 - 4
Agrgation de x et y en un nouvel lment t
Il est en effet facile de montrer que si une distance est ultramtrique, tous les
triangles sont isocles.
On a les ingalits:
d(z, x) :; Max ( d(x,y), d(y,z) ) donc d(z, x) :; d(y, z)
De la mme faon:
d(y, z) :; Max (d(x,y), d(z, x) ) donc d(y, z) :; d(z, x)
Il s'ensuit que:
d(z, x) =d(y, z)
Le calcul des distances de z t est finalement inutile puisque les deux
distances mises en cause sont gales. Ceci nous montre comment
l'algorithme du saut minimal a opr sur la matrice des distances: il a
transform la mtrique initiale en ultramtrique en diminuant certaines
distances chaque tape.
c - L'ultramtrique sous dominante
Le passage d'une mtrique une ultramtrique (ou, de faon quivalente,
une hirarchie) s'est effectu par diminution des valeurs de certaines
distances. On peut se poser la question suivante: existe-t-il une
ultramtrique plus proche (en un sens prciser) de la mtrique?
On peut donner l'lment de rponse suivant. On dira qu'une mtrique dl
est infrieure
1
une mtrique d
2
si, pour tout x et tout y :
d
l
(x y) :; dix, y)
La plus grande ultramtrique infrieure une mtrique d, au sens
prcdent, est appele ultramtrique infrieure maximale ou sous-
dominante. C'est elle qui est fournie par l'algorithme du saut minimal.
Pour le dmontrer nous allons successivement:
1 Cette dfinition permet de munir l'ensemble des mtriques dfinies sur un ensemble E
d'une relation d'ordre partiel.
162 Quelques mthodes de classificatioll _ Chapitre 2
1. dfinir, partir d'une distance d, une nouvelle distance dite du
plus petit saut maximal;
2. montrer que cette distance est une ultramtrique;
3. montrer que cette ultramtrique est la sous-dominante;
4. montrer enfin que cette distance correspond l'ultramtrique
fournie par l'algorithme du saut minimal.
1. La distance du plus petit saut maximal:
Soit un ensemble E muni d'une distance d. Soit x et y deux lments de E.
Le couple (x,y) sera appel arte de longueur d(x,y) du graphe complet
1
dont les sommets sont les lments de E. Toujours en utilisant le
vocabulaire de la thorie des graphes, on appelle chemin de x y une
succession d'artes de types (x, t (tI, t2)1 (t21 t3,) ... , (tk-ll tk), (tb y), o
tI, ... , tk sont des lments de E. tant donn un chemin de x y, on
appelle saut maximal la longueur de la plus grande arte du chemin de x
y.
A tout chemin joignant x y correspond un saut maximal. L'ensemble
des sommets tant fini, il existe un plus petit saut maximal sur
l'ensemble des chemins allant de x y; nous le noterons d*(x,y).
2. Le plus petit saut maximal entre x et y est une ultramtrique:
Il est clair que les deux premiers axiomes d'une distance sont vrifis par
d*. Pour vrifier que cette distance est une ultramtrique, considrons
trois lments quelconques x, y, z de E (figure 2.2 - 5). Le plus petit saut
maximal de x y, en s'astreignant passer par z est Max (d*(x, z), d*(z, y)).
Le plus petit saut maximal de x y sans la contrainte de passer par z ne
peut qu'tre infrieur ou gal cette quantit, d'o:
d*(x,y) Max (d*(x,z), d*(y,z))
et d* est donc bien une ultramtrique.
x
Figure 2.2 - 5
Chemin de x y contenant z
3. La distance d* est la sous-dominante:
Pour montrer que d* est la sous-dominante, on montrera que d* est
infrieure d, et que d* est suprieure toute ultramtrique infrieure
d.
1 L'appellation graphe complet est due au fait que tout couple de sommets est joint par
W1e arte.
2.2 _ Classification hirarchique 163
Tout d'abord, il est clair que l'arte (x,y) est un chemin particulier allant
de x y, donc d*(x,y) ::; d(x,y) et d* est infrieure d.
Soit maintenant dl une ultramtrique infrieure d. On a videmment
pour tout triplet xl' x2' x3 :
dl(Xl,X3) :s; Max (dl(XJ, xz), dl (X2, X3)}
En appliquant de faon successive cette ingalit un chemin :
(xl' x2)' (x2' x3)' ..., (xp_l' x
p
)
on obtient:
Puisque dl :s; d, on a ;
dl (xl' xp):S; !-1ax( d( x j'Xj+l)}
J<p
Cette ingalit est valable pour tout chemin joignant xl x
p
' Pour l'un
au moins d'entre eux, on a par dfinition de d* :
!-1ax( d( xj,Xj+l)} = d * (xj' Xj+l)
J<p
Cette dernire relation tablit l'ingalit annonce.
4. La distance ultramtrique du produite par l'algorithme du saut minimal
n'est autre que la distance d* plus petit saut maximal:
Soit du(x, y) la valeur de la distance l'tape o les points x et y sont
runis pour la premire fois. Auparavant ces deux points taient dans des
classes distinctes (ventuellement rduites aux points eux-mmes). Le
mode de calcul des distances chaque agrgation nous assure que du(x, y)
est la plus petite distance entre deux lments appartenant chacun une
classe. Les distances l'intrieur des classes sont infrieures du(x, y)
puisque l'agrgation est antrieure; et les distances avec des lments
n'appartenant pas aux deux classes sont suprieures puisque ceux-ci
seront agrgs une tape ultrieure. Les chemins joignant x et y auront
donc des artes internes aux deux classes, de longueur infrieure du(x, y)
et des artes externes ncessairement suprieures ou gales du(x, y).
Ainsi du(x, y) est bien le plus petit saut maximal d* (x, y).
d - Arbre de longueur minimale: dfinition et gnralits
L'ensemble des n objets classer peut tre considr comme un ensemble de
points d'un espace. Cette reprsentation est classique si les objets sont dcrits
par une srie de p variables: on a n points dans l'espace RP. On peut alors
calculer une distance pour chaque paire de points. Plus gnralement, si
l'on ne dispose que des valeurs d'un indice de dissimilarit (ne vrifiant pas
obligatoirement tous les axiomes d'une distance), on peut reprsenter les
objets par des points (d'un plan par exemple), chaque couple d'objets tant
164 Quelques mthodes de classificatioll _ Chapitre 2
joint par une ligne continue, laquelle est attache la valeur de l'indice de
dissimilarit.
On reprsente ainsi l'ensemble des objets et des valeurs de l'indice par un
graphe complet valu
1
. Mais si le nombre d'objets dpasse quelques units,
ce type de reprsentation devient inextricable. On cherchera alors extraire
de ce graphe un graphe partiel (ayant les mmes sommets, mais moins
d'artes) plus ais reprsenter, et permettant nanmoins de bien rsumer
les valeurs de l'indice.
Parmi tous les graphes partiels, ceux qui ont une structure d'arbre
2
sont
particulirement intressants, car ils peuvent faire l'objet d'une
reprsentation plane. Un arbre est un graphe connexe (il existe un chemin
reliant tout couple de sommets) sans cycle (un cycle est un chemin partant
et aboutissant au mme point sans emprunter deux fois la mme arte). On
peut dfinir de faon quivalente un arbre n sommets soit comme un
graphe sans cycle ayant n -1 artes, soit comme un graphe connexe ayant
n-1 artes
3
. La longueur d'un arbre sera la somme des "longueurs"
(valeurs de l'indice) de ses artes. Parmi tous les graphes partiels qui sont
des arbres, l'arbre de longueur minimale a retenu depuis longtemps
l'attention des statisticiens en raison de ses bonnes qualits descriptives, qui
ne sont pas trangres sa parent avec les classifications hirarchiques. Si
l'on dsire par exemple dceler rapidement sans ordinateur les traits de
structure que peut cacher une matrice de corrlations relative une
trentaine de variables, c'est probablement la plus aise des procdures
mettre en uvre. Nous allons tout d'abord prsenter les algorithmes de
recherche de l'arbre de longueur minimale, puis nous montrerons les
quivalences avec la classification selon le saut minimal. Nous supposerons
que toutes les artes du graphe ont des longueurs diffrentes (valeurs de
l'indice ou de la distance) car dans ces conditions l'arbre cherch est unique
et ceci simplifie l'expos des algorithmes.
e - Arbre de longueur minimale: algorithme de Kruskal (1956)
On range les n(n - V/2 artes dans l'ordre des valeurs croissantes de l'indice.
On part des deux premires artes, puis on slectionne successivement
toutes les artes qui ne font pas de cycle avec les artes dj choisies. On
interrompt la procdure ds que l'on a n -1 artes. De cette faon, on est sr
d'avoir obtenu un arbre (graphe sans cycle ayant n -1 artes).
1 Les objets classer sont alors les nuds du graphe (non orient); les lignes continues
joignant les paires de points sont les artes; et les indices, les valuations de ces artes.
2 On ne confondra pas un tel arbre, entendu au sens de la thorie des graphes, et dont
les sommets sont les objets classer, avec l'arbre des parties d'un ensemble
(dendrogramme) produit par les techniques de classification hirarchique, dont les
sommets sont des parties ( l'exception des lments terminaux qui sont les objets
classer eux-mmes).
3 On trouvera la dmonstration de ces proprits dans les manuels classiques tels que
ceux de Berge (1963, 1973).
2.2 _ Classification hirarchique 165
Montrons en effet que si Vk dnote le graphe obtenu l'tape k, aprs avoir
slectionn les artes V1, V2, ... , Vk, alors Vn-I est de longueur minimale.
Supposons qu'il existe un arbre distinct U, de longueur minimale (figure
2.2 - 6). Soit Vk la premire arte slectionne dans la construction de Vn-I et
qui n'appartienne pas U (les artes de Vk-1 sont donc galement des artes
de U). En ajoutant cette arte U on cre ncessairement un cycle (car U est
connexe) et un seul (car U est sans cycle). TI existe donc une arte u de ce
cycle qui n'appartient pas Vn-I (puisque Vn-I n'a pas de cycle). Alors l'arbre
U" obtenu partir de U en ajoutant Vk et en supprimant u est plus court
que U. En effet, le graphe obtenu en ajoutant u Vk-1 est sans cycle (c'est
une partie de U); donc u est plus long que Vk, par dfinition de Vk, et par
consquent U" est plus court que U. Mais ceci contredit le dfinition de U.
Donc V
n
-1 est bien de longueur minimale.
Figure 2.2 - 6
Reprsentation de l'arbre U
f - Arbre de longueur minimale: algorithme de Prim (1957)
On part d'un objet quelconque (sommet du graphe). L'tape 1 consiste
chercher l'objet V1 le plus proche, c'est--dire l'arte la plus courte. L'tape k
consiste adjoindre au recueil d'artes dj constitu Vk-I la plus courte
arte Vk qui touche un des sommets de Vk-I. TI ya n-l tapes. Cet algorithme
est plus rapide que le prcdent. L'arbre obtenu est de longueur minimale
car Vk est tout moment un arbre de longueur minimale sur les k sommets
concerns.
g - Arbre de longueur minimale:
algorithme de Florek (1951)
A la premire tape, on joint chaque sommet son voisin le plus proche.
Cela revient prendre la plus petite distance dans chaque ligne du tableau
des distances. Cette opration rapide produit une fort FI (famille d'arbres,
c'est--dire simplement: graphe sans cycle). A l'tape k, chaque arbre de la
fort Fk-1 (chaque composante connexe du graphe sans cycle) est joint son
plus proche voisin en prenant comme distance entre arbres la plus petite
distance entre un sommet quelconque de l'un et un sommet quelconque de
166 Quelques mthodes de classification _ Chapitre 2
l'autre. Le processus s'arrte ds que le graphe Fk est connexe. Cet
algorithme est plus rapide mettre en uvre manuellement sur des
tableaux de distances assez grands. En gnral, il n'y a que 2 ou 3 tapes.
Montrons que l'on obtient un arbre, ce qui se ramne prouver que la
premire tape fournit bien une fort. Il n'y a pas de sommet isol car
chaque sommet admet effectivement un plus proche voisin. Montrons par
l'absurde que l'on ne peut pas crer de cycle. Supposons qu'il en existe un et
orientons les artes de chaque sommet vers son plus proche voisin. Si les
artes du cycle sont toutes orientes dans le mme sens, le rsultat est
absurde, car celles-ci seraient ncessairement de plus en plus courtes. Sinon
la figure serait galement absurde, car deux artes partiraient d'un mme
sommet, alors que chaque sommet n'a qu'un seul plus proche voisin.
Il reste montrer que cet arbre est de longueur minimale. Notons que toute
arte trace la premire tape appartient l'arbre de longueur minimale
V. En effet, s'il n'en tait pas ainsi, il existerait y, plus proche voisin de x, tel
que l'arte (x,y) n'appartienne pas V. En ajoutant cette arte V, on cre
un cycle. En supprimant l'autre arte du cycle issue de x, on obtient un
nouvel arbre plus court que V, ce qui contredit la dfinition de V. De la
mme faon, toute arte trace l'tape k appartient V, sachant que la fort
Fk-l est une partie de V. Le raisonnement est en tout point analogue au
prcdent.
h - Lien entre l'arbre et le saut minimal (Gower et Ross, 1969)
Soit V un arbre de longueur minimale construit partir du tableau des
distances entre n objets. V tant connexe et n'ayant pas de cycle, il existe un
chemin et un seul joignant deux sommets x et y. Appelons dv(x, y) la
longueur de la plus grande arte rencontre sur ce chemin. Nous allons
montrer que dv(x, y) n'est autre que d'(x, y), la distance ultramtrique du
plus petit saut maximal entre x et y.
En effet, soit v la plus grande arte rencontre entre x et y. La suppression de
v entrane la division de V en deux composantes connexes spares. S'il
existe un chemin (n'empruntant pas obligatoirement des artes de V) de x
y dont la plus grande arte est plus courte que v, il existe une arte u
distincte de v, et plus courte qui joint les deux composantes connexes. Le fait
de remplacer v par u donnerait un arbre de longueur infrieure celle de V,
ce qui contredit la dfinition de V. Ainsi dv(x, y), longueur de v, est bien le
plus petit saut maximal.
Le raisonnement fournit un mode de construction de la hirarchie associe
au saut minimal, partir de l'arbre de longueur minimale V. Cette
construction, descendante, s'opre de la faon suivante. On rompt la plus
grande arte de V; on obtient ainsi les deux groupes les plus loign, l'indice
correspondant leur fusion tant la longueur de cette arte. On rompt
ensuite successivement les artes par ordre de grandeur dcroissantes, ce qui
fait descendre dans la hirarchie jusqu'aux lments terminaux qui sont les
2.2 _ Classification hirarchique 167
objets eux-mmes. La dernire arte rompue correspond aux deux objets
agrgs en premier dans l'algoritlune ascendant.
On peut reprsenter simultanment la hirarchie et l'arbre de longueur
minimale en perspective comme le montre la figure 2.2 - 7.
(9)
(4)
(Sr
,
,
(2)
Figure 2.2 - 7
Reprsentation simultane de la hirarchie
et de l'arbre de longueur minimale
Quelques informations complmentaires sont apportes la reprsentation
de la figure 2.2 - 3 (cf. Benzcri et Jambu, 1976). En particulier les positions
relatives des points sont mieux respectes. Pour le praticien de l'analyse
factorielle, il sera souvent intressant de porter l'arbre de longueur
minimale sur les plans factoriels de faon remdier, dans une certaine
mesure, aux possibles dformations imputables l'opration de projection.
2.2.3 Critre d'agrgation selon la variance
Les techniques de classification selon le saut minimal ont l'avantage de
conduire des calculs simples (pas de recalcul numrique des distances) et
possdent des proprits mathmatiques intressantes.
Pour certaines applications les rsultats sont cependant critiquables. En
particulier, le saut minimal a le dfaut de produire des "effets de chane".






(A) (B)
Figure 2.2 - 8
"Effets de chane"
(C)
168 Quelques mthodes de classification _ Chapitre 2
Ainsi pour le nuage de points reprsent par la figure 2.2 - 8 les groupes A et
B ne seront pas facilement discernables dans l'arbre hirarchique; de plus,
les quelques sommets qui les relient seront agrgs au niveau le plus bas.
D'autres critres d'agrgation donnent ventuellement des rsultats plus
fiables, par exemple la distance moye1U1e (cf. galement Wishart, 1969).
Les techniques d'agrgation selon la variance cherchent optimiser,
chaque tape, selon des critres lis des calculs d'inertie, la partition
obtenue par agrgation de deux lments. Cette technique est
particulirement aise mettre en uvre lorsque l'agrgation est effectue
aprs une analyse factorielle, les objets classer tant reprs par leurs
coordonnes sur les premiers axes factoriels.
a - Notations et principe
Nous considrons ici les n objets classer comme un nuage de points (le
nuage des individus) d'un espace p dimensions (espace des variables).
Chaque point Xi (vecteur p composantes) est muni d'une masse m;. On
note m la masse totale du nuage:
Il
m='L
m
;
Le carr de la distance entre les points Xi et Xi' est note:
Ilx; - x;f = d
2
(x;,xj.)
L'inertie totale 1 du nuage est la quantit:
Il 2
1= I,mjllxj -gll
o g dsigne le centre de gravit du nuage:
1 Il
g = - 'LmjXj
m;
S'il existe une partition de l'ensemble des lments en s classes, la qime
classe a pour masse:
m
q
= 'Lmj
jeq
et pour centre de gravit:
1
gq=-'LmjX;
mq ieq
La relation de Huygens fournit une dcomposition de la quantit 1en
inerties intra-classes et inter-classes suivant la formule:
1 ='Lmqllgq- gl12 + 'L 'LmjllXj - gql12 [2.2 -1]
q q jeq
2.2 _ ClassificatiOlt hirarchique 169
Inertie totale Inertie inter-classes + Inertie intra classes
Figure 2.2 - 9
Dcomposition de l'inertie selon la relation de Huygens
La qualit globale d'une partition est lie l'homognit l'intrieur des
classes (et donc l'cartement entre les classes). 1 tant une quantit
constante, il s'agit par consquent de minimiser la quantit relative
l'inertie intra-classes :
lin/ra = LL11ljllxi _gql12
q ieq
soit encore maximiser celle relative l'inertie inter-classes:
00
--
.- .

Inertie intra-classes faible



Inertie intra-classes leve
Figure 2.2 - 10
Qualit globale d'une partition
A l'tape initiale, l'inertie intra-classes est nulle et l'inertie inter-classes est
gale l'inertie totale du nuage puisque chaque lment terminal constitue
ce niveau une classe. A l'tape finale, c'est l'inertie inter-classes qui est
nulle et l'inertie intra-classes est quivalente l'inertie totale puisque l'on
dispose ce niveau d'une partition en une seule classe (cf. l'tape 5 de la
figure 2.2 - 2). Par consquent, au fur et mesure que l'on effectue des
regroupements, l'inertie intra-classes augmente et l'inertie inter-classes
diminue.
Le principe de l'algorithme d'agrgation selon la variance consiste
rechercher chaque tape une partition telle que la variance interne de
chaque classe soit minimale et par consquent la variance entre les classes
soit maximale.
170 Quelques mthodes de classification _ Chapitre 2
b - Perte d'inertie par agrgation de deux lments:
le critre de Ward gnralis
Faire varier le moins possible l'inertie intra-classes chaque tape
d'agrgation revient rendre minimale la perte d'inertie inter-classes
rsultant de l'agrgation de deux lments.
Soit xi et xi' deux lments de masses mi et mi" appartenant une partition
Ps s classes, que l'on agrge en un seul lment x de masse m/ = mi + mi' '
produisant la partition P
S
-1 s - 1 classes, avec:
mx+m,x ..
x = 1 1 1 1
mi+mi'
x est le centre de gravit de Xi et xi"
On peut dcomposer l'inertie 1;;' de xi et xi' par rapport g suivant la
relation de Huygens:
Iii' =mdlxi - gl12 + mdlxi' - gl12 =millxi - xf +11lj'llxi' - xl1
2
+m/llx _ gl12
Seul le dernier terme subsiste si xi et xi' sont remplacs par leur centre de
gravit x. La perte d'inertie inter-classes &ii' due au passage de la partition
s classes la partition s - 1 classes quivaut :
Lis =Li Iii , = lill/er(P
s
) - lill/er(P
s
.
1
)
et vaut donc:
Lilii' =millxi - xl1
2
+md/xi' - xl1
2
En remplaant x par sa valeur en fonction de xi et xi' il vient, tous calculs
faits:
rrlirrli' 2 mm, 2
Lil
ii
, = Il xi - xd = 1 1 d (xi, xi' )
rrli + rrli' rrli + mi'
La stratgie d'agrgation fonde sur le critre de la perte d'inertie minimale,
dit critre de Ward gnralis, est donc la suivante: au lieu de chercher les
deux lments les plus proches, on cherchera les lments xi et xi'
correspondant L1Iii' minimale. Ainsi chaque tape l'inertie inter-classes
augmente de la quantit .1Iii' (et l'inertie intra-classes diminue de cette
mme quantit). Ceci revient considrer les L1Iii' comme de nouveaux
indices de dissimilarits
1
appels aussi "indices de niveau".
On vrifie que la somme des indices de niveau dans la hirarchie est gale
l'inertie totale du nuage 1:
Il Il
L Lis = L linter( P
s
) - lill/er( P
s
.
1
) = 1
s=2 5=2
[2.2 -2]
1 Par cette transfonnation de la matrice des distances, les points les plus lgers seront
plus facilement agrgs.
2.2 _ Classification hirarchique 171
Si l'on travaille sur les coordonnes des points, on effectuera les calculs des
centres de gravit (x pour xi et xi')' Par contre si l'on travaille sur les
distances, il est commode de pouvoir calculer les nouvelles distances
partir des anciennes (comme cela tait le cas pour les techniques
prcdentes). Le carr des distances entre un point quelconque z et le centre
de classe x s'crit, en fonction des distances xi et xi' :
1 ( mm, J
d2(x,z)= m.d
2
(x.,z)+m.,d
2
(x .. ,z)- 1 1 d
2
(x.,x.,)
m.+m., 1 1 1 1 m.+m., 1 1
1 1 1 1
Figure 2.2 - 11
Thorme de la mdiane
Cette formule (thorme de la mdiane) s'tablit en dcomposant l'inertie
du doublet (Xi, xi' ) par rapport z en inertie par rapport x, et en inertie de
x par rapport z :
millxi - zl12 + mi'lIxj' - zl12 = (mi +mi' )llx - zl12 + m ~ ~ m ~ Ilxi - xd
2
1 1
L'expression de d
2
(x, z) s'en dduit immdiatement. On ritre le processus
sur les lments restants et le nouvel lment construit par agrgation
l
.
2.2.4 Algorithme de recherche en chane des voisins rciproques
La principale difficult dans la construction d'un arbre hirarchique est le
nombre important d'oprations. A chaque tape de l'algorithme est
construit un nud regroupant deux lments, ce qui ncessite des calculs et
des comparaisons de distances entre tous les lments restant classer. Le
nombre d'oprations effectuer est de l'ordre de n
3
s'il yan objets classer.
1 II existe des variantes de cette mthode qui font appel des formules de calcul
lgrement diffrentes. On peut par exemple rechercher les classes ayant une inertie
interne minimale; on peut aussi utiliser le critre de la variance interne minimale, en
dsignant par variance l'inertie divise par la masse. On trouvera des prcisions sur
ces techniques dans Benzcri (1973).
172 Quelques mthodes de classification _ Chapitre 2
Les nouveaux algorithmes runissent chaque tape non plus deux
lments mais plusieurs couples d'lments. Ceci rduit considrablement
le nombre des oprations qui passe de n
3
n
2
permettant ainsi la
classification de plusieurs milliers d'objets en un temps raisonnable.
Ces algorithmes utilisent le concept de voisins rciproques introduits par
McQuitty (1966) : deux lments xi et xi' sont voisins rciproques si xi est le
plus proche voisin de xi' et si xi" est le plus proche voisin de xi'
Ils utilisent galement la proprit d'une agrgation hirarchique selon
laquelle, une tape donne, deux lments agrgs pour constituer un
nud sont ncessairement des voisins rciproques (sinon, ils ne
constitueraient pas la paire distance minimale).
Enfin ils utilisent la proprit plus forte (valable seulement si le critre
d'agrgation vrifie le critre de la mdiane, explicit plus loin) selon
laquelle tous les voisins rciproques, une tape donne, seront
ultrieurement des nuds de la hirarchie
1
.
A chaque tape de l'algorithme, au lieu d'agrger seulement les deux plus
proches voisins, il y a donc autant de nuds crs qu'il y a de voisins
rciproques. A l'tape finale, tous les lments sont regroups en une seule
classe et l'arbre est construit.
Le problme de l'algorithme est alors ramen une recherche efficace des
voisins rciproques. Nous allons dcrire l'algorithme de cette recherche qui
s'effectue en chane (Benzcri, 1982c).
a - Algorithme
Le principe des voisins rciproques peut s'noncer de la manire suivante:
si xi est plus proche voisin de Xi' (Xi ---7 Xi") et si xi' est plus proche voisin de
xi (Xi' ---7 xi ) alors xi et xi' sont voisins rciproques (Xi H xi')
Etape 1: on part d'un objet quelconque xl et on cherche son plus proche
voisin, not X2 puis le plus proche voisin de X2, not x3, etc.. On
cre ainsi une chane d'lments successifs:
Xl x2 x3 ... xi-2 xi-1 xi ...
Une telle chane s'arrte ncessairement lorsque deux lments
successifs sont voisins rciproques:
.. ---7 xi ---7 ... "1<-1 H "1<
La chane s'arrtera ici sur l'lment xk si xk-1 est aussi le plus
proche voisin de Xk. xk-1 et Xk sont voisins rciproques et sont
agrgs pour former un nud.
1 Le critre de la mdiane assure qu'ils resteront toujours voisins rciproques.
2.2 _ Classification hirarchique 173
- Critre de Ward:
Etape 2: si k = 2 alors la chane commence avec un lment qui possde un
voisin rciproque:
xl HX2
Nous choisissons un nouvel lment partir duquel une chane
est construite et qui s'arrte sur de nouveaux voisins rciproques
dont l'agrgation fournit un nud.
Etape 3: si k > 2, on continue la recherche des voisins rciproques par
extension de la chane commenant l'lment xk-2'
L'algorithme se termine lorsque n - 1 nuds ont t crs.
b - Critre de la mdiane
Afin de pouvoir utiliser cet algorithme, la chane doit pouvoir tre
prolonge au del de xk-2 lorsque les voisins rciproques xk-l et xk ont t
agrgs. Il est indispensable que cette agrgation ne dtruise pas la relation
du voisin le plus proche qui existait au pralable entre xi-l et xi avec
i =2, 3, ... , k-2. Cette proprit est assure si le critre d'agrgation utilis
pour construire l'arbre ne cre pas une inversion.
Il n'y a pas inversion si le nud n, cr par agrgation de a et b, ne peut tre
plus prs d'un quelconque autre lment c que ne le sont l'lment a ou
l'lment b. Cette condition! dite de "la mdiane" s'crit:
si d(a, b) < inf {d(a, c), d((b, c)} alors inf {d(a, c), d(b, c)} < d(n, c)
Cette proprit est vrifie par plusieurs critres d'agrgation
2
:
- Saut minimal: d(a,b) = in! {d(u, v) 1u E a, v E b}
- Saut maximal: d(a,b) = sup {d(u, v) 1u E a, v E b}
1
- Distance moyenne: d(a,b)=--{I, I,mulnvd(u,v)}
mamb UEa VEb
mamb d
d(a,b) = (ga,gb)
ma+mb
o ga et gb sont les centres de gravit des groupes a et b.
2.2.5 Exemple numrique d'application
L'exemple d'application qui suit comprend deux classifications
hirarchiques effectues sur les lignes et les colonnes de la table de
1 Cette condition a t prsente par Bruynooghe (1978) sous le nom d'axiome de
rductibilit. Elle permet en effet la mise d'un oeuvre d'un autre algorithme, dit des
voisinages rductibles, qui permet d'acclrer l'algorithme de base de la classification
hirarchique par l'utilisation de seuils de distances.
2 On dsignera ici la fois par a (ou b) un lment ou un nud une certaine tape de
l'agrgation, et l'ensemble des lments constituant ce nud.
174 Quelques mthodes de classification _ Chapitre 2
contingence 1.3 - 10 prsente la section sur l'analyse des correspondances
(cf. 1.3.8). Les distances entre lments sont les distances du X
2
entre
points-profils et l'agrgation se fait en utilisant le critre de Ward gnralis
prsent au paragraphe 2.2.3. Seuls les lments actifs de l'analyse des
correspondances ont t retenus: il s'agit d'une table (8,6) croisant 8
catgories socioprofessionnelle et 6 types de mdias, l'unit statistique tant
le "contact mdia".
Comme ce fut le cas pour l'analyse des correspondances de cette mme table,
la fonction de ce traitement n'est pas la rduction d'un tableau de donnes
trop grand et complexe (fonction principale des techniques d'analyse
descriptive multidimensionnelle) mais une prsentation pdagogique des
diffrentes tapes de calcul.
a - Classification des lignes (professions)
Les principales tapes de la classification des lignes sont rsumes sur la
figure 2.2 - 12, qu'il faut lire de la faon suivante: la premire colonne
(NUM) donne les numros des nuds, qui sont donc des nouveaux
lments classer et prennent la suite des 8 lments classer. La
terminologie Ain et Benjamin (deuxime et troisime colonnes)
s'applique aux deux lments qui sont agrgs une tape donne (c'est--
dire les plus proches cette tape au sens de l'indice d'agrgation retenu).
CLASSIFICATION HIERARCHIQUE
,
DESCRIPTION DES 7 NOEUDS (de 9 15)
NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU
9 6 7 2 1927 .00024
10 9 5 3 3783 .00038
11 2 1 2 789 .00064
12 10 4 4 5041 .00208
*********
13 8 11 3 6651 .00276
*********111***_
14 12 13 7 11692 .00493
*******************.*.*
15 3 14 8 12388 .01125
******** ********* **.*****************.*
SOMl-lE DES INDICES . 02228
Figure 2.2 - 12
Description des tapes de la classification hirarchique
(lignes actives de la table de contingence 1.3 - 10, section 1.3)
On lit ainsi sur la premire ligne que le nud nog est form des lments
terminaux 6 et 7, il est donc form de 2 lments (colonne: EFF.) dont le
poids total (colonne POlOS) est de 1927. La valeur de l'indice d'agrgation
correspondant est de 0.00024. Les valeurs croissantes de l'indice seront
illustres par une esquisse d'histogramme droite des colonnes
numriques
1
On vrifie que la somme des indices est gale la somme des
valeurs propres issues de l'analyse des correspondances de la mme table
(tableau 1.3 - 11 du 1.3.8).
1 Comme l'indiquait la figure 2.2 - 3, ces histogrammes peuvent donner une ide du
nombre de classes d'une bonne partition, qui correspond un saut important de
J'indice.
2.2 _ Classification hirarchique 175
Le dendrogramme de la figure 2.2 - 13 donne en fait la mme information,
prsente de faon plus suggestive, car la composition des nuds partir
des lments terminaux est maintenant lisible. On note la grande
homognit des ouvriers (N.Q. et Qua!.) et employs (indice trs bas), les
agriculteurs, petits patrons et inactifs constituant un deuxime groupe
moins homogne, alors que les professions intermdiaires occupent une
position mdiane. Enfin les cadres suprieurs et professions librales ne se
rattachent l'ensemble des autres catgories que beaucoup plus tard.
IDEN DENDROGRAMME (INDICES EN POURCENTAGE DE LA SOMME DES INDICES)
1 2.88
2 12.39
8 22.13
4 9.32
5 1.71
6 1.07
7 50.50
3 -----
Agricult. ------'t"
1
Pet. Pat ----------------------.
Inact i Es - - - -- - - - - - - - -- - ~ - - -_. -- --- - - - - - - --- ...
1
Prof Inter ---------------,
1
Employs
1
Ouvr. Qual --+1
Il
Quvr. N. Q -- ----- - - - - - _. - --- - - - - -- - - - - - - -- - - -., - ------ -- - - -- - - - - - - - --- - - - - --- - ...
Pro f /CSup - - --- - - - - - - - - - - - - - - -- - - - ---- - - - - - -- - -- - -- -- --- -- --- - - - - - ---- - - - - - - --_.
Figure 2.2 - 13
Dendrogramme
(lignes actives de la table de contingence 1.3 -10, section 1.3)
On retrouve donc les regroupements visibles sur la figure 1.3 - 23 (section
1.3.8)1. Notons ici que le plus grand indice correspond au premier facteur de
l'analyse de la section 1.3.8 (opposition des cadres suprieurs et de
l'ensemble des catgories), et que le second plus grand indice correspond au
second facteur (opposition entre les deux groupes ouvriers/employs et
agriculteurs/petits patrons). Cette correspondance entre nuds et facteurs
n'est pas gnrale, mais frquente 2.
b - Classification des colonnes (mdias)
La mthode d'agrgation est la mme et conduit videmment la mme
somme des indices (inertie totale). Les rgles de lectures des figures 2.2 - 14 et
2.2 - 15 sont les mmes que prcdemment.
Les deux plus grands indices correspondent encore aux principales
oppositions visibles sur les deux premiers facteurs de l'analyse des
correspondances.
1 La complmentarit entre les deux approches sera dveloppe section 2.4.
2 On note galement que les deux plus grands indices (0.0112,0.0049) sont ici
infrieurs aux deux plus grandes valeurs propres (0.0139,0.0072). La section 2.4
prcisera quelques relations et ingalits entre ces grandeurs.
176 Quelques mthodes de classificatiolt _ Chapitre 2
La structure observable sur le dendrogramme est celle d'un effet de chane,
ou de classe absorbante: l'agrgation se fait en ajoutant un lment
terminal la classe de l'tape prcdente. Il ne s'agit pas d'un artefact de la
mthode
1
. Cela traduit plutt les diffusions trs ingales des diffrents
mdias considrs.
CLASSIFICATION HIERARCHIQUE, DESCRIPTION DES 5 NOEUDS (de 7 11)
NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU
7 2 1 2 7266 .00135
8 4 7 3 8933 .00251
9 5 8 4 10236 .00323
*************
10 6 9 5 11950 .00439
*******************
11 3 10 6 12388 .01079 *************************************w******
SOMME DES INDICES .02228
Figure 2.2 - 14
Description des tapes de la classification hirarchique
(colonnes de la table de contingence 1.3 - 10, section 1.3)
1 6.08
2 11.27
4 14 51
5 19 71
6 48.43
3 -----
IDEN DENDROGRAMME (INDICES EN POURCENTAGE DE LA SOMME DES INDICES
Radi --+
1
'1'ele . ~
QUOR Il ,.
Pmag - - -- --- - - - - - - - - -- --- ~ ... -. - -- - - - - ---+
Ma'fV - ---- - - - - - - - -- - - - - -- --- - --- - - -- - - - - -*- - - ------ --- --- -- - -- -- - - - ---- ----- - - - -- - - --.
QUON --- --- - -- - ---- ---- --- -- - --- - - - - - - - - - - - - - - - - - - - -- - - - - -- - - - - - - - - - -- - --- -- - -- -- - - - -.
Figure 2.2 - 15
Dendrogramme
(colonnes de la table de contingence 1.3 -10, section 1.3)
Notons que si la classification apporte (dans le cas de tableaux en vraie
grandeur) certaines informations supplmentaires par rapport l'analyse
des correspondances (les distances sont ici calcules dans tout l'espace),
l'absence de reprsentation simultane des lignes et des colonnes limite
cependant les possibilits d'interprtation.
1 Contrairement l'agrgation suivant le saut minimal, le critre de Ward gnralis ne
provoque pas facilement d'effets de chane.
Section 2.3
Classification mixte et
description statistique des classes
2.3.1 Stratgie de classification mixte
Les algorithmes de classification sont plus ou moins bien adapts la
gestion d'un nombre important d'objets classer. La mthode d'agrgation
autour des centres mobiles offre des avantages incontestables puisqu'elle
permet d'obtenir une partition sur un ensemble volumineux de donnes
un faible cot, mais elle prsente l'inconvnient de produire des partitions
dpendant des premiers centres choisis et celui de fixer a priori le nombre de
classes. Au contraire, la classification hirarchique est une famille
d'algorithmes que l'on peut qualifier de "dterministes" (i.e. qui donnent
toujours les mmes rsultats partir des mmes donnes). De plus, ces
algorithmes donnent des indications sur le nombre de classes retenir mais
sont mal adapts aux vastes recueils de donnes.
La classification autour des centres mobiles peut en fait tre utilise comme
auxiliaire d'autres mthodes de classification. En fournissant des partitions
de vastes ensembles de donnes, elle permet de rduire la dimension de
l'ensemble des lments classer en oprant des regroupements pralables.
De ce fait, l'algorithme de classification qui parat actuellement bien adapt
au partitionnement d'un ensemble comprenant des milliers ou des dizaines
de milliers d'individus est un algorithme mixte. L'ide repose sur la
combinaison des deux techniques de classification prsentes
prcdemment. Cette ide, qui relve du bon sens, a t mise en uvre
spontanment par de nombreux praticiens; elle se trouve, par exemple,
sous le nom de hybrid clustering dans Wong (1982).
a - Les tapes de l'algorithme
L'algorithme de classification mixte procde en trois phases: l'ensemble des
lments classer subit un partitionnement initial (centres mobiles) de
faon obtenir quelques dizaines, voire quelques centaines de groupes
homognes; on procde ensuite une agrgation hirarchique de ces
groupes, dont le dendrogramme suggrera ventuellement le nombre de
classes finales retenir; et enfin, on optimise (encore par la technique des
centres mobiles) la ou les partitions correspondant aux coupures choisies de
l'arbre.
La figure 2.3 - 1 schmatise les diffrentes tapes de l'algorithme de
classification mixte.
178 Quelques mthodes de classification _ Chapitre 2
Donnes
avant la classification
1. Partition prliminaire:
- centres mobiles
- groupements stables
o 0
. e.. .
o
.. ..
0.
2. Classification ascendante
hirarchique sur les centres
3 a. Partition finale en 3 classes
par coupure de l'arbre
3 b. "Consolidation"
par raffectation
Figure 2.3 - 1
Schma de la classification mixte
1 - Partitionnement initial
Cette premire tape vise obtenir, rapidement et un faible cot, une
partition des n objets en k classes homognes, o k est largement plus
lev que le nombre 5 de classes dsir dans la population, et largement
plus petit que n. Nous utilisons, pour ce partitionnement initial en
quelques dizaines de classes, l'algorithme d'agrgation autour de
centres mobiles. Cette procdure augmente l'inertie entre les classes
chaque itration et produit une partition en un nombre fix au
pralable de classes mais qui dpend du choix initial des centres.
L'optimalit ne peut tre atteinte, mais la partition obtenue peut tre
amliore partir de groupements stables (section 2.1). Ces groupes
d'individus ou d'lments qui apparaissent toujours dans les mmes
classes seront les lments de base de l'tape suivante.
2 - Agrgation hirarchique des classes obtenues
La seconde tape consiste effectuer une classification ascendante
hirarchique o les lments terminaux de l'arbre sont les k classes de
2.3 _ Classification mixte et description statistique des classes 179
la partition initiale. Quelques uns de ces groupements peuvent tre
proches les uns des autres. Ils correspondent un groupe "rel" qui
aurait t coup artificiellement par l'tape prcdente. D'autre part, la
procdure cre, en gnral, plusieurs petits groupes ne contenant
parfois qu'un seul lment. Le but de l'tape d'agrgation hirarchique
est de reconstituer les classes qui ont t fragmentes et d'agrger des
lments apparemment disperss autour de leurs centres d'origine.
L'arbre correspondant est construit selon le critre de Ward qui tient
compte des masses au moment des choix des lments agrger.
3 - Partitions finales
La partition finale de la population est dfinie par coupure de l'arbre de
la classification ascendante hirarchique. L'homognit des classes
obtenues peut tre optimise par raffectations.
b - Choix du nombre de classes par coupure de l'arbre
Le choix du niveau de la coupure, et ainsi du nombre de classes de la
partition, peut tre facilit par une inspection visuelle de l'arbre (cf. figures
2.3 - 1 et 2.3 - 2): la coupure doit tre faite aprs les agrgations
correspondant des valeurs peu leves de l'indice, qui regroupent les
lments les plus proches les uns des autres, et avant les agrgations
correspondant des valeurs leves de l'indice, qui dissocient les groupes
bien distincts dans la population.
D'une manire gnrale, plus on agrge des lments, autrement dit plus
on se rapproche du sommet de l'arbre, plus la distance entre les deux classes
les plus proches est grande et plus l'indice de niveau est lev. En coupant
l'arbre au niveau d'un saut important de cet indice, on peut esprer obtenir
une partition de bonne qualit, car les individus regroups auparavant
taient proches, et ceux regroups aprs la coupure sont ncessairement
loigns, ce qui est la dfinition d'une bonne partition.
En pratique, la situation n'est pas aussi clairement dfinie que le montre la
figure 2.3 - 2. L'utilisateur pourra choisir entre deux ou trois niveaux de
coupure possibles et donc entre deux ou trois partitions finales.
Figure 2.3 - 2
Coupure visuelle de l'arbre
180 Quelques mthodes de classification _ Chapitre 2
La coupure de l'arbre peut tre facilite par l'examen de l'histogramme des
indices croissants de niveau et l'on coupera au niveau pour lequel cet
histogramme marque un palier important. Toute barre de cet histogramme
indique la valeur de l'indice d'une agrgation c'est--dire la perte d'inertie
obtenue en passant d'une partition en s classes la partition en s - 1 classes.
La situation idale est montre par la figure 2.3 - 3.a o l'on observe un
palier vident entre le 4
me
et le sme indices suggrant ainsi une bonne
partition en cinq classes. La figure 2.3 - 3.b est typique de la situation o il est
difficile de dcider d'un nombre "rel" de groupes dans la population. Mais
une telle partition, en 5 classes par exemple, n'est pas la meilleure possible,
car l'algorithme de classification hirarchique n'a pas la proprit de donner
chaque tape une partition optimale.
****
*******
(a)
****
*******
(b)
*********** 1
***************** ..."'.
**************.***
*****************
****************** *'111_*.***
**************
Figure 2.3 - 3
Histogrammes des indices de niveau
Cela tient en particulier la contrainte impose pour la construction de
l'arbre: la partition en s classes contient la partition en s - 1 classes et est
contenue dans la partition en s + 1 classes, l'algorithme ne remettant jamais
en cause une agrgation effectue. On peut donc amliorer encore la
partition obtenue si on s'affranchit de cette contrainte.
c - Procdure de consolidation
Pour amliorer la partition obtenue, on utilise de nouveau une procdure
d'agrgation autour des centres mobiles dont on sait qu'elle ne peut
qu'augmenter l'inertie entre les classes chaque itration.
Au dpart, les centres de classes sont ceux obtenus par coupure de l'arbre. A
la premire itration, on affecte les lments leur centre de gravit le plus
proche, ce qui cre de nouvelles classes dont on calcule les centres. A la
deuxime itration et aux suivantes, on raffecte les lments leur centre
le plus proche. Aprs un certain nombre d'itrations, il n'y a plus de
raffectation oprer et le calcul est arrt. En pratique, la procdure est
arrte ds que l'inertie entre les classes cesse de crotre de faon sensible.
Cette procdure de consolidation a pour effet d'optimiser, par raffectation,
la partition obtenue par coupure de l'arbre hirarchique. Malgr la relative
complexit de la procdure, on ne peut toujours pas tre assur d'avoir
2.3 _ Classificatioll mixte et descriptioll statistique des classes 181
trouv la "meilleure partition en k classes" mais on s'en approche
vraisemblablement dans beaucoup de situations courantes.
2.3.2 Description statistique des classes
Les lments d'une mme classe se ressemblent vis--vis de l'ensemble des
critres choisis pour les dcrire. li reste maintenant prciser quels sont les
critres qui sont l'origine des regroupements observs. On procde une
description automatique des classes qui constitue en pratique une
indispensable tape de toute procdure de classification 1.
Les aides l'interprtation des classes sont gnralement fondes sur des
comparaisons de moyennes ou de pourcentages l'intrieur des classes avec
les moyennes ou les pourcentages obtenus sur l'ensemble des lments
classer
2
. Pour slectionner les variables continues ou les modalits des
variables nominales les plus caractristiques de chaque classe, on mesure
l'cart entre les valeurs relatives la classe et les valeurs globales. Ces
statistiques peuvent tre converties en un critre appel va leu r- tes t
permettant d'oprer un tri sur les variables, et de dsigner ainsi les variables
les plus caractristiques (cf. Morineau, 1984).
Parmi les variables figurent galement celles qui n'ont pas contribu la
construction des classes mais qui peuvent participer leur description sur le
mme principe que les variables supplmentaires dans une analyse
factorielle. Ces variables permettent a posteriori d'identifier et de
caractriser les regroupements tablis partir des variables actives.
a - Valeurs-test pour les variables continues
Pour caractriser une classe par les variables continues, on compare X
k
, la
moyenne d'une variable X dans la classe k, la moyenne gnrale X et on
value l'cart en tenant compte de la variance s ~ X de cette variable dans la
classe. La valeur-test est ici simplement la quantit:
t (X)= Xk-X
k sk(X)
avec:
1 Il existe galement des possibilits purement graphiques de reprsentation des
classes (graphiques de densit, arbres, dendrogrammes) qui peuvent complter les
descriptions statistiques de ce paragraphe. Sur ce point, cf. Ohsumi (1988).
2 Ce qui est quivalent comparer moyennes (ou pourcentages) dans la classe et hors
de la classe.
182 Quelques mthodes de classification _ Chapitre 2
o s2(X) est la variance empirique de la variable X. On reconnat en s ~ X la
variance d'une moyenne dans le cas d'un tirage sans remise des k lments
concerns.
Interprtation en tenues de probabilits (variables supplmentaires)
Sous l'hypothse "nulle" d'un tirage au hasard sans remise des nk
individus de la classe k, la variable X
k
reprsentant la moyenne dans la
classe a pour esprance Xet pour variance thorique s ~ X .
La valeur-test tk(X) suit donc approximativement une loi de Laplace-Gauss
centre et rduite (thorme de la limite centrale). Elle value la distance
entre la moyenne dans la classe et la moyenne gnrale en nombre d'carts-
types d'une loi normale.
Il va de soi que cette interprtation n'a de sens que pour une variable X
supplmentaire, c'est--dire n'ayant pas particip la construction des
classes. On ne peut en effet stipuler une indpendance entre les classes
d'une partition et une des variables ayant servi dfinir cette partition.
On calcule ensuite la probabilit que la variable dpasse la valeur absolue de
la diffrence observe. Plus la valeur-test est forte (plus la probabilit est
faible), plus l'hypothse d'avoir les n valeurs de la variable X tires au
hasard parmi les valeurs possibles est discutable. Dans ce cas, la moyenne
dans la classe diffre de la moyenne gnrale, et la variable est
caractristique de la classe. Le classement des variables par probabilits de
dpassement croissantes est le mme que le classement par valeurs-test
dcroissantes. Du point de vue de la dsignation des variables les plus
caractristiques, les deux informations sont quivalentes.
Extension aux variables actives
S'il n'est pas licite d'interprter de faon probabiliste les valeurs-test
calcules sur les variables actives, il est possible de les utiliser pour obtenir
un classement de celles-ci en vue de caractriser chaque classe. Les valeurs
absolues des valeurs-test constituent alors de simples mesures de similarit
entre variables et classes.
b - Valeurs-test pour les variables nominales
Une modalit (ou catgorie) d'une variable nominale est considre comme
caractristique de la classe si son abondance dans la classe est juge
significativement suprieure ce qu'on peut attendre compte tenu de sa
prsence dans la population. En notant nkj le nombre d'individus ayant la
modalit j parmi les nk individus de la classe k, nj le nombre d'individus
ayant la modalit j et n l'effectif total, l'abondance de la modalit j est
dfinie, en premier lieu, en comparant son pourcentage dans la k me classe:
~ n
son pourcentage dans la population ..J...
n
k
n
2.3 _ Classification mixte et description statistique des classes
La valeur-test prend en compte tous les lments du tableau 2.3 - 1.
Tableau 2.3 -1
Modalits de variables nominales et classes d'individus
183
classe k
autres classes
population
modalit j
nkj
..
n-
J
autres modalits
.. .. ..
population
nk
..
n
Sous l'hypothse "nulle"l o les nk individus de la classe k sont tirs au
hasard sans remise parmi la population des n individus, le pourcentage
d'individus de la classe k ayant la modalit j d'une part, et le pourcentage
d'individus ayant la modalit j dans la population d'autre part, devraient
concider aux fluctuations alatoires prs:
nk' n
_J =--.L
nk n
C'est l'hypothse d'indpendance sous laquelle le nombre N d'individus de
la classe k ayant la modalit j est une variable alatoire qui suit une loi
hypergomtrique dont les trois paramtres apparaissent dans les marges du
tableau 2.3 - 1. On calcule donc la probabilit d'obtenir une valeur N
suprieure nkj :
Pk(j) = Prob(N ~ nkj)
Plus cette probabilit
2
Pk(j) est faible, plus l'hypothse d'un tirage au hasard
est difficile accepter. On se sert de cette probabilit pour ranger les
modalits caractristiques de la classe (la plus caractristique correspondant
la plus petite probabilit).
Cette probabilit est souvent trs faible. li est commode de lui substituer la
valeur tk(N) de la variable de Laplace-Gauss correspondant la mme
probabilit. C'est la valeur-test. Elle mesure l'cart entre la proportion dans
la classe et la proportion gnrale, en nombre d'carts-types d'une loi
normale. La valeur-test, pour une modalit d'une variable nominale, est
1 Comme dans le cas des variables continues, cette hypothse nulle n'a de sens que
pour des variables nominales supplmentaires. Mais les valeurs-test que l'on va
calculer pourront encore jouer le rle d'indices de similarits entre modalits actives et
classes et donc servir ranger ces modalits par ordre d'intrt pour chaque classe.
2 Si l'on dsigne par ~ le nombre de parties distinctes de b lments que l'on peut
extraire d'un ensemble de a lments, la probabilit Prob (N = x) s'crit ici:
c ~ c ~ ~ x x=nk
Prob(N=x)= J J et la probabilitpk(j) vaut alors:Pk(j)= IProb(N=x)
C;k
184 Quelques mthodes de classification _ Chapitre 2
donc un critre statistique associ la comparaison des effectifs dans le cadre
d'une loi hypergomtrique
l
.
c - Variables caractristiques d'une classe
La valeur-test revient effectuer un changement de mesure en
transformant la probabilit d'une distribution quelconque en nombre
d'cart-types d'une loi normale centre rduite.
Que ce soit pour la recherche des variables continues ou des modalits des
variables nominales caractristiques d'une classe, la valeur absolue de la
valeur-test est l'analogue de la valeur absolue d'une variable normale
centre rduite
2
.
Les variables sont d'autant plus intressantes que les valeurs-test associes
sont fortes en valeur absolue. On peut alors ranger ces variables suivant les
valeurs-test dcroissantes et ne retenir que les lments les plus significatifs,
ce qui permet de caractriser trs rapidement les classes.
En slectionnant, pour chaque classe, les variables les plus caractristiques,
et en calculant leur moyenne ou leur pourcentage dans la classe, on
constitue ainsi le "profil-type" de la classe. Rappelons que la valeur-test ne
correspond un vrai test d'hypothse
3
que si la variable laquelle elle est
associe est supplmentaire.
Mentionnons enfin, comme cela a t fait la section 1.2 propos de
l'analyse en composantes principales, que le fait de calculer simultanment
plusieurs valeurs-test met l'utilisateur dans une situation de "comparaisons
multiples", qui impose de prendre des seuils de signification plus svres
que ceux mis en uvre lors d'un test unique.
1 Notons qu'une estimation approche de la valeur-test peut tre obtenue de faon plus
simple en prenant en compte l'esprance de N :
n n-n n ( n.]
E(N)=nk-L etlavariancedeX sl(N)=n
k
--
k
-L 1--1..,
n n-1 n n
et en calculant la quantit Ik(N) = N - E(N) qui donne directement la variable centre,
sk(N)
rduite et normale si l'on peut appliquer l'approximation de Laplace-Gauss de la loi
hypergomtrique Cette approximation est suffisante dans les applications qui ne
mettent pas en jeu des effectifs faibles.
2Dans le cadre de tests classiques, on dira qu'elle est significative au seuil usuel 5% si
elle dpasse la valeur 1,96 : l'hypothse "nulle" est rejete et la moyenne ou la
proportion d'une variable sur la population globale et celle dans la classe diffrent
significativement.
3 Ici on a l'hypothse qu'une variable continue ou une modalit d'une variable nominale
est indpendante de la partition.
Section 2.4
Complmentarit entre
analyse factorielle et classification
Les mthodes factorielles (notamment l'analyse des correspondances
multiples) sont particulirement bien adaptes l'exploration de grands
tableaux de donnes individuelles tels que ceux produits par les enqutes.
Mais elles ne suffisent pas toujours fournir une vue satisfaisante de
l'ensemble des donnes. Non seulement les visualisations ne vhiculent
qu'une partie de l'information, mais elles sont parfois elles-mmes trop
complexes pour tre interprtes facilement.
Dans ces circonstances, les techniques de classification peuvent complter et
nuancer les rsultats des analyses factorielles. La complmentarit entre
analyse factorielle et classification concerne la comprhension de la
structure des donnes et celle des aides pratiques dans la phase
d'interprtation des rsultats.
Dans une premire partie, on justifiera cette utilisation conjointe du point
de vue de l'utilisateur confront un ensemble complexe de donnes. Puis
on examinera quelques aspects techniques et thoriques de cette
complmentarit.
2.4.1 Utilisation conjointe de l'analyse factorielle
et de la classification
Face de trs grands tableaux de donnes, il est indispensable de disposer
d'une vue d'ensemble de la base d'information. De ce point de vue, les
mthodes factorielles sont certainement les techniques exploratoires les
mieux adaptes.
a - Ncessit... et insuffisance des mthodes factorielles
Mais, les reprsentations graphiques issues des mthodes factorielles
prsentent certains inconvnients, dont certains sont d'ailleurs
interdpendants :
1- Difficults d'interprtation
Il est toujours difficile d'interprter les axes ou plans factoriels au del du
plan principal. Le plan (3,4), engendr par les axes factoriels 3 et 4, dcrit
des proximits qui sont des termes correctifs par rapport aux proximits
principales observes sur les deux premiers axes. L'interprtation de ces
proximits est donc assez dlicate.
186 Quelques mthodes de classification _ Chapitre 2
2- Compression excessive et dfonnations
Les visualisations sont limites deux, ou en gnral trs peu de
dimensions, alors que le nombre d'axes "significatifs" peut tre bien
suprieur. Cette compression excessive de l'espace peut entraner des
distorsions fcheuses et des superpositions de points occupant des
positions distinctes dans l'espace.
3 - Manque de robustesse
Les visualisations peuvent manquer de robustesse. Un point-profil
aberrant peut notablement influencer le premier facteur et par l toutes
les dimensions suivantes, puisque ces dimensions sont relies au
premier axe travers la contrainte d'orthogonalit des axes.
4 - Graphiques factoriels inextricables
Les visualisations peuvent concerner des centaines de points et donner
lieu des graphiques chargs ou illisibles.
Pour remdier ces lacunes, montrons, point par point, quels peuvent tre
les apports d'une classification mene simultanment.
Difficults d'interprtation et compression excessive des donnes (points
1 et 2) :
On complte l'analyse factorielle par une classification ralise sur
l'espace tout entier ou sur un sous-espace dfini par les premiers facteurs
les plus significatifs. Les classes prennent en compte la dimension relle
du nuage de points. Elles corrigent donc certaines dformations dues
l'opration de projection.
Une classe peut aussi tre typique d'un axe de rang lev et aider
l'interprtation de ce sous-espace particulier difficilement observable
autrement.
Robustesse imparfaite (point 3) :
La plupart des algorithmes de classification, et particulirement les
algorithmes d'agglomration, sont localement robustes au sens o les
parties basses des dendrogrammes produits (nuds correspondant aux
plus petites distances) sont indpendantes des ventuels points
marginaux isols.
Allgement et description automatique des sorties graphiques (point 4) :
Lorsqu'il y a trop de points-individus sur un plan factoriel, il parat utile
de procder des regroupements d'individus en familles homognes. Il
faut donc ce stade faire appel aux capacits de gestion et de calcul de
l'ordinateur pour complter, aider et clarifier la prsenta tion des
rsultats. Les classes peuvent tre utilises pour aider l'interprtation des
plans factoriels en identifiant des zones bien dcrites. Il est en effet plus
2.4 _ Complmerltarit erItre allalyse factorielle et classificatiOll 187
facile de dcrire des classes qu'un espace continu, mme deux
dimensions. La notion de classe est lmentaire et accessible
l'intuition. Les descriptions de ces classes peuvent tre fondes sur
d'lmentaires comparaisons de moyennes ou de pourcentages. Les
nombreux points sont ainsi remplacs par quelques centres de gravit de
classes. Comme les algorithmes utiliss pour ces regroupements
fonctionnent de la mme faon que les points soient situs dans un
espace deux ou dix dimensions, on allge les sorties graphiques tout
en amliorant la qualit de la reprsentation (points 1 et 2 ci-dessus).
Mais les mthodes factorielles sont ncessaires, malgr leurs insuffisances:
la facult descriptive des axes, les descriptions sous forme de continuum
gomtrique restent irremplaables.
La classification ne russit pas toujours montrer l'importance de certaines
tendances ou de facteurs latents continus. Pour observer l'organisation
spatiale des classes, le positionnement des classes sur les axes factoriels
s'avre indispensable. La classification peut videmment aider dcouvrir
l'existence de groupes d'individus. L'analyse factorielle peut mettre en
avant des facteurs latents inattendus. La dcouverte de tels phnomnes ou
dimensions caches est l'objectif de ces deux familles de mthodes et
certainement le plus ambitieux. Leur utilisation complmentaire est
souvent indispensable pour atteindre cet objectif.
b - Mise en uvre pratique dans le cas de la classification mixte
Pour dcrire un ensemble de donnes de grande taille, principale
circonstance dans laquelle l'usage complmentaire des techniques
factorielles et de classification est utile, la mise en uvre conjointe de ces
techniques s'opre de la faon suivante.
- tape 1 : L'analyse factorielle
L'analyse factorielle est utilise comme une tape pralable la
classification pour deux raisons: pour son pouvoir de description,
prsent dans les chapitres prcdents, et pour son pouvoir de filtrage,
qui permettra ventuellement de travailler sur des coordonnes
factorielles moins nombreuses que les variables de dpart.
- tape 2 : Classification partir des facteurs
Il est quivalent d'effectuer une classification des individus sur un
ensemble de p variables ou sur l'ensemble des p facteurs. Mais on peut
aussi ne prendre en compte qu'un sous-espace factoriel de dimension q
(q < p) et raliser une classification sur les q premiers axes. Cela
prsente l'avantage d'liminer des fluctuations alatoires qui
constituent en gnral l'essentiel de la variance recueillie dans les
directions des p - q derniers axes (variations non systmatiques
contenues dans les donnes). Le fait d'abandonner les derniers facteurs
revient effectuer une sorte de "lissage" des donnes, ce qui en gnral
188 Quelques mthodes de classification _ Chapitre 2
amliore la partition en produisant des classes plus homognes. Les
distances entre points sont calcules dans l'espace des premiers axes
factoriels avec la distance euclidienne usuelle. Le calcul est simple et la
classification peut tre mene sur des grands ensembles d'individus
1
.
La difficult rside parfois dans le choix du nombre d'axes retenir (cf.
4.2.3).
tape 3: Description automatique des classes
Une fois les individus regroups en classes, on a vu ( 2.3.2) qu'il est
facile d'obtenir une description automatique de ces classes. On calcule,
pour les variables numriques comme pour les variables nominales,
des statistiques d'carts entre les valeurs internes la classe et les
valeurs globales. Les valeurs-test permettent de les ranger par ordre
d'intrt.
tape 4: Positionnement des classes dans le plan factoriel
La division en classes opre un dcoupage plus ou moins arbitraire
d'un espace continu. L'analyse en axe principaux pralable permet
alors de visualiser les positions relatives des classes dans l'espace et
peut mettre en vidence certaines "trajectoires" masques par la
discontinuit des classes. Il est intressant de projeter les centres de
gravit des classes au sein des variables ou des modalits actives sur le
premier plan factoriel (figure 2.4 - 1).
Figure 2.4 - 1
Positions relatives des classes dans l'espace factoriel
Le support visuel permet d'apprcier les distances entre les classes. Par
ailleurs, la position de chaque individu repr par le numro de sa
classe permet de reprsenter la densit et la dispersion des classes dans
le plan (cf. figure 2.4 - 2).
1 Une technique de classification hirarchique tel que l'algorithme des VOISInS
rciproques (et particulirement l'algorithme de recherche en chaine) peut tre ralise
sans garder la matrice des distances en mmoire centrale. Les distances entre couples
de points sont recalcules la demande dans l'espace rduit des q premiers facteurs.
La mise en mmoire de la matrice (n,q) construite partir des q principales
coordonnes des n observations est souvent beaucoup moins encombrante que le
tableau des n(n-1) distances.
2.4 _ Complmelltarit elltre allalyse factorielle et ciassificatiOlI
3
F
2
2
3 3 2
2
3 3 3
13
3 3 1 2
3 3 3
1 1 1 2
2 2
11
1 2 1
L 2
2 F
1
1
1
1 3 2
1
1 1
1 2 2
2
2
2
Figure 2.4 - 2
Densit et dispersion des classes dans l'espace factoriel
189
L'utilisation conjointe de l'analyse factorielle et de la classification permet
de se prononcer non seulement sur la ralit des classes, mais galement sur
leurs positions relatives, leur forme, leur densit et leur dispersion. Les
deux techniques se valident mutuellement.
c - Autres aspects de la complmentarit
A propos des liens entre les mthodes d'analyse par axes principaux et les
mthodes de classification, il faudrait voquer des mthodes que l'on peut
qualifier d'hybrides, c'est--dire qui produisent simultanment des axes et
des classes. Ainsi, le lien existant entre le haut de l'arbre et les premiers axes
factoriels peut suggrer d'utiliser ceux-ci pour construire un arbre partir
des plus grands indices (classification descendante ou divisive, cf. par
exemple Reinert, 1986). On peut galement chercher des axes principaux
susceptibles de reprsenter au mieux une classification (Art et al., 1982 ;
Gnanadesikan et al., 1982). Certaines de ces mthodes (projections
rvlatrices, analyses de contigut) seront brivement prsentes au 3.7.4
du chapitre 3. Dans un autre esprit, van Buuren et Heiser (1989), pour
classer des individus dcrits par des variables nominales, cherchent
simultanment des classes et un codage des variables qui optimise un critre
de qualit de la classification.
2.4.2 Aspects techniques et thoriques de la complmentarit
La complmentarit entre l'analyse des correspondances et la classification
ascendante hirarchique prsente des avantages pratiques pour l'utilisateur.
On examinera dans ce paragraphe certains aspects plus techniques de cette
cornplmentari t.
a - Classification des lignes ou colonnes d'un tableau de contingence
La classification ascendante hirarchique agrge des groupes d'lments
suivant diffrents critres d'agrgation. Parmi ceux-ci, le critre de Ward
190 Quelques mthodes de classificatioll _ Chapitre 2
gnralis apparat compatible avec l'analyse des correspondances puisqu'il
est fond sur une notion d'inertie similaire. On a montr en particulier (cf.
2.2.3.b formule [2.2 - 2]) que la somme des valeurs propres (inertie totale du
nuage) est gale la somme des indices de niveau. Aussi, malgr des classes
sphriques que ce critre a tendance produire, il y a une certaine cohrence
utiliser le critre d'inertie de Ward sur un tableau de coordonnes
factorielles elles-mmes issues d'un calcul d'inertie. Si l'arbre de la
classification est construit sur les q premiers axes factoriels, on vrifiera que
la somme des indices de niveau est gale la somme des q premires plus
grandes valeurs propres retenues.
Une proprit importante de l'analyse des correspondances va dans le sens
d'une bonne compatibilit avec la classification: l'quivalence
distributionnelle (cf. 1.3.2.f et 1.3.3.a) qui garantit la stabilit des rsultats
quand on regroupe les lments ayant des profils semblables.
Agrger les lignes et les colonnes d'un tableau de contingence est naturel
dans le sens o il s'agit de remplacer des classes par des classes a u lieu de
remplacer des individus par des groupes d'individus ou des variables par
des groupes de variables
1
.
b - Un exemple de concidence entre les deux approches
Considerons la table de contingence KI) (tableau 2.4 - 1). Elle a, nous allons le
vrifier, la proprit de donner des rsultats similaires lorsqu'elle subit une
analyse des correspondances et une classification hirarchique utilisant le
critre d'agrgation de Ward (cf. 2.2.3.b).
Tableau 2.4 - 1
Table de Contingence KIJ
COL7 COL2 COL3 COL4 COL5 COL6 COLI COL8
LIGI 2 18 12 12 2 2 30 2
LIG4 2 12 21 27 2 2 12 2
LIG5 14 2 2 2 24 20 2 14
LIG2 2 30 12 12 2 2 18 2
LIG6 14 2 2 2 20 24 2 14
LIG7 23 2 2 2 14 14 2 21
LIG3 2 12 27 21 2 2 12 2
LIG8 21 2 2 2 14 14 2 23
En fait, un rarrangement des lignes et des colonnes montre que cette table
n'est pas anodine. Elle contient de forts traits structuraux (tableau 2.4 - 2).
Elle est symtrique et semble forme de blocs et de sous-blocs particuliers. Ce
rarrangement, on va le voir, est un sous-produit de l'analyse des
correspondances.
1 La classification des lments d'un tableau de contingence fonde sur le
regroupement de catgories homognes a t aborde par Benzcri (1973), Jambu et
Lebeaux (1978), Govaert (1984), Cazes (1986), GHula (1986), Escoufier (1988),
Greenacre (1988).
2.4 _ Complmentarit entre analyse factorielle et classification
Tableau 2.4 - 2
Table de Contingence KI] rordonne
COLI COL2 COL3 COL4 COLS COL6 COL7 COLS
LIG1 30 18 12 12 2 2 2 2
LIG2 18 30 12 12 2 2 2 2
LIG3 12 12 27 21 2 2 2 2
LIG4 12 12 21 27 2 2 2 2
LIGS 2 2 2 2 24 20 14 14
LIG6 2 2 2 2 20 24 14 14
LIG7 2 2 2 2 14 14 23 21
LIG8 2 2 2 2 14 14 21 23
191
Cette table de contingence fait en fait partie d'une famille plus large de
tableaux dcrits dans Benzcri (1973, vol. 2, chapitre 11) qui seront
brivement voqus plus bas.
Une classification ascendante hirarchique utilisant le critre de Ward
produit le dendrogramme reprsent sur la figure 2.4 - 3, o les indices de
niveaux figurent entre parenthses prs des nuds correspondants.
LIG1
LIG2
LIG3
LIG4
LIGS
LIG6
LIG7
1 (.023)
1
(.090 )
1(.006)
1
( .640)
( .003)
( .040)
( .001)
LIG8
Figure 2.4 - 3
Esquisse du dendrogramme dcrivant la classification
hirarchique de la table de contingence (8,8) KI]
Les valeurs propres issues de l'analyse des correspondances de Ku figurent
dans le tableau 2.4 - 3. Elles concident avec les indices d'agrgation.
Tableau 2.4 - 3
Valeurs propres issues de l'analyse des correspondances de KI]
1
=
.640 (80.0 % de la trace)
2
=
.090 (11. 0 %)
3 =
.040 ( 5.0 %)
4
=
.023 ( 3.0 %)
5
=
.006 ( .7 %)
6
=
.003 ( .4 %)
7
=
.001 ( .1 %)
192 Quelques mthodes de classificatiolf _ Chapitre 2
Le tableau 2.4 - 4 donne les coordonnes factorielles des points lignes (qui
sont les mmes que celles des points colonnes au signe prs, puisque la
matrice de dpart est symtrique). La faon dont sont organiss ces vecteurs
propres permet de comprendre le processus de construction de la table de
contingence: on part des facteurs structurs de cette faon et on utilise la
formule de reconstitution des donnes.
Chaque vecteur oppose deux blocs. Il est orthogonal au vecteur prcdent et
les coordonnes sont gales l'intrieur de chaque bloc. Tous les vecteurs
sont centrs et orthogonaux la premire bissectrice.
La figure 2.4 - 4 donne la reprsenta tion des points-profils dans le plan des
deux premiers axes factoriels.
Tableau 2.4 - 4
Coordonnes factorielles issues
de l'analyse des correspondances de Kil
Axes l 2 3 4 5 6 7
LIGNEl -.80 .42 0.00 .30 0.00 0.00 0.00
LIGNE2 -.80 .42 0.00 -.30 0.00 0.00 0.00
LIGNE3 -.80 -.42 0.00 0.00 -.15 0.00 0.00
LIGNE4 -.80 -.42 0.00 0.00 .15 0.00 0.00
LIGNES .80 0.00 -.28 0.00 0.00 .10 0.00
LIGNE6 .80 0.00 -.28 0.00 0.00 -.10 0.00
LIGNE7 .80 0.00 .28 0.00 0.00 0.00 .06
LIGNE8 .80 0.00 .28 0.00 0.00 0.00 -.06
On constate que cette figure bi-dimensionnelle permet de distinguer les
deux grands blocs (axe 1), puis, l'intrieur de l'un d'eux, deux sous-blocs
(axe 2) , mais qu'elle est moins riche d'information que la figure 2.5 - 3, elle
aussi bidimensionnelle.
LIGI
LIG2
-V.lS
LIG3
LIG4
Axe 2 J 11%
o
-0.4
LIG5
L1G6
-
L1G?
L1G8
Axel

80%
Figure 2.4 - 4
Premier plan factoriel de l'analyse de Kil
2.4 _ Complmentarit entre allalyse factorielle et classification 193
La figure 2.4 - 3 du dendrogramme a en effet l'avantage de montrer
simultanment tous les blocs et tous les niveaux de la hirarchie.
Dcrivons brivement ces tableaux de correspondances hirarchiques en
renvoyant Benzcri {1973, op. cit.) et Cazes (1984, 1986 a) pour une
prsentation systmatique et des gnralisations de ces notions.
D'une manire gnrale, dans une hirarchie binaire H sur un ensemble l
n lments chaque lment non terminal hE H peut tre partitionn de
faon unique en deux lments a(h) et b(h) :
h = a(]l) v b(h) avec a(h) E H et b(h) E H
On suppose cette hirarchie indice (cf. 2.2.Lc). On suppose galement que
l'indice )'(h) prend ses valeurs dans (0,1) et qu'il est nul pour les lments
terminaux. Chaque lment i E l est d'autre part muni d'une masse Pi
strictement positive avec:
n
LPi =1
i=1
Pour chaque nud h de la hirarchie, on peut associer une fonction sur l
valeurs relles fh, de moyenne nulle, c'est--dire telle que:
n
LPifh(i) =0
i=1
Cette fonction est nulle en dehors de h (i Il => fii) = 0) et constante sur
chacun des deux nuds a(h) et b(h) qui constituent h.
Ces constantes sont dfinies par les formules suivantes, en notant Ph, pa et
Pb les masses respectives des lments h, a(h) et b(h) :
fh(i) = Pb pour i E a(h)
PhPa
fh(i) = Pa pour i E b(h)
PhPb
Si l'on munit l'espace des fonctions fh du produit scalaire:
n
<fh'/h' >= LPi!hWfh,(i)
i=1
On vrifie facilement que les fonctions fh sont de norme (ou de variance) 1
et que les n-1 fonctions correspondant aux nuds de la hirarchie
constituent une base orthonorme de l'ensemble des fonctions sur l.
La formule de reconstitution des donnes en analyse des correspondances
(cf. L3.3.h) permet alors de gnrer un tableau de correspondances
symtrique C de terme gnral c;;:
cii' =PiPi'[l + nfJfhfhWfh(i' )J
h=1
194 Quelques mthodes de classification _ Chapitre 2
les n-l nuds reprs par h tant supposs numrots par ordre d'indices
d'agrgation h dcroissants. La table de contingence KIJ ci-dessus a t
gnre
l
de cette faon.
2.4.3 Valeurs propres et indices de niveau
Hormis des cas trs particuliers, comme ceux constitus par les
correspondances hirarchiques tudies au paragraphe prcdent, les
relations entre analyse des correspondances et classification oprs sur une
mme table de contingence sont difficiles tudier.
Dans le cas de la classification hirarchique utilisant le critre de Ward, on
peut mettre en vidence certaines ingalits et tudier certaines structures
particulires.
a - Quelques ingalits
Notons tout d'abord que pour une table de contingence quelconque (si l'on
excepte les tables symtriques), la classification hirarchique donnera des
indices diffrents selon que l'on agrge les lignes et les colonnes, alors que
l'analyse des correspondances ne fournit qu'une srie de valeurs propres.
La plus grande valeur propre issue de l'analyse des correspondances est
suprieure ou gale au plus grand indice d'agrgation (lignes ou colonnes)
donn par la classification. Cet indice est en effet une mesure de variance
externe (dite variance "inter", par opposition la variance "intra",
mesurant la dispersion l'intrieur des groupes) entre les deux derniers
groupes agrgs. Cette variance externe est infrieure la variance totale
mesure sur la droite qui joint les centres de gravits des deux groupes, elle-
mme infrieure la meilleure variance totale possible sur une droite
quelconque, ce qui est la dfinition de la plus grande valeur propre
2

Plus gnralement, Benzcri et Cazes (1978) ont montr que la somme des r
plus grandes valeurs propres est suprieure ou gale la somme des r plus
grands indices d'agrgation.
Enfin, ces auteurs ont donn un intressant contre-exemple montrant qu'il
n'existe pas de borne infrieure positive pour le quotient entre le plus grand
indice d'agrgation et la plus grande valeur propre: on peut trouver des
distributions de densit telles que le plus grand indice soit une fraction
arbitrairement petite de la plus grande valeur propre.
IOn trouvera la preuve de la non-ngativit des termes Cii dans Benzcri (1973, Tome
lIB, Chapitre Il).
2 Notons bien, sur la figure 2.4 - 4 prcdente, le cas de concidence pour lequel les
variances "intra" sur l'axe sont nulles, et pour lequel le meilleur axe factoriel est
prcisment celui qui relie les deux centres de classes.
2.4 _ Complmentarit entre analyse factorielle et classification 195
b - Le cas des tables de contingence structures par blocs
Cette structure dj voque en section 1.3.4 (cf. les figures 1.3 -15 et 1.3 - 16)
est aisment reconnue par l'analyse des correspondances car k blocs
engendrent k valeurs propres gales 1 (y compris la valeur propre triviale,
qui correspond au cas usuel d'un seul bloc).
Cette structure n'est cependant pas systmatiquement reconnue par la
classification hirarchique utilisant le critre de Ward, comme l'ont montr
par un contre-exemple Kharchaf et Rousseau (1988, 1989).
c - Une tude empirique du lien entre valeurs propres et indices
Ces ingalits et contre-exemples ne donnent que peu d'information sur les
liaisons entre valeurs propres et indices, et les liaisons fonctionnelles du
paragraphe 2.4.2 ne concernent que des cas d'cole. Les liaisons stochastiques
entre indices et valeurs propres (dans le cas d'une famille de tables de
contingences alatoires) sont certainement trop complexes pour faire l'objet
d'une tude analytique.
Tableau 2.4 - 5
Moyennes et cart-types des valeurs propres
et des indices d'agrgation.
1000 tables de contingences pseudo-alatoires (8,8).
Pour chaque table, k =1000.
IdentijiClltelir Moyenne Ecart
type
Valeurs propres
Ecart
type de la moyenne
VPl .02130

.00560 .ooC118
VP2 .01282

.00353 .00011
VP3 .oom .00234 .<XXXl7
VP4 .00442
.00156 .<XXJ05
VP5 .00214
.00100

.XXl3
VP6 .00070
.lXXJ5O

.<XXXl2
VP7 .00010

.00014 .00000
Indices des lignes (INLi) et des colonnes (INci)
!NU .01692' .00452' .00014
INl2 .01063' .00289' .00009
INl.3 .00733' .00197' .00006
INlA .00537' .00148' .<XXJ05
INl.5 .00391' .00117' .<XXXl4
IN1..6 .00280' .00090' .XXl3
INL7 .00183' .00074' .<XXXl2
INCl .01679
.00450 .00014
INa .01061

.00291 .00009
INO .00739

.00202

.00006
INC4 .00535

.00151 .<XXJ05
INC5 .00396

.00118

.<XXXl4
INC6 .00280

.00091

.XXl3
INCl .00182 .00075

.CXXXJ2
196 Quelques mthodes de classification _ Chapitre 2
Une exploration par simulation pourra cependant donner une ide des
liens stochastiques existant entre indices et valeurs propres.
Pour procder cette explora tion, des tables de contingence 8 lignes et 8
colonnes ont t simules sous l'hypothse d'indpendance selon un
schma de remplissage multinomial (les marges thoriques sont supposes
gales, l'effectif total de chaque table simule est k =1 000).
1 000 simulations ont t ralises, donnant lieu chacune une analyse des
correspondances, et deux classifications hirarchiques (selon le critre de la
variance) : une sur les lignes et une sur les colonnes.
Le tableau 2.4 - 5 donne les moyennes des 7 valeurs propres, des 7 indices-
lignes et des 7 indices colonnes, calcules sur 1 000 observations. Les indices
d'agrgation des lignes suivent videmment la mme loi que ceux des
colonnes, cette proprit permettant de vrifier la cohrence de la
simulation
1
.
-.- Valeur propre
--0-- Indice d'agrgation
5 6 7
Figure 2.4 - 5
Squences des valeurs propres et des indices
La figure 2.4 - 5, qui reprsente graphiquement les lments de la premire
colonne du tableau 2.4 - S, met en vidence l'intervalle de variation plus
rduit des indices dans l'hypothse d'indpendance des lignes et des
colonnes. Il est intressant de complter ces mesures de niveau par une
analyse des corrlations entre valeurs propres et indices.
La figure 2.4 - 6 prsente le diagramme de la distribution jointe de la
premire valeur propre "'1 = VP1 et du plus grand indice-ligne de
classification INLl, chacun des 1000 couples (VPl, INLl) correspondant une
mme matrice pseudo-alatoire.
1 Remarquons que ces rsultats sont cohrents avec le test usuel d'indpendance du X
2
(la somme t des diffrentes valeurs propres vaut 0.0492, le X
2
usuel moyen valant
1000xt = 49.2 pour 49 degrs de liberts. Les approximations connues de la loi des
valeurs propres (loi des valeurs propres d'une matrice de Wishart (7,7)) sont
galement vrifies ici (cf. 4.1.2).
2.4 _ Complmentarit entre analyse factorielle et classification 197
Le coefficient de corrlation
1
entre VP1 et INLl est de 0.91. La contrainte
thorique INL1< 1..1 dfinit de faon claire le demi-plan contenant le nuage
de 1000 points. On voit que les carts entre valeurs propres et indices
peuvent tre notables, ceux-ci pouvant parfois tre de 30% infrieurs
celles-l.
Plus grand indice d'agrgation INL1
.030 !
.025 ,
.020 !
......... **
.. 1<
. 015
.............. * ..
,. .
. 010 !
.005 ,
.000 !
.009 .018 .027 .036 .044
Plus grande valeur propre VP
1
Figure 2.4 - 6
Corrlation entre la plus grande valeur propre VP
1
et le plus grand indice d'agrgation 1NLl.
(Chacun des 1000 points correspond une matrice pseudo-alatoire (8,8))
L'tude du systme complexe des corrlations entre valeurs propres et
indices sera l'occasion de prsenter ci-dessous une application
mthodologique de l'analyse en composantes principales.
1 Le coefficient de corrlation entre VPl et INCl a la mme valeur.
198 Quelques mthodes de classification _ Chapitre 2
Les rsultats de cette exprience peuvent tre prsents dans un tableau X
ayant 1 000 lignes (les 1 000 tableaux simuls) et 21 colonnes (les 7 valeurs
propres et les 2 x7 = 14 indices d'agrgation).
On a choisi ici de procder une analyse en composantes principales avec
comme variables actives les 7 premires colonnes, les indices tant projets
en variables illustratives. On privilgie donc la structure des corrlations
interne l'ensemble des valeurs propres, et l'on situe ensuite les indices par
rapport cette structure.
La figure 2.4 - 7 reprsente le premier plan factoriel ainsi obtenu, qui
correspond environ 60% de la variance totale.
VPi Valeur propre i
INLi Indice-ligne i
INCi Indice-culunne i
Axe2
0.6 19%
0.40
0.20
o
LEGENDE
VP7
0.20
VP6
0.40
INCl
VPI
VP2
Axe 1
40%
C5
0.90
Figure 2.4 - 7
Structure des corrlations entre valeurs propres et indices
Plan Principal d'une analyse en composantes principales de la matrice (1000,7)
contenant les 1000 observations (en lignes) des 7 valeurs propres VP1, ... VP7.
Les 7 indices-ligne INU, ... INU et les 7 indices-colonnes INCl, ... INC7
sont projets en lments supplmentaires dans ce pm.
2.4 _ Complmentarit entre analyse factorielle et classification 199
Les principaux lments d'interprtation sont les suivants:
- On note tout d'abord que le premier facteur est un facteur de taille:
tous les points-variables sont situs dans le demi-plan des points dont
les coordonnes sont positives sur cet axe. Brivement, cela signifie
qu'il y a des tables pour lesquelles toutes les valeurs propres sont
grandes, et d'autres pour lesquelles elles sont toutes petites, et que ce
facteur d'chelle gnral est la principale source de variabilit
l
.
On note ensuite, en remarquant que les 7 valeurs propres forment une
trajectoire rgulire, qu'il existe une corrlation entre valeurs propres
conscutives: la premire valeur propre est plus lie la deuxime
qu' la troisime, etc. Inversement, les couples de valeurs propres de
rangs loigns (1,6), (1,7), (2,7) sont corrls ngativement.
Les indices lignes et coloIU1es, sensibles eux aussi l'effet-taille, ont des
trajectoires trs voisines, dont les positions et la forme font penser
celles des valeurs propres, avec cependant un dcalage trs net du ct
des plus grandes valeurs propres. Les premiers (plus grands) indices et
les premires valeurs propres sont donc fortement lis entre eux (on a
vu prcdemment que VPl et INU avait un coefficient de corrlation de
0.91), mais les derniers indices sont peu corrls avec les dernires
valeurs propres.
En fait, cette structure est en accord avec l'exprience des praticiens de ces
mthodes. Il existe trs souvent des relations entre les premiers facteurs et
les ultimes nuds du dendrogramme correspondant aux plus grandes
valeurs de l'indice.
En revanche, les premiers nuds du dendrogramme fournissent souvent
de prcieuses informations sur des groupements ou des structures locales
qui correspondent des facteurs de rangs moyens, mais non aux derniers
facteurs. Ceux-ci rendent plutt compte d'un bruit rarement identifiable.
2.4.4 La complmentarit en pratique: un exemple
Cet exemple d'enchanement rsume certaines tapes d'une application "en
vraie grandeur". Il est extrait de traitements de l'enqute sur les conditions
de vie et aspirations des Franais
2
L'objectif poursuivi ici est double: donner une description d'ensemble des
principales attitudes et opinions releves dans le systme d'enqutes
prcit; montrer dans quel cadre factuel s'inscrivent les attitudes et
opinions.
1 Ce premier facteur est videmment trs li la somme 1des valeurs propres, donc au
X
2
(ici X
2
=10001).
2 Cf. Lebart et Houzel (1981), Babeau et Lebart (1984), Lebart (1987 b) pour des
infonnations gnrales sur cette enqute.
200 Quelques mthodes de classificatioll _ Chapitre 2
Le fichier partiel correspondant cette application comprend 14 variables
nominales actives et en fait plusieurs centaines de variables nominales
supplmentaires. Les 14 000 individus correspondent 7 vagues de 2000
individus (de 1978 1984), chaque vague tant reprsentative de la
population de rsidants mtropolitains gs de 18 ans ou plus. Un des
intrts de cet exemple est que les structures observes pourront tre
valides par les chantillons indpendants annuels. Il s'agit d'une situation
exceptionnellement favorable pour prouver la stabilit des rsultats d'une
analyse exploratoire.
14 questions actives pour dcrire les perceptions des conditions de vie
et du cadre de vie (60 modalits)
Deux questions sur la perception de l'volution des conditions de vie
Trois questions sur le thme Famille
Trois questions sur l'environnement pllysique et technologique
Trois questions sur la sant et l'institution mdicale
Une question sur l'attitude vis--vis des quipements collectifs
Deux questions sur ln justice et ln socit
a - Les tapes
L'enchanement de mthodes dcrit ici est une formulation plus dtaille
de la procdure d'utilisation conjointe des mthodes factorielles et de la
classification expose au 2.4.1.b. Cette procdure est prsente du point de
vue du praticien.
- Etape 1 : Analyse factorielle
L'tape 1 (analyse factorielle), comprend les trois phases suivantes:
- Choix d'un thme actif
Choisir un thme, c'est--dire une batterie homogne de variables
actives, c'est adopter un point de vue particulier pour la description. On
peut dcrire les individus du point de vue de leurs caractristiques de
base, mais aussi partir d'un thme particulier de l'enqute par exemple
les habitudes de consommation, les dures d'activit (budgets-temps), les
contacts-mdias, les dplacements, etc. Ici, le thme choisi est: la
perception des conditions de vie et du cadre de vie (cf. encadr ci-dessus).
- Description graphique de la population
Les graphiques rsultant des analyses factorielles (ici: correspondances
multiples) fournissent une description de l'chantillon des individus
interrogs. La proximit entre individ us est fonction de la similitude des
rponses aux questions du thme actif.
- Positionnement des lments illustratifs sur les plans factoriels
On s'intresse aux questions ne faisant pas partie du thme actif pour
aider interprter les proximits entre individus. Lorsque la lecture des
rsultats est gne par l'abondance des lments illustratifs, les seuls
2.4 _ Complmelltarit elltre allalyse factorielle et classificatioll 201
lments pertinents pour l'interprtation seront slectionns par leurs
valeurs-test. Ceci permet d'envisager des explorations systmatiques,
avec de nombreux croisements de variables.
Comme au 2.4.1 b, les trois phases suivantes sont:
- Etape 2: Partition de l'ensemble des individus
- Etape 3: Descriptions statistiques du contenu de chaque classe
- Etape 4 : Positionnement des centres des classes en lments
supplmentaires dans les plans factoriels
Cet enchanement est souvent utilis sous le nom de thmascope. C'est
donc un outil qui permet de dcrire un thme (actif), multidimensionnel
par nature, en utilisant la conjonction des deux techniques disponibles
(rduction de dimension d'une part, regroupement d'autre part). Il situe
ensuite ce thme dans le contexte global de l'enqute, grce aux techniques
de projection de variables supplmentaires sur les plans factoriels et de
description automatique des classes. La slection automatique des lments
les plus significatifs sur les plans factoriels et lors de la description des
classes fournit au lecteur une information filtre et lisible.
b - L'espace des variables actives (Figure 2.4 - 8)
La figure 2.4 - 8 est l'esquisse du premier plan factoriel d'une analyse des
correspondances multiples du tableau (14 000, 60). Les 14 rponses aux
questions actives (60 modalits) rpartissent les individus interrogs de
faon continue dans l'espace. Il n'existe pas de regroupement trs net
d'individus dans ce continuum, mais il est toujours possible de le dcouper
en grandes zones de la faon la moins arbitraire possible; les cloisons
entoureront ainsi les rgions de forte densit et seront disposes de faon
ce que la dispersion des individus soit minimale l'intrieur des zones.
C'est l'arbre hirarchique de la figure 2.4 - 9 qui est schmatiquement trac
sur le plan factoriel (coupure correspondant 8 classes). Pour limiter le
nombre de graphiques, le rsultat de l'tape 4 figure d'emble sur la figure.
c - Exemples de description automatique de trois classes
On va maintenant illustrer la description automatique des classes (cf. 2.3.2)
en caractrisant de faon plus dtaille trois classes (ou zones) slectionnes
parmi les huit prcdentes. On distinguera successivement les opinions et
perceptions (lments actifs, et pour certains d'entre-eux, supplmentaires),
puis les caractristiques de base (lments toujours supplmentaires dans
cette analyse).
Chaque pourcentage interne la zone sera suivi, entre parenthses, du
pourcentage moyen dans l'ensemble de la population. Les valeurs-test (cf.
2.3.2.b) qui ont permis de slectionner et de classer ces variables
caractristiques sont des fonctions de l'cart entre ces deux pourcentages.
IV
o
IV
Figure 2.4 - 8: Visualisation plane de l'espace des opinions et positionnement des zones
On reprsente ici les proximits statistiques existant entre une trentaine de modalits de rponses aux questions actives
choisies parmi les plus caractristiques. Les centres des zones sont positionns comme des modalits supplmentaires,
Cadre de vie:
pas du tout
satisfaisant

La socit a besoin
de se transformer

Le mariage peut
tre dissout si.
accord FI
Conditions dans 5 ans:
beaucoup moins bien

Niveau de vie:
un peu moins bien
Cadre de vie:
peu satisfaisant
_---,ZONEI
itcouvertes scientifiques
amliorent.beaucoup la vie
N' d ' Les femm:s peuvent
/Veau e vie: travailler dans tous les
un peu mieux cas o elles le dsirent
Niveau de vie:
beaucoup mieux
Sant: F2
pas du lout
satisfait
Les
scientifiques
n'amliorent pas
du tout la vie
1
Conditions de vie
dans 5 ans:
un peu moins bien
1
La socit n'a pas besoin
de transformation
Sant:
Niveau de vie: assez salisfai
pareil
La justicefonctionne
trs bien
Les femmes ne devraient
pas travailler si elles ont
des enfants en ge
Prserver l'environnement:
1 pas du tout important
Les femmes ne devraient
jamais travailler ZONE 8
Mariage:
indissoluble

Prserver l'environnenlent:
assez important 1
1 Conditions de vie
dans 5ans: pareilles
2.4 _ Complmentarit entre analyse factorielle et classification 203
Zone 7: Modrs (+)>> (12 %)
Zone 1 : Modernistes (18 %)
Zone 2 : Insatisfaitsl Exclus (1 1 %)
Zone 3: Modrs (-)>> (16 %)
-
Zone 6: Conservateurs (13 %)
'----
1
Zone 4: Traditionalistes (15 %)
1
Zone 5 : Ne sait paS (8 %)
Zone 8: Nol/-panicipants (5 %)
Figure 2.4 - 9
Classification hirarchique des 14000 individus en 8 zones
Guide de lecture du dendrogramme :
L'algorithme de classification mixte de la section 2.3 permet de mettre en vidence huit
zones l, positionnes en lments supplmentaires sur le plan factoriel de la figure 2.4 - 8, et
comme lments terminaux du dendrogramme de la figure 2.4 - 9. Cette figure permet donc
de complter la figure 2.4 - 8 . Ainsi, contrairement ce que l'on observe sur la figure 2.4 - 8
qui ne donne qu'une approximation plane de l'espace, et donc qui dforme les distances, la
zone 2 est, d'aprs le dendrogramme, plus proche des zones 1 et 7 que de la zone 8.
Description de la zone 1 (Modernistes) [droite de la figure 2.4 - 8]
Cette zone stable reprsentant en moyenne 18% des personnes interroges
se distinguent par une certaine distance vis--vis de la famille
traditionnelle.
Variables actives
- 87% pensent que <<la famille n'est pas le seul endroit o l'on se sent bien et
dtendu (ce pourcentage n'est que de 35% pour l'ensemble de la population)
- 84% dclarent que le mariage est une union qui peut tre dissoute sur simple
accord (35%)
- 83% estiment que les femmes devraient travailler dans tous les cas o elles le
dsirent (37%)
- 86% jugent que prserver l'environnement est une chose trs importante (65%)
1 On parle de zones et non de classes ou de groupes pour rappeler qu'il s'agit de
portions d'espace et non d'entits sociologiques ou de catgories ayant une existence
indpendante de la batterie des questions actives utilises ici. Les libells de ces zones
sont purement mnmotechniques.
204 Quelques mthodes de classification _ Chapitre 2
Variables supplmentaires (signaltiqlle) : jeulles, llstruits, parisiens
- 52% n'ont jamais eu d'enfant (28%)
- 32% habitent la rgion parisienne (15%)
- 78% ont moins de 40 ans (47%)
- 67% sont des locataires (51%)
- 20% sont diplmes d'universit ou de grande cole (8%)
Autres variables supplmentaires: Spcificits de comportement
- 31% se couchent aprs 23 h (13%)
- 35% frquentent un cinma (17%)
- 57% participent aux activits d'au moins une association (44%)
Description de la zone 2 (Insatisfaits 1exclus) [haut de la figure 2.4 - 8]
Cette zone est probablement la seule mriter le statut de classe au sens
statistique du terme dans la mesure o elle rapparat chaque anne (de 1978
1985) avec un effectif remarquablement constant qui oscille entre 9% et
13%.
Opi/lions et perceptions: niveau et cadre de vie non satisfaisants
- 69% pensent que leur niveau de vie personnel va beaucoup moins bien,) (13%)
- 62% estiment que leurs conditions de vie vont beaucoup se dtriorer au
cours des cinq prochaines annes (12%)
- 61% considrent que <<la justice fonctionne trs mal (26%)
- 85% dclarent s'imposer rgulirement des restrictions (61%)
- 17% ne sont pas du tout satisfaits de leur cadre de vie quotidien (5%); 21%
en sont peu satisfaits (14%)
- 90% pensent que la socit a besoin de se transformer (74%)
Variables supplmentaires (signaltique) : des ressources faibles 1
- 38% souffrent d'un handicap, d'une infirmit ou d'une maladie chronique (26%)
- 38% n'ont aucun lment de patrimoine (27%)
- 15% sont chmeurs (en 1983 et 84) (6%)
- 53% sont locataires (44%)
- 22% habitent en HLM ou ILN (16%) 9% sont spars ou divorcs (5%)
Autres variables supplmelltaires :
- 55% ont dclar avoir souffert de nervosit au cours des quatre dernires
semaines (37%).
- 28% ont dit avoir souffert d'tat dpressif (15%),
- 38% d'<<nsornnie (25%),
- 49% de mal au dos (38%),
- 45% s'estiment beaucoup inquiets de l'ventualit du chmage (25%).
Description de la zone 5 (rponses "ne-sait-pas") [gauche de la figure 2.4 - 8]
Cette zone a priori peu intressante du point de vue des opinions exprimes
joue cependant un rle mthodologique important.
1 Cette zone n'a pas de caractristiques socio-dmographiques aussi types que la
zone 1. Elle constitue avant tout une classe de personnes aux ressources faibles, au
niveau de vie bas, qui subissent des tensions o font face des difficults varies. On
a affaire ici typiquement une classe polythtique'), c'est--dire une classe qui peut tre
dfinie non par une combinaison fixe d'attributs, mais par la possession d'un certain
nombre d'attributs dans une liste; il Ya dans ce cas cumul de handicaps d'origines
varies.
Rgion
parisienne

FI

Prof. libra les


Cad. sup.

Chmeurs

-1 quipement
,
1
1
1
n quipements
/
(Modrs +)
F2
+ 4 affecti ts
1
1
1
1
1
3
1
1
1
1
1
1
1
1
1
-
0/ -
(Conservateurs)
(Non-participants)

veufs(ves)

Retraits
De gauche droite, glissement
progressif des "traditionalistes"
vers les "modernistes";
et de bas en haut, des
"conservateurs" et "modr,
vers les "insatisfaits/exclus"
Figure 2.4 -10: Projection de quelques caractristiques (en supplmentaires) sur le plan principal de la figure 2.48.
IV
o
(JI
206 Quelques mthodes de classification _ Chapitre 2
Alors que les refus ou les dissimulations entachent la qualit des enqutes
socio-conomiques usuelles, les rponses du type ne sait pas viennent
s'ajouter aux dfections prcdentes dans le cas des mesures de perceptions
ou d'opinions.
Variables actives
- 65% rpondent NSP (pour ne sait pas) la question la socit a-t-elle
besoin de se transformer ? (9%)
- 53% rpondent NSP la question sur le fonctionnement de la justice (7%);
8% refusent de rpondre cette question (2%)
Variables supplmentaires (signaltique) : femmes ges peu instruites
- 67% sont des femmes (53%)
- 46% n'ont aucun diplme (26%)
- 43% habitent des communes de moins de 2 000 habitants (29%)
- 75% n'appartiennent aucune association (56% )1.
d - Projection de variables signaltiques (en supplmentaires)
sur le plan principal de la figure 2.4 - 8 (figure 2.4 - 10)
Les descriptions zones par zones donnent dj une ide de l'ancrage
factuel des perceptions, mais un positionnement direct des caractristiques
de base a le mrite de montrer quel point l'espace des perceptions est un
continuum 2. Les modalits des diffrentes variables s'ordonnent en effet
rgulirement dans le plan de la figure 2.4 - 10.
n n'y a pas de discontinuit entre les traditionalistes gs, ruraux, peu
instruits situs dans la partie ga uche de la figure 2.4 - 10 et les modernistes
jeunes, instruits, urbains, situs l'extrmit droite de l'axe horizontal.
n y a de mme une certaine continuit entre les conservateurs et les
modrs + d'ge moyen situs dans la partie basse de la figure 2.4 - 10 et
les insatisfaits dans la partie haute. Le nombre d'quipements et d'lments
de patrimoine jalonne rgulirement cette direction verticale, tout comme
le nombre d'affections dclares (petites affections au cours des quatre
dernires semaines), indicateur dont les liens avec l'insatisfaction sont
connus.
1 Le fait qu'il s'agisse surtout de femmes ges peu instruites habitant en milieu rural,
alors que les questions non rpondues sont peut-tre les plus politiques de ce
questionnaire (les transformations de la socit, la justice) confirme les rsultats de
travaux de mthodologie d'enqute (cf. par exemple Michelat et Simon, 1985).
2 L'tude complte comporte une description beaucoup plus dtaille de l'ensemble des
classes, une tude de l'volution des trajectoires des points-modalits et des classes
dans les plans factoriels au cours du temps, et l'utilisaion systmatique de croisements
de variables supplmentaires (cf. Lebart, 1986; 1988). La slection automatique des
catgories provenant de croisements de variables supplmentaires par leurs valeurs-
test (avec des seuils prenant en compte les comparaisons multiples) est un outil
efficace de dtection d'interactions.
Chapitre 3
LIENS AVEC LES
MTHODES EXPLICATIVES USUELLES,
MTHODES DRIVES
Introduction 209
Introduction
Ce chapitre fait le lien entre les approches exploratoires prsentes dans les
chapitres 1 et 2 et les approches infrentielles et confirmatoires qui
constituent le volet le plus ample et le plus classique de la science
statistique.
Rappelons brivement les caractristiques de ces deux familles de mthodes,
qui correspondent des approches complmentaires.
- La statistique descriptive et exploratoire: elle permet par des rsums et
des graphiques plus ou moins labors de dcrire des ensembles de dormes
statistiques, d'tablir des relations entre les variables sans faire jouer de rle
privilgi une variable particulire. Les conclusions ne portent dans cette
phase de travail que sur les donnes tudies, sans tre infres une
population plus large. L'analyse exploratoire s'appuie essentiellement sur
des notions lmentaires telles que des indicateurs de moyenne et de
dispersion, sur des reprsentations graphiques et sur les techniques
descriptives multidimensionnelles abordes dans la premire partie
(analyse en composantes principales, analyse des correspondances,
classification).
- La statistique infrentielle et confjrmatoire : elle permet de valider ou
d'infirmer, partir de tests statistiques ou de modles probabilistes, des
hypothses formules a priori (ou aprs une phase exploratoire), et
d'extrapoler, c'est--dire d'tendre certaines proprits d'un chantillon
une population plus large. Les conclusions obtenues partir des donnes
vont au del de ces donnes. La statistique confirmatoire fait surtout appel
aux mthodes dites explicatives
l
et prvisionnelles destines, comme leurs
noms l'indiquent, expliquer puis prvoir, suivant des rgles de dcision,
une variable privilgie l'aide d'une ou de plusieurs variables explicatives
(rgressions multiples et logistiques, analyse de la variance, analyse
discriminante, segmentation, etc.).
Les dmarches sont complmentaires, l'exploration et la description devant
en gnral prcder les phases explicatives et prdictives. En effet, une
exploration prliminaire est souvent utile pour avoir une premire ide de
la nature des liaisons entre variables, et pour traiter avec prudence les
variables corrles et donc redondantes qui risquent de charger inutilement
les modles.
1 La statistique n'explique rien mais fournit des lments potentiels d'explication.
Aussi le terme de variable explicative ou variable expliquer n'est sans doute pas le
plus judicieux. On dit aussi indpendante et dpendante, ou exogne et endogne. Ces
deux derniers termes sont peut tre les plus adquats mais ne sont pas assez
vocateurs. L'adjectif indpendant est, en revanche, source de confusions.
210 Mthodes explicatives ou drives _ Chapitre 3
Cependant, les dmarches elles-mmes ne sont pas toujours faciles
discerner, identifier. L'exploration pure est trs rare, et correspond une
situation limite et irraliste, un peu comme les gaz parfaits en physique...
car il existe toujours des informations et des connaissances a priori sur le
tableau de donnes, et donc des hypothses gnrales, des attentes de la part
de l'utilisateur 1.
D'o l'intrt d'claircir cette relation entre instruments d'observation et
modles, en insistant sur l'insertion, thorique et pratique, des outils
exploratoires dans l'arsenal des techniques statistiques disponibles.
Les mthodes explicatives usuelles
Les mthodes explicatives prsentes dans les sections 3.1 3.5 recouvrent
les utilisations les plus courantes. Elles comprennent l'analyse canonique, la
rgression linaire et ses variantes, l'analyse discriminante, les modles log-
linaires, les mthodes de segmentation par arbre binaire.
- Parce que l'analyse canonique joue un rle thorique important dans les
mthodes multidimensionnelles et permet de jeter un pont entre les
formalismes des mthodes explicatives et descriptives, nous commencerons
ce chapitre par exposer ses principes (section 3.1). On verra que l'analyse
canonique, qui tudie les liaisons entre deux groupes de variables, contient
comme cas particuliers la rgression multiple si l'un des deux groupes est
rduit une seule variable y numrique, l'analyse discriminante lorsque les
variables de l'un des deux groupes sont les variables indicatrices d'une
partition des individus (ce qui revient dire que la variable y est nominale),
enfin l'analyse des correspondances si les deux groupes sont constitus par
les variables indicatrices des deux partitions.
- La rgression multiple (section 3.2) se situe directement dans le cadre
thorique du modle linaire, lorsque la variable expliquer y est une
variable continue (ou numrique). Les variables explicatives sont
gnralement continues. Lorsque les variables explicatives sont toutes
nominales, on parle plutt d'analyse de la variance, alors qu'on rserve le
nom d'analyse de covariance au cas mixte (variables explicatives nominales
et continues).
- L'analyse factorielle discriminante (section 3.3) est, schmatiquement,
l'analogue de la rgression multiple lorsque yest nominale. Dans ce cas, la
variable expliquer dfinit les classes d'une partition a priori de la
population. L'objet est alors d'tudier les liaisons entre les variables
explicatives et les classes de cette partition. On dfinit ainsi des fonctions
discriminantes qui vont permettre, dans une phase dcisionnelle, d'affecter
1 Les instruments d'observation correspondent d'ailleurs eux-mmes des modles
gnraux: ainsi, les axes factoriels de l'analyse en composantes principales sont
proches de ceux de l'analyse factorielle classique des psychologues (cf. section 3.2.9)
qui reprsentent les variables latentes d'un modle a priori. Inversement, la rgression
multiple, mthode explicative par excellence, peut aussi tre utilise pour explorer des
structures de corrlation.
IlItroductioll 211
de nouveaux individus ces classes. D'autre mthodes de discrimination
sont brivement voques.
- Bien qu'extrieurs ce cadre formel gnral, les modles log-linaires
(section 3.4) sont utiliss dans des circonstances voisines. Ce sont des
techniques d'analyse des tableaux de contingence multidimensionnels qui
se rapprochent de la rgression multiple dans leur problmatique. Les
modles log-linaires peuvent d'ailleurs tre considrs comme une
extension du modle logistique galement abord dans cette section.
- Les techniques de segmentation par arbre binaire (section 3.5) sont
intressantes prsenter dans le cadre de ce chapitre pour diverses raisons.
D'une part, elles s'appliquent toutes les variables quel que soit leur statut
ou leur nature, et d'autre part elles intgrent simultanment la phase
explicative et de dcisionnelle. Elles constituent de ce fait une mthode de
prvision part entire, trs accessible, dont les rsultats sont faciles
communiquer.
Les analyses de donnes structures
Les sections 3.6 3.8 contiennent une srie de prsentations, souvent
brves, de mthodes qui occupent une position intermdiaire entre les
outils purement exploratoires des deux premiers chapitres et les mthodes
vocation plus explicative prsentes dans les sections prcdentes.
Les mthodes exploratoires de base posent un modle trs gnral qui
distingue, pour chaque application, deux familles d'lments: les lments
actifs (variables ou individus, ligne ou colonnes) qui servent tablir des
espaces de visualisation complts par des classifications, et les lments
supplmentaires, qui jouent un rle passif, et interviennent a posteriori
pour illustrer, identifier, caractriser les reprsentations obtenues partir
des lments actifs.
En gnral, le tableau des lments actifs est amorphe et homogne: il ne
doit pas exister de structure a priori (dpendance fonctionnelle, relations
comptables, etc.) entre les variables et les individus, et les distances entre
lments doivent avoir un sens pour l'utilisateur.
Or, il est frquent que le tableau des donnes actives soit dj structur.
C'est le cas par exemple des donnes gographiques ou temporelles o la
structure intervient au niveau des observations (individus voisins ou
conscutifs). Il peut exister des groupes d'individus ou des groupes de
variables connus a priori. Le tableau peut ne pas se ramener de faon
univoque la forme rectangulaire (tables de contingences multiples, sries
chronologiques de tableaux).
Il est souvent possible d'aborder ces problmes dans le cadre du modle
exploratoire de base, mais la tentation est forte, dans le cas o les
applications se prsentent de faon rptitive, de proposer des variantes
adaptes aux types de tableaux ou de structures rencontrs. Il reste que l'on
doit envisager une conomie de l'analyse des donnes, en ce sens que la
212 Mthodes explicatives ou drives _ Chapitre 3
panoplie des mthodes disponibles ne peut s'accrotre indfiniment, sous
peine de voir le rendement de ces mthodes dcrotre
l
.
A propos des mthodes de classification pour lesquelles il estime le nombre
de publications prs de mille par an, Cormack (1971) remarque que
"lorsque la technique (de classification) choue, la raction de l'auteur est de
modifier la technique, au lieu d'utiliser une technique plus standard ou de
remettre en question tout le traitement". Cette attitude comporte un certain
danger. Si la panoplie des techniques est trs tendue, le risque
d'adquation accidentelle de la technique aux donnes est augment. Ce
problme est rcurrent lorsqu'il s'agit d'articuler exploration et infrence, et
se rapproche du problme plus classique des comparaisons multiples, dj
voqu propos de la description des classes par les valeurs-test, et dont on
reparlera propos du modle log-linaire. Un dfi auquel est confronte la
statistique multidimensionnelle est prcisment la gestion de cette
diversification, ncessaire pour la recherche, mais source de difficults au
niveau des applications en vraie grandeur. Prcisons, dans ce contexte
mthodologique, quelles sont les mthodes d'analyses de donnes
structures qui feront l'objet des trois dernires sections de ce chapitre.
Les mthodes d'analyses partielles ou projetes (section 3.6) concernent les
situations pour lesquelles les individus ou observations (lignes d'un
tableau X d'ordre (n, p peuvent tre dcrits par p variables (colonnes de X)
mais peuvent aussi tre dpendants de q variables: colonnes d'un tableau Z
d'ordre (n, q) dont on dsirerait, dans la mesure du possible, soit prendre en
compte, soit liminer l'effet.
Les techniques d'analyses locales, mettant en jeu des structures de graphes
(section 3.7) sont appropries lorsqu'il existe des informations a priori ou
externes sur les couples d'individus ou d'observations (existence d'une
relation binaire symtrique ou structure de graphe non orient dcrivant
des proximits temporelles ou gographiques). Sera voqu ici le cas d'une
variable nominale externe (partition a priori des individus donnant lieu
des analyses dites intra et inter), qui entre la fois dans le cadre des sections
3.6 et 3.7.
Enfin les mthodes de traitement de tableaux multiples ou de groupes de
variables 2 (section 3.8), qui correspondent une famille quasi-illimite de
techniques, seront voques au travers d'une slection des approches qui
nous paraissent les plus utiles en pratique: analyse procrustenne, mthode
STATIS, analyse factorielle multiple, analyse canonique gnralise.
1 Faut-il, pour un utilisateur dont la recherche statistique n'est pas l'activit principale,
investir dans une mthode complexe qui ne servira qu'une fois? Vaut-il mieux utiliser
une mthode de description un peu grossire, mais parfaitement domine
conceptuellement, en raison d'expriences accumules, qu'une mthode plus subtile
dont les rsultats laissent perplexes? Le temps disponible, les possibilits de
formation, les budgets d'acquisition de logiciels ne sont pas des ressources
inpuisables.
2 Notons que la section 3.6 traite un cas particulier de tableaux multiples: le couple
(X, Z) est en effet un tableau avec deux groupes de variables.
Section 3.1
Analyse Canonique
La mthode d'analyse canonique dveloppe par Hotelling (1936) constitue
un cadre thorique gnral important dont la rgression multiple et
l'analyse discriminante, qui seront exposes plus loin, ainsi que l'analyse
des correspondances, sont des cas particuliers. Sous sa forme gnrale,
l'analyse canonique ne prsente cependant qu'un intrt assez limit pour
les applications, car elle conduit de grandes difficults d'interprtation.
L'analyse canonique cherche synthtiser les interrelations existant entre
deux groupes de variables, en mettant en vidence les combinaisons
linaires des variables du premier groupe les plus corrles des
combinaisons linaires des variables du second groupe.
3.1.1 Formulation du problme et notations
Le tableau de donnes R, n lignes et p+q colonnes, est partitionn en deux
sous-tableaux X et Y, ayant respectivement p et q colonnes.
R = [X,Y]
Les lignes reprsentent les individus ou observations: les p premires
colonnes sont les variables du premier groupe et les q suivantes sont celles
du second groupe.
Figure 3.1 - 1
Tableau des donnes R
Nous supposerons, sans perte de gnralit, que les variables sont centres,
ce qui signifie que chaque colonne de R est telle que la somme de ses
lments vaut O.
Alors la matrice des covariances exprimentales des p + q variables s'crit:
VeR) = .!R'R
n
214
Elle a pour terme gnral:
Mthodes explicatives ou drives _ Chapitre 3
1
vjj' == - l rij'ij'
n .
1
soit, en faisant apparatre les blocs:
1 [X'X X'Y]
V(R) ==;; Y'X Y'Y
Considrons l'individu i, caractris par la iime ligne de R :
(Xi1, xi2, .,xip, Yil, Yi2,, Yip)
Soient a et b deux vecteurs p et q composantes, dfinissant deux
combinaisons linaires am et hm :
p q
a(i) == IajXij bm == IbjYij .
j=l j=l
Les n valeurs de am pour tous les individus i sont les composantes de Xa.
De mme, les n valeurs de bm sont les composantes de Yb. Les vecteurs Xa
et Yb reprsentent aussi deux points de Rn appartenant aux sous-espaces V
x
et V
y
engendrs par les colonnes de X et Y.
X a
(n,p) (p,l)
Y b
(n,q) (q,l)
Figure 3.1 - 2
Variables canoniques a(i) et b(i)
Nous nous proposons de chercher les deux combinaisons linaires a(i) et
bm les plus corrles sur l'ensemble des valeurs de i. Puisque les variables
initiales sont centres, leurs combinaisons linaires sont galement
centres.
Comme le coefficient de corrlation ne dpend pas de l'chelle des variables,
nous imposerons aux deux combinaisons linaires d'avoir une variance
unit. La variance de l'ensemble des valeurs de a(i) pour i == 1, 2, ... , n sera
note var(a); elle s'crit:
1 n 2 1 1
var(a) == - Ia (i) ==-(Xa)'Xa == -a'X'Xa
ni=l n n
de la mme faon:
var(b) == l- b'Y'Yb
n
3.1 _ Analyse canonique 215
Dans ces conditions, le coefficient de corrlation entre les combinaisons
linaires a(i) et bW s'identifie avec la covariance:
cov(a, b) =..!. a(i)b(i)
n ;=1
soit:
1
cov(a, b) = -a'X'Yb
n
Figure 3.1 - 3
Reprsentation gomtrique des sous-espaces V
x
et Vy
Finalement le problme de la recherche de la corrlation maximale s'crira,
aprs s'tre affranchi des coefficients.! (rappelons que Xet Y sont centrs):
n
- trouver a et b qui rendent maximal: a'X'Yb
{
a'X'xa = 1
- avec les contraintes:
b'Y'Yb=l
Les donnes tant centres, le coefficient de corrlation n'est autre que le
cosinus de l'angle entre les sous-espaces Vx et Vy. La recherche des
coefficients a et b revient donc minimiser l'angle m entre les sous-espaces
V
x
et Vy.
On appellera variables canoniques le couple (a,b) ayant respectivement pet q
composantes.
3.1.2 Les variables canoniques
a - Calcul des variables canoniques
La dmonstration est analogue celle rencontre lors de l'analyse gnrale
( 1.1.7). Deux multiplicateurs de Lagrange . et J1 interviennent. Il faut
rendre maximal:
L =a'X'Yb - .(a'X'Xa -1) - J1(b'Y'Yb -1)
216 Mthodes explicatives ou drives _ Chapitre 3
L'annulation des drives de ce lagrangien par rapport aux vecteurs a et b
conduit au systme:
{
X'Y b - 2it X'Xa = 0
Y'X a - 2J1 Y'Yb = 0
Prmultiplions les membres de ces deux relations respectivement par a' et
b'. En tenant compte des contraintes:
a'X'Xa = b'Y'Yb = 1
Elles se simplifient en :
{
a'X'Yb = 2il.
b'Y'Xa =2J1
Par consquent il. = J1. Nous poserons dornavant:
On remarquera que f3 est la valeur du coefficient de corrlation maximal
recherch. Le systme prcdent s'crit alors:
{
X'Yb = f3X'Xa
Y'Xa ={3Y'Yb
[3.1-1]
[3.1-2]
La rsolution est immdiate quand les matrices X'X et Y'Y sont inversibles.
En reportant la valeur de a tire de [3.1 - 1] dans la relation [3.1 - 2] par
exemple, on obtient:
Y'X(X'Xr
1
X'Yb =f32 Y'Yb
Ceci montre que b est vecteur propre de la matrice:
[3.1-3]
relatif la plus grande valeur propre note f32, carr du coefficient de
corrlation entre les combinaisons linaires a et b et carr du cosinus
maximum entre les sous-espaces V
x
et Vy. Cette valeur f32 est la premire
racine canonique, ou carr du premier coefficient de corrlation canonique
entre les deux variables.
De faon analogue, on calcule a partir de la relation [3.1 - 1] ou en
considrant directement a comme vecteur propre de :
N =(X'X)-l
X
'Y(Y'yr
1
y'X
[3.1- 4]
Si X est de plein rang, alors X'X est inversible et la relation [3.1 -1] permet
d'crire:
a =.!..(X'Xr1X'Yb
f3
Un raisonnement analogue celui fait lors de l'analyse gnrale nous
permettrait de gnraliser le rsultat la recherche des r variables
3.1 _ Analyse canonique 217
canoniques, r tant le plus petit des deux entiers pet q : les r vecteurs
propres successifs, dans l'ordre des valeurs propres dcroissantes,
correspondent aux couples de combinaisons linaires de chaque ensemble
les plus corrles entre elles, les combinaisons linaires successives relatives
un mme ensemble tant assujetties tre non corrles.
b - Interprtation gomtrique
Les relations [3.1 - 1] et [3.1 - 2] peuvent s'crire:
a = !...(X'X)-l
X
'Yb et b = !...(y'y)-lY'Xa
f3 ' f3
Prmultipliant les deux membres de chacune d'elles respectivement par X
et Y on obtient:
Xa = !...X(X'X)-IX'Yb
f3
Yb =!... Y(Y'y)-IY'Xa
f3
Figure 3.1 - 4
Interprtation gomtrique de l'analyse canonique
Les matrices symtriques et idempotentes:
[3.1- 5]
[3.1- 6]
et
P
y
= Y(Y'y)-ly'
sont les oprateurs de projection orthogonale respectivement sur les sous-
espaces V
x
et Vy.
Autrement dit les relations [3.1 - 5] et [3.1 - 6] expriment que chacun des
vecteurs Xa et Yb est colinaire la projection de l'autre.
Les vecteurs Xa et Yb tant unitaires, les formules montrent en effet que:
f3 = cos( co) = cos ( Xa , Yb)
218 Mthodes explicatives ou drives _ Chapitre 3
Il apparat que la premire racine canonique {32 est le carr du cosinus du
plus petit angle
1
entre les sous-espaces Vx et Vy.
c - Cas de matrices non inversibles
Examinons le cas o les matrices X'X ou Y'Y sont singulires. Prenons Y'Y
pour fixer les ides. Cela signifie que la matrice Y d'ordre (n, q) a un rang
infrieur q; soit q - s son rang.
Il y a deux faons de procder pour rsoudre le systme des quations
matricielles [3.1 - 1] et [3.1 - 2] ;
- on prend dans Rn une base du sous-espace Vy q - s dimensions
engendre par Y, base dcrite par les q- 5 colonnes d'une matrice
2
Y; Yb
on substitue dans les calculs Yb o b est un vecteur q - 5 composantes.
La matrice Y'Y est maintenant inversible.
- Comme cela est frquent dans le cas du modle linaire gnral, on
construit une matrice Y
o
de plein rang d'ordre (n, q), telle que Vy c VYo'
Pour retrouver le sous-espace Vy, il est alors ncessaire d'imposer b
une contrainte, savoir; Yob devra appartenir Vy. Si Y1 dsigne une
matrice d'ordre (n,s), telle que Y1Y =0 et que Y1b E VYw la contrainte sur
b s'crira:
Remarque:
Cette situation se prsentera galement en analyse discriminante dans un contexte
simple: la matrice Y d'ordre (n, qJ est singulire, alors que la matrice initiale Y
o
(avant centrage) est de plein rang. Ceci rsulte du fait que le sous-espace VYa
engendre par Y
a
contient le vecteur en de R." dont toutes les composantes valent l.
On travaillera alors avec la matrice Y
a
sachant que b est assujetti vrifier:
Yob = 0
relation qui s'crit:
q
"y .b. =0
"-' .) )
j=1
0J.j dsignant la somme de la cololU1e j de la matrice Y
a
).
1 Notons que ces considrations gomtriques nous auraient permis d'crire directement
les formules [3.1 - 5] et [3.1 - 6), et donc de procder au calcul des variables
canoniques: on remplace, par exemple dans la relation [3.1 - 6], Xa par sa valeur tire
de la relation [3.1 - 5].
2On choisira de prfrence une base orthogonale, obtenue, par exemple, par le procd
d'orthogonalisation de Gram-Sdunidt, ou une base issue d'une analyse gnrale de Y.
3.1 _ Allalyse callollique
3.1.3 Liens avec l'analyse des correspondances
219
L'analyse canonique contient comme cas particulier l'analyse des
correspondances et peut se gnraliser au cas de plus de deux variables
nominales.
En reprenant les notations de l'analyse des correspondances multiples
(section 1.4), le tableau de donnes R=[ZI, ... ,Zq,""Zs] n lignes et P
colonnes est le tableau disjonctif complet juxtaposant 5 sous-tableaux.
Chaque sous-tableau Zq correspond une question q totalisant Pq modalits
de rponses et engendre, dans l'espace RP, un sous-espace VZ
q
Pq
dimensions
1
.
a - Le cas de l'analyse des correspondances simples
L'analyse des correspondances du tableau de contingence croisant deux
variables qet q' revient tudier les positions relatives des sous-espaces V
Zq
et Vz
q
,. C'est l'analyse canonique du tableau [Zq,Zq').
Soit <Pq le vecteur dont les Pq composantes sont les coordonnes d'un point
mq de VZq dans la base dfinie par les colonnes de Zq. Les coordonnes de
mq dans !Rn sont les composantes de m
q
= Zq <Pq.
Le carr de la distance de ce point mq l'origine, selon la norme euclidienne
usuelle, n'est autre que:
<PqZqZq<Pq = <Pq Dq<pq
Les relations de double transition [1.4 - 7] et [1.4 - 8] s'crivent ici (en
omettant l'indice Cl de l'axe pour allger les notations) :
On en dduit le systme suivant:
j
Zq<pq =
Zq'<Pq' =
soit:
1 Rappelons que les s sous-espaces ont en commun au moins la premire bissectrice. Le
rang de R est donc au plus gal P- s + 1.
220 Mthodes explicatives ou drives _ Chapitre 3
o:
1
mg = -ti: Pgm
g
,
1
mg' = -ti: Pg,m
g
[3.1-7]
[3.1 - 8]
P = Z (Z' Z rI Z'
g g g g g
et
Les matrices Pg et Pg' reprsentent respectivement les oprateurs projection
sur les sous-espaces V
Zg
et VZq' .
Les relations [3.1 - 7] et [3.1 - 8] expriment que la projection orthogonale de
mg sur V
Zg
' est colinaire mg' (et semblablement pour mg' sur VZ
g
)'
Prsente comme la recherche des plus petits angles entre deux sous-espaces
VZg et VZg" l'analyse canonique ne se gnralise pas facilement a u cas de
plus de deux questions!.
Figure 3.1 - 2
Projections sur Vz.q et V
Zq
'
Mais une autre formulation va permettre de prsenter l'analyse des
correspondances multiples comme une analyse canonique gnralise
particulire.
b - L'analyse des correspondances multiples
L'analyse canonique du tableau [Zg ,Zg'] peut aussi se formuler de la faon
suivante:
! On reviendra sur ce lien entre analyse de correspondances et analyse canonique au
paragraphe 3.3.4.b, propos de l'analyse factorielle discriminante, qui est elle aussi
une analyse canonique particulire.
3.1 _ Allalyse canonique
trouver deux points m
q
et mq' tels que la somme des carrs de
leurs distances l'origine soit constante:
~ p q q +cpq,Dq,cpq' =2n [3.1- 9]
et tels que la distance l'origine du point m = m q + m q' soit
maximale.
En effet, cette distance a pour carr:
soit:
221
Iimf = 2n(1 + lcp
q
Z
q
Zq'cPq')
n
Rendre maximale Iimf avec la contrainte [3.1 - 9], ou avec les deux
contraintes:
conduit au mme rsultat).
Avec la contrainte unique [3.1 - 9], le problme se gnralise aisment au cas
de plus de deux questions.
On dsigne par CPI, ... , CPq, , CPs respectivement les vecteurs des composantes
de 5 points ml, ... , mq, , ms dans les bases ZL ... , Zq, ... , Zs et soit
m = ml + mq + ms'
On cherchera rendre maximale la quantit:
Iimf = L L CPq ZqZq' CPq'
qES q'ES
avec la contrainte:
L cpqDqcpq = sn
qES
Si <1> dsigne le vecteur p composanteJ dfini par:
ifoJ {' , '}
'V = CPI, ... ,CPq'''''CPs
le problme revient rendre maximal:
<1>' B cI>
avec la contrainte:
<1>' 0 <1> =s n
o l'on rappelle que B est le tableau de contingence de Burt obtenu partir
du tableau disjonctif complet.
l En effet, les multiplicateurs de Lagrange relatifs ces deux dernires contraintes sont
gaux.
222 Mthodes explicatives ou drives _ Chapitre 3
Les facteurs <Il cherchs sont donc les vecteurs propres de 0-l B relatifs aux
plus grandes valelUs propres.
Il s'agit d'une gnralisation simple de l'analyse canonique au cas de plus de
deux ensembles: elle conduit une diagonalisation de matrice symtrique,
opration classique et matrise!.
Les autres mthodes (introduction de s contraintes au lieu d'une seule)
demandent des algorithmes itratifs assez coteux et ne conduisent pas
des rgles d'interprtation simples.
! Cette extension de l'analyse canonique sera prsente nouveau dans un cadre plus
gnral au paragraphe 3.8.5.
Section 3,2
Rgression multiple, modle linaire
La rgression multiple vise expliquer ou prdire une variable continue
(dite variable dpendante ou expliquer ou encore endogne) l'aide d'un
ensemble de variables dites explicatives (ou exognes). On rserve en
gnral le nom de rgression multiple au cas o les variables explicatives
sont continues. Lorsque celles-ci sont des variables nominales, on parle
d'analyse de la variance et pour un ensemble de variables mixtes, d'analyse
de la covariance. La thorie statistique qui englobe ces diverses techniques
constitue le modle linaire.
La rgression constitue sans doute la mthode statistique la plus utilise
bien que sa porte et ses limites ne soient pas toujours bien connues. De ce
fait, elle n'est pas toujours pratique bon escient. La littrature sur la
rgression et le modle linaire est extrmement abondante. C'est en
conomtrie, champ d'application privilgi du modle linaire, que l'on
trouve les premiers manuels gnraux en langue franaise exposant les
mthodes et les principaux types de rsultats (Malinvaud, 1964; Fourgeaud
et al., 1978). On citera galement l'ouvrage de Tomassone et al. (1983),
expos complet, simple et oprationnel sur tous les aspects de la rgression.
Pour un expos plus concis, on renverra Saporta (1990). Mais ces quelques
titres
1
ne sauraient rendre justice de la profusion des excellents manuels sur
ce sujet.
3.2.1 Fonnulation du problme: le modle linaire
On dispose d'un ensemble de n observations sur lesquelles ont t
effectues p+I mesures des variables y, Xl, x2, ... , X
p
. On veut expliquer ou
prvoir y l'aide des variables explicatives ou prdicteurs, Xl, x2, ... , xp,
lesquels sont supposs connus sans erreur.
1 La littrature en anglais sur le modle linaire est particulirement vaste: on trouvera
une bibliographie commente (dj ancienne) de plusieurs centaines d'articles et
ouvrages dans Harter (1974 -1975). Searle (1971) et Seber (1977) traitent de faon
extensive les problmes d'analyse de la variance et de covariance; Theil (1971) situe le
modle linaire dans un cadre conomtrique gnral; l'ouvrage de Rao (1973),
rdition d'un manuel classique, est consacr l'opration d'induction statistique sur le
modle linaire. Un autre manuel classique est l'ouvrage de Draper et Smith (1981).
Mosteller et Tukey (1977), Besley et al (1980), Atkinson (1985) prsentent des points
de vue un peu plus modernes, incluant diverses mthodes de slection de variables,
alors que Chatterjee et Priee (1991) insistent sur la mise en oeuvre pratique.
224 Mthodes explicatives ou drives _ Chapitre 3
Supposons par exemple qu'une personne dsire acqurir un magasin ayant
une surface S dans une zone o la population environnante est P. Des
tudes antrieures montrent que le chiffre d'affaires d'un magasin dpend
linairement de la surface et de la population, et les donnes relatives 30
magasins du mme type sont disponibles. Quel chiffre d'affaires peut
esprer l'acheteur? Le chiffre d'affaires est la variable prvoir et les
variables explicatives ou prdicteurs sont la population et la surface. Ce type
de problme trouve une solution dans le cadre de la rgression, technique
de prvision linaire, qui consiste tout d'abord procder une estimation
d'un modle, puis utiliser le modle estim pour le calcul de la valeur
attendue.
Xl ... xp
Figure 3.2 - 1
Prvision linaire
On cherche approcher y par une combinaison linaire des variables
explicatives Xl, x2, ... , Xp. Pour cela, on pose le modle
l
:
Yi =ao + al Xil + a2 Xi2 +... + apXip + i
o ao, al , a2 , ... , ap sont les coefficients inconnus du modle. Le terme
constant ao peut tre considr comme coefficient d'une variable explicative
particulire artificielle Xo dont les valeurs Xio seraient toujours gales 1. i
est le rsidu reprsentant l'cart entre la valeur observe Yi et la partie
"explique" de l'observation (ao + al xil + a2 xi2 +... + a
p
Xip)'
On suppose dans la plupart des spcifications du modle que tous les
rsidus Si sont des quantits alatoires indpendantes.
Ce modle s'exprime sous forme matricielle:
y = X a + E
(n,]) (n,p+l)(p+l,1) O,n)
1 La linarit des relations par rapport aux coefficients aO,al ,al, ... ,a
p
peut
n'apparatre qu'aprs transformations des donnes. Par exemple:
y = a 3 x ~ X ~ (J + t')
deviendra linaire aprs la transformation logarithmique:
log(y) =allog(xj)+ a2Iog(X2) + log( (3)+ logO + t')
3.2 _ Rgression multiple, modle lilUJaire 225
y
1=
x
1 1
1 1
1
1
:XiI ... x ip
1
1
1 1
Figure 3.2 - 2
Schmatisation du modle linaire
On dispose, pour valuer les coefficients inconnus du modle, d'un systme
de n quations linaires ayant n + p + 1 inconnues. Le systme admet donc
une infinit de solutions.
Soient ao, al, a2 , ... , a
p
les coefficients correspondant une des solutions
possibles. On cherchera la solution qui minimise globalement, suivant un
critre dfinir, l'ensemble des carts la linarit, c'est--dire:
{
choisir (ao,a!,a2, ... ,ap) qui minimisent l'ensemble des ej
avec ei = Yi -(av + al
x
il +a2
x
i2+... +
a
p
x
ip)
Parmi les critres possibles de minimisation, citons la mthode des
moindres carrs min(Ler) (norme dite "L
z
") celle des moindres valeurs
absolues (norme dite "LI") , celle du minimax min{max ei)
(i)
(norme dite "Lc",")l. Le critre des moindres carrs s'avre conduire des
calculs algbriques simples, se prter une interprtation gomtrique
claire, et donner lieu des interprtations statistiques intressantes
z
.
3.2.2 Ajustement par la mthode des moindres-carrs
On appelle ajustement du modle linaire toute solution du systme
d'quations:
Yi = aO + al XiI + a2 Xi2 +... + a
p
Xip + ei
ce qui correspond sous forme matricielle :
y = X a + e
(n,1) (n,p+1)(p+1,1) (1,n)
(i = 1,2,..., n)
1 Plus gnralement, la norme Lk correspond au critre min(Ile/)
2 La norme Lit qui privilgie moins les carts importants, est la base de mthodes de
rgression plus robustes (cf. Huber, 1981; 1987). Sur le rle de cette norme en analyse
descriptive des donnes, cf. Fichet (1987), et Le Calv (1987). L'utilisation de la norme
LI dans le cas de la regression linaire remonte Laplace (1793). Une tude historique
de l'utilisation des normes LI et Loo a t ralise par Farebrother (1987).
226 Mthodes explicatives ou drives _ Chapi tre 3
Pour la i
me
observation, la valeur prdite par le modle est:
f/i = ao +alxil + a2
x
i2+ .+apxip
le rsidu du modle correspondant vaut donc! :
ei = Yi -Yi
D'une manire gnrale, on cherche y le plus proche possible de y :
y =Xa =aOxo +alxl +a2x2+" .+apx
p
L'ajustement par la mthode des moindres carrs est celui qui fournit les
coefficients aO, al ' a2 ,,,., a
p
conduisant au minimum de la somme des
carrs des carts:
min('LerJ
Dans la suite, nous allons supposer que les variables sont centres, ce qui
implique ao = O. Une des proprits de la rgression multiple est que les
estimations des coefficients autres que aO sont les mmes, que les variables
soient centres a priori ou pas.
a - Calcul et proprits de l'ajustement des moindres-carrs
Il s'agit de dterminer le vecteur a des coefficients qui minimise:
e'e = 'Ler = Ily _yl12
Le vecteur de coefficients a doit vrifier la condition d'extremum
2
:
X'Xa =X'y [3.2 - 1]
qui est un systme de p quations p inconnues.
Si n est suprieur ou gal p (plus d'quations que d'inconnues) et si X est
de plein rang (c'est--dire de rang p), alors X'X est inversible.
On tire de la relation [3.2 - 1] la solution:
[3.2 - 2]
1 Le vocablaire et les notations distinguent les rsidus dfinis par le modle thorique
Ej =Yi - L<XkXjk et les carts dfinis par un ajustement ei =Yi - Lakxik
k k
2 La quantit scalaire e'e tant une fonction des inconnues (al, a2,"" ap), une
condition ncessaire d'extremum est l'annulation des drives partielles premires,
soit :
d
-(e'e) = 0
da (p,!)
on a : e'e = (y - Xa)'(y- Xa) = y'y - 2a'X'y + a'X'Xa
d
d'o: -(e'e)=-2X'y+2X'Xa
da
on en tire la condition d'extremum: X'Xa = X'y
3.2 _ Rgression multiple, modle linaire
Le vecteur a est le vecteur des coefficients de rgression multiple
l
.
Il reste vrifier que l'extremum atteint par e'e est bien un minimum.
Soit ii une autre solution et le vecteur correspondant des carts:
= y - Xii =(y - Xa) +(Xa - Xii) = e + X(a - a)
et
227
' = e' e + 2(a - a)X'(y - Xa) + (a - a)'X'X(a - a)
Dans le membre de droite, le terme central est nul d'aprs [3.2 - 1]; il reste
donc:
,
' = e'e + (X(a - a) (X(a - a)
Il est clair que le dernier terme est une somme de carrs et ne peut tre que
positif ou nul. Par consquent e'e est bien la plus petite somme de carrs
d'carts.
b - Approche gomtrique dans IRn
Les proprits algbriques de l'ajustement vont nous permettre
d'interprter gomtriquement l'opration effectue.
Plaons-nous dans l'espace IR n o n est le nombre des observations
effectues sur p+l variables: y, Xl, x2, ... , xp.
La recherche de y comme combinaison linaire des Xl, X2, ... , x
p
revient
dfinir y dans le sous-espace engendr par les variables explicatives V
x
. La
technique d'ajustement des moindres-carrs consiste alors approcher y par
sa projection orthogonale y sur le sous-espace V
x
.
o
Figure 3.2 - 3
Projection de y sur V
x
/
En remplaant a par sa valeur obtenue dans [3.2 - 2], on obtient:
y=Xa =X(X'XrIX'y =pxY
l La rgression simple correspond au modle y = ax + E (une seule variable explicative,
y et X centrs). La formule [3.2 - 2] devient a =x'y/x'x ou a = cov(x,y)/var(x).
228 Mthodes explicatives ou drives _ Chapitre 3
avec:
Px =X(X'Xf
1
X'
[3.2 - 3]
o la matrice Px dsigne l'oprateur de projection orthogonale
1
sur V X.
Comme le montre la figure 3.2 - 3, le modle thorique y =Xa+ E dfinit une
dcomposition de y en deux termes incoIU\us, l'un Xa dans Vx et l'autre E
dans Rn. La technique des moindres-carrs propose pour solution la
dcomposition y = Xa+ e qui minimise la "longueur" de e en projetant
orthogonalement yen Xa sur V
x
et E en e sur le sous-espace orthogonal
V
x
dans Rn. Les deux vecteurs Xa et e sont orthogonaux.
c - Le coefficient de corrlation multiple
Remarquons que les variables tant centres, les longueurs dans l'espace Rn
s'interprtent en termes de variances. Le thorme de Pythagore appliqu
au triangle rectangle de la figure 3.2 - 3 dont les cts sont e et Xa et
l'hypotnuse y, peut s'crire:
y'y =e'e + a'X'Xa
En divisant par n chacun de ces termes, on obtient la relation:
2'L/Yi)2 =1- 'L,(Yi _9)2 +2-I,(yl
n n n
variance variance varmce
totale rsiduelle explique
Afin d'avoir une ide globale de la qualit de l'ajustement, on dfinit le
coefficient de corrlation multiple R comme le cosinus de l'angle .l entre y
et Xa qui n'est autre que le coefficient de corrlation entre les valeurs
initiales et les valeurs ajustes:
R =cor(y,y) = cor(y,Xa).
Son carr peut s'exprimer sous diffrentes formes:
R
2
= cov2(y,y) = varey) = L(Yi)2 = variance explique.
var(y)var(y) varey) L(Yi)2 variance totale
De faon explicite en fonction des donnes initiales Xet y, R
2
s'crit:
R
2
= a 'x'x a == y'X(X'X)-lX'y
y'y y'y
Ce coefficient dcrit donc le partage de la variance totale en variance
"explique" et "rsiduelle" :
1 Cet oprateur, symtrique et idempotent, a dj t rencontr propos de l'analyse
canonique (cf. 3.1.2.b).
3.2 _ Rgression multiple, modle linaire 229
varey) =varey) + var(e)
R
2
var(y) =varey)
(1- R
2
)var(y) = var(e)
variance totale
{
variance explique
variance rsiduelle
Ainsi, en minimisant 'LeT, on maximise R
2
. En d'autres termes,
l'ajustement des moindres-carrs dtermine la combinaison linaire des
variables explicatives ayant une corrlation maximale
l
avec la variable
expliquer y.
3.2.3 Lien avec l'analyse canonique
La rgression multiple est un cas particulier de l'analyse canonique quand la
matrice Y n'a qu'une colonne y (q = 1), et donc le sous-espace Vy est rduit
une droite. La variable canonique b n'a alors qu'une composante note b. Le
produit y'y tant maintenant un scalaire, la relation [3.1-3] (cf. 3.1.2.a)
devient:
{32 = y'X(X'X)-lX'y
y'y
L'unique racine canonique {32 est le carr du coefficient de corrlation
multiple entre la colonne y et les colonnes de X c'est--dire entre la variable
expliquer et les variables explicatives.
Compte tenu de la relation [3.1-1], la variable canonique a s'crit:
a = ~ X X ) - l X'y
{3
b
Cette relation montre que le vecteur a est proportionnel (au coefficient {3
prs) au vecteur des coefficients de la rgression multiple expliquant la
variable y par les p variables colonnes de X.
Le coefficient *est d'ailleurs facile calculer puisque, d'aprs la contrainte
de normalisation, b =.v l, .
yy
1 On remarquera par ailleurs que l'introduction dans le modle d'une nouvelle variable
explicative quelconque ne peut que diminuer la somme des carrs des carts et par
consquent augmenter R. En ajoutant en effet une dimension V
x
, on ne peut que
diminuer la distance de y ce sous-espace. Dans ces conditions, la valeur prise par R
ne peut tre un critre absolu pour apprcier la qualit de l'ajustement.
230 Mthodes explicatives ou drives _ Chapitre 3
3.2.4 Qualit de l'ajustement
Jusqu' prsent, on s'est born rsoudre un problme purement
numrique d'ajustement, avec une mesure globale de qualit fournie par le
coefficient de corrlation multiple. Il s'agit maintenant de tester la qualit de
cet ajustement et la signification statistique des coefficients de rgression, ce
qui ncessite de faire des hypothses sur y et E.
a - Spcification du modle
On suppose que le rsidu Ei est l'effet rsultant d'un grand nombre de causes
non identifies, et ce titre, on le considrera comme une perturbation
alatoire. Ce point de vue tendu aux n relations du modle introduit un
vecteur alatoire de rsidus E (ayant n composantes) et, par _cet
intermdiaire, dfinit y = Xa+ E comme vecteur alatoire.
Le tablea u 3.2 - 1 rsume les caractristiques des diffren ts lments du
modle:
Tableau 3.2 - 1
Caractristiques des lments du modle
y = Xa+ E
Observ Non observable
Alatoire
y E
( n,1) (n,1)
Non alatoire
X a
(n,p) (p,1)
On supposera que les rsidus Ej ont une esprance nulle, qu'ils ont tous
mme variance a
2
et sont deux deux non corrls:
[3.2 -4]
Var(E) = E(EE') = a
2
r
(n,n)
et E(E) = 0
(1,n)
ce qui implique les relations:
E(y) = Xa et Varey) =Var(E) = a
2
r
(1,n) (n,n)
Sous ces hypothses, les coefficients de rgression ak, (k=l, ... ,p), fournis pas
la technique des moindres-carrs sont les meilleurs estimateurs] des
coefficients inconnus ak.
1 Il s'agit plus prcisment d'estimateurs variance minimale sur l'ensemble des
estimateurs linaires, cette proprit tant connue sous le nom de thorme de Gauss-
Markov. On renvoie aux ouvrages cits au dbut de ce chapitre pour plus de dtails
sur ce thorme et ses gnralisations.
3.2 _ Rgressioll multiple, modle linaire 231
b - Moyenne et variance des coefficients
Le vecteur a = (X'X)-l X'y des coefficients de rgression tant une fonction
de y, est lui mme un vecteur alatoire. La formule [3.2 - 4] nous montre
immdiatement que son esprance mathmatique s'crit: E(a) = n.
Un calcul lmentaire! montre que la matrice des covariances des
coefficients s'crit:
Notons que 0'2 est la variance thorique des rsidus et n'est donc pas
connue. On peut estimer 0'2 par $2, la variance empirique des carts calculs
aprs l'ajustement.
Si l'on dsigne par V la matrice des covariances empiriques des variables
explicatives supposes centres (V =1X'X), on a la relation:
n
2
V(a) = :!-V-
1
n
On remarque la dualit qui existe entre les variables explicatives et les
coefficients de ces variables dans le modle. Des variables explicatives non
corrles (matrice V diagonale) conduiront des coefficients de rgression
non-corrls. Ce lien entre structure des prdicteurs et structure des
coefficients sera prcis dans le paragraphe 3.2.5 consacr la rgression sur
composantes principales.
c - Tests sous l'hypothse de normalit des rsidus
Les rsultats prcdents (coefficient de corrlation multiple, matrices des
covariances des coefficients) permettent d'imaginer des procdures de
validation sous des hypothses assez gnrales. Le fait de spcifier la loi des
rsidus autorise des preuves de validation classiques que l'on rappelle ici,
sans dmonstration.
1- Test sur les coefficients de rgression
Pour savoir si une variable explicative Xk a une influence relle sur la
variable expliquer y, on procde un test d'hypothse sur le coefficient de
rgression <Xk.
1 La variance de a s'crit V(a) = E [(a - a)(a- ur].
Or, a-a=(X'X)-lX'y-a
d'o: a-a=(X'X)-lX'(Xa+E) -a
soit: a-a=(X'X)-l
X
'e
On obtient donc: E[(a -a)(a - u)'] = (X'X)-l X' E(')X(X'X)-l
Finalement: V(a) = (J2 (X'X)-l
232 Mthodes explicatives ou drives _ Chapitre 3
L'hypothse nulle (Ho) est l'ventuelle non-influence qui se traduit par:
(Ho) ak =0 (les autres coefficients sont quelconques)
On crit alors la statistique de Student :
t = ak
sk
o Sk est l'estimation de l'cart-type du k
ime
coefficient de rgression ak :
Ily - Xal12 akk , o akk dsigne le k
me
lment diagonal de (X'Xr
1
.
n-p
Si (Ho) est vraie, la statistique suit une loi de Student (n - p) degrs de
li be rt1. Soit Pela probabilit tire de la distribution de Student
correspondant la valeur te prise par t :
Pe = P(ltl ;::: te)
Si cette probabilit est juge "trop faible", on rejette
2
l'hypothse (Ho). On
peut tendre la procdure de ce test une combinaison linaire quelconque
des coefficients.
2- Test sur un sous-ensemble de coefficients
On vient de voir comment tester l'un aprs l'autre la nullit de chaque
coefficient. Cependant, les rponses des questions telles "al =0 sans rien
supposer sur ai'? puis "0.2 =0 sans rien supposer sur al 7" ne dterminent
pas la rponse cette autre question: "al = 0 et simultanment 0.2 = 0 7"
D'o l'utilit de savoir tester la nullit simultane de plusieurs coefficients
de rgression.
On se place ici, sans perte de gnralit, dans le cas o les q coefficients sont
les premiers des P coefficients. L'hypothse Ho se traduit par:
- (Ho) al =0.2 =... =a
q
=0 (les autres ak quelconques)
- (H}) un au moins des q premiers ak n'est pas nul
Convenons de noter X
Ho
les P- q dernires colonnes de X et aHo les P- q
dernires composantes de <x. L'criture matricielle des modles sera:
{
modle (complet) sous Hl :
modle (rduit) sous HO :
y=Xa+
Yo = XHo<XHo +
1 Le modle contient P+ 1 coefficients estimer: le terme constant et les coefficients
des Pvariables explicatives.
2 On effectue par exemple le test au seuil de confiance 0,05 : si Pc < 0,05 on rejette
l'hypothse selon laquelle la variable Xk n'a pas d'influence reHe (avec moins de 5
chances sur 100 de se tromper) ; alors que si Pc 0,05, on ne peut pas rejeter cette
hypothse.
3.2 _ Rgression multiple, modle linaire 233
On considre la statistique F qui suit une loi de Fisher
l
q et n - p degrs de
libert:
(IIY - yol1
2
-lly _Y11
2
)jq
F= Ily-yf/(n-p)
On note les sommes des carrs des carts:
[3.2-5]
sa = Ily - Yol1
2
et SI = Ily _yI1
2
Si la diffrence entre les deux quantits Sa et SI est grande (F grand) alors
l'effet des q premires variables est important et on devra rejeter
l'hypothses nulle; les q variables Xl,. .. , X
q
ont simultanment une influence
sur y. On effectue donc deux ajustements successifs
2
pour calculer d'une part
SI sur le modle complet et d'autre part Sa sur le modle pour lequel sont
exclues les q variables explicatives en cause.
3.2.5 Rgression rgularise
et rgression sur composantes principales
On a vu que la structure du tableau n lignes et p colonnes X des variables
explicatives (structure dcrite par la matrice des covariances) avait des
rpercussions sur la qualit des coefficients de rgression ( 3.2.4.b). Le calcul
des coefficients de rgression requiert une matrice X'X inversible et donc
des vecteurs Xl, x2, ... , xp linairement indpendants.
Si les variables explicatives sont fortement corrles (autrement dit si
certains des vecteurs Xl, x2, ... , X
p
ont des directions voisines) alors
l'inversion de la matrice X'X est difficile. Le vecteur a dont les composantes
sont les coordonnes de la projection de y dans la base de Vx forme par
Xl, x2, ... , x
p
est mal spcifi. Les rsultats de la rgression seront instables
3
.
1 Le principe de tous ces tests est trs simple: les statistiques Fsont des quotients de
X
2
indpendants. Les X
2
sont indpendants car ils correspondent des composantes
normales orthogonales du vecteur rsiduel (ici: ct de l'angle droit du triangle
rectangle (y, y, Yo) dont l'hypothnuse est (y, Yo) ).
2 D'un point de vue nwnrique on peut passer d'une somme de carrs l'autre sans tre
oblig de refaire un ajustement complet.
p
3 La dcomposition en lments propres de X'X s'crit: X'X =U'AU =L,auau;', o A
a=l
est la matrice diagonale dont le dme lment est la valeur propre ,la et U le tableau
des vecteurs propres unitaires correspondants. On a donc galement:
(X'Xr
l
= UA,lU' = i _l-uau;'.
a=lAa
L'estimation de la matrice de covariances du vecteur a des coefficients vaut:
p 1
Var(a)=s2(x'xr
l
=s2 L -uau;'
a=l ,a
Sous cette forme on voit comment une ou plusieurs valeurs propres presque nulles
rendent imprcis l'ajustement.
234 Mthodes explicatives ou drives _ Chapitre 3
On a galement voqu le fait que la mthode des moindres carrs pouvait
donner un poids excessif des points loigns (pouvant parfois tre errons
ou aberrants).
On a vu d'autre part la section 1.2 que l'analyse en composantes
principales dcrit la structure d'un tableau X en mettant en vidence les
interrelations entre variables (colonnes de X); elle permet galement de
visualiser les points-observations (points-lignes de X) et donc d'aider
reprer d'ventuelles anomalies dans leur distribution. Enfin, on a vu que
l'analyse fournit une base orthogonale hirarchise du sous-espace de IRn
appel V
x
.
Il est clair dans ces conditions qu'une analyse en composantes principales
pralable permettra d'apprcier l'existence de colinarits entre les variables
explicatives, de dtecter les redondances et comptitions entre prdicteurs;
de reprer les individus occupant des positions aberrantes ou simplement
suspectes. Il s'agit l d'une phase descriptive qui doit prcder la rgression.
L'analyse peut galement fournir des variables artificielles orthogonales (les
coordonnes des points-observations sur les nouveaux axes) comme
nouveaux prdicteurs: c'est la rgression sur composantes principales,
recommande lorsque les variables explicatives sont nombreuses ou
fortement corrles entre elles. L'analyse factorielle joue donc un double
rle: un rle d'exploration pralable et un rle de rgularisation
l
.
a - Principe de la rgression rgularise
Le principe revient remplacer les p variables explicatives Xl, X2, ... , X
p
par
leurs p composantes principales qui engendrent le mme sous-espace V
x
P
dimensions. S'il existe r relations linaires entre les variables explicatives,
alors la transformation des p variables fournira q == p - r composantes
principales. Il est possible ensuite d'exprimer les rsultats de la rgression en
fonction des variables initiales. Nous nous plaons dans IR n o un point y
est projet sur le sous-espace V
x
engendr par les vecteurs Xl, X2, ... , X
p
.
Les p vecteurs propres Uk auxquels correspondent p composantes
principales constituent une base orthonorme du sous-espace VXsur lequel
on veut projeter y.
On limine le problme pos par la quasi-colinarit si on supprime de cette
base les p - r vecteurs uk correspondant des valeurs propres -
k
nulles ou
trs faibles.
l Les techniques de rgularisation, largement utilises en analyse discriminante,
participent la rsolution de problmes mal poss (ici: cas de colinarit entranant
une singularit de la matrice X'X, et donc une impossibilit de calcul de a) ou de
problmes pauvrement poss (ici: cas de quasi-colinarit, entranant une instabilit
numrique de (X'Xfl et du vecteur a des coefficients de rgression). Pour une revue
des traitements de la colinarit dans le cas de la rgression, cf. Palm et Jemma (1995).
3.2 _ Rgression multiple, modle linaire 235
Autrement dit on ne retient que les q premires composantes principales de
variances non ngligeables.
/
(avec q< p)
[3.2- 6]
Figure 3.2 - 4
Rgression sur composantes principales
Les variables centres, nous sommes dans le cas de l'analyse gnrale
de la section 1.1. Le tableau X est reconstitu sur les q premiers axes factorieJs
(cf. [1.1 - 7] du 1.1.5.b) par la formule (va et Ua sont unitaire) :
q
X*=
a=1
o Vq et V
q
sont les matrice respectivement d'ordre (n/q) et (p/q) contenant
en colonne les vecteur propres Va et Ua et A
q
la matrice diagonale (q,q) des
valeurs propres.
On calcule
l
partir de ce nouveau tableau le vecteur de coefficient a* :
* 1 /
a = L
a=1V

a
Remarquons que a* n'est plus unique, puisque tout vecteur de la forme
a* + c (avec c tel que V'c = 0) satisfait aux quations [3.2 -1].
Pour que la relation E(a*) = Ct soit vrifie, il faut, dans le cas de l'estimation
prcdente, que le modle thorique spcifie que Ct soit de la forme
tant un vecteur quelconque q composantes.
1 Les quations [3.2 - 1] s'crivent X'Xa = X/y, c'est--dire, en abandonnant
provisoirement les indices q:
UAU'a =UA
I/2
V'y
Le vecteur a n'ayant que qcomposantes indpendantes peut s'crire sous la forme: a =
Vb
d'o puisque V'V =1(matrice unit (q,q) ) :
UAb =UAl/
2
V'y
Prmultipliant les deux membres par V'/ on obtient b :
b =A-
1/2
V'y, donc a = UA-
1/2
V'y
236 Mthodes explicatives ou drives _ Chapitre 3
Dans ces conditions, l'estimation de la matrice des covariances de a* (de
rang q) sera:
* 2 q 1
Var(a ) =s L, ~ u a u ~
a=l a
Notons que X= X* s'il y a exactement q valeurs propres diffrentes de O.
b - Variables supplmentaires et rgression
La procdure de mise en lments supplmentaires dans une analyse en
composantes principales constitue une variante descriptive de la rgression
multiple. D'un point de vue gomtrique, les deux situations sont trs
similaires:
- les p variables explicatives engendrent un sous-espace V
x
ayant au plus p
dimensions sur lequel est projete la variable expliquer;
- les p variables actives de l'analyse engendrent aussi un sous-espace au
plus p dimensions que l'on rduit q facteurs pour le visualiser et c'est
sur ce sous-espace rduit q dimensions que l'on projette les variables
supplmentaires pour les situer par rapport aux variables actives.
La formule [3.2 - 6] prcdente permet d'expliciter ce lien. Calculons partir
d'elle la nouvelle estimation y* de y en utilisant la formule [1.1 - 4] du
1.1.4 :
-* * * q ,
y =X a = L,vavay
a=l
On a ainsi obtenu une expression de l'oprateur-projection Px. sur l'espace
des q premiers axes factoriels.
Le dernier membre rappelle clairement que la coordonne v ~ y de y* sur
l'axe unitaire Va. correspond au positionnement classique de y en variable
supplmentaire dans l'analyse dont les variables actives sont les colonnes
deX.
c - Expression des coefficients dans la nouvelle base
Dsignons par za le vecteur des nouvelles coordonnes des points sur l'axe
ua' Rappelons que l'on a les relations:
Za =X*ua =XUa =.,ff:;.va
L'ajustement sur la nouvelle base (u]I u2," .,u
q
) s'crira:
y =Zc+e
(a =1,2, ... ,q)
3.2 _ Rgression multiple, modle linaire 237
o Z est le tableau (n/q) des vecteurs orthogonaux za et c le vecteur des q
nouveaux coefficients de rgression cherchs.
Puisque Z/Z = A / matrice diagonale dont les lments diagonaux sont les
valeurs propres, on a :
c = (Z/Zr1Z/y = A-1Z/y
Cette situation idale pour laquelle les variables explicatives sont
orthogonales revient d'ailleurs faire q rgressions simples, car chacun des
p coefficients peut tre estim sparment.
On a en effet:
_ ~ _ _co_v-,-(z-"a""/,-,,y_)
ca - -

a
var(za)
La matrice des covariances des coefficients c sera estime par:
Var(c) =s2(Z/Zr
1
=52A-
1
autrement dit ces coefficients sont non corrls et ont pour variances les
quantits:
3.2.6 Rgression sur variables nominales:
l'analyse de la variance
Lorsque les variables explicatives sont nominales, la rgression multiple
n'est autre que l'analyse de la variance, technique lie aux plans
d'expriences et aux traitements statistiques des donnes exprimentales
1
. Il
est courant d'opposer donnes d'observation et donnes exprimentales, en
rservant les mthodes exploratoires pour les premires, et les mthodes
infrentielles ou confirmatoires pour les secondes. La distinction n'est pas si
nette en pratique : d'une part, nous l'avons vu/ beaucoup de concepts et
d'outils sont communs; d'autre part, les champs d'application peuvent
frquemment se recouvrir, et une attitude mthodologique trop rigide
pourrait tre nfaste. D'o l'intrt de connatre les principes et les
possibilits des outils de l'analyse des donnes exprimentales.
1 C'est R.A. Fisher qui est l'origine de l'analyse de la variance et des plans
d'exprience, dans une srie d'articles datant des annes vingt, repris dans l'ouvrage
historique "The Design of Experiments" (Fisher, 1935). Citons galement sur ce sujet les
traits de Cochran et Cox (1957), de Cox (1958). Bailey (1981) et Steinberg et Hunter
(1984) prsentent des exposs synthtiques plus rcents. En langue franaise, on
pourra consulter les charitres consacrs ce thme dans les ouvrages de Dagnlie
(1981) et Tomassone et a . (1993).
238 Mthodes explicatives ou drives _ Chapitre 3
a - Codage des variables nominales
Supposons que l'on dispose sur une variable y de n observations classes
selon p variables nominales Xl,. '" XI, ... , x
p
respectivement ml, ... , ml, ... , mp
modalits.
Le tableau des variables explicatives X se prsente maintenant sous la forme
d'un tableau disjonctif complet [x
1
, ... ,X
I
, ... ,X
p
]'
Cependant, pour chaque sous-tablea u XI, la somme des colonnes va ut 1. Il
existe donc p relations linaires entre les colonnes de X. Le tableau X n'est
pas de plein rang et la matrice X'X n'est pas inversible.
Le problme peut tre rsolu par une rgularisation de la rgression (cf.
3.2.5). Mais le fait que la nature des relations linaires entre variables
explicatives soit connue a priori (structure disjonctive complte du tableau)
suggre d'autres possibilits de solutions.
Pour liminer la multicolinarit, on peut ne retenir que m,-1 modalits
pour chaque variable Xl ml modalits. La modalit supprime se recalcule
videmment partir des autres. Une autre possibilit est galement de
supprimer une colonne de chaque sous-tableau mais aprs l'avoir
retranche aux colonnes restantes. Nous retiendrons ce deuxime codage
mieux adapt au modle linaire avec interaction entre les variables
explicatives.
Le tableau des variables explicatives ainsi recod Xest de plein rang:
p
rang (X) = L(ml-1)
1=1
Pour simplifier l'expos, on se placera par la suite dans le cas o l'on dispose
de deux variables nominales u et v ayant respectivement q et r modalits.
Notons Uk et Vj, les indicatrices des variables u et v avec 1 < k < q et
1 < j < r, lU, V] le tableau disjonctif complet correspondant de dimension
(n, q + r) et [, V] le tableau disjonctif complet de plein rang et de
dimension (n, q+ r - 2) obtenu aprs recodage.
Tableau disjonctif
complet initial
X=
1 000 001
100 0 1 00
o 1 0 0 1 00
... ...
U V
00 0 1 001
000 1 o 1 0
Uk Vj
100 -1 -1
1 00 1 0
010 1 0
X= U
V
-1 -1 -1 -1 -1
-1 -1 -1 o 1
Tableau de plein
rang associ
Figure 3.2- 5
Tableaux des variables explicatives initial et recod
3.2 _ Rgressioll multiple, modle lillaire
La gnralisation se fera sans difficult.
239
b - Modle linaire sans interaction
On cherche dterminer s'il existe un effet d la variable u et un effet d
la variable v, autrement dit, si u et vont une influence sur y.
Les variables sont ici considres sans interaction et l'on dispose d'un
modle linaire o les effets sont par consquent additifs:
Yikj = Ji + aj + /3j + ikj
avec i =l,. '" n ; k =1,,,., q- 1 et j =1,,,., r - 1. Ce modle s'exprime sous forme
matricielle par:
y = Ji1 + (alu1 .. +akuk ... +a
q
-l
U
q-1) +(/31
V
1" +f31jVj" +f3r-l
v
r-l) + e
soit encore:
y =Ji1+ cx+ Vp+e
o 1 est un vecteur de n composantes gales 1 et Ji un coefficient scalaire.
Rassemblons dans un tableau L de dimension (n, q + r - 1) l'ensemble des
variables explicatives artificielles et dans le vecteur S (q + r - 1)
composantes les coefficients ak, /3j et J1 du modle. Il prend la forme
matricielle:
y=LS+e
1 ul Uq-1 vI v
r
-1
10 0 -1-1 -1
10 0 10 0
01...0 10 0
y
U
-1 -1 -1
-1 -1 -1
V
-1 -1 -1
o1 0
L
Figure 3.2 - 6
Modle de l'analyse de la variance:
cas de deux variables u et v sans interaction
Le problme est de tester si les ak (puis les f3j) sont gaux entre eux,
l'hypothse alternative tant que l'un au moins des coefficients dans chaque
groupe diffre des autres!.
On teste en d'autres termes les effets des variables u et v.
1 La spcification du modle est la mme que lors de la rgression multiple (rsidus
indpendants entre eux, de mme variance). Pour procder aux tests statistiques, il est
ncessaire de supposer la normalit de la distribution des rsidus.
240 Mthodes explicatives ou drives _ Chapitre 3
On ralise alors le test de nullit simultane des coefficients ab
(k =l,. '" q-1) (cf. 3.2.4.c).
Pour cela, on effectue successivement deux ajustements pour calculer d'une
part 5(11, a, sur le modle complet y =LO + E et d'autre part sur le
modle rduit obtenu en supprimant dans Lies q-l colonnes correspondant
aux ak. La statistique du test sera d'aprs [3.2 - 5] :
F = - -1)
-q - r+ 1)
On rejettera l'hypothse nulle d'absence d'effet de la variable u si la
probabilit de dpasser la valeur F, pour une variable de Fisher (q -1) et
(n - q - r + 1) degrs de libert, est juge trop petite.
Pour tester l'existence d'un effet d la variable v, on procdera de faon
analogue.
c - Modle linaire avec interaction
Si l'on pense maintenant que l'effet de la modalit k de u peut tre diffrent
selon la modalit j de v, il faut ajouter au modle l'effet d'interaction entre
les deux variables u et v.
Cela peut se faire en juxtaposant au tableau disjonctif complet [, V] le
sous-tableau x V des interactions. On obtient x V en faisant le produit
terme terme des colonnes Uk par les colonnes Vj'
Puisque 1 < k < q - 1 et 1 <j < r - l, on engendre ainsi (q -1) x (r -1) colonnes
contenant les produits de deux indicatrices correspond la conjonction des
prsences d'effet. On vrifie que le nouveau tableau ainsi construit
[, V, x \T] est bien de plein rang qx r. Le modle s'exprime alors par:
y =III +a + +( x V)y +E
o yest un vecteur (q-1)x(r-1) composantes.
- Test de l'effet de la variable u et de l'effet de la variable v
Pour tester l'effet de la variable u on pose l'hypothse nulle:
(Ho)
(k = 1,,,., q - 1)
On effectue, comme pour le modle sans interaction, le test de nullit
simultane des coefficients ak.
On calcule donc les sommes des carrs d'carts des ajustements sur le
modle complet et sur le modle rduit, notes respectivement 5(11, a, y)
et y). On calcule ensuite la statistique F de Fisher (q-l) et (n- pr)
degrs de libert d'aprs [3.2 - 5]. On agira de faon analogue pour tester
l'effet de la variable v.
3.2 _ Rgression multiple, modle linaire 241
- Test de l'interaction entre u et v
Pour tester maintenant l'effet d l'interaction entre les deux variables u et
v, on effectue le test de nullit simultan des coefficients Ykj en calculant les
quantits S(j.J., a,p, y) correspondant au modle complet et S(Jl, a, (3) associ
au modle rduit o l'on a supprim les (q-l)x(r-1) colonnes
correspondant aux Yki- On calcule, toujours d'aprs [3.2 - 5], la statistique de
Fisher (q -1) x (r -1) et (n - pr) degrs de libert.
Remarques:
1) Il faut souligner que le choix du codage du tableau des variables explicatives
pour avoir un tableau de plein rang est primordial ici alors qu'il tait indiffrent
dans le modle sans interaction.
2) La procdure dveloppe dans le cas d'une interaction entre deux variables
nominales peut tre gnralise des modles comprenant plus de deux critres (u,
v, W, ), des interactions d'ordre 1 (uv, UW, vw, ... ), des interaction d'ordre 2
(uvw, ), etc. Cependant une certaine prudence s'impose pour plusieurs raisons.
Tout d'abord, il est de plus en plus difficile d'apprcier et d'noncer clairement la
nature des hypothses testes. D'autre part les interactions d'ordre lev peuvent
conduire des tests "en chane" d'interprtation dlicate (uv significatif, vw non
significatif, uvw significatif, etc). Enfin, on peut montrer qu'une interaction (surtout
d'ordre lev) peut n'tre due qu' la prsence d'une observation lgrement
aberrante (la procdure n'est pas robuste).
3.2.7 Rgression sur variables mixtes: analyse de la covariance
Dans un modle d'analyse de la variance, la valeur de la variable
expliquer est dtermine, l'ala E prs, par les classes dans lesquelles sont
faites les mesures ou observations. On peut cependant imaginer un modle
o cette valeur est, l'intrieur de chaque classe k, fonction galement
d'une ou plusieurs variables explicatives continues. On dira par exemple
que la dpense individuelle en habillement est fonction du sexe u et pour
chaque sexe fonction du revenu x de l'individu i.
r

2
effet de la classe
x
Figure 3.2-7
Un modle d'analyse de la covariance:
variable nominale sans effet sur la pente de la rgression
242 Mthodes explicatives ou drives _ Chapitre 3
La figure 3.2 - 7 illustre un modle o l'observation i dans la classe k serait
dtermine par:
Yik = Ji + ak + ry Xik + t:ik
En donnant la mme pente ry aux deux droites passant par les centres de
classe, on suppose ici que le revenu a le mme effet quel que soit le sexe; la
distance (al - a2) entre les deux droites mesure "l'effet du sexe". On aurait
pu supposer un effet du revenu diffrenci suivant le sexe en traant des
droites non parallles.
De tels modles, o interviennent des variables nominales et des variables
continues, sont appels modles d'analyse de la covariance. Ils vont se
traduire par:
y = Po + E
o L" est le tableau de plein rang des variables explicatives.
a - Modles d'analyse de la covariance
Plaons-nous, pour simplifier l'expos, dans le cas o le modle contient
une variable nominale u q modalits et une variable continue x.
Le modle le plus gnral correspondant au modle complet suppose la
fois un effet d la variable nominale u et un effet x diffrenci pour
chaque catgorie k, 1 < k < q- l, ce qui s'exprime par:
Yik::: (Ji + ak) + (ry + f3k) Xik + t:ik [3.2-7]
Le tableau L est construit en deux parties: les q premires colonnes
correspondent l'analyse de la variance un critre; les q - 1 colonnes
suivantes expriment de faon analogue l'effet diffrenci de x suivant la
catgorie k de la variable u, mesur autour de l'effet gnral reprsent par
la dernire colonne.
1
It
Il
L=
Figure 3.2 - 8
Tableau des variables explicatives:
cas d'une variable nominale u 3 modalits et d'une variable continue x
On remarquera que l'on obtient les q dernires colonnes comme une
interaction entre la variable nominale u et la variable continue x, c'est--
dire par multiplication terme terme des q premires colonnes par x.
On notera S(Ji, a, ry, la somme de carrs d'carts des ajustements sur le
modle complet [3.2 - 7].
3.2 _ Rgression multiple, modle linaire 243
b - Test d'un effet diffrenci de x dans chaque classe k
Pour tester l'existence d'un effet diffrenci de x dans chaque classe k, on
effectuera un deuxime ajustement sur le modle:
Yik = (tl + ak) + T) Xik + fik
Ce modle est la rduction du modle complet [3.2 - 7], obtenu par
introduction de l'hypothse nulle:
(Ho) {f3k =0 (k =l,,,.,q-1)
tl, TJ,ak quelconques
La statistique du test s'obtient par application de la formule [3.2 - 5] :
F =
S(tl, a, T), - 2q)
On rejettera l'hypothse nulle si la probabilit de dpasser la valeur lue dans
la table de Fisher-Snedecor (q -1) et (n - 2q) degrs de libert, est juge trop
petite.
c - Test de l'effet de la variable u
Pour tester l'existence de l'effet de la variable nominale u (tout en
supposant cependant un effet diffrenci de x dans les classes), on calculera
S(tl, TJ, sur le modle:
Yik = tl + (TJ+ f3k)xik + fik
pour le comparer S(tl, cx, TJ, 13). Ce modle est la rduction du modle
complet [3.2 - 7] obtenu par introduction de l'hypothse nulle:
(Ho) {CX
k
=0 (k =l,,,.,q -1)
tl, T), f3k quelconques
La statistique du test fait rfrence la formule [3.2 - 5] pour laquelle les
degrs de libert sont (q -1) et (n - 2q).
d - Test d'un "effet classe global"
On testera l'existence d'un "effet classe globale" l'aide de S(tl, T)) calcul sur
le modle:
Yik = Ji + T) Xik + fik
pour le comparer S(J.1, a, T), Ce modle est la rduction du modle
complet [3.2 - 7], obtenu par introduction de l'hypothse nulle;
(Ho) {a
k
=0 et f3k =0 (k=l, ... ,q-l)
tl, TJ quelconques
La statistique du test renvoie la formule [3.2 - 5] ayant (2q - 2) et (n - 2q)
degrs de libert.
244 Mthodes explicatives ou drives _ Chapitre 3
Elle permet de rpondre la question: est-ce que la valeur de y dpend de la
classe, soit par des centres de classe distincts, soit par des pentes en x
diffrentes?
e - Gnralisation de l'analyse de la covariance
L'introduction de plusieurs variables continues (Xl, X2,"') ne prsente
aucune difficult. Le dploiement de chacune d'elles se fait dans L comme le
dploiement de la colonne X effectu prcdemment. Les calculs de sommes
de carrs d'carts et les constructions de tests s'effectuent selon les mmes
principes.
Il est plus dlicat de gnraliser la procdure au cas de plusieurs variables
nominales. On rencontre en particulier les difficults dj voques en
analyse de la variance lorsque l'on veut introduire un terme d'interaction
entre les variables. Le problme est compliqu encore, dans la pratique, par
la ncessit de choisir au dpart le modle a priori qui est cens reprsenter
correctement le phnomne et qui servira de rfrence dans la construction
des tests.
3.2.8 Choix des variables, gnralisations du modle
L'expos qui prcde ne fait que situer les principes de base du modle
linaire par rapport aux mthodes descriptives de la premire partie. Les
mthodes prsentes correspondent une part notable des applications les
plus courantes, mais une part infime de la littrature thorique et
technique sur le sujet, pour laquelle nous renvoyons le lecteur la
bibliographie cite au dbut du chapitre.
On voquera brivement deux points dans ce paragraphe de conclusion: le
problme de la slection des variables dans les modles et celui de la
gnralisation du modle.
a - Slection et choix des variables explicatives
La qualit de l'ajustement dpend galement du choix des prdicteurs et il
est souhaitable de retenir un nombre limit de variables, non redondantes
et ayant un pouvoir prdictif.
Une technique souvent utilise pour slectionner les variables explicatives
est la mthode pas--pas ou stepwise
1
Elle consiste effectuer une premire
rgression simple sur une variable puis ajouter successivement celles qui
1 La mthode de Furnival et Wilson (Furnival, 1971 ; Furnival and Wilson, 1974)
permet de calculer les meilleures rgressions pour l, 2, ..., Pvariables explicatives, par
une exploration optimise de toutes les possibilits. En pratique, p ne doit pas
dpasser 40 pour que le volume de calcul reste raisonnable. Une telle procdure est
recommandable car elle ne fait pas intervenir de critres externes (peu ou mal justifis)
pour inclure ou exclure des variables dans le modle.
3.2 _ Rgression multiple, modle linaire 245
font augmenter le coefficient de corrlation multiple R 2, avec
ventuellement remise en question des choix antrieurs. A chaque tape
sont raliss des tests sur les coefficients de rgression ou sur des sous-
ensembles afin de rejeter la variable ou d'liminer ventuellement
certaines variables introduites dans les tapes prcdentes. Les critres
d'Akaike (1973), de Mallows (1973), sont frquemment utiliss pour
slectionner les modles lors de ces procdures. Une revue des critres
usuels se trouve dans Atkinson (1981). L'exploration des rsidus est
galement trs utilise pour choisir ou complter les variables du modle,
en gnral par des procds graphiques (cf. Cook et Weisberg, 1982, 1994).
Les modles graphiques (cf. par exemple: Whittaker, 1990; Wermuth et
Cox, 1992; Fine, 1992) permettent, lorsque le nombre de variables
explicatives n'est pas trop lev, d'tudier les liaisons conditionnelles entre
variables. Variables et liaisons sont reprsentes respectivement par les
sommets et les artes de graphes de liaisons conditionnelles qui ont le
mrite de conduire l'utilisateur rflchir sur la pertinence et les
implications des modles possibles.
Enfin on a vu qu'une analyse en composantes principales de tout ou partie
des variables explicatives Xk, avec positionnement de la variable expliquer
yen lment supplmentaire, permet de positionner la ou les estimations
y de y parmi les Xk. Il est galement possible de positionner diffrents
changements de variables, voire de nouvelles variables fonctions de
plusieurs prdicteurs, et donc de porter une apprciation critique sur les
redondances et complmentarits au sein du modle et de ses extensions.
b- Modles linaires gnraliss
Ces modles, prsents pour la premire fois sous ce nom par Nelder et
Wedderburn (1972), exposs de faon complte par McCullagh et Nelder
(1989), gnralisent le modle linaire de base sur deux points:
1- La combinaison linaire note Wi = aoxiO + al XiI +... + ap Xip des variables
explicatives n'est pas ncessairement l'esprance mathmatique E(Yi) de
la variable Yi mais peut tre plus gnralement une fonction g(J de E(Yi)
(appele fonction lien) et note:
Wi = g[E(Yi)]
Pour le modle linaire classique:
Wi = E(Yi)
2- La loi des composantes de y appartient la famille des lois
exponentielles
1
(dont la loi normale est un cas particulier). Elle fait
intervenir deux paramtres eet <p, et trois fonctions a(J, b(J, et c(J.
1 Cf. un expos gnral dans: Dempster (1971); Berk (1972).
246 Mthodes explicatives ou drives _ Chapitre 3
{
YO-b(O) ( )}
+c y,rp
fy(y,8,cp) = e a(rp)
On voit que l'on obtient la fonction de densit de la loi normale:
1 {(Y
z
-:/}
fy(y;8,cp) = ~ n c e
pour les spcifications suivantes des paramtres et des fonctions:
0= Ji; cp = a
2
; a( cp) =cp; b(8) =0
2
/2; cry, cp) =-1/2{(y2/ (
2
)+log(2nif)}
D'autres valeurs des paramtres et des fonctions conduisent aux lois
binomiales, de Poisson, gamma.
L'ajustement du modle se fait par la mthode du maximum de
vraisemblance
l
, qui concide avec les moindres carrs dans le cas de la loi
normale.
En faisant varier la loi de y et la fonction lien, le modle linaire gnralis
inclut comme cas particulier une famille de modles mettant en jeu des
variables nominales, parmi lesquels les modles log-linaires (cf. section
3.4).
3.2.9 Modles de variables latentes
Les modles de variables latentes n'entrent pas dans le cadre du modle
linaire gnral, mais ils sont apparents des modles qui interviennent
dans un cadre plus gnral, qui sont les modles erreurs sur les variables
(exognes) 2.
Ces modles ont t essentiellement dvelopps en conomtrie, o l'on
distingue habituellement les modles fonctionnels, ou effet fixes (comme
la rgression multiple et le modle linaire dans son ensemble), et les
modles structurels ou effet alatoires (modles de variables latentes).
L'analyse factorielle en facteurs communs et spcifiques (jactor analysis) est
probablement le modle le plus ancien 3. Il est utilis principalement par les
psychologues et psychomtriciens. Les dveloppements auxquels il donne
lieu sont complexes et diversifis. On pourra consulter sur ce point les
ouvrages de Harman (1967), Mulaik (1972).
1 La mthode numrique de rsolution est une mthode des moindres carrs pondrs
itratifs trs voisine de la mthode de Newton-Raphson.
ZOn trouvera un expos des modles et une note historique dans Malinvaud (1964).
3 A l'origine des principes de la mthode se trouvent Spearman (1904) (analyse
monofactorielle), puis Gamett (1919) et Thurstone (1947) (analyse multifactorielle).
3.2 _ Rgression multiple, modle linaire 247
[3.2-8]
a - Le modle
Cette mthode se propose de reconstituer, partir d'un petit nombre q de
facteurs, les corrlations existant entre p variables observes. On suppose
l'existence d'un modle a priori:
Xi = r f
j
+ ei
(p,1) (p,q)(q,1) (p,1)
Dans cette criture Xi reprsente le iime vecteur observ des p variablesi r
est un tableau (p, q) de coefficients inconnus (avec q < p)i fi est la iime
valeur du vecteur alatoire et non observable de qfacteurs communSi et ej
la i
me
valeur du vecteur non observable de rsidus, lesquels reprsentent
l'effet combin de facteurs spcifiques et d'une perturbation alatoire.
Ainsi par exemple, dans le cas des facteurs communs "fI = intelligence" et
"f2 = mmoire" que cherchaient les psychologues, le systme [3.2 - 8] s'crit
pour le iime individu:
1
Xi1 ='Yll.fil + Y12/; 2 + eil
xi2 ='121/;1 + Y22/;2 + ei2
Xip ='Yp1/;1 + Yp2/;2 + eip
Chaque observation de chaque variable est considre comme une
ralisation d'une variable alatoire dtermine, par addition au rsidu
alatoire spcifique, des deux variables alatoires que sont les facteurs
communs (avec des pondrations qui dpendent de chaque variable) 1.
Dsignons par X le tableau (n,p) dont la iime ligne est le vecteur transpos
xi qui reprsente l'observation i. De mme F dsigne le tableau (n,q) non
observable dont la iime ligne est fi i et E le tableau (n,p) non observable dont
la iime ligne est el' Le modle liant l'ensemble des observations aux
facteurs hypothtiques s'crit:
X = F r' + E [3.2 - 9]
(n,p) (n,q)(q,p) (n,p)
Dans cette criture, seul X est observable, et le modle est par consquent
indtermin. Son identification et l'estimation des paramtres posent des
problmes complexes, sources d'une abondante littrature 2. Une cascade
d'hypothses a priori supplmentaires va permettre d'crire le problme
sous une forme simplifie, la seule que nous aborderons ici.
1 Ainsi, on reconstitue approximativement les pnotes d'un individus i dans p matires
scolaires partir de ses 2 notes factorielles, et de coefficients qui ne dpendent que
des matires.
2 Voir par exemple la synthse et les rfrences trs compltes de Fine (1993). Il existe
de nombreuses variantes de lil mthode: ilxes obliques, rotations selon diffrents
critres (vnrimax, qunrtimax, oblimax), recherches de structures simples, pour
lesquelles on peut citer globillement l'ensemble des parutions de lil revue PS1jchometrika.
248 Mthodes explicatives 01/ drives _ Chapitre 3
Sans perte de gnralit, nous supposerons centres les variables dont les
observations sont les colonnes de X, ainsi que les variables alatoires que
constituent les facteurs communs et les facteurs spcifiques. Nous
utiliserons les notations suivantes:
- W matrice (p,p) des covariances thoriques entre variables;
- <1> matrice (q,q) des covariances thoriques entre facteurs communs;
- f1 matrice (p,p) des covariances thoriques entre facteurs spcifiques.
Appelons S la matrice des covariances empiriques des observations X, que
nous supposerons galement centres. Par dfinition et en vertu de [3.2 - 9L
on a:
S = .3. x'x = .3. (Ff' +E)'(Ff' +E)
n n
c'est--dire:
s = .3. fF'Ff' +.3. rF'E +.3. E'Ff' +.3. E'E
n n n n
[3.2 -10]
Aux hypothses du modle, nous ajouterons l'hypothse a priori que les
facteurs rsiduels sont non corrls aux facteurs communs; la matrice des
covariances thoriques correspondantes tant nulle, nous considrerons
comme ngligeables dans [3.2 - 10] les matrices .3. fF'E et .3. E'Fr' dont les
n n
esprances doivent tre nulles. Ainsi la relation [3.2 - 10] prend la forme
simplifie:
S = .3. fF'Ff' +.3. E'E
n n
correspondant la relation thorique suivante pour le modle:
W =f<1>f' +f1 [3.2 -11]
Le problme d'estimation consiste ajuster sur [3.2 - 11] une matrice W qui,
au regard d'un critre choisi par ailleurs, soit proche de la matrice des
covariances empiriques S. Mais afin d'obtenir une solution unique pour les
paramtres de f, <1> et f1, il est ncessaire d'introduire des contraintes
supplmentaires dans le modle.
On suppose en gnral que les facteurs spcifiques sont non corrls, c'est--
dire que la matrice f1 est diagonale. On impose de plus gnralement que les
facteurs communs soient orthogonaux et de variance unit, autrement dit
la matrice <1> est la matrice identit 1 d'ordre q. La relation [3.2 - 11] du
modle s'crit alors:
w= ff' +f1
Sur cette relation le lien avec l'analyse en composantes principales apparat
clairement. Il s'agit dans ce cas de dcomposer la matrice des covariances
empiriques S sous la forme:
S=UAU'
3.2 _ Rgressioll multiple, modle lillaire 249
o A est la matrice diagonale des valeurs propres (ranges) et U le tableau
des vecteurs propres unitaires correspondant. Cette relation s'crit encore:
5 = (UA
1
/
2
)(UA
1
/
2
)' = '
o est le tableau des vecteurs propres multiplis par les racines carres
des valeurs propres correspondantes.
Avec ce point de vue, l'analyse en facteurs communs et spcifiques suppose
qu'en retranchant une matrice diagonale lments positifs (t. estimant 6),
on obtient une dcomposition de la matrice des covariances empiriques
sous la forme:
5 - t. =[['
o [ ne contient que q colonnes alors que dans 5 =' le tableau
contenait p colonnes. On voit au passage qu'une analyse en composantes
principales o les p - q dernires valeurs propres sont proches et voisines de
0, donnera des rsultats trs voisins de ceux d'une analyse q facteurs
communs orthogonaux.
b- Estimation des paramtres inconnus
On n'insistera pas ici sur les problmes poss par un tel modle, qui font
l'objet d'une abondante littrature. On donnera seulement quelques
moyens pratiques de calcul.
Le problme essentiel est d'estimer 6, matrice diagonale des variances des
rsidus spcifiques. Une fois 6 estime par t., il suffit de chercher les
composantes principales (vecteurs propres) de (5 - t.); on ne doit
normalement trouver qu'un petit nombre de composantes diffrentes
(sta tistiquement) de O.
Nous allons examiner ici une spcification particulire du modle, puis
donner un algorithme de calcul dans le cas gnral.
- Cas de variances spcifiques gales
On suppose n priori que les facteurs spcifiques ont tous mme variance
thorique (j2; autrement dit par hypothse 6 = (j2I :
w = [ r ~ I
et, si on note 52 une estimation de (j2 , la relation [3.2 - 8] devient:
xi =rf
j
+5ej
On obtiendrait une estimation de r en cherchant les composantes
principales de la matrice (5 - 5
2
1). En effet, effectuant l'analyse de 5, on crit:
5=UAU'
et par consquent:
250 Mthodes explicatives 01/ drives _ Chapitre 3
5-5
2
1 = UAU'-/UU' = U(A-5
2
I)U'
Les valeurs propres de (5 - 52 1) sont celles de 5 diminues de 52 (les
vecteurs propres tant identiques). Puisque (5 - 5
2
1) doit tre de rang q, il est
ncessaire que 52 soit valeur propre multiple d'ordre p- q pour S.
En particulier si, dans une analyse en composantes principales, les petites
valeurs propres sont sensiblement gales, on peut considrer que les
donnes sont engendres par un modle factoriel variances spcifiques
gales 1.
-Une mthode de calcul dans le cas gnral
La mthode que nous donnons ici est simple 2. Elle procde de faon
itrative, en posant au dpart Li = o. On calcule les vecteurs propres
unitaires de 5 rangs dans le tableau U :
5=UAU'='
Si l'on veut retenir q facteurs communs, on ne garde que les q premires
colonnes de , tableau que l'on notera l' On devrait pouvoir crire:
5 =
1

1
+Li
On estimera donc provisoirement Li par les lments diagonaux Li] de
(5- ]l), et on calculera les q premiers vecteurs propres
2
de (S-Li]).
A l'itration suivante on estime Li par les lments diagonaux Li
2
de
(5-
2
2) et l'on poursuit les oprations jusqu' observer une convergence
raisonnable du processus. On aura alors obtenu la dcomposition cherche:
5 =rr' +Li.
Mentionnons pour conclure ce bref aperu les travaux d'Anderson et Rubin
(1956) et de Lawley et Maxwell (1963) qui ont plac l'analyse factorielle en
facteurs communs et spcifiques dans un cadre infrentiel classique.
1 Ce modle il variances spcifiques gales peut tre justifi lorsque les p variables sont
mesures avec le mme instrument (exemples: mensurations anthropomtriques), et
donc avec la mme erreur.
2 Cette procdure est parfois appele analyse en facteurs principaux. Pour une
premire estimation de 1'1, on peut galement prendre (Joreskog, 1963), lorsque S est
une matrice des corrlations, 8
j
j' = 1 - Rf, o la quantit Rf est le coefficient de
corrlation multiple de la variable j avec toules les autres. Ainsi, une variable trs peu
corrle avec les autres aura une variance spcifique forte. Une variable qui peut
s'exprimer comme combinaison linaire des autres aura une variance spcifique nulle.
Notons que 1 - Rf est l'inverse du jme lment diagonal de S-l.
Section 3.3
Analyse factorielle discriminante
On dsigne sous le nom d'analyse discriminante une famille de techniques
destines classer (affecter des classes prexistantes) des individus
caractriss par un certain nombre de variables numriques ou nominales.
L'origine de cette mthode remonte aux travaux de Fisher (1936) ou, de
faon moins directe, ceux de Mahalanobis (1936). Elle est une des
techniques d'analyse multidimensionnelle les plus utilises en pratique
(Credit-scoring, diagnostic automatique, contrle de qualit, prvision de
risques, reconnaissance des formes).
L'analyse factorielle discriminan te ou analyse linaire discriminante, est
une mthode la fois descriptive et prdictive, qui donne lieu, comme les
mthodes factorielles prsentes au chapitre 1, des calculs d'axes
principaux. Elle peut tre considre comme une extension de la rgression
multiple dans le cas o la variable expliquer est nominale et constitue la
variable de partition. Ces deux techniques constituent d'ailleurs des cas
particuliers de l'analyse canonique (cf. section 3.1).
Nous ne prsenterons pas toutes les techniques d'analyse discriminante qui
donnent lieu une littrature presqu'aussi tendue que la rgression et le
modle linaire. Nous renvoyons le lecteur des ouvrages spcifiques sur la
question, notamment l'ouvrage de Tomassone et al. (1988) et les ouvrages
dits par Celeux (1990) (discrimination partir de variables continues) et
Celeux et Nakache (1994) (discrimination partir de variables qualitatives)l.
3.3.1 Formulation du problme et notations
On dispose de n individus ou observations dcrits par un ensemble de p
variables (Xl, x2, ... , Xp) et rpartis en q classes dfinies a priori par la variable
y nominale q modalits
2

1 Signalons dans la littrature de langue anglaise l'ouvrage de synthse (riche de plus


de 1200 rfrences) de McLachlan (1992) et les articles, galement de synthse, de
Lachenbruch et Goldstein (1979), de Gnanadesikan (1989) ; parmi les manuels
classiques gnralistes qui traitent de l'analyse discriminante, Anderson (1958, 2nd ed.
1984), Cacoullos (1973), Krishnaiah et Kanal (1982); parmi les manuels plus
spcialiss, Goldstein et Dillon (1978), Hand (1981). Dans le domaine des mthodes
statistiques de la reconnaissance des formes, outre l'ouvrage prcit de McLachlan, les
ouvrages de base sont Fukunaga (1972), Duda et Hart (1973), Devijver et Kittler
(1982). Agrawala (1977) contient des rimpressions de rfrences historiques.
2 Dans ce chapitre, le vecteur y a des composantes entires donnant les numros des
classes, et Ydsigne le tableau disjonctif d'ordre (n,q) correspondant.
252 Mthodes explicatives ou drives _ Chapitre 3
L'analyse discriminante se propose dans un premier temps de sparer au
mieux les q classes l'aide des p variables explicatives. Dans un deuxime
temps, elle cherche rsoudre le problme de l'affectation d'individus
nouveaux, caractriss par les p variables, certaines classes dj identifies
sur l'chantillon des n individus (appel chantillon d'apprentissage).
On distingue par consquent deux dmarches successives, d'ordre descriptif
puis dcisionnel:
- chercher des fonctions linaires discriminantes sur l'chantillon
d'apprentissagE de taille n qui sont les combinaisons linaires des
variables explicatives (Xl, X2, ... , xp) dont les valeurs sparent au mieux les
q classes.
- connatre la classe d'affectation de n' nouveaux individus dcrits par les
variables explicatives (Xl, X2, ... , xp). Il s'agit ici d'un problme de
classement dans des classes prexistantes, par opposition au problme de
classification (trait au chapitre 2) qui consiste construire des classes les
plus homognes possibles dans un chantillon.
Xl ... xp
y
n observations
(chantillon
d'apprentissage)
n'observations
(supplmentaires)
x
Fonctions
-4- discriminantes
1--affectation--'-"
Figure 3.3 - 1
Principe de l'analyse discriminante
Considrons pour fixer les ides le tableau de donnes (200, 30) qui contient,
pour n =200 malades, les valeurs de p =30 variables issues d'analyses
biologiques et d'examens cliniques. Il existe par ailleurs une partition de ces
200 malades selon q = 3 catgories de diagnostics raliss aprs des
interventions beaucoup plus coteuses que les 30 mesures prcdentes. On
se pose la question suivante: tant donn des patients supplmentaires (en
nombre n') sur lequel on ralise les 30 analyses et examens, peut-on prvoir
leurs catgories de diagnostic? La question rpond ici un besoin pratique
l
:
1 Les exemples les plus classiques d'analyse discriminante appartiennent sans doute
au domaine mdical (aide au diagnostic, aide la dcision en matire d'intervention)
mais de nombreuses applications se dveloppent dans le domaine du scoring bancaire
(prvision de l'ventuelle dfaillance d'un dbiteur), du contrle de qualit (prvision
de qualit d'un produit en agro-industrie il partir de mesures externes) et surtout de la
reconnaissance des formes (reconnaissances de caractres manuscrits ou d'images-
radar, etc.).
3.3 _ Analyse factorielle discriminante 253
est-ce-que des mesures nombreuses mais d'accs facile peuvent contenir
une information sur un phnomne ou un tat plus difficile identifier?
Soit le tableau des donnes X n lignes (individus ou observations) et p
colonnes (variables), de terme gnral Xij. Les n individus sont partitionns
en q classes. Chaque classe k caractrise un sous-nuage Ik de nk individus i
avec:
q
L,nk ==n
k=l
Par Xkj on dsigne la moyenne de la variable Xj dans la classe k. C'est la jme
coordonne du centre de gravit Gk du sous-nuage Ik :
Xkj == 2. L,Xij == Gkj
nk iEl
k
Figure 3.3 - 2
Reprsentation du nuage des individus partitionns
La moyenne de la variable Xj sur l'ensemble des individus qui correspond
la jme coordonne du centre de gravit G du nuage des individus vaut:
1 n q n
Xj =- L,xij == I. i
Xkj
==G
j
n
i
=l k=l n
3.3.2 Fonctions linaires discriminantes
L'analyse factorielle discriminante consiste rechercher les combinaisons
linaires de p variables explicatives (Xl, x2, ... , x
p
), gnralement continues,
qui permettent de sparer au mieux les q classes.
La premire combinaison linaire sera ceBe dont la variance entre les classes
(inter-classes) est maximale, afin d'exalter les diffrences entre les classes, et
dont la variance l'intrieur des classes (intra-classes) minimale pour que
l'tendue dans les classes soit dlimite. Puis, parmi les combinaisons
linaires non corrles la premire, on recherchera celle qui discrimine le
mieux les classes, etc.
254 Mthodes explicatives ou drives _ Chapitre 3
Ces combinaisons linaires seront les fonctions linaires discriminantes.
Dsignons par a(i) la valeur, pour l'individu i, d'une combinaison linaire a
des p variables pralablement centres:
p
a(i) = Ia/xij -Xj)
j=1
La variance var(a) de la nouvelle variable synthtique a(i) vaut, puisque am
est centre:
1 n 1 n p
var(a) = - Ia
2
(i) =- I[ L aj(xij _Xj)]2
11 i=1 11 i=1 j=1
1 Il P P _ _
var(a)=-I l Iajaj'(xij-Xj)(Xij'-Xj')
n i=1 j=1 j'=I
En intervertissant les sommations et en posant:
1 Il
t .. , - -"(x -x)(x" -x") - cov(x x)
}} - n L 1) ) 1) ) - )' )
;=1
la variance de la combinaison des variables a peut s'crire:
P P
var(a) = l Iajaj'cov(xj'xj') = a'Ta
j=Ij'=1
o a dsigne le vecteur dont les p composantes sont al, ... , ap et T dsigne la
matrice des covariances des p variables, de terme gnral tjj"
Nous allons montrer que la variance de a se dcompose en variance intra-
classes et en variance inter-classes, ce qui correspond une dcomposition
analogue de la matrice des covariances T.
a - Dcomposition de la matrice de covariance
La covariance totale entre deux variables Xj et xi' s'crit:
cov(Xj,xj') =l.. [I(Xij -Xj)(xij' -xj')] =tH'
n k=I iE/k
Comme en analyse de la variance, nous allons dcomposer cov(Xj'xj') en
somme de covariances intra-classes ( l'intrieur des classes) et covariances
inter-classes (entre les classes).
Pour cela nous partirons de l'identit, pour i, j, k:
(Xij -Xj) =(Xij -Xkj)+(Xkj -Xi)
La somme entre crochets dans la formule de la covariance se dcompose
alors en quatre termes, dont deux sont nuls.
3.3 _ Analyse factorielle discrimillallte
En effet, par dfinition de Xkj :
IJXij - Xkj)(Xkr - xr) = (Xkj' -xr) IJXij - Xkj) =0
iE1
k
iE1
k
255
de faon analogue, les sommes ci-dessous s'annulent:
I,(Xkj -Xj)(xij' -Xkr) = 0
iE1
k
Il reste la formule dite formule de dcomposition de Huyghens (ou
quation d'analyse de la variance):
tjr =djr +ejr
avec:
q nk - - - -
ejj' ="2>;;(Xkj - Xj)(Xkr -xr)
k+l
Ces p2 relations se notent sous forme matricielle] :
T=D+E [3.3 - 1]
Ainsi, la variance d'une combinaison linaire a des variables se dcompose
d'aprs la relation [3.3-1] en variance interne et variance externe:
a'Ta =a'Da +a'Ea [3.3 - 2]
Rappelons que, parmi toutes les combinaisons linaires des variables, on
cherche celles qui ont une variance intra-classes minimale et une variance
inter-classes maximale. En projection sur l'axe discriminant a, chaque sous-
nuage doit tre, dans la mesure du possible, la fois bien regroup et bien
spar des autres sous-nuages.
Il s'agit donc de chercher a tel que le quotient a'Ea/a'Da soit maximal (ou
a'Da/a'Ea minimal).
D'aprs la relation [3.3-2] il est quivalent de minimiser a'Ta/a'Ea ou de
rendre maximal j(a) tel que:
f(a)= a'Ea
a'Ta
b - Calcul des fonctions linaires discriminantes
La fonction j(a) maximiser est le rapport de la variance inter-classes la
variance totale. Cette fonction tant homogne de degr 0 en a (invariante si
1 La matrice des covariances Totale T se dcompose en une matrice d'inertie intra-
classes D (Dans les classes) et une matrice d'inter-classes E (En1re les classes).
256 Mthodes explicatives 01/ drives _ Chapitre 3
a est chang en a, tant un scalaire quelconque), il est quivalent de
chercher le maximum de la forme quadratique a'Ea sous la contrainte
quadratique a'Ta = 1.
Ceci conduit la relation! :
Ea = ;na [3.3 -3)
Lorsque la matrice des covariances T est inversible, on obtient:
T-1Ea = a
a est vecteur propre de T-1E relatif la plus grande valeur propre .
En prmultipliant les deux membres de [3.3 - 3] par le vecteur a' on constate
que a'Ea, le maximum cherch, n'est autre que .
La plus grande valeur propre , quotient de la variance externe de la
fonction discriminante par la variance totale, est infrieure 1 d'aprs la
relation [3.3 - 1). On l'appelle quelquefois pouvoir discriminant de la
fonction a.
Remarque
En rendant maximum le quotient b'Eb/b'Db les combinaisons linaires
discriminantes b seraient alors les vecteurs propres de la matrice D-
1
E o la matrice
D-
1
dfinit la mtrique de Mahalanobis. La valeur propre J1 correspondant, solution
de D-
1
Eb = Jib est relie . par la formule:
.
J1=/_.
On a videmment J1 d? . , puisque la variance interne est toujours infrieure la
variance totale.
Le vecteur b est comme a solution de l'quation [3.3 - 3] mais doit respecter la
contrainte b'Db = 1 .
Les vecteurs a et b sont lis par la relation
2
:
a =(,i1=T) b
c - Diagonalisation d'une matrice symtrique
La matrice T-1E n'est pas symtrique. Mais il est possible de se ramener la
diagonalisation d'une matrice (q,q) symtrique. (Rappelons que p est le
nombre de variables et q le nombre de classes avec dans la plupart des
applications q < p).
1 Comme en analyse gnrale (section 1.1) ou en analyse canonique (section 3.1), nous
sommes conduits annuler le vecteur des drives partielles du lagrangien
L=a'Ea- (a'Ta-I) par rapport a 1 ce qui donne la relation: 2Ea - 2 .Ta = 0, d'o
finalement Ea =.Ta.
2 Posant a = .; b , les deux relations a'Ea =). et b'Eb = Ji conduisent la relation
';2 b'Eb =., d'o: ';2Ji =. et'; = ..JI-
3.3 _ Altalyse factorielle discrimiltaltte
En effet la matrice E, de terme gnral:
257
[3.3 -4]
q
nk (- - )(- -)
ejj' = Ln Xkj - Xj Xk] - x]
k=l
est le produit d'une matrice C Plignes et qcolonnes par sa transpose; cette
matrice C a pour terme gnral:
fi
k (- -)
c'k = - xk'-
x
'
] n J )
Avec la dcomposition E=CC', la relation [3.3 - 3] s'crit :
CC'a =Ta
Posons:
[3.3 -5]
cette relation s'crit alors:
[3.3 - 6]
Il est clair que tout vecteur propre w relatif une valeur propre (diffrente
de 0) de la matrice symtrique C'T-lC d'ordre (q, q) vrifie galement [3.3-6].
Le vecteur a et le scalaire vrifient alors la relation [3.3 - 3]. Il suffit en
pratique d'effectuer la diagonalisation de cette matrice symtrique!, puis
d'en dduire a par la transformation [3.3 - 5].
3.3.3 Cas de deux classes:
quivalence avec la rgression multiple
Lorsque la variable y ne prend que deux valeurs, chacune caractrisant une
classe, des simplifications apparaissent. L'analyse discriminante est alors un
cas particulier de la rgression multiple.
On reprera les deux classes par les indices 1 et 2. La matrice des covariances
E entre classes a pour terme gnral:
nI (- _ )(_ -) n2 (- - )(- -)
e.. , =- xl' - X xl" - x ., + - x2' - X x2" - x .,
JJ n ) ) ) ) n ) ) ) )
avec:
- nI _ n2_
x'=-xI'+-x2'
) n ) n )
En remplaant Xj par sa valeur et en tenant compte du fait que nI + n2 = n,
on trouve:
IDe plus cette matrice symtrique d'ordre (q, q) sera en gnral notablement plus petite
que la matrice non-symtrique T-I Ed'ordre (p, p).
258 Mthodes explicatives Ott drives _ Chapitre 3
nl
n
l (- _ )(- -)
ejj' = -1- Xlj - Xlj xli' - Xli'
n
La matrice symtrique E d'ordre (p,p) et de rang l, peut tre considre
comme le produit d'une matrice colonne e par sa transpose:
E =ee'
avec:
,fnl
n
l - _
c- =---(Xl' -Xl')
) n ) J
La relation [3.3 - 3] s'crit alors:
T-lee'a = a
Prmultiplions les deux membres pM e':
[e'T-le]e'a =/te'a
La quantit entre crochets est un scalaire, gal par consquent . qui est ici
une valeur propre unique car E est de rang 1.
Cette valeur propre vaut donc: . =cT-le
. est appele distance gnralise entre les deux classes ou encore "Distance
de MaJwlanobis ". Le vecteur propre correspondant:
a = T-lc
est l'unique fonction discriminante.
Considrons un vecteur w n composantes, dfini par:
w. =f ~ n J n l si le i
me
individu appartient la classe 1
1 l ~ n z / n l s'il appartient la classe 2
La rgression multiple expliquant w par les colonnes de X conduit au
vecteur de coefficients not ici b :
On vrifie que:
b =(X'Xr
1
X'w, avec: -.!.X'X=T
n
d'o:
1X'
- w=c
n
b =T-lc
Le vecteur des coefficients de rgression b concide par consquent avec le
vecteur des composantes de la fonction discriminante a calcul
prcdemment 1.
1 Notons cependant que les tests et autres procdures statistiques seront d'une autre
nature.
3.3 _ Analyse factorielle discriminante 259
3.3.4 Lien avec d'autres mthodes
L'analyse factorielle discriminante est un cas particulier de l'analyse
canonique lorsque l'un des deux ensembles de variables est form par les
indicatrices d'une partition. Lorsque les deux ensembles sont forms de
variables indicatrices, on retrouve l'analyse des correspondances, qui est
une double analyse discriminante (cf. aussi 3.1.3). On peut galement
prsenter la mthode comme une analyse en axes principaux du nuage des
points moyens dans une mtrique particulire.
a - L'analyse canonique
Comme en analyse des correspondances multiples, la variable nominale q
classes sera reprsente par un codage disjonctif complet. On construit ainsi
une matrice Y n lignes et q colonnes de terme gnral Yik valant 1 si
l'individu i appartient la classe k ou 0 sinon. Autrement dit, nous
ajoutons aux variables initiales X des variables artificielles Y qui indiquent
l'appartenance aux diverses classes.
p
i
n X
y
Xjj J\i2 Xp 0 0 0 1 0
Figure 3.3 - 3
Tableau de donnes [X,Y]
Les p colonnes des variables observes du sous-tableau X seront centres et
notes X. Nous poserons:
X - x -x
1) - IJ J
Notons qu' la diffrence de l'analyse canonique, les colonnes de Y ne sont
pas centres: la somme des lments de la Jcme colonne vaut nk.
L'analyse canonique du tableau [X, Y] conduit chercher le vecteur propre a
de la matrice N (formule [3.1 - 4] du 3.1.2.a) :
N = (X'X)-lX'y(y'yr1Y'X
Explicitons les diffrents lments de la matrice N en tenant compte de la
nature particulire des colonnes de Y :
1
-la matrice -X'X n'est autre que la matrice des covariances empiriques
n
dsigne prcdemment par T.
260 Mthodes explicatives 011 drives _ Chapitre 3
-la matrice 0 =Y'Y est diagonale et son k
me
lment diagonal vaut nk,
effectif de la k
me
classe
1
.
- la matrice p lignes et q colonnes H = X'y a pour terme gnral:
n 11
h
jk
=LXijYik =L(Xij - Xj)Yik =L(Xij - Xj) =nk(xkj - Xj)
i=1 i=1 iE!k
En vertu de la relation [3.3 - 4), on peut crire:
h
jk
=.,jnnkCjk
soit:
H = X'y =.Jn C (Y'y)I/2
Ces dernires remarques nous permettent d'crire:
X'y(y'y)-lY'X= n CC' =nE
puisque:
(X'Xr
1
=.!:. T-
1
n
la matrice N devient finalement: N = rIE
et le vecteur a cherch vrifie bien la relation [3.3 - 3] :
Ea = Ta
Nous pouvons galement noter que l'on a, pour les deux types d'analyse, la
mme contrainte de normalisation:
a'Ta = 1
Il Y a donc concidence entre variable canonique et fonction discriminante.
L'analyse discriminante apparat ainsi comme un cas particulier de l'analyse
canonique (sans centrage pralable des variables indicatrices) lorsque l'un
des deux ensembles est constitu de vecteurs boolens dcrivant la partition
de l'ensemble des individus.
b - L'analyse des correspondances
Lorsque le sous-tableau X dcrit lui aussi une partition en p classes, les
rsultats du paragraphe prcdent montrent immdiatement que l'analyse
des correspondances est un cas particulier de l'analyse factorielle
discriminante.
1 En effet, on a la relation -YikYik=8wllk car J'individu i appartient soit la classe k,
;=1
soit la classe k'; u'=l si k=k' et vaut asinon, Pour k=k', il Yaura autant de termes
non nuls dans la somme que d'individus dans la classe k.
3.3 _ Analyse factorielle discriminaI/te 261
"li( f >< q >-
k'
y
o 0 0 1 0
Figure 3.3 - 4
Tableau de donnes [X,Y]
Les deux sous-tableaux X d'ordre (n,p) et Y d'ordre (n,q) de la matrice des
donnes [X, Y] sont forms de variables indicatrices et jouent maintenant
des rles analogues. Dans ce cas, les matrices X'X et Y'Y sont diagonales et
ont pour k
me
lment les effectifs de la classe k de chacune des partitions;
la matrice X'Y n'est autre que le tableau de contingence d'ordre (p,q) croisant
les deux partitions Px et Py .
Conformment aux conventions adoptes en analyse des correspondances,
on notera
1
:
-A.t le k
me
lment diagonal de la matrice 1.. X'X (= Op), (k ~ p)
. n
-h', le k'me lment diagonal de la matrice 1.. Y'Y (= Dg), k ~ q)
11
-AL l'lment gnrique de la matrice 1.. x'Y (= F), d'ordre (p,q)
n
Rappelons les formules tablies au paragraphe 3.1.2 reliant les variables
canoniques:
b = i(y,yfl Y'Xa
.
Leurs composantes s'crivent:
ak = 2. f Ak'b
k
' et
k'=l A.
On reconnat, sous cette forme, les relations barycentriques de l'analyse des
correspondances [1.3 - 12] et [1.3 -13] reliant les coordonnes des deux nuages
sur un mme axe factoriel.
Cette identit suffit tablir qu'une analyse des correspondances est une
analyse canonique particulire o les tableaux X et Y contiennent les
variables indicatrices de deux partitions
2
.
1 n est ici l'effectif global alors qu'il tait dsign par k la section 1.3.
2 La premire racine canonique ,Vest l'homologue de la premire valeur propre, note
A. prcdemment pour J'analyse des correspondances.
262 Mthodes explicatives ou drives _ Chapitre 3
Les sous-espaces V X et Vy ont maintenant en commun la premire
bissectrice! de Rn; leur plus petit angle est donc nul.
Son cosinus (=1) est la valeur propre triviale dj rencontre en analyse des
correspondances lorsque l'analyse est faite par rapport l'origine et non par
rapport au centre de gravit.
On a alors = 1, ai =1 et bj =1, pour tout i et tout j dans les relations crites
ci-dessus. Le fait de centrer le tableau X revient projeter les points-
colOIUles sur le sous-espace orthogonal la premire bissectrice.
Cette opration ne modifie donc pas les variables canoniques non triviales.
L'analyse des LOrrespondances apparat comme une double analyse
discriminante car chacun des blocs dans [X,Y] dcrit une partition et aucun
d'entre eux n'est privilgi. Les fonctions linaires discriminantes
concident avec les facteurs de l'analyse des correspondances
2
du tableau de
contingence d'ordre (p,q) croisant les deux partitions.
c - Une analyse en axes principaux avec une mtrique particulire
L'analyse factorielle discriminante peut tre considre comme une analyse
gnrale du nuage des q centres de gravit des classes k munis des masses
nk/n et avec la mtrique T-
l
ou la mtrique D-
l
dite de Mahalanobis.
Le nombre d'axes discriminants est gal q - 1 dans le cas o n > p > q.
Il suffit en effet de se reporter au paragraphe 3.3.2.c prcdent o est
intervenu pour la premire fois le tableau C des moyennes centres.
L'analyse gnrale de ce tableau C avec la mtrique T-
l
, selon les rsultats
du paragraphe 1.1.6.a du chapitre 1 (analyse gnrale avec une mtrique
quelconque: ici, X = C, M = T-
l
et N = 1) conduit, pour trouver l'axe
factoriel u, la relation:
CCT-lu = Il.u
Posant T-lu = a, o a est le facteur (oprateur projection) correspondant
l'axe factoriel u :
C'Ca = Il.Ta
De la mme faon, avec la mtrique 0-
1
, on obtient:
CCa = 1l.0a
1 La somme des colonnes de Xet la somme des colonnes de Y constituent le vecteur
dont toutes les composantes valent 1.
2 Cette prsentation permet de montrer directement que les valeurs propres de
l'analyse des correspondances, tant des coefficients de corrlntion canonique (ou des
pouvoirs discriminants) sont infrieures ou gales 1. De plus on pourra interprter les
valeurs propres de l'analyse des correspondances en terme de pouvoir discriminant des
facteurs (axes factoriels) vis--vis des partitions tudies.
3.3 _ Analyse factorielle discriminante 263
Choisir la mtrique 0-
1
pour analyser le nuage des points-moyens, c'est
considrer comme quidistantes du centre j (par exemple) des zones
quiprobables (au sens des ellipsodes de densit) d'quation:
(x - Xj )'O-l(x - Xj) = constante
Grce cette mtrique, la distance est interprte en terme de
"vraisemblance d'appartenance".
Ainsi, sur la figure 3.3 - S, o sont reprsentes trois classes ayant mmes
ellipsodes de densit (quation ci-dessus, 0 tant la matrice des covariances
interne commune chaque groupe), les points A et B sont quidistants
(selon la mtrique 0-
1
) du centre de classe GI.
Figure 3.3 - 5
Illustration de la mtrique 0-
1
Avec la mtrique euclidienne usuelle, B serait affect plutt la classe 3 qu'
la classe 1. On voit donc l'intrt de faire intervenir cette mtrique dans
l'analyse des centres'. Nous reviendrons sur cette question au paragraphe
suivant dvolu aux rgles d'affectation.
3.3.5 Principes des rgles d'affectation (ou de classement)
Une fois trouves les fonctions discriminantes qui sparent au mieux les
individus rpartis en q classes, on veut trouver la classe d'affectation d'un
nouvel individu, pour lequel on connat les valeurs des variables
(Xl, x2, ..., Xp).
Une rgle simple et gomtrique d'affectation est de choisir la classe dont le
centre de gravit est le plus proche du point-individu. La mtrique
1 Il est clair que cette mtrique prend en compte une certaine anisotropie (orientation
prfrentielle) de la densit. Elle n'a cependant de sens que si les ellipsodes de densit
sont les mmes l'intrieur de chaque classe. C'est prcisment ce qui caractrise
l'analyse discriminante linaire, par opposition l'analyse discriminante quadratique,
qui autorise des densits de formes diffrentes, et donc des mtriques diffrentes pour
chaque classe.
264 Mthodes explicatives ou drives _ Chapitre 3
gnralement utilise dans les applications les plus courantes est celle de
Mahalanobis globale (0-
1
), ou locale ( 0k"1, o Ok est la matrice des
covariances internes au groupe Ik).
Cette approche purement gomtrique ne prend cependant pas en compte
les probabilits a priori des diffrentes classes, qui peuvent tre trs ingales
dans certaines applications (prvision de dfaillance par exemple, ou
diagnostic d'un vnement rare). Le modle baysien d'affectation permet
d'enrichir ce point de vue.
a - Le modle baysien d'affectation
Au moment de l'apprentissage, nous savons que l'individu i appartient au
groupe Ik (appartenance code par la valeur: Yi = k) et nous calculons une
estimation de la probabilit P(Xi IIk), c'est--dire la probabilit de Xi sachant
que Ik est ralis.
Au moment de l'affectation d'un individu nouveau not x, on peut
calculer les diffrents P(x 1I
k
) pour k = l, 2, ... ,q. Il parat raisonnable
d'affecter x la classe Ik pour laquelle P(x 1I
k
) est maximale.
Cependant, ce ne sont pas les probabilits P(x II
k
) qu'il faudrait connatre
mais les probabilits P(Ikl x), c'est--dire la probabilit du groupe Ik sachant
que x est ralis.
Le thorme de Bayes] permet de procder cette inversion des probabilits.
Il exprime P(Ikl x) en fonction de P(x 1Ik), P(Ik) et P(x) :
P(I 1x) = P(x IIk)P(I k)
k P(x)
P(Ik) est la probabilit a priori du groupe k. P(x) s'exprime en fonction de
P(x 1 Ik) et de P(Ik); d'o la formulation classique du thorme de Bayes:
P(Iklx)= P(xlrk)P(Ik)
q
LP(x 1Ik )P(Ik)
k=l
Le dnominateur est le mme pour toutes les classes. La classe d'affectation
de x sera celle pour laquelle le produit P(x IIk)XP(Ik) est maximal. Si les
probabilits a priori P(Ik) des classes sont gales pour toutes les valeurs de k,
les classements selon P(Ikl x) et P(x 1 I
k
) sont identiques.
1 Pour un expos de l'approche baysienne qui donne lU1 cadre conceptuel spcifique
la thorie de l'estimation et de la dcision statistique, voir Robert (1992).
3.3 _ Analyse factorielle discriminante 265
Pour tester l'efficacit des rgles d'affectation, on mesure les erreurs de
classement par des mthodes de rchantillonnage, notamment la
validation croise ou le bootstrap (cf. 4.2.2). Comme dans le cas du modle
linaire, le choix des variables explicatives est une opration dlicate.
L'tude de la stabilit des fonctions discriminantes est difficile. Les rgles
d'affectation ainsi que l'estimation des taux d'erreur de classement
dpendent souvent de la taille de l'chantillon d'apprentissage.
b - Le modle baysien dans le cas normal
Notons fk(X) la densit de probabilit de x connaissant Ik dans le cas
multinormal, Ilk et Lk dsignant respectivement la moyenne et la matrice
des covariances thoriques l'intrieur du groupe Ik:
1 _.!(x - ~ k ) Lk1(X - ~ k )
A(x) = e 2
(21t')P/2ILkll/
2
que l'on prfrera crire:
A(x) = (21t'fp/2ILkl-
1
/2 exp{ ~ x -Ilk)' LiNx -Ilk)}
L'affectation se fera selon la rgle:
choisir k tel que ff(x)P(I
j
) =max{A(x)P(I
k
)}
k ~ q
ce qui est quivalent trouver le minimum sur k de la fonction sq(x)
appele score discriminant:
[3.3 -7]
Dans le cas o les distributions dans chaque classe ont mme matrice des
covariances (cas illustr par la figure 3.3 - 5), la densit s'crit:
A(x) = (21t'fP/2ILr
1
/2exp{-1(x -Ilk)'L-1(x -Ilk)}
Il suffit alors de prendre pour score discriminant:
[3.3 - 8]
Si de plus les probabilits a priori P(Ik) sont gales, le score discriminant
concide avec la distance de Mahalanobis :
[3.3 - 9]
et la rgle baysienne d'affectation devient la recherche du centre le plus
proche selon cette distance.
Le score discriminant donn par la formule [3.3 - 7] correspond l'analyse
discriminante quadratique. Les cloisons interclasses donnes par l'quation
SCk(X) = SCk'(X), (k ~ k'), sont en effet des hyperquadriques.
266 Mthodes explicatives 01/ drives _ Chapitre 3
Les scores discriminants donns par les formules [3.3 - 8] ou [3.3 - 9]
correspondent l'analyse discriminante linaire. Dans l'quation
sq(x) =sq'(x), (k;;t k'), les termes du second degr en x disparaissent et les
cloisons interclasses sont dans ce cas des hyperplans.
Ces hyperplans ont une quation de la forme:
X'L-
1
(llk' -Ild=constante
Notons que le calcul suppose connus les paramtres thoriques Ilk et L.k.
Ils suggrent de substituer en pratique les estimations empiriques aux
paramtres thoriques. Cette substitution est galement encourage par
l'approche descriptive dveloppe au dbut de cette section, dans laquelle
les distances de Mahalanobis sont apparues de faon naturelle, en cherchant
maximiser le rapport variance externe sur variance interne, sans recours
l'hypothse de normalit.
Les scores discriminants utiliss en pratique
l
, lorsque l'hypothse de
normalit est plausible, sont donc ceux prsents ici avec utilisation des
estimations empiriques des paramtres.
c - Autres rgles d'affectation
Il existe d'autres mthodes de discrimination que celles apparentes
l'analyse factorielle discriminante ou au modle multinormal. Elles
impliquent d'autres rgles d'affectations.
Citons, parmi les mthodes les plus utilises
2
: les mthodes d'estimation
non-paramtriques de la densit, connues galement sous le nom de
mthodes des noyaux (de Rosenblatt ou de Parzen), et les mthodes
d'affectation (galement non-paramtriques) utilisant les m plus proches
voisins.
- Estimation de la densit par noyaux
Une mthode simple de discrimination consisterait diviser l'espace
multidimensionnel de l'chantillon d'apprentissage en cellules de volumes
comparables Vr puis de compter, l'intrieur de chaque classe k, (k 5{ q) , les
nrk observations contenues dans chaque cellule r.
La frquence nrk/nk est une estimation de la probabilit qu'une observation
de la catgorie k appartienne la cellule v
r
. La rgle de Bayes permet alors
d'affecter une observation supplmentaire x une catgorie k, aprs avoir
dtermin la cellule Vr qui la contient.
1 Il n'est cependant pas ais de dmontrer l'optimalit de cette dmarche intuitive, sauf
dans des contextes asymptotiques assez particuliers (cf. Anderson, 1958; Friedman,
1989).
2 D'autres techniques de discrimination seront voques plus loin (mthodes
neuronales, rgression logistique).
3.3 _ Analyse factorielle discriminante 267
[3.3 -10]
Cette mthode est malheureusement impossible mettre en oeuvre car le
nombre de cellules devient vite prohibitif dans un espace p dimensions et
les chantillons n'ont pas une taille suffisante pour permettre une
estimation de frquence l'intrieur de chaque cellule.
On peut, pour la classe k, entourer d'une cellule chaque point observ, de
faon dcrire la densit dans l'espace llV. Si le point affecter x tombe
l'intersection de trois cellules de la classe k par exemple et en dehors des
cellules relatives aux autres classes, cela signifiera qu'il est dans une zone de
forte densit pour la classe k et donc qu'il a plus de chance d'appartenir
cette classe qu'aux autres. Cette ide, prsente ici de faon intuitive, est celle
des noyaux de Rosenblatt (1956).
Au lieu d'entourer les points de cellules de volumes fixes, on peut les
entourer d'une sorte de halo, une zone de densit qui dcrot lorsqu'on
s'loigne du point, de faon procder un lissage de cette densit dans
l'espace multidimensionnel. C'est la mthode d'estimation directe de la
densit par noyaux laquelle on attache le nom de Parzen (1962).
La mthode des noyaux consiste estimer la densit de probabilit
l'intrieur de la classe k dans l'espace lIV par une formule du type:
A(x) = _l_
IK
(x -Xi)
hPnk i=l h
La fonction K(z) doit vrifier les relations K(z) ;;? a, et fK(z)dz = 1. Elle
pourra tre choisie parmi les densits de probabilit usuelles. On note que
l'on a bien dans ces conditions:
fA(x)dx =1.
On utilise souvent la densit de la loi normale sphrique:
K(z) =
Le paramtre h qui intervient dans la formule [3.3 - 10] est la dimension de
la fentre. Dans le cas des noyaux normaux sphriques, il correspond
l'cart-type de la densit locale autour de chaque point. Si h est petit, le
lissage risque d'tre mauvais; si h est trop grand, il risque d'tre excessif. Le
choix de la dimension de la fentre est une des difficults de ces mthodes
d'estimation directe de densit
1
.
- Rgle des m plus proches voisins (Fix et Hodges, 1951)
Cette technique, utilise surtout en reconnaissance des formes, rsout d'une
autre faon le problme des cellules densit trop faible: on tend le
voisinage autour du point x jusqu' ce qu'il contienne m points de
1 Cf. Tomassone et al. (1988), 5i1verman (1986), Delecroix (1983), Hand (1982). Le
paramtre h, suppos UIque dans la formule [3.3 - 10] peut avoir, dans des modles
plus gnraux, tUle valeur diffrente pour chactUle des p variables et galement pour
chacune des qclasses.
268 Mthodes explicatives ou drives _ Chapitre 3
l'chantillon d'apprentissage. On affecte x la classe la plus reprsente dans
ce voisinage.
Cette mthode est particulirement simple mettre en uvre, surtout dans
un processus d'apprentissage progressif, car il n'y a pas de fonctions
complexes recalculer pour prendre en compte les nouveaux individus qui
enrichissent l'chantillon d'apprentissage.
Elle ncessite cependant des effectifs importants, des calculs d'affectation
coteux (pour les exigences de la reconnaissance des formes, o le
classement s'effectue souvent en temps rel) si les paramtres m ou p sont
grands
1
.
d - Qualit des rgles de classement
Il existe un cadre infrentiel paramtrique, apparent l'analyse
multidimensionnelle de la variance, qui permet de tester l'htrognit
des classes (test de l'galit des moyennes ~ test de l'galit des matrices de
covariances internes Ok). Ces tests (mentionns dans la plupart des manuels
de rfrence cits au dbut de la section 3.3) dont la robustesse est difficile
tablir, sont moins utiliss depuis l'avnement des mthodes non-
paramtriques de rchantillonnage qui seront voques la section 4.2 du
chapitre 4.
On esquissera ici, pour les besoins des dveloppements qui suivront, la
mthode dite de validation croise.
La validation croise
La mesure de la qualit d'une discrimination se fait partir des
pourcentages de bien classs (ou de mal classs) dans chaque classe, et du
pourcentage global de bien classs. Cette mesure peut galement, dans
certaines applications, faire intervenir des cots de mauvais classement.
On peut calculer un pourcentage de bien classs sur l'chantillon
d'apprentissage, ce qui donnera une ide optimiste de la qualit de la
discrimination. Ce pourcentage de bien classs augmente avec le nombre de
paramtres du modle, et peut tre excellent si le nombre de paramtres est
considrable, sans pour cela assurer que le modle permet de raliser une
prvision correcte. Le pourcentage de mal classs dans ces conditions est
appel le taux d'erreur apparent ou encore le taux d'erreur par
resubstitution.
1 Il existe des ponts thoriques entre la mthode des m plus proches voisins et
l'estimation directe de densit dans le cas de variables binaires (cf. Fix et Hodges,
1951; Aitchison et Aitken, 1976). II est galement possible, on l'a voqu, de travailler
avec des noyaux adaptatifs, en faisant varier la dimension de la fentre Il ou en
tenant compte des distances des m plus proches voisins. Pour une discussion de ces
diverses variantes, voir McLachlan (1992). Sur les divers algorithmes de m plus
proches voisins utiliss en reconnaissance des formes, cf. Dubuisson (1990). Sur les
problmes poss par des probabilits a priori ingales, cf. Chateau (1994).
3.3 _ Analyse factorielle discrimillallte 269
La mthode des chantillons-tests! recommande d'effectuer la
discrimination sur une partie seulement de l'chantillon d'apprentissage
(disons 80%) et de tester les rgles de discrimination sur les 20% non
utiliss.
On peut amliorer le calcul du taux d'erreur en divisant l'chantillon
d'apprentissage en m parties gales, en calculant la rgle sur un chantillon
partiel form de m-l parties, et le taux d'erreur sur la partie restante, ce qui
peut tre fait de m faons diffrentes. Ceci permet donc de calculer un taux
d'erreur moyen sur un chantillon aussi important que l'chantillon
d'apprentissage.
Plus m est proche de n, plus on se rapproche de la situation relle de
classement. La validation croise
2
correspond au cas m = n, autrement dit,
au cas pour lequel on effectue n discriminations en excluant chaque fois
une observation. Cette mthode est videmment coteuse en calcul mais
on peut parfois mettre en uvre des algorithmes vitant des recalculs
complets des fonctions discriminantes
3
.
La minimisation du taux d'erreur par validation croise peut tre utilise
comme critre pour calculer les paramtres de certains modles de
discrimination.
3.3.6 Rgularisation en analyse discriminante
Comme la rgression multiple (dont elle est un cas particulier dans le cas o
la variable nominale prdire n'a que deux catgories, cf. 3.3.3), l'analyse
factorielle discriminante ncessite l'inversion d'une matrice des
covariances des prdicteurs (la matrice totale T ou la matrice intraclasse D).
Dans le cas de l'analyse discriminante quadratique, le calcul des distances de
Mahalanobis locales demande d'inverser les matrices de covariances
internes chaque classe Dk (dont D est une moyenne pondre).
Ces matrices D ou T, et surtout les matrices Dk, calcules sur un effectif nk
plus petit que n, peuvent tre mal conditionnes ou mme singulires.
C'est systmatiquement le cas en analyse discriminante qualitative lorsque
les prdicteurs sont des variables nominales codes sous forme disjonctive
comme en analyse des correspondances multiples ou en analyse de la
variance (cf. 3.3.7).
1 On peut faire remonter cette pratique Highleyman (1962), mais elle a probablement
d tre utilise antrieurement, tant son principe relve du bon sens. Elle a t prne
notamment par Romeder (1973).
2 Attribue Lachenbruch et Mickey, 1968, cette mthode (cross-validation) aurait t
utilise ds 1964 par des chercheurs russes, selon Toussaint (1974). Ses proprits ont
t tudies par Stone (1974) et Geisser (1975). Une revue est faite par Hand(1986).
3 Cf. par exemple, Ce]eux (1990) pour le cas des fonctions linaires discriminantes.
270 Mthodes explicatives ou drives _ Chapitre 3
On prsentera brivement ci-dessous une mthode de rgularisation
propose par Friedman et la mthode de rgularisation par axes principaux
dj propose pour la rgression ( 3.2.5). Cette mthode a l'avantage de
fournir une description pralable de l'espace des prdicteurs et des
possibilits ultrieures de filtrage et de slection de l'information.
a - ~ n l y s rgularise de Friedman (1989)
Dans cette mthode de rgularisation, une nouvelle estimation Dk(?.,n est
calcule pour chaque matrice des covariances locales Ok, qui devient une
moyelU1e pondre des matrices des covariances globales et locales (rle du
poids ?.) et de la matrice unit (rle du poids y) :
0k(, y) =(1- y)Dk(?.)+ l. tr[Dk(?.)]1
p
avec:
0k() = (l-?.)Ok +?.O
(1- ?.)nk +?.n
Le scalaire tr[ Dk(?.)] est la trace de la matrice Dk(?.).
La dtermination des paramtres ?. et y se fait en optimisant les
pourcentages de bien classs obtenus par validation croise.
Ces techniques donnent des rsultats intressants dans le cas de tableaux de
donnes petits ou moyens, lorsque le problme initial est mal pos (n ~ p)
ou pauvrement pos (n > p, mais encore comparable p)l.
Dans le cas de grandes matrices clairsemes cependant, l'chelle du
phnomne cre de nouveaux problmes. Il est alors ncessaire de
comprendre ce qui se passe dans les espaces de dimension leve.
Est-il vraiment ncessaire de garder tous les axes principaux? Est-il possible
de filtrer l'information de base caractrise parfois par un haut niveau de
bruit? L'analyse par axes principaux rpond ces proccupations.
b - Analyse rgularise par axes principaux
Du point de vue numrique, la diagonalisation est une opration plus sre
que l'inversion des matrices. La thorie de la perturbation
2
nous apprend
que la stabilit des vecteurs propres est une fonction croissante des
diffrences entre valeurs propres conscutives. Dans ce contexte, s'il est
ncessaire d'liminer les dimensions correspondant des valeurs propres
nulles, il peut tre aussi avantageux d'liminer les dimensions
1 Voir aussi Callant (1991) pour une technique d'estimation des paramtres ft.. et y.
2 Cf. par exemple: Wilkinson (1965); Kata (1966) et les travaux de Escofier et Leroux
(1972) utilisant les rsultats de ces thories en analyse factorielle.
3.3 _ Analyse factorielle discriminante 271
correspondant aux petites valeurs propres, qui sont trs sensibles aux
perturbations du tableau de donnes
l
.
- Axes principaux de l'chantillon total
La teclmique de rduction qui sera utilise durant la premire tape dpend
de la nature et des proprits statistiques des donnes de base
2
Une simple
dcomposition aux valeurs singulires suffit pour une rgularisation
numrique, si l'on ne dsire pas de description de l'espace des prdicteurs.
Les nouvelles coordonnes de l'individu i sur l'axe principal r issu de
l'analyse de l'chantillon total sont dsignes par Zri ,
zri :: - x)
o ici ur est le vecteur propre normalis de T matrice des covariances
totales correspondant la valeur propre ar; ur est aussi la colonne de la
matrice U d'ordre (p, rmax) (o rmax est le nombre de valeurs propres
retenues). !
La distance euclidienne usuelle dans RP de tout point i au point-moyen Gk
de la classe k (le point i peut ne pas appartenir la classe k ni l'chantillon
d'apprentissage) peut s'crire:
P
d
2
(i,Gk)=I(xjj-xkj)2 [3.3-11]
j=l
si rmax:: p' (p' dsignant le rang de la matrice de donnes X), cette mme
distance s'crit, pour la nouvelle base:
[3.3 -12]
[3.3 -13]
avec
La distance de tout point i au centre Gk de la classe k dans la mtrique T-
1
(intervenant en analyse discriminante linaire, cf. 3.3.4.c) est telle que:
rmar ( -)2
D
2
(i,Gk)= l Zjr -Zkr
r=l ar
On a toujours rmax :;p'. La distance D
2
(i,Gk) est dite rgularise si rmax <p
ou si rmax :: p' avec p' < Min (n,p).
1 Cf. Les travaux de Wold (1976). Benzcri (1977 a) recommande que les analyses
discriminantes soient ralises sur les axes d'une analyse factorielle pralable.
2 Analyse en composantes principales dans le cas o les prdicteurs sont des variables
continues, situation retenue au cours des dveloppements qui prcdent; mais cette
rduction pourra aussi tre une analyse des correspondances dans le cas de frquences
ou des correspondances multiples dans le cas de variables nominales.
272 Mthodes explicatives ou drives _ Chapitre 3
[3.3 -15]
- Axes principaux de l'chantillon projet
Si l'on substitue la matrice de donnes X, de terme gnral Xij, la matrice
Xde terme gnral Xij = Xij - xkj o k est l'indice de la classe Ik laquelle
appartient l'observation i et o Xkj dsigne la moyenne de la variable j dans
cette classe
1
, on est conduit diagonaliser la matrice 0 (au lieu de T). Les
valeurs propres de 0 sont notes
r
et les coordonnes des observations sur
les nouveaux axes principaux
r
sont notes 1r.
La distance de tout point i au centre Gk de la classe k dans la mtrique 0-
1
(distance de Mahalanobis globale) est telle que:
r
max
-;::)2

2
(i,Gk) = L Zir Zkr [3.3-14]
r=1 ar
f)2(i,Gk) est rgularise si rmax = pU (o p" dsigne le rang de la matrice
transforme X) quand p"<Min (n,p) ou si rmax < p".
- Axes principaux dans les groupes
Pour chaque classe Ik, les matrices de covariances d'ordre (rmax ,rmax) sont
calcules sparment. On les exprimera ici partir des coordonnes de
l'analyse globale prcdente.
Les nouvelles coordonnes de l'individu i sur l'axe principal s de l'analyse
ralise l'intrieur de la classe Ik (il s'agit donc dans ce cas d'une simple
analyse en composantes principales non norme) sont
2
;
wski =v;k(Zi -zk)
o Vsk est le sme vecteur propre normalis de U'DkU correspondant la
valeur propre /3sk (/3sk est galement valeur propre de Ok)'
Avec ces coordonnes, on peut videmment retrouver les distances
usuelles, calcules cette fois dans chacune des q nouvelles bases (pour tout
point i et tout point-moyen G lorsque le nombre Smax (k) d'axes retenus
ce stade pour la classe k, vrifie; Smax (k) = rmax.
smJncCk)
d
2
(i,Gk) = L (Wski -Wksi
s=1
avec:
1 Comme l'opration de centrage global, cette opration correspond une projection P.
Si Ydsigne le tableau disjonctif complet d'ordre (n,q) dcrivant la partition prdire,
l'oprateur projection s'crit; P = 1.. y(y'y).ly'. On peut parler dans ces conditions
d'analyse interne ou conditionnelle; comme en analyse de la variance, on a limin la
dispersion due aux classes en supposant que celles..d avaient un effet additif.
2 Cette formule de projection sur l'axe t est videmment valable pour des points
n'appartenant pas la categorie k (points supplmentaires ou illust ratifs).
3.3 _ Analyse factorielle discrimillallte 273
La distance de Mahalanobis locale (intervenant en analyse discriminante
quadratique) peut s'crire:
sma,(k)( =--)2
c])2(i,Gk)= L wsk;-<vks [3.3-16]
s=1 f3sk
Une telle distance peut tre "rgularise" deux niveaux:
- une premire fois si rmllx < p' (p' dsigne le rang du tableau de donne);
- de nouveau si Smllx (k) <rmllx,
On a not que, si smllx(k) =rmllx = p, les distances donnes par les formules
[3.3 - 11], [3.3 - 12] et par les q formules [3.3 - 15] (il Y a q bases orthonormes
diffrentes donc q formules diffrentes) sont toutes gales.
- Exemple numrique d'application
L'exemple qui suit concerne les effets de la dimension des sous-espaces sur
les pourcentages de bien-classs, la fois dans les chantillons
d'apprentissage et dans les chantillons-tests.
Le jeu de donnes utilis est un tableau binaire clairsem de dimensions
(634, 83) contenant 4039 cases non-nulles
1
.
L'ensemble des 634 lignes (rpondants) peut tre rparti en q = 3 classes
d'ge. Le problme est de savoir dans quelle mesure ces classes ge peuvent
tre prdites partir des rponses. Notre critre d'valuation de la
discrimination est le pourcentage de succs (bien classs), qui sera calcul
systmatiquement la fois pour l'chantillon d'apprentissage et pour un
chantillon-test qui comprend le tiers (211 individus) de l'chantillon
global.
Valeurs propret
Val eurs
propres
0.4 -.
0, 3S ~
0,3 \
0,25 '-.11'.
0,2 . r.!.!...
-......!.-...
0,15 -...!._ ..............
0, l -..._.
0,05 _ ~ __
o ...........-.---",,'
20 40 60 80 100
Nombre d'axes principaux
Figure 3.3 - 6
Squence des valeurs propres de la premire analyse.
1 Il s'agit pour cet exemple de 4039 occurrences de p= 83 mots utiliss dans n = 634
rponses une question ouverte dans une enqute (cf. Lebart, 1992).
274 Mthodes explicatives ou drives _ Chapitre 2
La premlere tape est un changement d'axes par analyse des
correspondances. La squence des valeurs propres, visible sur la figure
prcdente (cf. figure 3.3 - 6), est assez typique des tableaux clairsems: la
dcroissance des valeurs propres est trs lente, presque linaire aprs l'axe
15. Les 15 premires valeurs propres correspondent 37% de la trace,
Chacun des axes restant correspond approximativement 1% de la trace.
70
65 %de
biens
classs
60
55
50
45
40
-.- Usuelle ECH APPR Usuelle ECH TEST
-- ::: :::: ./'
._.7
Mahal. locale/EchAppr /
j'\'./'/'
/ ..../
/.

Nombre d'axes principaux


35 __ __
10 15 20 25 30 35 40
Figure 3.3 - 7
Trajectoires des pourcentages de bien classs en fonction
du nombre d'axes principaux (axe des abscisses) selon trois distances
et selon le type d'chantillon (test ou apprentissage)
La figure 3.3 - 7 montre les trajectoires des pourcentages de succs obtenus
pour chacune des trois distances prcdentes: Distance euclidienne usuelle
(formule [3.3 - 12]), distance de Ma/wlanobis globale (formule [3.3 - 14]),
distance de Mahalanobis locale (formule [3.3 - 16]).
On note que les taux correspondant aux chantillons d'apprentissage
augmentent continment avec le nombre d'axes alors que les taux
correspondant aux chantillons-tests sont pratiquement stabiliss ds l'axe
15 (avec les notations ci-dessus, on peut choisir sans inconvnient
smax(k) =r
max
=15 alors que p =83 et p' =82).
3.3 _ Analyse factorielle discriminante 275
Parmi les trajectoires des chantillons d'apprentissage, le pourcentage de
bien classs correspondant la distance de Mahalanobis locale crot
fortement et atteint un niveau de 70% de succs pour 40 axes. Une telle
distance dpendant d'un nombre de paramtres plus important que les
deux autres, s'adapte souplement aux donnes d'apprentissage
l
, sans
fournir d'amlioration notable sur les chantillons-tests.
Pour cet exemple, la distance de Mahalanobis globale a des performances
trs voisines de la distance euclidienne usuelle. Les performances sont
lgrement suprieures pour l'chantillon d'apprentissage.
Cet exemple met bien en vidence la puissance du filtrage ralis par
l'analyse factorielle pralable. La plupart des traits structuraux susceptibles
de donner lieu une prvision sont retenus dans l'espace 15 dimensions
des premiers axes.
3.3.7 Discrimination sur variables nominales
L'analyse factorielle discriminante que nous venons de prsenter s'applique
un ensemble de n individus rpartis en q classes dfinies a priori par la
variable nominale y et dcrits par p variables (Xli X2, ... , x
p
) continues.
Lorsque les p variables explicatives sont nominales, le calcul des fonctions
linaires discriminantes ne peut plus tre appliqu, en raison des
singularits de la matrice X, mais la rgularisation par axes principaux
permettra de lever cette difficult.
a - Analyse factorielle discriminante qualitative
Comme pour tout traitement de variables nominales, on procde au codage
disjonctif complet des p variables explicatives. L'analyse factorielle
discriminante qualitative consiste alors en une analyse factorielle
discriminante classique sur les indicatrices des variables explicatives.
La matrice des variables explicatives X=[X
1
,X2,""X
p
] n'est pas inversible
puisqu'il existe p relations linaires entre les colonnes du tableau disjonctif
complet. On peut alors, comme pour l'analyse de la variance, supprimer
une modalit de chaque variable nominale ce qui ne modifie pas le sous-
espace des variables explicatives Vx. Ceci ne suffit pas assurer que la
matrice rduite est bien conditionne.
La rgularisation par axes principaux revient dans ce cas raliser une
analyse discriminante classique sur les facteurs de l'analyse des
correspondances multiples
2

1 Plus le nombre de paramtres augmente, plus l'apprentissage se rapproche de ce que


l'on appelle en intelligence artificielle l'apprentissage par coeur, c'est--dire une
adaptation trompeuse une situation donne, sans possibilit de gnralisation.
2 Enchanement connu en particulier sous le nom de mthode DISQUAL (Saporta, 1977).
276 Mthodes explicatives ou drives _ Chapitre 3
On procde alors en effectuant:
- une analyse des correspondances sur le tableau disjonctif complet; les p
variables nominales sont donc remplaces par Il variables continues qui
sont les h facteurs de l'analyse des correspondances multiples.
- une analyse factorielle discriminante sur les Il variables continues dont
les valeurs sont les coordonnes sur les axes factoriels de l'analyse des
correspondances multiples.
Compte tenu du nombre gnralement important de facteurs de l'analyse
des correspondances multiples, on retiendra les facteurs les plus
discriminants et qui ne figurent pas toujours parmi les premiers
l
.
b - Analyse discriminante barycentrique
L'analyse discriminante barycentrique revient simplement faire l'analyse
des correspondances du tableau croisant la variable expliquer y avec les
variables explicatives (Xl, x2, ... , Xp) (empilement de tables de contingences) :
les lignes sont constitues par les modalits de y et les colonnes par la
juxtaposition des modalits de (Xl, x2, ... , xp).
Il s'agit en fait d'une bande du tableau de Burt qui permet de dcrire les
liaisons existant entre la variable expliquer et l'ensemble des variables
explicatives (cf. 1.4.7.b; Saporta, 1975 a; Leclerc, 1976).
En plaant en lments supplmentaires de nouveaux individus
caractriss par les variables explicatives, on ralise une raffectation
similaire celle l'analyse discriminante (cf. Nakache et al. ,1977).
Dans le cas o les variables explicatives sont indpendantes deux deux,
l'analyse discriminante barycentrique est quivalente l'analyse factorielle
discriminante qualitative (puisque l'analyse d'une bande du tableau de Burt
est alors quivalente l'analyse du tableau complet). Dans le cas gnral,
elle est, en thorie, moins performante puisque, comme nous l'avons vu
dans 1.4.7.b, elle ne tient pas compte des liaisons entre les variables
explicatives. Elle est cependant largement utilise en raison de sa simplicit
et sa robustesse (cf. Cartier, in : Celeux et Nakache, 1994).
c - Note sur le "scoring"
Frquemment utilise par les organismes bancaires cherchant prvoir la
dfaillance ventuelle d'un client (individu ou entreprise), la mthode dite
de "scoring" permet une mise en forme simple des rsultats d'une analyse
discriminante gnralement deux groupes. Elle n'est pas proprement
1 Que ce soit pour l'analyse factorielle discriminante qualitative et, nous allons le voir,
pour l'analyse discriminante barycentrique, il est conseill de procder au pralable
une premire slection des varinbles nominales explicatives en croisant far exemple chacune
d'entre elles avec la partition expli?uer y, en calculant les X correspondants, et
gardant celles qui correspondent aux x- les plus significatifs.
3.3 _ Analyse factorielle discrimillante 277
parler une mthode de discrimination sur variables nominales; mais elle
utilise les rsultats d'analyses discriminantes sur variables nominales ou
continues pour construire une fonction de score
1
On dispose ainsi d'un
instrument de dcision accessible pour affecter un individu dans un groupe.
Dans le cas de deux groupes, on obtient une seule fonction discriminante: la
combinaison linaire des variables qui spare au mieux les deux groupes
d'individus. Un individu est affect l'un des groupes si la fonction prend
pour lui une valeur suprieure un certain seuil.
Cette fonction discriminante est ensuite transforme en un systme
quivalent de coefficients attribus aux modalits des variables nominales
ou aux ventuelles variables continues (en gnral aprs une slection
svre). Cette transformation fournit la fonction score dont les coefficients
constituent des notes attaches aux modalits ou aux variables.
Pour chaque individu, on calcule le score
2
c'est--dire la somme des notes
associes aux prdicteurs. On affectera alors cet individu un groupe si son
score est suprieur un certain seuil. L'introduction d'une tolrance
d'erreur de classement permet en fait de dfinir trois zones de dcisions sur
la fonction score: la zone des scores levs, celle des scores faibles et une
zone d'indcision pour laquelle un individu n'est pas automatiquement
class.
3.3.8 Discrimination et rseaux de neurones
Ce paragraphe ne constitue qu'une brve note bibliographique destine
orienter le lecteur statisticien dsireux d'aborder les techniques neuronales
de discrimination.
Dveloppes au milieu des annes quatre-vingt, les mthodes neuronales
(ou rseaux neuronaux ou encore rseaux neuro-mimtiques) ont
renouvel et stimul la discipline cormue sous le nom de reconnaissance de
formes qui recouvre beaucoup d'applications industrielles (notamment des
applications en temps rel) des mthodes de discrimination.
Fondes au dpart sur des analogies biologiques et sur un effort de
modlisation des mcanismes de perception visuelle et auditive, ces
mthodes ont acquis depuis une certaine autonomie. Les relations avec la
statistique ont t frileuses en raison de diffrences d'approches et de
vocabulaires
3
. Mais des ponts ont t jets et les annes rcentes ont vu la
1 Cf. dans le cas d'analyses appliques la dtection de dfaillances d'entreprises (
partir de slection de variables continues) : Bardos (1984,1989).
2 Les enchamements de calculs de l'analyse discriminante qualitative, la fonction score
ainsi que l'analyse barycentrique (construction d'une bande du tableau de Burt) sont
prvus dans le logiciel SPAD.N.
3Ce sont des informaticiens en milieu industriel qui sont l'origine de ces mthodes.
278 Mthodes explicatives ou drives _ Chapitre 3
parution d'une srie d'articles de revue ou de synthse J qui ont prouv la
complmentarit des points de vue et l'enrichissement mutuel attendre
des contacts et changes entre statisticiens et neuromimticiens.
Schmatiquement, disons que les statisticiens peuvent complter la
panoplie des modles qui leur sont familiers avec les modles
essentiellement non-linaires et seuils qui sont attachs aux rseaux de
neurones. La structure de ces rseaux permet d'autre part des calculs
parallles indispensables pour une implmentation matrielle directe de ces
mthodes et des utilisations en temps rel, domaine peu abord par les
statisticiens. Inversement, l'essentiel de ce qui concerne l'infrence ou la
validation des dmarches et des rsultats est mettre au crdit des
approches statistiques. Ces aspects sont reconnus comme indispensables ds
qu'il s'agit de comparer des modles, d'valuer des risques, de calculer des
taux d'erreurs, proccupations caractristiques d'une discipline arrive
maturit.
On voquera seulement dans cette note bibliographique le modle neuronal
le plus rpandu dans le cadre de la discrimination qui est le perceptron
multi-couche, puis on dira quelques mots des mthodes non-supervises.
a - Schma et modle du perceptron multi-couches
Le contexte est le mme que celui qui a t dfini au dbut de cette section.
On dispose d'une variable qualitative y q modalits (ou catgories) que
l'on doit prdire partir de p variables (Xl, x2, ... , Xp) prdictrices. On dispose
par ailleurs de n individus ou observations (chantillon d'apprentissage)
dcrits par les p variables (Xl, X2, ... , xp) et pour lesquels ont connat la classe
d'affectation note ici Yk (k q).
Entre
Couche
cache
SOl1ie
Yl
Figure 3.3 - 8
Perceptron une couche cache
La figure 3.3 - 8 se commente de la faon suivante en utilisant le vocabulaire
et les concepts de l'approche neuronale: la couche d'entre est forme de
1 Citons en particulier les articles de synthse de Ripley (1993, 1994) et de Cheng et
Titterington (1994).
3.3 _ Allalyse factorielle discrimillallte 279
p =5 entres, auxquelles seront appliques des coefficients appels les poids
synaptiques Wjm. La couche cache comprend c =3 neurones qui seront
chacun activs par une intgration (en gnral fonction monotone de la
somme) des p signaux en provenance de la couche d'entre. La mme
opration a lieu pour les q =3 lments de la couche de sortie mettant en
jeu des poids synaptiques Vmk.
En termes de modle analytique, on crira:
Yk = <pojak + vmk <p[a
m
+ i Wjm
Xj
]) [3.3 -17]
m=1 )=1
Dans cette formule, la fonction <P est dans la plupart des applications la
fonction logistique qui sera aborde la section 3.4. Elle s'crit:
<P(z) = exp{ z}
l+exp{z}
La fonction <Po peut tre selon les cas linaire, logistique, ou seuil (par
exemple: <Po(z) = 0 si z::;O et <Po(z) = 1 si z >0).
On voit que la figure 3.3 - 8 est utile pour visualiser l'enchanement de
fonctions correspondant aux tapes du traitement. La lecture de droite
gauche de la figure correspond bien sr une lecture de gauche droite de
la formule [3.3 - 17]. Il Ya lc (p+V + q (c+1) ) paramtres estimer.
L'quation [3.3 - 17] correspond une observation (j) . On a en ralit n
quations de ce type, faisant chacune intervenir q valeurs y ~ i (valeurs 0 ou
1 s'il s'agit d'appartenance une classe d'une partition en q classes) et p
valeurs xji).
L'estimation des paramtres se fait en minimisant une fonction de perte,
qui peut simplement tre la somme des carrs des carts entre les valeurs
calcules j ~ et les valeurs observes y ~ i dans l'chantillon
d'apprentissage 1.
Remarquons que pour une sortie binaire (deux classes possibles pour y qui
peut alors tre un scalaire prenant les valeurs 0 ou 1) et un perceptron sans
couche cache, on se trouve dans le cadre du modle de la rgression
logistique voqu en section 3.4.4.
La formule [3.3 - 17] s'crit alors:
[3.3 -18]
1 L'estimation numrique se fait par une mthode de descente de gradient dite de back-
propagation. (cf. Werbos, 1974, 1990; Rumelhart et al., 1986). Pour un programme de
calcul, cf. Proriol (1991), ou la procdure NEURO du logiciel SPAD.N.
280 Mthodes explicatives 01/ drives _ Chapitre 3
Ici, la fonction $0 peut tre une fonction seuil, qui convertit la probabilit
donne par le modle logistique proprement dit ( l'intrieur des accolades)
en l'une des deux valeurs 0 ou 1.
Si l'on rduit les deux fonctions $0 et $ la fonction identique $(x) =x, on
retrouve la rgression multiple (cf. section 3.2) et l'analyse discriminante
deux groupes (cf. paragraphe 3.3.3) qui en sont des cas particuliers.
Cet exemple trs simple du perceptron multi-couches montre donc que les
gnralisations les plus videntes par rapport aux modles explicatifs usuels
de la statistique concernent la prsence ventuelle des fonctions $0 et $ et
l'existence d'une ou plusieurs couches caches qui autorisent des
interventions non-linaires des paramtres 1.
b - Modles non-superviss ou auto-organiss
Alors que les modles superviss (pour lesquels on dispose d'un
chantillon d'apprentissage permettant d'estimer les paramtres)
correspondent tout fait la dmarche de la rgression et de l'analyse
discriminante, les modles non-superviss ou auto-organiss sont le
pendant des mthodes purement exploratoires.
Reprenons l'exemple du perceptron multicouche, pour lequel nous
su pposerons les fonctions $0 et $ linaires ou (sans perte de gnrali t
dans ce cas) gales la fonction identique. Nous supposerons de plus que les
variables sont des variables numriques centres, et que les termes constants
sont nuls.
La formule [3.3 -17] s'crit:
Yk =1Vlnk (fWjIn
Xj
]) = f
1n=1 J=l J=l
[3.3 - 19]
que l'on peut crire sous la forme:
y = VWx, soit y(i) = vwi
i
) pour chaque observation i.
On peut poser A = vw. La matrice A est d'ordre (q, p), si la taille c de la
couche cache n'introduit pas de restriction sur le rang de A, qui est au plus
le plus petit des trois nombres q, c, p.
En l'absence de contrainte sur A, on est dans le cadre de la rgression
multiple simultane comportant plusieurs variables endognes, qui revient
faire q rgressions multiples (cf. 3.6.2 b).
1 Notons que dans un modle gnral comme celui de la formule [3.3 -17), il n'est pas
ncessaire de retenir toutes les flches entre deux couches conscutives (certain poids
synaptiques peuvent tre nuls a priori, d'autres peuvent avoir une valeur fixe, et ainsi
rduire le nombre de paramtres estimer).
3.3 _ Allalyse factorielle discriminante 281
La solution s'obtient ici en rendant minimale la somme sur les n
observations:
,
5 =:L( y(i) - Ax(i) (y(i) - Ax(i)
1
Dans les modles non-superviss dits d'auto-association, on ne connat pas
y, (il n'y a pas de "professeur") et on utilise l'artifice qui consiste remplacer
y par x (cf. Baldi et Hornik, 1989).
Ceci semble une trivialit, et est effectivement une trivialit si la couche
cache possde autant d'lments que x (c =p) et s'il n'y a pas de contraintes
sur A (auquel cas on a la solution A = 1).
Mais si la couche cache est notablement plus rduite que les couches
d'entre et de sortie, (c p), elle forme un tranglement et le rseau ralise
une compression du signal d'entre.
On veillera rendre minimale la quantit 51 :
,
51 =:L( x(i) - vwx(i)) (x(i) - vwx(i)
i
On s'efforce donc de rduire le plus possible la dformation moyenne de x
aprs intervention du rseau, qui n'est autre ici qu'une projection sur un
sous-espace de dimension c infrieure p. La solution est fournie par
l'analyse en composantes principales du tableau X (qui est aussi une
dcomposition aux valeurs singulires, puisque nous avons suppos les
variables centres) dont les n lignes sont les vecteurs xi.
Ainsi, par exemple, avec un seul neurone dans la couche cache, la matrice
V West de rang l, ce qui conduira au premier axe de l'analyse en
composantes principales de X. Une dmonstration complte, incluant le cas
supervis (rgressions multiples simultanes avec contrainte de rang pour
le tableau de coefficients) se trouve dans Baldi et Hornik (1989, op. ciL).
L'auto-organisation, notion tudie et formalise par Kohonen (1989), qui
est un des pionniers de l'approche neuronale, est donc rendue possible par
la structure interne du rseau.
D'autres travaux sont relatifs aux algorithmes il lecture directe, comme
l'algorithme de diagonalisation par approximation stochastique propos par
Benzcri (1969 b), antrieurement aux approches neuronales 1.
Ces algorithmes peuvent en effet tre interprts en terme d'apprentissage
et d'auto-organisation. Un algorithme identique il une normalisation prs a
t propos indpendamment par Oja et Karhunen (1981), puis amlior par
la suite par ces auteurs et d'autres neuromimticiens. Ce domaine, qui a des
applications potentielles importantes en compression d'image, a depuis t
1 On trouvera une tude plus numrique de la convergence de l'algorithme dans Lebart
(1974), et Je programme correspondant dans Lebart et al. (1977).
282 Mthodes explicatives ou drives _ Chapitre 3
trs dvelopp. Sur les liens entre rseaux neuronaux et analyse en
composantes principales, cf. Oja (1982), Bourlard et Kamp (1988), Sirat (1991),
Oja (1992).
Enfin, une autre approche non-supervise, plus proche des mthodes de
classification, est celle des cartes auto-organises (self organizing maps) de
Kohonen (Kohonen, 1989; Cottrell et Fort, 1987). L'algorithme est assez
similaire celui de la mthode d'agrgation autour de centres mobiles (k-
means) (dmarrage alatoire, affectations aux centres de distances
minimales, obtention de minima locaux) mais conduit une reprsentation
plane (cf. Ritter et al., 1992).
c - Statistique et mthodes neuronales
On compltera cet aperu par un rsum de l'intervention de Tibshirani
lors d'une discussion sur la synthse de Cheng et Titterington (1994, op.cit.).
Cette intervention commence par une remarque gnrale sur la statistique
et les rseaux de neurones:
"Les statisticiens ont tendance travailler avec des modles plus
interprtables car, pour eux, mesurer l'effet des variables est plus
important que la prdiction".
Tibshirani rpond ensuite deux questions:
- Que peut apprendre un statisticien d'un neuro-mimticien ?
1 "On devrait moins se soucier de l'optimalit statistique que de trouver
des mthodes qui fonctionnent, spcialement sur les grands ensembles
de donnes.
2 On devrait plus attaquer les problmes rels auxquels se consacrent les
neuro-mimticiens: reconnaissance de l'criture et de la parole,
prdiction des structures de l'ADN. Comme le dit John Tukey : il vaut
mieux avoir une solution approche d'un problme rel que la
solution exacte d'un problme trop simplifi.
3 Les modles trs nombreux paramtres peuvent tre utiles pour la
prdiction, spcialement pour les grands tableaux de donnes et les
donnes bruites.
4 Modliser des combinaisons linaires des variables d'entres est trs
utile, car cela prend en compte des traits structurels et rduit la
dimension.
5 Des algorithmes itratifs comme la descente de gradient (avec taux
d'erreurs) peuvent viter des ajustements trop complaisants.
6 Nous (statisticiens) devrions mieux nous vendre... "
- Que peut apprendre un neuromimticien d'un statisticien?
1 "Il devrait plus s'intresser l'optimalit statistique, ou au moins, aux
proprits statistiques des mthodes.
3.3 _ Analyse factorielle discriminante 283
2 Il devrait faire plus d'efforts pour comparer ses mthodes des
mthodes statistiques plus simples. Il serait alors surpris de voir que la
rgression fait souvent aussi bien qu'un perceptron multi-couches. Il
ne devrait jamais utiliser un modle compliqu alors qu'un modle
simple suffit."
Ces remarques n'pargnent pas les statisticiens, qui ont devant eux une
profusion d'ides nouvelles et un vaste chantier ouvert. Ceux d'entre eux
qui se consacrent l'analyse exploratoire des grands tableaux se sentent
cependant moins concerns par les deux premires critiques de Tibshirani.
Autres rfrences
Outre les trois articles de synthse prcits, on mentionnera, toujours pour
un lectorat de statisticien: l'ouvrage de base de Hertz et al. (1991), l'article
plus thorique de Amari (1990), sur les fondements mathmatiques des
mthodes. Mentionnons galement l'article de Hornik (1994) dcrivant,
l'intention des statisticiens, le perceptron multicouche et les algorithmes
d'analyses en composantes principales par apprentissage comme deux
intersections importantes entre les deux disciplines. En Franais, on
consultera les ouvrages gnralistes de Bourret et al. (1991) et de Milgram
(1993). Pour des exposs faisant le lien avec l'approche "analyse des
donnes", Gallinari et al. (1988), Lelu (1991), Chabanon et Dubuisson (1991).
Section 3.4
Modles log-linaires
Les modles log-linaires permettent d'tudier et de modliser les liaisons
entre plusieurs variables nominales en tenant compte de leurs ventuelles
interactions.
On peut considrer l'analyse des tables de contingences multiples par ces
modles comme une analyse descriptive car aucune variable ne joue le rle
privilgi de variable prvoir. Mais ces modles s'apparentent aussi, par
leur dmarche, l'analyse de la variance (slection de modles sur la base de
tests statistiques), ce qui justifie leur prsentation dans cette partie. Ils nous
amnent d'ailleurs la rgression logistique qui peut tre considre
comme l'analogue de la rgression multiple sur variables nominales. La
rgression logistique se propose en effet de prvoir une variable
dichotomique l'aide d'une ou de plusieurs variables (de nature
quelconque) en prenant en compte l'effet propre de chaque variable et l'effet
ventuel des interactions
l
.
3.4.1 Fonnulation du problme et principes de base
Prsentons le problme partir d'un exemple mdical. Considrons un
chantillon d'individus ayant t irradis accidentellement. Ces individus
sont caractriss par un tat (tre dcds ou non la suite de leucmie:
variable nominale 2 modalits), par la dose de radiations reue mesure
en Rad (variable continue ordonne en 6 modalits) et par l'ge au moment
des accidents (variable continue regroupe en 5 modalits).
Ces donnes se prsentent sous forme d'un tableau de contingence K
croisant ces trois variables de terme gnral kijl.
On s'intresse aux relations existant entre ces trois variables: sont-elles
indpendantes ou non dans leur ensemble ou une variable est-elle
indpendante conditionnellement une ou aux deux autres? Autrement
dit, on cherche connatre la structure des liaisons entre ces donnes en
tenant compte des interactions entre les 3 variables.
1 Les modles log-linaires et logistiques donnent lieu des publications nombreuses.
Aprs les premiers travaux de Birch (1963) et Goodman (1970), il faut mentionner les
ouvrages de base de Habennan (1974), Bishop, Fienberg, Holland (1975), Fienberg
(1980). Plus rcemment, Dobson (1983), Agresti (1990), Christensen (1990) rdigent
des synthses enrichies de contributions personnelles. Goodman (1986,1991) fait des
rapprochements avec certains aspects de l'analyse des correspondances. Anderson
(1982) ralise une revue trs complte du modle logistique. L'ouvrage collectif dit
par Celeux et Nakache (1994) prsente les contributions des modles log-linaires et
logistiques la discrimination.
3.4 _ Modles log-linaires 285
D'une manire gnrale, p variables nominales Xl, x2, ... , Xp ayant
respectivement ml, m2, ... , mp modalits, constituent un tableau de
contingence multidimensionnel p entres comprenant mlxm2x... xmp
cases. Le terme gnral kij ... p de cet hypercube de contingence indique le
nombre d'individus ayant rpondu simultanment aux modalits i,j, ... ,p de
Xl, X2, .. , xp avec 1 < i < ml, 1 < j < m2, ... ,1 < P< mp.
L'effectif total d'individus observs est not k avec:
k = "Lkij ...p
i,j, ...,p
Les hypothses que nous formulons sur les liaisons entre ces p variables
nous amnent construire des tableaux de frquences thoriques espres T
de terme gnral tij ...p' La confrontation des frquences observes kij ... p et
des frquences thoriques tij ... p va permettre de tester ces hypothses.
On construira par consquent autant de tableaux T (et donc de modles log-
linaires) qu'il y a d'hypothses tester.
Dans le cas d'un tableau de contingence deux dimensions, on construit,
sous l'hypothse d'indpendance entre les deux variables, le tableau T tel
que tij =ti. t.j- Le test du X
2
permet de rejeter ou non cette hypothse en
confrontant le tableau thorique T au tableau des frquences observes K.
Ainsi les modles log-linaires peuvent tre considrs comme une
gnralisation du test du X
2
un ensemble de p variables nominales Cp > 2),
la difficult rsidant alors dans le choix des modles, c'est--dire des
hypothses concernant les liaisons entre les variables.
3.4.2 Ajustement d'un modle log-linaire
On suppose que la frquence observe kij ... p est la ralisation d'une variable
alatoire Xij ... p d'esprance mathmatique inconnue tij ... p'
E(Xij ...p) =tij ...p
Nous envisagerons successivement le cas du tableau de contingence deux
dimensions et celui p entres. Les notations tant lourdes dans le cas
gnraL nous nous bornerons p =3 pour simplifier l'expos.
a - Tableau de contingence deux entres
Intressons-nous d'abord la relation entre deux variables nominales, le
risque de dcs et la dose de radiation reue, par exemple. Dans ce cas, deux
hypothses peuvent tre formules: y a-t-il indpendance ou non entre les
deux variables?
En supposant tij non nul, le modle log-linaire le plus complet dcompose
le logarithme nprien de l'esprance tij sous la forme:
log(tij) =aO + al(i) + az (j) + a12 Oj)
286 Mthodes explicatives ou drives _ Chapitre 3
Par analogie avec l'analyse de la variance, log(tij) se dcompose en une
somme de coefficients a dcrivant plusieurs effets:
- aD, l'effet global;
- aI(i), l'effet d la variable Xl,
- a2 (j), l'effet d la variable X2,
- aI2 (ij), l'effet d l'interaction entre les variables Xl et X2.
Afin d'avoir une solution unique, on impose les contraintes suivantes:
'L
a
I(i) ='L
a
2(j) ='LaI2Uj) ='LaI2Uj) = 0
j j
Sous l'hypothse d'indpendance des deux variables, la frquence espre
s'exprime par tij =ti. t.j. Dans ce cas, tous les coefficients d'interaction
al2 (ij) sont nuls. Le modle log-linaire correspondant cette hypothse
s'crit:
log(tij) =aD + al (i) + a2 (j)
La nullit des interactions traduit l'hypothse d'indpendance entre les
deux variables. A partir des coefficients aD, al (i) et a2 (j), on calcule le
tableau des frquences thoriques espres not T.
b - Tableau de contingence p entres
On gnralise ces modles au cas de plus de deux variables. Pour trois
variables par exemple, le modle qui prend en compte toutes les liaisons
entre les variables est le suivant:
log(tij/) = ao + al (i) + a2 (j) + a3 (f)
+ al2 (ij) + a13 (if) + a23 (j1) + al23 (ij1) [3.4 -1]
Ce modle est appel modle satur. Il contient tous les effets et toutes les
interactions qu'il est possible de dfinir avec les variables disponibles.
Les coefficients ao, al(i),, al23 (ij1) traduisent des effets diffrents:
- aD, l'effet global;
- al(i), a2(j), a3 (1), les effets principaux;
- al2 (ij), aB (ik), a23 (j1), les effets dus aux interactions deux deux des
variables;
- a123 (ij1), l'effet d l'interaction trois variables;
On impose la nullit de la somme des coefficients du modle faisant
intervenir une modalit d'une variable sur l'ensemble des modalits de
cette mme variable.
3.4 _ Modles log-lillaires 287
Par exemple pour la variable Xl et pour tout 1 < i < ml, on a :
Lal(i) =L
a
12(ij) =La13(j!) =La123(ij!) =0
i i
et il en est de mme pour les autres variables.
Le modle [3.4 - 1], comme tous les modles saturs, permet de reconstituer
exactement le tableau de frquence K. Celui-ci prsentant souvent un trop
grand nombre de coefficients, on va rechercher un ou des modles ayant
moins de coefficients mais devant reconstituer le mieux possible le tableau
K (principe de parcimonie). Ceci est ralis en annulant certains termes du
modle satur.
Si on arrive une reconstitution correcte du tableau K, l'hypothse de
nullit des coefficients supprims ne peut pas tre rejete. Ces modles non
saturs mettent alors en vidence les liaisons les plus significatives entre les
variables.
Dans le cas de deux variables, l'hypothse de nullit du terme d'interaction
s'interprte en terme d'indpendance. Si cette hypothse est rejete, on
incriminera une dpendance entre les deux variables. Lorsque l'on
s'intresse plus de deux variables, l'interprtation est plus complexe:
- pour exprimer l'indpendance mutuelle entre toutes les variables Xl,
x2, x3, on annule tous les termes d'interactions. Cela nous conduit au
modle:
log( tijl) = aO + al (i) + a2 (j)+ a3 (1)
- pour exprimer l'indpendance conditionnelle de deux variables Xl et x2
par rapport X3, on annule tous les termes d'interaction contenant les
indices relatifs aux variables Xl et X2 c'est--dire:
adij) = a123(ijl) = 0
on en dduit le modle suivant:
log(tiP) =ao + al (i) + a2 (j)+ a3 (1)+ aU (il)+ a23 (jl)
Chaque modle log-linaire met ainsi en vidence une liaison particulire
entre les variables: la dpendance ou l'indpendance mutuelle des
variables dans leur ensemble ou l'indpendance de certaines variables
conditionnellement une ou plusieurs autres.
Pour des modles plus de trois variables, on trouvera des complments
sur les interactions, dans par exemple, Agresti (1990).
c - modles hirarchiques
Un modle log-linaire est dit hirarchique si la condition suivante est
vrifie: quand un coefficient d'interaction est prsent dans le modle, les
coefficients des variables mises en jeu et toutes les interactions d'ordre
infrieur sont aussi dans le modle.
288 Mthodes explicatives ou drives _ Chapitre 3
Par exemple, si dans un modle 5 variables on trouve l'interaction Xl35,
alors le modle, pour tre hirarchique, doit contenir au moins Xl, x3 et X5
ainsi que les interactions d'ordre infrieur X13, X]5 et X35.
Parmi les modles log-linaires possibles dans le cas d'un tableau de
contingence deux variables, certains modles sont hirarchiques:
- [og(tij) =aa + al(i) + a2 (j)+ a12 Oj)
- [og(tij) = aa + al(i) + a2 (j)
et d'autres ne le sont pas:
- [og(tij) =aa+ al(i) +a12 (ij);
- [og(tij) = aa + a2(j) +a12 Oj);
- [og(tij) = aa + a12(ij)
Traditionnellement et pour des raisons de simplicit d'interprtation, on se
limite aux modles hirarchiques.
3.4.3 Estimation et tests d'ajustement du modle
On se donne un modle traduisant une hypothse exprime par la nullit
de certains coefficients a. On cherche ainsi estimer les frquences
thoriques pour construire puis confronter le tableau t des estimations au
tableau K des frquences observes. Cette confrontation est ralise par des
tests d'ajustement. Ils permettent de rejeter ou non l'hypothse sur les
liaisons exprime par le modle.
a - Estimation des paramtres
Les frquences thoriques espres tijl sont en gnral estimes par la
mthode du maximum de vraisemblance. Elle consiste rechercher les
paramtres qui maximisent la fonction de vraisemblance [(kij/, tij/).
Pour cela, on suppose que les variables alatoires Xij/ suivent soit une loi de
Poisson, soit une loi multinomiale
1
.
On montre alors (cf. par exemple Haberman, 1974) que maximiser [(kij/, tij/)
revient maximiser:
L kij/[og(tij/)
i,j,l
l Ce sont des hypothses assez naturelles dans le cas des tables de contingence
multidirnensiormelles. Brivement dit, la loi de Poisson correspond au cas o l'effectif
total k n'est pas fix ou born a priori.
3.4 _ Modles log-linaires 289
On calcule les estimations t;jI des frquences espres tijl donnes par le
modle. On peut utiliser la mthode de rgression pondre de Grizzle et al.
(1969) ou celle des algorithmes itratifs (mthode de Newton-Raphson ou
mthode des moindres carrs itratifs) qui est la mthode la plus rpandue,
utilise pour tous les modles linaires gnraliss, dont les modles log-
linaires sont des cas particuliers
l
.
b - Tests d'ajustement
Pour comparer le tableau des frquences estimes T avec le tableau des
frquences observes K, deux tests (voisins) sont gnralement utiliss:
- le test du X
2
de Karl Pearson:
A 2
2 ,,(kijl-tijl)
X = 4.. A
i,j,l t ijl
- le test du rapport de vraisemblance
2
:
2 " t;jI
C = -2 4.. kijllog-
i,j,l kijl
Les statistiques X
2
et C2 suivent une distribution du X
2
m degrs de libert
o m est le nombre de cases du tableau auquel on soustrait le nombre de
coefficients estims. Pour l'une et l'autre de ces statistiques, les valeurs
augmentent avec le nombre de variables introduites dans le modle.
Plus ces statistiques sont voisines de zro, meilleur est l'ajustement. Elles
sont nulles pour le modle satur. On recherche le modle le plus simple
(peu de paramtres) et qui reste acceptable (bon ajustement).
c - Choix du modle
Le choix du modle log-linaire est d'autant plus difficile que le nombre de
variables est lev. La mthode dite "combinatoire" est une des mthodes
possibles pour obtenir un "bon" modle. A partir du modle satur, on
construit des modles plus simples en retirant un un les termes
d'interaction. La statistique C2 crot progressivement et l'on peut arrter la
procdure lorsqu'elle augmente plus rapidement. On retiendra alors le
1 Cf. Haberman (1974), Nelder et Wedderburn, (1972), McCullagh et Nelder (1989),
Christensen, (1990).
2 C2 est aussi une mesure de proximit entre les distributions de frquence t et K
selon la thorie de l'information dveloppe en particulier par Kullback et Leibler
(1951), Kullback (1959). En fait la premire formule (x2) correspond au premier terme
2 ( -[-k[ J
non nul du dveloppement limit de Cl , en crivant: G =-2 L kij/log 1+..!.L.-...!L .
i,j,/ kijl
290 Mthodes explicatives ou drives _ Chapitre 3
modle correspondant et l'on en dduira les liaisons importantes entre les
variables
1
.
..
......
****
*****
******
modle satur
]
modles
retenus
***************
*******************
**********************
*************************
*******************************
Figure 3.4 - 1
Histogramme de C
2
et recherche du palier de croissance
Cette mthode combinatoire est applicable aux modles mettant en jeu un
petit nombre de variables. Pour fixer les ides, avec 4 variables, il y a 167
modles hirarchiques possibles. Il existe un nombre considrable de
travaux sur ce problme de slection de modles (problme qui se pose
galement dans le cas de la rgression, mais de faon moins complexe). La
multiplication des tests pose des problmes de comparaisons multiples
spcifiques (Gabriel, 1969; Aitkin, 1979).
On peut restreindre la recherche aux modles graphiques (sous-ensemble
des modles hirarchiques) et l'intrieur de ceux-ci aux modles
dcomposables. Whittaker (1990) fait une prsentation gnrale des modles
graphiques et une revue des problmes de slection des modles log-
linaires graphiques
2
.
3.4.4 La rgression logistique
Dans le cadre d'une rgression logistique, la problmatique est diffrente
mais le modle utilis est troitement li au modle log-linaire.
La rgression logistique, comme l'analyse discriminante, cherche dcrire la
liaison entre une variable nominale y (variable expliquer) et un ensemble
de p variables (Xl, x2, ... , Xp). On veut galement connatre l'effet d'une
1 On note que l'estimation du critre d'Akaike (1973), fonction de la statistique Cl, est
souvent utilis pour slectionner un modle et mesurer sa qualit. Elle offre l'avantage
d'tre obtenue sans tudier l'ensemble des modles possibles (cf. Morineau et al ,
1995). Ce critre quivaut asymptotiquement la validation croise (Stone, 1977).
2 Les rfrences de base sur les modles graphiques sont Wermuth (1976), et Darroch
et al. (1980). Pour une synthse rcente, voir Wermuth et Cox (1992). On pourra
consulter Fine (in: Droesbeke et al., 1992), de Falguerolles et Jmel (1993).
3.4 _ Modles log-linaires 291
[3.4 - 2]
variable sur la variable expliquer en tenant compte des liaisons qu'elle
entretient avec les autres variables du modle.
Le plus souvent la variable expliquer est dichotomique et les variables
explicatives sont nominales. Les n individus caractriss par l'ensemble des
p variables sont partitionns en deux groupes dfinis par les modalits de la
variable y. C'est dans ce cadre que nous nous plaons.
Pour reprendre l'exemple du paragraphe 3.4.1, on dsire tudier par
exemple l'influence de la dose de radiation reue et de l'ge des individus
au moment des accidents sur le risque de dcs par leucmie.
a - Le modle logistique
On suppose que la probabilit qu'un individu a d'appartenir au premier
groupe Il (y = 1) dpend des valeurs des variables explicatives (Xl, X2,. .. , xp)
observes sur cet individu.
On note X le vecteur dont les p composantes sont les valeurs des variables
explicatives.
Le modle logistique se propose de fournir une estimation de cette
probabilit note 1t(x) :
n(x) = p(III x) = P(y =11 x).
Le thorme de Bayes ( 3.3.5.a) nous permet d'crire dans le cas de deux
groupes Il et 12 :
qui s'crit encore:
P(x 1Il )P(II)
p(III x) = P(x II2)P(I2)
1+ P( xiII )P(II )
P(x 112 )P(I2)
Cette formule ne fait intervenir que les quotients des deux probabilits
conditionnelles de l'observation x.
Dans le cas multinormal avec matrices des covariances :L gales dans les
deux groupes, chacune des deux probabilits conditionnelles s'crit, pour
k =1,2 :
P(I
k
1x) =(2nrp/21:L1-112exp{-J(x - - tJ.k)}
Le quotient des probabilits pondres fait disparatre les termes du second
degr en x et s'crit comme l'exponentielle d'une forme linaire en x avec
terme constant (fonction affine de x) :
292 Mthodes explicatives ou drives _ Chapitre 3
Pour allger les notations, le vecteur x dsignera dsormais un vecteur
p+1 composantes (avec xo =1 et les autres composantes gales celles de
l'ancien x) et le nouveau vecteur de coefficients sera dsign par a, de sorte
que ~ + b s'crit maintenant a'x.
Ceci permet de rcrire la formule [3.4 - 2] et conduit l'expression du
modle logistiaue:
{
p }
exp Iax
n(x) = exp{a'x} = ;=0 1 1
1+exp{a'x} {p}'
l+exp Iajxj
;=0
[3.4 - 3]
o les aj, composantes du vecteur a, sont les coefficients inconnus du
modle. Il s'agit d'un modle qui ne fait pas intervenir de termes
d'interaction entre les variables explicatives
1
.
On peut crire [3.4 - 3] sous la forme:
n(x) =exp{a'x},
1- n(x)
ou encore:
La fonction:
est appele fonction Logit.
n(x) P
log =a'x= Iax
1- n(x) . 1 1
1=0
F(n(x = log n(x)
1- n(x)
[3.4 - 4]
Remarques
1) Les modalits de la variable nominale seront codes a ou 1. Comme pour
l'analyse de la variance, on limine, pour chaque variable nominale, une de ses
modalits. Le coefficient associ est gal a et cette modalit est appele
traditionnellement "situation de rfrence" : on mesure en fait les diffrences avec la
ou les autres modalits de la mme variable.
2) Le modle logistique, ou de rgression logistique, ou de discrimination logistique,
s'applique une famille de distributions de x plus gnrale que la loi multinormale
1 Le modle a t propos originellement par Cornfield (1962). Etudi notamment par
Cox (1972), il a t situ dans le cadre du modle linaire gnralis (cf.section 3.3)
par Nelder et Wedderburn (1972). Une revue de ses applications en analyse
discriminante est faite par Anderson (1982). Cf. galement Hosmer et Lemeshow
(1989), Devaud (1985).
3.4 _ Modles log-linaires 293
avec matrices de covariances gales qui nous a servi tt ['introduire. Il suffit, on l'a vu,
que le quotient des probabilits conditionnelles s'exprime comme l'exponentielle
d'une fonction affine de x. Ceci est le cas de la plupart des distributions de la
famille exponentielle (cf. 3.2.8.b) dans certaines conditions (Anderson, 1982).
b - Estimation et tests des coefficients
Pour estimer les coefficients aj du modle, on utilise le plus souvent la
mthode du maximum de vraisemblance.
Les n observations (Yi, Xi) [o Xi = (XiI, Xi2, ... , Xip)'J sont indpendantes et les
y; sont des variables de Bernoulli.
La vraisemblance f(a,Yi) pour une observation s'crit:
f(a'Yi) = n(xi)Yi [l-n(xi)]l-
y
;
et pour l'ensemble des observations, on a :
n n
f(a, y) =il f(a,Yi) =I1n(xj )Yi [1- n(xi )]l-Yi
;=1 ;=1
La procdure d'estimation revient rechercher la valeur a de a qui
maximise le logarithme de la vraisemblance :
log[f(a, y)] =L[Yi log n(xj) +log[l- n(Xj)]]
; I-n(xi)
soit encore en exprimant 1t(Xi) par la fonction Logit (cf. formule [3.4 - 4]:
log[f(a,y)] =LYi a'xi +Llog[l+exp(a'xj)]
i
Pour apprcier l'ventuelle non-influence d'une variable ou d'une
modalit Xj sur la variable y, on teste l'hypothse nulle Ho:
(Ho): ar= 0
On considre alors la statistique de Student :

t = }
~ V a r j
o
j
est lajme composante de l'estimateur et Var(
j
) est la variance
estime associe cette composante
1
.
Pour tester l'influence d'une variable nominale q modalits, on procde
un test de nullit des qcoefficients aj affects ses modalits. D'une manire
gnrale, l'hypothse Ho stipulant une ventuelle non-influence d'un
lOn peut galement tester la significalivit du coefficient aj partir de la statistique de
Wald qui est le carr de celle de Student.
294 Mthodes explicatives ou drives _ Chapitre 3
ensemble de q variables (Xl, X2, ... , Xp) sur y, s'exprime par la nullit des q
coefficients associs:
(HO) : al == a2 == ... == aq == 0
Notons
o
l'estimateur des aj sous l'hypothse Ho et l'estimateur des
coefficients du modle alternatif.
On teste l'hypothse nulle en calculant la statistique du rapport de
vraisemblance:
A == 2(f(,y)-t:(
o
,Y)
On dmontre qu'elle suit une distribution du X
2
q degrs de libert sous
des hypothses de travail convenables. Si l'hypothse nulle est rejete, on
en dduit qu'au moins une des q variables (ou une modalit de la variable
nominale) influe sur la variable y.
c - Comparaison de deux modles
Considrons deux modles embots: le modle 1 P variables explicatives
et le modle 2 P + q variables explicatives comportant entre autres celles
du modle 1. Choisir le modle l, c'est supposer nuls les q coefficients
existant dans le modle 2 et non dans le modle 1 .
En rfrence au test de nullit d'un ensemble de coefficients, on retiendra le
modle 1 si l'hypothse de nullit des q coefficients n'est pas rejete, c'est--
dire si la statistique du rapport de vraisemblance A est infrieure la valeur
critique du X
2
q degrs de libert!.
d - Modle avec interaction
Un fois tabli le modle logistique rduit, certains utilisateurs proposent,
pour affiner les rsultats, d'introduire des termes d'interaction entre les
prdicteurs. Pour cela, on ajoute certains produits des Xj'
Par exemple pour un modle deux variables explicatives, le modle
s'crira:
F(n(x)) == aO + alxl + a2 X2+ a12 Xl x2
La notion d'interaction d'ordre lev est complexe. Un terme d'interaction
d'ordre 2 en modle logistique correspond au terme d'interaction d'ordre 3
en modle log-linaire.
1 En pratique, le choix du modle logistique repose sur la comparaison de modles
embots. On adopte une procdure pas pas en commenant par prendre en compte
le modle comportant le plus de variables explicatives que l'on compare un modle
restreint comprenant un sous-ensemble des prdicteurs. On procdera gnralement
par limination progressive des variables ne modifiant pas de manire significative la
vraisemblance jusqu' avoir un modle ne pouvant plus tre rduit. Cette procdure
n'assure cependant qu'un optimum local.
3.4 _ Modles log-linaires
3.4.5 Modles log-linaire et analyse des correspondances
295
Le modle log-linaire et l'analyse des correspondances ne rpondent pas
aux mmes proccupations et ne fournissent pas des rsultats de mme
nature. Ce sont en fait des techniques complmentaires.
Le modle logistique, qui est un vritable modle explicatif, est plutt
comparer aux techniques d'analyse discriminante de la section prcdente.
Comme elles, il peut gagner tre mis en uvre dans un environnement
de mthodes exploratoires, mais il n'est pas en concurrence directe avec ces
dernires mthodes.
D'assez nombreux travaux ont port sur la comparaison des diffrentes
approches dans des contextes d'application divers, parfois sensiblement
loigns des contextes rels
l
.
a - Des champs d'application diffrents
Bien que s'appliquant aux mmes types de variables, les variables
nominales, ces deux mthodes ont des problmatiques et des champs
d'application diffrents.
Le modle log-linaire s'applique avec profit lorsque l'on dispose de peu de
variables (rarement plus de cinq variables surtout si elles ont beaucoup de
modalits) avec cependant beaucoup d'individus, pour que les cellules de
l'hypertable de contingence obtenue en croisant les variables ne soient pas
vides. Le nombre des sous-modles explicitant les liaisons entre les
variables augmente beaucoup plus vite que le nombre de variables. On
augmente alors le nombre de coefficients tester et donc les chances de
trouver des effectifs nuls, ce qui rend les rsultats plus instables. De ce fait, le
modle log-linaire est bien adapt lorsque le problme pos permet de
1 On ne mentionnera ici qu'un petit nombre de publications sur ce thme en suivant un
ordre chronologique: Daudin et Trcourt (1980) sont parmi les premiers faire une
comparaison sur une table de contingence 6 entres (21x2x2x2x2x2) entre une des
analyses des correspondances possibles et le modle log-linaire. Escoufier (1982),
Lauro et Decarli (1982) proposent galement des rapprochements entre utilisations
des mthodes. Leclerc et al. (1985) comparent sur un exemple approfondi l'analyse des
correspondances et la rgression logistique. Van der Heijden et de Leeuw (1985), Van
der Heijden (1987), puis Van der Heijden et al. (1989) proposent une mthodologie de
l'utUisation simultane de l'analyse des correspondances et des modles log-lineaires
en prconisant de dcrire par des analyses des correspondances les rsidus des
modles log-linaires. D'autres comparaisons et applications se trouvent dans Worsley
(1987) et plus gnralement dans le numro spcial 35 -3 (1987) de la Revue de
Statistique Applique, anim par le L.S.P. de l'Universit Paul Sabatier. Cf. galement
Hudon (1990), Tenenhaus et al. (1993). GiIula (1986), Gilula et Ritov (1990),
Goodman (1986, 1991) tudient les performances de l'analyse des correspondances et
des modles log-linaires dans le contexte d'utilisation des modles qu'ils ont eux-
mmes dvelopps pour les tables de contingences multiples ou modalits ordonnes
(approche confirmatoire pour des tables de dimensions trs rduites).
296 Mthodes explicatives ou drives _ Chapitre 3
procder une slection pralable des variables et de formuler les
hypothses nulles.
L'analyse des correspondances binaires (sur vraies tables de contingence, que
l'on appelle parfois tables de contingence binaire ou double entres)
s'applique avec profit lorsque les deux partitions mises en correspondances
(colonnes et lignes actives) sont relativement importantes : par exemple,
tables de contingence croisant 95 dpartements mtropolitains et 12 causes
de dcs, tables croisant 373 communes de la rgion parisienne et 29
catgories socio-professionnelles. Pour des petites tables de contingence, la
fonction de l'analyse des correspondances est surtout iconographique,
illustrative
1

L'analyse des correspondances multiples (sur tableaux disjonctifs complets)


est utile pour les tableaux de type "sous-fichiers d'enqute" : en gnral une
plusieurs dizaines de variables nominales, de 200 20 000 individus. Il
n'est pas rare que l'hypertable de contingence soit 99% vide
2
.
Qu'il s'agisse de correspondances binaires ou multiples, la dichotomie entre
variables actives et illustratives est fondamentale. C'est elle qui permet de
confronter une information illimite au sous-espace des variables actives,
dont la description ne constitue qu'une phase prliminaire.
Enfin, ces mthodes ne permettent que de dcrire des tableaux. Et une table
de contingence multiple permet de construire diffrents types de tableaux. Si
l'on s'intresse aux interactions d'ordre lev entre certaines variables, on
construira de nouvelles variables en croisant ces variables et en considrant
selon les cas la nouvelle variable comme active ou supplmentaire.
C'est le problme sous-jacent qui permet de guider la dmarche: choix des
tableaux dcrire dans un cas, choix des modles slectionner et
prouver dans l'autre. Rappelons galement que l'usage simultan de la
classification et des analyses en axes principaux fait partie intgrante de la
dmarche exploratoire.
Le tableau 3.4 - 1 rsume ces diffrences d'objectifs et d'applications dans le
cas de l'analyse des correspondance multiples.
Certains travaux de confrontation entre mthodes perdent de leur porte en
raison de la mconnaissance des vocations (essentiellement atteste par une
exprience pratique) de chacune des approches. Il est vrai que le paradoxe
pdagogique inhrent l'analyse des donnes - comment prouver sur un
modle rduit l'efficacit de mthodes qui ne sont utiles et profitables que
sur de grands tableaux - ne facilite pas la tche d'explication de la vocation
relle de ces mthodes.
l Nous reviendrons au chapitre suivant sur la validit des rsultats et la mthodologie
gnrale d'emploi des mthodes.
2 Ainsi, pour une petite batterie de 10 ~ u s t o n s 4 modalits poses 1000
rpondants, l'hypertable prsente 4
10
(,=10 ) cases; moins d'une case sur 1000 sera
non-vide.
3.4 _ Modles log-lillaires
Tableau 3.4-1
Vocations spcifiques des deux approches
297
Modle log-linaire
- Description des interactions entre plus de
deux variilbles dans un cadre infrentiel.
- Des hypothses sur les liaisons doivent tre
formules au pralnble.
- Est limit peu de variables (en pratiqm
moins de 5).
- Met en jeu toutes les cases d'un hypercube
de contingence:
- Mthode par essence confirmntoire, utilise
pour explorer l'univers des modles. On
cherche celui ou ceux qui s'adaptent le mieux
aux observations.
- Les individus n'apparaissent pas.
- La notion de variable supplmentaire n'est
pas directement pertinente.
Correspondances multiples
- Description des liaisons entre les variables
prises deux deux sous forme
essentiellement graphique.
- N'impose aucune hypothse sur les
liaisons, mais impose une certaine
homognit de l'ensembles des variables
actives.
- N'est pas limite dans le nombre de
variables
- Met seulement en jeu les faces de
l' hypercube reprsentes par le tableau de
Burt:
i j 1
i
j "kjl
l '"
- Mthode descriptive et exploratoire de ln
structure intrinsque des donnes.
- Les individus peuvent jOller un rle
central. L'analyse sert souvent produire
des Il;pologies d'individus.
- La notion de variable supplmentaire est
fondamentale.
Il faut reconnatre cependant que si l'analyse des correspondances est bien
utile dans le cas des grandes tables de contingences deux entres et dans le
cas des grands tableaux disjonctifs complets, elle est beaucoup plus dlicate
utiliser dans le cas intermdiaire des petites tables de contingence
mul tidimensionnelles.
Pour ce type de tableau aux facettes peu nombreuses, l'intrieur de la table
de contingence (croisements de plus de deux variables), s'il contient des
effectifs suffisants, est intressant dcrire de faon dtaille. Une analyse
des correspondances multiples sur un tableau comportant trois Ou quatre
298 Mthodes explicatives 01/ drives _ Chapitre 3
variables nominales donne des rsultats assez grossiers, d'une stabilit
douteuse.
Il existe en la matire des savoir-faire, sans qu'une mthodologie rigoureuse
se soit impose dfinitivement: on peut juxtaposer des tranches en ligne ou
en colonnes (cf. par exemple van der Heijden (1987) pour le cas des donnes
longitudinales); juxtaposer des tableaux obtenus par croisements des
variables initiales; positionner en lments supplmentaires les
croisements de variables deux deux dans les plans factoriels d'une analyse
des correspondances multiples; dans certains cas, raliser une analyse
factorielle multiple (cf. 3.8.3). D'autres approches seront voques plus
loin. C'est propos de ce type d'applications que l'on pourra parler de
complmentarit entre les mthodes.
b - Liens thoriques entre l'analyse des correspondances
et les modles log-linaires
L'analyse des correspondances analyse l'cart entre un tableau de frquence
Iii et un tableau modle fiJj correspondant l'hypothse d'indpendance.
Lorsque cet cart est significatif!, elle dcrit de faon suggestive les
associations privilgies entre lignes et colonnes responsables de cet cart.
Ce principe d'analyse est manifestement insuffisant pour les tables de
contingence plus de deux entres. Certes, l'analyse des correspondances
multiples constitue une gnralisation possible de cette dmarche, ralisant
une sorte de compromis entre tous les croisements des variables prises deux
deux. Cette gnralisation est opratoire lorsque le nombre et la nature des
variables nominales exclut une tude mthodique de leurs interactions: on
a alors traiter un tableau (individus x variables), comme en analyse en
composantes principales.
Mais il n'existe pas d'analogue du thorme d'Eckart et Young dans le cas
des tableaux tridimensionnels
2
Il ne peut donc exister dans ce cas de
dmarche exploratoire aussi bien assise que dans le cas des tableaux double
entre.
La dmarche propose par van der Heijden et de Leeuw (1985) puis
dveloppe par van der Heijden (1987), qui s'apparente aux analyses
partielles voques la section 3.6, va effectivement dans le sens d'une
1 Le classique X
2
permet d'alerter l'utilisateur sur la signification de cet cart, mais les
premires valeurs propres de l'analyse des correspondances, ainsi ~ les taux d'inertie
correspondants, peuvent galement mesurer des carts que le X ne dcle pas; cf.
1.3.4.a.
2 Ce que l'on peut exprimer dans les termes suivants: il existe une dcomposition
hirarchique unique d'un lment du produit tensoriel de deux espaces euclidiens en
une somme de produits tensoriels de vecteurs appartenant chacun des deux espaces.
Mais une telle dcomposition n'est pas unique dans le cas de d'un lment du produit
tensoriel de plus de deux espaces euclidiens (cf. 8enzcri, 1973; Tome 2B, n
0
6
[REDTENS.]).
3.4 _ Modles log-/illaires 299
utilisation synergique des deux approches utiliser le modle log-linaire
pour liminer l'effet complexe de certaines variables et utiliser l'analyse des
correspondances pour dcrire les rsidus que le modle log-linaire ne
permet pas d'expliquer.
Elle rejoint une gnralisation de l'analyse des correspondances introduite
par Escofier (1984) qui permet d'introduire des modles moins restrictifs.
L'analyse factorielle des correspondances se gnralise un modle diffrent
du modle d'indpendance en supposant que les marges du tableau de
rfrence sont distinctes de celles du tableau tudi.
Les liens thoriques entre l'analyse des correspondances et les modles log-
linaires sont trs tnus, mme dans des contextes relativement simples.
Aprs Escoufier (1982), Worsley (1987), van der Heijden et al. (1989),
crivons ce que pourrait tre un modle de l'analyse des correspondances
dans le cas d'une approximation bi-dimensionnelle de la loi /ij.
La formule de reconstitution des donnes en analyse des correspondances
(cf. section 1.3.3.h) peut s'crire, en retenant deux axes:
/;j =: kl
j
{l + I.JIh fPh (i)l/Ih (j)}
h=l
ce qui suggre un modle de la forme:
/;j =: eij =CPiqj( 1+ rli
s
lj + r2iS2j)
o les coefficients inconnus, assujettis aux mmes contraintes que leurs
homologues de la formule de reconstitution, sont dtermins de faon
rendre minimale une distance entre /ij et eij 1.
Le modle peut s'crire, si les valeurs propres ,1 et ,2 sont petites par
rapport l, ce qui est le cas au voisinage de l'indpendance:
log /;j =: log eij = ao +ai + b
j
+ rli
S
lj +r2is2j
alors qu'un modle log-linaire satur s'crit:
l "b'
og e'j =aO +ai + j + Uij
Ainsi, l'analyse des correspondances suggre de dcomposer le terme
d'interaction Uij sous forme simplement multiplicative dans le cas d'un
seul facteur, et plus gnralement sous forme de matrice de rang q dans le
cas o l'on retient q facteurs.
Il est vrai que dans le cas d'une table de contingence double entre, le
modle log-linaire non-satur est trivial (hypothse d'indpendance) et le
1 Distance du X
2
, critre de Kullback-Leibler (cf. section 3.4.3-b), ou encore critre de la
dviance, trs utilis pour les modles logistiques (cf. par exemple Celeux et Nakache,
1994).
300 Mthodes explicatives ou drives _ Chapitre 3
modle satur aussi (ajustement parfait). D'o les tentatives de donner au
terme d'interaction des formes plus simples, avec en particulier les modles
dit RC, puis multifactor de Goodman (cf. Goodman, 1986). L'analyse des
correspondances, qui revient une dcomposition aux valeurs singulires
de la matrice norme (que l'on peut appeler matrice d'interaction) :
rpond une mme proccupation
1
.
Le cas des tables de contingences multiples est beaucoup plus complexe, et
dans les configurations o le modle log-linaire peut tre appliqu (peu de
variables, beaucoup d'individus, des ides a priori sur le rle de telle ou
telle variable) l'approche "analyse de rsidus" mentionne plus haut parat
bien approprie.
c - Difficults de l'articulation exploration-infrence
Lorsque l'on est en situation trop exploratoire pour pouvoir formuler des
hypothses, ou lorsque le nombre de variables est trop lev par rapport au
nombre des individus pour pouvoir construire un modle pertinent, on a
recours l'analyse des correspondances multiples.
Son utilisation permet d'une part de dceler, dans un premier temps, les
liaisons intressantes entre certaines variables, et d'autre part de
slectionner et rduire les variables et leurs modalits. Rappelons que l'on
travaille sur les "faces de l'hypercube" c'est--dire sur les cumuls de
frquences correspondant des effectifs i.mportants.
On pourrait penser tester les liaisons par des modles log-linaires afin de
prciser et de mesurer le niveau et l'intensit de celles-ci (l'intrieur de
l'hypercube, lorsque le nombre d'individus le permet). Cette dmarche
demande cependant une certaine prudence.
Ce serait en effet une erreur de raisonnement (malheureusement rpandue
chez les praticiens) de penser que l'on peut tester sur des donnes un
modle suggr par les mmes donnes.
Comme l'a spcifi Cox (1977) dans un remarquable article de synthse sur
les tests de signification, l'articulation exploratoire - confirmatoire pose des
problmes d'une grande complexit, analogues ceux que nous avons
rencontrs dans la section prcdente propos de l'analyse discriminante:
tester une fonction discriminante sur l'chantillon d'apprentissage donne
une ide trop optimiste de son pouvoir de prdiction.
Dans les deux cas en effet, les chantillons, et donc les fluctuations qui leurs
sont propres, sont sollicits soit pour construire une fonction ou une rgle
1 Elle effectue cette dcomposition dans un cadre gomtrique euclidien simple, en
produisant des visualisations assorties de rgles d'interprtation.
3.4 _ Modles log-linaires 301
de classement (cas de l'analyse discriminante) soit pour choisir un modle
(cas d'une analyse des correspondances multiples pralable un modle log-
linaire).
La difficult est accentue par l'effet "comparaisons multiples"l que l'on
peut craindre dans la mesure o l'analyse des correspondances multiples
peut traiter simultanment plusieurs dizaines, voire des centaines de
variables.
Mme lorsque le tableau contenant p variables nominales est gnr selon
un modle stipulant l'indpendance totale entre les p variables, un certain
nombre de paires de variables (parmi les p(p-l)/2 paires possibles) peut
donner lieu des liaisons significatives selon les valeurs usuelles des seuils,
et ceci d'autant plus facilement que p est grand. Un modle restreint cette
slection de variables pourrait effectivement confirmer une structure qui ne
serait en fait qu'un artefact.
Il existe au moins deux types de solutions pragmatiques pour contourner ces
difficults: travailler sur un chantillon supplmentaire (chantillon-test,
validation croise) comme dans le cas de la discrimination; travailler avec
des seuils de signification plus svres au niveau de la lecture des modles
(comme dans le cas de comparaisons multiples)2.
1 Cf. par exemple la section 1.1, 1.4.4.a; et ci-dessus, la section 3.4.3.c propos de
la slection des modles log-linaires.
2 Remarquons que la dmarche "analyse des correspondances des rsidus d'un modle
log-linaire" mentionne plus haut, qui correspond une articulation en sens inverse:
Infrence -Exploration, ne prte pas le flanc ces critiques. Elle correspond une
situation mthodologique plus particulire, pour laquelle les modles log-linaires
pouvaient tre utiliss d'emble. L'approche exploratoire est cependant, en gnral, et
presque par nature, la premire phase des investigations.
302
Section 3.5
Segmentation
Mthodes explicatives ou drives _ Chapitre 3
Les mthodes de segmentation cherchent rsoudre les problmes de
discrimination et de rgression en segmentant de faon progressive
l'chantillon pour obtenir un arbre de dcision binaire. La voie a t
ouverte par o n ~ u s t et Morgan (1964) et Morgan et Messenger (1973) avec
la mthode dite AID (Automatic Interaction Detection)l. De nombreuses
contributions ont suivi, mais les travaux de Breiman, Friedman, Olshen et
Stone (1984) ont renouvel l'approche et suscit un regain d'intrt pour la
segmentation. Leur mthode, connue sous le nom de CART (Classification
And Regression Tree), diffre de l'AID par le mode de construction de
l'arbre et la technique d'lagage conduisant un sous-arbre exploitable
ayant des proprits satisfaisantes 2.
La segmentation par la mthode CA RT vient donc concurrencer les
mthodes plus classiques que sont la rgression multiple, l'analyse
discriminante et la rgression logistique. Elle prsente des avantages
importants dont le premier est sans doute la lisibilit des rgles
d'affectation, l'interprtation des rsultats tant directe et intuitive. Par
ailleurs la technique est non-paramtrique et peu contrainte par la nature
des donnes. On peut en effet utiliser en mme temps comme variables
explicatives, des variables continues, ordinales et nominales sans codage
pralable. De plus, la technique fournit d'office la slection des variables
utiliser en tenant compte d'ventuelles interactions. Elle est robuste vis--
vis de donnes errones ou de valeurs aberrantes et gre les donnes
manquantes aussi bien dans la construction de l'arbre et l'estimation de son
risque que dans l'application de la rgle un nouveau sujet. Enfin c'est le
mme principe, la mme mthode, le mme algorithme qui sont mis en
uvre pour analyser une variable nominale (discrimination) et une
variable continue (rgression).
Cependant, les rgles d'affectation pourront paratre parfois "abruptes" et
trop sensibles de lgres perturbations des donnes. Il apparatra parfois
difficile de dcider quel est l'arbre "optimal". On peut galement regretter
l'absence d'une fonction globale mettant en jeu l'ensemble des variables
(fonction linaire discriminante ou quation de rgression) qui prive
l'utilisateur d'une reprsentation gomtrique sous forme de
configurations de points dans l'espace.
1 Cf. Bouroche et Tenenhaus (1970).
2 On pourra se reporter pour des lments thoriques l'ouvrage cit de Breiman et al.,
et pour une prsentation pratique l'article de Guegen et Nakache (1988) et aux deux
ouvrages dits par Celeux (1990) et Celeux et Nakache (1994).
3.5 _ Segmentation 303
3.5.1 Fonnulation du problme, principe et vocabulaire
Comme en rgression (linaire ou logistique) et en discrimination, on est
en prsence d'un tableau de donnes contenant une variable privilgie y
" expliquer" par les autres variables du tableau Xl, X2,"" X
p
'
Il s'agit d'une part de slectionner parmi les variables explicatives celles qui
sont les plus discriminantes pour la variable nominale y (ou celles qui sont
le plus lies au phnomne dcrit par la variable continue y), et d'autre part
de construire une rgle de dcision permettant d'affecter un nouvel
individu l'une des k classes (cas de la discrimination) ou de lui affecter
une valeur y (cas de la rgression).
La mthode de segmentation consiste rechercher d'abord la variable Xj qui
explique le mieux la variable y. Cette variable dfinit une premire division
de l'chantillon en deux sous-ensembles, appels segments. Puis on ritre
cette procdure l'intrieur de chacun de ces deux segments en recherchant
la deuxime meilleure variable, et ainsi de suite 1.
On construit ainsi un arbre de dcision binaire par divisions successives de
l'chantillon en deux sous-ensembles (figure 3.5 - 1) o l'on distingue:
- les segments intermdiaires ou nuds qui engendrent deux segments
descendants immdiats,
- les segments terminaux qui ne sont plus diviss,
- une branche d'un segment t qui comprend tous les segments descendant
de t, t n'tant pas inclus dans la branche,
- l'arbre binaire complet not A
max
pour lequel chaque segment terminal
contient un seul individu,
- un sous-arbre A qui est obtenu partir de A
max
par lagage d'une ou de
plusieurs branches.
Par ailleurs, la mthode CART, contrairement aux autres mthodes de
segmentation, n'impose aucune rgle (fonde sur un seuil) d'arrt de
division des segments. Elle fournit, partir de l'arbre binaire complet, la
squence des sous-arbres obtenue en utilisant une procdure d'lagage.
Celle-ci est base sur la suppression successive des branches les moins
informatives en terme de discrimination entre les classes ou en terme
d'explication de la variable y.
Au cours de la phase d'lagage, la mthode slectionne un sous-arbre
"optimal" en se fondant sur l'estimation de l'erreur thorique d'affectation
ou de prvision l'aide, soit d'un chantillon-test (technique prsente ci-
aprs) quand l'chantillon est suffisamment important, soit de la validation
croise.
1 Notons que cette mthode, contrairement aux autres mthodes multidimensionnelles,
ne considre pas simultanment l'ensemble des variables explicatives mais les examine
une par une. Cependant, les liaisons entre variables explicatives sont prises en compte
aux diffrentes tapes de la construction de l'arbre.
304 Mthodes explicatives ou drives _ Chapitre 3
0: segments intermdiaires
0: segments tenninaux
Figure 3.5 - 1
AIbre de dcision binaire
3.5.2 Construction d'un arbre de dcision binaire
L'ide de base est d'effectuer la division d'un nud de telle sorte que les
deux segments descendants soient plus homognes que le nud parent et
qu'ils soient les plus diffrents possible entre eux vis--vis de la variable y.
Cette procdure ncessite de dfinir un critre permettant de slectionner la
"meilleure" division d'un nud. Le critre de la rgression diffrera de
celui de la discrimination, mais le principe de construction reste le mme
dans les deux cas.
Les diffrentes phases de construction de l'arbre sont les suivantes:
1- tablir pour chaque nud l'ensemble des divisions admissibles.
2- dfinir un critre permettant de slectionner la "meilleure" division
d'un nud.
3- dfinir une rgle permettant de dclarer un nud comme terminal
ou intermdiaire.
4- affecter chaque nud terminal l'un des groupes (cas de la
discrimination), ou affecter une valeur y pour chaque nud
terminal (cas de la rgression).
5- estimer le risque d'erreur de classement (cas de la discrimination) ou
de prvision (cas de la rgression) associ l'arbre.
a - Algorithme gnral de segmentation
Les variables explicatives peuvent tre de nature quelconque. Dans un
premier temps, considrons le cas des variables continues. Les tapes de
l'algorithme sont les suivantes:
1 - Au dpart, on dispose d'un seul segment contenant l'ensemble des
individus.
3.5 _ Segmelftation 305
2 - A la premire tape, la procdure de construction de l'arbre examine
une par une toutes les variables explicatives.
Pour une variable Xj donne, elle passe alors en revue toutes les
divisions possibles de la forme Xj <Ct o Ct est une valeur quelconque
contenue dans l'tendue de la variable Xj considre.
Chaque division scinde l'chantillon en segments descendants: le
segment de gauche tg contient les sujets vrifiant Xj < Ct et le segment de
droite td contient les autres (Xj ex). De toutes les divisions dj possibles
de Xj, o m reprsente la mime division (soit encore la mime valeur
classe de Xj), la procdure slectionne la "meilleure" dj, au sens d'un
critre de division prciser 1.
valeurs
ordonnes
de
x
j
ex"
X
J
dT = m
ime
division
d." " '11 "
._j = me! eure
division
Figure 3.52
Divisions possibles pour la variable Xj
On obtient ainsi, pour chacune des p variables, la meilleure division et
l'on retiendra finalement, parmi ces p divisions, celle, note d', qui
fournit les deux segments les plus "typs" vis--vis de y .
Xl
X
X
p
J
d7= "meilleure"

........
,..-
J
division pour x
j
1.1

\
........
_ d"= "meilleure" division

globale
Figure 3.5 . 3
Meilleures divisions pour l'ensemble des variables
1 Critre de la variance rsiduelle pour la rgression (cas d'une variable expliquer
continue), cf. 3.5.2.b. Critre de la puret maximale dans le cas de la discrimination,
cf. 3.5.2.c.
306 Mthodes explicatives ou drives _ Chapitre 3
3 - A l'tape suivante, on applique la mme procdure chacun des deux
segments descendants obtenus. Les variables explicatives peuvent tre
diffrentes selon les segments.
4 - On arrte la procdure lorsque tous les segments sont dclars
terminaux: soit parce qu'ils ne ncessitent plus de divisions soit parce
que leur taille est infrieure un effectif fix.
Pour un nouvel individu, on dfinit une rgle d'affectation simple en le
faisant descendre dans l'arbre.
Si, parmi les variables explicatives, certaines sont nominales, elles sont
prises en compte de la manire suivante:
une variable deux modalits ne peut fournir qu'une seule division,
une variable k modalits ordonnes fournit k - 1 divisions,
une variable k modalits non ordonnes fournit 2
k
-
1
- 1 divisions;
toutes les divisions correspondant aux diffrents sous-ensembles de
modalits sont examines.
Par exemple, partir d'une variable a deux modalits, d'une variable b 4
modalits ordonnes et d'une variable c 3 modalits non ordonnes, les
divisions possibles d'un nud en deux segments descendants tg (celui de
gauche) et td (celui de droite) sont les suivantes
l
:
Tableau 3.5 -1
Divisions possibles d'un segment par une variable nominale
tg td
var. binaire
(al) (a2)
varinble (bl) (b2, bJ, b4)
ordonne (bl, b2) (b), b4)
(ordinale) (b
l
, b2, b3) (b4)
varinble (Cl) (C2, C3)
non (C2) (Cl, C3)
ordonne (C)) (Cl, C2)
b - Cas de la rgression
Lorsque la variable expliquer y est continue, le critre de slection de la
"meilleure" division d'un nud est fond sur la variance de y dans les
segments descendants. Cette variance doit tre plus faible que la variance de
y dans le nud parent.
1 Remarquons que la segmentation effectue simultanment un dcoupage sur la
population observe et sur les valeurs des variables explicatives.
3.5 _ Segmentation
- Critre de la variance rsiduelle minimale
307
Pour toute division dj d'un nud t par une variable xi, on calcule la
moyenne pondre des variances de y l'intrieur de chacun de ses
segments descendants tg et tel, c'est--dire la variance rsiduelle du nud t :
var(dj ,t) = ~ s ~ + ~ . d . s a
nt nt
o ng, nd, nt sont respectivement les effectifs des segments tg, tel, t et s ~ , sa
sont les variances de la variable continue y l'intrieur des segments tg et
t{j 1.
On retient la "meilleure" division dj ralise par la variable Xj qui
correspond la variance rsiduelle minimale:
var(dj,t) = min (var(dj,t)}
mEd
j
o di est l'ensemble des divisions de la variable xi'
Parmi toutes les meilleures divisions dj obtenues partir des p variables
explicatives, la meilleure division (globale) du nud t est effectue l'aide
de la variable qui assure:
var(d"',t) = . min (var(dj,t)}
J=l,...,p
- Les tapes de l'algorithme
Considrons un ensemble d'individus sur lesquels on relve les
informations concernant une variable continue y et p =8 variables
explicatives Xl, ... , X8. On suppose que les valeurs de y ont pour moyenne
m =10 et pour variance 52 =60.
On commence par examiner la variable continue Xl
Figure 3.5 - 4
Rgression: meilleure division pour la variable Xl
l Il s'agit de la variance interne ou infra introduite notamment en analyse
discriminante, c'est--dire de la variance non explique par la coupure.
308 Mthodes explicatives ou drives _ Chapitre 3
On retient la valeur de coupure qui minimise la variance l'intrieur des
deux segments descendants, par exemple la division associe la valeur 4,5
(cf. figure 3.5 - 4)
Mais cette meilleure division obtenue avec Xl n'est peut-tre pas la plus
efficace en terme de rduction de la variance. Il faut tudier les autres
variables. On recherche, de la mme manire, la meilleure division de
l'chantillon pour chacune des p- 1 = 7 autres variables. On choisira alors la
division qui prsente la plus faible moyenne pondre des variances de y
l'intrieur des deux segments descendants, par exemple la variable
continue xs pour la valeur a = 7,2.
Figure 3.5 - 5
Rgression: meilleure division pour toutes les p variables
On ritre cette procdure l'intrieur de chacun des deux segments
obtenus tl et t2. Pour le segment tl, ce sera par exemple la variable
nominale X7 deux modalits; la meilleure division sera obtenue pour les
valeurs x7=1 (segment t3), et x7=2 (segment t4)' On slectionnera la variable
X2 deux modalits, pour le segment t2. On aboutit ainsi l'arbre deux
niveaux reprsent sur la figure 3.5 - 6. (Sur cette figure, l'indice bas des
variances est celui des segments correspondants: sr correspond au segment
ti)
On pourrait arrter l la procdure de division et produire l'arbre de
prdiction 4 segments terminaux.
Figure 3.5 - 6
Rgression: Arbre deux niveaux
3.5 _ Segmenta tiOlI 309
[3.5 -1]
- Rgle d'affectation
Considrons alors un nouvel individu i dont on cherche prvoir la
valeur de Yi. Il tombera dans un de ces 4 segments terminaux aprs avoir
parcouru un chemin de l'arbre suivant les valeurs qu'il prsente pour xs, X7
et X2. La valeur affecte Yi sera la moyenne dans le segment et l'cart-type
correspondra celui du segment.
- Erreur Apparente de Prvision associe un arbre A
Si certaines variances des segments sont encore importantes, on peut
continuer les divisions dans le but de rduire davantage les variances des
segments terminaux.
Ainsi on associe chaque segment terminal t de l'arbre A l'erreur Rt
suivante:
R
t
=!!i x sr
n
o n est le nombre total d'individus, nt est le nombre d'individus du
segment t, st est la variance de la variable Y l'intrieur du segment t c'est-
-dire:
2 1 - )2
St =-L.. Yi -Yt
nt i
avec 'rh, la moyenne des valeurs Yi des individus du segment t.
L'Erreur Apparente de Prvision (EAP) associe l'arbre A vaut:
EAP(A) = IR
t
tEA
et correspond la moyenne pondre des variances de Y dans chacun des
segments terminaux de l'arbre A. Le rapport EAP(A)/s2 est l'quivalent de
l'expression (1 - R2) de la rgression linaire multiple! et reprsente le
pourcentage de la variance totale non explique par les variables Xl, X2,. .. , x
p
.
Plus on divise, plus les variances dcroissent pour tre finalement nulles
quand chaque segment terminal contient un seul individu. Au grand arbre
complet not A
max
ainsi obtenu est affecte une Erreur Apparente de
Prvision nulle.
c - Cas de la discrimination
Lorsque la variable Yest nominale et rpartit les individus en k classes, la
slection d'une division doit tre telle que les segments descendants soient
plus "purs" que le nud parent. Autrement dit, il faut que le mlange des
1 Dans la rgression linaire multiple, on suppose que la variance de la rponse y
conditionnellement aux covariables (variables explicatives) est constante, ce qui n'est
pas le cas pour la rgression par arbre.
310 Mthodes explicatives ou drives _ Chapitre 3
classes soit moins important dans les segments descendants que dans le
nud parent.
- Critre de la puret maximale
A chaque segment t est donc associe une mesure de l'impuret i(t) dfinie
par:
k k
i(t) =IIP( rlt)p(sil)
r 5
avec r"# s et o P(rlt) et P(slt) sont les proportions d'individus dans les
classes Cr et Cs dans le segment] t.
Un segment est pur s'il ne contient que des individus d'une seule classe,
dans un tel cas: i(t) = O. Plus le mlange des classes dans le segment test
important, plus l'impuret i(t) est leve.
Chaque division dj du nud t par la variable Xj entrane une rduction de
l'impuret qui s'exprime par:
!lj =i(t)-Pgi(tg)-p(td)
o Pg et Pd sont les proportions d'individus du nud t respectivement
dans les segments descendants tg et td (la fonction i(t) tant concave,
l'impuret moyenne ne peut que dcrotre par division d'un nud).
Par consquent pour chaque variable Xj, la meilleure division dj est telle
que la rduction de l'impuret !lj est maximale:
!l*' =max ~ }
J mEd. J
J
o d
j
est l'ensemble des divisions de la variable Xj'
Sur l'ensemble des P variables, la division du nud t est effectue l'aide
de la variable qui assure:
!l* =.max {!lj}
J=l, .. "P
- Les tapes de l'algorithme
Considrons maintenant 300 individus rpartis en 3 classes CI, C2, C3 de
mme taille et sur lesquels la mesures quantitatives ont t releves.
On procde comme dans le cas de la rgression par segmentation en
examinant toutes les variables.
] La fonction i(t) est l'indice de diversit de Gini (cf. Goodman et Kruskal, 1954). On
k
aurilit pu galement utiliser l'entropie de S/umnon : i(t)=-l P(rll) logP(slt>.
3.5 _ Segmelltatioll 311
Pour la variable Xl, on aboutit par exemple la meilleure division (qui n'est
pas ncessairement la plus discriminante) observable sur la figure 3.5 - 7.
Xl < 8,4
( 60,43,62 J
Figure 3.5 - 7
Discrimination: meilleure division pour la variable Xl
On retient finalement, parmi toutes les variables, celle qui produit la
meilleure "meilleure division", par exemple la variable continue X8 pour
a=3,5.
100, 100, 100
X8 < 3,5 /"'----.........
(75,65,20 J
25,35,80
Figure 3.5 - 8
Discrimination: meilleure division pour toutes les variables
On obtient ainsi la meilleure sparation entre les 3 classes, ce qui se traduit
par le schma de la figure 3.5 - 8. On applique cette mme procdure aux
deux segments descendants obtenus.
- Rgle d'affectation
Si on considre le segment terminal t de taille nt, il contient n1{/) sujets
appartenant la classe 1, ... , n,{/) sujets de la classe r, ... , nk(t) sujets de la
classe k.
Chaque segment terminal est affect la classe qui y est la mieux
reprsente. Par exemple, les segments 1 et 4 de la figure 3.5 - 9 sont affects
la classe 2. Un nouvel individu qui descend dans l'arbre arrive dans un
segment terminal et sera affect la classe correspondante.
- Taux d'Erreur Apparente de classement
A tout segment terminal t de l'arbre A associ une classe Cs correspond
une erreur de classement de la forme:
k
R(sil) = L. P( rll)
'=1
312 Mthodes explicatives ou drives _ Chapitre 3
segment 1
75,65,20
segment 2 segment 4
[3.5 - 2]
Figure 3.5 - 9
Discrimination: Arbre deux niveaux
avec r * s et o P ~ t == n,(t) est la proportion d'individus du segment t
nt
affects la classe Cs et qui appartiennent la classe Cr.
Le Taux d'Erreur Apparent de classement (TEA) associ l'arbre vaut:
TEA(A) == L ~ R s l t == L n,(t)
tEA n tEA,=l n
avec r * s. Il reprsente la proportion d'individus mal classs dans
l'ensemble des segments terminaux.
Ainsi, l'arbre de la figure 3.5 - 9 ne fournit pas une bonne rgle de dcision
en terme d'erreur de classement. En effet, un sujet qui parcourt l'arbre et
qui tombe dans le segment 1 est affect la classe 2 avec une erreur de
classement de 14,9 %; celui qui tombe dans le segment 4 est affect la classe
2 avec une erreur de classement de 55,5 %.
Le Taux d'Erreur Apparent de classement associ l'arbre est la moyenne
des erreurs de classement dans les diffrents segments terminaux, soit:
TEA == (74 x 14,9%+ 86 x 20,9%+95 x 26,3%+ 45 x 55, 5%) == 263%
300 '
On a sans doute intrt continuer diviser les segments. La question est
de savoir quel moment il faut arrter la procdure de division.
3.5.3 Slection du "meilleur sous-arbre"
Par "meilleur" sous-arbre, on entend un arbre qui contient le moins de
segments terminaux et dont J'erreur apparente de prvision ou de
classement est la plus petite possible, tout en fournissant une estimation
correcte de l'erreur thorique.
3.5 _ Segmentation 313
Un sous-arbre ayant peu de segments terminaux entrane une erreur
apparente qui, bien que refltant l'erreur thorique, est trop importante. En
effet, si l'arbre est trop petit, on peut tre conduit perdre de bonnes
divisions et ne pas utiliser toute l'information contenue dans
l'chantillon. Inversement, un arbre trop grand (avec de nombreuses
divisions) est associe une erreur apparente faible mais qui donne une
estimation trop optimiste de l'erreur thorique. C'est donc entre ces deux
extrmes que doit tre choisi le "meilleur" sous-arbre.
La mthode propose par Breiman et al. (op. cit.) est fonde sur l'utilisation
d'un chantillon-test et prsente un double avantage:
- dterminer le "meilleur" sous-arbre sans employer de tests statistiques
pour dfinir une rgle d'arrt de la procdure de division,
- obtenir une estimation prcise de l'erreur thorique de prvision ou
de classement.
a - Procdures de slection
Il est ncessaire de diviser l'chantillon de base en deux parties,
l'chantillon d'apprentissage (par exemple constitu par les 2/3 de
l'chantillon de base) et l'chantillon-test (le tiers restant). La recherche du
"meilleur" sous-arbre A" se fait alors de la faon suivante:
- A partir de l'chantillon d'apprentissage, on construit l'arbre complet
A
max
ou un arbre tel que chaque segment terminal contienne peu
d'individus.
Puis l'opration d'lagage de l'arbre A
max
consiste construire une
squence optimale de sous-arbres embots (AH, ... , Ah,., Al) o AH
concide avec A
max
, Ah est le sous-arbre ayant h segments terminaux
et Al est l'chantillon total. Chaque sous-arbre Ah de cette squence est
optimal au sens suivant: son Erreur Apparen,te (EA) est minimale
parmi les sous-arbres ayant le mme nombre de segments terminaux
1
.
Si Sh est l'ensemble des sous-arbres de A
max
ayant h segments
terminaux alors:
EA(A
h
) = min (EA(A)}
A E Sh
- A partir de l'chantillon-test, on slectionne, parmi les sous-arbres de
la squence optimale, le meilleur sous-arbre A". C'est celui qui
prsente la plus petite erreur thorique (ET) :
ET(A*)= min (ET(A
h
)}
l$h$H
1 En fait, des algorithmes appropris permettent de choisir une squence sous-
optimale, mais accessible par le calcul (cf. Breiman et al., 1984; Celeux et LechevaUier
in : Celeux, 1990).
314 Mthodes explicatives ou drives _ Chapitre 3
Les individus de l'chantillon-test parcourent chacun des sous-arbres
de la squence optimale et tombent dans un segment terminal, ce qui
entrane une estimation de l'erreur thorique pour chaque sous-arbre.
En pratique, j'estimation de l'erreur thorique dcrot rapidement
mesure que le nombre de segments terminaux des sous-arbres
augmente, puis elle passe par un palier et crot ensuite lentement. Le
sous-arbre A" slectionn comme optimal est le plus petit sous-arbre
associ l'estimation la plus petite de l'erreur thorique.
b - Estimation de l'Erreur Thorique de Prvision
L'estimation de l'Erreur Thorique de Prvision pour un sous-arbre A de la
squence optimale, ETP(A), est calcule sur l'chantillon-test suivant la
formule utilise pour l'Erreur Apparente de Prvision [3.5 - 1] :
ETP(A) = l ~
leA
avec RI =n! x sl et o il est la taille de l'chantillon-test, ni est le nombre
n
d'individus de l'chantillon-test qui appartiennent au segment t et sl est la
variance de la variable y l'intrieur du segment t.
c - Estimation du Taux d'Erreur Thorique de classement
Les appellations de Taux d'Erreur Apparent ou Thorique de Classement
n'ont de sens que dans le cas le plus simple c'est--dire si les probabilits a
priori des classes sont estimes par les frquences des classes dans
l'chantillon et si les cots de mauvaise classification sont tous gaux. Dans
le cas gnral, on utilise un Cot d'Erreur Apparent ou Thorique pour
lesquels les formules de calcul sont plus complexes.
- Cas le plus simple
L'estimation du Taux d'Erreur Thorique de classement se calcule comme
le Taux d'Erreur Apparent [3.5 - 2] partir de l'chantillon-test. Elle est gale
la proportion Pt d'individus mal classs par le sous-arbre A dans
l'chantillon-test (cf. formule [3.5 - 2]).
TA(A) = l f i i r ~ t =PI
teAr=l n
avec r"* s, o il est l'effectif de l'chantillon-test et ilr(t) est le nombre
d'individus de l'chantillon-test affects la classe Cs et qui appartiennent
la classe Cr dans le segment terminal t.
3.5 _ Segmentation 315
Il est possible de fournir un intervalle de confiance associ cette
proportion PI partir de l'estimation de la variance de cette proportion:
V
A (- )_PIO-PI)
ar PI - _
n
- Cas gnral
La rgle de dcision la plus gnrale est celle qui tient compte des
probabilits a priori n, (r =1,2, ... , k) des k classes discriminer et des cots de
mauvais classement nots C( ris) o r # s =1, 2, .. o,k.
C(rls) dsigne le cot] entran par l'affectation d'un individu la classe Cs
alors qu'il appartient la classe Cr. La rgle gnrale d'affectation d'un
segment terminal t une classe est fonde sur le cot moyen d'erreur de
classement (appel aussi risque d'erreur).
Si n,(t) dsigne le nombre d'individus de la classe Cr du segment t et n,
l'effectif total de la classe Cr, on a :
n,(t)
P,--
n
Perit) = '
p(t)
, pet) n,Ct) 1 b b'l' . d'" b ."
ou =LP,-- est a pro a 1 lte a outIr au segment t.
,=1 n,
Le cot moyen d'erreur de classement R(slt) entran par l'affectation du
segment t la classe Cs est gal :
k
R(slt) =IC(r\s)P(rlt)
,=1
Ainsi le segment terminal t est affect la classe Cj si :
Ralt)= min (R(slt)}
s=1,. .. k
Remarque
Si la probabilit n, d'appartenance a priori la classe cr est gale la proportion
d'individus de cette classe dans J'chantillon:
n,
n, =-;;
alors P{t} tel que:
P{t} = l P, n,(t)
,=1 n,
est simplement la proportion d'individus composant le segment terminal t.
1 Les diffrents cots C(sls) sont nuls et en gnral Gris) # C(slr).
316
3.5.4
Mthodes explicatives ou drives _ Chapitre 3
Divisions qui-rductrices et qui-divisantes
La meilleure division d" d'un nud est celle qui assure la plus grande
rduction de la variance rsiduelle ou de l'impuret en passant du nud
ses segments descendants. Cette notion de maximum absolu est trs stricte.
Il peut exister en effet des divisions presque aussi bonnes, pouvant jouer un
rle important au niveau des interprtations.
Par extension, on dfinit, ct de d", deux autres types de divisions :
les divisions qui-rductrices qui assurent, aprs d", les plus fortes
rductions de l'impuret ou les plus faibles variances rsiduelles. Elles
permettent d'intervenir sur le choix de la "meilleure" variable
explicative.
les divisions qui-divisantes qui fournissent les rpartitions les plus
proches de la meilleure division d". Elles permettent de grer l'existence
de donnes manquantes dans l'affectation d'un nouvel individu une
classe ou une valeur de y .
a - Divisions qui-rductrices
La procdure de division d'un nud fournit les premIeres meilleures
divisions d'un nud pour lesquelles la rduction de la variance rsiduelle
ou de l'impuret est leve (cf. 3.5.2.b et c).
Si la meilleure division d" du nud t est obtenue partir de la variable x",
on dfinit la premire division qui-rductrice di effectue sur la variable
Xi (Xi X") avec i:: l, ... ,p. C'est celle qui correspond une rduction des
segments descendants la plus proche de celle de la meilleure division d".
En d'autres termes, c'est la deuxime meilleure division du nud t. On
dfinit par extension les 2me, 3me, ... , divisions qui-rductrices
l
.
b - Divisions qui-divisantes
Les divisions qui-divisantes
2
permettent de classer un nouvel individu
prsentant une donne manquante pour la variable dfinissant la division.
L'ide est la suivante: on cherche une variable qui remplace au mieux la
variable divisant le nud, c'est--dire qui assure presque la mme
sparation des individus. De la mme manire, on peut dfinir la seconde,
troisime, ... , meilleure division qui-divisante.
1 Les divisions qui-rductrices sont parfois appeles concurrentes. Il est possible
ainsi d'intervenir sur le choix des variables associes aux "meilleures" divisions suivant
la perception personnelle qu'a l'utilisateur du problme. En effet, la variable
produisant la "meilleure" division, on peut prfrer une autre variable que l'on sait plus
pertinente pour l'tude.
Z Les divisions qui-divisantes sont parfois appeles supplantes.
3.5 _ Segmelltation 317
Ainsi, si la valeur de Xj est manquante pour un nouvel individu, on
l'affectera un des segments descendants en utilisant la meilleure division
qui-divisante de d". Si la valeur de la variable associe l