Académique Documents
Professionnel Documents
Culture Documents
J. P. B ENZCRI
Histoire et prhistoire de lanalyse des donnes.
Partie V Lanalyse des correspondances
Les cahiers de lanalyse des donnes, tome 2, no 1 (1977),
p. 9-40
<http://www.numdam.org/item?id=CAD_1977__2_1_9_0>
Les cahiers de lanalyse des donnes, Dunod, 1977, tous droits rservs.
Laccs aux archives de la revue Les cahiers de lanalyse des don-
nes implique laccord avec les conditions gnrales dutilisation (http:
//www.numdam.org/legal.php). Toute utilisation commerciale ou impres-
sion systmatique est constitutive dune infraction pnale. Toute copie ou
impression de ce fichier doit contenir la prsente mention de copyright.
3. 7 Conve^gence :
Le terme mme d'analyse des correspondances remonte l'automne de
1962, et le premier expos de la mthode sous ce titre fut donn par
J. P. Benzcri au Collge de France dans une leon du cours Peccot de
l'hiver 1963. En nous rfrant au terme mme, nous vitons de nous pro-
noncer d'abord, quant la dfinition des facteurs issus d'un tableau
rectangulaire de nombre positifs, sur des questions de priorit qu'un
article rcent(*) pourrait soulever, mais que nous prfrons rduire
leur juste proportion sinon leur solution dfinitive par un expos
chronologique, o seront scrupuleusement notes les rencontres succes-
sives de l'analyse des correspondances avec les travaux d'autres coles
(cf 3.4 & 3.5.2).
L'analyse des correspondances telle qu'on la pratique en 1977 ne
se borne pas extraire des facteurs de tout tableau de nombres posi-
tifs. Elle donne pour la prparation des donnes, des rgles, telles
que le codage sous forme disjonctive complte (3.7.3) ; aide criti-
quer la validit des rsultats, principalement par des calculs de con-
tribution ( 3.8.4) ; fournit des procds efficaces de discrimination
et de rgression ( 3.8.2) ; se conjugue harmonieusement avec la clas-
sification automatique ( 3.8.3). Ainsi une mthode unique dont le for-
mulaire reste simple est parvenue s'incorporer des ides et des pro-
blmes nombreux apparus d'abord sparment, certains depuis plusieurs
dcennies. Nous expliquerons ce succs par deux causes : d'une part,
la formule initiale de la distance distributionnelle permet elle seu-
le de donner un tableau de nombres positifs une structure mathmati-
que compensant, autant que possible, l'arbitraire dans le choix des
pondrations et subdivisions des faits ; d'autre part, de nombreux
(1) Professeur : Laboratoire de Statistique ; Universit Pierre & Marie
Curie ; Paris,
(*) M. 0, Bill : Correspondence Analysis : A neglected Multivariate Method
in Appl. Statist. T. 23 pp 340-354 (1974):
10 J. P. BENZECRI
profil ; mais la similitude des profils peut tre plus ou moins grande ;
ce qui pose le problme fondamental d'une reprsentation spatiale de
l'ensemble des profils. Incidemment notons que s'ouvre ici une voie
pour tendre un corpus fini donn : on y adjoindra les phrases obtenues
en substituant aux mots, d'autres mots de profil non identique, mais
voisin.
Le premier linguiste que nous entretnmes de ces spculations fut
notre collgue de l'Universit de Rennes, J. Gagnepain, qui ne fut ni
surpris ni enthousiasm mais nous rpondit en substance : "Ce sont l
les ides de Harris ; mais ce linguiste est le seul croire aux mtho-
des purement inductives que vous prtendez appliquer grand renfort
de statistique". Nullement dcourag par ce verdict, nous nous htmes
de rechercher les travaux de Z. S. Harris, o brillait cette dfinition
digne d'tre retenue : "On appelle distribution d'un mot l'ensemble de
ses environnements possibles".
avait toutefois pas calculs ; pour la seule raison qu'en 1941 les
moyens de calcul requis (ordinateurs) n'existaient pas (cf 2.5.3).
Mais le modle bien connu ,des chelles de Guttman (en bref analyse d'un
tableau I x J par permutation de ses lignes et colonnes jusqu' faire
apparatre une bande centrale de forme paralllogrammatique aussi par-
faite que possible et borde de zros), avec les composantes principa-
les qui y sont associes rentrait dans le cadre gnral d'abord conu
par cet auteur et retrouv par nous. Par le fait tait pos un cinqui-
me problme d'interprtation ; celui des rapports de l'analyse factori-
elle des correspondances avec des modles de structure (cf 3.4.5).
Auparavant, notons que, bien que nous ne sachions pas que Guttman
lui-mme soit jamais retourn aux ides proposes par lui en 1941 (il a
en revanche travaill perfectionner la mthode d'analyse des proximi-
ts de R.N. Shepard) son projet n'a pas t sans suite : nous avons ap-
pris de J. Faverge (cf. Cours Bruxelles 1970-71) que ds 1952 un auteur
japonais C. Hayashi(*) avait propos de calculer les facteurs dfinis
comme couple de fonctions ayant corrlation extrmale sur deux ensem-
bles en correspondance ; et que cette mthode avait t dans la suite
applique au Japon des enqutes d'opinion. La priorit de ces auteurs
est donc certaine : la seule originalit que puissent revendiquer les
chercheurs franais est d'avoir conjugu avec une mthode de calcul d-
couverte indpendamment par plusieurs auteurs, des ides et des probl-
mes multiples dont la synthse n'tait pas faite ; et d'avoir labor
une philosophie statistique nouvelle. Quant remonter dans le temps
avant Guttman (1941) comme Hill (1974, cf 3.1) y invite, nous serons
plus rservs ; il est vrai que l'cole anglaise (Fisher en 1940 et
avant lui Hirsfeld en 1935) a propos la premire (sous rserve de d-
couvertes bibliographiques encore possibles) de calculer les valeurs
propres et aussi les facteurs qui sont ceux de l'analyse des correspon-
dances. Mais chez ces auteurs (qui n'ont trait que des tableaux de
donnes de trs petite taille) le problme n'est pas l'analyse des don-
nes telle qu'elle est pratique par Guttman : c'est la mesure de cor-
rlation entre deux variables qualitatives ayant respectivement I et J
pour ensembles de modalits, partir du tableau rectangulaire I x J don-
nant les probabilits p . qu' la modalit i de la premire variable
soit associe la modalit j de la deuxime variable (par exemple les
deux variables sont la couleur des yeux et la couleur des cheveux ;
l'ensemble I = {foncs, moyens, clairs, bleus} ; l'ensemble J = {noirs,
foncs, moyens, roux, blonds} ; et p i - est la probabilit qu'au sein
d'un certain groupe un sujet ait la fois i pour couleur d'yeux et j
pour couleur de cheveux). On sait (2.2.7) que l'preuve classique du
2
X permet de confronter un chantillon l'hypothse d'indpendance
de i et j : p i - = P i x p. (e.g. dans notre exemple du 3.2.2. les as-
sociations des verbes et noms se feraient au hasard, sans affinit par-
ticulire entre ceux-ci) ; or la quantit critre (mesure de l'cart
entre le tableau des pi_. et celui des p.^ p.) est justement la somme,
SX^ , des valeurs propres extraites de l'analyse des correspondances ou
encore de l'inertie (dispersion) du nuage N(I) gale celle de N(J).
Les facteurs eux-mmes sont pour les auteurs de l'Ecole anglaise des
mesures numriques permettant de calculer un coefficient de corrlation
entre les qualits exprimes par i et j : nous reviendrons sur leurs
travaux au 3.5.2.
3.4.4
Le& te&t : Nous avions ds le dpart considr ce critre
2
classique du X (cf 2.2.6 ) afin de dcider quel rang arrter l'in-
terprtation des facteurs. En bref pour un chantillon d'effectif donn
(dans l'analyse d'un tableau de contingence cet effectif est le nombre
E(
0'
a b o u t i t une t r a n s i t i o n p (o E = E x E . . . Produit i n f i n i des Ej
t, u i EQ t-
qui donne partir de e Q la loi de toute la suite des e ; pE est d-
finie comme limite projective par composition d'une suite infinie de
transitions :
E E
n 0 0"-Et-1 T V " E t - l . r/oEl E E
0 1. r/ 0 V T E .
P = ...o(0 X T )0...0( X T ) o (0 X T ) ;
E E
0-..Et-l *t ^0 E
2 % E
l
les intgrales ont disparu (remplaces par le signe de composition des
transitions) ; et la suite des transitions qu'il faut composer ne doit
plus "tre lue rebours".
Avouons- le, ce formalisme dans toute sa gnralit n'est pas in-
dispensable la pratique de la statistique (n'avons-nous pas affirm
que la thorie des probabilits elle-mme est pour l'analyse des don-
nes une source d'inspiration plutt qu'une mthode ; cf 1.7.6) ;
mais en est rsult un systme de notations qui marque explicitement
toutes les distinctions conceptuelles importantes et attribue la no-
tion de transition probabiliste le rle central qui lui revient. Rle
dont tmoignent les travaux britanniques que nous avons pour cette rai-
son placs ci-dessous en 3.5.2.
3.5.2 Quelque* tnavaux de l'Ecole anguAe &UA Vanalyse de* matAice* de
contingence :
Pour rfrence princeps l'analyse des correspondances, M.O. Hill
(1974) donne H.O. Hirschfeld (1935 : A connection between corrlation
and contingency ; in Proc. Camb. Phil. Soc, 31, pp 520-524) ; puis R.A.
Fisher (1940 : The prcision of discriminant functions ; in Ann. Eugen.
Lond., O, pp 422-429) avec une application par K. Maung (1941 : Measu-
rement of association in a contingency table with spcial rfrence to
the pigmentation of hair and eye colours of Scottish school children ;
in Ann. Eugen. Lond.,11, pp 189-223). Aprs l'article de Hill, nous a-
vons lu ces rfrences dont voici le contenu expos, pour plus de bri-
vet avec les notations de nos cours.
Hirschfeld pour tudier la corrlation entre deux variables quali-
tatives part (comme il est classique depuis K. Pearson ; cf 2.2.7)
de la matrice de contingence des {pi .}, probabilits qu' la modalit i
de la premire variable soit associe la modalit j de la deuxime va-
riable. Or un calcul de corrlation requiert classiquement qu'aux moda-
lits i et j soient associes des valeurs numriques <P , ^ : d'o la
question : "introduire ces variables de telle sorte que les deux rgres-
sions entre elles soient linaires" ; par quoi Hirschfeld demande que :
i ** p i J = p * j ; 2 j * j Pj1 = p1
Z
^
(o il apparat que si les p1 et les ^ ont variance 1, on a P = p ' = X1/2).
Ainsi se trouve pose l'quation des facteurs normaliss dfinie par
les formules de transition </? Pj = X,/2 p ; V Pj = X1/2 ^ . Hirschfeld
trouve d'abord le facteur trivial constant et gal 1 qui ne rpond
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 23
plus d'un chteau de cartes qu'on prit alors pour un Colise. Pour l'a-
nalyse des donnes aussi, ce fut un passage historique. Empreints du
lyrisme prudent qui s'impose aux heures chaudes, tels sont les documents
d'poque. Voici un alina d'un rapport destin la D R M E, organisme
alors prodigue en contrats et qui nous aidait libralement. "Comme on
l'imagine, le laboratoire en tant que tel a cess d'exister pendant
quatre mois... Il est heureux que les chercheurs disperss aient pu con-
tinuer leurs travaux : mais certaines de nos recherches ont t entra-
ves. Les tudiants, dsireux de nous faire bien estimer leur gnra-
tion, ont dans l'ensemble fait un effort considrable ; beaucoup de
travaux de recherche entrepris cet t n'auraient sans doute jamais vu
le jour sans la crise morale de Mai...". En effet, notre invitation aux
recherches appliques avait d'abord suscit peu d'chos ; tmoin ce
prambule la circulaire qu'au dbut de l't, aprs six semaines de
silencieuse absence, le professeur adressait aux tudiants : "Comme
nous l'avons fait en 1966 et 1967, nous invitons cette anne les candi-
dats au D.E.A. de Statistique, faire de la session d'examen une fruc-
tueuse exprience de travail pratique et de recherche. Pareille mthode
nous avons pu le constater demande de tous beaucoup plus qu'ils ne sont
habitus donner..." Mais dans les projets fivreux de rforme des exa-
mens, chacun se trouva pris ses propres paroles : les stages demands
par tous, s'imposrent tous : Dieu Merci, la vague tait franchie
sans naufrage. Cette autre circulaire sonne comme un appel la leve
en masse : "Je vous communique ci-joint le sujet d'une recherche sta-
tistique historique qui pourrait occuper une quipe d'une douzaine de
chercheurs. Le travail s'accomplirait dans les conditions suivantes :
1 Constitution de l'quipe : les tudiants susceptibles de travailler
dans la rgion parisienne pendant 2 3 semaines au cours de l't (i.
e. du O Juillet au 10 Septembre) et s'intressant la recherche his-
torique se feront connatre en crivant au secrtariat du laboratoire,
etc.." Il y eut pour ce projet une quipe franco-iranienne de 4 volon-
taires (et non 12!) : ce fut le dbut de notre collaboration avec l'his-
torien A. Prost (cf TII n 2 ) .
Depuis 1968 grce au dvouement de nombreux chercheurs (au premier
rang desquels il faut citer P. Cazes, J. P. Fnelon, M. Jambu, M.O.
Lebeaux, M. Roux, S. Stpan, Y. Grelet...) les lves du laboratoire
ont produit des centaines de rapports de stage et des dizaines de th-
ses de 3 cycle. Par la collaboration avec de trs nombreux laboratoi-
res et autres institutions, notre exprience s'est tendue aux donnes
les plus diverses : Gologie (P. Cazes avec F. Leroy d'ELF-ERAP puis
P. Solty du B R G M ; J. P. Bordet, J. M. Monget et P. Roux l'Ecole
des Mines) ; Gographie* (Ph. Massonie et ses collgues de l'Universit
de Besanon ; le laboratoire de gomorphologie, dirig par F. Verger
l'E.P.H.E.) ; Sociologie (J. P. Fnelon et Madame Y. Bernard en esthti-
que exprimentale ; M. de Virville et les lves du Pr. Cuisenier ;
D. Kalogropoulos et ses confrres criminologistes ; M. 0. Lebeaux et
l'quipe d'Economie et Humanisme ; L. Lebart et N.Tabard au C R E D 0 C);
Economie (M. Voile l'I.N.S.E.E. ; J. L. Guigou en Facult ; A. W.
Hamrouni avec M. Lenco au ministre de l'Agriculture) ; Phnomnes phy-
siques (haute atmosphre avec J. P. Bordet chez le Pr. Barliet l'Ob-
servatoire de Meudon ; fiabilit des composants mcaniques, L. F. Pau
et M. Bichara Air-France ; ou lectroniques : P. Graillot et G.
Vasserot au C.N.E.T.) ; sans oublier la psychologie (M. 0. Lebeaux a-
vec M. Zlotowicz) et la linguistique (A. Salem avec le centre de lexi-
cologie de Saint-Cloud et G. E. Weil Nancy ; V. Huynh l'Universit
de Vincennes) cultives ds les dbuts du laboratoire, ni la mdecine.
Nous suivrons les progrs dans la diversit de ces travaux en
feuilletant les publications du laboratoire ( 3.6.4) et les programmes
des colloques qu'il a organiss ( 3.6.5) avant d'en faire le bilan m-
thodologique ( 3.7 & 3.8).
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 27
catalyseurs trs actifs mais de masse infime, c'est plutt situer des
qualits sur une chelle ordinale o sont marqus quelques repres :
moyenne normale, seuils pathologiques etc. On peut rejoindre le modle
bipolaire grce au codage par rang tudi par L. Lebart : soit I un en-
semble d'individus (constituant un chantillon satisfaisant pour l'tu-
de en vue) ; Card I (nombre des individus) = N ; Q, un ensemble de qua-
lits ordinales ; on notera k(i,q ) = rang de l'individu i au sein de I
sur l'chelle de la qualit q ; k(i,q~) = N-k(i,q ) . On peut encore
partager l'intervalle de variation de chaque qualit ordinale en autant
d'intervalles que le spcialiste estime devoir distinguer de niveaux ;
par exemple cinq : trs fort, fort, moyen, faible, trs faible : et l'on
rejoint alors strictement la forme disjonctive complte. Le premier
exemple d'un tel codage fut prsent par J. P. Nakache au colloque de
Marseille (Septembre 1970) pour l'analyse de donnes biologiques. Cette
reprsentation des donnes nous parut d'abord abusive : selon nous, il
eut t prfrable de donner au moins des valeurs continues aux nombres
inscrits dans les colonnes affectes une seule qualit. Par exemple
lorsqu'un individu se trouve entre moyen et fort, lui donner des zros
dans les colonnes des autres modalits ; mais partager sa note entre
celles-l :0,4 dans moyen, et 0,6 dans fort s'il est plutt fort, etc..
Arrondir ainsi les angles augmente certes la prcision du codage ; mais
carte de la forme disjonctive complte, dont l'tude par L. Lebart
s'est rvle si fconde (cf CBin. Mult.] , ce cahier pp 55 sqq). L'ini-
tiative de Nakache fut d'autant plus heureuse qu'en 1970 les analyses
de questionnaires dbutaient seulement. Depuis lors les donnes les
plus diverses, les plus htrognes ont reu grce au codage sous for-
me disjonctive complte un format acceptable pour l'analyse. Ainsi nous
nous trouvons analyser- efficacement des tableaux de donnes qu'en toute
rigueur mthodologique nous prfrerions voir brls parce qu'ils man-
quent la rgle d'homognit et d'exhaustivit rgle que nous rpte-
rons ainsi (cf 3.7.1) : faire du rel une coupe bien choisie, et y
regarder comme en un miroir, toute la structure.
(*) Le terme nous vient d'un auteur russe G.N. Povarov dont nous avons
traduit la remarquable prface la traduction publie Moscou
d'un ouvrage de E.C. Berkeley : Symbolic logic and intelligent ma-
chines.
40 J. P." BENZECRI
Bibliographie Gnrale