Vous êtes sur la page 1sur 33

L ES CAHIERS DE L ANALYSE DES DONNES

J. P. B ENZCRI
Histoire et prhistoire de lanalyse des donnes.
Partie V Lanalyse des correspondances
Les cahiers de lanalyse des donnes, tome 2, no 1 (1977),
p. 9-40
<http://www.numdam.org/item?id=CAD_1977__2_1_9_0>

Les cahiers de lanalyse des donnes, Dunod, 1977, tous droits rservs.
Laccs aux archives de la revue Les cahiers de lanalyse des don-
nes implique laccord avec les conditions gnrales dutilisation (http:
//www.numdam.org/legal.php). Toute utilisation commerciale ou impres-
sion systmatique est constitutive dune infraction pnale. Toute copie ou
impression de ce fichier doit contenir la prsente mention de copyright.

Article numris dans le cadre du programme


Numrisation de documents anciens mathmatiques
http://www.numdam.org/
Les Cahiers de l'Analyse des Donnes
Vol. II - 1977 - n I - p. 9-40

HISTOIRE ET PRHISTOIRE DE L'ANALYSE DES DONNES

Partie V - L'analyse des correspondances

par J. P. Benzcri (1)

Avertissement : dans le prsent article, moins encore que dans


ceux qui l'ont prcd, nous ne pouvons prtendre 1'exhaustivit. Les
recherches contemporaines qui recourent la statistique multidimension-
nelle analyse factorielle, analyse discriminante, classification auto-
matique, rgression etc.. - se multfplient perte de vue. De la prhis-
toire et de l'histoire de la statistique, nous n'avons voulu retenir
que ce qui, selon nous, sert l'analyse des donnes ; de l'analyse des
donnes elle-mme nous n'exposerons ici que ce qui nous a personnelle-
ment servi. C'est pourquoi cette dernire partie est place sous le ti-
tre de l'analyse des correspondances, mthode qui bien mieux que tout
autre nous a permis de dcouvrir les faits de structure que. recle un
tableau de donnes quel qu'il soit.
3. L1 analyse. cfe-& dOKKz^pondavic^^

3. 7 Conve^gence :
Le terme mme d'analyse des correspondances remonte l'automne de
1962, et le premier expos de la mthode sous ce titre fut donn par
J. P. Benzcri au Collge de France dans une leon du cours Peccot de
l'hiver 1963. En nous rfrant au terme mme, nous vitons de nous pro-
noncer d'abord, quant la dfinition des facteurs issus d'un tableau
rectangulaire de nombre positifs, sur des questions de priorit qu'un
article rcent(*) pourrait soulever, mais que nous prfrons rduire
leur juste proportion sinon leur solution dfinitive par un expos
chronologique, o seront scrupuleusement notes les rencontres succes-
sives de l'analyse des correspondances avec les travaux d'autres coles
(cf 3.4 & 3.5.2).
L'analyse des correspondances telle qu'on la pratique en 1977 ne
se borne pas extraire des facteurs de tout tableau de nombres posi-
tifs. Elle donne pour la prparation des donnes, des rgles, telles
que le codage sous forme disjonctive complte (3.7.3) ; aide criti-
quer la validit des rsultats, principalement par des calculs de con-
tribution ( 3.8.4) ; fournit des procds efficaces de discrimination
et de rgression ( 3.8.2) ; se conjugue harmonieusement avec la clas-
sification automatique ( 3.8.3). Ainsi une mthode unique dont le for-
mulaire reste simple est parvenue s'incorporer des ides et des pro-
blmes nombreux apparus d'abord sparment, certains depuis plusieurs
dcennies. Nous expliquerons ce succs par deux causes : d'une part,
la formule initiale de la distance distributionnelle permet elle seu-
le de donner un tableau de nombres positifs une structure mathmati-
que compensant, autant que possible, l'arbitraire dans le choix des
pondrations et subdivisions des faits ; d'autre part, de nombreux
(1) Professeur : Laboratoire de Statistique ; Universit Pierre & Marie
Curie ; Paris,
(*) M. 0, Bill : Correspondence Analysis : A neglected Multivariate Method
in Appl. Statist. T. 23 pp 340-354 (1974):
10 J. P. BENZECRI

chercheurs (les tomes I et II du trait de l'Analyse des donnes comp-


tent 70 auteurs ; qui ne sont pas les seuls avoir contribu aux pro-
grs de l'analyse des correspondances) ont eu pour programme non d'in-
venter chacun une variante nouvelle de quelque mthode statistique en
cours, mais de rduire l'unit le traitement des problmes poss par
les donnes les plus diverses. Il .serait sans doute vain d'exposer jour
aprs jour l'histoire dtaille de tous ces efforts ; mais nous croyons
utile de distinguer les principales tapes en les illustrant d'exemples,
sans prtendre citer tous les auteurs en exacte proportion de leurs m-
rites. Des tudiants qui entreprennent aujourd'hui l'tude de l'Analyse
des donnes trouveront dans cette esquisse chronologique la raison des
perfectionnements progressifs qui leur sont enseigns en un seul cours ;
les statisticiens dj instruits ailleurs se reconnatront mieux dans
les travaux d'une cole certes indpendante mais qui ne saurait prten-
dre tre isole. Ceux du dedans et du dehors verront dans la relative
lenteur de ces progrs o interviennent pourtant presque uniquement des
ides assez simples, naturelles et bien connues, une nouvelle confirma-
tion de ce que, comme aimaient le rappeler les docteurs mdivaux
dans leur latin traduit d'Aristote : mens humana se habet ad manifes-
tissimas sicut oculus nootuae ad lumen solis : l'esprit humain est, de-
-vant l'vidence comme l'oeil de- la chouette expos la lumire du so-
leil!
3. 2 TablzauK de. contingence, tt dlbtance. dltn.^bvit,onne.tte. :

3.2./ La mthode. *.nduct4.ve. tn l<LnQiLl*t<Lc[U.e. : L'analyse des corres-


pondances a t initialement propose comme une mthode inductive d'ana-
lyse (*) des donnes linguistiques. Expliquons en quelles circonstances.
Vers 1960 la traduction automatique semblait un objectif assez rapide-
ment accessible (on sait qu'au contraire en 1977, les difficults qu'on
avait d'abord sous estimes sont juges par beaucoup insurmontables ;
jugement auquel nous ne souscrirons pas cependant). L'Association pour
la Traduction Automatique A.T.A.L.A. fonde l'initiative de E. Dela-
venay, aidait efficacement aux rencontres des chercheurs franais ;
auxquels le regrett Pr. J. Favard ouvrit bientt un sminaire spcia-
lis. La linguistique mathmatique, laquelle nous avait invit Y. Le-
cerf alors dtach l'Euratom, tait domine par le renom de N.Chomsky
dont le petit volume Syntactic Structures s'imposait tous. Parmi
d'autres thses qu'il n'y a pas lieu d'exposer ici(**), N. Chomsky af-
firme l qu'il ne peut exister de procdure systmatique pour dtermi-
ner la grammaire d'une langue ou plus gnralement les structures lin-
guistiques, partir d'un ensemble de donnes telles qu'un recueil de
textes que les linguistes nomment corpus. Donc, pour Chomsky la lin-
guistique ne peut tre inductive (s'lever par une mthode explicite-
ment formule des faits aux lois qui les rgissent) ; elle doit tre
dductive (en ce sens que partant d'axiomes elle engendre des modles
des langues relles). Cette thse(idaliste ; en ce qu'elle tendait
sparer le jeu de l'esprit, des faits qui en sont l'inspiration et
l'objet) nous dplaisait ; et dfaut d'un algorithme universel pour
passer de 10.000 pages de texte d'une langue une syntaxe double d'u-
ne smantique, nous prtendions par la statistique offrir au linguiste
une mthode inductive efficace pour traiter utilement des tableaux de
donnes qu'on pouvait immdiatement recueillir, avec l'horizon

(*) Pour la philosophie l'analyse des correspondances qui traite simul


tanment de grands ensembles de faits et les confronte afin dren
dcouvrir l * ordre global relve plutt de la synthse (tymologi-
quement synthtiser veut dire mettre ensemble) et de l 'induction
que de l'analyse et de la dduction (distinguer les lments d'un
tout ; et considrer les proprits des combinaisons dont ceux-ci
sont susceptibles) cf 2.3.6 ; mais les termes d'analyse factori-
elle et d'analyse des donnes ayant pris racine, nous les conser-
vons,
(**) Pour une critique de certaines de ces thses, cf Linguistique et
Mathmatique in Revue Philosophique pp 309-374 (1966).
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES il

l'ambitieux tagement des recherches successives ne laissant rien dans


l'ombre, des formes, des sens et du style.
Sans entreprendre une leon de linguistique(*) montrons comment ce
programme qui requerrait l'analyse de tableaux de contingence conduisit
dfinir la distance distributionnelle - plus communment appele au-
jourd'hui distance du x^ - qui est la base de l'analyse des corres-
pondances.
3.2.2 LZ donnle.* dlt^ilbutlonnclle.^ : Pour difier inductivement
la linguistique partir de donnes non pralablement labores selon
les vues a priori du linguiste, on doit tendre regarder les mots, les
phrases et les discours comme des suites d'lments (suites de lettres
ou de syllabes pour les mots, suites de mots pour les phrases) dont il faut d-
couvrir suivant quelles rgles certaines combinaisons sont seules permi-
.ses parmi un bien plus grand nombre de combinaisons interdites (mots
imprononables ; phrases incorrectes ou absurdes) . Ds lors un mot (ou
un segment, suite de plusieurs mots) sera caractris par l'ensemble
de tous les contextes dans lequel il est permis de 1 ' insrer pour obte-
nir une phrase correcte. Pour dfinir les phrases correctes on pourra
soit recourir des juges (auxquels on demandera : cette phrase est-
elle correcte, est-elle absurde ?) soit s'attacher au traitement d'un
corpus clos (l'ensemble des phrases correctes tant par dfinition l'en-
semble des phrases donnes ; auquel il convient d'adjoindre celles qui
en un certain sens en diffrent le moins ; nous reviendront sur ce der-
nier point). Pratiquement il convient d'assigner la recherche des -
tapes successives dont les premires soient immdiatement accessibles
et dont la progression semble assez douce pour ne devoir jamais s'in-
terrompre! On considrera donc d'abord les phrases les plus courtes qui
suivent on le sait, des modles simples tels que sujet-verbe ; sujet-
verbe-complment etc. Ainsi la notion indfiniment extensible de con-
texte permis pour un mot se trouve rduite aux contextes ne comportant
qu'un ou deux mots. On aboutit donner pour base la statistique lin-
guistique des tableaux tels que le suivant. Soit I un ensemble fini de
noms (les lignes du tableau) , J un ensemble de verbes (les colonnes du
tableau) : l'intersection de la ligne i et de la colonne j on inscrit
le nombre k(i,j) de fois que dans un certain corpus le nom i a t trou-
v sujet du verbe j. (Ou encore J est un ensemble d'adjectifs ; et
k(i,j) est le nombre de fois que le nom i a t trouv qualifi par
l'pithte j ; e t c . ) . Dans un tel tableau le contexte du nom i est r-
duit au verbe j ; et rciproquement le contexte du verbe j est rduit
au nom i ; si k(i,j) 7* 0, j est un contexte admissible pour i (et i
pour j) ; l'association de i avec j est d'autant plus licite que k(i,j)
est plus lev. Plus prcisment si l'on considre un nom i il convient
de mesurer 1'importance#relative, pour ce nom, du contexte j, par le
quotient k (i, j)/k (i) = f \ du nombre k(i,j) des emplois de i avec j au
nombre total des emplois de i(k(i) = total de la ligne i = E{k (i, j) |j e J}).
La suite des nombres f .1 caractrisant l'affinit d'un nom i donn avec
tous les verbes j,j',j" pourra tre appele profil du nom i et note
f j= (f | j e J). Deux noms i et i* seront synonymes (du point de vue
de leur association avec les verbes) si ils ont mme profil, i.e. si
quel que soit j : fi. = fi ' . ; cette synonymie est acceptable en ce sens
que deux tres qui courent, poussent, chantent, etc. avec la mme fr-
quence ne peuvent que se ressembler. (De mme pour un verbe j on dfi-
nit fjp = k(ifj)A(j) o k(j) est le total de la colonne ; et un pro-
fil : f-j? = tfjp |i I})- Pratiquement, il est peu vraisemblable que
deux noms i et i ' (ou deux verbes j et j * ) aient exactement le mme
(*) Pour une introduction ces recherches, simple mais centre sur le
problme linguistique, cf : "Combattre pour la linguistique" in Ma-
thmatiques et Sciences Humaines n 35 (1971).
12 J. P. BENZECRI

profil ; mais la similitude des profils peut tre plus ou moins grande ;
ce qui pose le problme fondamental d'une reprsentation spatiale de
l'ensemble des profils. Incidemment notons que s'ouvre ici une voie
pour tendre un corpus fini donn : on y adjoindra les phrases obtenues
en substituant aux mots, d'autres mots de profil non identique, mais
voisin.
Le premier linguiste que nous entretnmes de ces spculations fut
notre collgue de l'Universit de Rennes, J. Gagnepain, qui ne fut ni
surpris ni enthousiasm mais nous rpondit en substance : "Ce sont l
les ides de Harris ; mais ce linguiste est le seul croire aux mtho-
des purement inductives que vous prtendez appliquer grand renfort
de statistique". Nullement dcourag par ce verdict, nous nous htmes
de rechercher les travaux de Z. S. Harris, o brillait cette dfinition
digne d'tre retenue : "On appelle distribution d'un mot l'ensemble de
ses environnements possibles".

3.2.3 L'espace de.6 ptio&ll* : Restait dfinir mathmatiquement


l'espace des profils. Il tait naturel de penser l'analyse factoriel-
le ( 2.4) ; mthode dont la pratique tait en 1962 rserve aux psy-
chologues, voire aux biomtriciens, mais dont pour un mathmaticien les
principes sont clairs. A un ensemble I d'individus i, chacun dcrit par
une srie J de mesures (m(i,j) tant le rsultat de la mesure j effec-
tue sur l'individu i) est associ un nuage de points i de RJ (un point
par individu ; une coordonne par variable) ; on introduit dans RJ de
nouvelles coordonnes appeles facteurs (combinaisons linaires de me-
sures primaires j) comptes sur des axes orients suivant les direc-
tions principales du nuage ; quelques facteurs suffisant exprimer la
diversit des individus en rsumant de multiples variables. Pour le
praticien de 1960 la rduction des variables apparat gnralement lie
des hypothses de normalit (loi de Laplace Gauss multidimensionnelle]
et repose sur des calculs traditionnels de corrlation ; tandis que
l'ajustement un nuage d'un systme d'axes principaux d'allongement,
d'une chelle multidimensionnelle est un problme de gomtrie rele-
vant de mthodes qui semblent nouvelles, appeles justement par les
psychologues amricains : multidimensional scaling (cf 2.5). Pour le
mathmaticien instruit de l'algbre linaire, de la gomtrie euclidien-
ne multidimensionnelle, du calcul tensoriel (dans l'enseignement fran-
ais, G. Bouligand avait fait oeuvre de pionnier ; A. Lichnerowicz d-
veloppait avec lgance les thories d'Einstein ; et N. Bourbaki sans
s'adonner au calcul tensoriel donnait des produits tensoriels une dfi-
nition mditer) il'n'y a l qu'un problme unique : les individus
sont des points ou vecteurs d'un espace ; les variables sont des formes
linaires, ou vecteurs de l'espace dual ; (les coefficients de corrla-
tion des statisticiens s'identifient aux produits scalaires des gom-
tres) espace et dual sont isomorphes si on a fix une mtrique eucli-
dienne (ou formule de distance). Pour appliquer les formules classiques
il n'y a qu'une question rsoudre : fixer judicieusement cette mtri-
que.
Ici intervient le principe d'quivalence distributionnelle : la
distance d(i,if) entre deux noms i et i ' ne doit pas tre modifie si
on identifie deux verbes j et j ' qui sont des synonymes distribution-
nels (ont mme profil) ; i.e. si on remplace les colonnes j et j ' (qui
sont proportionnelles l'une l'autre) par une nouvelle colonne j" som-
me des deux prcdentes (et donc galement proportionnelle celles-ci).
Disons pour faire image que si parler et dire admettent les mmes su-
jets dans les mmes proportions, on peut identifier ces deux verbes.
Le principe d'quivalence distributionnelle, complt par l'exigence
mathmatique que la formule de distance soit quadratique (comporte une
somme de carrs avec des coefficients) suffit fixer la distance dis-
tributionnelle (*) 0 .,
1
d^(i,i') = {(1,. - f* r/fjlJeJ}.
(*) Le terme quivalent de distance du X% nous fut suggr par une re-
marque de K. Krickeberg ; qui sans prendre intrt nos recherches
y reconnut incidemment une formule classique dans l 'preuve du x%
(cf 2.2.6)
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 13

Exiger une formule quadratique peut sembler arbitraire au non-mathmati-


cien : il est vrai que la formule ci-dessous :
(i,i') = Zi\t^ - f^'l | j J}
satisfait galement au principe d'quivalence distributionnelle ; elle
semblera mme plus simple au profane ; mais elle ne permet pas d'utili-
ser la gomtrie euclidienne multidimensionnelle ; elle donnera des r-
sultats qui qualitativement ressembleront ceux obtenus par la distan-
ce distributionnelle quadratique ; mais au prix de calculs plus compli-
qus et sous une forme moins commode. Sans permettre l'outil mathma-
tique de dfigurer le rel, on doit lui concder que la transmission
l'esprit humain d'un vaste ensemble de donnes synthtis (rsum ; ren-
du perceptible par le calcul) ait ses lois propres. (On se souvient que
le primat de la gomtrie euclidienne est admis par Torgerson, cf
2.5.2).
3.2.4 VKe.mlz>i tat de. Vanalyse, de.& coH.n.e.&pondancz& : Rsumons
donc le premier tat de l'analyse des correspondances [Hiver 1963). Com-
me donnes, un tableau rectangulaire I x J : si les k(i,j) inscrits
dans le tableau sont entiers (nombre de fois que i a t trouv associ
j) on parle de correspondance statistique (ou de tableau de contin-
gence) ; si les k(i,j) sont astreints valoir 0 ou 1 (0 si l'associa-
tion de i j est impossible ; 1 si elle est possible) on a une corres-
pondance ensembliste ; si les k(i,j) sont des probabilits (valeurs
limites de frquences observes ; ou valeurs postules selon un modle
hypothtique) c'est une correspondance probabiiste. Il n'est pas ques-
tion de tableaux de mesures variant continment (e.g. mensurations sur
un crne) ; le domaine vis est la linguistique ; mais les tableaux de
donnes linguistiques publies sont rares(*) ; au contraire les psycho-
logues recensent communment en un tableau de contingence les rsultats
de leurs expriences : tableau S x R ; k(s,r) est le nombre de fois que
le stimulus s a voqu la rponse r. Vers 19.60, les tableaux de contin-
gence taient la donne de prdilection du Multidimensional Scaling ;
tandis que les tableaux de donnes o les rles des ensembles I et J
sont nettement dissymtriques (I individus ; J variables, par exemple
des notes des preuves psychotechniques) offraient matire analyse
factorielle (e.g. en composantes principales ; cf 2.4 & 2.5). Le
premier tableau trait par nous (analys sans le secours de l'ordina-
teur moyennant des simplifications assez hasardeuses) fut le tableau
de correspondance logique qui figure dans tout manuel moderne du chi-
nois : en ligne les consonnes (ou prphonmes) ; en colonnes les fina-
les vocaliques ; la croise d'une ligne c et d'une colonne v, non le
0,1 du mathmaticien, mais l'orthographe (e.g. dans la transcription
de 1'Academia Sinica) du monosyllabe cv s'il existe (si l'association
n'est pas permise, la case est blanche). Le terme lui-mme de corres-
pondance paratra naturel pour dsigner le systme des associations
entre les lments de deux ensembles I et J. Son choix n'est toutefois
pas tranger des soucis philosophiques moins apparents. Aux structu-
ralistes qui affirment que les objets n'existent pas, seules existent
les relations, nous voulons rpondre que les objets existent, mais ne
nous sont rvls que par les relations : il faut ici citer Aristote
(de l'me L. III Ch. 1)
frflijaeie 5'tfi* T rtVo e'vtna TrXetou ttxovev aladriaeiq
W"ob ixiav pvriv....
(*) On trouvera dans [Ana. Ling.1 une revue des analyses de correspon-
dances ralises en linguistique jusqu'en 1974. Les efforts des
chercheurs de Nancy, Saint-Cloud, Vincennes, Montpellier coordonns
par A. Salem, commencent seulement porter leurs fruits. Il n'est
pas exagr de dire que nos esprances n'ont pas t dues, bien
au contraire ; mais la collecte des donnes est oeuvre de bndictins
qui requiert des congrgations de chercheurs, arms d'ordinateurs!
Nous prparons la publication d'un recueil rendant compte de l'en-
semble des analyses ralises jusqu' ce jour en linguistique.
14 c/. P. BENZECRI

"On se demandera pourquoi nous avons plusieurs sens et non un seul!


N'est-ce pas pour rvler les [ralits sensibles] drives et communes
comme mouvement grandeur et nombre ; car s'il n'y avait que la vue et
la vue du blanc [seulement] tout semblerait ne faire qu'un pour tre
toujours ensemble, par exemple couleur et grandeur. Mais comme ces sen-
sibles communs [i.e. mouvement grandeur et nombre] se retrouvent dans
un autre sens [que la vue] il est clair qu'ils sont quelque chose en
propre". Nous dirons que la connaissance est la rencontre de plusieurs
voies. (Sur ce thme, on a au 2.2.7 expos les vues de K. Pearson) .
A partir du tableau I x J, on construit deux nuages N {!) et N(J)
(dans notre exemple principal : nuage des noms et nuage des verbes) ,
i.e. deux ensembles de points munis de masses et distances ; chacun de
ces nuages est naturellement plac dans un espace ambiant euclidien ;
dans cet espace on recherche (par un calcul classique pour les axes
principaux d'inertie) les droites ou axes qui en un certain sens (exac-
tement au sens des moindres carrs cf 2.4.4) s'ajustent le mieux au
nuage. Afin de voir le nuage dans un espace accessible nos sens, on
projette celui-ci sur un plan engendr par deux de ses axes principaux.
Pour l'heure, les deux nuages N (I) et N (J) bien que construits symtri-
quement d'aprs un mme tableau de donnes ne sont pas unis : ils flot-
tent dans deux espaces diffrents ; et l'on ne songe pas identifier
les axes de l'un et ceux de l'autre.
3. 3 Rcpfi.c6cnta.tton &tmu.tancc de. deux en&cmbleA en con.Kc&pondancc :

3.3.1 Une conttojLCtlon Qometltqu.e : Une pareille identification


est cependant suggre par l'intelligence des donnes. Si un axe du
nuage N (I) (ou le facteur, coordonne mesure sur cet axe) figure une
gradation dans une qualit des noms (par exemple l'activit : depuis
l'inanim, extrmit ngative ; jusqu' l'anim, extrmit positive),
et que cette qualit est rvle par les affinits entre noms et verbes,
n'est-il pas naturel qu'on la retrouve dans les verbes? Un artifice g-
omtrique permet de dfinir des axes sur lesquels se projettent simul-
tanment les nuages I et J. Considrons les espaces ambiants des nuages
N (I) et N(J) comme deux sous-espaces perpendiculaires d'un mme espace
euclidien (leur somme directe (*) ; dont la dimension sera la somme de
celles des deux premiers) ; tout couple (i,j) (d'un nom i et d'un
verbe j) on peut associer le milieu (dans l'espace somme directe) du
segment joignant le point i du nuage N(I) au point j du nuage N{J) ; en
attribuant ce milieu la masse k(i,j) (nombre des associations de i
avec j, inscrit au tableau de correspondance analys) on a dans l'espa-
ce somme un nuage des couples ill(IxJ). Le nuage a des axes principaux
sur lesquels on projettera les deux nuages N (I) ettf(J) (qui sont inclus
dans l'espace somme). Un exemple trs simple suggre que cette cons-
truction peut donner des rsultats significatifs : I et J sont rduits
deux lments : I = {i , 2 } ; J = {jj_ , J21 /* l e s associations se
font uniquement entre i et j 1 ou entre i 2 et j 2 : les couples (i1 , j2)
et (i2 , j.) ont masse nulle. On a alors dans l'espace somme le dessin
suivant (fig 3-1) : l'axe principal relie les deux couples lourds
(i1 , j.) et (i2 , j2) ; sur cet axe, i. et j. se projettent confondus
ainsi que i, et j 2 ; ce qui est agrable et donne esprer qu'en gn-
ral la reprsentation simultane placera un point i et un point j d'au-
tant plus prs l'un de l'autre que le taux d'association entre ces deux
lments est plus lev relativement leurs masses. Cependant rien ne
laisse deviner que les facteurs ainsi mesurs dans l'espace somme en
projetant N {!) et N(J) sur les axes du nuage des couples N(Z x J) soient
ceux mmes dfinis d'autre part en considrant sparment /1/(1) et N (J) .
L'exprience allait montrer que tel est le cas.
(*) On se souviendra de distinguer de la runion ensembliste, la somme
directe de deux espaces vectoriels ; somme directe qui en tant
qu'ensemble concide avec le produit ensembliste.
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 15

JAuAt "5-i: x etUmfJt (f AyjJ*. e/bnaAutt. <Uu ttwxft de* Cfwf&

3.3.2 Ex.pcH.tcnce.6 et demoni>tn.a.tton : A l'automne de 1963 fut cr


Rennes sur l'initiative du Doyen Y. Martin un laboratoire de calcul
quip d'un 1620 IBM (modeste ordinateur dont le sigle a peu de chances
de passer la postrit!). B. Cordier (depuis madame J. P. Escofier)
crivit rapidement le premier programme d'analyse de correspondance :
pour l'analyse du nuage N(I) ou N(J) (associ chacun un seul des deux en-
sembles en correspondance) ; puis un deuxime programme pour l'analyse
du nuage des couples et la reprsentation simultane de I et J. Quant
l'interprtation des facteurs, les premires analyses (recenses pour
la plupart dans la thse de B. Cordier) sont aussi satisfaisantes qu'il
est possible (compte tenu de la petite taille des tableaux ; et de la
structure simple des donnes). Mais le rsultat le plus prcieux,fut
d'abord que les deux nuages /1/(1) et N (J) , analyss sparment avaient
les mmes moments principaux d'inertie (on parle encore de valeurs pro-
pres ^-./^2 * e t c . . associes aux axes principaux successifs) conciden-
ce qui dj surprenait ; et ensuite que les facteurs sur I et J issus
de l'analyse du nuage des couples N(ixJ) taient les mmes que ceux
obtenus sparment par analyse de N(i) et N(j).
Ds lors il s'imposait de dmontrer ces rsultats d'exprience :
ce que fit rapidement B. Cordier. Dans un expos de 1977, le nuage des
couples n'est que l'occasion d'un exercice de calcul matriciel ; et le
lecteur non averti s'tonne qu'un paragraphe lui soit consacr dans la
2
leon [Dis. x Corr.] du trait d'Analyse des donnes. Mais l'origine
ce fut l'occasion d'entreprendre une dmonstration trs utile dont les
calculs auraient dcourag si l'issue n'en avait t assure. Dans la
thse de B. Cordier on trouve l'quivalence des facteurs issus des trois
nuages N(I) , /V(J), /1/(1 x J) ; avec la formule de transition qui permet
de n'analyser qu'un seul nuage (celui qui requiert le moins de calculs)
puis de passer trs simplement des facteurs trouvs sur un ensemble,
aux facteurs sur l'autre ; et qui, de plus, rpond notre dsir que
dans la reprsentation simultane un lment i (resp. j) soit entour
des j (resp. i) avec lesquels il s'associe le plus (de faon prcise,
un coefficient prs gal la racine carre de la valeur propre X ,
i se projette sur l'axe a au barycentre du systme des j affects des
masses f . ; d'o le nom de formule barycentrique donn encore la
formule de transition ; cf infra 3.5). A ces formules B. Cordier ad-
joignit bientt celle de reconstitution du tableau des donnes par-
tir des facteurs (reconstitution approche trs utile si on se borne
aux premiers facteurs seuls interprtables ; i.e. si l'on rduit la di-
mension des nuages par ajustement un sous-espace tde dimension 2 ou 3 ;
en ngligeant les autres dimensions qui relvent de fluctuations d'-
chantillonnage, plutt que de structure, cf infra 3.4). Tout cela au
16 J. P. BENZECRI

niveau de la science mathmatique enseigne aujourd'hui l'Universit


peut tre qualifi d'vident ; mais on ne l'a trouv qu'au cours du
traitement statistique des donnes sur ordinateur.
L'isomorphisme familier au mathmaticien entre espace vectoriel et
espace dual, ou autrement dit entre vecteur et forme linaire (cf supra
3.2.3), joint la parfaite symtrie de rle entre les deux ensembles
I et J (dans le cas des donnes que nous avions d'abord vises lignes =
noms ; colonnes = verbes) avait permis d'unifier les deux points de vue
de l'analyse factorielle (d'un ensemble de variables) et des chelles
multidimensionnelles (multidimensional scaling : reprsentation d'un
nuage de points). Chaque i {nom), nous l'avions vu ds le dpart, est
la fois un point caractris par ses associations avec les lments j
de l'autre ensemble (verbes) et une variable qui rciproquement carac-
trise ceux-ci (les verbes) ; et de mme pour les j : il tait mainte-
nant prouv que les deux points de vue conduisent aux mmes facteurs (
condition de choisir judicieusement les coefficients de pondration).

3. 4 Rencontre avec l'cole amfiicatne :

3.4.1 R. N. Shepah.d : Enseignant Rennes de 1960 1965 nous e-


mes le plaisir de collaborer avec notre ami le psychologue J.F. Richard
(prsentement l'universit de Vincennes) . Par J.F. Richard nous bn-
ficimes des avis de H. Rouanet, chercheur parisien trs averti des
travaux de l'Ecole amricaine. Ainsi notre analyse des correspondances
se trouva mise en parallle avec 1'analyse des proximits que dvelop-
pait alors R.N. Shepard. Les donnes traites par R.N. Shepard - des
matrices de contingence issues d'expriences d'associations entre sti-
mulus et rponse - taient exactement du format que nous recherchions ;
et comme nous le psychologue amricain entendait reprsenter dans un
espace de faible dimension (gnralement dans une carte plane) les re-
lations de proximit entre lments d'un ensemble I ; mais au lieu de
traiter les distances, d(i,i'), il se bornait considrer les ingali-
ts entre celles-ci (e.g. i est plus proche de i' que i" ne l'est de
i ' " ) ; et au prix de ces informations trs affaiblies parvenait pour-
tant dterminer une figure euclidienne de dimension p choisie (et ce
de faon peu prs univoque si toutefois les donnes se prtaient
une reprsentation de dimension p) . Mathmatiquement parlant.c' est la
mthode de Shepard qui - de beaucoup - pose les problmes les plus pro-
fonds ; mais quant aux rsultats statistiques, nous sommes convaincus
que l'avantage est l'analyse des correspondances. Celle-ci permet la
reprsentation simultane de deux ensembles ; traite plus rapidement
des donnes beaucoup plus amples (la convergence de l'algorithme de
Shepard est au contraire souvent hasardeuse) , parvient extraire des
reprsentations significatives de dimension plus leve ; et est
enrichie de rgles de codage ( 3.7) et d'interprtation ( 3.8).
Quoi qu'il en soit de ce jugement, nous entrmes en correspondance
avec R.N. Shepard qui eu la bienveillance de nous inviter Murray Hill,
au laboratoire de la Compagnie des tlphones Bell. Notre hte, statis-
ticien seulement pour servir la psychologie, et psychologue par amour
de la philosophie, ne portait plus alors sur l'analyse des donnes que
les regards souriants d'un sage ; mais il nous prsenta D. Caroll qui
peu soucieux, au contraire, de stimuler les rponse des rats ou des
hommes, employait joyeusement toute son ingniosit - qui est grande -
agiter des donnes dans un ordinateur comme on ferait de perles dans
un kalidoscope.
3.4.2 Ve V. CaKoll Ecka.Kt i Youna : Remarquablement second par
Madame J.J. Chang, D. Caroll a conu d'intressants algorithmes dont
l'un destin l'analyse des tableaux plus de deux entres (e.g. ta-
bleaux cubiques ou parallpipdiques : k(i,j,t) = association entre i
et j pendant l'anne t) est communment utilis au Etats-Unis. Il a
quant aux doctrines de l'analyse factorielle de fortes convictions dont
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 17

il ne me fit pas mystre : "Faisand, leur bazarde "rotations" et de


"communauts" !{cf 2.4). Il n'y a derrire tout cela qu'un problme
pur et dur ; rsolu depuis trente ans par Eckart et Young(*) : la re-
cherche du tableau de rang p (p fix a priori) le plus proche d'un ta-
bleau n x n donn (k(i,j)) , au sens des moindres carrs. La solution est
simple et unique ; on a des fonctions (ou facteurs) y? et i// telles que:
k(i,j) =2 a * a (i) ^(j) ;
cette somme, arrte aux facteurs a de rang 1 p, donne l'approxima-
tion de rang p c'est tout"."
Cette formule d'approximation vieille de trente ans, n'tait autre
que la formule de reconstitution des donnes partir des facteurs d-
montre par B. Cordier pour l'analyse des correspondances ; une dif-
frence importante prs toutefois : la prsence ici des coefficients de
2
la mtrique distributionnelle (ou mtrique du X ) . Considre ds l'a-
bord sous deux aspects diffrents d'une part comme 1'analyse factorielle
d'un ensemble de variables, et d'autre part comme l'ajustement d'une
chelle multidimensionnelle un nuage(multidimensional scaling) , l'ana-
lyse des correspondances nous apparaissait maintenant d'un troisime
point de vue, comme la recherche de la meilleure approximation de rang
fix d'un tenseur (tableau rectangulaire) donn, au sens des moindres
2
carrs pour la mtrique du x (approximation n'a de sens que si l'on a
arrt ce qu'on entend par proche ; et prsuppose donc le choix d'une
distance) . Insistons sur ce que le rang fix (nombre des facteurs ex-
traits) n'a aucune incidence sur les rsultats en ce sens que par exem-
ple la meilleure approximation de rang 4 s'obtient avec 4 facteurs dont
les 3 premiers ne sont autres que ceux qui ont fourni la meilleure ap-
proximation de rang 3 : c'est l un des mrites qui impose de choisir
les formules quadratiques de distance et la gomtrie euclidienne (cf
3.2.3) ; (Mais pour la rduction des tableaux plus de deux entres
pareille unicit n'existe pas ; et le programme de Caroll et Chang cit
plus haut est en butte cette difficult quand il cherche une approxi-
mation :
Mi,j,t) a X a * a (i) *B(j) o(t)

les facteurs v> t^arG dpendent du rang p - i.e. du nombre de facteurs


demands ; et la dcomposition cherche n'est mme pas unique pour p
fix...).
3.4.3 L. Guttman : Dans la bibliothque du laboratoire de R. N.
Shepard et D. Caroll, nous trouvmes bientt l'analyse des correspon-
dances une quatrime interprtation chez un prdcesseur beaucoup plus
proche qu'Eckart et Young : L. Guttman. A un tableau rectangulaire I x J
de nombres positifs (e.g. un tableau de contingence) ce matre de l'a-
nalyse des donnes avait ds 1941 (**) propos d'associer des facteurs
dfinis par la condition d'tre des couples de fonctions F(i), G(j) d-
finies sur les deux ensembles I et J et le plus corrles entre elles
sur I x J en un certain sens (en bref, les fonctions F(i) et G(j) d'une
seule variable sont des cas particuliers de fonctions de deux variables
H(i,j) ; en donnant (i,j) le poids k(i,j) on peut calculer sur I x J
un coefficient de corrlation entre F et G) . De ce point de vue qui
est, on l'a dit, (cf 2.4.6 et P. Cazes, thse 3 cycle, Paris 1970)
celui de l'analyse canonique de Hotelling, L. Guttman avait dfini les
facteurs mmes calculs par l'analyse des correspondances. Il ne les
(*) The approximation of one matrix by another of louer rank ; Psycho-
metrika, 1936 ; T 1 ; pp 211-218.
(**) Louis Guttman : The quantification of a class of attributes, in
P. Horst et coll, The Prdiction of Personal Adjustement, Social
Science Research (council N.-Y. j 1941).
l8 J. P. BENZECRI

avait toutefois pas calculs ; pour la seule raison qu'en 1941 les
moyens de calcul requis (ordinateurs) n'existaient pas (cf 2.5.3).
Mais le modle bien connu ,des chelles de Guttman (en bref analyse d'un
tableau I x J par permutation de ses lignes et colonnes jusqu' faire
apparatre une bande centrale de forme paralllogrammatique aussi par-
faite que possible et borde de zros), avec les composantes principa-
les qui y sont associes rentrait dans le cadre gnral d'abord conu
par cet auteur et retrouv par nous. Par le fait tait pos un cinqui-
me problme d'interprtation ; celui des rapports de l'analyse factori-
elle des correspondances avec des modles de structure (cf 3.4.5).
Auparavant, notons que, bien que nous ne sachions pas que Guttman
lui-mme soit jamais retourn aux ides proposes par lui en 1941 (il a
en revanche travaill perfectionner la mthode d'analyse des proximi-
ts de R.N. Shepard) son projet n'a pas t sans suite : nous avons ap-
pris de J. Faverge (cf. Cours Bruxelles 1970-71) que ds 1952 un auteur
japonais C. Hayashi(*) avait propos de calculer les facteurs dfinis
comme couple de fonctions ayant corrlation extrmale sur deux ensem-
bles en correspondance ; et que cette mthode avait t dans la suite
applique au Japon des enqutes d'opinion. La priorit de ces auteurs
est donc certaine : la seule originalit que puissent revendiquer les
chercheurs franais est d'avoir conjugu avec une mthode de calcul d-
couverte indpendamment par plusieurs auteurs, des ides et des probl-
mes multiples dont la synthse n'tait pas faite ; et d'avoir labor
une philosophie statistique nouvelle. Quant remonter dans le temps
avant Guttman (1941) comme Hill (1974, cf 3.1) y invite, nous serons
plus rservs ; il est vrai que l'cole anglaise (Fisher en 1940 et
avant lui Hirsfeld en 1935) a propos la premire (sous rserve de d-
couvertes bibliographiques encore possibles) de calculer les valeurs
propres et aussi les facteurs qui sont ceux de l'analyse des correspon-
dances. Mais chez ces auteurs (qui n'ont trait que des tableaux de
donnes de trs petite taille) le problme n'est pas l'analyse des don-
nes telle qu'elle est pratique par Guttman : c'est la mesure de cor-
rlation entre deux variables qualitatives ayant respectivement I et J
pour ensembles de modalits, partir du tableau rectangulaire I x J don-
nant les probabilits p . qu' la modalit i de la premire variable
soit associe la modalit j de la deuxime variable (par exemple les
deux variables sont la couleur des yeux et la couleur des cheveux ;
l'ensemble I = {foncs, moyens, clairs, bleus} ; l'ensemble J = {noirs,
foncs, moyens, roux, blonds} ; et p i - est la probabilit qu'au sein
d'un certain groupe un sujet ait la fois i pour couleur d'yeux et j
pour couleur de cheveux). On sait (2.2.7) que l'preuve classique du
2
X permet de confronter un chantillon l'hypothse d'indpendance
de i et j : p i - = P i x p. (e.g. dans notre exemple du 3.2.2. les as-
sociations des verbes et noms se feraient au hasard, sans affinit par-
ticulire entre ceux-ci) ; or la quantit critre (mesure de l'cart
entre le tableau des pi_. et celui des p.^ p.) est justement la somme,
SX^ , des valeurs propres extraites de l'analyse des correspondances ou
encore de l'inertie (dispersion) du nuage N(I) gale celle de N(J).
Les facteurs eux-mmes sont pour les auteurs de l'Ecole anglaise des
mesures numriques permettant de calculer un coefficient de corrlation
entre les qualits exprimes par i et j : nous reviendrons sur leurs
travaux au 3.5.2.
3.4.4
Le& te&t : Nous avions ds le dpart considr ce critre
2
classique du X (cf 2.2.6 ) afin de dcider quel rang arrter l'in-
terprtation des facteurs. En bref pour un chantillon d'effectif donn
(dans l'analyse d'un tableau de contingence cet effectif est le nombre

(*) C. Hayashi ; in Ann. of the Inst. of Stat. Math. T. 3 n 2 Tokyo


1952.
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 19

total 2k(i,j) des paires recenses ; sous la rserve essentielle que


ces paires puissent tre considres comme des manifestations alatoi-
res indpendantes, de l'affinit entre lments i et j des deux-ensem-
bles ; condition qui n'est jamais ralise qu'approximativement dans la
pratique ; et ne l'est aucunement pour un tableau de correspondance
"ensembliste", i.e. empli de 1 et de 0, cf 3.2) on sait l'ordre de
grandeur de la somme 2X (appele trace) sous l'hypothse que les affi-
nits apparentes entre i et j (diffrences entre les frquences des
paires f. . et les produits f. x f. des frquences marginales) soient
seulement dues aux fluctuations d'chantillonnage ; les dernires va-
leurs propres, dont la somme est comprise dans cet ordre de grandeur,
correspondent des facteurs de bruit. On notera ici l'optique propre
l'analyse des donnes (cf 3.8.5) : tandis que la statistique prati-
que vers 1950 multiplie les "tests "(preuves) pour protger l'accepta-
tion d'une hypothse (ou d'un modle) pose a priori (e.g. la normalit
d'une distribution), l'analyse des correspondances se rfre l'hypoth-
se d'indpendance entre i et j, mais n'a d'objet que pour autant que
celle-ci n'est pas vrifie , qu'il y a entre lments des deux ensem-
bls des affinits ingales dont on reprsentera spatialement la struc-
ture .
3.4.5 Le& modle* : Cette rencontre avec la statistique des tests
nous ramne aux modles dont l'chelle de Guttman est un exemple. L'ana-
lyse des correspondances peut par le calcul des facteurs et la reprsen-
tation graphique associe, dcouvrir sans l'avoir postul a priori
qu'un tableau de donnes est conforme (en gnral cette conformit ne
sera qu'approximative) au modle d'chelle. Elle peut aussi rvler
d'autres modles : e.g. une partition des ensembles I et J en classes
{I. , I- f l3 . . - ; J, , J 2 , J...,} ; les lments d'une classe I 2 s 'asso-
ciant exclusivement (ou quasi-exclusivement) avec ceux de la classe J~
de mme rang ; ou encore une variable normale sous-jacente aux associa-
tions (cf infra 3.5.2). De tels rsultats dmontrs partir de 1965
par B. Cordier, Ch. Rousse-Lacordaire (Mme Bourgarit) etc., quand notre
exprience s'est tendue aux donnes les plus diverses, permettent
d'atteindre des modles typiques non a priori mais a posteriori, au
terme d'un traitement commun tous les tableaux sans hypothse restric-
tive ; et de conjuguer inductivement ces modles. Ainsi se ralise le
projet initial suscit par la thse chomskienne : donner l'induction
une mthode formalise ; projet la vrit bien ancien, car il est
dans "Bacon ( 1600)(*).
3.5 Le calcul de* tKanttlonb :
Ds l'expos de la formule de probabilit des causes (au 1.4.2)
sont apparues les probabilits conditionnelles p.1 ou p P ; cette mme
notion se retrouve dans la formule de transition de l'analyse des cor-
respondances ( 3.3.2) qui est la base de la dfinition des facteurs
proposs par Guttman ( 3.4.3) et aussi d'interprtations voisines con-
nues antrieurement de l'Ecole anglaise {infra 3.2.5). Pour nous, le
calcul des transitions probabilistes est une variante du calcul tenso-
riel, adapte aux espaces probabilisables : l est le principe des no-
tations utilises en analyse des donnes principalement pour les ensem-
bles finis qui sont l'objet propre de la statistique (cf 1.7.6). Dans
ce nous ferons l'histoire de ces notations ; puis nous exposerons les
travaux de l'Ecole anglaise sur lesquels un rcent article de M.O. Hill
(cf 3.1) a appel notre attention.

(*) En hommage au Novum Organum de Bacon, il nous semble permis d'appe-


ler l 'analyse des donnes Novius Organum ; et nous avons crit
sous ce titre un expos des mthodes inductives de la statistique
publi dans le volume Organum de l'Encyclopaedia Universalis.
20 J- P- BENZECRI

3.5.1 Le calcul tenboklel de& me&uJie* et dej> jonction* : Dans les


premiers exposs de l'analyse des correspondances (cours de 1963 et
thse de B. Cordier en 1965) les notations indice de calcul tensoriel
ne sont pas utilises. Les probabilits de la paire (i,j), de l'lment
i, de l'lment j sont notes p(i,j), p(i), p(j) et non p.. , p. , p. ,
comme aujourd'hui ; de mme la probabilit conditionnelle de j quand i
s'crit p(j/i) = p(i,j)/p(i) et non p.1. Le nuage /1/(1) n'est pas dcrit
en associant chaque point i la loi conditionnelle p 1 = {p .1 | j e J}
qui est une mesure sur J ; mais on considre le systme
{p(/ j) / (p(i) x p(j)) |j e J} , c'est dire une fonction sur J qui
n'est autre que la densit de la loi conditionnelle p:1 par rapport
la loi marginale Pj (car p(i,j)/(p(i) x p ( j = p( j/i)/p( j)) . Le change-
ment intervenu dans les notations au cours de l'anne 1965 a de multi-
ples causes.

1) Le modle du calcul tensoriel sous la forme adopte par A.


Lichnrowicz pour exposer les thories d'Einstein incitait faire appa-
ratre dans les notations mmes la distinction entre un espace vecto-
riel et son espace dual ainsi que les divers isomorphismes entre pro-
duits tensoriels et espaces d'applications linaires clairement ensei-
gns dans l'algbre de N. Bourbaki. Comme le notait Laplace, une langue
bien faite va d'elle-mme au vrai ; car, dirons-nous, les dfauts du
raisonnement y apparaissent comme des fautes de syntaxe. Le calcul ma-
triciel communment utilis par les statisticiens, note sans autre dis-
tinction, par un tableau carr nxnune application linaire d'un espace
E de dimension n dans un autre espace F de dimension n, ou lment du
produit tensoriel E F ; donc aussi une application linaire de E dans
lui-mme, et un tenseur de E E (par exemple la forme quadratique d'i-
nertie d'un nuage de points de E) . Avec de telles notations le calcul
du produit a x b de deux matrices apparat possible, pourvu que les li-
gnes de a aient mme longueur que les colonnes de b. On sait cependant
que le produit de composition f o g de deux applications linaires f et
g n'a de sens que si l'espace-but de g concide avec l'espace source de
f. Avec les notations tensorielles adaptes d'Einstein, la composition
ou contraction se fait en sommant par rapport un indice apparaissant
deux fois l'une en position haute, l'autre en position basse, e.g. :
n k = r f "i k
i * i g j 1^ e J ^ ? e n s o r t e <3 u e l a rgle compatibilit de f avec g
apparat comme une sorte de rgle d'accord grammatical. En calcul des
probabilits si d'abord on se borne des ensembles finis I, J, K d'-
I J K
ventualits, on considrera l'espace vectoriel R (ou R , R ) des fonc-
tions sur I (ou J, K) qu'il faut distinguer de l'espace des mesures
qu'on notera R z (ou Rj , R R ) . Une transition de I vers J est un lment
du produit tensoriel Rj $ R (c'est une fonction sur I, mais valeur
dans les mesures sur J) : on crira T = {T .1} R, R 1 ; r .1 = r (j/i)
tant la probabilit conditionnelle de j quand i. Une telle transition
.sert la fois transporter les systmes de masses (mesures ; lois de
probabilits) de I vers J ; et associer toute fonction sur J une
fonction sur I etc. Sans recourir toutes les ressources des notations
tensorielles, le calcul est grandement soutenu si l'on respecte la dis-
tinction entre indice haut et indice bas, expression typographique de
celle entre espace et dual, entre fonction et mesure (cf TII B n 1 ) .
2) Dans les modles probabilistes, les transitions apparaissent
comme une gnralisation de la notion d'application ensembliste. Soit
V une telle application de I dans J : on lui associera la transition
<^j qui tout point i donne pour image le profil <Pj concentr au point
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 21

V(i) (i.e. : <P .1 vaut 1 s i j = v>(i) e t zro s i n o n ) . Avec une t r a n s i t i o n


T J
r_ , le point i aura une image dans J non ponctuelle, mais tale sui-
i
vant la loi r . L'importance de ce point de vue est grande en statis-
tique classique : mais ici on rencontre des transitions non seulement
entre ensembles finis mais entre espaces, (ce qui sera prcis en 3) .
Rappelons par exemple comment l'estimation d'une grandeurB e 0 (gnra-
lement une grandeur multidimensionnelle : e.g. le systme des param-
tres d'une loi ; cf 2.3.3) se fait partir d'un systme de donnes
alatoires y e Y (e.g. un chantillon fini issu de cette loi). Du vrita-
ble B (inconnu) on passe y par une transition p v 0 qui a B associe la
B
loi de y, p (image diffuse de B dans Y) ; l'estimateur est une fonc-
tion certaine e@ Y de Y vers 0 (on a vu que e est un type particulier de
transition, nous dirons une transition dterministe, sans ala) ; fina-
lement entre le B vrai et le 6* estim le passage se fait par une tran-
sition compose T ~ - e o p " : et la thorie de l'estimation, n'est que
le choix d'un estimateur e tel que pour tout B , la loi TJr(du 0' estim)
soit aussi concentre que possible autour de B . Autre exemple : quand
on tente d'appliquer la formule des probabilits des causes (cf 1.4.29
V
on a une transition B de X (espace des causes) vers Y (espace des ef-
fets) qui dcrit bien la loi de y partir de x ; mais on doit y adjoin-
dre la loi de x (loi dite a priori) pour construire une transition Y
Y v
vers X, x x qui tout associe la loi x,r de sa cause ; etc.
3) Les formules de la thorie des processus que nous faisaient
connatre les exposs de M. Mtivier ou le trait (alors tout rcent)
de J. Neveu, et que Ph. Courrge et H. Rouanet(*) entendaient incorpo-
rer des modles psychologiques, sont la fois simples dans leur
structure et obscurs dans leur criture intgrale : aussi les spcia-
listes les devinent-ils parfois plutt qu'ils ne les lisent ; tmoin ce
commentaire de J. Neveu l'nonc du thorme de Ionescu-Tulcea : "La
formule de dfinition de P (dont le 2 membre doit tre lu rebours)
est intuitive malgr sa complication apparente". Ces formules s'cri-
vent bien si l'on remarque que les espaces probabilistes, avec pour mor-
phismes les probabilits de transition, forment une catgorie. Ainsi
est prcise en termes mathmatiques notre intuition que (cf 2) les
transitions sont comme des fonctions mais entaches d'alas (l'image
d'un point x n'est pas un point p (x) mais une loi tale T * ) ; la
composition des morphismes gnralisant celle des fonctions. Et les no-
tations peuvent tre allges : tandis que communment un espace proba-
bilisable est dsign d'une autre lettre que la tribu de ses parties
mesurables, on pourra se borner une seule lettre, comme on note les
espaces topologiques sans en spcifier les ouverts ; la tribu des mesu-
rables tant au besoin dsigne par la lettre souligne (ou grasse) .
Pour une transition T on a la notation en composantes :
X x i x
TY = {T J X X ; y e Y} ; T dsigne la masse de la partie mesurable y_
x
de Y pour la loi T image du point x de X ; considre comme fonction
de deux arguments, le point x de X et la partie mesurable y. e Y , r doit
(*) Nos notations de calcul tensoriel des transitions apparaissent
pour la premire fois dans : Analyse statistique et modle probabi-
listes en psychologie, in Revue de l'Inst. Intern. de Stat. V. 34,
pp 139-155 (1966). Ce travail suggre d'utiliser l'analyse facto-
rielle des correspondances pour extraire des donnes statistiques
exprimentales des structures modles proposes par H. Rouanet
comme une gnralisation de nombreux modles classiques, en psy-
chologie.
22 J. P> BENZECRI

tre, on le sait, fonction mesurable en x, et mesure en y (au 1.4.2,


avec le problme de Bayes sur la probabilit inverse, on a un exemple
de transition vers I = (0,1)). Ce n'est pas le lieu d'exposer le calcul
tensoriel des transitions entre espaces probabilisables ; mais voici ce
que devient la formule d'Ionescu-Tulcea objet du commentaire de Neveu.
Il s'agit, en bref, de dfinir un processus alatoire (suite d'vne-
Eo Et-1
ments e , e~ , ..., e ,...) par la donne des transitions T "" (ou

E(
0'
a b o u t i t une t r a n s i t i o n p (o E = E x E . . . Produit i n f i n i des Ej
t, u i EQ t-
qui donne partir de e Q la loi de toute la suite des e ; pE est d-
finie comme limite projective par composition d'une suite infinie de
transitions :
E E
n 0 0"-Et-1 T V " E t - l . r/oEl E E
0 1. r/ 0 V T E .
P = ...o(0 X T )0...0( X T ) o (0 X T ) ;
E E
0-..Et-l *t ^0 E
2 % E
l
les intgrales ont disparu (remplaces par le signe de composition des
transitions) ; et la suite des transitions qu'il faut composer ne doit
plus "tre lue rebours".
Avouons- le, ce formalisme dans toute sa gnralit n'est pas in-
dispensable la pratique de la statistique (n'avons-nous pas affirm
que la thorie des probabilits elle-mme est pour l'analyse des don-
nes une source d'inspiration plutt qu'une mthode ; cf 1.7.6) ;
mais en est rsult un systme de notations qui marque explicitement
toutes les distinctions conceptuelles importantes et attribue la no-
tion de transition probabiliste le rle central qui lui revient. Rle
dont tmoignent les travaux britanniques que nous avons pour cette rai-
son placs ci-dessous en 3.5.2.
3.5.2 Quelque* tnavaux de l'Ecole anguAe &UA Vanalyse de* matAice* de
contingence :
Pour rfrence princeps l'analyse des correspondances, M.O. Hill
(1974) donne H.O. Hirschfeld (1935 : A connection between corrlation
and contingency ; in Proc. Camb. Phil. Soc, 31, pp 520-524) ; puis R.A.
Fisher (1940 : The prcision of discriminant functions ; in Ann. Eugen.
Lond., O, pp 422-429) avec une application par K. Maung (1941 : Measu-
rement of association in a contingency table with spcial rfrence to
the pigmentation of hair and eye colours of Scottish school children ;
in Ann. Eugen. Lond.,11, pp 189-223). Aprs l'article de Hill, nous a-
vons lu ces rfrences dont voici le contenu expos, pour plus de bri-
vet avec les notations de nos cours.
Hirschfeld pour tudier la corrlation entre deux variables quali-
tatives part (comme il est classique depuis K. Pearson ; cf 2.2.7)
de la matrice de contingence des {pi .}, probabilits qu' la modalit i
de la premire variable soit associe la modalit j de la deuxime va-
riable. Or un calcul de corrlation requiert classiquement qu'aux moda-
lits i et j soient associes des valeurs numriques <P , ^ : d'o la
question : "introduire ces variables de telle sorte que les deux rgres-
sions entre elles soient linaires" ; par quoi Hirschfeld demande que :

i ** p i J = p * j ; 2 j * j Pj1 = p1
Z
^
(o il apparat que si les p1 et les ^ ont variance 1, on a P = p ' = X1/2).
Ainsi se trouve pose l'quation des facteurs normaliss dfinie par
les formules de transition </? Pj = X,/2 p ; V Pj = X1/2 ^ . Hirschfeld
trouve d'abord le facteur trivial constant et gal 1 qui ne rpond
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 23

pas son propos (*). Il s'intresse donc au facteur de moyenne nulle


relatif la plus forte valeur propre possible. Il est clair pour lui
que \ (qu'il interprte comme le carr d'un coefficient de corrlation)
ne peut dpasser 1 : il affirme qu'une valeur propre 1 (pour un facteur
de moyenne nulle) correspond "une dpendance parfaite dans la distri-
bution" des p. . ; mais il ne semble pas avoir vu que cette dpendance
correspond prcisment une matrice de partition de la matrice des p. .
en deux blocs diagonaux suivant le modle rappel au 3.4.5. Il sait
2
que la trace (ou somme des valeurs propres X = p relatives aux facteurs
2
non-triviaux) n'est autre que le x calcul pour prouver l'indpendan-
ce entre les deux variables i et j (cf 2.2.7 & 3.4.4). Il aperoit la
possibilit de gnraliser son problme l'tude des correspondances
entre variables continues (cas- o I et J sont des espaces) : mais recu-
le devant la complexit des calculs. Cependant au terme d'une note si
riche en rsultats ou en suggestion, Hirschfeld n'envisage pas de faire
la synthse des liens entre les i et les j d'aprs une carte plane ru-
nissant deux facteurs (il ne songe d'ailleurs pas aux facteurs de vari-
ance X, plus appropris une telle carte que les <p de variance 1) :
son propos reste la mesure de la corrlation.
Dans sa note de 1940, Fisher part lui aussi de la loi de probabili-
t conjointe des modalits de deux variables qualitatives : il prend
pour exemple I, ensemble de quatre couleurs d'yeux ; J, ensemble de
cinq couleurs de cheveux (p. . est e.g. la probabilit d'avoir les yeux
bleus, i, et d'tre roux, j). Son propos est la discrimination : il
cherche, disons, une fonction < dfinie sur l'ensemble des couleurs
d'yeux, telle que si tout individu reoit pour abscisse la valeur p1
correspondant la couleur de ses yeux, alors les cinq classes de su-
jets ayant une couleur j de cheveux dtermine (les blonds, les roux,
etc.) soient aussi bien regroups que possible ; le critre prcis -
tant : maximisation de la variance interclasse (variance du nuage des
cinq centres des classes dfinies par les couleurs j) relativement la
variance intraclasse (variances ajoutes des cinq classes, chacune rap-
porte son centre) ; (cf 2.3.5) (**). Il aboutit l'quation des
facteurs par transition, quation qu'il propose avec sa solution itra-
tive : partir d'une fonction quelconque sur I, soit B ; passer sur J
B o p ; revenir sur I par B o p p e t c . . (en d'autres termes
d'une fonction sur les couleurs d'yeux i, on passe une fonction sur
les couleurs de cheveux j, en faisant pour chaque classe j la moyenne
des notes donnes la couleur d'yeux de ses sujets ; etc...); et par
va-et-vient' condition de normaliser les fonctions on parvient la
stabilisation. Fisher se demande incidemment si les valeurs de la fonc-
tion ainsi calcule (le premier facteur non trivial) diffrent signifi-
cativement pour les yeux clairs et les yeux bleus. Il suffit de lire
l'analyse que Fisher lui-mme donne de son travail dans le recueil Con-
tributions to math, stat, pour voir qu'il ne pensait nullement avoir
fait l une analyse factorielle.
Maung reprend en dtail l'expos des ides de Fisher et prcise
l'tude des donnes relatives aux couleurs d'yeux et de cheveux. Avec
(*) Ce facteur trivial est videmment limin des rsultats de l'ana-
lyse des correspondances ; il apparat quand on dfinit les fac-
teurs par un calcul de transition ; mais non quand on recherche
explicitement les axes principaux d'inertie.
(**) Ce critre o lron peut voir une (n+1) caractrisation des fac-
teurs issus d'un tableau de correspondance (valable seulement pour
une interprtation particulire du tableau des donnes) se trouve
en TU B n 7 1.5.
24 J. P. BENZECRI

l'interprtation donne explicitement par Fisher - maximisation du rap-


port de la variance interclasse la variance intraclasse - il en donne
deux autres qui aboutissent la mme quation des facteurs : recherche
de fonctions qui se reproduisent mutuellement par transition (c'est le
problme rsolu par Hirschfeld ; et vu dj par Fisher, sinon expos
nettement dans sa solution itrative ; Maung fait rfrence aux corr-
lations canoniques de Hotteling, cf 2.4.6) ; et calcul de la corrla-
tion entre y? et ^ considres toutes deux comme des fonctions sur un
mme ensemble support, celui des sujets dont on a not les caractres
i et j, couleurs d'yeux et de cheveux (il revient au mme de considrer
les corrlations sur I x J ; cf supra 3.4.3). Comme Hirchfeld, Maung
2
voit que la trace n'est autre qu'un x . Il entreprend, de plus, d'avoir
une preuve de signification pour la premire valeur propre (non tri-
viale) d'aprs l'effectif de l'chantillon tudi ; en fait ce problme
que L. Lebart a tudi par une simulation (cf TII B n 8 3) n'est
pas au clair chez Maung. La formule de reconstitution des donnes en
fonction des facteurs est attribue sans dmonstration Fisher ( qui
une formule d'analyse quadratique aurait difficilement chapp!) "Prof.
Fisher has pointed out that..." Un de Maung est consacr ce que
nous appelons correspondances normales (cf 3.4.5) c'est dire l'a-
nalyse des tableaux de contingence dfinis comme suit. Soient x et y
deux variables alatoires dont la loi conjointe est normale et entre
lesquelles le coefficient de corrlation est r ; soient I et J deux par-
titions de la droite relle en une suite d'intervalles assez resserre
relativement la dispersion de x et y ; on note p. . la probabilit que
x soit dans l'intervalle i et y dans l'intervalle j. On sait depuis
Pearson (1904) que la trace (ou le x ) du tableau p ^ (tableau qui, on
l'a vu, joua un rle historique dans les recherches biomtriques de F.
Galton puis de K. Pearson ; cf 2.2.2. & 2.2.7) tend pour des parti-
2 2
tions infiniment fines vers r / (1 -r ) ; Maung souligne que la corrla-
tion entre le premier couple de facteurs *> , <p est r (i.e. avec
2
nos notations,-que \ x = r ; cf TII B n 7 4.1). Quant aux donnes
concrtes Maung conclut une association positive entre les pigmenta-
tions des yeux et des cheveux ; il trouve les filles plus claires de
cheveux (mais non d'yeux) que les garons : ce qui a t attribu ce
que celles-l coupent moins leurs cheveux que ceux-ci... Mais pas plus
que Hirschfeld et Fisher, Maung n'envisage un dploiement multidimen-
sionnel des rsultats (il sait que le calcul fournit une suite de fac-
teurs ; mais ne regarde que le premier, en tant que solution optimale
aux trois problmes qu'il a poss) ; ni une gnralisation des don-
nes d'autre format. Et, somme toute, s'il fallait l'analyse des cor-
respondance un patronage britannique, c'est au grand K. Pearson qu'il
nous plairait de le demander (cf 2.2.7).
3.6 Ex.ten*lon du domaine de Vanalyse de* coKKe*pondance* :
Les analyses effectues Rennes en deux annes de 1963 1965
portaient exclusivement sur des tableaux de contingence d'assez petite
taille (de 8 x 8 3 0 x 3 0 environ) issus d'expriences de psychologie,
ou plus rarement de relevs linguistiques. Le laboratoire de statisti-
que fond Paris en 1965 sous l'gide du Doyen M. Zamansky et du Pr.
D. Dugu, Directeur de l'I.S.U.P., allait grandement largir ce pro-
gramme.

Dans ce nous dcrivons superficiellement ce progrs ; en jalon-


nant quelques tapes et rappelant les pisodes les plus marquants (cf
3.6.3) au travers desquels le laboratoire a bnfici des travaux de
chercheurs de toute discipline. S'il est vrai, comme nous aimons
l'affirmer, que la statistique est une science exprimentale, il fal-
lait voquer cette fructueuse collaboration avant les dveloppements
des mthodes ( 3.7 & 3.8) et des programmes ( 3.9).
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 25

3.6.1 Ecologie et blo*y*tmatlque : Ds 1966, M. Roux s'appliqua


aux donnes cologiques : I, ensemble de parcelles (de terrains) xJ, en-
semble d'espces vgtales ; k (i,j) = 1 si j est prsent dans i, zro
sinon (ou encore, k(i,j) est un coefficient d'abondance). Ce fut le d-
but d'une collaboration ininterrompue depuis, avec le laboratoire du
Pr. M. Guinochet (Orsay). Dans sa Phytosociologie (Masson ; Paris; 1973)
M. Guinochet a bien voulu faire une place de choix aux mthodes d'ana-
lyse statistique multidimensionnelle. Pour le statisticien, les donnes
phytosociologiques et biosystmatiques ont jou un rle essentiel dans
le progrs des mthodes : confrontation de l'analyse factorielle avec
la classification automatique (cf 3.8.3) et l'analyse discriminante
( 2.3.5 & 3.8.2), traitement de tableaux htrognes (mlant varia-
bles quantitatives - dimensions, tempratures...; qualitatives - cou-
leur, rugosit...; logiques - prsence ou absence etc..) (cf 3.7.1)
ont grandement progress l'preuve de ces donnes. A partir de 1969,
le traitement du monumental corpus d'observations rassembl par L.
Bellier en Cte d'Ivoire a introduit l'analyse des correspondances dans
le domaine de la biosystmatique et de l'cologie animales. Le sommaire
la partie C du tome I de 1'Analyse des donnes suffit dcouvrir la
diversit de ces sortes de recherches.
3.6.2 Le colloque d'Honolulu : A l'invitation du Pr. M. S. Watanabe
fut crit au dbut de 1968 le rapport de J. P. Benzcri "Statistical
analysis as a tool to make patiferns merge from data". Ce rapport pr-
sent par Ch. Masson au colloque de Honolulu sur la reconnaissance des
formes offre un panorama de ce qu'tait alors chez nous la pratique de
l'analyse des donnes (*). Quant aux mthodes, ct de l'analyse des
correspondances et de la classification automatique (partitions seule-
ment alors ; et non hirarchie de classes) on trouve l'analyse des pro-
ximits (traite par un algorithme original trs simple) et l'analyse
des prfrences : aujourd'hui nous traiterions plutt les donnes de
prfrence (I ensemble de sujets ; J ensemble d'objets ; chaque sujet i
range dans l'ordre de ses prfrences les objets j de J) non par un
programme spcifique, mais par le programme d'analyse des correspondan-
ces, en affectant chaque objet deux colonnes, l'une contenant son
rang et l'autre le complmentaire de son rang (cf. J. P. Fnelon, thse;
et ses travaux en collaboration avec madame Y. Bernard ; et infra
3.7.1 & 3.7.4 : ddoublement). Quant au domaine, la psychologie et
la linguistique s'adjoint la mdecine (analyse de M. Kerbaol sur les
donnes de l'Htel Dieu de Rennes ; Prs M. Bourel et P. Lenoir, bientt
rejoints par le Pr. G. Sandor de l'Institut Pasteur de Paris). Le titre
mme du colloque "Mthodologies of Pattern Rcognition" pose le probl-
me de la reconnaissance des formes : en 1977 comme en 1968 il ne fait
pas de doute pour nous que l'analyse des correspondances est toute d-
signe pour rduire un petit nombre de traits significatifs la des-
cription primaire des objets dont il s'agit de reconnatre la forme
(cf 2.5.6) ; les expriences de Ph. Marano (Ann. des Tlcom. T 27
pp 163-172 ; 1972), P. Graillot (C.N.E.T. 1972), P. Chaumereuil et J. P.
Villard (Stage D.E.A. 1970) confirment notre conception du problme,
mais l'tude systmatique des images mobiles et de la chane sonore n'a
pas encore t faite avec toute l'ampleur convenable. Cependant, fr-
quenter des chercheurs intresss par la reconnaissance des formes
(R. Guedj ; T. Dao) le laboratoire a gagn d'tre initi l'approxima-
tion stochastique : mthode suivant laquelle la solution d'un problme
d'analyse est atteinte comme la limite d'un processus alatoire conve-
nable. Sur ce principe on a conu un algorithme d'analyse de correspon-
dance fort simple requrant trs peu d'espace en mmoire centrale (cf
3.9) .
3.6.3 ln*tltutlon de* *tagc* : Le printemps de 1968 aura vu crou-
ler plus d'une colonne d'argile qu'on avait crue de bronze, et s'lever
(*) Le texte -Ronolulu\ publi dans l 'Analyse des donnes diffre du
rapport de 1968 ; dont l'original en langue anglaise se trouve aux
actes mmes du colloque (cf Mthodologies of Pattern Rcognition,
d. Watanabe ; Acad. Press. N. Y., 1969).
26 ^. P. BENZECRI

plus d'un chteau de cartes qu'on prit alors pour un Colise. Pour l'a-
nalyse des donnes aussi, ce fut un passage historique. Empreints du
lyrisme prudent qui s'impose aux heures chaudes, tels sont les documents
d'poque. Voici un alina d'un rapport destin la D R M E, organisme
alors prodigue en contrats et qui nous aidait libralement. "Comme on
l'imagine, le laboratoire en tant que tel a cess d'exister pendant
quatre mois... Il est heureux que les chercheurs disperss aient pu con-
tinuer leurs travaux : mais certaines de nos recherches ont t entra-
ves. Les tudiants, dsireux de nous faire bien estimer leur gnra-
tion, ont dans l'ensemble fait un effort considrable ; beaucoup de
travaux de recherche entrepris cet t n'auraient sans doute jamais vu
le jour sans la crise morale de Mai...". En effet, notre invitation aux
recherches appliques avait d'abord suscit peu d'chos ; tmoin ce
prambule la circulaire qu'au dbut de l't, aprs six semaines de
silencieuse absence, le professeur adressait aux tudiants : "Comme
nous l'avons fait en 1966 et 1967, nous invitons cette anne les candi-
dats au D.E.A. de Statistique, faire de la session d'examen une fruc-
tueuse exprience de travail pratique et de recherche. Pareille mthode
nous avons pu le constater demande de tous beaucoup plus qu'ils ne sont
habitus donner..." Mais dans les projets fivreux de rforme des exa-
mens, chacun se trouva pris ses propres paroles : les stages demands
par tous, s'imposrent tous : Dieu Merci, la vague tait franchie
sans naufrage. Cette autre circulaire sonne comme un appel la leve
en masse : "Je vous communique ci-joint le sujet d'une recherche sta-
tistique historique qui pourrait occuper une quipe d'une douzaine de
chercheurs. Le travail s'accomplirait dans les conditions suivantes :
1 Constitution de l'quipe : les tudiants susceptibles de travailler
dans la rgion parisienne pendant 2 3 semaines au cours de l't (i.
e. du O Juillet au 10 Septembre) et s'intressant la recherche his-
torique se feront connatre en crivant au secrtariat du laboratoire,
etc.." Il y eut pour ce projet une quipe franco-iranienne de 4 volon-
taires (et non 12!) : ce fut le dbut de notre collaboration avec l'his-
torien A. Prost (cf TII n 2 ) .
Depuis 1968 grce au dvouement de nombreux chercheurs (au premier
rang desquels il faut citer P. Cazes, J. P. Fnelon, M. Jambu, M.O.
Lebeaux, M. Roux, S. Stpan, Y. Grelet...) les lves du laboratoire
ont produit des centaines de rapports de stage et des dizaines de th-
ses de 3 cycle. Par la collaboration avec de trs nombreux laboratoi-
res et autres institutions, notre exprience s'est tendue aux donnes
les plus diverses : Gologie (P. Cazes avec F. Leroy d'ELF-ERAP puis
P. Solty du B R G M ; J. P. Bordet, J. M. Monget et P. Roux l'Ecole
des Mines) ; Gographie* (Ph. Massonie et ses collgues de l'Universit
de Besanon ; le laboratoire de gomorphologie, dirig par F. Verger
l'E.P.H.E.) ; Sociologie (J. P. Fnelon et Madame Y. Bernard en esthti-
que exprimentale ; M. de Virville et les lves du Pr. Cuisenier ;
D. Kalogropoulos et ses confrres criminologistes ; M. 0. Lebeaux et
l'quipe d'Economie et Humanisme ; L. Lebart et N.Tabard au C R E D 0 C);
Economie (M. Voile l'I.N.S.E.E. ; J. L. Guigou en Facult ; A. W.
Hamrouni avec M. Lenco au ministre de l'Agriculture) ; Phnomnes phy-
siques (haute atmosphre avec J. P. Bordet chez le Pr. Barliet l'Ob-
servatoire de Meudon ; fiabilit des composants mcaniques, L. F. Pau
et M. Bichara Air-France ; ou lectroniques : P. Graillot et G.
Vasserot au C.N.E.T.) ; sans oublier la psychologie (M. 0. Lebeaux a-
vec M. Zlotowicz) et la linguistique (A. Salem avec le centre de lexi-
cologie de Saint-Cloud et G. E. Weil Nancy ; V. Huynh l'Universit
de Vincennes) cultives ds les dbuts du laboratoire, ni la mdecine.
Nous suivrons les progrs dans la diversit de ces travaux en
feuilletant les publications du laboratoire ( 3.6.4) et les programmes
des colloques qu'il a organiss ( 3.6.5) avant d'en faire le bilan m-
thodologique ( 3.7 & 3.8).
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 27

3.6.4 : Publication* du laboratoire : Sans reproduire un catalogue,


signalons brivement les exposs successifs de l'analyse des correspon-'
dances, ainsi que les progrs, des recueils d'exemples d'analyses. Le
premier expos oral de l'analyse des correspondances (cf 3.1 & 3.2.4)
fut donn en hiver 1963 au cours de six leons du Cours Peccot profes-
ses par J. P. Benzcri sous le titre "Statistique et structure des lan-
gues naturelles ; essai de synthse mathmatique". Au dbut de 1964 une
rdaction de ce cours fut publie Rennes en cinq parties intitules
leons . Les deux premires de ces leons traitent de la linguistique
gnrale ; et la deuxime plus spcialement de la smantique. La troi-
sime leon est une thorie algbrique des grammaires de constituants
non-connexes (en bref penser au latin : romanam condere gentem, romaine
fonder la nation ; o le constituant "la nation romaine", est interrom-
pu par le verbe fonder dont il est l'objet). La quatrime leon rappel-
le les principes de l'ajustement d'un systmes d'axes un nuage de
points d'un espace euclidien ; et donne selon ces principes un algorith-
me simplifi d'analyse des proximits (cf 3.4.1 & 3.6.2). La cinqui-
me leon est un premier expos de l'analyse des correspondances, compor-
tant la reprsentation simultane des deux ensembles I et J, mais sans
thorme (cf 3.3.1) ni notation tensorielle (cf 3.5.1). Il tait pr-
vu une sixime leon d'applications linguistiques de l'analyse des cor-
respondances : le texte [Ana. Ling.] crit en 1974 peut tre regard
comme la ralisation diffre de ce projet, mais il ne reut pas le ti-
tre de*sixime leon, car en 1974 les diverses parties du cours de 1963-
1964 s'taient spares aprs avoir connu d'ingales fortunes ; la cin-
quime leon ayant, quant elle disparu depuis 1965, la parution de
la thse de B. Cordier (cf 3.3.2)!

Le cours de 1967 d'analyse factorielle, crit dans les notations


du calcul tensoriel comporte deux parties : 1 la reprsentation appro-
che d'un nuage dans un espace de faible dimension (cf [Repr. Eucl.]
TII B n 2) ; 2 l'analyse des correspondances (cf[Dis x 2 Corr. ] TII B
n 5) . Le texte Rduction d'un lment du produit tensoriel de deux es-
paces euclidiens, crit en 1968 (cf [Red. Tens.] TII .n 6) reprend
l'analyse des correspondances du point de vue d'Eckart et Younq (cf 6
2.4.2).

Cependant les exemples d'analyses factorielles ne formaient encore


que de brves notes indpendantes, ou des paragraphes insrs dans un
recueil dont le thme central n'tait pas l'analyse des donnes. En
1968,on reprit l'analyse.de tous les tableaux de contingence issus
d'expriences psychologiques que nous ayons pu rassembler : cet ensem-
bles d'analyses, coordonnes et commentes forme l'article "Sur l'ana-
lyse des matrices de confusion", achev en 1969, et publi en 1970 par
la Revue de Statistique Applique. Ces donnes sont pour une mthode
statistique, ce que sont les diatomes pour un objectif de microscope :
la structure en tant bien connue (ce sont le plus souvent des ensem-
bles de stimuli admettant dans le plan une reprsentation par un seg-
ment, un arc, ou un cercle, impose par leurs proprits physiques) il
ne s'agit pas pour le statisticien de dcouvrir du neuf, mais de s'assu-
rer de la fidlit de l'outil qu'il propose. Disons ici que cette preu-
ve nous semble indispensable : il est imprudent d'entreprendre de mettre
au jour des dimensions caches (e.g. de faire de la psychomtrie) par
une mthode qui ne distingue pas avec aisance les dimensions directe-
ment accessibles nous (e.g. les variables d'une tude de psychophv-
sique ; cf 2.4.1).

Aprs les matrices de confusion, on entendait traiter aussi syst-


matiquement et non seulement pour l'illustration d'un expos (tel que
celui envoy au colloque de Honolulu ; cf 3.6.2) toutes les donnes
les plus diverses. A ce grand inventaire aida d'une part l'institution
des stages (cf 3.6.3), d'autre part le passage de M. O. Lebeaux au
laboratoire de Cl. Picard (du C.N.R.S.) alors install rue du Maroc.
Et en 1970 nous pmes sous le titre "l'analyse des donnes" constituer
un recueil d'une douzaine d'analyses diffrentes touchant la
28 7. P. BENZECRI

psychologie, la sociologie, la linguistique. De ce recueil la moiti


des chapitres dpassaient une vingtaine de pages : le codage, la criti-
que et l'interprtation des rsultats s'tant perfectionns (cf 3.7
& 3.8) au fur et mesure que se diversifiaient les donnes.
Dsormais,, le progrs des exposs thoriques et de la systmatisa-
tion des applications allait aboutir au recueil en 2 tomes publi
chez Dunod en 1973 et rdit en 1976. Depuis, les publications d'exem-
ples se poursuivent ; ainsi que celles de -complments mthodologiques
et de programmes qui les mettent en oeuvre.
3.6.5 Le* colloque* *ur Vanaly*e de* donne* : Les salons des
prcieuses ont vcu. Les congrs internationaux, aux salles tantt en-
combres tantt dlaisses, n'attirent que par l'esprance des trop
brefs a parte de couloirs. Les sminaires hebdomadaires sont une ligne
de plus l'agenda des chercheurs. Voici le temps des colloques : d-
faut d'une salle capitulaire ou d'un rendez-vous de chasse tout abri
dans une autre ville o les appels, les sonneries et les horaires sont
pour les autres, suffit recrer la socit des savants. Le premier
colloque du laboratoire se tint Besanon les 14 et 15 Avril 1970 : il
n'y en eut jamais plus de semblables. Ph. Massonie avait rassembl dans
un palais universitaire des collgues l'esprit aussi cultiv que non
prvenu ; et les exposs se succdaient un rythme rapide (trois ou
quatre par heure) presque tous lmentaires, dans un chatoiement de su-
jets divers : questionnaires, cologie, mthodes, linguistique, psycho-
logie, taxinomie. Dans la suite il fallut descendre de ces dlices en-
cyclopdiques pour approfondir un domaine particulier dj connu des
auditeurs. Ds l'automne de 1970 ce fut le colloque de Marseille (chez
le Pr. Sarles) coupl avec celui de Nice (U.E.R. sur le domaine mditer-
ranen) , celui-ci consacr l'cologie et la systmatique, celui-l
aux donnes mdicales. Puis l'Arbresle (auprs d'un vritable couvent,
sinon d'une antique abbaye) le colloque sur l'analyse des donnes appli-
ques aux sciences humaines, organis en collaboration avec le laboratoi-
re L. J. Lebret (E.R.A. 122 du C.N.R.S.). Puis Rennes (retour aux sour-
ces) ; et Besanon 2, Orlans, Rennes, Grenoble, Montpellier ... succes-
sivement gographie et conomie ; cologie et botanique, e t c . . linguis-
tique enfin. Recevant ainsi de multiples disciplines des problmes de
plus en plus complexes, la statistique peut progresser en offrant
tous une mthode unique.

3. 7 P en. Sectionnement* apport* la mthode :


Quand la fin de 1965 dbutrent les travaux du laboratoire de
Paris nous avions les formules et thormes de l'analyse des correspon-
dances ( 3.3.2) crits dans les notations du calcul des transitions
( 3.5.1) ; et les principales interprtations des facteurs, gomtri-
ques ou probabilistes avaient t rassembles ( 3.4). Mais la pratique
de l'analyse des correspondances telle que nous la connaissons aujourd'
hui n'existait pas encore. Un programme permettait de calculer facteurs
et valeurs propres ; les accs ce programme, l'entre comme la sor-
tie, manquaient. A l'entre en effet, se place le codage : c'est dire
la reprsentation d'un ensemble de donnes, d'un ensemble de faits par
un tableau rectangulaire de nombres positifs apte tre soumis l'a-
nalyse des correspondances ; en 1965 n'avaient gure t traits que
des tableaux de contingence directement analysables (cf 3.2.4). A la
sortie, sont l'interprtation et la critique des rsultats : en 1965
1'ordinateur fournissait seulement la liste des valeurs des facteurs ;
les graphiques taient tracs la main et la seule aide statistique
2
l'interprtation tait le critre du X (qui suggre quels sont les
facteurs significatifs ; mais est applicable seulement un tableau de
contingence, sous l'hypothse que les donnes rsultent de tirages in-
dpendants ; cf 3.4.4). Dans la suite nous considrerons donc les
progrs de l'analyse des correspondances dans le codage des donnes
(3.7) ; 1'interprtations des facteurs (3.8) ; l'organisation des
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 29

programmes ( 3.9). Sans les multiples perfectionnements ainsi apports


la mthode, l'extension du domaine de l'analyse des correspondances
dont le 3.6 offre le panorama, n'et pas t possible : mais rcipro-
quement, nous verrons les perfectionnements eux-mmes souvent suscits
par les exigences quotidiennes du traitement des donnes.
L'essence du codage des donnes, est de traduire fidlement les re-
lations observes entre des choses, par des relations entre des tres
mathmatiques ; de telle sorte qu'en rduisant par le calcul (3.9) la
structure mathmatique choisie pour image du rel, on ait de celui-ci
un dessin simplifi accessible l'intuition et la rflexion avec la
garantie d'une critique mathmatique ( 3.8). De ce point de vue l'ana-
lyse des correspondances, mme applique aux tableaux de contingence
pour le traitement desquels elle a t cre, comporte un codage qui
est la reprsentation gomtrique des ensembles I et J par des nuages
euclidiens, avec identification des axes des deux nuages (cf 2.2.3 &
3.3). Dans le prsent ce codage gomtrique est accept pour tout ta-
bleau de nombres positifs : la question est donc d'une part de passer,
si ncessaire, des donnes un tel tableau ; d'autre part de justifier
pour de multiples classes de donnes la fidlit au rel du codage go-
mtrique appliqu ce tableau.
3.7.1 Homognit et exhau*tlvlt : Le tableau lui-mme est d'au-
tant plus fidle au rel qu'il rsulte du relev exhaustif d'un champ
homogne. Pratiquement, 1'exhaustivit n'est souvent qu'approche par
chantillonnage ; et le dtail du relev d'un continuum est arrt
une partition. L'tude des dpenses prives des Franais se fera sur un
chantillon de la population ; selon une nomenclature distinguant e.g.
le tabac des conserves alimentaires, mais non une marque de cigarettes
d'une autre. Ici le principe d'quivalence distributionnelle a le mri-
te d'assurer que le codage gomtrique du rel est peu sensible au choix
de la nomenclature (partition des dpenses) . Mais que signifie exhausti-
vit pour un tableau de mensurations somatiques, de dosages biochimi-
ques, un questionnaire d'opinion ? On doit au dpart se fier au spcia-
liste, admettre que les donnes qu'il a recenses sont comme un chan-
tillonnage du champ rel qu'il vise (chantillonnage dont la densit
correspond la redondance des donnes) ; puis par les rsultats d'ana-
lyse, critiquer la composition des donnes et s'il se peut amliorer
celles-ci. Quant l'homognit, il semble facile de la respecter au
moins approximativement; cependant certaines tudes requirent la con-
frontation de deux ou plusieurs groupes de variables de nature diff-
rente : par exemple un vgtal i sera dcrit la fois par un ensemble
J1 de mensurations (longueur et largeur de la feuille, longueur de tige
entre deux noeuds ; etc..) et par un exemple J 2 de variables logiques
ou qualitatives (couleur des ptales, pilosit des feuilles etc..) ; on
a donc deux tableaux juxtaposs IxJ, et I x J , (lignes du second, au
bout des lignes du premier). Pour analyser ces donnes htrognes, on
peut soit les rduire l'homognit en les codant toutes sous forme
logique (forme disjonctive complte : 3.7.4) ; soit appliquer cha-
que groupe le codage qui lui est propre, mais multiplier le deuxime ta-
bleau par un coefficient numrique de pondration afin que dans l'analy-
se du tableau global Ix (J, + J2) / les contributions des deux groupes de
colonnes J et J 2 s'quilibrent (en un sens qui sera prcis au 3.8.4,
avec la dfinition des contributions). Le principe de pondration nous
tait connu depuis 1968, mais la mthode n'a t applique qu'en 1972
par A.W. Hamrouni, qui a donn dans sa thse un programme de calcul des
coefficients de pondration relative de deux tableaux (ou de plusieurs
IxJ,i , IxJ,,...,
&
I x J n ).
(Les deux textes Pondration] et [Pond. Pr.] donnant le principe
et le programme FORTRAN de cette mthode, doivent tre publis prochai-
nement dans les cahiers).
30 J. P. BENZECRI

Nous avons rencontr plusieurs exemples de donnes : nombres en-


tiers dans les tableaux de frquence, poids et valeurs dans les bilans ;
mensurations ; dosages biochimiques ; qualits et variables logiques
(en Oui ou Non). Efforons-nous de ranger toutes les donnes sous quel-
ques types dont nous considrerons successivement le codage. La thorie
des grandeurs labore par les physiciens et les psychophysiciens nous
servira de guide.
3.7.2 Grandeur* addltlve* ex.ten*lve* : Il est classique en physiqix
d'opposer les grandeurs extensives (masse; volume...)aux grandeurs intensives (tempra-
ture) d'aprs le critre suivant : ci on spare en deux une quantit de liquide honog-
ne, les deux parties ont chacune mme temprature que le tout ; mais elles s'ei
partagent la masse et le volume. Ici nous appellerons grandeurs additives
extensives les grandeurs numriques positives pour lesquelles l'opra-
tion mathmatique d'addition correspond une manipulation relle,
une runion. D'abord les grandeurs entires recenses dans les tableaux
de frquence (k(i,j) = nombre de fois que le nom i a t trouv sujet du
verbe j, cf 3.2.2). Ensuite les poids et valeurs des bilans : toutes
les donnes d'un tel tableau peuvent tre mesures en une mme unit
(dont le choix importe peu : gramme ou once ; franc ou dollar) : pour
de telles donnes, additionner deux colonnes revient fusionner deux
postes du bilan (e.g. les dpenses en riz et ptes avec celles en lgu-
mes secs) . Egalement les tableaux de mensurations prises sur un vgtal,
un sujet vivant, un crne...: ici l'addition ne correspond une opra-
tion relle que s'il s'agit de mesurer deux segments qui se prolongent
l'un l'autre : e.g. le premier et le deuxime entre-noeud sur une tige ;
ou la longueur du bras et celle de l'avant-bras. Ne contenant que des
nombres positifs, les tableaux de grandeurs additives extensives sont
directement traitables par l'analyse des correspondances ; ce traite-
ment a l'avantage d'tre, de par le principe d'quivalence distribution-
nelle, insensible aux regroupements ou subdivisions ventuels de colon-
nes. Il n'est donc pas besoin ici de codage. De plus, en traitant des
profils l'analyse de correspondance permet d'tudier la dispersion des
formes indpendamment de celle des tailles ; tandis que l'analyse en
composantes principales usuelle extrait pour premier facteur un facteur
de taille, puis des facteurs non corrls celui-ci et appels pour cet-
te raison facteurs de formes (cf e.g. Kendall, A course in multivariate
analysis ; Griffin ; Londres, (1957) ; p 151). Mais conformment l'ex-
prience du naturaliste, l'analyse de correspondance rvle un premier
facteur de forme (facteur de forme parce que l'analyse ne traite que
des profils) fortement corrl la taille (cf TI C n oS 5 , 6 & 7).
3.7.3 Variable* logique* et qualit* dl*crte* : Tout l'oppos
des grandeurs additives extensives se trouvent d'autres tableaux par-
faitement traitables tels quels par l'analyse des correspondances : ce
sont les tableaux en (0,1), mis sous forme disjonctive complte. Voici
le modle commun ces tableaux : soit I un ensemble d'individus ; Q un
ensemble de questions ; J l'ensemble discret (i.e. discontinu, fini)
des rponses possibles la question q e Q ; J = u {J | q e Q}, i.e. J
est l'ensemble des modalits de rponse toutes les questions, cha-
que question q est affect un bloc J de colonnes ; la ligne affrente
chaque sujet i comporte dans chaque bloc J un 1 dans la colonne cor-
q
respondant la modalit de rponse choisie pour i la question q, et
des O ailleurs. On dit qu'un tel tableau est mis sous forme disjonctive
complte parce que chaque question toutes les modalits sont explici-
tement prvues et distingues. D'un mme format sont les tableaux de
description par des qualits discrtes. : Q ensemble de qualits ; J
ensemble des modalits de la qualit q : par exemple si q est la cou-
leur des ptales, J sera l'ensemble {jaune, bleu, rouge}. Quand J ne
comporte que deux modalits : {Oui, Non}, {prsence, absence}, e t c . .
il est commode de noter J = {q+, q~} : on parle alors de ddoublement
q
(cf infra 3.7.4). Le ddoublement attribue des rles symtriques
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 31

une qualit et sa contraire ; ce qui est souvent indispensable, mais


est parfois inopportun (on a rencontr au 3.2.4 sous le nom de tableau
de correspondance logique le cas des tableaux I x Q : k(i,q) = 1 si i
possde la proprit q, zro sinon ; sans ddoublement) . Dans le tableau
des votes d'une assemble (I ensemble des dputs ; Q ensemble des scru-
tins) on doit outre les Oui et les Non recenser les abstentions et les
absences ; problme rencontr d'abord en 1968 lors de notre collabora-
tion avec l'historien A. Prost (cf 3.6.3) et dont une tude trs com-
plte a t faite en 1973 propos de l'analyse par A.W. Hamrouni des
votes l'O.N.U. (tudes publies dans ces cahiers : Ca I n 2 pp 161-
195 & n 3 pp 259-286): le codage peut alors s'carter de la forme dis-
jonctive complte (e.g. prsence de (1/2) dans les colonnes q et q~
etc.).
L'analyse des tableaux logiques ddoubls (dont les chelles de
Guttman, cf 3.4.3, sont un exemple trs classique) et plus gnralement
des tableaux sous forme disjonctive complte (cf infra 3.7.4) se pra-
tiquait chez nous depuis plusieurs annes quand en 1972 L. Lebart en
apporta la meilleure justification : les facteurs sur J issus de l'ana-
lyse d'un tel tableau I x J ne sont autres ( un coefficient constant
prs) que ceux issus de l'analyse du vritable tableau de contingence
J x-J suivant{*) : k(j,j') = nombre des individus i ayant la fois la mo-
dalit j et la modalit j * . Ds lors on rejoint le format original pour
lequel a t conue l'analyse des correspondances. De plus on a analys
des sous-tableaux rectangulaires du tableau J x J : tableaux J_ x J- , o
J est l'ensemble des modalits des qualits q d'une partie Q, de Q ;
et de mme J 2 pour une autre partie Q 2 : ainsi on peut tudier la cor-
respondance entre un ensemble d'opinions(rponses des sujets aux ques-
tions Q. ) et des caractres socioconomiques (rponses Q 2 ) ; et c'est
par un tel tableau que l'analyse de correspondance rsoud le problme
de la rgression (cf 3.8.2) aprs avoir cod sous forme disjonctive
complte ( 3.7.4) variable expliquer et variables explicatives.
3.7.4 Grandeur* lntcn*l\je* : Le succs maintenant bien compris des ana-
lyses de tableaux en 0,1 mis sous forme disjonctive complte invite
rapprocher de cette forme, par un codage appropri, les donnes les
plus diverses.
Grandeurs intensives bipolaires : les rsultats de nombreuses en-
qutes sont comme ceux des examens scolaires et des preuves psychotech-
niques, exprims par des notes comprises entre deux bornes, qu'on peut
aprs changement linaire d'chelle supposer tre 0 ou 1. Soit donc un
tableau de notes I x Q : k(i,q) = note de l'individu i l'preuve q ; on
crera pour chaque preuve q un couple de colonne {q ,q~}(k(i,q )=k(i,q);
k(i,q~) = l-k(,q) ; ou plus gnralement : k(i,q~)=M -k(i,q + ) ; M
tant la note maxima l'preuve q ) . L'analyse de tableaux ainsi ddou-
bls est pratique depuis 1968 par M. 0. Lebeaux sur des donnes psycho-
logiques (cf 3.8.4) puis sur les enqutes socioconomiques de 1 * IRFED
(cf TII C n oS 4, 5 & 6).
Grandeurs qualitatives ordinales : beaucoup de mesures numriques
doivent tre comprises non comme des quantits, mais comme des qualits
susceptibles d'avoir une intensit plus ou moins grande repre sur un
axe ; nous dirons que ce sont des qualits ordinales. Faire l'analyse
d'une roche en ses lments (ou composs chimiques) majeurs ; doser
l'argile, les carbonates, e t c . . dont la masse totale sera celle de
toute la roche ; c'est faire un vritable bilan au sens considr ci-
dessus ( 3.7.2) mais doser dans le srum sanguin une suite d'enzymes,

(*) Ce tableau avait dj t considr par C. Burt cf supra 2.4.6.


32 J- P. BENZECRI

catalyseurs trs actifs mais de masse infime, c'est plutt situer des
qualits sur une chelle ordinale o sont marqus quelques repres :
moyenne normale, seuils pathologiques etc. On peut rejoindre le modle
bipolaire grce au codage par rang tudi par L. Lebart : soit I un en-
semble d'individus (constituant un chantillon satisfaisant pour l'tu-
de en vue) ; Card I (nombre des individus) = N ; Q, un ensemble de qua-
lits ordinales ; on notera k(i,q ) = rang de l'individu i au sein de I
sur l'chelle de la qualit q ; k(i,q~) = N-k(i,q ) . On peut encore
partager l'intervalle de variation de chaque qualit ordinale en autant
d'intervalles que le spcialiste estime devoir distinguer de niveaux ;
par exemple cinq : trs fort, fort, moyen, faible, trs faible : et l'on
rejoint alors strictement la forme disjonctive complte. Le premier
exemple d'un tel codage fut prsent par J. P. Nakache au colloque de
Marseille (Septembre 1970) pour l'analyse de donnes biologiques. Cette
reprsentation des donnes nous parut d'abord abusive : selon nous, il
eut t prfrable de donner au moins des valeurs continues aux nombres
inscrits dans les colonnes affectes une seule qualit. Par exemple
lorsqu'un individu se trouve entre moyen et fort, lui donner des zros
dans les colonnes des autres modalits ; mais partager sa note entre
celles-l :0,4 dans moyen, et 0,6 dans fort s'il est plutt fort, etc..
Arrondir ainsi les angles augmente certes la prcision du codage ; mais
carte de la forme disjonctive complte, dont l'tude par L. Lebart
s'est rvle si fconde (cf CBin. Mult.] , ce cahier pp 55 sqq). L'ini-
tiative de Nakache fut d'autant plus heureuse qu'en 1970 les analyses
de questionnaires dbutaient seulement. Depuis lors les donnes les
plus diverses, les plus htrognes ont reu grce au codage sous for-
me disjonctive complte un format acceptable pour l'analyse. Ainsi nous
nous trouvons analyser- efficacement des tableaux de donnes qu'en toute
rigueur mthodologique nous prfrerions voir brls parce qu'ils man-
quent la rgle d'homognit et d'exhaustivit rgle que nous rpte-
rons ainsi (cf 3.7.1) : faire du rel une coupe bien choisie, et y
regarder comme en un miroir, toute la structure.

3.7.5 Grandeur* algbrique* : Le programme d'analyse des correspon-


dances requiert un tableau de nombres positifs (quelques nombres nga-
tifs n'interdisent toutefois pas le calcul des facteurs, pourvu que la
somme de toute ligne et de toute colonne reste positive) : que faire
des grandeurs affectes d'un signe? Dans la pratique, le cas n'est pas
si frquent qu'on le croirait a priori. Les grandeurs additives exten-
sives (dnombrements, peses etc..., cf 3.7.2) sont essentiellement
positives ; quand, en un certain sens, deux quantits s'opposent, par
exemple les exportations et les importations, il ne convient pas d'en
faire la somme algbrique : on doit les compter sur des colonnes dis-
tinctes : laisser apparatre tous les postes du bilan. Les variables
logiques (cf 3.7.3) sont le mieux codes par les deux nombres 0 et 1
dont aucun n'est ngatif. Les grandeurs intensives repres sur un in-
tervalle bipolaire (cf 3.7.4) ne sont pas rapportes un centre et
mesures par des nombres algbriques (positifs droite de l'origine,
ngatifs gauche) mais rapportes aux deux extrmits, aux deux ples ;
les distances de ceux-ci fournissant les deux notes complmentaires
k(i,q ) , k(i,q ) ; il est galement commun de traiter ces sortes de
donnes sans ddoublement, comme des grandeurs centres, par l'analyse
en composantes principales : nous reviendrons au 3.8.4 sur la compa-
raison des deux mthodes : disons tout de suite que les rsultats dif-
frent assez peu : F. Nakhl (Thse 1973 ; publie dans les Cahiers
Ca I ns 3 & 4) a montr que les facteurs issus de l'analyse de corres-
pondance d'un tableau n variables ddoubles (tableau donc 2n co-
lonnes) peuvent tre calculs par diagonalisation d'une matrice n x n
(comme pour le tableau n colonnes que considre l'analyse, en compo-
santes principales ; la distance carre entre deux individus restant
une combinaison des carrs des diffrences de leurs notes mais affec-
ts de coefficients) ; et il a crit cet effet un programme spcial.
Cependant le codage logique sous forme disjonctive complte reste
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 33

toujours possible, et il est le meilleur si parmi un ensemble de varia-


bles soit extensives, soit qualitatives,, il se rencontre une seule gran-
deur vectorielle ; par exemple, pour le vecteur vitesse du vent on d-
coupera le plan en cinq zones : vent faible, fort vent du nord, fort
vent d'est etc...; ou en un plus g"rand nombre de zones choisies aprs
examen de l'histogramme bidimensionnel du vecteur vent. De mme, si les
trajectoires des particules produites dans des ractions haute ner-
gie sont repres non par leurs impacts dans une suite de plans parall-
les, mais par un systme de dtecteurs dont la configuration est comple-
xe, il faudra analyser les donnes aprs un codage qui traite chaque
dtecteur comme une question q avec pour ensemble J des rponses d'une
part l'absence d'impact (si la trajectoire n'a pas rencontr de dtec-
teur) d'autre part des cellules se partageant la surface du dtecteur.
3.7.6 Donne* manquante* : Les tableaux proposs aux statisticiens
prsentent souvent des lacunes : si celles-ci ne sont ni frquentes ni
systmatiques, on pourra les combler avec une prcision suffisante pour
que l'analyse soit fructueuse. Cette compltion des donnes est une sor-
te de codage, c'est pourquoi nous la prsentons ici. Une mthode bien
connue aujourd'hui aprs les travaux de F. Mutombo, Ch. Nora, B. Tallur,
consiste en bref utiliser la formule de reconstitution des donnes en
fonction des facteurs pour des approximations successives : les facteurs
obtenues par analyse du n e tableau servant combler les vides pour obte-
nir le tableau de rang n + 1.
3. i L interprtation :
Le point de vue original de l'analyse des correspondances est l'-
tude d'un nuage de points N(i) (resp. N(J)) dans un espace euclidien : au
centre des masses du nuage N(I) des profils f_ (des divers lments
i de I) est le profil moyen fj (ou profil marginal). L'analyse factori-
elle construit un systme ordonn d'axes orthonorms (les axes factori-
els) issus du'centre f,- Les facteurs F^fi) sont les coordonnes du
point i (des profils fj ) projets sur ces nouveaux axes. Dans ce ca-
dre gomtrique, il est facile de dfinir de nouvelles notions qui ai-
dent l'interprtation ( 3.8.1 & 3.8.4) ; de corroborer celle-ci par
la classification automatique ( 3.8.3) ; de faire servir la mthode in-
ductive des problmes qui comme ceux de la rgression et de la discri-
mination ( 3.8.2) ont t initialement rsolus par ajustement aux don-
nes d'une structure a priori.
3.&.1 Elment* *upplmentalre* : Tout autre profil f ^ que ceux
des lments i de I peut aussi tre projet sur les axes factoriels ;
on peut donc calculer des facteurs pour un individu s qui n'a pas t
d'abord pris en compte dans la dtermination des axes : c'est ce qu'on
appelle un lment supplmentaire. L'introduction des lments suppl-
mentaires permet de placer sur les graphiques issus de l'analyse d'un
chantillon I reprsentatif de la population laquelle on s'intresse
(e.g. les malades atteints d'une affection hpatique), un sujet nouveau
s qui se trouvera entour d'individus i qui lui ressemblent, et d'aprs
lesquels le cas de s pourra tre mieux compris : c'est l le principe
d'une nouvelle mthode de rgression (cf 3.8.2). On traitera encore
en lments supplmentaires les centres de gravit de certaines classes
d'individus ; ainsi qu'un individu, une variable dont les mesures (li-
gne ou colonne) semblent soit entaches d'erreurs, soit quelque peu ex-
centriques relativement au domaine principal de l'tude et menacent de
perturber l'analyse, ou l'ont effectivement perturbe dans un premier
essai. La mise en lment supplmentaire est trs simple dans son prin-
cipe ; mais elle n'est entre dans le programme d'analyse des corres-
pondances qu'en 1967 par un sous-programme d Fr. Friant.
34 J. P. BENZECRI

3. S. 2 Rgre**lon et dl*crlmlnatlon : En rgression les donnes sont


scindes en deux blocs : d'une part la variable expliquer ; de l'au-
tre les variables explicatives ; et l'on cherche une formule (d'un type
algbrique plus ou moins clairement fix a priori) exprimant la premire
en fonction des dernires. La discrimination ( 2.3.5) n'est qu'un cas
particulier (de la rgression) o la variable expliquer prend ses va-
leurs dans un ensemble essentiellement fini (e.g. un ensemble de trois
affections hpatiques ; qu'on doit distinguer d'aprs les variables bio-
logiques explicatives). Mthode inductive (cf 3.2.1), l'analyse des
correspondances vise au contraire extraire des facteurs qui rvlent
et expriment mathmatiquement des qualits non directement mesurables ;
elle reoit sa confirmation en retrouvant au passage des variables ab-
sentes du tableau des donnes mais explicitement connues par ailleurs.
Souvent l'analyse d'un tableau de correspondance offrant un certain
niveau une reprsentation exhaustive et homogne d'un domaine naturel
(cf 3.7.1) a fourni directement en facteur une variable expliquer
(ainsi l'analyse d'une matrice de confusion entre signaux du code Morse
range sur le 1 axe ces signaux dans l'ordre de leur dure) ; ou spar
dans le plan des axes 1 x 2 (ou l'espace 1x2x3) deux sous-nuages qu'il
fallait distinguer (cf Danech-Pajouh, 1972 ; T. Moussa, 1972 ; et au
2.3.5 l'exemple du genre Iris). Mais l'analyse d'un tableau de corres-
pondance croisant variable expliquer et variables explicatives (mises
sous forme disjonctive complte) s'est rvle trs utile . Soit donc I
l'ensemble des modalits de la variable expliquer (pour une variable
continue y , ces modalits pourront tre dix intervalles successifs en
lesquels est partag son intervalle global de variation) ; J = u {JJqe Q},
l'ensemble des modalits de toutes les variables explicatives (Q dsi-
gne l'ensemble de ces variables ; et J est l'ensemble des modalits de
la variable q ; cf 3 .7 .3 ) ; C l'ensemble des cas : par cas, c, on en-
tend un individu, (ou une situation individuelle) pour lequel on a si-
multanment dtermin la variable expliquer, et l'ensemble Q des va-
riables explicatives. On soumet d'abord l'analyse des correspondances
le tableau k T J de cooccurrences des modalits : k(i,j) = nombre de cas
o ont t associes la modalit i de la variable expliquer et la mo-
dalit j d'une des variables explicatives. Au tableau k_T , chaque cas c
fournit une ligne supplmentaire : k(c,j) = 1 si la modalit j appar-
tient la description de c, zro sinon ; ce qui permet d'tendre C
les facteurs fa issus de k IJT T , et de r
placer C avec I et J dans les dia-
grammes plans (e.g. plan des axes 1 et 2) , ou les sous-espaces propres
(e.g. sous-espace engendr par les axes 1,2,3 ; etc.).Ceci fait, dans
la mesure o les variables explicatives apportent 1'information nces-
saire, on aura gnralement une bonne approximation de la variable
expliquer (variable continue y) par une combinaison linaire des fac-
teurs F (c) (ce qui revient une rgression linaire usuelle avec,
pour variables explicatives, ces facteurs) . Au prix d'un temps de cal-
cul plus long (mais praticable) on aura des rsultats plus prcis grce
ce qu'on appelle la rgression par boule. Soit s un cas nouveau pour
lequel ne sont connues que les variables explicatives, d'o une ligne
{k(s,j) |j e J}, permettant de calculer les facteurs F (s) ; plaons s
dans le plan 1 x 2 (ou dans l'espace 1x2x3...) on peut trier les 20
(ou 10) cas c (de C) qui dans ce plan sont les plus proches de s (sont
contenus dans le voisinage ou boule de centre s) et calculer sur l'en-
semble de ces cas la moyenne et l'cart-type de la variable y(c), d'o
la fois une estimation de y (s) et un ordre de grandeur de l'erreur
commise. Si comme dans les problmes de discrimination la variable
expliquer est une variable discrte, e.g. a trois modalits i.. , i 2 , i_ ,
on comptera dans la boule p cas c relevant de la modalit i , p- de i,
et p 3 de i_ (avec p + p 2 + p. = 20) et on dira que s peut tre rattach
aux classes i, , i 2 , i- avec les probabilits respectives (p,/20),
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 35

(p2/20),(p^/20). Ainsi la rgression ou discrimination par boule four-


nit une estimation de la probabilit des causes ; c'est pourquoi on par-
le encore parfois de rgression Bayesienne (cf 2.3.3). La premire a-
nalyse d'un tableau k__ croisant les modalits de la variable expli-
quer et celles des variables explicatives fut faite par M. G. Caraux
dans une tude agronomique (rendement de la culture du riz en Casamance
- Sngal ; 1971) ; la rgression par boule a t applique d'abord par
J. P. Bordet dans l'tude de la densit de. la trs haute atmosphre
l'altitude o circulent les satellites artificiels (Thse:1973) ; le
programme en usage au laboratoire est d M. O. Lebeaux (Thse :1974 ;
la notice de ce programme sera publie dans le prochain cahier et une appli-
cation en est donne par C. Sabaton : cf ce cahier p 79-96 et le cahier suivant).
3. %. 3 Cla**l&lcatlon automatique : Revenons aux mthodes inducti-
ves : nous avons dit que dans un sous-espace propre (plan 1 x 2 ; espace
1 x 2 x 3 etc) issu de l'analyse d'un tableau de correspondance k T T ,
l'ensemble I pouvait apparatre partag en des classes connues avant
l'analyse, mais dont la composition n'tait pas explicitement note au ta-
bleau k__. Ici il apparat utile de conjuguer l'analyse de correspondan-
ce avec une autre mthode inductive visant fournir non une reprsenta-
- tion spatiale mais une classification. Le programme de classification
que nous utilisons communment aujourd'hui est d M. Jambu : son prin-
cipe, la mthode ascendante hirarchique (en bref : runir d'abord les
deux individus les plus proches ; puis s'lever en constituant des clas-
ses nouvelles par runion, on dit encore agrgation, de deux classes ou
individus prexistants) est bien connue des taxinomistes (cf e.g. Sokal
& Sneath : Numerical Taxonomy; signalons toutefois qu'un perfectionne-
ment rcent d M. Bruynooghe a grandement acclr l'algorithme) ; il
admet de multiples variantes diffrant par le critre d'agrgation choi-
si. La plus utilise est l'agrgation suivant la variance avec pour dis-
2
tance celle du x ; le critre trs classique n'est autre que la maxi-
misation de la variance interclasse (de la dispersion du nuage des cen-
tres des classes), avec minimisation simultane de la variance intra-
classe (i.e. intrieure aux classes). Du fait de la distance choisie
(cf 3.2.3) la mthode se conjugue bien avec l'analyse de correspon-
dance : il est notamment possible de donner de la variance totale du
nuage N (1) (reprsentant l'ensemble I classer) une double dcomposi-
tion suivant les noeuds de la classification et les axes de l'analyse
factorielle, qui permet de conjuguer interprtation des axes et inter-
prtation des facteurs (cf M. Sadaka Thse 1974 ; et M. Jambu, program-
me version 1975 publi dans ces Cahiers : Ca I n 1 pp 77-93) . C'est l
une gnralisation de la notion de contribution, utilise depuis 1969
en analyse de correspondance, et que nous exposons ci-dessous. Ainsi
les formules de dcomposition de l'inertie associes au grand nom de
Huyghens, et entres dans la statistique par l'analyse de la variance
( 2.3.4) servent l'analyse inductive des donnes.
2
3. S. 4 Calcul* de contribution : Notons p (i) le carr de la distance
(distance du x ) du profil fj de l'lment i, au centre f_ du nuage
N (I) : p (i) = "f T - f'' . On sait que l'inertie totale du nuage, ou
trace Tr = A., + \~ + est la somme {f. p (i)| i e l } : donc dans
l'inertie totale du nuage l'lment i a une part f. p (i)/Tr. De mme
sur un axe on a: A = l{f. F (i) [ i e 1} :f. F (i) est la contribution de
i la valeur propre A (ou en bref l'axe a). On sait encore que
2 2 2
p (i) = F1 (i) +...+ F (i) + ... : l'cart de i au centre, au profil
moyen, est une somme de termes affrents aux facteurs successifs et
2 2
dont l'importance relative est FQ(i)/p (i), quotient qui n'est autre
36 7- P* BENZECRI

que le carr du cosinus de l'angle form par l'axe a avec le vecteur


joignant fj au centre fj. Il est essentiel d'avoir en vue ces diverses
proportions quand on interprte et critique les rsultats d'une analyse
2
factorielle. Si par exemple f. F (i) = A /3 l'lment i fait lui seul
un tiers du facteur a : il est vraisemblable que ce facteur est insta-
ble, qu'il disparatra ou sera grandement perturb si i est supprim
du tableau (ou mis en lment supplmentaire ; ce qu'on devra exprimen-
ter) . Au contraire si F (i) est trs lev mais que le produit f. F2(i)
est petit relativement A a , i bien que trs en vue sur l'axe a ne
joue aucun rle dans la constitution de celui-ci.
2
De plus si F a (i) est lev relativement aux valeurs prises par
ce mme facteur a pour les autres lments de I, mais faible relative-
2 2
ment p (i) (parce que la part prpondrante de p (i) appartient un
autre facteur Fg) le caractre principal de l'lment i ne sera pas ex-
prim par le facteur a (mais par le facteur 3). Comme la mise en lment
supplmentaire, le calcul des contributions repose sur des principes
gomtriques bien connus et le programme en est simple ; mais l'usage
ne s'en est introduit que vers 1969 ; voici comment.
Depuis 1968, M. O. Lebeaux analysait les donnes recueillies par
Madame L. de Bonis pour une thse de psychologie. Des tableaux de gran-
deurs intensives bipolaires (comme nous les avons appeles au 3.7.4)
taient simultanment analyss sans ddoublement, par l'analyse en com-
posantes principales et avec ddoublement par l'analyse des correspon-
dances (aujourd'hui nous prfrerions analyser ces donnes aprs coda-
ge par classe ; en attribuant, par exemple 4 colonnes, 4 niveaux cha-
cune des variables : les diagrammes obtenus ainsi rvlent plus de nu-
ances que ne le peuvent faire l'analyse en composantes principales, ou
l'analyse du tableau ddoubl ; mais pour qu'il soit permis de multi-
plier les colonnes, il faut que l'chantillon des individus ait un ef-
fectif assez lev ; e.g. OO) . Dans l'ensemble les rsultats concor-
daient (une comparaison prcise des deux mthodes peut se faire d'aprs
la thse de F. Nakhl : cf Ca I n 3 pp 243 sqq) ; mais sur un axe issu
de l'analyse de correspondance apparaissait parfois en position excen-
trique des variables au profil trs contrast (c'est dire des colon-
nes dont les notes allaient du minimum au maximum possible ; disons de
O 1) dont pourtant la corrlation avec l'axe n'tait pas des plus
grandes. L'analyse en composante principale (cf 2.4.4) ne prsentait
pas ce phnomne parce que dans cette analyse les variables sont toutes
ramenes avoir pour variance 1, et que par consquent la caractris-
tique du lien entre une variable et un facteur appele saturation n'est
autre qu'un coefficient de corrlation (un cosinus, en terme gomtri-
que) dont la valeur absolue ne peut dpasser 1. En analyse de corres-
pondance on pouvait distinguer trois notions : le facteur G (j) (il est
d'usage de prendre la lettre G et non F pour un facteur sur le deuxime
ensemble : on crit F (i) , G (j)) ; le coefficient de corrlation G ^ H ) /
Ct Ci 9 Ci

p_(j) (ou mme son carr : le cos , contribution relative de l'axe


a l'lment j) ; et f. G a (j), contribution absolue de l'lment j
l'axe a ( la valeur propre A ) . Notions qui toutes trois ont leur rle
propre dans l'interprtation des rsultats et la critique de leur vali-
dit.
Les calculs de contribution ont en effet permis non seulement de
critiquer la stabilit et l'importance relative des rsultats d'analyse,
mais encore de pousser l'interprtation des facteurs au del du Sme ;
ce qui fut fait pour la premire fois dans le dpouillement d'une Etu-
de sur les conditions du dveloppement de la Colombie (TII c n 6 5.6)
en prenant pour indicateur du sixime facteur les lments (questions)
les plus corrls avec celui-ci et, de plus, peu corrls avec les
37
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES

facteurs prcdents. On conoit que pour chercher ces indicateurs parmi


un ensemble J qui peut compter plusieurs centaines d'lments, il soit
indispensable d'avoir une liste de toutes les contributions, lment
par lment ceux-ci tant rangs dans l'ordre de leur projection sur
l'axe qu'on considre (cf 3.9).
3. S.5 Stabilit et validit : Dans les tudes statistiques conues
pour rpondre une hypothse explicite, les preuves de validit ont
un rle essentiel (cf 2.2.3 & 2.2.6). En analyse des correspondances,
il n'y a d'autre hypothse a .priori que l'existence entre les deux en-
sembles I et J d'une liaison dont on cherche la structure. On a vu (cf
2
3.4.4) que l'preuve classique du x fournit une estimation de la part
significative de la trace ; donc un critre pour arrter le nombre des
facteurs significatifs. Mais d'une part cette preuve ne vaut que sous
la condition trs restrictive que le tableau analys dnombre des faits
indpendants entre eux ; d'autre part la pratique de l'analyse des cor-
respondances nous a convaincus qu'ordinairement l'interprtation s'enli-
se ou s'gare avant qu'on ait puis la part manifestement significati-
ve (i.e. non lie aux fluctuations) de la trace. C'est qu'il ne suffit
pas d'affirmer que la disposition de I et J dans l'espace rapport aux
3 premiers axes n'est pas due au hasard : il faut en comprendre le sens;
faire dans ce qu'on observe sur les graphiques (positions relatives des
points entre eux et avec les axes) la part de l'essentiel et celle du
contingent ; ne s'attacher qu' ce qui est stable. Or en analyse des
donnes, les fluctuations d'chantillonnage affectent non seulement les
nombres eux-mmes recencs dans le tableau, mais surtout le choix du
tableau lui-mme (cf 3.7.1) ; d'o le rle essentiel des calculs de
contribution ( 3.8.4). et des mises en lments supplmentaires (3.8.3)
pour critiquer la stabilit des rsultats qu'on a remarqus ; parfois l'ef-
fet de la suppression d'un lment peut tre major efficacement sans
refaire l'analyse : cf B. Le Roux et B. Escofier Ca I n 3 pp 297 sqq.
De plus, diverses preuves de simulation (modification ou permutation
alatoire de certaines donnes etc.) ont pu tre utilises avec fruit.
Pour ces recherches dues principalement L. Lebart (voir aussi T. Moussa,
thse 1972) nous renvoyons la leon [Epr. Val.] (TII B n 12).
3.9 Organl*atlon de* programme* :
Le premier programme crit par B. Cordier (Mme J. P. Escofier) sui-
vait les formules de la quatrime leon du cours de 1964 (cf 3.6.4).
L'analyse de correspondance est un cas particulier de recherche des a-
xes principaux d'inertie d'un nuage de points d'un espace euclidien ;
les coordonnes sur ces axes sont dfinies comme vecteurs propres de
l'application linaire m a (o m et a sont des tenseurs d'ordre 2, ou
matrices carres : m est la mtrique euclidienne ; et a est la forme
quadratique d'inertie du nuage). Le calcul des vecteurs propres se fai-
sait par itration pour le premier, itration et orthogonalisation pour
les suivants. La matrice m des coefficients de la mtrique tant diago-
nale, et a tant symtrique, le calcul des vecteurs propres aurait pu
tre rduit la diagonalisation d'une matrice carre symtrique (cf
TII B n 2 7.2), effectue par un sous-programme de bibliothque :
mais cette rduction n'tait pas faite. Dans la thse de B. Cordier,
le calcul des facteurs est fait d'abord pour l'un des ensembles (celui
qui requiert le moins de calculs) ; puis la formule de transition donne
les facteurs sur l'autre ensemble (cf 3.3.2).
De 1965 1969, F. Friant et P. Leroy perfectionnrent le program-
me de B. Cordier, notamment par le trac du nuage sur imprimante (gra-
phique plan o chaque point dsign par trois caractres, a pour abscis-
se et ordonne deux facteurs choisis ; e.g. le premier et le troisime),
et par un sous-programme de calcul des facteurs pour les lments sup-
plmentaires (traits comme ayant masse nulle : cf 3.8.1). En 1969
(cf 3.8.4) M. 0. Lebeaux ajouta les calculs de contributions et l'im-
pression pour chaque axe a de la liste des individus des deux ensembles
I et J rangs dans l'ordre du facteur a, avec sur la ligne affrente
38 J. P. BENZECRI

chaque individu tous les facteurs et contributions (et non seulement


ceux de rang a ) .
Cependant la recherche des vecteurs propres effectuait de spectacu-
laires progrs, grce Gi'vens, Golub, Householder, Reinsch etc. (cf
TII B n 12 4) . Ds 1971 J. Robert constate qu'un algorithme d
Golub & Reinsch fournit l'ensemble des facteurs issus d'un tableau rec-
tangulaire en 10 fois moins de temps qu'il n'en fallait pour calculer
les cinq premiers facteurs par des mthodes usuelles d'itration et or-
thogonal isation ! Le programme de J. Robert, complt et perfectionn
par F. Nicolau, est celui publi dans la premire dition du tome II du
Trait. Simultanment M. Reinert utilise le programme SYMQR, distribu
par IBM, pour calculer trs rapidement l'ensemble des facteurs par dia-
gonal isation d'un tableau carr symtrique. Puis J. P. Bordet conoit,
toujours autour de SYMQR, un programme d'analyse de correspondance qui
calcule la matrice diagonaliser sans qu'il soit ncessaire de tenir
en mmoire centrale l'ensemble des donnes, celles-ci pouvant tre pr-
sentes successivement par paquets partir d'une mmoire auxiliaire
d'accs rapide : ce programme peut traiter des tableaux dont le nombre
des lignes (cardinal de I) est arbitrairement grand (plusieurs milliers
si ncessaire) , tandis que la longueur de chaque ligne (le cardinal de
l'ensemble J) peut atteindre e.g. 200. Depuis 1974, le laboratoire uti-
lise un programme de ce type (i.e. avec diagonal isation par SYMQR ; et
introduction squentielle des donnes) crit par N. Tabet, dont les per-
formances sont remarquables ; ce programme comporte de plus des sorties
graphiques perfectionnes (notamment pour dplacer les points qui, ayant
des coordonnes voisines, seraient si l'on n'y prenait garde, perdues
ou imprimes en surcharge ! ) . Il est dans la deuxime dition du Trait,
substitu au programme fond sur l'algorithme de Golub & Reinsch.
Dsormais grce aux progrs effectus depuis dix ans par le calcul
numrique et le calcul lectronique, un laboratoire qui a accs un
grand centre de calcul peut traiter par l'analyse des correspondances
en un temps acceptable (e.g. quelques minutes) les plus grands.tableaux
auxquels il soit raisonnable de s'intresser (e.g. 200x5000) compte te-
nu des difficults de la collecte des donnes trs tendues et aussi
de leur interprtation, mme aprs rduction par le calcul. Pour la
plupart, les praticiens ne sont pas encore avertis de cette puissance
du calcul : dans la laborieuse collecte des donnes, ils mutilent sou-
vent celles-ci par des simplifications ou des omissions souvent irrm-
diables, en vue de renfermer le tableau dans un cadre troit qu'ils
croient tre exig par le calcul. Il faut toutefois reconnatre que
certains questionnaires aprs codage sous forme disjonctive complte
peuvent comporter quelque 500 colonnes ; ce qui sans tre prohibitif
est fort lourd traiter ! Aussi est-il trs intressant que la voie
soit ouverte l'analyse des plus grands tableaux mme sur ordinateur
de petite capacit, grce l'approximation stochastique.

Cette mthode propose en 1967 (cf J. P. BENZECRI : Approximation


stochastique dans une algbre norme non commutative ; in Bull. Soc.
Math. France ; T 97 ; pp 225-241 ; 1969) calcule les premiers facteurs
jusqu' un rang choisi (d'abord sur l'ensemble J de plus faible effec-
tif ; puis sur l'autre par transition) sans requrir le calcul explici-
te d'une matrice diagonaliser. Les lignes du tableau, introduites
d'une mmoire auxiliaire, une une ( ou plutt par paquets aussi gros
que le permet l'espace libre en mmoire centrale) sont successivement
utilises pour retoucher l'approximation des facteurs ; gnralement
le tableau doit tre lu plusieurs fois avant stabilisation des rsul-
tats. Le programme tant trs simple seul le tableau des facteurs en
cours de calcul (tableau en deux tats ; afin qu'on puisse suivre les
fluctuations et noter la stabilisation) occupe en permanence la mmoi-
re centrale : une mmoire de 32K suffit donc aux plus grands tableaux
analyss jusqu'ici. Aprs un premier programme d J. P. Fnelon et
expriment par M. Roux, la mthode fait l'objet de recherches de L.
Lebart et N. Tabet ; les calculs sont trs rapides et
HISTOIRE ET PREHISTOIRE DE L'ANALYSE DES DONNEES 39

gnralement satisfaisants ; un point dlicat est d'assurer le contrle


de la convergence (qui se ralise toujours, de par la thorie ; mais
dans la pratique requiert un nombre variable de lectures du tableau)
pour les tableaux de tout type. Prsentement (en 1975) L. Lebart rali-
se les analyses de questionnaire mis sous forme disjonctive complte
(cf 6 3.7.3) en cinq lectures du tableau brut des rponses ; l'clate-
ment logique des variables tant fait avec l'approximation stochastique ;
ce qui acclre encore le programme. Outre que la mthode est trs co-
nomique, il est frappant que dans l'ordinateur on aboutisse aux facteurs
aprs des fluctuations successives, chaque ligne nouvelle apportant une
retouche ; comme dans notre esprit, chaque fait nouveau corrige la vi-
sion synthtique que nous nous tions forms d'un domaine. A nous, cette
analogie ne suggre pas que l'ordinateur soit pourvu d'intelligence ni
que nous en soyons dpourvus ; c'est plutt que l'ordinateur conduit par
notre intelligence, est un outil mental(*) qui la sert aprs notre cer-
veau.

Enfin certains algorithmes servant l'analyse des correspondances


font l'objet de programmes spars. Ainsi nous avons cit le programme
de A.W. Hamrouni (modifi par Y. Grelet) pour calculer les pondrations
relatives de deux tableaux IxJ. et I x J 2 juxtaposs ( 3.7.1), l'analy-
se faite par F. Nakhl des tableaux ddoubls ( 3.7.5) ; la reconsti-
tution des donnes manquantes ( 3.7.6). Citons encore l'ajustement
d'ellipses de garde un sous-nuage (J. P. Bordet) ; diverses preuves
de validit ralises par simulation (L. Lebart ; cf [Epr. Val.] TII C
n 8) . Et rappelons que le laboratoire utilise en classification hirar-
chique (cf 3.8.3) un programme de M. Jambu, riche en nombreuses vari-
antes quant au calcul des distances et au critre d'agrgation des clas-
ses.
De 1963 1965 les premires analyses de correspondance furent fai-
tes Rennes par B. Cordier : et l'on n'en faisait point ailleurs. A
partir de 1965, des paquets de cartes dposs dans tel laboratoire de
calcul accueillant (nous pensons particulirement celui du Professeur
Laudet Toulouse) ou confis des tudiants chaque anne plus nom-
breux, ont servi sans que nous sachions qui ou quoi. Nous mmes,
bien que convaincus que seuls mritent analyse les tableaux de contingen-
ce recueillis sur une base homogne et exhaustive (cf 3.7.1), en som-
mes venus traiter des donnes qu'en toute rigueur mthodologique,
nous prfrerions voir brles (cf 3.7.4) I L'analyse des correspondan-
ces est une mthode ; elle est aussi un outil. A la philosophie de la
mthode l'outil doit son efficacit ; mais, marteau sans matre, celui-
ci frappe dsormais librement. En nous appliquant instruire des sta-
tisticiens philosophes, nous esprons au moins servir ceux qui saisis-
sent l'outil pour dgager de la gangue des donnes le pur diamant de la
vridique Nature.

(*) Le terme nous vient d'un auteur russe G.N. Povarov dont nous avons
traduit la remarquable prface la traduction publie Moscou
d'un ouvrage de E.C. Berkeley : Symbolic logic and intelligent ma-
chines.
40 J. P." BENZECRI

Bibliographie Gnrale

Cette bibliographie ne comprend pas tous les livres et articles


que nous avons cits ; mais seulement quelques rfrences des sources
assez facilement accessibles pour l'histoire des probabilits et des
statistiques.

BERTRAND Calcul des probabilits ; GAUTHIER-VILLARS ; Paris ;


I e d. 1889 ; 2 d., conforme la premire, (1907).
Une troisime dition est actuellement disponible
chez Chelsea, N.-Y. .

E. BOREL Le Hasard ; 1 d. 1914 nouvelle dition refondue


P.U.F. Paris 1948 ;

BOREL Oeuvres : quatre volumes ; C.N.R.S. Paris (1972)


R.A. FISHER Constributions to Mathematical Statistics : antholo-
gie d'articles ; J. WILEY & SONS, INC ; CHAPMAN &
HALL Ltd. (Londres) ; N.-Y. (1950).
R.A. FISHER : Collected Papers : edited by J.H. BENETT ; The Uni-
versity of Adlade ; T 1 (1971) ; T 2 (1972) ; ... .
B.V. GNEDENKO : Kypc TeopHH BepOHTHocTeH ; Moscou, Leningrad ;
(1950) ; cet ouvrage a t traduit en plusieurs lan-
gues .
P.S. LAPLACE Essai philosophique sur les probabilits; d'aprs
une leon professe aux coles normales ; sert d'in-
troduction au suivant volume ; a t rdit seul
par GAUTHIER-VILLARS ; Paris (1921).

P.S. LAPLACE Thorie analytique des probabilits ; 1 d. 1812 ;


3 d. 1820 (avec supplment de 1825) ; la dernire
faite par l'Auteur ; et Oeuvres compltes, Tome 7 ;
GAUTHIER-VILLARS ; Paris ; (1886).
E.S. PEARSON & M.G. KENDALL : Studies in the History of Statistics
and Probability ; recueil rassembl par E.S. P. &
M.G. K. d'articles historiques de divers auteurs pa-
rus de 1906 1968 dans Biometrika ; Charles GRIFFIN
& Co Ltd ; Londres ; (1970).
K. PEARSON : A notre commaissance, il n'a pas t publi de re-
cueil de ses oeuvres ; on pourra consulter divers
priodiques, principalement Biometrika dont K. PEAR-
SON a dirig la rdaction de 1901 (fondation) jus-
qu' 1936 (mort de K. P.).
H. POINCARE : Calcul des Probabilits ; leons professes pendant
le deuxime semestre 1893-1894 ; rdiges par
A. QUIQUET ; GAUTHIER-VILLARS ; Paris ; (1896).
I. TODHUNTER : History of the Mathematical Theory of Probability ;
1 d. ; (1865).

Vous aimerez peut-être aussi