Vous êtes sur la page 1sur 220

Histoire de l'automatisation des sciences du

langage
History of the computerization of the language sciences

Jacqueline Léon

Éditeur : ENS Éditions


Lieu d'édition : Lyon Édition imprimée
Année d'édition : 2015 Date de publication : 27 mars 2015
Date de mise en ligne : 27 mars 2015 ISBN : 9782847886535
Collection : Langages Nombre de pages : 218
ISBN électronique : 9782847886801

Ce document vous est offert par


Bibliothèque Diderot de Lyon, avec le
soutien de l'Université Numérique en
Région Rhône-Alpes

http://books.openedition.org

Référence électronique
LÉON, Jacqueline. Histoire de l'automatisation des sciences du langage. Nouvelle édition [en ligne]. Lyon :
ENS Éditions, 2015 (généré le 01 avril 2015). Disponible sur Internet : <http://books.openedition.org/
enseditions/3733>. ISBN : 9782847886801.

Ce document est un fac-similé de l'édition imprimée.

© ENS Éditions, 2015


Conditions d’utilisation :
http://www.openedition.org/6540
Collection l ang ages

dirigée par Bernard Colombat et Cécile Van den Avenne


sé r i e h i sto i r e d e s r é f l e x i o n s su r l e l a n g ag e et l e s l a n g u e s
l angages

Histoire de l’automatisation
des sciences du langage
Jacqueline Léon

ENS ÉDITIONS
2015
Cet ouvrage a été publié avec le soutien du
Labex EFL (Fondements empiriques de la linguistique),
Université Sorbonne Paris Cité

Éléments de catalogage avant publication

Histoire de l’automatisation des sciences du langage / Jacqueline Léon. – Lyon : ENS Éditions,
impr. 2015. – 1 vol. (218 p.) ; 23 cm. – (Langages, ISSN 1285-6096)
Notes bibliogr. Index
isbn 978-2-84788-653-5 : 19 eur

Tous droits de représentation, de traduction et d’adaptation réservés pour tous pays. Toute repré­sentation ou
reproduction intégrale ou partielle faite par quelque procédé que ce soit, sans le consentement de l’éditeur, est illi-
cite et constitue une contrefaçon. Les copies ou reproductions destinées à une utilisation collective sont interdites.

© ENS ÉDITIONS 2015
École normale supérieure de Lyon
15 parvis René Descartes
BP 7000
69342 Lyon cedex 07
isbn 978-2-84788-653-5


Introduction1

L’automatisation des sciences du langage2 commence avec les premières expé-


riences de traduction automatique (désormais TA) entreprises à la fin de la
seconde guerre mondiale, en 1948-1949 aux États-Unis et en Grande-Bretagne. On
parlera de « tournant de l’automatisation »3 ; même s’il caractérise la façon dont
les linguistes ont adopté ou intégré les concepts ou les méthodes de l’infor­matique
et/ou des mathématiques, ce tournant comporte des traits qui lui confèrent un
statut tout à fait spécifique. Il se caractérise d’abord par l’apparition brutale d’un
ensemble de concepts, méthodes et pratiques totalement nouveaux, qui n’appar-
tenait pas à l’« horizon de rétrospection » (Auroux 1987, 2007) des linguistes et
des sciences du langage.
Parce que c’est un phénomène social (et non biologique), l’activité scientifique est
impossible sans transmission du savoir, sans le fonctionnement institutionnel des
formations, du cumul des connaissances (par exemple sans bibliothèque), et sans la
mémoire individuelle. Le texte scientifique comprend essentiellement deux types
d’expressions. Les unes font référence au seul domaine des phénomènes, ­manipulés

1 Je tiens à remercier les relecteurs d’ENS Éditions pour leurs très précieuses remarques qui ont
beaucoup contribué à l’amélioration de cet ouvrage.
2 Cet ouvrage est une synthèse de travaux menés entre 1997 et 2010 sur l’automatisation du langage.
Il est issu d’un mémoire d’habilitation à diriger des recherches soutenue en décembre 2010.
Certains chapitres sont originaux, d’autres reprennent partiellement des articles déjà parus et
figurant dans la bibliographie.
3 Voir Rorty (1967) The Linguistic Turn sur la méthode philosophique et l’attention portée à
l’importance du langage dans la formulation des questions philosophiques.

Introduction 5
à l’aide de concepts appartenant à la connaissance commune et/ou produits par
l’énonciateur. Les autres font référence à d’autres travaux, par définition antérieurs.
Nommons horizon de rétrospection HR, cet ensemble de références […] la structure
de l’horizon de rétrospection est une cause dans la production momentanée de la
recherche […] Mais à l’inverse, la structure du système scientifique détermine celle
des horizons de rétrospection. (Auroux 1987, p. 29)
Ce nouvel horizon de rétrospection est instauré par une technologie, la tra-
duction automatique, issue des sciences de la guerre (Dahan et Pestre 2004).
Celles-ci, caractérisées par l’interaction entre sciences de l’ingénieur et sciences
fondamentales, comprennent notamment les mathématiques, la logique, la phy-
sique, les neurosciences, l’acoustique, et les sciences nouvellement apparues que
sont la cybernétique et la théorie de l’information. La linguistique, notons-le, ne
fait pas partie des sciences de la guerre. Développées essentiellement au MIT, les
sciences de la guerre ont permis l’élaboration de technologies de pointe comme
les radars, les systèmes de défense antiaérienne et les ordinateurs, puis, après-
guerre, la traduction automatique.
Le tournant de l’automatisation du langage se divise en deux temps. La TA,
tout en instaurant un nouvel horizon de rétrospection, projette un avenir, un hori-
zon de projection, pour les sciences du langage.
Parce qu’il est limité, l’acte de savoir possède par définition une épaisseur tempo-
relle, un horizon de rétrospection, aussi bien qu’un horizon de projection. (Auroux
1995, p. 49)
C’est la linguistique computationnelle et le programme chomskyen qui vont
constituer cet horizon de projection, anticipant l’avenir de l’automatisation-
mathématisation du langage ainsi instituée.
Cette période d’une quinzaine d’années (1948-1966), entre le début des pre-
mières expériences de TA et la mise en place de la linguistique computation-
nelle, peut être considérée comme un véritable événement 4, constitutif du tour-
nant de l’automatisation.
Le tournant de l’automatisation est associé à la seconde mathématisation
du langage. La première mathématisation du langage, qui a eu lieu dans les
années 1930, avec la formalisation proposée par l’École de Vienne, et en particu-
lier Carnap, comme horizon commun à toutes les sciences, instituait les mathé-
matiques comme un langage parmi d’autres. La première mathématisation du lan-

4 « Événement » est utilisé ici au sens d’événement historique, qui, lorsqu’il arrive, a une impor-
tance sur le cours des choses. Il apporte quelque chose de nouveau qui servira de référence
pour un groupe social ou une communauté scientifique donnée. Il est donc susceptible d’une
mise en récit.

6 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
gage se caractérise par la mise en interaction d’algorithmes et de langages formels
issus de la logique mathématique. La seconde mathématisation mise en place
grâce à la TA institue un domaine faisant l’interface entre l’analyse syntaxique, les
langages formels et la programmation. Les algorithmes abstraits de la première
mathématisation s’inscrivent dans la seconde mathématisation, dans l’­espace et
le temps de la programmation sur ordinateur. C’est pourquoi on appellera cette
dernière automatisation-mathématisation.
Ce second tournant, automatisé, de la mathématisation du langage a com-
mencé par la mise en œuvre de méthodes d’analyse syntaxique pour la TA, avant
de s’imposer comme domaine de recherche autonome et institutionnalisé. On
peut avancer que c’est grâce à la TA, c’est-à-dire grâce à la nécessité stratégique
de produire des traductions rentables en série, que les langages formels, ancrés
dans le développement de la logique mathématique des années 1930-1940, se sont
investis dans des algorithmes d’analyse syntaxique qui ont déterminé l’essor des
grammaires formelles, notamment celles de Chomsky.
Ce tournant de l’automatisation est marqué au départ par un paradoxe, à
savoir que, bien que la traduction automatique implique le traitement (auto-
matique) des langues, la linguistique ne fait pas partie des sciences de la guerre5.
Ainsi, pour les sciences du langage, le nouvel horizon ne serait pas le produit de
l’annulation d’un horizon antérieur (Auroux 1987). Il est entièrement nouveau
et constitué de façon externe. Mais, parce que la traduction automatique, et à sa
suite la linguistique computationnelle, sont avant tout aussi affaire de traitement
des langues, ce champ nouveau s’impose aux sciences du langage et interrompt
le (ou les) processus cumulatifs en cours, qui vont devoir l’intégrer ou dans les-
quels elles vont devoir s’intégrer. Au premier moment de l’événement constitu-
tif du nouvel horizon de rétrospection va succéder un mouvement d’intégration.

Un deuxième moment-clé de l’automatisation du langage peut être identifié


dans les années 1990, lorsque la puissance des ordinateurs va permettre de trai-
ter des données textuelles en nombre et que la mise à disposition des micro-­
ordinateurs va conduire les linguistes à utiliser des données informatisées et
de nouveaux outils linguistiques. Ce second tournant, qu’on pourrait qualifier
de « corpus turn », a cependant des caractéristiques bien différentes du premier
tournant constitué par la TA et la linguistique computationnelle. Contraire-
ment à celui-ci, l’utilisation des corpus s’inscrit dans la continuité. Elle permet
de mettre en œuvre des hypothèses appartenant à des courants des sciences du

5 Martin Joos, ingénieur acousticien et phonéticien, fait exception. C’est probablement le seul
linguiste ayant eu une activité dans les sciences de la guerre (voir chapitre 3, § 2.1).

Introduction 7
langage ­antérieurs au premier tournant de l’automatisation, ou de renouer avec
des méthodes apparues au moment de l’événement fondateur puis abandonnées
ensuite, comme les méthodes probabilistes issues de la théorie de l’information.
Dans cet ouvrage, on s’intéressera moins aux conséquences sociales de la
mécanisation du langage (Auroux 1996) qu’aux divers modes d’intégration par
les sciences du langage du nouvel horizon de rétrospection institué par l’auto-
matisation. Nous l’appréhenderons à travers un certain nombre de questions :
(i)  est-ce que, comme le laisserait supposer le développement de la linguis-
tique computationnelle, l’automatisation des sciences du langage est associée à
une seule forme de mathématisation, logico-mathématique, ou d’autres formes
d’automatisation-mathématisation sont-elles possibles ?
(ii)  les modes d’intégration du nouvel horizon de rétrospection ne peuvent
s’envisager que de façon comparative ; sont ainsi examinées les traditions amé-
ricaine, britannique et française, et, dans une moindre mesure, la tradition russe
dont les sources nous sont moins accessibles. Le choix de ces traditions n’est pas
fortuit, il nous est imposé par la TA comme technologie de guerre. Les pays consi-
dérés sont les « vainqueurs » de la seconde guerre mondiale ; ils sont engagés
dans le conflit de la guerre froide où la TA occupe une place stratégique. Beau-
coup plus que d’autres qui suivront, et de façon beaucoup plus massive, ces États
ont investi des moyens considérables dans la TA. On peut alors se demander
si les traditions linguistiques et intellectuelles, encore bien distinctes en cette
période de fin de guerre, ont déterminé des modes d’intégration différents, et
de quelle façon ;
(iii)  on examinera comment l’espace ouvert par le nouvel horizon et par son
instanciation dans la linguistique computationnelle va susciter l’émergence du
traitement automatique des langues (TAL) et de l’intelligence artificielle ;
(iv)  on se demandera aussi dans quelle mesure la possibilité même de l’auto-
matisation peut faire émerger de nouveaux objets, de nouvelles représentations
ou de nouvelles méthodes dans les sciences du langage. On verra que, grâce à l’au-
tomatisation, la sémantique lexicale va se trouver renouvelée à partir d’­anciennes
questions sur le « mot » en tant qu’unité linguistique, selon des perspectives
diverses ;
(v)  on se demandera si les concepts et les méthodes sont intégrés globale-
ment ou bien si des choix sont effectués, si certaines méthodes sont privilégiées
par rapport à d’autres et comment. On pense notamment à la théorie de l’infor­
mation, théorie centrale, unificatrice et universalisante, qui va connaître des
destins variés au moment de l’intégration, distincts de celui de la linguistique
computationnelle ;
(vi)  une autre série d’interrogations va porter sur la périodisation. On se
demandera si, à partir de cet événement que constitue le tournant de l’automati-

8 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
sation, on peut délimiter une périodisation linéaire, avec un commencement, un
début et une fin d’intégration ; ou bien, au contraire, si les divers modes d’inté­
gration vont déterminer des périodisations diverses, parfois ancrées dans les
siècles antérieurs, et toujours en cours aujourd’hui ;
(vii)  enfin, on peut se demander si cette troisième révolution technologique
constitue une révolution des sciences du langage comparable aux deux premières,
déterminées par l’écriture et la grammatisation des vernaculaires (voir Auroux
1994).

Cet ouvrage a pour objectif de rendre compte de trois mouvements, la traduc-


tion automatique comme événement fondateur de l’« automatic turn », l’intégra-
tion par les sciences du langage du nouvel horizon de rétrospection, et le second
tournant constitué par les corpus. Ces trois mouvements seront développés
sous forme de neuf chapitres. Les quatre premiers chapitres sont consacrés aux
États-Unis, où tout a commencé. Le premier chapitre « La traduction automa-
tique comme technologie de guerre » permet de rendre compte de l’événement
constitutif du tournant de l’automatisation. Dans le second chapitre « De la TA à
la linguistique computationnelle et au TAL » est examinée la façon dont le nou-
vel horizon de rétrospection des sciences du langage s’est transformé en linguis-
tique computationnelle, grâce à l’analyse syntaxique condensant les résultats de
la linguistique structurale, de la première mathématisation et de l’algorithmisa-
tion rendue possible par la TA, puis comment s’est constitué le domaine appelé
actuellement traitement automatique des langues. Le chapitre 3 « Effort de guerre,
technologisation de la linguistique et naissance de la linguistique appliquée » est
orienté vers la technologisation des sciences du langage. Il est consacré à l’effort
de guerre entrepris par les Américains en matière d’enseignement des langues,
dans lequel la plupart des linguistes américains étaient engagés. Beaucoup étaient
également impliqués dans la cryptographie, la plupart comme simples traducteurs
de messages en langues « rares », mais certains ont aussi participé aux travaux de
décodage proprement dits. Cet effort de guerre a conduit à l’émergence de la lin-
guistique appliquée aux États-Unis, qui se caractérise par une importante techno-
logisation des méthodes. Automatisation et technologisation des sciences du lan-
gage sont ici étroitement associées. Le chapitre 4 « La théorie de l’information :
transfert de termes, concepts et méthodes » est moins concerné par l’automa-
tisation que par la mathématisation du langage. Il s’agit d’examiner le processus
par lequel certains concepts et certaines méthodes de la théorie de l’information,
faisant interagir ingénierie des télécommunications et théories mathématiques,
ont pu être intégrés dans les sciences du langage ; la théorie des traits distinctifs
de Roman Jakobson présente un cas exemplaire de ce processus, associant lin-
guistique et ingénierie européennes et environnement des sciences de la guerre

Introduction 9
américain. Le chapitre 5 traite du mode d’intégration de l’auto­matisation dans
la linguistique américaine. Intitulé « Tournant de l’automatisation et formali-
sation chez les linguistes distributionnalistes néo-bloomfieldiens », il examine
comment la possibilité d’automatisation a suscité de nouveaux enjeux pour les
linguistes structuralistes américains autour des questions de traduction et de for-
malisation. À partir des chapitres suivants, on quitte le domaine américain pro-
prement dit. Dans les chapitres 6, 7 et 8, ce sont d’autres traditions que la linguis-
tique américaine qui sont examinées. Dans le chapitre 6 « Automatisation de la
traduction, sémantique et lexique : l’inscription de nouvelles questions et de
nouveaux objets dans le temps long », on s’attache à montrer que la possibilité
même de l’automatisation a déterminé la mise au jour d’objets qui, bien qu’ins-
crits dans des traditions linguistiques et intellectuelles différentes (britannique,
russe ou française), ont renouvelé certaines questions concernant notamment
le lexique. Où l’on voit également qu’un changement de focale fait apparaître un
changement de périodisation, et qu’au temps très court de l’événement TA et du
tournant de l’automatisation peut être opposé un temps long remontant parfois
à plusieurs siècles (voir Chiss et Puech 1999).
On examinera plus particulièrement la situation en France dans le
chapitre  7 « Tradition linguistique française et réception externe de la
­mathématisation-automatisation du langage » et le chapitre 8 « Documenta-
tion automatique et analyse automatique de discours. Spécificité des réceptions
de Harris en France ». Contrairement à ce qui se passe aux États-Unis, le nou-
vel horizon de rétrospection est totalement étranger à la tradition linguistique
en France, d’où une réception complètement externe de la TA et de la linguis-
tique computationnelle, et la nécessité de passeurs, lieux et personnalités. L’auto­
matisation connaît en France une configuration singulière où sont associées
documentation automatique, analyse automatique du discours et réception de
Harris. Enfin, le dernier chapitre (chapitre 9) est consacré au « tournant empi-
riste de l’automatisation-­mathématisation. Grands corpus, langages restreints,
sous-­langages ». Inscrit dans la continuité, ce tournant prend ses sources dans la
tradition britannique, et fait émerger de nouveaux objets pour le TAL. Il a per-
mis de renouveler un débat entre empirisme et chomskysme entrepris dans les
années 1960.
Un point de méthode : le corpus des textes concernant les expérimentations
de la TA (1948-1966) est sinon fini, du moins aisément répertoriable. Le nombre
relativement restreint des textes publiés rend leur recensement possible : pre-
miers ouvrages collectifs, revues (Machine Translation, La traduction automatique
et leurs successeurs). Par ailleurs une de nos tâches est de recueillir la « littéra-
ture grise » et les archives personnelles auprès des institutions et des pionniers
du domaine. Leur classement et archivage constituent une composante essen-

10 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
tielle d’une telle recherche. Nous tenons à la mener à bien et espérons que de
futurs jeunes chercheurs pourront utiliser ce fonds d’archives et poursuivre ainsi
les recherches dans ce domaine6.
Pour cette recherche, j’ai largement utilisé les notices et les textes du Corpus
de textes linguistiques fondamentaux (CTLF), et je tiens à exprimer mes remercie-
ments à Bernard Colombat et Arnaud Pelfrêne qui m’y ont donné accès.

6 La constitution d’un fonds d’archives et de documentation sur l’histoire de la traduction


automatique et du traitement automatique du langage (1954-1975) fait l’objet d’une convention
signée en 2006 entre l’ATALA (Association pour le traitement automatique des langues), le
CNRS, l’université Paris Diderot et l’ENS Lyon. Ce projet est mené dans le cadre de l’UMR7597
(Histoire des théories linguistiques) avec la collaboration d’Elisabeth Lazcano (documenta-
liste). Dans la bibliographie les documents faisant partie de ce fonds d’archives sont référencés
comme [archives Histoire du traitement automatique des langues HTAL].

Introduction 11
Chapitre 1

La traduction automatique
comme technologie de guerre

La première phase de l’automatisation du langage s’est constituée en deux temps :


la traduction automatique (TA) au début des années 1950 et la linguistique com-
putationnelle au début des années 1960. Cette automatisation s’est accompagnée
de l’instauration brutale d’un nouvel horizon de rétrospection pour les sciences
du langage qui s’est effectuée sur une période très courte d’une quinzaine d’an-
nées (1948-1966). Elle a été la conséquence d’une intervention massive des ins-
titutions qui ont pris des décisions drastiques d’orientation et de financement
de la science dans le sillage des bouleversements mondiaux de la seconde guerre
mondiale. C’est ainsi que la traduction automatique en tant que technologie de
guerre a été instituée aux États-Unis par des instances d’État qui y ont consacré
des moyens considérables pour répondre à une demande stratégique et politique
propre à cette fin de seconde guerre mondiale. À sa suite, et sur ses cendres, la
linguistique computationnelle a été érigée comme « nouvelle linguistique » de
façon tout aussi brutale.
Trois rapports et deux personnalités d’exception, Warren Weaver et Yehoshua
Bar-Hillel, ont présidé à cette mise en place du nouvel horizon de rétrospection
sur le plan institutionnel :
(i)  1949 [1955] : Translation, Warren Weaver ;
(ii)  1960 : « The present status of automatic translation of languages »,
Yehoshua Bar-Hillel ;
(iii) 1966 : Language and Machines. Computers in Translation and Linguistics,
Automatic Language Processing Advisory Committee (ALPAC) of the Natio-
nal Research Council.
Les conditions de cette mise en place posent la question de savoir comment un
domaine scientifico-technique peut être imposé de l’extérieur, par des i­ nstitutions,

L a t r a d u c t i o n a u t o m at i q u e c o m m e t e c h n o l o g i e d e g u e r r e 13
et sans ancrage disciplinaire spécifique dans des centres universitaires. On peut
même se demander si un tel domaine, avant tout pensé comme une technolo-
gie, peut se muer en discipline autonome, ou s’il est condamné à disparaître
dans le cas où les résultats s’avéreraient insuffisants. Afin de rendre compte de
ce moment d’instauration, que l’on peut qualifier d’événement d’une forme his-
torique spécifique, on optera pour une histoire institutionnelle empruntant par-
fois la forme récit. Cet événement va constituer une « borne de mémoire disci-
plinaire » (Puech 2008) pour la linguistique computationnelle et le TAL.

1. La TA : une histoire courte ?

D’après le compte rendu effectué par Martin Joos (1956) du premier ouvrage col-
lectif sur la TA publié en 1955, il apparaît que les premières discussions sur la TA
ont lieu dès 1943 au sein du centre de cryptographie du Signal Intelligence Ser-
vice situé à Arlington Hall en Virginie. Très fréquentes et nourries, elles opposent
deux groupes, ceux qui mettent au point et utilisent des ordinateurs pour analy-
ser des « mysterious texts » et ceux qui traduisent des textes d’une langue à une
autre, tâche plus routinière et connue. Alors que les traducteurs préconisent leur
méthode beaucoup plus subtile, fondée sur l’intuition et donc partiellement
inconsciente, les cryptoanalystes mettent les traducteurs au défi de rendre intel-
ligible le processus de traduction humaine de façon à le mécaniser. Le prestige,
précise Joos, est nettement du côté des mathématiques et des machines : « In
other words, it was mathematics and the machines that enjoyed the higher prestige ;
or in other words again, those transactions took place in the matrix of today’s domi-
nant culture »1 ( Joos 1956, p. 293) – phrase prémonitoire du tournant de l’auto-
matisation-mathématisation du langage.
Les premières expérimentations ne débutent véritablement qu’après la guerre,
sous l’impulsion de Warren Weaver, à la fois en Grande-Bretagne dès 1948 et aux
États-Unis en 19492. Les débuts de l’histoire de la TA, si on l’envisage prioritaire-
ment comme une histoire institutionnelle, sont scandés par trois rapports (Wea-
ver, Bar-Hillel, ALPAC) délimitant une périodisation en trois temps, un début,
un milieu, une fin.
Le mémorandum Translation de Warren Weaver en 1949 (Weaver 1955) a
impulsé la création de centres de traduction automatique, en grande partie dans

1 Traduction française ( J. Léon) : En d’autres termes, c’étaient les mathématiques et les machines
qui jouissaient du plus grand prestige ; en d’autres mots encore, ces transactions eurent lieu
dans la matrice même de la culture dominante d’aujourd’hui.
2 Pour les débuts de la TA, voir Locke et al. (1955) et Hutchins (1986, 2000a).

14 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
les universités, avec pour mission de produire des traductions en série de textes
scientifiques du russe vers l’anglais. Bar-Hillel est nommé premier chercheur à
plein temps en TA en 1951 au MIT. Lorsque les groupes de TA commencent à
plus ou moins grands frais les expériences, la légitimité de la TA n’est pas acquise :
erreurs, traduction imparfaite, problèmes linguistiques mal évalués. C’est ce qui
apparaît dans les conclusions du premier colloque organisé au MIT en 1952 par
Bar-Hillel, qui préconise une traduction humaine assistée par ordinateur plu-
tôt qu’une traduction entièrement automatisée (Bar-Hillel 1953a). Ainsi, mal-
gré le succès médiatique de la première démonstration sur ordinateur de 19543,
qui sera suivie de la création de nouveaux centres de TA, les bailleurs de fonds
commencent à douter de l’efficacité de cette nouvelle technologie. Bar-Hillel
sera chargé en 1958 par la NSF (National Science Foundation) d’établir un rap-
port sur la TA et enquêtera sur la vingtaine d’équipes existant dans le monde :
10 centres aux États-Unis, 7 centres en URSS, 2 centres en Grande-Bretagne et
un centre en Italie.
L’argumentation de Bar-Hillel aboutit à un jugement sans appel :
(i)  la TA a suscité des investissements énormes, en termes de moyens finan-
ciers et humains ;
(ii)  la « Fully automatic high quality translation » (traduction de très bonne
qualité entièrement automatisée), préconisée par plusieurs groupes de TA, est
une illusion et un objectif déraisonnable même pour les textes scientifiques ;
(iii)  très peu de problèmes linguistiques ont été résolus, et les plus difficiles
restent à résoudre ;
(iv)  le seul objectif « raisonnable », pour la commercialisation de la tra-
duction scientifique de bonne qualité, est la traduction assistée par ordinateur,
comportant au moins une intervention humaine sur la sortie de la machine, ou
post-édition ; « raisonnable » signifiant à la fois possible en termes de faisabi-
lité technique et scientifique, et compétitif en termes de coût par rapport à la
traduction humaine.
Ce rapport fait grand bruit au moment de sa publication en 1960 (Bar-Hillel
1960). Rédigé par quelqu’un d’aussi respecté que Bar-Hillel, il jette le soupçon et
le discrédit sur tous les groupes de TA. Le relais institutionnel est pris par la mise
en place en 1964 du comité ALPAC qui, lui, met fin aux financements. Le rapport

3 La première démonstration publique de TA sur ordinateur a eu lieu en janvier 1954 à New York
sur machine IBM. Elle a été organisée par le groupe de TA de Georgetown dirigé par Leon
Dostert. Il s’agissait de la traduction de quelques phrases du russe vers l’anglais à l’aide d’un
lexique bilingue russe-anglais de 150 termes et d’une « syntaxe opérationnelle » comprenant
six opérations réglant le parsage. Paul Garvin de l’université Georgetown et Peter Sheridan
d’IBM ont en été les principaux auteurs (Dostert 1955).

L a t r a d u c t i o n a u t o m at i q u e c o m m e t e c h n o l o g i e d e g u e r r e 15
Language and Machine. Computers in Translation and Linguistics, publié en 1966,
aura des conséquences importantes certes sur le devenir de la TA, mais aussi sur
le statut et la réorganisation de la linguistique aux États-Unis. Trois points sont
examinés par l’ALPAC, à l’aide de tests spécifiques :
(i)  les besoins en traduction dans les agences gouvernementales et la com-
munauté scientifique ;
(ii)  la prise en compte de ces besoins par les organismes de traduction ;
(iii)  les avantages et défauts de la TA, par comparaison avec la traduction
humaine, en termes de coût et de qualité.
En conclusion, l’ALPAC fournit un certain nombre de recommandations. Il
n’y a pas pénurie de traducteurs aux États-Unis ; contrairement à ce qui a pu être
dit, l’offre en traducteurs est plus grande que la demande. La littérature scienti-
fique traduite automatiquement sans post-édition est très difficile à lire et même
source d’erreurs. Par ailleurs, tous les témoignages attestent que les sorties de
TA avec post-éditions sont plus coûteuses que la traduction humaine. Le comité
conclut qu’il n’est pas utile de dépenser des sommes d’argent considérables pour
mécaniser une petite industrie déjà économiquement en déclin et qui utilise une
force de travail inférieure à 5 000 personnes. Ce qui est envisagé de façon positive
en revanche, ce sont les aides automatisées à la traduction. En s’appuyant sur des
expériences menées en Allemagne et au Luxembourg, où l’Union Européenne com-
mence à développer des banques terminologiques – en avance sur ce point sur les
États-Unis –, l’ALPAC recommande de développer les glossaires automatiques, les
banques terminologiques, la consultation automatique de dictionnaires bilingues,
de même que la PAO (computerized publishing – publication assistée par ordina-
teur) qui commence à donner des résultats très positifs, notamment dans la presse.
Sur le plan de l’histoire des sciences du langage, le rapport de l’ALPAC contient
un autre élément important. Il décrète la légitimité de la linguistique computa-
tionnelle comme « nouvelle linguistique » fondée sur la grammaire générative
et transformationnelle de Chomsky, en remplacement de la TA.
On pourrait objecter à cette histoire courte (1949-1966) que la TA ne s’est
pas arrêtée avec le rapport de l’ALPAC. Des centres, notamment en Europe, et
en particulier en France, sont créés après la publication du rapport Bar-Hillel.
Même aux États-Unis, il existe des lieux où les expérimentations sont poursui-
vies après le rapport Bar-Hillel et même après le rapport de l’ALPAC. C’est le cas
des centres de Bunker-Ramo, Georgetown University et IBM, qui ont des ambi-
tions industrielles et commerciales. Paul Garvin, l’auteur des règles de grammaire
de la première démonstration sur ordinateur de 1954, continue à faire de la TA
au centre de Bunker-Ramo jusqu’en 1969, année où les moyens seront suppri-
més pour cause de… guerre au Vietnam. En 1965, deux des quatre machines à
traduire construites par IBM (Alps and Mark II) et fondées sur une techno­logie

16 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
spécifique (la mémoire photoscopique4) sont encore opérationnelles dans les
services gouvernementaux américains.
On peut ainsi poursuivre l’histoire de la TA au-delà de 1966 et proposer quatre
périodes qui mènent à la période actuelle5 :
– 1re période (1966-1980) : la survie et la « force brute » des grands systèmes,
le plus notable étant Systran, un descendant des systèmes mis au point dans les
années 1950 à la Georgetown University ;
– 2e période (1980-1990) : le tournant japonais et l’automatisation de la
communication ;
– 3e période (1990-2003) : avec le développement technologique inédit et l’ap-
parition des micro-ordinateurs, on assiste au retour des méthodes empiriques,
notamment les mémoires de traduction et les corpus alignés, qui deviennent des
composantes incontournables de la traduction assistée par ordinateur. On voit
apparaître les premiers systèmes de traduction en ligne. Le premier, Babelfish,
est développé par Systran en 1998 ;
– 4e période (2003-)  : alternance des méthodes traditionnellement appe-
lées « symboliques » (rule-based) et « statistiques » (Statistic machine translation)
ou bien développement de méthodes hybrides.
Cette nouvelle périodisation semble devoir annuler la micro-périodisation
d’une quinzaine d’années proposée au départ. Toutefois, après 1966, la TA perd
son ambition de technologie de pointe autonome. Elle devient une partie du TAL,
et reste longtemps éclipsée par la linguistique computationnelle et la documen-
tation automatique. Sur le plan théorique, c’est la linguistique computationnelle,
dans le sillage et sur les cendres de la TA, qui initie le tournant d’automatisation-
mathématisation des sciences du langage. Et c’est le rapport de l’ALPAC en 1966
qui la légitime comme « nouvelle linguistique ».

2. La TA technologie de guerre

Cette périodisation courte, en trois temps bien délimités, correspond en fait à


celle de la TA comme technologie de guerre, ancrée dans les sciences et la culture
de guerre et constitutive du nouvel horizon de rétrospection.

4 Les premières machines à traduire, The USAF Automatic Language Translator Mark I (1958) et
The USAF Automatic Language Translator Mark II (1964), ont été réalisées aux États-Unis par
Telemeter-Magnetics Inc. pour l’USA Air Force. Elles utilisaient la mémoire photoscopique
de l’Américain Gilbert King qui combinait une très grande capacité de stockage avec un accès
très rapide (Léon 1992, Hutchins 2000b).
5 Voir Léon (2000).

L a t r a d u c t i o n a u t o m at i q u e c o m m e t e c h n o l o g i e d e g u e r r e 17
2.1. Les sciences de la guerre, d’après Dahan et Pestre (2004)

Plusieurs traits caractérisent les sciences de la guerre6 :


(i)  l’interpénétration entre sciences et ingénierie. Où l’on voit les meilleurs
mathématiciens devenir ingénieurs, comme John von Neumann quand il s’est
attaqué à la conception des premiers calculateurs numériques, ou inversement
des ingénieurs qui sont aussi des théoriciens et des concepteurs de systèmes du
traitement du signal, comme Claude Shannon à la Bell. On pense également au
mathématicien Alan Turing, impliqué dans le décryptage de la machine Enigma
et dans la conception des premiers ordinateurs ;
(ii)  la culture scientifique de guerre, héritée directement du second conflit
mondial et perpétuée dans la guerre froide, est une culture de l’urgence et de la
mobilisation permanente. Les scientifiques-ingénieurs sont animés par la croyance
que la science doit pouvoir résoudre tous les problèmes ;
(iii)  la disparition des contraintes financières pour ces scientifiques, aux-
quels la guerre a offert des possibilités illimitées d’innover ;
(iv)  l’omniprésence de l’État. On assiste à une « nationalisation » générali-
sée des sciences au xxe siècle, en particulier à partir de 1945, avec la création des
grands organismes de recherche nationaux. Aux États-Unis, cela se traduit par le
financement croissant par les militaires de la recherche, qui, avant-guerre, était
financée par l’industrie. Ce type de financement de la recherche se développera
de façon massive après guerre sous le nom de « military-industrial-academic com-
plex », terme forgé par le président Eisenhower en 1961 et repris par le sénateur
J. William Fulbright en 1968 (Leslie 1993, Giroux 2007) ;
(v)  la mise au point d’une « démarche opérationnelle » (operational research
ou OR)7. Prenant modèle sur les militaires, les scientifiques-ingénieurs ont généra-
lisé une démarche opérationnelle commune : définir précisément l’objectif, qui doit
être unique et dont on doit pouvoir suivre et mesurer la réalisation ; créer un groupe
d’intervention regroupant toutes les expertises possibles ; analyser la situation en
s’assurant le concours des sciences, sciences de l’ingénieur et sciences sociales.
Après la guerre, c’est la Rand Corporation, premier « think tank » de l’après-guerre,
qui relaie le mieux la culture scientifique de guerre. La Rand se donne pour objec-
tif de développer la « vie rationnelle », selon laquelle les systèmes techniques et

6 Selon Pestre, la culture de guerre, commune aux États-Unis et à la Grande-Bretagne, apparaît


à la fin des années 1930 pour améliorer le système de détection radar protégeant la Grande-
Bretagne face à la menace nazie.
7 La notion de recherche opérationnelle a été mise au point par les Britanniques pendant la seconde
guerre mondiale pour évaluer et accroître l’efficacité des nouvelles armes comme les bombardiers,
les missiles de longue portée, les torpilles et les radars (Fortun et al. 1993, Abella 2008).

18 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
humains (système de transport, armée en campagne, ou société) sont des ensembles
coordonnés, optimisables en fonction de buts et de critères communs. Cette vie
rationnelle implique de remplacer le travail humain par l’automatisation générali-
sée. Suivant les principes de la cybernétique, cette automatisation consiste à effa-
cer la frontière homme-machine, grâce à l’algorithmisation ;
(vi)  le MIT : le nerf des sciences de la guerre. Le MIT, fondé au xixe siècle, est
très en avance sur la concentration et la nationalisation de la science au moins en
ce qui concerne les crédits d’origine militaire. Pendant la guerre, il est le siège de
la section D2 « fire control »8 chargée notamment de la défense anti-aérienne, des
radars et servo-mécanismes, et regroupe les grands scientifiques aux confins des
sciences et de l’ingénierie : Norbert Wiener, John Von Neumann, Claude Shan-
non, Vannevar Bush et Warren Weaver, entre autres. C’est au MIT que Bar-Hillel est
nommé en 1951 pour diriger le centre de TA du Research Laboratory of Electronics ;
(vii)  le développement de nouveaux concepts et de nouveaux outils. Cette
interaction entre scientifiques et ingénieurs a, en retour, conduit au développe-
ment de concepts et d’outils nouveaux qui ont accentué la tendance. Ainsi, de
nouvelles théories (cybernétique, théorie de l’information), et des disciplines
plus traditionnelles (logique, mathématiques, physique) en interaction inédite
avec les sciences pour l’ingénieur (télécommunications, cryptographie, électro-
nique ou défense anti-aérienne), ont conduit à la construction de nouveaux dis-
positifs technologiques comme les radars et les calculateurs électroniques. Pour
ce qui nous intéresse, ce sont la théorie de l’information, la logique, les statis-
tiques et les probabilités, le calcul numérique et la cryptographie qui vont servir
d’horizon de rétrospection à la constitution de la TA comme première applica-
tion non-numérique des calculateurs électroniques.
Ainsi la TA n’est pas créée ex nihilo, elle a son propre horizon de rétrospec-
tion. Ce sont les deux personnalités qui ont impulsé et orienté les recherches en

8 À partir de 1941, après les bombardements du Blitz en Grande-Bretagne et l’attaque de Pearl


Harbour, le contrôle des tirs et la défense anti-aérienne deviennent des priorités pour les
Américains. Deux équipes s’y consacrent au MIT. Un premier dispositif est élaboré par la
fusion des travaux de Vannevar Bush du MIT (le Rad Lab’s experimental XT-1)  et ceux des
Bells Laboratories (le Bell Lab’s M-9 predictor). Toujours au sein du MIT, Norbert Wiener et
Julian Bigelow travaillent sur un système statistique de prédiction des tirs. Wiener rédige à cet
effet un texte théorique « The extraopolation, interpolation and smoothing of stationary time
series », immédiatement classifié par Weaver, directeur de la section D-2, et distribué à quelques
scientifiques tenus au secret qui donnèrent au texte le nom de « Yellow Peril », – en raison de
sa reliure jaune. Selon Conway et al. (2005), ce texte constituerait une première ébauche de la
théorie de la communication, développée ensuite par Claude Shannon, et a ouvert la voie à
des développements technologiques variés, dont le contrôle automatique (pour plus de détails
voir Conway et al. 2005, p. 110-116).

L a t r a d u c t i o n a u t o m at i q u e c o m m e t e c h n o l o g i e d e g u e r r e 19
TA, Warren Weaver et Yehoshua Bar-Hillel, qui vont contribuer à établir ce nou-
vel horizon, dont la linguistique, il est important de le noter, ne fait pas partie.

2.2. Warren Weaver (1894-1978)

La figure de Warren Weaver est tout à fait centrale dans le développement de cette
culture scientifique de guerre. Mathématicien, spécialiste des probabilités, il est
aussi passionné d’ingénierie mécanique et électrique et commence par enseigner
les mathématiques au tout récent Caltech (plus tard le California Institute of Tech-
nology), puis à l’université du Wisconsin où il a fait ses études. À partir de 1931
et jusqu’à la fin de sa carrière, il est le directeur de la Division des sciences natu-
relles de la Rockefeller Foundation où il promeut des programmes de recherche
en biologie expérimentale et moléculaire à la fois aux États-Unis et en Europe.
Pendant la seconde guerre mondiale, invité par Vannevar Bush, l’inventeur
du calculateur électronique analogique au MIT, Weaver fait partie du tout puis-
sant Office of Scientific Research and Development, qui est au cœur du disposi-
tif militaro-scientifique. Il y dirige la section D2 « fire control » et crée l’Applied
Mathematics Panel (composante de l’Office of Scientific Research and Develop-
ment), qui regroupe plusieurs centaines de mathématiciens pour effectuer des
études exigées par l’effort de guerre et de défense dans des domaines extrême-
ment variés dont les ordinateurs, la programmation, les statistiques, la cyberné-
tique issue des systèmes de défense, etc. Après la guerre, en 1945, il retourne à
la Rockefeller Foundation et fait partie de nombre d’institutions gouvernemen-
tales d’organisation et de financement de la recherche. Ce sont des organisations
civiles comme la NSF (National Science Foundation) et l’American Association
for the Advancement of Science, ou militaires comme la Naval Research Advi-
sor Committee. De plus, il est un des membres fondateurs de la RAND Corpora-
tion (Research and Development), explicitement créée en 1945-1946 par l’US Air
Force pour l’aider à gagner les guerres9, et qui regroupait des logiciens et mathé-
maticiens logiciens ( John Von Neuman entre autres) et des économistes issus
de l’Applied Mathematical Panel.
Weaver se sait être un facilitateur, un vulgarisateur plus qu’un véritable cher-
cheur (Weaver 1970). C’est le rôle qu’il a joué dans la promotion de la théorie

9 « Its charter was clear : “Project RAND is a continuing program of scientific study and research
on the broad subject of air warfare with the object of recommending to the Air Force preferred
methods, techniques and instrumentalities for this purpose” » (Abella, 2008 p. 14).
Traduction française ( J. Léon) : La charte est claire : le projet RAND est un projet continu
d’études scientifiques et de recherche en matière de guerre aérienne avec comme objectif de
recommander à l’US Air Force les meilleurs méthodes, techniques et moyens d’y parvenir.

20 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
de l’information. Sollicité par Chester Barnard, alors président de la Rockefeller
Foundation, il rédige une présentation de la théorie de l’information pour non
spécialistes dans l’ouvrage co-signé avec Shannon et publié en 1949. C’est à par-
tir de ce moment que la théorie de l’information, alors confinée à quelques spé-
cialistes des télécommunications, connaît une diffusion élargie et suscite l’inté-
rêt de scientifiques dans des disciplines très variées.
C’est Warren Weaver, acteur central de la culture de guerre, doté à la fois d’une
vision globale des sciences et d’un grand talent d’incitateur, qui va avoir l’idée de
promouvoir la traduction automatique. La grande affaire de l’après-guerre, c’est la
guerre froide, où, dans la compétition scientifique et militaire avec les Soviétiques,
la traduction des textes scientifiques russes en anglais occupe une place cruciale.
Lorsqu’il écrit son mémorandum en 1949, la TA correspondait, pour Weaver, au
type d’objectif défini par la RAND, dans le sillage de la « culture de guerre » et de
la démarche opérationnelle : automatisation d’un travail jusqu’alors spécifiquement
humain ; définition d’un objectif unique ; production en série de traductions scien-
tifiques et techniques ; mise en œuvre de moyens humains et techniques colossaux
pour réaliser l’objectif en privilégiant les solutions formelles par rapport aux solu-
tions humaines. Par ailleurs, Weaver est porté par l’idée de faciliter la communica-
tion des scientifiques en ces temps d’internationalisation de la science. C’est ainsi
qu’il intitule la préface du premier ouvrage collectif sur les expériences de TA « The
new tower », dans laquelle il rappelle le mythe de Babel (Locke et al. 1955).
Warren Weaver emploie les grands moyens pour mettre en œuvre son projet
de TA. Au nom de la Rockefeller Foundation, il propose au Britannique Andrew
Donald Booth, directeur du laboratoire d’informatique du Birkbeck College (uni-
versité de Londres) d’aider les Britanniques à se doter d’un ordinateur, à condition
de développer des applications non numériques, en particulier la traduction auto-
matique. Son mémorandum Translation, sous ses apparences modestes – Weaver
dit en note qu’il est néophyte en la matière – est en fait une puissante machine de
guerre. Il l’envoie à environ deux cents personnes, dont une trentaine très influentes,
qui ne sont pas sans savoir que si elles se lancent avec lui dans la TA, l’organisa-
tion et les financements vont suivre. C’est ainsi qu’en 1949, Weaver impulse des
recherches dans trois universités américaines dont le MIT (au Research Labora-
tory of Electronics) où Bar-Hillel va être embauché en 1951, l’université de Wash-
ington où le centre de TA est dirigé par le sinologue Erwin Reifler (1903-1965) et
l’UCLA. En 1958, il y aura une douzaine de centres de TA, dont la RAND Cor-
poration, qui deviendra un des plus gros groupes de TA (dirigé par David Hays et
Abraham Kaplan). Les financements de la TA viennent de la National Air Force,
de la CIA et de la NSF.

L a t r a d u c t i o n a u t o m at i q u e c o m m e t e c h n o l o g i e d e g u e r r e 21
3. Une linguistique pour ingénieur

Dans le cadre de la culture scientifique de guerre, la linguistique n’a pas de place.


Le rôle des linguistes se limite essentiellement à l’enseignement des langues aux
militaires. Peu d’entre eux prennent part aux développements technologiques
(voir chap. 4 ci-dessous). Au MIT, par exemple, il n’y a pas de département de
linguistique avant 1964, de sorte que c’est à l’Electrical Engineering Department
que le premier doctorant de Chomsky, Robert Lees, obtient un PhD en 1963.
Ce n’est donc pas la linguistique qui sert de référence théorique ou méthodo-
logique à la TA, et quand Weaver soulève certains des problèmes linguistiques
posés par la TA (expressions idiomatiques et mots composés, polysémie, ordre
des mots), c’est pour les écarter aussitôt. Dans les textes techniques et scienti-
fiques auxquels il limite la TA, ces problèmes sont en nombre réduit et peuvent
être négligés. La TA n’est pas une discipline, c’est une technologie destinée à pro-
duire des traductions en série économiquement rentables. Les questions linguis-
tiques sont donc considérées comme non prioritaires au regard des problèmes
liés à l’architecture et à la limitation de la puissance des machines : limitation
de mémoire, donc de vitesse et de stockage. C’est à ces tâches que vont s’atte-
ler les premiers expérimentateurs, parmi lesquels on trouve bien sûr des spécia-
listes de langues vivantes (chinois, langues slaves, espagnol) et des traducteurs
(Leon Dostert), mais surtout des ingénieurs (Victor Yngve, Anthony Œttin-
ger). Il faut souligner que les deux pionniers, les Britanniques Andrew Booth et
Richard Richens, encouragés par Weaver à se lancer dans l’affaire, ne sont ni l’un
ni l’autre des spécialistes de langues. Le premier est physicien (cristallographe)
et le second biologiste (spécialiste des plantes). Ce sont des « inventeurs » que
la machine affranchit de toute histoire et de tout ancrage dans le passé, à savoir
de tout horizon de rétrospection.
En créant une linguistique pour la machine (machine translation linguistics,
voir Reifler 1955), les ingénieurs vont dénier à la linguistique toute légitimité dans
l’auto­matisation de la traduction. Ainsi, contrairement aux conventions de la lexi-
cographie, les premiers dictionnaires bilingues automatiques sont construits à par-
tir des formes abrégées et non à partir des lemmes. Les contraintes graphiques
imposées par la numérisation de l’information conduisent les expérimentateurs à
fabriquer des dictionnaires de racines et de terminaisons qui n’obéissent pas aux
critères fonctionnels d’origine phonétique ou historique des grammairiens. Ils
vont produire de « faux » radicaux, appelés bases de mots, de « fausses » dési-
nences et redéfinir les affixes (pour le russe par exemple). Dans leurs expériences
de 1948, Booth et Richens (1955) définissent la base comme la partie commune
la plus longue aux différentes formes d’une même entrée qui ne soit pas ambi-
güe. Par exemple, pour le verbe français saisir, ils préconisent le choix du radical

22 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
saisi de préférence à sai- qui a des parties communes avec savoir. Dans son dic-
tionnaire automatique (russe-anglais), Œttinger (1955) propose deux faux radi-
caux pour le russe okn et okon alors que pour les grammairiens ce ne sont que
les variantes d’une même racine. Les chercheurs de l’Institut de mathématiques
Steklov de Moscou sont amenés, à la suite des Américains, à utiliser les mêmes
méthodes. Alors que l’anglais n’a que six désinences -ing -ed -er -est -th -s, les Russes
ont ajouté une désinence « fausse », le -e de love. La « fausse » désinence -e com-
binée avec la forme lov- stockée dans le dictionnaire permet d’identifier les formes
love-s, ­lov-ing, lov-ed, à partir des désinences ordinaires10.
Il en va de même pour la morpho-syntaxe. Reifler (1955), et Micklesen à sa
suite (1956), ont défini des operational form classes pour la TA. Dans la linguis-
tique structurale (Bloomfield 1933, p. 265), la définition des form classes est fonc-
tionnelle. Ce sont les fonctions qui déterminent de façon dynamique les patterns
distributionnels où une forme linguistique peut apparaître. La mise au point de
form classes pour la TA obéit à deux principes, linguistique et technique, qui ne
s’appliquent pas simultanément. Le principe linguistique consiste à établir les
classes de base des formes interactives, puis à modifier ces classes en fonction
des exigences technologiques. Ces classes de bases des formes interactives sont
potentiellement des constituants immédiats de premier niveau, et ont été nom-
mées mutual pinpointers (to pinpoint : repérer, localiser) par Reifler. Celui-ci
donne l’exemple de l’article den en allemand qui peut être soit accusatif mascu-
lin singulier, soit datif pluriel. S’il est suivi de Männern, qui n’est que datif pluriel,
l’ambiguïté est levée : den et Männern jouent ici le rôle de mutual pinpointers. Si
deux groupes de formes sont des mutual pinpointers dans une construction don-
née, on crée deux form classes séparées. Cela implique que dans la phase automa-
tique on établisse des forms classes plus grandes si elles contiennent des mutual
pinpointers, alors qu’en linguistique structurale, une telle subdivision dépend
seulement de l’analyse. Micklesen (1956, p. 346) donne l’exemple suivant. Pour
la linguistique, des formes comme doing et swimming appartiennent à la classe
des verbes. Or, pour la TA, à cause de la fonction de repérage mutuel (mutual
pinpointing) qu’elles peuvent exercer, soit comme verbes soit comme substan-
tifs, par exemple dans writing letters is very difficult, il faut faire de ces déverbaux
en -ing une classe à part, une operational form class. Les operational form classes
ne correspondent pas aux classes prévues par l’analyse distributionnelle, elles
comportent des instructions de repérage mutuel et ont une fonction dynamique
dans le processus de TA. Cette distorsion de l’analyse morphologique soulève
de vives discussions entre linguistes structuralistes et expérimentateurs de TA.

10 Sur ces premières expérimentations voir Léon 1999.

L a t r a d u c t i o n a u t o m at i q u e c o m m e t e c h n o l o g i e d e g u e r r e 23
Pour ces derniers, l’analyse morphologique se retrouve complètement assujettie
à la technique, et des objets linguistiquement artificiels sont créés sans que soit
respectée une cohérence théorique. On assiste ainsi à la négation de l’horizon
de rétrospection des néo-bloomfieldiens qui avaient consacré plusieurs décen-
nies à décrire la morphophonologie des langues. Les expérimentateurs écartent,
sans critique de fond, les méthodes et les résultats des linguistes tout simplement
au nom du fait que les travaux existants ne sont pas adaptés à la machine. Fai-
sant part d’un certain cynisme, ils reconnaissent que les critères qu’ils utilisent
ne sont pas ceux de la grammaire, mais si les critères des linguistes ne coïncident
avec les leurs, ils s’en passeront.
Cet état d’esprit persistera et persiste encore. Comme le rappelle Melby (1992),
en citant les conseils que lui a donnés en 1972 David Hays, un des pionniers de
la TA, ce n’est pas en trouvant le bon modèle formel en linguistique qu’on va
résoudre les problèmes de TA, c’est en fournissant du travail solide fondé sur
une linguistique simplifiée. C’est aussi l’intuition de Peter Toma, le concepteur
de Systran, qui, contrairement aux scientifiques de l’époque, ne croit pas que la
linguistique puisse fournir une solution adaptée au traitement du langage par
ordinateur. Il est convaincu que le traitement du langage doit être adapté aux
possibilités de l’ordinateur plutôt que l’inverse (Loffler-Laurian 1996). On peut
également citer l’indignation suscitée par une note publiée dans un numéro de la
revue Traitement automatique des langues de 1995 relatant les propos de Frederick
Jelinek, qui, alors qu’il dirigeait à IBM l’équipe de recherche sur la reconnaissance
de la parole, a déclaré : « chaque fois que je vire un linguiste de mon équipe, la
performance de notre système s’améliore de 10 % » (TAL, 1995 : p. 69, note 2)11.

4. La TA : une technologie imparfaite

4.1. Une traduction approximative et grossière

La TA est une technologie certes, mais une technologie imparfaite. Weaver recon-
naît d’emblée certaines limites, notamment l’incapacité de faire traduire par la
machine des textes littéraires comportant des éléments « illogiques » comme
l’émotion ou l’intuition. Il mentionne à ce propos la position de Norbert ­Wiener
qu’il avait essayé de convaincre lors d’un échange de lettres en 1947 (Weaver
1955). Wiener se montre sceptique sur la possibilité de faire de la TA car, avance-

11 Voir la réponse de la rédaction de TAL intitulée « Efficacité du TALN et linguistes » dans le


numéro 1996-1 (p. 162) faisant état des tensions entre industriels et linguistes.

24 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
t-il, traduire une langue dans une autre, c’est passer d’une culture à une autre, ce
qu’une machine est incapable de faire.
Weaver est conscient qu’une traduction parfaite est illusoire et que, même
dans le cas des traductions scientifiques et techniques, il est impossible de garan-
tir une absence totale d’erreurs. Les textes scientifiques sont certes plus simples
à traduire, moins ambigus, ils comportent moins de polysémie, mais la traduc-
tion ne sera pas parfaite. Ils ont cependant l’avantage de pouvoir être traduits en
masse ; de plus, une traduction approximative et grossière, par exemple mot à
mot, doit pouvoir suffire pour un usage pratique. Si les sorties d’une traduction
mot à mot ne sont pas très lisibles, elles le sont suffisamment pour permettre
aux scientifiques de sélectionner les articles méritant une traduction humaine.
Par ailleurs, un pourcentage d’erreur est admissible dans le cadre d’un usage
pratique. Cet argument est de taille. Il a constamment été mis en avant par les
acteurs de la TA puis du TAL encore aujourd’hui, bien que le statut de ces erreurs
soit ambigu. En reprenant les arguments de Loffler-Laurian (1996), on peut se
demander ce que signifie une traduction « bonne à 80 % ». Est-ce que cela veut
dire que 80 % des phrases ressemblent à des phrases écrites par des humains, ou
que 80 % de mots ont reçu un équivalent correct, ou encore que la traduction a
été jugée acceptable par 80 % des personnes consultées ? C’est une question fon-
damentale pour la TA, et pour le TAL en général.
Cet argument pose la question d’une technique qui serait faillible par défini-
tion, ce qui est tout à fait singulier. En effet, quand les guides missiles ou les radars,
ou autres technologies développées dans le cadre des sciences de la guerre ne
marchaient pas, on essayait de les perfectionner. Pour les opposants aux conclu-
sions de l’ALPAC, c’est d’ailleurs un argument utilisé pour montrer qu’on n’a
pas laissé le temps à la TA de s’améliorer et de faire ses preuves ( Josselson 1971).

4.2. Décalage entre résultats médiocres, ambition des acteurs et succès public

À l’imperfection des résultats, voire leur médiocrité, et à la disparition de l’espoir


de créer une machine à traduire, s’est ajouté un troisième facteur de déception : le
décalage entre le succès public de la TA et les ambitions modérées de ses acteurs.
L’enthousiasme suscité par les machines électroniques et l’illusion de leur
potentialité infinie apparaît dès 1949 lorsque le New York Times publie un article
sur la machine à traduire intitulé « Electric brain able to translate foreign lan-
guages is built »12 (voir Hutchins 1997, p. 203). Cet enthousiasme suscite un tel

12 Traduction française ( J. Léon) : « Construction d’un cerveau électrique capable de traduire


des langues étrangères ».

L a t r a d u c t i o n a u t o m at i q u e c o m m e t e c h n o l o g i e d e g u e r r e 25
écho dans le public que certains chercheurs doivent démentir les fabuleuses pro-
messes annoncées dans la presse (voir le démenti de Koutsoudas, 1956)13.
En 1954, la première démonstration sur ordinateur révèle une nouvelle fois ce
décalage : le paradoxe du succès public de la TA, largement médiatisé, et les vains
espoirs ainsi entretenus contrastent avec la conviction de la plupart des acteurs
que la FAHQT (Full automatic high quality translation) est une illusion, et qu’il
faut se concentrer sur la traduction assistée (par ordinateur ou par l’humain), et
l’analyse syntaxique. Ce paradoxe sera fatal pour la TA. Celle-ci, victime de son
succès et des attentes infondées qu’elle suscite, sera durement critiquée par les
rapports de Bar-Hillel et de l’ALPAC, qui mirent fin aux expériences.

5. Conclusion

La traduction automatique en tant que technologie de guerre n’est pas née de rien.
Les propositions de Weaver placent la TA au centre d’un faisceau de disciplines
(logique, mathématiques, statistiques et probabilités, neurologie et cybernétique)
dont la théorie de l’information constitue l’aspect unificateur et universel, mais
dont la linguistique ne fait pas partie. Toutefois, les premiers expérimentateurs,
dont certains ne font d’ailleurs même pas partie de cette configuration de disci-
plines, vont faire fi, au nom de la machine, de tout horizon de rétrospection. Cela
a un coût : une des conséquences de la mise en œuvre d’un domaine de recherche
par une décision brutale, c’est qu’il faut le légitimer. C’est ainsi que les acteurs
de cette période se sont sentis obligés de s’autocélébrer en permanence dans un
souci constant de légitimation, et ceci dès l’apparition du nouveau champ et bien
avant le rapport de l’ALPAC. Une des façons de faire face à ce déficit de légiti-
mation, c’est de l’inscrire dans l’histoire. Dès les années 1950, les expérimenta-
teurs en TA se dotent d’introductions prétendument « historiques », qui sont
en fait des bilans rétrospectifs à visée d’autocélébration. Ces textes – dont le pre-
mier est publié dès 1955 – sont des introductions de colloque ou d’ouvrage col-
lectif rédigées par les acteurs de la TA eux-mêmes (Locke et Booth 1955, Dostert
1957, Booth 1958, Delavenay 1959). Ils indiquent que les acteurs ont élu explicite-
ment le début des expériences de TA comme « borne de mémoire disciplinaire »

13 On rapporte souvent, pour railler la faiblesse des systèmes de TA, la traduction de l’anglais
vers le russe de la citation de la Bible : « The spirit is willing, but the flesh is weak » (« l’esprit
est fort mais la chair est faible ») qui de nouveau traduite du russe en anglais donne « The
whisky is strong, but the meat is rotten » ou « The ghost is a volunteer but the meat is tender ». En
fait il s’agirait d’une erreur de traduction humaine, rapportée par un journaliste (en 1956) et
imputée à la machine (voir Hutchins 1995 pour les détails).

26 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
(Puech 2008), même si celle-ci, à cause de l’ALPAC, sera plus tard marquée défi-
nitivement d’opprobre (the infamous report selon Hutchins 1996). Par ailleurs, on
va se retrouver avec la TA, dont une bonne partie des centres sont situés dans les
départements de langues des universités, devant une situation complexe. D’une
part, l’élaboration d’une linguistique pour la machine par les ingénieurs consti-
tue une annulation explicite de l’horizon de rétrospection des linguistes néo-
bloomfieldiens plutôt qu’un oubli (Auroux 1987) qui serait nécessaire à l’inno-
vation. Le nouvel horizon de projection, mis en place par la culture de guerre et
unifié par la théorie de l’information, se trouve ainsi coupé de son passé, voire
sans passé du tout. Nombre d’acteurs de la TA font partie des disciplines concer-
nées et ont participé à l’élaboration de cette nouvelle culture. La question va être
pour les linguistes, absents de cette phase de création, de s’approprier ce nouvel
horizon de rétrospection pour le transformer en horizon de projection. La lin-
guistique computationnelle constitue une première phase de cette appropriation.

L a t r a d u c t i o n a u t o m at i q u e c o m m e t e c h n o l o g i e d e g u e r r e 27
Chapitre 2

De la TA à la linguistique
computationnelle et au TAL

1. Le rôle central de l’analyse syntaxique

On peut identifier un second courant de traduction automatique qui, en ancrant


celle-ci dans la première mathématisation du langage, donne la priorité à l’ana-
lyse syntaxique. Cette voie d’automatisation est moins coupée de la linguistique
que ne l’est celle de la traduction automatique des ingénieurs, développée dans le
sillage de Weaver et des sciences de la guerre. La plupart des néo-­bloomfieldiens
sont familiarisés avec certains aspects de la première mathématisation du langage,
notamment les axiomes et les procédures, qui leur paraissent tout à fait compa-
tibles avec la méthode distributionnelle. Ils lisent les ouvrages collectifs publiés
en logique et en mathématiques. Dès Methods in Structural Linguistics (1951a)
Harris met en place une formalisation de l’analyse linguistique.
Le développement de l’analyse syntaxique pour la TA, au sein même des
centres de TA, est le résultat de trois grandes orientations de la conception de
la syntaxe qui, à un moment ou à un autre, sont entrées en interaction : celle de
certains distributionnalistes, comme Hockett et Harris (voir chapitre 3), celle de
Bar-Hillel directement inspirée par Carnap, puis, dans un second temps, celle de
Chomsky. L’analyse syntaxique automatique va constituer le fondement théorique
de la « nouvelle linguistique » préconisée par l’ALPAC, et assurer la légitimité
de la linguistique computationnelle. Elle va aussi conditionner l’apparition du
programme chomskyen, de fait étroitement associé à l’horizon de rétrospection
créé par la TA, et qu’on peut identifier comme un de ses horizons de projection.

D e l a TA à l a li n g u i s t i q u e c o m p u tat i o n n e ll e e t a u TA L 29
2. Syntaxe opérationnelle pour la TA et grammaires formelles

Pour Yehoshua Bar-Hillel (1915-1975), la question principale de la TA, c’est la syn-


taxe. Philosophe du langage, avec un travail de thèse sur la syntaxe logique de Car-
nap, Bar-Hillel est un acteur de la première mathématisation. Il introduit la récur-
sivité en linguistique et élabore une « syntaxe opérationnelle » pour la TA, « A
quasi-arithmetical notation for syntactic description », associant la méthode de
Harris et la notation d’Ajdukiewicz (Bar-Hillel 1953b). Il s’agit d’une machine
capable de découvrir de façon automatique la structure syntaxique d’une chaîne
d’une langue source donnée. Cette syntaxe opérationnelle est un algorithme tra-
ductible en une série d’instructions pour un ordinateur digital qui a pour objectif
de tester automatiquement la connexité syntaxique d’une séquence donnée et de
trouver les constituants immédiats de toute séquence syntaxiquement connexe1.
Bar-Hillel, qui s’était d’abord appuyé sur la méthode harrissienne (Harris 1951a),
s’est ensuite tourné vers la conception chomskyenne des transformations.
La syntaxe opérationnelle de Bar-Hillel se trouve à l’interface entre langages
formels, syntaxe et algorithmique pour le traitement automatique des langues
à des fins économiques et militaires. Bien qu’il présente son projet de syntaxe
opérationnelle dans un colloque de linguistes (le 7e Congrès international des
linguistes qui a lieu à Londres en 1952), il est aussi chercheur en traduction auto-
matique au MIT, au Research Laboratory of Electronics, et adhère à l’idée de la
TA comme technologie de guerre. Dans un article de 1955, il déclare que le pro-
blème de la TA est avant tout un problème de rapidité, de capacité et de coût,
le triangle « time-cost-capacity » que l’ALPAC prendra plus tard comme étalon
d’évaluation (Bar-Hillel, 1955). Étant donné sa position stratégique de premier
chercheur en TA au MIT, puis de premier expert chargé par la National Science
Foundation (en 1958) de faire un état des lieux de la recherche en traitement auto-
matique des langues (linguistic data processing) incluant l’évaluation des projets
de TA, Bar-Hillel va jouer un rôle crucial dans l’intégration du nouvel horizon
de rétrospection, à la fois pour imposer le primat de l’analyse syntaxique pour le
traitement automatique des langues et pour instituer l’analyse syntaxique automa-
tique comme domaine autonome, reconnu par les linguistes et vivier de « nou-
veaux » linguistes, et enfin pour amorcer le débat sur la compréhension du lan-
gage naturel, qui deviendra un des secteurs de l’intelligence artificielle.

1 Pour une définition formelle de la connexité syntaxique, voir Ajdukiewicz (1935).

30 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
3. Constitution de l’analyse syntaxique automatique en champ autonome

C’est à l’issue du premier colloque sur la TA organisé par Bar-Hillel au MIT en


1952, que celui-ci parvient à convaincre les participants que l’analyse syntaxique
est centrale pour la TA. Tous s’accordent pour définir les deux étapes préalables
à la TA : (i) créer un dictionnaire automatique de formes sans lemmatisation ;
(ii) développer une analyse syntaxique opérationnelle programmable (remet-
tant à plus tard les problèmes grammaticaux). Bar-Hillel réussit ainsi à faire pas-
ser l’idée de la priorité de l’analyse syntaxique, distincte des problèmes de gram-
maire, c’est-à-dire de morphosyntaxe.
En ce début des années 1950, les premières tentatives d’analyse syntaxique auto-
matique utilisent les classes de mots des distributionnalistes, les automates à états
finis (chaînes de Markov) issus de la théorie de l’information et déjà appliqués par
Harris et Hockett, et une stratégie de parsage2 ascendante (bottom up) adaptée à
une stratégie de reconnaissance des classes de mots dans un texte (voir Locke et
Booth 1955). Un des premiers analyseurs est celui d’Yngve et date de 1955 (Yngve
1955). Il s’agit d’une procédure de reconnaissance ascendante, orientée gauche-droite,
chargée de construire la structure syntaxique niveau par niveau à partir de phrases
réduites à une suite de classes de mots qui comprennent l’information grammati-
cale et syntaxique de la phrase. À partir de la fin des années 1950, et de la hiérarchie
des grammaires établie par Chomsky en 19563, les analyseurs vont se fonder sur
les grammaires formelles, en particulier sur les grammaires hors contexte (context-
free) de type 2, et adopter une stratégie descendante (top-down) plus efficace pour
mettre en œuvre les règles de réécriture. Les progrès sont notables. Jusqu’alors,
toute programmation en TA constituait un tour de force, à cause de l’intrication
entre programmation et grammaire qui empêchait toute évaluation linguistique des
systèmes et tout progrès. L’utilisation des langages formels va permettre de pen-
ser les problèmes de façon d­ éclarative en distinguant la grammaire (la description

2 « Parsage » est une traduction de l’anglais parsing (du latin pars orationis). Un parseur syn-
taxique est un analyseur syntaxique automatique. C’est un programme dont la tâche est de
parcourir une séquence (généralement une phrase) et de l’analyser en composants syntaxiques,
selon les règles d’une grammaire.
3 Dans « Three models for the description of language », Chomsky (1956) se donne pour objec-
tif de comparer différents types de grammaires formelles afin de déterminer leur capacité de
générer les phrases de l’anglais. Il établit une hiérarchie en trois classes en montrant que ni les
chaînes de Markov – ou automates à états finis – (grammaire de type 0), ni les grammaires de
constituants sensibles au contexte (context-sensitive grammars de type 1) ne permettent de géné-
rer toutes les phrases de l’anglais et seulement celles-ci. Seules les grammaires syntagmatiques
hors-contexte (context-free grammars de type 2), munies d’un composant transformationnel,
le peuvent.

D e l a TA à l a li n g u i s t i q u e c o m p u tat i o n n e ll e e t a u TA L 31
l­inguistique), les langages formels (qui rendent les informations linguistiques trai-
tables par la machine) et les stratégies de parsage. Là encore, c’est de nouveau un
analyseur de Yngve qui fait figure de pionnier. En 1960, celui-ci élabore un modèle
prédictif d’analyse syntaxique fondé sur une grammaire syntagmatique (grammaire
syntagmatique context-free de type 2), et sur des hypothèses psycholinguistiques
sur la mémoire à court terme empruntées à George A. Miller, pour fixer la profon-
deur de l’arbre de représentation des phrases (Yngve 1960). Alors qu’en 1955 il uti-
lisait les automates à états finis, en 1960 il se réfère au modèle de Chomsky de 1957
(Structures syntaxiques) mais en rejetant les transformations. Cet analyseur est pro-
grammé dans le langage COMIT qu’il a mis au point pour traiter des chaînes de
caractères (Yngve 1959). C’est ainsi que la TA devient aussi un banc d’essai pour
tester la puissance des grammaires formelles.
Dans les années 1960, d’autres formalismes consacrés à l’analyse syntaxique
pour la TA voient le jour : la grammaire de dépendance (dependency grammar) de
Hays (1964) inspiré par Tesnière4, le modèle des conflits de Lecerf (1960) asso-
ciant dans une représentation unique les arbres syntagmatiques de Chomsky et
les stemmas de Tesnière, et la grammaire stratificationnelle (stratificational gram-
mar) de Sidney Lamb (1962). L’utilisation des grammaires syntagmatiques ravive
le débat sur les stratégies de parsage ascendantes et descendantes. Parallèlement
aux méthodes purement algorithmiques et déterministes, comme l’approche par
transfert de Yngve (1964), on voit apparaître des approches utilisant des méthodes
de recherche heuristiques, comme l’analyse prédictive de Garvin (1968)5.
Par la suite, les parseurs syntaxiques, au départ destinés à la TA, puis chargés
de tester la puissance des grammaires, se sont davantage appuyés sur les modèles
context-free que sur le modèle transformationnel, resté de fait peu formalisé. Cette
séparation s’est d’ailleurs accentuée une fois que les limites formelles du modèle
transformationnel ont été reconnues (Peters et Ritchie 1973)6 et que de nouveaux

4 Lucien Tesnière (1893-1954), linguiste français spécialiste de langues slaves, est l’auteur de deux
ouvrages Esquisse d’une syntaxe structurale (1953) et Élements de syntaxe structurale (1959) dont
certains aspects, comme la valence et la structure de dépendance, ont inspiré un certain nombre
de modèles de linguistique formelle et de traduction automatique que ce soit en France, aux
États-Unis ou dans les pays du Bloc soviétique.
5 Garvin oppose la méthode heuristique à la méthode algorithmique. Une méthode algorith-
mique est déterministe et complète, elle a prévu toutes les instructions pour aller d’un point
à un autre et conduit nécessairement au résultat. Garvin préconise au contraire une méthode
heuristique, qui est une aide à découvrir le résultat plus qu’un chemin direct pour y parvenir,
par exemple en ayant recours à des choix arbitraires ou à l’apprentissage par essais et erreurs.
6 Les auteurs démontrent que les grammaires transformationnelles sont trop puissantes, dans la
mesure où elles génèrent toutes sortes de langages, y compris des langages non récursifs. Ce pro-
blème provient du fait qu’elles appliquent leurs règles de dérivation un nombre illimité de fois, en

32 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
modèles hors-contextes sont apparus face aux grammaires transformationnelles
(voir Savitch et al. 1987 sur ce point).

4. La linguistique computationnelle

4.1. Les analyseurs syntaxiques

Après avoir convaincu les premiers acteurs de la TA de privilégier l’analyse syn-


taxique et proposé lui-même un modèle de « syntaxe opérationnelle », Bar-­Hillel
poursuit son action « institutionnelle » en faveur de l’essor des analyseurs syn-
taxiques. Dans son rapport de 1960, il déclare que les travaux de TA ont du moins
eu le mérite de mettre au jour deux problèmes théoriques intéressants : les pro-
blèmes formels apparus avec l’automatisation et non encore résolus, comme la
théorie des systèmes canoniques de Post7, et la théorie des automates (auto-
mates à états finis et automates de Turing). Ce qui lui apparaît aussi digne d’in-
térêt, ce sont les techniques d’analyse syntaxique et les langages de programma-
tion qui ont été développés à cet effet. Bar-Hillel leur consacre plusieurs pages
en passant en revue les différentes méthodes adoptées par les groupes de TA.
Ces techniques constituent un domaine véritablement nouveau, issu de la mise
en algorithme de la syntaxe, permettant d’interroger les rapports entre modèle
linguistique (puissance d’une grammaire) et analyse automatique. Un des pro-
blèmes cruciaux pour l’analyse syntaxique automatique d’une phrase est notam-
ment de savoir d’où on part (« where to start ? »). Le langage de programmation
COMIT, élaboré par Yngve en 1959, constitue le premier langage de traitement
de symboles non numériques fondé sur le pattern matching permettant de trai-
ter des arborescences.

particulier pour les phrases courtes. Un des résultats de cette étude est de montrer que l’intuition
des linguistes selon laquelle les langues naturelles sont récursives est empiriquement fondée.
7 Les systèmes canoniques de Post (1943) font partie des recherches des années 1930-1940 tentant
de caractériser de façon formelle la notion d’algorithme appliquée aux mathématiques. Ainsi
les machines de Turing et les systèmes de production de Post conduisent aux mêmes fonctions
calculables. Conçu comme systèmes de manipulation de chaînes de caractère, ils comportent
un triplet :
–  un alphabet fini, et des chaînes construites à partir de cet alphabet, ou mots ;
–  un ensemble de mots initiaux ;
–  un ensemble de règles de manipulation de ces chaînes (ou règles de production).
Les systèmes de réécriture (de chaînes) de Chomsky sont directement inspirés de ces systèmes
de Post. Voir notamment Partee (1978, p. 167-168) qui renvoie à Chomsky et Miller (1963
section 4) pour une présentation de la formalisation de ces systèmes de réécriture.

D e l a TA à l a li n g u i s t i q u e c o m p u tat i o n n e ll e e t a u TA L 33
L’interaction entre langages de programmation et linguistique est d’ailleurs
un des points qui sera examiné en détail par le rapport de l’ALPAC, quelques
années plus tard. Celui-ci note qu’à partir d’ALGOL60, les langages de program-
mation effectuent de nombreux emprunts à la linguistique mathématique ; par
exemple ALGOL60 emprunte son système de notation aux règles de réécriture
de certains modèles linguistiques, comme les grammaires de type 2. Inversement,
est envisagé l’impact de la programmation sur la linguistique. L’existence d’un
corps de techniques de programmation a permis le développement de langages
de programmation spécialisés dans la résolution de problèmes linguistiques, tel
SNOBOL (1964) et une version ultérieure de COMIT (1962). Langages de pro-
grammation spécialisés et modèles de parseurs syntaxiques, tous témoignent
de l’émergence d’un champ inédit à l’intersection de la formalisation logico-­
mathématique, de la théorie de la syntaxe, de la théorie des algorithmes, de la
théorie des automates et de celle de la compilation8.

4.2. Institutionnalisation de la linguistique computationnelle :


recouvrements et décalages

La linguistique computationnelle (computational linguistics) s’institutionalise avec


la création en 1962 de l’Association for Machine Translation and Computational
Linguistics (AMTCL) sous la présidence de Victor Yngve et la vice-présidence
de Hays9. Le premier colloque, intitulé International Conference on Computa-
tional Linguistics, a lieu à New York en mai 1965, regroupant 150 participants. Il
est organisé par plusieurs associations (l’AMCTL, l’association française ATALA,
des associations scandinave, japonaise et sud-américaine).
Ainsi, il est faux de dire que l’institutionnalisation de la linguistique computa-
tionnelle est le fait de l’ALPAC comme il est généralement admis, dans la mesure
où, en 1966, cette institutionnalisation est déjà bien avancée. Toutefois l’ALPAC,
formé en 1964, soit quatre ans après la publication du rapport Bar-Hillel, va jouer
un rôle capital par son ambition de reconfigurer le champ de la linguistique autour
de la linguistique computationnelle d’une part, et de sauver le traitement automa-

8 Voir Cori et Marandin (2001) sur les emprunts réciproques entre informatique et grammaires
formelles, notamment génératives.
9 En 1973, elle prendra le nom d’Association for Computational Linguistics (ACL) en laissant
tomber la référence à la TA. L’association se dote d’un bulletin, The Finite String, et organise
un colloque tous les deux ans. Le premier a lieu en août 1963 à Denver, Colorado. La revue
Mechanical Translation s’appelle, à partir de 1965 (et jusqu’à 1974 où Yngve quitte sa direction),
Mechanical Translation and Computational Linguistics. De 1974 à 1983, elle s’appellera American
Journal of Computational Linguistics, puis à partir de 1984 Computational Linguistics.

34 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
tique des langues alors en plein essor, d’autre part. Deux annexes (18 et 19) du rap-
port ALPAC, très probablement rédigées par d’anciens responsables de groupes
de TA, les ingénieurs David Hays et Anthony Œttinger, devenus chefs de file ins-
titutionnels de la linguistique computationnelle et membres du comité ALPAC,
sont consacrées à la linguistique computationnelle et définissent ses principales
tâches : (i) explorer les relations réciproques entre grammaires formelles et lan-
gages de programmation ; (ii) développer les analyseurs syntaxiques comme
méthodes d’évaluation ou banc-d’essai des modèles linguistiques ; (iii) construire
des outils de manipulation du langage, afin d’aider les linguistes (dénommés lin-
guistic scientists) à découvrir et énoncer leurs généralisations, puis à vérifier ces
généralisations en regard des données. Le rapport cite Mel’čuk qui tient la com-
putational linguistics non comme un sous-champ de la linguistique, limité à ceux
qui aiment le calcul, mais comme une technique indispensable devant être uti-
lisée par tous les linguistes (Akhmanova et al. 1963). La TA y est vue comme un
champ expérimental permettant de vérifier des hypothèses théoriques.
Le projet est ambitieux, et l’ordinateur considéré comme la troisième révolu-
tion humaine (the third human revolution), en référence à l’article de Hockett qui
faisait partie du comité ALPAC, du moins à ses débuts (Ascher et Hockett 1964).
Après la parole et l’outil (le levier), l’ordinateur constitue la troisième grande révo-
lution de l’humanité ; c’est le premier manipulateur de symboles externe au cer-
veau humain, susceptible de modifier l’analyse des langues comme le microscope
a changé la biologie. Grâce à l’ordinateur, la linguistique peut prétendre, comme
la physique, à une mathématisation conséquente. De plus, celui-ci a permis de
faire le lien entre théorie, études empiriques et applications pratiques.
À l’instigation de l’Académie des sciences, l’ALPAC va dessaisir la TA de son
rôle de technologie de pointe chargée de produire des traductions en série, et
transférer les fonds vers une nouvelle discipline, la linguistique computation-
nelle. Afin de légitimer la linguistique computationnelle comme « new linguis-
tics », l’ALPAC tente d’enrôler Chomsky, l’étoile montante de la linguistique de
ces années 1960, en critiquant sévèrement les néo-bloomfieldiens. Cet argument,
susceptible de séduire Chomsky, a pour effet d’annuler l’horizon de rétrospec-
tion dominant dans les sciences du langage de l’époque. Le rapport cite les actes
du 9e Congrès de linguistique de 1962. On sait (voir Murray 1993) que c’est lors
de ce congrès que les Chomskyens opérèrent leur coup de force pour écarter les
néo-bloomfieldiens10. L’avant-dernier paragraphe du rapport témoigne du rejet
des néo-bloomfieldiens :

10 Selon Murray (1993) le comité d’organisation composé de Morris Halle, William Locke, Horace
Hunt et Edward Klima aurait réservé une séance plénière à Chomsky, d’une génération plus jeune
que les quatre autres conférenciers invités, en lui accordant en outre quatre fois plus de place dans

D e l a TA à l a li n g u i s t i q u e c o m p u tat i o n n e ll e e t a u TA L 35
If ever a machine-aided simulation of total linguistic analysis-synthesis (or voice-to-ear-
to-voice translation) becomes possible it will not be because of adherence to the type of lin-
guistic theory widely current around 1950. (ALPAC 1966, p. 123)11
Le rapport précise que la révolution apportée par Chomsky n’a pas à voir
directement avec les ordinateurs mais a apporté des changements fondamentaux
à ce qu’est une théorie scientifique, et à la relation de l’empirisme à la science.
On note d’ailleurs un certain nombre de ralliements à Chomsky qu’on pourrait
qualifier de partiels, mais stratégiquement cruciaux : Bar-Hillel accepte les trans-
formations de Chomsky (contre celles de Harris) en 1960 ; Hockett se rallie à
Chomsky en 1968 dans The State of the Art.
Outre la reconfiguration de la linguistique, la promotion de la linguistique
computationnelle a pour second objectif de sauver du désastre de la TA les techno­
logies du langage en plein développement. Cet aspect va toutefois marquer la
nouvelle réorganisation du sceau de l’ambiguïté. Sous couvert de « nouvelle
linguistique » computationnelle, le rapport recommande de subventionner des
recherches de tous ordres : les méthodes informatisées du traitement du lan-
gage, les outils d’aide à la découverte, permettant aux linguistes de généraliser et
de valider leurs théories, enfin les méthodes permettant aux linguistes de tester
les théories grammaticales et sémantiques, la documentation automatique, les
banques de terminologie et l’aide à la traduction… et même la TA.

5. TA, compréhension du langage naturel et intelligence artificielle

L’histoire de l’intelligence artificielle s’identifie avec l’histoire du traitement auto-


matique sur plusieurs points. La machine universelle de Turing, conçue en 1936
comme une machine à penser, capable de manipuler des symboles discrets à l’aide
de règles pour opérer des calculs, est aussi le premier automate à états finis. Elle
est ancrée dans la première mathématisation et est à l’origine de l’architecture
Von Neumann des ordinateurs. La cybernétique, et surtout la théorie de l’infor-
mation, théories unificatrices des sciences apparues dans l’immédiat après deu-
xième guerre mondiale, sont également à la jonction des deux domaines. Toute-
fois, l’institutionnalisation de l’intelligence artificielle suit un trajet parallèle, et,

les actes. Quant aux néo-bloomfieldiens, ils boycottèrent le congrès, signant ainsi leur défaite.
D’après Barsky (2011), Harris aurait lui-même cédé sa place de conférencier invité à Chomsky.
11 Traduction française ( J. Léon) : Si jamais la simulation par la machine de l’analyse et la synthèse
linguistique (ou la traduction orale simultanée) devenait possible, cela ne serait pas à cause
d’une adhésion à la linguistique en cours dans les années 1950.

36 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
même si on ne peut la considérer comme complètement indépendante, elle ne
peut être confondue avec celle de la TA. On peut situer ses débuts aux dix confé-
rences Macy12, organisées entre 1946 et 1953, dont la 5e conférence de mars 1948
voit l’émergence de la cybernétique de Wiener (voir Segal 2003). On nomme pre-
mière cybernétique l’ensemble des travaux qui ont été développés par les princi-
paux instigateurs de ces conférences, notamment McCulloch et Pitts pour lesquels
la logique est la discipline à partir de laquelle il faut aborder l’étude du fonction-
nement du cerveau. Toujours au sein des Macy Conferences et de la première
cybernétique, le « premier connexionnisme » remet en cause la prédominance
de la logique comme approche principale de la pensée : dans le cerveau, on ne
trouve ni règles, ni processeur logique et l’information n’y est pas stockée dans
des adresses précises. Le cerveau fonctionnerait plutôt à partir d’interconnexions
massives entre neurones et sur un schéma distribué qui témoigneraient d’une apti-
tude à l’auto-organisation. Le perceptron construit par Rosenblatt en 1958 est une
première tentative de fabrication d’un dispositif doté de telles capacités. Avec le
modèle cognitiviste, dont l’institutionnalisation commence avec la conférence de
Dartmouth en 1956, ces propositions sont balayées pendant une vingtaine d’an-
nées pour réapparaître à la fin des années 1970. Les années 1990 voient resurgir
certaines hypothèses de la cybernétique avec les approches néo-connexionnistes.
Rumelhart et McClelland proposent des traitements en parallèle distribués (paral-
lel distributed processing models) en opposition aux traitements symboliques en
série du cognitivisme (Rumelhart et al. 1986). L’auto-­organisation des années 1950
est reprise dans les années 1990 par les neurophysiologistes ­Humberto Maturana
et Francisco Varela (Varela 1989). Le cognitivisme prétend que l’intentionalité
(croyances, désirs, intentions) correspond à une réalité physique et mécanique de
l’intelligence et que la pensée s’effectue par une computation physique de sym-
boles. Ces symboles sont une réalité à la fois physique et sémantique et ne sont
pas réductibles au seul niveau physique (voir Dupuy 1994).
Sans entrer plus en détails dans l’histoire de l’intelligence artificielle, ce qui
excéderait notre propos, on peut néanmoins constater que ses thématiques ne
sont pas directement liées au traitement du langage, et encore moins au traite-
ment des langues. L’intelligence artificielle met la question de la simulation de
l’intelligence humaine au premier plan. C’est ce dont rendent compte les travaux
historiques et épistémologiques, déjà nombreux dès les années 1980-1990, qui
inscrivent l’intelligence artificielle dans l’histoire des sciences cognitives (Pratt

12 Les conférences Macy sont organisées par les pionniers de la cybernétique, dont McCulloch
et Rosenblueth, pour favoriser les rencontres interdisciplinaires, sous l’égide de la fondation
Josiah Macy Jr, créée en 1930 et spécialisée en recherche médicale. Seules les cinq dernières
conférences ont été publiées.

D e l a TA à l a li n g u i s t i q u e c o m p u tat i o n n e ll e e t a u TA L 37
1987, Dupuy 1994, Heims 1993, Pélissier et Tête 1995, pour ne citer que quelques
ouvrages). Or cette question est très peu évoquée dans les débuts de la TA. Aucun
projet ne se donne comme objectif de simuler la traduction humaine à l’aide d’un
ordinateur (une des raisons en est probablement la faible participation des tra-
ducteurs aux expérimentions de TA). Inversement, très peu de linguistes parti-
cipent aux conférences Macy.
Il n’y a pas véritablement de filiation cybernétique de la traduction automa-
tique. Certes, Shannon et Weaver ne sont pas indifférents à la question de la simu-
lation de la pensée par la machine. Shannon, dans son article sur la machine à
jouer aux échecs (Shannon 1950), pose explicitement la question d’une pensée
qui serait non humaine, et donne la traduction automatique comme exemple
d’application de cette capacité des machines à « raisonner » et à travailler sym-
boliquement sur des éléments conceptuels, mots ou propositions. Ce rappro-
chement entre machine à jouer aux échecs et TA est repris par Weaver dans sa
contribution à l’ouvrage The Mathematical Theory of Communication (Shannon et
Weaver 1949), où il évoque la traduction automatique d’une langue vers une autre
comme un exemple de généralisation de la théorie de l’information et défend ce
qui pourrait apparaître comme une idée forte de la simulation. Or, malgré cette
évocation répétée et le fait que la machine de Shannon pourrait s’apparenter à
un modèle d’IA faible13, ses hypothèses sont beaucoup moins ambitieuses que
celles avancées par Alan Turing (1912-1954) dans son article sur le jeu de l’imi-
tation (le test de Turing) paru en 1950. Pour Shannon, la machine ne va pas au-
delà de ce pour quoi elle a été construite. C’est un pur algorithme qui, bien que
doté d’heuristiques chargées de limiter l’explosion combinatoire des coups pos-
sibles, n’a pas, contrairement à ce que préconise Turing, de capacité d’apprentis-
sage. Quant à Weaver, ce sont les hypothèses logiques de la première cybernétique
qu’il évoque. Le théorème de McCulloch et Pitts de 1943, dit-il, spécifie « that
a robot (or a computer) constructed with regenerative loops of a certain formal cha-
racter is capable of deducing any legitimate conclusion from a finite set of premises »
(­Weaver 1955, p. 22)14. De plus, le terme de « machine à traduire », utilisé très
tôt par l’ensemble des expérimentateurs de TA, fait davantage référence à un

13 On se réfère ici à l’opposition traditionnelle entre IA forte qui postule que la machine est
susceptible de reproduire un comportement cognitif ou de simuler un organisme dans ses
relations d’adaptation avec un environnement, et l’IA faible qui postule que la machine peut
simuler un fragment d’intelligence « synthétique » dont la composition est totalement diffé-
rente mais dont le résultat, la production de représentations, est identique à ce que produirait
l’intelligence humaine.
14 Traduction française ( J. Léon) : Un robot (ou un ordinateur) comprenant des boucles regéné-
ratives formelles d’un certain type est capable de déduire n’importe quelle conclusion (bien
formée) d’un ensemble fini de prémisses.

38 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
ensemble de technologies, architectures de machine, algorithmes, et langages de
programmation spécialisés, qu’à une machine intelligente capable de traduction.
Quant à la compréhension du langage naturel qui deviendra un secteur impor-
tant de l’intelligence artificielle dans les années 1970, seul Bar-Hillel amorce une
réflexion sur ce thème parmi les acteurs de la TA. Dans l’annexe 3 de son rap-
port de 1960 consacrée à la critique de la méthode de désambiguïsation séman-
tique par thésaurus proposée par les philosophes et linguistes de la Cambridge
Language Research Unit15, il discute l’importance du contexte extralinguistique
pour les questions de compréhension du langage naturel impliquées dans la TA.
Bar-Hillel apporte un argument selon lui décisif contre la faisabilité d’une tra-
duction de bonne qualité entièrement automatisée. Soit la phrase the box was in
the pen. Le contexte linguistique de cette phrase, dit Bar-Hillel, est la suivante :
Little John was looking for his toy box. Finally he found it. The box was in the pen.
John was very happy16. Pen en anglais a deux sens (pour simplifier) : plume et parc
à bébé. Le sens parc à bébé, qui est le sens correct dans ce contexte, ne peut pas
être sélectionné par la machine faute des connaissances de sens commun néces-
saires pour identifier l’un des deux sens. Pour Bar-Hillel, la résolution de cette
ambiguïté sémantique ne peut en aucun cas utiliser le contexte, quel qu’il soit,
que ce soit un paragraphe ou un livre entier. Il faut des connaissances de sens
commun, et aucune machine n’est en mesure d’avoir ce type de savoir extralin-
guistique. Les machines sont incapables de faire des inférences ou de résoudre
des ambiguïtés sémantiques, ou encore des problèmes de polysémie.
C’est bien sûr à ce type de problème que va s’attaquer l’intelligence artifi-
cielle. Les travaux de Yorick Wilks en sémantique lexicale et intelligence arti-
ficielle viennent directement des travaux sur la TA du groupe britannique de
Cambridge (voir ci-dessous, chapitre 7). Ces travaux précèdent les premiers sys-
tèmes informatisés de compréhension du langage naturel fondés sur un modèle
computo-représentationnel, tel le système SHRDLU élaboré par Terry Wino-
grad en 1972. Enfin, l’utilisation de méthodes de la seconde cybernétique par
les sciences du langage est relativement récente ; les premières utilisations des
réseaux connexionnistes pour résoudre des problèmes d’ambiguïté dans l’ana-
lyse syntaxique datent des années 1990 (Waltz et al. 1985).

15 Voir chapitre 7 ci-dessous pour une plus ample présentation de ce groupe de TA.
16 Traduction française ( J. Léon) : Le petit John cherche sa boîte à jouets. Il finit par la trouver.
La boîte était dans le parc. John est très heureux.

D e l a TA à l a li n g u i s t i q u e c o m p u tat i o n n e ll e e t a u TA L 39
6. La constitution du TAL

Pour en revenir à la linguistique computationnelle, il est important de noter que


celle-ci ne se limite pas aux recherches théoriques aux confins de la syntaxe, de la
logique, de l’algorithmique, des grammaires formelles et des langages de program-
mation. L’appel à communications du premier colloque dans le domaine, qui a
lieu à New York en 1965, stipule que la linguistique computationnelle doit inclure
toutes les applications de l’ordinateur à des fins de traitement des ­langues natu-
relles ou artificielles. Il est admis que deux courants principaux peuvent coexis-
ter : des travaux relevant de la recherche fondamentale, à tendance linguistique
ou à tendance mathématisante, et des recherches à objectifs purement pratiques
qui acceptent une certaine marge d’erreur afin d’aboutir à des résultats concrets
dans des délais limités.
On retrouve dans la linguistique computationnelle toutes les ambiguïtés de
la TA dont va hériter le TAL. Celui-ci se situe à la croisée d’objectifs parfois dif-
ficilement compatibles, tels que fournir des outils directement dépendants de la
demande sociale et dont la rentabilité industrielle constitue un critère essentiel
d’évaluation d’une part, proposer des dispositifs dynamiques de représentation
des connaissances linguistiques d’autre part, et enfin constituer des bancs d’essai
pour la validation de théories linguistiques. Or, force est de constater que, dès les
premiers projets de TA, ces trois perspectives sont souvent intriquées.
En voulant fédérer toutes les applications sous une même étiquette, l’ALPAC
a renforcé ces ambiguïtés et les contradictions internes à la discipline ainsi pro-
mue17. Le TAL souffre encore et continuera à souffrir du manque de légitimité
induit par ces ambiguïtés. Le rapport de l’ALPAC est mis en avant comme une
tache indélébile, une malédiction qui affecte encore aujourd’hui le TAL dans
son ensemble. Ainsi, en juin 2009, lors de la célébration du cinquantenaire de
l’ATALA (Association pour le traitement automatique des langues), le représen-
tant du programme européen DG13, Pierre-Paul Sondag, a mentionné la faible
crédibilité des travaux de TAL auprès des bailleurs de fonds. Selon lui, c’est le
rapport de l’ALPAC qui en est la cause. Il est encore dans la tête des décideurs
et continue à discréditer le TAL.
Cette posture tient probablement en grande partie du mythe, dans la mesure
où bon an mal an, le TAL s’est imposé comme discipline autonome. Au milieu
des années 1980, il est intégré en tant que tel dans les cursus universitaires, avec
toutefois des réserves concernant la définition de la formation de ce qu’on peut

17 Le domaine qui sera dénommé Natural Language Processing (NLP) à partir des années 1980
et qui semble bien établi dans les années 1990, hérite à son tour de ces ambiguïtés.

40 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
appeler un « linguiste-informaticien ». Il apparaît maintenant comme théma-
tique à part entière dans les colloques de linguistique18.
Pour résumer, l’instauration du nouvel horizon de rétrospection a suivi plu-
sieurs phases. Il y a eu d’abord constitution d’une technologie au sein des sciences
de la guerre, technologie devant servir à produire des traductions rentables en
série pour des raisons économiques et stratégiques. Cette technologie, bien
qu’ayant affaire au traitement des langues, et étant menée en partie dans des
départements universitaires dirigés par des linguistes, ne comprend pas la lin-
guistique comme science de référence.
Grâce à la nécessité de traduire des textes, certains domaines vont interagir en
vue d’automatiser le traitement des langues, par la mise en algorithme de l’ana-
lyse syntaxique. Ces domaines, logique mathématique, théorie des automates,
théorie de la compilation, syntaxe, auxquels la configuration des sciences de la
guerre a conféré un statut scientifique homogène, seront à l’origine d’un nou-
veau tournant de la mathématisation de la linguistique. Cette mathématisation
repose sur une nouvelle conception de la calculabilité du langage. Les premières
grammaires de Bar-Hillel et celles de Chomsky ont été conçues dans ce cadre.
Plusieurs mouvements ont été nécessaires pour asseoir cette automatisation-
mathématisation au sein des sciences du langage :
(i)  débarrasser le nouveau domaine de son objectif pratique, la TA, entachée
de discrédit parce qu’imparfaite, non fiable, et non rentable ;
(ii)  instaurer le nouveau domaine en tant que nouvelle discipline, la linguis-
tique computationnelle ;
(iii)  annuler paradoxalement, comme on va le voir, l’horizon de rétrospec-
tion de la linguistique structurale américaine, en particulier des distributionna-
listes, alors que celui-ci, ancré dans la première mathématisation et aux sources
de la linguistique chomskyenne, faisait partie intégrante des fondements théo-
riques de la « nouvelle linguistique » ;
(iv)  maintenir la cohérence entre exigences théoriques et imperfections tech-
nologiques pour échapper au discrédit.

18 Depuis 2010, le colloque CMLF (Congrès mondial de linguistique française) accorde au TAL
une session thématique, ce qui n’était pas le cas lors de sa première édition en 2008.

D e l a TA à l a li n g u i s t i q u e c o m p u tat i o n n e ll e e t a u TA L 41
Chapitre 3

Effort de guerre, technologisation


de la linguistique et naissance
de la linguistique appliquée

Il peut paraître étrange de ranger la traduction automatique, conçue on le rap-


pelle en dehors de la linguistique, au sein de la linguistique appliquée. Pourtant,
les premières associations de linguistique appliquée, l’AILA (Association interna-
tionale de linguistique appliquée) créée en 1964, l’AFLA (Association française de
linguistique appliquée) créée en 1965, la BAAL (British Association for Applied
Linguistics) créée en 1967, et la société de langue allemande GAL (Gesellschaft
für Angewandte Linguistik) créée en 1968, comprennent parmi leurs thématiques
une importante section de traduction automatique. Le colloque de Nancy, fon-
dateur de l’AILA en 1964, a pour thème : « Semantic information in linguistics
and in machine translation ». Parallèlement, la première association de traduc-
tion automatique française, née en 1959, a pour nom l’ATALA (Association pour
l’étude et le développement de la traduction automatique et de la linguistique
appliquée), qui allie linguistique appliquée et traduction automatique. Enfin
M. A. K. Halliday, un des pionniers de la traduction automatique, consacre un
chapitre entier à ce domaine dans l’ouvrage qu’il cosigne avec Angus McIntosh
en 1966, Patterns of Language. Papers in General, Descriptive and Applied Linguistics.
Nous avancerons une tentative d’explication qui repose sur deux éléments
essentiels : la linguistique appliquée a, dès le début de sa disciplinarisation au tour-
nant des xixe et xxe siècles, été associée à des innovations technologiques ; son
essor dans les années 1950-1960 tient à la situation très particulière du contexte de
guerre et à la gigantesque machine mise en œuvre à partir de 1942 par les États-
Unis pour développer l’enseignement des langues et son outillage. C’est ainsi que
sont créés les centres, les associations, les cursus et les revues de linguistique appli-
quée, en Europe et aux USA, marquant ainsi son institutionnalisation : en Grande-­
Bretagne, la School of Applied Linguistics est créée à l’université d’Édimbourg

t e c h n o l o g i s at i o n d e l a li n g u i s t i q u e e t li n g u i s t i q u e a ppli q u é e 43
sous la ­direction de Peter Strevens en 1957. Elle est suivie en 1958 par la création du
Centre de linguistique appliquée à Besançon par Bernard Quemada. Celui-ci fonde
en 1962 la revue Études de linguistique appliquée. Le Center for Applied Linguistics
est créé aux États-Unis, à Washington, en 1959. La création de ces centres, on l’a vu,
sera suivie de celle des associations, internationales et nationales.
Dans ce chapitre, après avoir brièvement rappelé la pré-histoire de la disci-
plinarisation de la linguistique appliquée qu’on peut considérer comme ancrée
dans le domaine anglo-scandinave, nous développerons trois points : la mise en
place de l’enseignement des langues comme machine de guerre aux États-Unis ;
les liens de la linguistique appliquée avec les sciences et technologies de guerre,
notamment la traduction automatique et la cryptographie ; la spécificité de la lin-
guistique appliquée née dans ce contexte de guerre aux États-Unis.

1. Pré-histoire de la disciplinarisation de la linguistique appliquée :


le domaine anglo-scandinave

En Europe, on assiste dès le xixe siècle à diverses formes de disciplinarisation


de la linguistique appliquée (voir Linn et al. éd. 2011). Dans la sphère anglo-
scandinave, le courant dont est issue la linguistique appliquée fonde la réforme
de l’enseignement des langues sur la réforme de l’orthographe et de la phoné-
tique. Dans le domaine allemand, la linguistique appliquée est associée, dès les
années 1930, à une réflexion sur la terminologie et les vocabulaires techniques.
Dans le domaine français, la linguistique appliquée est ancrée dans les études de
vocabulaire et la lexicologie1.
Pour Linn (2008), l’institutionnalisation de la linguistique appliquée est prin-
cipalement due au développement de l’École anglo-scandinave. Celle-ci, regrou-
pant divers savants européens, forme ce qu’il appelle une « discourse community ».
Elle comprend des Britanniques, comme Henry Sweet, des Français, comme Paul
Passy, et des Scandinaves, comme Johan Storm, Otto Jespersen, Knud Olai Brekke,
Carl Knap et August Western. Ils sont à l’initiative de la création d’associations
et de sociétés savantes comme l’IPA (International Phonetic Association) ou la
société scandinave Quousque Tandem, créée en 1886 par Jespersen, Brekkle et
Western. Ils ont également créé des revues comme Le maître phonétique en 1889.
Tous sont impliqués dans le Mouvement de la Réforme, reposant sur trois
principes de transformation de l’enseignement des langues : la primauté de la

1 Pour le domaine français, voir l’étude de Coste (2012) : « À propos d’un manuel français de
linguistique appliquée ».

44 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
langue parlée et de la phonétique, la méthodologie de l’enseignement par l’oral
et la centralité du texte, notamment l’apprentissage non par mots isolés mais par
textes associés (connected texts). Ces options font rupture avec l’enseignement
traditionnel des langues du xixe siècle fondé sur l’apprentissage de longues listes
de vocabulaire et de règles de grammaire inutilisables, et sur la production de tra-
ductions littéraires sans aucune pratique orale des langues.
Plus spécifiquement dans la tradition britannique (Léon 2011b), les appli-
cations sont au cœur des préoccupations sur le langage, et, depuis le xixe siècle,
elles sont inscrites dans le programme même de la linguistique générale tout en
étant source d’innovations technologiques. Trois linguistes, Henry Sweet, John
Rupert Firth et MAK Halliday, peuvent être tenus pour les principaux théori-
ciens de cette articulation entre théorie et applications dans la linguistique des-
criptive. Pour Sweet, un des principaux animateurs du Mouvement de la Réforme,
l’écrit et l’oral sont indissociables et contribuent ensemble à l’apprentissage et
à la connaissance d’une langue. Il conçoit une nouvelle notation phonétique,
le « Broad Romic » – sur laquelle sera fondé l’IPA –, une méthode de sténogra-
phie et une réforme de l’orthographe (Sweet 1884). Firth (1957 [1936]) élabore,
à la suite de Jespersen et en collaboration avec Daniel Jones, un projet d’ortho-
graphe mondiale (a practical script) fondée sur l’alphabet latin. Un tel système
d’écriture unifié comporte des avantages « pratiques » pour l’imprimerie et l’en-
seignement, mais aussi pour le développement de la linguistique où il constitue
un cadre pour une notation scientifique. Il développe de nouveaux instruments
pour la phonétique (Firth 1957 [1950b]). Enfin, il préconise le recours aux lan-
gages restreints (voir chapitre 9) pour la traduction et pour établir les grammaires
des différentes variétés d’anglais et les grammaires scolaires. Halliday et al. (1964)
incluent la traduction automatique comme domaine d’application de la linguis-
tique et utilisent les registres, version remaniée des langages restreints de Firth,
pour promouvoir une conception « pratique » de l’enseignement des langues.

2. L’enseignement des langues comme machine de guerre aux États-Unis

2.1. Les grands programmes ILP et ASTP

Il est communément admis que la disciplinarisation de la linguistique appli-


quée aux États-Unis commence en 1941 avec l’attaque de Pearl Harbour, quand
les Américains se rendent compte de l’enjeu stratégique de l’enseignement des
­langues étrangères. Cette question est bien documentée chez des historiens
comme Murray (1993), Howatt (2004), Kaplan (2002), Linn et al. (2011), Martin-­
Nielsen (2010) et Velleman (2008), ainsi que chez des acteurs de la période et

t e c h n o l o g i s at i o n d e l a li n g u i s t i q u e e t li n g u i s t i q u e a ppli q u é e 45
du domaine comme J. Milton Cowan (1991), Robert Hall (1991), Archibald Hill
(1964), Martin Joos (1986 [1976]) ou William Moulton (1961).
La périodisation de l’émergence de la linguistique appliquée peut s’établir
entre 1941 et 1959, de la création de l’Intensive Language Program à celle du Cen-
ter for Applied Linguistics. En 1941, Mortimer Graves (1893-1982), président de
l’ACLS (American Council of Learned Societies), met en œuvre un Intensive
Language Program (ILP) pour former des étudiants aux langues étrangères. Ce
programme, qui associe la LSA (Linguistic Society of America) et plus particu-
lièrement son secrétaire J. Milton Cowan (1907-1993), a d’emblée beaucoup de
succès. Dès l’été 1942, il comprend 56 cours, en 26 langues, dans 18 universités,
pour un total de 700 étudiants (Cowan et Graves 1986 [1976]).
En juin 1941, Charles C. Fries (1887-1967) crée l’English Language Institute à
l’université du Michigan, avec le soutien financier de la Rockefeller Foundation.
Sa mission est de mener des recherches sur l’enseignement de l’anglais langue
étrangère, et de tester du matériel pédagogique à base scientifique pour l’ensei-
gnement de l’anglais.
D’avril 1943 à avril 1944, l’Army Specialized Training Program (ASTP), contre-
partie militaire de l’Intensive Language Program, est créée sous la direction d’un
linguiste (aussi major de l’armée), Henry Lee Smith. Fin 1943, ce programme a
formé 15 000 soldats en 27 langues dans le cadre de 55 universités. L’ASTP s’attache
à mettre au point une grande variété de matériel pédagogique, manuels, diction-
naires et cours de langue, notamment une série de manuels intitulés « Spoken – »
(Spoken Burmese, Spoken Chinese, etc.) devenue célèbre qui sera poursuivie après
la guerre (Moulton 1961)2. L’ASTP prendra fin brutalement en 1944.

2.2. L’implication des linguistes dans l’effort de guerre

Dans les années 1930-1940, l’enseignement des langues aux États-Unis au niveau
secondaire reste relativement peu développé, comme c’est d’ailleurs le cas dans
beaucoup de pays occidentaux, et se limite à quelques langues, latin, espagnol,
français, allemand. Centré sur la traduction et l’apprentissage de règles de gram-
maire, sa finalité ultime est la capacité de lire des œuvres littéraires. Ce n’est donc
pas aux enseignants de langues que le grand projet de l’ILP peut être confié.
C’est aux linguistes distributionnalistes néo-bloomfieldiens, qui ont acquis une
sérieuse réputation de scientificité, auxquels Mortimer Graves confie la mise en
œuvre du programme. Deux fascicules publiés en 1942 par la Linguistic Society of
America, par Bloomfield d’une part, et Bloch et Trager d’autre part, serviront de

2 Sur l’histoire de l’ASTP et de l’évaluation de ses résultats, voir Velleman (2008).

46 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
cadre méthodologique. Les conceptions de Charles C. Fries joueront un grand
rôle dans la théorisation et la méthodologisation de l’enseignement des langues.

2.2.1. Bloomfield, Bloch et Trager. Le Mouvement de la Réforme


et les méthodes de l’anthropologie linguistique

Dans son Introduction to the Study of Language de 1914, Bloomfield (1887-1949)


cite Henry Sweet, Paul Passy, Eduard Sievers et Jespersen. Il préconise l’enseigne-
ment de la phonétique pour l’apprentissage des langues, suivant en cela les prin-
cipes du Mouvement de la Réforme. Il critique la méthode d’enseignement fon-
dée sur la traduction et affirme la primauté de l’écoute sur la lecture et l’écriture.
Enfin, il promeut le recours au contexte, notamment celui de la classe : utilisa-
tion de formules de salutations, de phrases courtes sur les objets de la classe, etc.
[…] translation into the pupil’s native language or other explicatory use of it must be
avoided, for two reasons. The terms of the native language are misleading, because the
content of any word or sentence of the foreign language is always different from any approxi-
mate correspondent in the native language. […] the second reason for the avoidance of
translation is that, in the association of the foreign word with the native one, the latter
will always remain the dominant feature, and the former will be forgotten. […] Instead
of translation the work with a text should consist of repeated use of its content in hearing,
reading, speaking and writing. (Bloomfield 1914, p. 292)3
Dans son fascicule de 1942, An Outline Guide for the Practical Study of Foreign
Languages, Bloomfield établit un certain nombre de directives pratiques desti-
nées à l’enseignement des langues étrangères. L’objectif est que l’élève apprenne
prioritairement à comprendre et à parler. En plus des principes du Mouvement
de la Réforme, il se fonde sur les méthodes de terrain utilisées par les anthropo-
logues linguistes pour décrire les langues amérindiennes sans écriture. Le prin-
cipe de base est qu’on peut comprendre et parler une langue simplement en imi-
tant un locuteur natif, appelé informateur. Toutefois le locuteur natif n’est pas un
enseignant, et n’est pas capable de formulations théoriques. Seul le linguiste en
est capable. Ce sont donc des couples informateur-linguiste qui sont les plus à

3 Traduction française ( J. Léon) : Il faut éviter pour deux raisons la traduction dans la langue
native de l’élève ou toute utilisation de celle-ci à des visées d’explication. Les termes de la
langue native sont trompeurs parce que le contenu d’un mot ou d’une phrase de la langue
étrangère est toujours différent de son correspondant approximatif dans la langue native… la
seconde raison pour laquelle il faut éviter la traduction tient à ce que, dans l’association des
mots étranger et natif, ce dernier restera toujours le trait dominant et le premier sera toujours
oublié… au lieu de traduction, le travail sur le texte doit consister en l’usage répété de son
contenu en privilégiant l’audition, la lecture, la parole et l’écriture.

t e c h n o l o g i s at i o n d e l a li n g u i s t i q u e e t li n g u i s t i q u e a ppli q u é e 47
même d’enseigner les langues, afin de privilégier l’imitation, la mémorisation et
l’entraînement (drill). La méthode est désignée sous le terme de ­« ­mim-mem »
pour « mimicry-memorization ». Le recours aux instruments d’analyse de la parole
et aux magnétophones, encore peu développés, est fortement recommandé. Le
linguiste est également chargé de produire du matériel pédagogique fondé sur
une analyse exhaustive des langues étudiées. Les grammaires et dictionnaires sont
élaborés de façon inductive. Le fascicule de Bloch et Trager Outline of Linguistic
Analysis, également publié en 1942, joue un rôle complémentaire, et explicite les
techniques d’analyse des langues. La méthode ainsi mise au point sera désignée
sous le nom de « war method » ou « army method » (Moulton 1961).

2.2.2. Charles Fries, l’analyse contrastive et la méthode structurale

Auteur dès 1927 de travaux sur l’enseignement des langues, Charles Carpenter
Fries propose dans son ouvrage American English Grammar, publié en 1940, une
méthode fondée sur l’analyse contrastive. Il met en pratique cette méthode au
sein de l’English Language Institute créé à l’université du Michigan en 1941. Elle
consiste à comparer les structures des deux langues, la langue maternelle et la
langue étrangère, de façon à prédire et anticiper les difficultés que peut rencon-
trer l’apprenant. Les exercices de répétition proposés par Bloomfield doivent
être complétés par un choix actif de patterns structuraux de la part de l’appre-
nant, d’où son nom de « méthode structurale ». Comme Bloomfield, Fries porte
énormément d’attention au matériel pédagogique qui doit être fondé sur une ana-
lyse structurale effectuée par un linguiste. Cette méthode sera largement adoptée
après la publication en 1945 d’un second ouvrage, Teaching and Learning English
as a Foreign Language. Il faut enfin signaler que Fries fonde en 1948 une revue
appelée Language Learning : a quarterly journal of applied linguistics, forgeant ainsi
le terme de « linguistique appliquée ».

3. Méthode opérationnelle et liens avec les sciences de la guerre

La méthode opérationnelle a été appliquée à l’effort de guerre en matière d’ensei-


gnement des langues. Celle-ci, rappelons-le, consiste à définir un objectif unique
financé en grande partie par l’État, impliquant des moyens techniques et humains
considérables, et dont un des objectifs principaux est d’automatiser les tâches.
C’est ainsi que tous les linguistes du pays se sont trouvés impliqués dans l’ef-
fort de guerre, pour une grande part au sein de l’ILP. En témoignent les autobio-
graphies publiées dans la série First Person Singular (Davis et O’Cain 1980, Kœr-
ner 1991). En plus de l’important financement de la part de l’État fédéral, les

48 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
fondations philanthropiques, la Rockefeller Foundation, puis la Ford Founda-
tion apportent leur soutien financier. La production massive de matériel péda-
gogique et l’utilisation d’aides technologiques montrent le souci d’outiller l’en-
seignement des langues. Un autre facteur rend nécessaire ce recours aux aides
technologiques, qui est le faible nombre de linguistes aux États-Unis à l’époque.
Il faut ajouter que très peu de linguistes se sont trouvés à la croisée de l’ensei-
gnement des langues et des technologies de guerre, même si celles-ci auront des
retombées importantes sur la technologisation de l’enseignement. Deux person-
nalités sont ici à signaler. Martin Joos, ingénieur de formation, a travaillé direc-
tement au chiffre et a développé des dispositifs d’aide à l’enseignement des lan-
gues. Leon Dostert, traducteur et expérimentateur en traduction automatique, a
joué un grand rôle dans la promotion de la linguistique appliquée.

3.1. Martin Joos : cryptographie, spectrographes et instrumentation


pour l’enseignement des langues

Selon Cowan (1991, p. 81), de nombreux linguistes ont participé au chiffre : « there


were also the Martin Jooses, Arch Hills, Win Lehmanns, Budd Claritys, John Seamans,
Bill W. S. Smiths, Al Hayses, and others working in quiet anonymity while cracking
German and Japanese codes and training a generation of youngsters in the art »4.
Toutefois, les intéressés eux-mêmes sont restés discrets sur cette activité dans
leur autobiographie. Et avec Cowan, Martin Joos est le seul à en avoir témoigné.
Il relate notamment les jeux reposant sur l’activité de codage auxquels s’adon-
naient les linguistes ( Joos 1986 [1976], p. 118) :
FUNEM ? / Ef U En E Em / Have you any ham ?/
YSIF M / Y Es I Ef Em / Why yes, I have ham/
FUNEX ? / Ef U En E Ex / Have you any eggs ?/
X ?OEFX / Ex O E Ef Ex/Eggs ? / Oh, we have eggs/
OKMNX ! / OK Em En Ex / OK, ham and eggs !/
Même Bloomfield se prêtait au jeu, ainsi que le montre son choix d’un pseu-
donyme comme auteur d’un manuel de russe ( Joos (1986 [1976], p. 118) :
« Prof Dr. Ignaius Mendeleeff Lesnin / I. M. Lesnin / I am listening »
Les linguistes qui ont travaillé au chiffre à Arlington Hall (Virginie), siège de
l’US Army’s Signal Intelligence Service, sont pour la plupart employés comme

4 Traduction française ( J. Léon) : Il y avait aussi les Martin Joos, Arch Hill, Win Lehmann,
Budd Clarity, John Seaman, Bill W. S. Smith, Al Hays et beaucoup d’autres qui travaillaient
tranquillement et déchiffraient de façon anonyme les codes des Allemands et des Japonais,
tout en formant une génération de jeunes à cette activité.

t e c h n o l o g i s at i o n d e l a li n g u i s t i q u e e t li n g u i s t i q u e a ppli q u é e 49
traducteurs pour les langues rares. Martin Joos (1907-1978) est le seul qui ait
­participé à la conception et au développement de méthodes et d’appareillages
servant au codage et décodage5. Né dans le Wisconsin et bilingue anglais-alle-
mand, il a une double formation, un diplôme d’ingénieur en électricité et une
thèse en phonétique ( Joos 1942), qui le qualifie pour la cryptologie et les ser-
vices secrets. En collaboration avec les Bell Labs (où il côtoie probablement Shan-
non), il travaille à l’amélioration du Sound Spectrograph, instrument le plus en
pointe à l’époque en matière d’enregistrement et d’analyse du son. Son utilisa-
tion permet notamment de décrypter des messages téléphoniques brouillés. Le
Sound Spectrograph le conduit à développer une nouvelle approche des sons en
linguistique, la phonétique acoustique, qu’il publie en 19486.
Les spectrographes et la phonétique acoustique ont joué un rôle central dans
l’élaboration des technologies pour l’enseignement des langues, l’analyse et la
synthèse de la parole, et plus généralement le développement des laboratoires
de langue. Joos, par sa double activité d’ingénierie pour la cryptographie et d’en-
seignement des langues, fut sans doute le seul linguiste réellement impliqué dans
les sciences de la guerre. Ainsi, il écrit un manuel d’enseignement du néerlan-
dais pour l’ILS et l’ASTP et, en 1945, il conçoit un appareil, le Speech Stretcher,
destiné à aider les étudiants à améliorer leur prononciation ( Joos 1951, p. 70).

3.2. Leon Dostert : traduction automatique et linguistique appliquée

Le second domaine est la traduction automatique. On l’a vu (voir chapitre 1),


l’idée de traduction automatique serait née pendant la guerre à Arlington Hall au
sein des équipes de cryptographie où mathématiciens et linguistes traducteurs se
lançaient mutuellement des défis. Les options des mathématiciens et ingénieurs
étaient dominantes, ce qui se confirmera avec les premières expériences menées au
début des années 1950. Léon Dostert (1904-1971) fait figure d’exception en alliant
activités d’enseignement des langues et de traduction automatique7. ­Dostert a
travaillé comme interprète lors du procès de Nuremberg. Il fonde l’Institute of
Languages and Linguistics à l’université de Georgetown en 1949, et organise tous
les ans des tables rondes sur les rapports entre linguistique et enseignement des
langues qui sont publiées dans les Monograph Series on Languages and Linguis-

5 Pour la biographie de Martin Joos, voir Hill (1979).


6 Sur le rôle de Martin Joos, et le développement de la notion de code en télécommunications,
en cryptologie et en linguistique, voir Fehr (2000).
7 À noter que Michael Halliday en Grande-Bretagne et Bernard Pottier en France ont également
été des pionniers à la fois de la linguistique appliquée et de la traduction automatique (Léon
2001, 2007a).

50 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
tics. Il est nommé président de la National Federation of Modern Language Tea-
chers Associations en 1960. Par ailleurs, Dostert joue un rôle fondamental dans
les débuts de la TA. Il dirige le projet de Georgetown qui aboutit à la création
du Systran, un système de TA existant encore à l’heure actuelle sous forme inte-
ractive sur Internet. En janvier 1954, il organise à New York la première démons-
tration de TA sur ordinateur, en collaboration avec IBM. Comme Joos, Dos-
tert invente un instrument pour l’enseignement des langues, un magnétophone
double piste grâce auquel l’étudiant peut s’enregistrer et se réécouter juste après
avoir entendu le modèle (Dostert 1954). Il n’est donc pas surprenant que l’Ins-
titute of Languages and Linguistics ait été un pionnier de l’utilisation de tech-
nologies de pointe pour l’enseignement. Chacun des comptes rendus des tables
rondes comprend une rubrique sur les aides technologiques et les laboratoires
de langue. La table ronde de 1957 est entièrement consacrée à la TA et, dès 1955,
les Monograph Series publient régulièrement des articles dans le domaine.
Ainsi, aux États-Unis, ce lien étroit entre développements technologiques,
enseignement des langues et linguistique appliquée doit être interprété dans le
cadre de la culture de guerre.

4. L’Army method et l’enseignement des langues dans l’après-guerre

En dépit de critiques sévères et de débats mouvementés (Velleman 2008), l’Army


Specialized Training Program a connu un succès avéré auprès du public. Après
la guerre, les linguistes et les enseignants de langue ont dû faire face à un nou-
veau défi : comment conserver la dynamique du temps de guerre et transférer les
méthodes conçues dans le cadre de l’ILP et l’ASTP dans l’enseignement secon-
daire et universitaire.
En fait, malgré le soutien de la Rockefeller Foundation qui, dès 1943, organise
un colloque réunissant des linguistes et des enseignants des langues dans le but
d’explorer les possibilités d’un tel transfert, et les efforts de l’université de George-
town qui organise une table ronde en 1950 sur les besoins du gouvernement en
enseignement des langues8, on constate une désaffection de l’État ­fédéral dans
les programmes d’enseignement des langues au niveau scolaire et universitaire.

8 Lors de cette table ronde, Mortimer Graves réaffirme le rôle stratégique des langues étran-
gères : « ideological world war III has started and there is no certainty that it is well won yet… In
this war for men’s minds, obviously the big guns of our armament is competence in languages and
linguistics » (Graves, 1951).
Traduction française ( J. Léon) : la troisième guerre mondiale idéologique a commencé et il
n’y a aucune assurance qu’elle soit déjà gagnée… Dans cette guerre de l’esprit humain, nos
armes les plus importantes sont notre compétence en langues et en linguistique.

t e c h n o l o g i s at i o n d e l a li n g u i s t i q u e e t li n g u i s t i q u e a ppli q u é e 51
Seuls les programmes directement liés à la guerre froide sont financés, comme le
programme de formation de l’armée à Monterey en Californie (the Army Lan-
guage School) ou bien ceux qui prennent une importance géostratégique comme
l’enseignement de l’anglais en Amérique Latine, en Asie et même en Afrique9. À
cette fin, on crée en 1946 le programme d’enseignement des langues du Foreign
Service Institute (FSI) au State Department de Washington, sous la direction
d’Henry Lee Smith, l’ancien directeur de l’ASTP, où est appliquée l’Army method.
Par ailleurs, afin de développer l’enseignement des langues au niveau scolaire
et universitaire, et appliquer l’Army method, qui exige l’intervention d’un grand
nombre de couples linguistes-locuteurs natifs, il faut augmenter le nombre de
linguistes. Or, une fois disparue la contrainte imposée par l’effort de guerre, les
linguistes américains ne s’intéressent que très peu à l’enseignement des ­langues,
considéré comme une tâche peu intellectuelle10. Ferguson (1959) note que les
revues américaines de linguistique telles Language, Word, Studies in Linguis-
tics, Anthropological Linguistics, General Linguistics et IJAL contiennent très peu
d’­articles sur l’application de la linguistique à l’enseignement des langues.
Une des façons de faire face au manque de linguistes est de développer l’assis­
tance technologique : magnétophones, spectrographes, laboratoires de langue, etc.
En conformité avec l’idéologie de la méthode opérationnelle, les outils techno-
logiques remplacent ou renforcent l’intervention du locuteur natif, facilitent la
répétition orale intensive et permettent à l’étudiant de contrôler sa prononcia-
tion. On a vu que des personnalités clés du domaine comme Joos et Dostert, ont
développé leurs propres appareils. Après la guerre, ces technologies deviennent
économiquement abordables pour les établissements d’enseignement. Enfin, le
programme de publication de manuels de langues, la série Spoken Language, est
repris, amplifié et développé pour de nouvelles langues.
Une autre façon de pallier le manque de linguistes est de former les ensei-
gnants de langues à la linguistique. Pour utiliser les nouvelles technologies et le
matériel pédagogique construit à partir d’un savoir linguistique complexe, les
enseignants ont besoin d’une formation dans le domaine. C’est du moins ce que
préconise Joos. Pulgram incite aussi les enseignants à se former en linguistique :

9 L’Afrique, considérée comme hors de portée des missiles soviétiques, devient pour les Amé-
ricains un enjeu majeur pour la guerre froide.
10 Contrairement à ce qui se passe dans la tradition Britannique (voir chapitre 6). Comme le
signale Hockett : « all modern foreign languages taught at Cornell are taught at the undergraduate
level ; at that University there is no major in languages. Learning a foreign language is not essentially
an intellectual task » (Hockett 1952, p. 3).
Traduction française ( J. Léon) : Toutes les langues vivantes étrangères enseignées à Cornell
le sont au niveau licence ; il n’y a pas de diplôme spécialisé en langues étrangères. Apprendre
une langue étrangère, foncièrement, n’est pas une activité intellectuelle.

52 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
There is no reason for non-linguist teachers of languages to sit back and wait and limit their
activity to sniping complaints and bemused or hostile incredulity… Good teaching of lan-
guages requires not a bag of tricks but professional preparation (in linguistics, not in Edu-
cation !). (Pulgram 1954, p. 80-83)11
Toutefois, ce projet rencontre nombre d’obstacles et suscite de l’hostilité chez
les enseignants. L’enseignement des langues est encore associé à l’apprentissage
de la langue écrite, à l’aide de la traduction, avec comme objectif premier l’en-
seignement de la littérature. Par ailleurs, de la même façon que l’enseignement
des langues n’intéresse pas les linguistes, la linguistique n’intéresse pas les ensei-
gnants de langues. Celle-ci ne peut pas être imposée de l’extérieur de façon brutale.
Fries (1949) identifie la source des malentendus entre linguistes et enseignants de
langues : pour la plupart des enseignants, ce qui est nouveau et intéressant dans
l’Army method c’est son caractère intensif et son insistance sur l’oral ; ils consi-
dèrent tout discours sur l’enseignement fondé sur des principes linguistiques et
supervisé par un linguiste comme du corporatisme, voire de l’arrogance. Un cer-
tain nombre d’institutions sont créées dans le but explicite d’encourager la coo-
pération entre linguistes et enseignants des langues : outre les tables rondes du
Georgetown Institute of Language, le NDEA (National Defense Education Act),
promulgué en 1958 et destiné à renforcer l’enseignement des sciences, des mathé-
matiques et des langues étrangères ; en 1959 est créé le Center for Applied Lin-
guistics et à sa suite douze instituts pour la formation en linguistique des ensei-
gnants du primaire et du secondaire. Toutefois, des doutes demeurent quant à
la pertinence d’une telle démarche : en 1962, Mildenberger, du Department of
Health, Education and Welfare, se demande si la linguistique peut véritablement
être appliquée dans l’enseignement des langues au niveau scolaire12.
Le Center for Applied Linguistics ne veut d’ailleurs pas se limiter à l’ensei-
gnement des langues. Son directeur, Charles Ferguson, dans un article du bulle-
tin du Centre, The Linguistic Reporter, parle de l’application des méthodes et des
résultats de la science linguistique aux problèmes pratiques des langues et du
langage en définissant quatre secteurs importants de la linguistique appliquée :
(i)  l’enseignement des langues ; (ii)  l’alphabétisation ; (iii)  la traduction et l’in-
terprétation ; (iv)  les politiques linguistiques. Dans le même numéro, le directeur
adjoint Raleigh Morgan Jr. liste les différents domaines où la ­coopération entre

11 Traduction française ( J. Léon) : Les enseignants non linguistes n’ont aucune raison de rester
sans rien faire, d’attendre et de limiter leurs activités à des plaintes railleuses ou à une incrédulité
sceptique ou hostile… Bien enseigner les langues requiert non un sac de recettes mais une
préparation professionnelle (en linguistique, pas en didactique !).
12 « Perhaps linguistics does not have any applied role in language teaching in the schools » (Milden-
berger 1962, p. 161).

t e c h n o l o g i s at i o n d e l a li n g u i s t i q u e e t li n g u i s t i q u e a ppli q u é e 53
linguistes, psychologues et enseignants de langues peut être renforcée, outre l’en-
seignement des langues : le diagnostic des pathologies du langage, l’analyse stylis-
tique en littérature, les études culturelles et les programmes d’alphabétisation, etc.
Cette prédominance de la linguistique a marqué l’histoire de la linguistique
appliquée américaine. Les spécialistes comme les historiens de la linguistique
appliquée (Davies 1990, Howatt 2004) continuent de désigner le domaine sous
les termes de « linguistics-applied », « linguistics-driven », « theory-driven view of
applied linguistics », suggérant que les questions sont traitées trop théoriquement
et sans appréhension des problèmes du monde réel (real-world problems). Depuis,
la linguistique appliquée s’est internationnalisée, de même que ses méthodes.
L’utilisation des technologies, notamment les laboratoires de langues issus de
la culture de guerre, s’est généralisée à partir des années 1960-1970. Pour ce qui
concerne la traduction automatique, elle s’est trouvée associée à la linguistique
appliquée dès les années 1950, notamment au sein de l’université Georgetown,
et aux travaux de Leon Dostert dans les deux domaines, traduction automatique
et enseignement des langues. Grâce aux tables rondes réunissant linguistes, ingé-
nieurs et enseignants de langues, et à leur publication dans les Monograph Series
on Languages and Linguistics, l’université Georgetown a joué un rôle essentiel
dans la disciplinarisation de la linguistique appliquée et du traitement automa-
tique des langues. Ces deux domaines pionniers ont coopéré et se sont assistés
mutuellement pendant les premières années de leur existence. C’est en particu-
lier le cas de la revue de l’ATALA TA informations qui a accueilli, de 1965 à 1970,
une rubrique « Nouvelles de l’AILA. Applied linguistics news », favorisant ainsi
l’institutionnalisation de la linguistique appliquée13.

13 Voir d’ailleurs que, pour son 40e anniversaire, le colloque de l’AILA de 2014 propose de revisiter
les trois thèmes du premier colloque de 1964, soit dans l’ordre : la traduction automatique,
l’enseignement des langues et la coopération de la recherche en Europe [http://www.aila2014.
com/program_overview.html], consulté le 26 janvier 2015.

54 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Chapitre 4

La théorie de l’information :
transfert de termes, concepts et méthodes

La théorie de l’information est au cœur des sciences de la guerre. Bien que la


notion scientifique d’information existe depuis les années 1920, elle prend son
essor avec la publication simultanée, en 1948, de Cybernetics de Norbert Wiener,
et des articles de Shannon dans le Bell System Technical Journal, relayés par l’ou-
vrage The Mathematical Theory of Communication co-signé par Shannon et Weaver
en 1949. Weaver et Shannon sont impliqués dans les sciences de la guerre. Que
ce soit au sein des Bell Laboratories ou bien du MIT, Shannon s’attache à amélio-
rer les techniques de cryptographie et à développer le contrôle anti-aérien. Les
dénominations qui désignent la théorie de l’information sont diverses, à com-
mencer par les titres des ouvrages pionniers : « cybernétique », « théorie de
l’information », « théorie (mathématique) de la communication ». Comme le
signale Segal (2003), en Europe on entend généralement par « théorie de l’infor­
mation » le regroupement de la théorie de la communication et de la cyberné-
tique, alors qu’aux États-Unis, c’est souvent la cybernétique qui englobe les deux
autres. Par ailleurs, les Américains s’intéressent davantage à l’aspect quantitatif
de l’information tel que développé par Shannon, alors que les Britanniques, tel
Colin Cherry avec lequel Jakobson a collaboré, s’intéressent plutôt au versant
communicationnel de la théorie. Quant à la France, la théorie de l’information
est discutée par des mathématiciens, comme Benoît Mandelbrot ou Marcel-­
Paul Schützenberger.
Cette diversité est à l’image de l’intérêt considérable que suscite la théorie
de l’information chez les scientifiques de tous horizons. Elle va donner lieu à de
très nombreux travaux d’ailleurs souvent disparates. L’information et les notions
associées sont utilisées de façon parfois métaphorique, voire erronée. La théorie
de l’information devient une sorte d’auberge espagnole dénoncée par ­Shannon

L a t h é o r i e d e l’ i n f o r m at i o n 55
lui-même (« The Bandwagon », 1956), dans laquelle s’engouffrent toutes les
­disciplines. La linguistique elle aussi va sauter dans le train (jump on the bandwa-
gon), et c’est Shannon lui-même qui va l’y entraîner. Absente des sciences de la
guerre, la linguistique n’est pas non plus très représentée dans les Macy Confe-
rences1. Jakobson, invité à la 5e conférence de 1948, puis Yuen Ren Chao et Bar-
Hillel, invités à la 10e conférence de 1953, sont les seuls linguistes à y avoir parti-
cipé. Quant à Claude Shannon, invité à la 6e conférence en 1949, il intervient sur
la redondance de l’anglais. Cette question constitue un des points du traitement
du langage abordés dans l’ouvrage de Shannon et Weaver, avec les automates à
états finis, les chaînes de Markov qui introduisent la notion de probabilité dans
l’étude des langues2, la redondance des langues et le schéma de communication.
Shannon mentionne également les travaux de Zipf sur les fréquences de vocabu-
laire au moment de la définition du calcul de l’entropie de l’anglais3.
La théorie de l’information offre une large panoplie de nouvelles méthodes
et de nouvelles notions qui tentent un certain nombre de linguistes. Alors que
la linguistique computationnelle a été forgée en partie par des linguistes à l’in-
térieur de l’horizon de rétrospection construit par la TA, la théorie de l’infor-
mation est importée de l’extérieur, en pièces détachées et à la demande. Ainsi,
comme pour les autres sciences, l’utilisation de la théorie de l’information par
les linguistes est hétérogène, voire disparate, et on parlera diversement de trans-
fert de concepts et de méthodes, de réception ou d’intégration.
Dans ce chapitre, après un parcours de l’utilisation d’information comme
terme et notion, nous examinerons trois modes d’intégration par la linguistique
de la théorie de l’information : un mode d’intégration par adaptation chez les
néo-bloomfieldiens et en particulier chez Harris, un cas de convergence entre
théorie de l’information, ingénierie et linguistique dans la théorie des traits dis-
tinctifs de Jakobson, un cas de transfert de concepts dans la linguistique struc-
turale française.

1 Voir chapitre 2, note 12.


2 Andrei Andrejevich Markov (1856-1922), a étudié un certain nombre de textes littéraires, dont
Eugène Onéguine de Pouchkine, en les traitant sous forme de séquences stochastiques de carac-
tères. Une chaîne de Markov est un automate à états finis dont les transitions d’un état à un
autre sont réglées par des probabilités. En 1948, Shannon a proposé un modèle statistique des
séquences de lettres dans un texte en anglais, fondé sur les chaînes de Markov.
3 Selon Segal (2003), Zipf aboutit dans son article de 1946 intitulé « Quelques éléments déter-
minants de la circulation d’information », à une définition mathématique de la « quantité
d’information » proche de celle de Shannon.

56 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
1. Information : terme et notion

Le terme d’information est intéressant par son instabilité même. Il met en concur-
rence un sens ordinaire, le sens technique que lui donne la théorie de l’informa-
tion, et le sens de contenu d’information, plus sémantique. Information est un
terme du langage ordinaire, mais son usage en linguistique est variable. Alors
qu’en France, le terme n’est quasiment pas utilisé par les linguistes en ce sens,
son usage est courant aux États-Unis avec le sens ordinaire de l’anglais américain,
à savoir « donnée, fait ou connaissance ». Harris, par exemple, l’utilise dans ce
sens au début de son œuvre, de 1942 à 1952.
C’est à partir des années 1920, en physique, en statistique et en télécommu-
nications, que commence à émerger l’information comme notion scientifique
et technique dans un sens bien différent de son usage commun. Plus tard, à par-
tir de la seconde guerre mondiale, des ingénieurs, physiciens et mathématiciens
appellent information la grandeur qui caractérise différents modes de commu-
nication, qui s’apparente à l’entropie de la thermodynamique et qui permet de
déterminer la capacité de stockage ou de traitement des ordinateurs, à condition
de renoncer à toute dimension sémantique du terme information. Cette notion
mathématique d’information reste au plus près de son sens étymologique, à savoir
la mise en forme du signal. Sur le plan des télécommunications, il s’agit pour la
Bell Telephone Company d’évaluer les conditions les plus économiques qui per-
mettent de faire passer le plus grand nombre possible de communications sur
un seul fil, c’est-à-dire de transmettre des mots que les gens reconnaissent. Ces
travaux trouvèrent leur aboutissement avec les travaux de Shannon et Weaver.
Toutefois, dès son apparition comme terme scientifique, une confusion existe
entre information-contenu et information-signal. En proposant une théorie séman-
tique de l’information (voir l’intervention de Bar-Hillel à la 10e conférence Macy),
Carnap et Bar-Hillel (1952) dénoncent la confusion qui aurait été introduite dans
un article de 1928 par Hartley, un des théoriciens fondateurs de l’information, entre
l’information comme signal, à savoir une mesure purement quantitative et probabi-
liste, véritable objet de la théorie de l’information, et l’information comme contenu
(Hartley 1928). Bar-Hillel propose alors deux termes pour rendre compte des deux
dimensions de l’information, la « théorie de la transmission du signal » dont l’­objet
est le traitement des messages en tant que séquences de signaux, et la « théorie de
la transmission de l’information » pour le traitement des messages en tant que por-
teurs de sens. C’est vers ce dernier sens, sémantique, que, curieusement, vont déri-
ver ou converger les différentes approches linguistiques.
À partir des années 1950-1960, on voit apparaître dans les travaux de linguis-
tique des termes entièrement nouveaux ou qui se chargent d’un sens spécifique,
dans le sillage de la théorie de l’information. Certains sont issus de la théorie de

L a t h é o r i e d e l’ i n f o r m at i o n 57
la communication comme code4, codage, décodage, transcodage, message, commu-
nication, émetteur, récepteur, locuteur, interlocuteur, émission, réception, transmis-
sion, signal, signaux ; d’autres appartiennent à la cybernétique comme feedback
ou contrôle. Enfin, certains termes réfèrent davantage à la partie quantitative de
la théorie comme information, quantité d’information, probabilités, chaînes de Mar-
kov, redondance, bruits, entropie, coût ou rendement…
La façon dont s’effectue la migration de ces termes en linguistique est très
variable et détermine le statut de la réception de la théorie de l’information. Elle
dépend de leur proximité avec les notions et/ou méthodes de la théorie linguis-
tique concernée, ou bien de la potentialité de la métaphorisation et de ses effets
sur la théorie.

2. Théorie de l’information et néo-bloomfieldiens :


un mode d’intégration par adaptation

Comme la TA et la linguistique computationnelle, la théorie de l’information


est apparue aux États-Unis dans un horizon de rétrospection partagé par l’en-
semble des scientifiques américains, y compris les linguistes. Ce sont les travaux
de Shannon, on l’a dit, qui, au sein de la trilogie cybernétique-communication-
information, sont les plus connus des scientifiques américains. Son approche du
traitement des langues naturelles à travers les propriétés quantitatives, notam-
ment de redondance des langues naturelles et de non-équiprobabilité des élé-
ments linguistiques, est familière aux linguistes américains des années 19505, à
tel point que certains d’entre eux négligent même de citer explicitement la théo-
rie de l’information lorsqu’ils parlent de redondance ou de chaînes de Markov.
La linguistique bloomfieldienne a des caractéristiques qui facilitent la compré-
hension et l’adoption de la théorie de l’information au sein de ses méthodes d’ana-
lyse. L’approche behaviouriste et sa conception du langage en tant qu’ensemble
d’événements physiques (sounds and ink marks)6 sont tout à fait compatibles avec

4 Il faut préciser que le terme de code est déjà utilisé par Saussure. Depuis, la notion de code
est pour les linguistes au cœur de leurs réflexions sur les rapports entre langue parlée et écrite,
entre parole et écriture (Fehr 2003).
5 Hockett (1953) consacre dans Language un long article critique d’une trentaine de pages à
l’ouvrage de Shannon et Weaver.
6 «  It [language] can be objectively studied if one considers speech and writing not as an expression
of the speaker which has particular, introspectively recognized, meanings to the hearer ; but rather
as a set of events – sound waves or ink marks – which may be said, if we wish, to serve as tool or
vehicle for communication and expression. This set of events, the many occurrences of speaking and
of writing, can be described in terms of a structural model » (Harris 1959, p. 458).

58 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
le traitement des « signaux » de la théorie de l’information. Les deux approches
partagent l’idée que le sens n’est pas pertinent, et que l’utilisation de méthodes
quantitatives et probabilistes est tout à fait adaptée pour l’analyse linguistique7.
De plus, l’analyse distributionnelle présente des aspects qui la rendent particu-
lièrement réceptive à certains aspects de la théorie de l’information ; c’est notam-
ment le cas de la répétition comme opération centrale dans les procédures de
découverte, faisant écho à la notion de redondance dans la théorie de l’informa-
tion. La répétition est ce qui permet de délimiter des unités linguistiques au sein
d’un énoncé et de déterminer des classes d’équivalence sans avoir recours au sens.
Ainsi Hockett (1953) affirme que la redondance des langues est étroitement liée à
leur structure et que le linguiste, contrairement à l’ingénieur en télécommunica-
tions, doit procéder à certaines opérations linguistiques pour « découvrir » ses
unités à partir du signal sonore quand il commence à décrire une langue (non
écrite). Selon lui, le groupement des allophones en phonèmes peut être établi
dans les termes de la théorie de l’information, en particulier en termes d’entropie.
En ce qui concerne Harris8, bien qu’il ne fasse référence explicitement à
la théorie de l’information qu’en 1968, il en emprunte et adapte les méthodes
et les concepts beaucoup plus tôt, ainsi les notions de redondance et de non-­
équiprobabilité des éléments linguistiques, les probabilités transitionnelles à
l’œuvre dans les chaînes de Markov et le traitement de la parole et de la chaîne
écrite en tant qu’événements physiques. On peut dire que sa propre conception
de l’information, qu’il développera dans ses derniers travaux (Harris 1988 et 1991),
bien que très différente de celle de Shannon et Weaver, en est directement inspirée.
Pour Harris, la répétition, au fondement de la construction des classes d’équi-
valence, apparaît en 1952 dans son article « Discourse analysis ». Répétition
n’implique toutefois pas fréquence élevée : les éléments linguistiques sont des
­événements qui apparaissent ou n’apparaissent pas, et qui doivent donc être

Traduction française ( J. Léon) : Le langage peut être étudié objectivement si on considère la


parole et l’écriture non comme une expression du locuteur qui a des significations particu-
lières, reconnues introspectivement par l’auditeur ; mais plutôt comme un ensemble d’événe-
ments – des ondes sonores et des taches d’encre – dont on peut dire, si l’on veut, qu’elles servent
d’outils ou de véhicules à la communication et l’expression. Cet ensemble d’événements, les
occurrences de parole et d’écriture, peut être décrit par un modèle structural.
7 Voir l’exergue figurant en tête de l’article de Cherry, Halle et Jakobson (1953, p. 34), et reprenant une
citation de Bloomfield sur les liens entre linguistique et études quantitatives : « the logical demand
that a science speak in quantitative terms is met by linguistics because it speaks in terms of phoneme ».
Traduction française ( J. Léon) : La demande logique qu’une science parle en termes quantitatifs
trouve un écho en linguistique parce que celle-ci parle en termes de phonèmes.
8 Pour une étude plus détaillée de la place de la théorie de l’information dans l’œuvre de Harris
voir Léon (2011a).

L a t h é o r i e d e l’ i n f o r m at i o n 59
t­ raités par des méthodes probabilistes plutôt que par des méthodes statistiques.
En 1954, Harris avance l’idée que les langues ne sont pas équiprobables (idée déjà
formulée par Shannon en 1948) et que ce principe doit servir de base à l’établis-
sement des classes d’équivalence.
Harris (1955) utilise les chaînes de Markov et les n-grammes pour détermi-
ner les frontières des morphèmes dans un énoncé analysé comme une suite de
phonèmes. Il met au point une procédure qui traite les morphèmes comme des
unités de code prédictibles, que l’on peut découvrir en comparant la combina-
bilité contrainte des phonèmes à l’intérieur des frontières d’un morphème à leur
combinabilité libre à l’extérieur.
En 1957, l’information devient une notion sémantique : c’est l’invariant séman-
tique entre deux structures unies par une transformation, idée qu’il développera
tout au long des années 1960.
Le terme de « redondance » apparaît en 1959 dans un texte sur la recherche
d’information (information retrieval). Son objectif est de réduire la complexité
des structures (patterns) des phrases à quelques constructions simples et utili-
sables par les locuteurs. Il envisage ainsi de prendre en considération la redon-
dance des langues et de la réduire pour stocker le contenu (ou information) des
textes scientifiques ; idée qui sera formalisée dans son ouvrage de 1968 Mathema-
tical Structure of Language. La représentation de l’information n’est possible que
pour un sous-langage d’une science donnée à un moment particulier, et c’est à
la construction de ces sous-langages que Harris consacre la dernière partie de
son œuvre. En incorporant progressivement la notion d’information sémantique
au cœur même de la théorie, un nouvel objectif, celui d’une grammaire de l’in-
formation pour l’étude des sous-langages des sciences9, se constitue peu à peu.
Tout en se détachant des aspects méthodologiques de la théorie de l’informa-
tion shannonienne (chaînes de Markov et probabilités) qu’il adapte à la méthode
distributionnelle de repérage et de classement des unités, Harris développe une
conception sémantique de l’information, destinée à construire des sous-langages
des sciences. La redondance prend alors un sens nouveau. Considérée par Shannon
comme positive pour améliorer la communication en cas de bruit, elle devient un
handicap, une faille du langage ordinaire que les sous-langages vont contribuer à
réduire pour ne garder que l’information. Toutefois, les disciples de Harris (entre
autres) continueront à utiliser ces méthodes pour leurs travaux de TAL ultérieurs,
par exemple l’utilisation de transducteurs à états finis au sein du LADL (Labo-
ratoire d’analyse documentaire et linguistique) par l’équipe de Maurice Gross.

9 Chez Harris les sous-langages des sciences sont des langages artificiels construits formellement
et identiques pour toutes les langues pour une science donnée (voir chapitre 9).

60 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
3. La théorie des traits distinctifs de Jakobson : transferts
et convergences entre théorie de l’information, ingénierie et linguistique

Avec la théorie des traits distinctifs de Jakobson (distinctive features theory, ci-­
dessous DFT), on est en présence d’une autre forme d’interaction entre théorie
de l’information et linguistique, mettant en jeu une combinaison de plusieurs dis-
ciplines, théorie de l’information, linguistique mais aussi ingénierie, physique et
phonétique acoustique. On peut se demander s’il y a eu transfert de concepts et
méthodes entre ces disciplines, ou bien s’il est préférable de parler de convergence
entre les nouveaux domaines de recherche, théoriques et technologiques, rendus
possibles par les sciences de la guerre, et les conceptions linguistiques de Jakobson.
La DFT a été mise au point au début des années 1950, lors d’une collabora-
tion de Jakobson et d’un de ses élèves, Morris Halle, avec l’acousticien suédois
Gunnar Fant, ( Jakobson, Fant et Halle 1952), puis dans un second temps avec un
théoricien de l’information britannique, Colin Cherry (Cherry, Halle et Jakobson
1953). Ces travaux ont été repris et synthétisés en 1956 dans l’ouvrage de Jakob-
son et Halle Fundamentals of Language. Ultérieurement, Jakobson (1971 [1961])
a commenté et explicité ses emprunts à la théorie de l’information, mais ce mou-
vement réflexif n’est pas sans parfois poser un certain nombre de questions.
La DFT repose sur l’idée que les unités linguistiques ultimes ne sont pas les
phonèmes, mais des traits faisant appel à la production de la parole (la source) et
à l’acoustique du conduit vocal (la résonance et la tonalité). Ces traits, au nombre
de douze, sont universels et se combinent en phonèmes pour une langue don-
née, sans qu’aucune langue ne comporte l’ensemble des douze traits distinctifs.
Cette théorie a considérablement renouvelé les approches en phonologie, que
ce soit celle de l’École de Prague ou celle des néo-bloomfieldiens.
Dans ses Grundzüge der Phonologie publiés en 1939, Nicolas Troubetzkoy utilise
des critères phonétiques pour définir et identifier les unités phonologiques, esquis-
sant l’idée d’une phonologie définie comme phonétique fonctionnelle et fondée
sur un continuum entre phonologie et phonétique, idée qui se renforcera avec la
DFT. Un autre principe fondateur de la phonologie pragoise est celui d’opposition,
hérité de Saussure10. Au début des années 1930, Troubetzkoy et Jakobson vont pas-
ser d’une définition du phonème comme unité minimale non dissociable en unités
plus petites à celle du phonème comme ensemble de propriétés sonores pertinentes.
Ces propriétés se définissent à partir de critères phonétiques à la fois articulatoires
et perceptifs. Alors que Troubetzkoy les ­déterminait à partir d­ ’oppositions à deux

10 Waugh et al. (1990) signalent aussi les antinomies de la tradition dialectique russe post-­
hégélienne comme étant à l’origine de la notion d’opposition.

L a t h é o r i e d e l’ i n f o r m at i o n 61
ou plusieurs dimensions, Jakobson, dès 1938, tente de n’utiliser que des oppositions
unidimensionnelles (à savoir bilatérales ou binaires)11. Il propose trois oppositions
pour les traits de localisation : (i)  les traits de source : vocalique/consonantique,
compact/diffus, tendu/lâche, voisé/non voisé, etc. ; (ii)  les traits de résonance :
nasal/oral, strident/mat, etc. ; (iii)  les traits de tonalité : grave/aigu, etc. Dans
la DFT, le principe d’opposition deviendra le principe binaire. Contrairement à
l’­approche pragoise, la DFT considère les traits distinctifs non plus comme des cri-
tères de classification mais comme des unités linguistiques minimales et universelles.
Seules, les oppositions binaires ou dichotomiques sont retenues.
Dans Cherry et al. (1953), Jakobson déclare devoir le terme de « distinctive
features » à Bloomfield, pour lequel il existe un trait phonétique constant dans
un phonème au-delà de toutes ses variétés phonétiques, et c’est ce trait constant
qui explique que le locuteur entende toutes ces variétés comme un même pho-
nème. Toutefois, Bloomfield s’est plus intéressé à la morphophonémique (les
différences phonologiques permettant de différencier les morphèmes sur le plan
syntagmatique) qu’à la description interne des phonèmes en traits distinctifs,
absente de la description structurale. Enfin, l’intérêt de Jakobson pour la théo-
rie de la communication trouve sa source dans le Cercle de Moscou qu’il crée
en 1915, et qui appréhendait le dialogue comme seule forme de communication
naturelle (voir Romashko 2000).

3.1. Ingénierie et phonétique acoustique : les spectrogrammes

La collaboration de Jakobson avec l’acousticien Gunnar Fant répond à la néces-


sité de fonder les traits distinctifs sur des critères à la fois acoustiques et percep-
tifs, avec en toile de fond une conception du langage comme langage parlé en
interaction (speech communication). Fant est un acousticien suédois, diplômé
en ingénierie électrique et dont le travail de thèse porte sur les relations entre la
réduction de la bande sonore et l’intelligibilité. Il a aussi travaillé sur les spectro-
graphes (comme Joos et Shannon), dont le développement constitue une avan-
cée capitale pour les phonéticiens puisqu’ils fournissent le spectrogramme (le
spectre acoustique) des sons de la parole (fréquence, intensité, durée) permet-
tant de déterminer les formants, à savoir la forme même du son. Les travaux de
Fant, invité en 1949-1951 par les laboratoires d’acoustique de Harvard et du MIT,
suscitent l’intérêt de Jakobson qui y voit une façon de trouver des traits distinctifs

11 Selon Anderson (1985), il est difficile de distinguer ce qui appartenait à Troubetzkoy ou à


Jakobson pendant la période pragoise. Comme l’atteste leur correspondance, les points de
désaccord étaient minimes (Sériot 2006). Et ce n’est qu’après la mort de Troubetzkoy en 1938
que la position de Jakobson commença véritablement à diverger.

62 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
communs aux consonnes et aux voyelles, en les arrimant à la substance sonore à
partir de critères acoustiques et perceptifs. Morris Halle, élève de Jakobson, lui
aussi diplômé en ingénierie électrique, se joint à eux pour développer une théo-
rie intégrée des traits distinctifs. Les traits distinctifs doivent être fondés à la fois
de façon externe sur le signal acoustique (la substance) et aussi, dans la lignée de
la tradition russe du dialogue, sur les activités articulatoires du locuteur et per-
ceptives de l’auditeur, puisque, disent Jakobson et al. (1956, p. 34), nous parlons
pour être entendus et devons être entendus pour être compris.

3.2. La théorie de l’information : une mathématique


du continu pour la phonologie

En poursuivant le développement de la DFT avec le théoricien britannique de


l’information Colin Cherry, tenant d’une orientation communicationnelle de la
théorie de l’information, Jakobson et Halle font l’hypothèse que la théorie mathé-
matique de la communication va fournir un fondement scientifique rigoureux
pour l’interprétation et l’analyse des systèmes phonologiques.
La théorie mathématique de la communication présente certaines conver-
gences avec la DFT : elle permet de mesurer les dépendances statistiques des
séries ordonnées d’unités, par exemple les mots dans un texte12 ; elle comporte
un volet de phonétique acoustique traitant les processus stochastiques que sont
les signaux acoustiques dans la communication téléphonique. Pour Jakobson, la
théorie de l’information est l’occasion d’édifier une mathématisation du continu,
à savoir formaliser le passage du continu (le signal de la parole observable en
production et en perception) au discret (les unités phonologiques du message).
Cherry, Jakobson et Halle (1953) empruntent à la théorie de la communication
son modèle de chaîne en cinq composantes : source de l’information + encodeur
+ canal + décodeur + bassin d’information ; en regroupant certaines composantes,
on obtient : l’émetteur (source de l’information + encodeur) et le récepteur (déco-
deur + bassin d’information). Les auteurs déclarent adopter les concepts de code
et de message, beaucoup plus clairs et opérationnels que les dichotomies langue/
parole, language/speech, etc. Ils empruntent également la notion de redondance,
et le principe de binarité qui vient remplacer le principe d’opposition.
L’objectif de la DFT est d’établir un « speech code », à savoir un encodage
des contrastes phonologiques en traits distinctifs binaires avec un minimum de
redondance. Il s’agit de doter la phonétique d’une structure et de décomposer les

12 Seuls les travaux de Markov (Markov 1913, Petruszewycz 1981), d’ailleurs cités par Shannon, pré-
figuraient ce type de travaux. Ceux de Zipf n’établissaient que des distributions de fréquences
univariées (fréquences de mots).

L a t h é o r i e d e l’ i n f o r m at i o n 63
p­ honèmes, jusqu’alors de simples inventaires, en traits distinctifs porteurs d’informa-
tion pour le récepteur. Un trait distinctif est reconnu par le récepteur s’il appartient
au code commun à lui et à l’émetteur, s’il est transmis correctement et s’il atteint le
récepteur. Les auteurs montrent l’intérêt de la redondance, qui augmente la fiabilité
de la communication parlée en la rendant résistante aux différentes sources de dis-
torsion. Enfin, ils empruntent à la théorie de l’information son analyse en termes
discrets binaires des processus de communication, à l’aide des chaînes de Markov.
L’incompatibilité de traits ou leur cooccurrence à l’intérieur d’une même langue et
d’un même phonème sont déterminées par des lois d’implication universellement
valides ou bien par une grande probabilité statistique. Cette probabilité permet
d’éliminer les traits hautement probables et de diminuer la redondance. Jakobson
(1963 [1961]) justifie l’application des probabilités conditionnelles à la phonolo-
gie : contrairement à la production de la parole, la perception est un processus sto-
chastique. Par exemple dans le cas d’homophonies (qui n’existent que pour l’audi-
teur), la levée des ambiguïtés dépend des probabilités conditionnelles du contexte.
On peut dire qu’on a ici affaire à des phénomènes de transfert par convergence.
L’utilisation des probabilités conditionnelles permettant de traiter les ambiguïtés
constitue un transfert de méthode aboutissant à une véritable mathématisation
du langage en communication, qui ne peut être qualifiée ni d’« intrinsèque », ni
de « couvrante » bien qu’utilisant des méthodes statistiques. Pour Auroux (2009),
la « mathématisation intrinsèque » permet de créer de nouveaux concepts, indisso-
ciables de leur formulation mathématique. Les concepts intrinsèques sont apparus
avec la logique, puis avec l’algèbre de Boole, enfin avec la constitution de la notion
moderne de calculabilité, liée aux machines de Turing et à la théorie des langages for-
mels. La mathématisation intrinsèque des sciences du langage s’est effectuée avec le
développement de l’axiomatisation chez Bloomfield et ses successeurs (notamment
Harris), et l’essor des grammaires formelles dans les années 1950, comme la grammaire
catégorielle de Bar-Hillel (1953b) et la grammaire générative et transformationnelle
de Chomsky (1955). Il appelle « mathématisation couvrante » les approches quan-
titatives qui abordent le langage « par-dessus », en effectuant des comptages d’élé-
ments observables, comme les mots, et en leur attribuant une propriété ou un chiffre.
Dans la DFT, la notion de redondance intervient à deux niveaux :
(i)  identifier les traits distinctifs. Le système phonologique d’une langue
donnée peut être représenté sous forme d’un tableau à deux dimensions (pho-
nèmes et traits distinctifs) et trois valeurs possibles (marqué (+), non marqué (-),
redondant (∅))13. Selon les auteurs, ce tableau constitue un véritable manuel de
décodage (code book) destiné à identifier les phonèmes ;

13 Cherry, Halle et Jakobson (1953) donnent l’exemple suivant p. 39 : Un trait redondant aide

64 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
(ii)  classer les phonèmes en réduisant la redondance grâce au faible nombre
de traits distinctifs.
La notion de redondance assume alors le caractère contradictoire qu’elle a
dans la théorie de l’information14 : même s’il faut réduire la redondance pour amé-
liorer la transmission du message, il faut reconnaître qu’elle est porteuse d’infor-
mation et peut aider à identifier le message quand il y a du bruit. Jakobson (1963
[1961]) insiste sur le fait que c’est en rhétorique que la notion de redondance est
apparue et que ce sont les linguistes qui en sont les véritables découvreurs : la
théorie de la communication l’aurait empruntée et redéfinie en termes d’entro-
pie, et la linguistique l’aurait retrouvée avec l’idée de la distinction entre traits
redondants et traits distinctifs.
Le principe de binarité constitue sans doute un des emprunts par conver-
gence les plus intéressants de la DFT à la théorie de l’information :
La découverte progressive, par le linguiste, qu’un principe dichotomique est à la base
de tout le système des traits distinctifs du langage, se trouve corroborée par l’emploi
comme unité de mesure, chez les ingénieurs des communications, des signaux binaires
(binary digits ou bits, pour employer le mot-valise devenu populaire). ( ­Jakobson,
1963 [1961], p. 88)
Le principe de binarité présente plusieurs avantages pour la DFT :
(i)  reprendre en la radicalisant la notion d’opposition. Jakobson va tenir la
binarité des traits pour un véritable principe inhérent à la structure du langage,
qu’il élargira à l’ensemble des unités linguistiques ;
(ii)  la détermination des traits distinctifs pour une langue donnée s’effec-
tue sous la forme d’un parcours par le récepteur d’un arbre de décision dichoto-
mique à l’aide de questions oui-non, mis en avant par Cherry (1957) comme une
des caractéristiques essentielles de la théorie de l’information ;

l’auditeur à résoudre certaines ambiguïtés introduites par la distorsion du signal. Par exemple le
trait de nasalité est marqué zéro pour toutes les voyelles en russe. Si ces zéros étaient changés
en plus, les nouveaux symboles ne voudraient pas dire qu’un locuteur russe nasalise toujours
ses voyelles ; normalement il ne fait pas ; mais même s’il le faisait, la nasalité n’aurait aucune
signification phonémique. C’est un trait redondant.
14 « On s’aperçoit maintenant de la nécessité d’une stricte distinction entre différents types de redon-
dance, et cela en théorie de la communication comme en linguistique, où le concept de redondance
embrasse d’une part les moyens pléonastiques en tant qu’ils s’opposent à la concision explicite
(la brevitas de la rhétorique traditionnelle), et d’autre part ce qui est explicite par opposition à
l’ellipse. Au niveau phonologique, les linguistes sont habitués à distinguer les traits phonologiques
distinctifs des variantes contextuelles ou combinatoires (allophones), mais le traitement, par la
théorie de la communication, de problèmes étroitement liés, la redondance, la prédictabilité et les
probabilités conditionnelles, a permis de clarifier les rapports entre les deux principales classes de
qualités phoniques – les traits distinctifs et les traits redondants » (Jakobson 1963 [1961], p. 89).

L a t h é o r i e d e l’ i n f o r m at i o n 65
(iii)  les décisions binaires sont plus faciles à mettre à exécution que les déci-
sions ternaires ou n-aires, du point de vue logique comme du point de vue empi-
rique. Associées à l’opposition marqué/non marqué, où « marqué » signifie por-
teur d’information, elles sont idéales pour coder l’information ;
(iv)  enfin le principe binaire a permis d’amorcer une démarche explicative
en phonologie, absente des approches structuraliste et distributionnaliste, et qui
sera reprise par la phonologie générative15.

3.3. Jakobson : un passeur ?

On peut définir un passeur par sa capacité à faire circuler les concepts et les méthodes
d’une discipline à l’autre dans les deux sens, et, en l’occurrence, des deux côtés de
l’Atlantique. Concernant Jakobson, son rôle de passeur pose question.
Tout d’abord, Jakobson n’est pas le premier linguiste à s’intéresser à la théo-
rie de l’information. Du point de vue institutionnel, c’est Joshua Whatmough,
philologue et président de la Linguistic Society, qui introduit officiellement la
théorie de l’information au sein de la communauté des linguistes américains en
présentant la théorie de Shannon dans son discours inaugural de décembre 1951.
En 1952, Whatmough publie un article dans le Scientific American s’appuyant sur
la quantité d’information pour expliquer l’évolution des langues. C’est Martin
Joos, et non Jakobson, qui représente les linguistes lors de la Speech Communi-
cation Conference organisé par le MIT et Harvard en 1950 (Fehr 2000). Il paraît
compréhensible que Joos, avec sa double formation d’ingénieur et de germa-
niste et sa contribution comme cryptanalyste et acousticien aux sciences de la
guerre, soit invité à cette première conférence interdisciplinaire réunissant ingé-
nieurs, mathématiciens, physiciens, phonéticiens, psychologues et linguistes, sur

15 Dans la théorie générative, un modèle explicatif est une grammaire formelle fondée sur des
principes explicatifs qui doit pouvoir rendre compte de l’intuition du locuteur natif. Voir
notamment la définition qu’en donne Chomsky en 1962 :
«  What we seek, then, is a formalized grammar that specifies the correct structural descriptions with a
fairly small number of general principles of sentence formation and that is embedded within a theory
of linguistic structure that provides a justification for the choice of this grammar over alternatives.
Such a grammar could properly be called an explanatory model, a theory of the linguistic intuition
of a native speaker » (Chomsky 1962, p. 533).
Traduction française [Y. Noizet dans Mehler et Noizet 1974] : « ce que nous recherchons, c’est
donc une grammaire formalisée qui spécifie les descriptions structurales correctes à l’aide
d’un nombre très limité de principes généraux de formation des phrases, et qui soit comprise
dans une théorie de la structure linguistique fournissant une justification du choix de cette
grammaire de préférence à d’autres. Une telle grammaire pourrait à juste titre être appelée un
modèle explicatif, une théorie de l’intuition linguistique du locuteur d’origine » (p. 74).

66 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
la question de savoir si le langage peut être envisagé comme un cas particulier
de la théorie de la communication. Selon Segal (2003), ce serait d’ailleurs l’in-
tervention de Joos qui aurait attiré l’attention de Jakobson sur la transition entre
continu et discontinu, notamment sur la segmentation du flux continu du lan-
gage humain en phonèmes, et sur la possibilité de faire leur analyse linguistique
à l’aide de traits discrets.
Il arrive que Jakobson amplifie la réciprocité des apports entre les deux
disciplines :
La théorie de la communication me paraît une bonne école pour la linguistique
actuelle, tout comme la linguistique structurale est une école utile pour les ingénieurs
des télécommunications. ( Jakobson 1963 [1953], p. 32)
En fait, un certain nombre de références à l’interaction entre linguistes et ingé-
nieurs et à la cybernétique ne datent que de 1961 ( Jakobson 1963 [1961]), soit
une dizaine d’années après la mise en place de la DFT. Comme le signale Van de
Walle (2008), Jakobson (1963 [1961]) proclame que l’élucidation en cybernétique
de notions telles que « goal-attainment », « goal-failure » et « negative feedback »
ouvrent des possibilités nouvelles en linguistique, alors que lui-même n’a jamais
utilisé ces notions. Il donne d’ailleurs libre cours à une certaine dérive métapho-
rique lorsqu’il prétend faire de la « linguistique quantique », et ceci de deux façons :
(i)  en tenant les traits distinctifs pour des unités irréductibles comparables
aux atomes :
L’analyse linguistique, cependant, est arrivée à résoudre le discours oral en une série
finie d’unités d’information élémentaires. Ces unités discrètes ultimes, dites traits
distinctifs, sont groupées en « faisceaux » simultanés, appelés phonèmes, qui à leur
tour s’enchaînent pour former des séquences. Ainsi donc la forme, dans le langage,
a une structure manifestement granulaire et est susceptible d’une description quan-
tique. ( Jakobson 1963 [1961], p. 87-88)
(ii)  en comparant la mécanique quantique et la linguistique structurale, toutes
deux déterministes (1958), et en attribuant au linguiste un rôle d’observateur-­
participant16 : le linguiste doit passer du rôle de cryptanalyste, non destinataire
du message, à celui de « décodeur normal », de récepteur, membre de la com-
munauté linguistique étudiée (1963 [1953], p. 33) :
Le linguiste descripteur, qui possède, ou acquiert, la maîtrise de la langue qu’il observe,
est, ou devient progressivement, un partenaire potentiel ou actuel de l’échange
des messages verbaux parmi les membres de la communauté linguistique ; […]

16 Waugh et al. (1990) signalent l’attrait qu’avait la théorie de la relativité pour Jakobson, ainsi
que toutes les notions communes à la physique, aux mathématiques et à la linguistique.

L a t h é o r i e d e l’ i n f o r m at i o n 67
­L’ingénieur des communications est parfaitement justifié de défendre, contre « cer-
tains philologues », la nécessité absolument dominante, d’« amener l’observateur sur
la scène », et de tenir, avec Cherry, que la « description la plus complète sera celle de
l’observateur-participant (2) » […] Niels Bohr voit dans le « caractère inséparable
du contenu objectif et du sujet observant » une prémisse de toute connaissance bien
définie (2). De toute évidence, cette remarque vaut pour la linguistique ; la position
tenue par l’observateur par rapport à la langue observée et décrite doit être exacte-
ment identifiée. ( Jakobson 1963 [1961], p. 92-93)
Selon Segal (2003), cette assimilation du linguiste à l’observateur-participant,
donc du théoricien de l’information au destinataire du message, constitue un
complet contresens du schéma de communication proposé par Shannon. C’est
plutôt, en effet, une idée du théoricien de l’information Cherry qui la développe
longuement dans son ouvrage On Human Communication (1957).
Enfin, il faut ajouter que lorsqu’il ne traite pas de phonologie, Jakobson n’hé-
site pas à confondre le sens d’information au sens mathématique et celui d’infor-
mation comme contenu. Ainsi, dans son article de 1959 « Boas’ view of grammati-
cal meaning », afin de montrer que toutes les marques morpho-syntaxiques sont
marquées dans le code de façon variable selon les langues et que l’information
grammaticale est une information sémantique, Jakobson utilise le terme infor-
mation au sens mathématique (bits of information) et au sens sémantique (gram-
matical information et semantic information).
The choice of a grammatical form by the speaker presents the listener with a definite num-
ber of bits of information. The compulsory character of this kind of information for any ver-
bal exchange within a given speech community and the considerable difference between the
grammatical information conveyed by diverse languages were fully realized by Franz Boas,
thanks to his astonishing grasp of the manifold semantic patterns of the linguistic world
[…] It was clear to Boas that any difference of grammatical categories carries semantic
information.17 ( Jakobson 1971 [1959], p. 490-493)
S’il est certain que Jakobson a inauguré une forme tout à fait originale de col-
laboration entre linguistes, ingénieurs et mathématiciens par l’introduction d’une
nouvelle phonologie et son renforcement par la théorie de l’information, et qu’on
assiste à des phénomènes de convergence et de transferts de méthodes entre lin-

17 Traduction française [ J. Léon] : Le choix d’une forme grammaticale par le locuteur présente
à l’auditeur un nombre défini de bits d’information. Le caractère obligatoire de cette sorte
d’information dans tout échange verbal au sein d’une communauté linguistique donnée et la
différence considérable d’information grammaticale transmise selon les diverses langues ont
été appréhendées par Franz Boas, grâce à sa stupéfiante compréhension des configurations
sémantiques multiformes du monde linguistique… Il était clair pour Boas que toute différence
de catégorie grammaticale porte une information sémantique.

68 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
guistique, ingénierie et mathématiques, il est difficile d’attribuer à Jakobson un
véritable rôle de passeur, comme celui qu’ont pu jouer Mandelbrot ou Schützen-
berger (voir chapitre 7). Ce qui est néanmoins certain, c’est que les développe-
ments de Jakobson à partir de la théorie de l’information vont avoir un impact
sur la linguistique européenne comme américaine.

4. Théorie de l’information, information et linguistes français


dans les années 1960

On observe plusieurs voies de passage de la théorie de l’information en France,


en fonction desquelles l’impact sur la linguistique structurale en France sera plus
ou moins disparate et plus ou moins éphémère. C’est un mathématicien, Benoît
Mandelbrot, qui effectue le passage vers les linguistes stylisticiens, ce qui conduit
au renouvellement des études traditionnelles de vocabulaire dans les années 1950-
1960. Une seconde voie est frayée par des ingénieurs-cryptanalystes français, char-
gés du « chiffre » pendant la guerre d’Indochine, comme René Moreau, asso-
ciant théorie de l’information et tournant de l’automatisation-­mathématisation
en France. On mentionnera sur ce point les cours dispensés sur la théorie de
l’information par René Moreau, au sein du Centre Favard, qu’on peut considé-
rer comme un véritable « espace de passage ».
Chez les linguistes, c’est la réception de Jakobson par André Martinet d’une
part, et par Jean Dubois d’autre part qui a ouvert la voie à l’introduction de la
théorie de l’information dans la linguistique structurale française (voir Léon
2008a). Comme aux États-Unis, et ailleurs dans le monde, la trilogie cybernétique-­
communication-information devient incontournable en France et tout le monde,
y compris les linguistes, s’y réfère de façon plus ou moins explicite. Alors qu’en
1955, plusieurs comptes rendus d’ouvrages sur la cybernétique paraissent dans
le Journal de psychologie normale et pathologique, le BSL publie en 1957-1958 deux
comptes rendus de Martinet sur la théorie de l’information, l’un assez négatif
de l’ouvrage de G.-A. Miller (1951, traduction française 1956) Language and Com-
munication, le second plus élogieux de l’ouvrage de Vitold Belevitch Langage des
machines et langage humain (1956), que Martinet considère comme une bonne
introduction à la théorie de l’information à destination des linguistes.

4.1. Martinet : une théorie de l’information auto-promue

André Martinet (1908-1999) est sans doute le seul linguiste français à avoir lu, dès leur
parution, les Preliminaries de Jakobson et al. (1952), c’est-à-dire la première étude de
phonologie appliquant la théorie de l’information. À cette époque, M ­ artinet vit et

L a t h é o r i e d e l’ i n f o r m at i o n 69
enseigne aux États-Unis. Agrégé d’anglais, il est directeur d’études à l’École pratique
des hautes études de 1938 à 1946, puis il est recruté par l’université Columbia à New
York où il enseigne pendant une dizaine d’années, de 1946 à 1955. Il fait aussi partie
de l’Auxiliary Language Association et dirige la revue Word18 de 1947 jusqu’à son
retour en France en 1955. Cette période correspond à l’essor de la théorie de l’infor­
mation, pendant laquelle les linguistes américains sont tous plus ou moins tentés de
jump on the bandwagon. Pendant son séjour aux États-Unis, Martinet est d’abord très
ami avec Jakobson qui l’a aidé à s’installer à New York, mais il se brouille assez rapi-
dement avec lui. Ce conflit culmine en 1955, lorsque Martinet ne veut pas quitter la
direction de la revue Word au moment de son retour en France. Le récit de ses rela-
tions conflictuelles avec Jakobson et de leurs désaccords théoriques émaille l’auto-
biographie de Martinet (1993, p. 74, p. 117 et suiv., p. 125, p. 293 et suiv.). Dans les tra-
vaux où il fait usage de la théorie de l’information, Martinet ne cesse de marquer les
différences entre sa position et les conceptions jakobsonniennes.
Ainsi, malgré un usage important de la théorie de l’information dans ses tra-
vaux des années 1950-1960, et bien qu’il emprunte souvent les voies tracées par
Jakobson, Martinet prétend le plus souvent construire lui-même sa propre théo-
rie de l’information.
Dans son Économie des changements phonétiques, publiée en 1955 et qui syn-
thétise les travaux phonologiques de ses années américaines, Martinet prétend
s’inscrire dans la lignée de Troubetzkoy (1890-1938), qu’il oppose à la position de
Jakobson. Selon lui, l’analyse des traits distinctifs est déjà présente à l’état latent
dans l’œuvre de Troubetzkoy (Martinet 1955, p. 67, note 8 et 1957c, p. 75) sans
que Jakobson y ait apporté de développements fondamentaux. L’apriorisme uni-
versaliste et binariste développé par Jakobson et al. (1952) et Cherry et al. (1953)
dévoie selon lui les positions de Troubetzkoy. Le binarisme procède par affirma-
tions de caractère général, cherche à faire entrer toute réalité phonologique dans
des cadres préétablis et identiques pour toutes les langues, et ne permet pas de
rendre compte des changements sur le plan diachronique.
[…] ce qui rend la position binariste absolument inacceptable en matière diachro-
nique, c’est l’élimination arbitraire, comme « redondantes », de caractéristiques pho-
niques résultant d’évolutions qui ont changé les rapports à l’intérieur du système, ce
qui aboutirait à poser que ces changements sont nuls et non avenus. Le point de vue
diachronique exige un beaucoup plus vif souci de la réalité phonétique que celui qui
est de mise lorsqu’on s’escrime à réduire au minimum le nombre des traits distinc-
tifs. (Martinet 1955, p. 76)

18 La revue Word a été fondée en 1943, en même temps que le Linguistic Circle of New York par
des linguistes, pour certains immigrés et fuyant le régime nazi, parmi lesquels Roman Jakobson.

70 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
[…] l’apriorisme qui consiste à préciser les traits pertinents, moins en s’inspirant du
système de la langue à l’étude, que par référence à un schéma préétabli dont on pos-
tule la valeur universelle. (Martinet 1957c, p. 75)

De plus, Martinet s’oppose à la détermination des phonèmes par des moyens


acoustiques préconisée par Jakobson, et préfère, en suivant Troubetzkoy, les
données articulatoires. L’analyse spectrographique, méthode acoustique chère à
Jakobson, ne fait rien de plus que confirmer l’explication que fournissent immé-
diatement les données articulatoires. Enfin, bien que ne discutant pas en détail
les emprunts faits par Jakobson et ses co-auteurs à la théorie de l’information,
Martinet les discrédite en les qualifiant de pur habillage physico-mathématique
destiné à séduire les esprits.
Or, le terme d’information, qui apparaît deux fois dans l’Économie (p. 140),
est associé au pouvoir distinctif. L’exemple donné par Martinet concerne la pro-
nonciation d’une géminée. Les géminées (en français) ont une fréquence faible,
donc un pouvoir distinctif important qui limite l’incertitude tout en compen-
sant la dépense d’énergie parfois plus forte qu’exige leur articulation. Informa-
tion est bien employé ici dans le sens de Jakobson sans que, d’ailleurs, celui-ci
soit cité à cet endroit du texte.
Je puis donc dire qu’en français /-kt-/ est beaucoup plus riche d’information que
/-t-/ et que du point de vue de l’économie de la langue, la distinction supplémen-
taire apportée par /-k-/ vaut bien le surcroît de travail musculaire qu’il implique […]
Si nous passons maintenant à /-atta-/, nous pourrons dire que, là où cette combinai-
son se rencontre cinq fois sur cent fois, le surcroît de travail que représente la pro-
nonciation du /-t-/ implosif, qui distingue /-atta-/ de /-ata-/ vaut largement la peine,
puisqu’il a pour effet de limiter l’incertitude dans la proportion de 100 à 5. La gémi-
née a donc un grand pouvoir distinctif. Dans la langue où l’on rencontre /-atta-/ 80
fois pour 100 exemples de /-ata-/ et 10 exemples de /-akta-/, /-tt-/ représentera une
dépense d’énergie de même ordre que celle qui est nécessaire pour articuler /-kt-/
mais pour un pouvoir d’information beaucoup plus bas. (Martinet 1955, p. 140)

On voit ici opérer la tendance contradictoire interne à la notion d’économie,


signalée par Verleyen et Swiggers (2006, p. 176), entre la satisfaction des besoins
de la communication qui exige la préservation de la quantité maximale d’infor-
mation, à savoir un nombre maximal d’oppositions fonctionnelles, et celle de
l’inertie qui tend à utiliser un nombre restreint d’unités plus fréquentes.
On voit également comment l’information contribue au principe du moindre
effort que Martinet emprunte à Zipf (1949). L’homme cherche dans toutes ses
activités, y compris les activités langagières, à minimiser l’effort (travail muscu-
laire, dépense d’énergie) nécessaire par rapport au but à atteindre. Selon Martinet,
le principe de Zipf réalise mieux la synthèse entre besoins de c­ ommunication et

L a t h é o r i e d e l’ i n f o r m at i o n 71
inertie humaine que le principe d’économie élaboré par Paul Passy dans le cadre
de sa théorie fonctionnaliste des changements phonétiques19. Enfin, il préconise
de mesurer l’importance fonctionnelle d’une opposition phonologique, ou ren-
dement fonctionnel, à l’aide de statistiques dans les textes. En cela aussi, il s’ins-
pire de Zipf qui, le premier, a jeté les bases d’une phonologie fonctionnelle qui
ne soit pas purement descriptive mais fondée statistiquement.
Cet intérêt pour les aspects quantitatifs de l’information se retrouve dans les
Éléments de linguistique générale, parus en 1960, dont une grande partie du cha-
pitre 6 « L’évolution des langues » est consacrée à la théorie de l’information20.
Dans cet ouvrage, surtout dans le § 6.9 intitulé « La théorie de l’information et
le linguiste », Martinet prétend introduire ses vues personnelles sur la théorie
de l’information, sans aucune référence aux travaux antérieurs d’application de
la théorie de l’information à la linguistique, y compris ceux de Jakobson21. D’ail-
leurs, la notion d’information est dissociée de celle de traits distinctifs (et donc
de l’apport jakobsonien) qui n’apparaît plus que de façon sporadique. Les seules
références que Martinet fait à la théorie de l’information sont les exposés, qualifiés
de « relativement simples », que Guiraud a présenté à la SLP en 1954, et l’ouvrage
de Belevitch dont Martinet a fait le compte rendu dans le BSL (Martinet 1957b).
La conception de la notion d’information de Martinet est somme toute assez
classique. Il considère qu’il existe un rapport constant et inverse entre la fré-
quence d’une unité et l’information qu’elle apporte. Plus une unité est probable,
moins elle est informative. Son apport spécifique consiste en une définition de
l’information en termes de moindre effort. Outre la phonologie, il applique la
notion d’information à la littérature et à d’autres unités linguistiques, comme les
monèmes ou les formes lexicales. Martinet utilise les chaînes de Markov pour
traiter ces séquences d’unités d’une façon très proche de la méthode mise au
point par Harris (1955). Il rapporte d’ailleurs dans ses Mémoires (Martinet 1993,
p. 71), que l’idée de délimiter les mots dans un énoncé à partir de la probabilité

19 Dans son étude sur Martinet et l’École de Prague, Verleyen (2007) insiste sur l’influence de Zipf
comme psychologue plutôt que comme statisticien. Il montre que Jakobson et Troubetzkoy
conçoivent la langue en diachronie comme une totalité organique dans laquelle l’influence des
locuteurs est relativement faible, alors qu’au contraire Martinet envisage la systématicité du
changement en termes de propriétés du sujet parlant. Ce qui explique, dit Verleyen, le recours
de Martinet au psychologue Zipf, dont le principe du moindre effort tente de rendre compte
du comportement humain en général.
20 On ne sait si Martinet connaissait les travaux du philologue de Harvard Joshua Whatmough
parus dans le Scientific American en 1952 (voir § 3.3 ci-dessus).
21 Dans la bibliographie sommaire présente dans l’édition de 1970, l’ouvrage de Jakobson et Halle
(1956) n’est cité que pour les conceptions binaristes et aprioristes de la phonologie, critiquées
par Martinet.

72 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
d’apparition successive lui serait venue lors d’une discussion avec Harris à New
York au début des années 1950. Dans cette utilisation, il précise que l’informa-
tion n’est en rien une entité sémantique :
Si j’entends /il a p…/, /p/ n’a pas de signification en lui-même, mais il est doué
d’information dans ce sens qu’il exclut toutes sortes d’énoncés possibles, comme il
a donné, il a bougé. Si à l’énoncé tronqué s’ajoute /r/ (/il a pr…/), l’incertitude est
de nouveau réduite puisque sont exclus il a payé, il a poussé, etc., ce qui indique que
/r/ est doué d’information. L’information n’est donc pas un attribut de la significa-
tion, puisque des unités non signifiantes comme /p/ et /r/ y participent. (Martinet
1960, p. 177-178)
C’est au moment où il aborde le rapport entre information et littérature
(§ 6-18) que Martinet utilise les termes de contenu informationnel et de densité
informationnelle. Un auteur peut augmenter le contenu informationnel de son
texte, et retenir ainsi l’attention du lecteur, en choisissant des unités lexicales
nouvelles et en réduisant la redondance. Ce qui est redondant ce sont les col-
locations attendues, et ce qu’on attend du poète ce sont des collocations rares.
L’auteur pourra se contenter de présenter, dans les termes les plus directs, des évé-
nements, réels ou imaginaires, assez exceptionnels pour que la densité information-
nelle du récit retienne l’attention. Il pourra aussi, par un choix original des unités
linguistiques, élever le contenu informationnel de son texte et le doser exactement.
Ceci le dispensera d’aller, à chaque instant, chercher l’inattendu dans les péripéties
du récit. (Martinet 1960, p. 192)
Avec le terme contenu informationnel, l’information semble perdre son carac-
tère quantitatif au profit d’une dimension sémantique : contenu informationnel
fait en effet penser à contenu de sens. On peut faire l’hypothèse que la notion
de contenu d’information, qui n’existe pas dans l’ouvrage de Shannon et Weaver,
vient de Guiraud, une des sources revendiquées par Martinet. Guiraud (1954)
applique la loi de Zipf et la théorie de l’information aux statistiques de vocabu-
laire dans des études stylistiques, en assimilant de façon un peu rapide fréquence
(des signes) et contenu d’information, alors que, on l’a vu, l’information est une
mesure abstraite dépendant de choix, donc une mesure probabiliste et pas seu-
lement statistique.
Pour résumer, on peut dire que la façon dont Martinet utilise la théorie de
l’information est assez complexe et revêt diverses formes. C’est au moment où
il fait le moins référence au terme information, dans Économie des changements
phonétiques, que l’usage qu’il en fait est le plus proche de celui de Jakobson et
de sa systématisation des traits distinctifs. Bien que cet usage soit accompagné
d’une très vive critique de l’apriorisme binariste de Jakobson et de son utilisa-
tion des traits acoustiques, et que Martinet revendique davantage l’influence

L a t h é o r i e d e l’ i n f o r m at i o n 73
de Troubetzkoy que celle de Jakobson, il est certain que les notions de pouvoir
d’information et de pouvoir distinctif intervenant dans sa définition du concept
d’économie sont directement inspirées par la conception jakobsonienne. En
revanche, sa notion d’économie en phonologie diachronique doit tout autant aux
travaux de Zipf et son principe du moindre effort qu’à ceux de l’École de Prague.
Dans les Éléments de linguistique générale, il consacre un long développement à sa
propre vision de l’information, ramenée à l’idée d’énergie et de coût. Enfin, on
notera deux autres aspects de son utilisation de la théorie de l’information : une
approche probabiliste du traitement des séquences d’unités linguistiques, issue
des travaux de Harris, et la notion de contenu d’information inspirée par les tra-
vaux de Guiraud en stylistique.

4.2. Dubois : une version harrisso-jakobsonienne

Curieusement, Jean Dubois (né en 1922), bien qu’ayant commencé ses travaux de
linguiste en lexicographie avec sa thèse parue en 1962 sur Le vocabulaire politique
et social en France de 1869 à 1972, ne s’est pas intéressé aux aspects quantitatifs du
vocabulaire, pourtant très en vogue en France dans les années 1950-1960 après
avoir été impulsés par les travaux de Mandelbrot et de Guiraud. Dans sa thèse,
Dubois met en œuvre la méthode distributionnelle de Harris, dont on peut dire
qu’il est un des introducteurs en France (voir chapitre 8, § 4.2), et son utilisa-
tion en analyse du discours22. Son intérêt pour la théorie de l’information appa-
raît dans des textes postérieurs, d’abord dans son article sur l’aspect et le temps
paru en 1964a dans Le français moderne, puis dans sa Grammaire structurale du
français en trois tomes parus respectivement en 1965, 1967 et 1969a.
C’est surtout dans le tome 1 de 1965 qu’information apparaît massivement,
pour quasiment disparaître dans les tomes 2 et 3. Dans l’introduction au tome 1,
Dubois précise qu’il a pour objectif une analyse distributionnelle des marques de
genre et de nombre du nom et du pronom, qui se veut complémentaire de l’ana-
lyse distributionnelle de Harris. C’est en termes d’information, de redondance
et de bruit qu’il se propose d’analyser les contraintes croisées entre marques de
genre et de nombre pour montrer que ce sont des règles et non des exceptions en
français. Alors que, dit Dubois – faisant sans doute référence à la notion de ren-
dement fonctionnel de Martinet – les linguistes ont surtout emprunté à la théorie
de l’information la notion de coût, il se propose, quant à lui, de mettre en œuvre
celles de redondance et de bruit. La notion de quantité d’information utilisée

22 Chevalier (2006) souligne bien le rôle de passeur de Dubois dans l’introduction des théories
linguistiques américaines en France dans les années 1960.

74 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
par Dubois (de même que celles de conservation, perte et coût de l’information)
est bien celle de la théorie de l’information : elle est calculée en termes de pro-
babilité et de fonction inverse : plus la probabilité d’apparition d’une marque
est grande, plus la quantité d’information est faible. Ainsi, la quantité d’infor-
mation apportée par le code écrit est faible, puisque celui-ci est très redondant :
Les marques du code parlé et du code écrit ne sont donc pas équiprobables : la quan-
tité d’information apportée par une marque redondante dans le code parlé est plus
grande que celle apportée dans le code écrit, puisque la probabilité de la rencontrer
après la marque initiale est moindre. La quantité d’information présentée en français
écrit par la seconde marque est très faible, puisqu’il est très rare que le code écrit
ne présente pas de redondance. (Il n’en est évidemment pas de même pour le code
parlé). (Dubois 1965, p. 21)
Cette utilisation quantitative et shannonienne de l’information par Dubois est
probablement issue de la lecture de Mandelbrot (1954a) figurant dans sa biblio-
graphie mais aussi de celle de Harris, dont les principaux travaux des années 1950
sont cités, et de son utilisation des chaînes de Markov23. Plus loin dans le texte, le
terme d’information, et les collocations dans lesquelles il apparaît (une information,
la première information, l’information du pluriel, l’information féminin,l’information
de genre, celle de nombre, les/ces deux informations), sont utilisés de façon très
différente :
On peut se demander ce que deviennent ces deux informations lorsqu’elles sont cumu-
lées, c’est-à-dire lorsque les énoncés au pluriel sont aussi porteurs de l’information
féminin. (Dubois 1965, p. 82)
[…] il arrive que l’information de genre se maintienne, tandis que celle de nombre
s’efface. […] l’information féminin a disparu des deux phrases. (Dubois 1965, p. 83)
Cet emploi d’information fait glisser le terme vers contenu ou sens. Alors qu’il
désignait une quantité abstraite, calculée à l’aide de probabilités et excluant le
sens, le terme information définit maintenant une signification grammaticale
d’ordre morpho-syntaxique et donnée par les marques. Pour comprendre pour-
quoi Dubois opère ce glissement de sens, il faut se rappeler qu’il est familier des
Essais de linguistique générale de Jakobson, dont il a fait un compte rendu dans
un numéro du Français moderne en 1964, numéro dans lequel il publie également
un article où il applique les théories de Jakobson aux problèmes du temps et de

23 Alors que, dans sa thèse, Dubois cite l’ouvrage de G. A. Miller Language and Communication
(1951, traduction française 1956), qui est une introduction anti-behaviouriste à la théorie de
l’information destinée aux étudiants de psychologie, il ne reprend pas cette référence dans ses
travaux ultérieurs.

L a t h é o r i e d e l’ i n f o r m at i o n 75
l’aspect. Entre autres choses, Dubois emprunte à Jakobson l’idée que toutes les
formes grammaticales (en particulier l’aspect et le temps) sont marquées dans
le code de façon variable selon les langues. Aussi cherche-t-il les structures for-
melles dans lesquelles sont traduites dans un code donné les oppositions séman-
tiques d’accompli/non accompli, antériorité/non-antériorité et postériorité/non
postériorité, qui définissent ce qu’on appelle l’aspect et le temps ; on doit consta-
ter, dit-il, qu’il existe des langues qui sont appelées à traduire non ces trois oppo-
sitions, mais parfois deux d’entre elles seulement, le développement de la posté-
riorité/non postériorité se faisant quelquefois tardivement.
Or ces idées sont développées chez Jakobson (1963 [1959]) dans le chapitre
des Essais intitulé « La notion de signification grammaticale selon Boas », où il
emprunte à Boas l’idée de grammatical meaning (voir § 3.3 ci-dessus). En faisant
siennes, à son tour, les significations grammaticales de Boas-Jakobson, Dubois
donne à l’information un sens sémantique tout à fait opposé au sens quantitatif
de la théorie de Shannon et Weaver. Toutefois, ce n’est pas le seul emprunt qu’il
fait à l’interprétation jakobsonienne de la théorie de l’information. Il adopte la
façon dont Jakobson s’est approprié la notion de redondance et l’inscrit au cœur
de son étude des marques du français. Il l’utilise encore de façon très active dans
le tome 2 de sa Grammaire structurale, contrairement à la notion d’information
qui disparaît.
Chez Dubois, cet emprunt jakobsonnien, de seconde main en quelque sorte,
peut sembler en contradiction avec l’usage distributionnaliste et quantitatif qui
cohabite avec lui dans ses textes. Il faut toutefois reconnaître que la théorie de
l’information acquiert avec Dubois un pouvoir heuristique qui lui permet de
penser la dimension sémantique de certaines catégories linguistiques, comme
le temps et l’aspect.

Pour conclure, on ne saurait trop insister sur le caractère hétérogène autant


qu’éphémère de l’impact de la théorie de l’information en linguistique. Toute-
fois, même si les références explicites à la théorie de l’information disparaissent
assez rapidement, la nouvelle voie phonologique ouverte par Jakobson sera pour-
suivie au moins en phonologie générative, et la voie probabiliste mènera à la troi-
sième mathématisation du langage, lorsque ces méthodes seront ravivées avec les
études sur grands corpus dans les années 1990 (voir chapitre 9).

76 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Chapitre 5

Tournant de l’automatisation et formalisation


chez les linguistes distributionnalistes
néo-bloomfieldiens

L’automatisation du langage dans un contexte de culture de guerre a accéléré le


développement et l’autonomie de la linguistique dans les universités aux États-
Unis. La linguistique est déjà institutionnalisée avant la seconde guerre mondiale1.
Elle a ses propres organismes, comme la Linguistic Society of America créée en
1924, avec ses propres écoles d’été, les Linguistic Institutes, et sa propre revue
comme Language. Mais c’est après la guerre, et grâce aux retombées de l’inves­
tissement des linguistes dans l’effort de guerre, que la linguistique conquiert des
départements autonomes dans les universités, et que son institutionnalisation
se trouve renforcée2.
La TA a aussi joué un rôle dans ce domaine. On l’a vu, ce n’est pas une disci-
pline universitaire et la linguistique ne fait pas partie de son horizon de rétrospec-
tion, ni de celui de ses promoteurs. Pourtant, aux États-Unis, certains centres de
TA sont implantés dans des départements de langues ou de linguistique d’univer-
sités. Les chefs de projets sont des spécialistes de langues vivantes, tel Erwin Rei-
fler de l’université de Washington pour le chinois, Kenneth E. Harper de l’UCLA
pour les langues slaves, William E. Bull de l’UCLA pour l’espagnol, ou des spé-
cialistes de linguistique historique comme Winfred Lehmann de l’université du
Texas. Face aux exigences pratiques de la TA, deux options se présentent à eux :
(i)  accepter de renoncer aux problèmes linguistiques pour faire de la linguistique
pour la machine, avec comme objectif de contourner ou pallier les limitations
pratiques de taille mémoire et de vitesse des ordinateurs ; (ii)  développer des
méthodes d’analyse linguistique automatique, périphériques ou préalables à la TA.

1 Contrairement à ce qu’avance Martin-Nielsen (2010).


2 Avant la guerre, la linguistique était enseignée dans les départements d’anthropologie.

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 77
Pour ce qui concerne les linguistes distributionnalistes néo-bloomfieldiens,
on ne les retrouve dans aucune des deux options. Harris est le seul à diriger
une petite équipe de traduction automatique à Princeton qui, en fait de TA, se
consacre essentiellement à l’analyse syntaxique de l’anglais fondée sur une ana-
lyse en constituants immédiats. Les procédures mises au point sont davantage
orientées vers la recherche d’informations (information retrieval) que vers la tra-
duction automatique (voir chapitre 8). L’équipe de Harris reçoit des subventions
de la NSF et est évaluée par Bar-Hillel qui, dans son rapport de 1960, critique
sévèrement les notions de transformation et de phrase-noyau élaborées par Har-
ris. À cette époque, rappelons-le, Bar-Hillel avait opté pour les transformations
de Chomsky pour amender son modèle de grammaire catégorielle.
Même s’ils n’ont pas produit d’expérimentations en TA, la possibilité même
d’automatisation de la traduction a eu une influence considérable sur les linguistes
distributionnalistes néo-bloomfieldiens. L’attention portée au rapport entre trans-
cription et traduction des langues amérindiennes a débouché sur la création de
langues intermédiaires, nouveaux objets pour la linguistique et pour le traite-
ment automatique. Certaines méthodes, comme les procédures, auxquelles les
néo-bloomfieldiens avaient habituellement recours ont été rendues plus rigou-
reuses par leur assimilation à des formes faibles d’algorithmes. Des changements
visibles et significatifs ont été introduits dans les représentations graphiques (dia-
grammes ou tableaux), pour représenter soit le processus de l’analyse en consti-
tuants immédiats, soit les résultats de cette analyse.

1. Le tournant de l’automatisation pour les néo-bloomfieldiens

1.1. Les  « néo-bloomfieldiens »

Ceux qu’on nomme communément les néo-bloomfieldiens s’inscrivent dans la


lignée de Boas, Sapir et Bloomfield et sont avant tout des anthropologues lin-
guistes, attachés à la description des langues amérindiennes. Si l’on suit M
­ urray
(1993), qui consacre deux chapitres de son ouvrage Theory Groups and the Study
of Language in North America à Bloomfield et aux néo-bloomfieldiens, les princi-
paux linguistes de ce groupe sont Bernard Bloch, Robert Hall, Zellig Harris, Einar
Haugen, Archibald Hill, Charles Hockett, Martin Joos, Eugene Nida, ­Kenneth
Pike, George Trager, Charles Voegelin et Rulon Wells3. Ils ont en commun l’adop-
tion de l’analyse distributionnelle inaugurée par Bloomfield, une démarche induc-
tive, et partagent son intérêt pour la mathématisation du langage.

3 Selon Murray (1993), Yuen Ren Chao, Einar Haugen et Roman Jakobson font également partie
du réseau, mais de façon plus périphérique.

78 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
The only useful generalizations about language are inductive generalizations. Features which
we think ought to be universal may be absent from the very next language that becomes
accessible. Some features, such as, for instance, the distinction of verb-like and noun-like
words as separate parts of speech, are common to many languages, but lacking in others.
The fact that some features are, at any rate, widespread, is worthy of notice and calls for
an explanation ; when we have adequate data about many languages, we have to return
to the problem of general grammar and to explain these similarities and divergences, but
this study, when it comes, will be not speculative but inductive. (Bloomfield, 1933, p. 20)4
Toutefois, les néo-bloomfieldiens forment un groupe non homogène, sans
véritable chef de file et que divise une adhésion plus ou moins lâche et plus ou
moins rigoriste à cette méthodologie, qui présente à plusieurs égards des aspects
positivistes. Hymes et Fought (1981, p. 226), reprenant les huit critères établis par
Wells pour caractériser la linguistique descriptive américaine, montrent que la
plupart de ces critères ne sont pas spécifiques aux néo-bloomfieldiens, mais cor-
respondent aussi à l’activité de certains de leurs prédécesseurs ou successeurs.
Seuls les critères (5) – l’utilisation de la juxtaposition comme principale rela-
tion grammaticale et (6) – la rigueur procédurale, sont propres aux linguistes
des années 1940. Ils rappellent que les appelations « bloomfieldiens », « post-
bloomfieldiens » et « néo-bloomfieldiens » font débat très tôt.
Murray (1993) justifie son choix du terme « néo-bloomfieldien » en mon-
trant en quoi ces linguistes descriptivistes forment plus un réseau qu’un groupe,
auquel Bloomfield lui-même ne se serait pas identifié5 : « Bloomfield was not a
“Bloomfieldian” and the group that emerged during the 1940s would better be labeled
“neo-Bloomfieldian” » (Murray 1993, p. 135)6.
Pour Murray en effet, Bloomfield était moins « bloomfieldien » que certains
de ses disciples tels Bloch, Trager ou Smith, attachés à l’exclusion du sens et à

4 Traduction française ( Janick Gazio 1970, p. 24) : Les seules généralisations utiles sur le lan-
gage sont les généralisations inductives. Les traits que nous pensons devoir être universels
peuvent être absents de la prochaine langue qui deviendra accessible. Certains traits, comme
par exemple la distinction entre les mots verbaux et nominaux comme parties du discours
séparées, sont communs à beaucoup de langues et manquent à d’autres. Le fait que certains
traits sont, quoiqu’il en soit, répandus, vaut d’être relevé et demande une explication ; quand
nous avons des données adéquates sur de nombreuses langues, nous devons retourner au
problème de la grammaire générale et expliquer ces similitudes et ces divergences, mais cette
étude, lorsqu’elle survient, ne doit pas être spéculative mais inductive.
5 Hymes et Fought (1981, p. 223-224) signalent que telle était également la position de Fries (1961,
p. 196) qui bien qu’ayant rédigé un article sur la « Bloomfieldian “School” » reconnaissait que
Bloomfield n’aurait pas aimé cette étiquette.
6 Murray fait référence ici au groupe de linguistes descriptivistes qui, autour de Bloomfield, ont
développé des méthodes d’enseignement des langues pendant la seconde guerre mondiale
(voir plus haut chapitre 3, § 1).

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 79
celle de la diachronie. D’autres au contraire s’éloignent de cette posture extrême
en prêtant attention aux données historiques ou comparatives, voire même au
sens. Comme Bloomfield, qui a consacré un chapitre (chapitre 3) de son ouvrage
Language (1933) aux speech communities, ils s’intéressent à des phénomènes non
observables, comme les normes de communauté et les dialectes. Cette notion est
une source de réflexion dès le début des années 1950 pour notamment ­Voegelin
et Harris (voir § 1.3.1 ci-dessous). D’autres enfin, comme Hockett et Harris, com-
mencent à s’intéresser à une syntaxe jusque-là largement négligée (voir Joseph
2002, p. 61).
La plupart des néo-bloomfieldiens étaient familiarisés avec certains aspects
de la formalisation de la première mathématisation du langage, notamment les
axiomes et les procédures, qui leur paraissaient tout à fait compatibles avec la
méthode distributionnelle. Dès 1926, Bloomfield écrit un article mettant en avant
les avantages d’une méthode fondée sur des axiomes, qu’il nomme postulats.
Une telle méthode est destinée à amener le linguiste à définir ses hypothèses et
ses catégories avec plus de rigueur7, mais, comme le remarque Tomalin (2006),
Bloomfield n’utilise pas de langage formel pour exprimer ces postulats. Ceux-ci
sont formulés en langage naturel sous forme de définitions et d’hypothèses. Par
exemple, on trouve dans Bloomfield (1926, p. 164) les axiomes suivants :
Definition : An act of speech is an utterance (un acte de parole est un énoncé)
Assumption : Within certain communities successive utterances are alike or partly alike
(au sein de certaines communautés des énoncés successifs sont semblables ou par-
tiellement semblables).
Selon Tomalin (2006), Harris est le premier néo-bloomfieldien à introduire
l’idée d’une procédure formalisée (formalised procedure) dès 1946. En tout cas, au
début des années 1950, les néo-bloomfieldiens sont tout à fait prêts à accueillir la
seconde mathématisation des sciences du langage impulsée par l’automatisation.

1.2. L’International Journal of American Linguistics au début des années 1950

Dans les années 1950, les néo-bloomfieldiens occupent une position dominante.


Ils ont participé à l’institutionnalisation de la linguistique des années 1930-1940

7 « The postulational method can further the study of language, because it forces us to state explicitly
whatever we assume, to define our terms, and to decide what things may exist independently and
what things are interdependent » (Bloomfield 1926, p. 153)
Traduction française ( J. Léon) : la méthode des postulats est un progrès pour l’étude du langage,
parce qu’elle nous force à formuler explicitement nos hypothèses, à définir nos termes, et à
décider quelles choses peuvent exister indépendamment et lesquelles sont interdépendantes.

80 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
aux États-Unis en suivant Bloomfield, qui en fut l’un des principaux acteurs
(­création de la Linguistic Society of America et de sa revue Language en 1925, créa-
tion des Linguistic Institutes, travaux pour le Linguistic Atlas, énormes moyens et
programmes mis en œuvre dans le war effort). Murray (1993, p. 155) rapporte que,
selon des témoins linguistes des années 1950, « Bloomfieldian distributional ana-
lysis was “the only game in town” » et qu’il n’existait alors aucun courant concur-
rent. Leur hégémonie prendra fin lors de l’essor institutionnel de la grammaire
générative au début des années 1960, quand Chomsky, qui comptait pourtant
dans leurs rangs, aura pris son autonomie8.
Une des pièces maîtresses de la dominance des néo-bloomfieldiens de cette
époque est la revue International Journal of American Linguistics (abrégée en IJAL).
Créée par Franz Boas en 1917 pour la publication des travaux sur les langues
amérindiennes, la revue a connu un certain déclin pendant la seconde guerre
mondiale après la disparition de Boas en 1942, et c’est grâce à Voegelin qu’elle a
retrouvé un second souffle dans l’après-guerre. Voegelin a élargi la politique de
l’IJAL de façon à inclure des discussions en linguistique générale et des comptes
rendus par des non amérindianistes comme Twaddell, Yakov Malkiel et Hall, et
à étendre l’anthropologie linguistique à d’autres régions que l’Amérique, comme
l’Océanie et l’Afrique notamment. Il a également publié le travail de Swadesh en
lexicostatistique et les travaux issus du Summer Institute of Linguistics (présidé
par Pike de 1942 à 1979).
C’est dans cette revue, et sous la direction de Voegelin, alors également pré-
sident de la Linguistic Society of America, qu’on peut identifier le tournant de
l’automatisation de la linguistique structurale américaine, comme en témoigne
la parution en 1953 et 1954 de deux numéros de l’IJAL consacrés à la traduction
comme procédure.

1.3. La traduction dans la description des langues amérindiennes

Même si la traduction est incontournable dans les analyses des anthropologues


linguistes, elle n’a pas de statut véritable. Dans la première moitié du xxe siècle,
les traductions en anglais des textes en langues amérindiennes (textes, recueils
de récits auprès de locuteurs natifs) sont destinées autant aux culturalistes qu’aux
­linguistes. Dans les années 1940-1950, les traductions sont interlinéaires et litté-
rales ; elles servent à rendre lisibles les descriptions morphophonémiques pour les
linguistes qui ne connaissent pas la langue amérindienne étudiée. Sous l­ ’impulsion

8 Voir notamment l’importance du 9e congrès international des linguistes (chapitre 2, § 4.2 ci-
dessus).

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 81
de Bloomfield, l’objectif des linguistes est de fournir une description morpho-
phonémique9, sans visée véritablement contrastive, et selon une démarche dis-
tributionnaliste. Elle consiste à développer des catégories grammaticales à partir
des données elles-mêmes, plutôt que d’imposer un modèle externe ou a priori.
La traduction est un élément toujours présent dans la description. Si l’on
regarde un des premiers travaux dans le domaine, les Hidatsa Texts de Lowie de
1911, repris et annotés par Harris et Voegelin 1975 [1939], on constate que le texte
transcrit (le récit d’un mythe en hidatsa, une langue sioux) est suivi d’une tra-
duction libre. Celle-ci est destinée aux ethnographes autant qu’aux linguistes. La
description morphophonémique est ajoutée en note pour chaque unité d’ana-
lyse. Ce n’est que plus tard qu’elle deviendra la partie principale de l’analyse10.
Ce sont d’ailleurs Voegelin et Harris qui vont proposer une réflexion sur le
statut de la traduction dans l’analyse descriptive. Dans deux articles de 1951 (Voe-
gelin et Harris 1951 et Voegelin 1951), ils proposent de rationnaliser le rapport de
la traduction à la transcription, réflexion qui va aboutir d’une part à l’élaboration
de procédures de traduction présentées dans les numéros de l’IJAL de 1953-1954,
d’autre part à la mise au point de méthodes visant à distinguer des dialectes au
sein d’une même speech community (communauté de locuteurs) dans une pers-
pective sociolinguistique.

1.3.1. Traduction de l’interprète et speech communities

Voegelin (1951) propose de distinguer deux types de traduction :


(i)  la traduction du linguiste, comprenant la traduction littérale (ou mor-
phème par morphème) et la traduction libre ;
(ii)  la traduction de l’interprète (interpreter translation).
C’est dans leur article de 1951 que Harris et Voegelin précisent ce qu’ils
entendent par interpreter translation. Ce type de traduction joue un rôle cen-
tral dans la distinction des dialectes au sein d’une même famille de langues. Ils
mettent au point une méthode, qu’ils nomment « test the informant method »,
qui repose sur l’intercompréhension des membres de différentes communautés
de locuteurs (speech communities) et permet de déterminer les frontières entre

9 Pour Garvin (1967), la priorité donnée à la morphophonémique par les linguistes américains
résulterait de la mise au jour de propriétés typologiques de certaines familles de langues amé-
rindiennes agglutinantes, inédites dans les langues indo-européennes.
10 Outre ces travaux communs sur le hidatsa, Voegelin a fait sa thèse sur le tübatulabal, une
langue de la Californie ; avec sa seconde femme, Florence Robinett Voegelin, il a travaillé sur
le shawnee (langue algonquienne). Harris a travaillé sur le kota, le navaho, ainsi que sur des
langues sémitiques, le phénicien sur lequel a porté sa thèse, et l’arabe marocain. On verra que
ses exemples dans IJAL 1954 concernent le coréen et l’hébreu (voir § 2.2.2).

82 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
langues et surtout entre communautés. Harris et Voegelin décrivent ainsi leur
méthode (1951, p. 327-328) :
(i)  un locuteur A1 d’une communauté A raconte un conte dans sa langue.
Celui-ci est enregistré. Le linguiste de terrain (fieldworker) lui fait réentendre ce
texte et le lui fait traduire en anglais ;
(ii)  puis le chercheur demande à un locuteur B1 d’une communauté B de tra-
duire en anglais le conte enregistré dans la langue A (à partir de ce que B1 com-
prend de la langue A) ;
(iii)  les linguistes répètent l’opération pour les communautés B, C, D, etc.
Les auteurs insistent sur le fait que l’interpreter translation met au centre non la
compétence technique des locuteurs à traduire en anglais, mais l’intercompréhen-
sion des dialectes internes à une famille de langues. Ce qui est intéressant, disent-ils,
c’est moins les traductions que les différences. Les traductions ne sont qu’un moyen
par lequel on peut voir les différences entre la compréhension par un locuteur de A
d’un conte en langue A, et la compréhension par un locuteur de B du même conte
en langue A. Cette méthode a été testée par des élèves de Voegelin pour les l­ angues
iroquoises, algonquiennes et Yuman et les résultats ont été publiés dans l’IJAL (voir
Hickerson et al. 1952, Pierce 1952 et Biggs 1957). Ces travaux se poursuivront dans
le cadre de l’ethnographie de la communication et une certaine orientation de la
sociolinguistique (Hymes 1962, Gumperz et Hymes 1972).

1.3.2. Traduction libre et structures des langues

Le deuxième volet de cette réflexion sur la traduction concerne les problèmes de


la traduction libre soulignés par Voegelin (1951). On ne peut guère, dit-il, quali-
fier véritablement celle-ci de « libre ». Elle est plutôt maladroite, car le linguiste
cherche toujours à introduire de force dans la version anglaise toutes les informa-
tions linguistiques qu’il trouve dans les textes de la langue amérindienne décrite.
En fait, ce sont des pseudo-informations qui proviennent du fait que les langues
source et cible, langues amérindiennes et anglais, ont des structures extrêmement
différentes, voire incompatibles, et qu’il est vain de vouloir rendre compte de tous
les aspects structuraux des langues sources dans la traduction libre. C’est cette
difficulté de rendre compte simultanément des propriétés des deux langues dans
la traduction que Voegelin va s’attacher à résoudre dans les années qui suivent.
Ce début des années 1950 correspond aux premières expériences en traduction
automatique, qui vont infléchir la réflexion sur la traduction amorcée par Harris
et Voegelin et les conduire à envisager une systématisation sous forme de procé-
dures. La TA va également les contraindre à prendre en compte le sens, jusque-là
exclu, puisqu’il leur faut résoudre les ambiguïtés sémantiques dans le processus
d’automatisation. Ainsi la traduction est prise au sérieux, sous ses statuts multiples.

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 83
1.4. Voegelin : procédures de traduction et algorithmisation faible

Dès son article de 1951, Voegelin consacre deux pages (p. 361-362) à l’élaboration
d’un codage qui serait nécessaire à l’automatisation d’une traduction morphème
par morphème, et c’est dans son article de 1954 qu’il formalise en huit étapes la
procédure de traduction qu’il nomme « Multiple Stage Translation ». Cette pro-
cédure de traduction du shawnee vers l’anglais a été entreprise, précise-t-il, en
envisageant sa programmation pour un calculateur électronique. Elle consti-
tue une rationalisation de la traduction traditionnellement effectuée en deux
étapes par les anthropologues : la traduction interlinéaire (mot à mot) et la tra-
duction libre. On peut considérer cette nouvelle procédure comme un véritable
algorithme dans le sens où chaque étape du processus de traduction est explici-
tée, de l’identification par le locuteur natif/informateur jusqu’à une traduction
en anglais lissée et dotée d’une ponctuation :
1. Identification et traduction de mots entiers par l’informateur dans la langue source.
2. Identification des morphèmes par le traducteur.
3. Les étendues (spans) de traduction sont entre crochets, avec des équivalences don-
nées pour les séquences ambigües, les idiomes et les métaphores mis entre acco-
lades à l’intérieur des crochets.
4. Les redondances apparentes ou réelles sont mises en italiques pour montrer qu’on
ne doit pas continuer à les prendre en compte.
5. Les étendues de traduction de la langue cible sont entre parenthèses ; elles diffèrent
des crochets correspondants parce que l’ordre des mots est celui de la langue cible.
6. Certains mots ont été transférés d’une étendue de traduction à une étendue voi-
sine et sont maintenant en caractères gras pour montrer qu’ils ont été déplacés
de leur étendue de traduction originale.
7. Les maladresses sont lissées par transposition de toutes les parenthèses.
8. La ponctuation est dérivée en partie de la langue source par des substitutions
diverses.
Pour mettre en œuvre la procédure de traduction, Voegelin (1953) définit des
unités et des opérations (addition, soustraction) qui vont aboutir à une forme
mixte intermédiaire (a quasi language, an intermediate stage in translation) entre
les deux langues appelée parenthetic and bracketed English (anglais entre paren-
thèses et entre crochets), avant d’obtenir le texte édité en anglais, appelé punctuated
English. Les unités de traduction sont des contours prosodiques (entre crochets).
À l’intérieur de ces contours, les morphèmes sont délimités par différents types
de junctures indiqués par +, espace ou #. L’opération de soustraction détermine
ce qu’on soustrait au shawnee quand on passe à l’anglais (en italique dans le brac-
keted English) ; l’addition (en petites capitales) ajoute les éléments obligatoires en
anglais qui n’existent pas en shawnee ; le réarrangement des mots est marqué par

84 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
des virgules, points-virgules et points. Le bracketed English figure l’ordre des mots
en shawnee, alors que le parenthetic English figure l’ordre des mots en anglais. Les
éléments déplacés d’une unité vers une autre sont indiqués en gras, suivis ou pré-
cédés par des chevrons gauche et droite montrant la direction du déplacement.
Dans l’exemple ci-dessous (Voegelin 1953, p. 6) :
‘I’ appartenant à l’unité shawnee [Oklahoma I >] a été déplacé à droite dans l’unité
de l’anglais (< I live there)
[ July month] = ( July), l’équivalent de « month » existant en Shawnee a été sup-
primé en anglais
(16 miles east >) [< east + and >], [one-mile + plus-half] = (< and one and a half miles
south) south n’existant pas en shawnee a été ajouté en anglais ; and a été déplacé
de gauche à droite de l’unité shawnee [east + and] à l’unité anglaise (< and one and a
half miles south) ; east a été déplacé de droite à gauche de l’anglais vers le shawnee.
Texte shawnee transcrit en phonèmes à partir de l’enregistrement. Les contours sont indi-
qués par des crochets. Les junctures de divers types sont indiqués par +, espace et # :
[Oklahooma niila] [hočilenawe] [ninyeewaapitaki kitenʔθwi] [n + … hinoki]
[(hi)noki yaama kiišaʔθwa] [metaʔ + … metaʔ θwimaali kite nekotwaʔθwi]
[hetaʔkoθaki noʔki] [nekotimaali kitepaʔθi] [naamin ooči] [nitaʔmaačilooθiya]
[laapelaawikiišaθwa] [kiišaʔθwa niišwi lakimooθo] [teepee(we) kite čaakatθwi +
kite čaakatθwi … tθwi] [tθwatikitaʔθoowenipii (hi)ne] [nimaačilooθi #]
Bracketed and parenthetic English :
[Oklahoma I > ] = (Oklahoma), [there-live] = (< I live there) [I-be-forty and-three]
= (I’m 43), [now >], [now-this-month]= (<now this month), [te… ten-miles + plus
+six] = (16 miles east >) [ <east + and>], [one-mile + plus-half] = (<and one and a
half miles south), [Norman from] = (from Norman), [I-was-born-there] = (I was
born there), [ July month] = ( July), [second thus-he-is-counted] = (second) [hun-
dred-operator = plus-ninety-operator = zero-nine … ain] = (1909), [one-figures out]
= (one figures out), [I-was-born #] = (I was born),
Version éditée en anglais (avec ponctuation) :
Oklahoma, I live there. I’m 43, now, this month. I was born there, sixteen miles east,
and one and a half miles south, from Norman. I was born, one figures out, July 2 1909.11
La procédure proposée par Voegelin, comportant des unités de traduction
et des opérations, est un algorithme définissant toutes les étapes du processus
du début jusqu’au résultat. Elle constitue ce qu’on pourrait appeler une forma-
lisation « faible », d’un type relativement habituel chez les grammairiens et les

11 Traduction française (J. Léon) : Oklahoma, je vis ici. J’ai 43 ans maintenant, ce mois-ci. Je suis né
ici, à 16 miles à l’est et un mile et demi au sud de Norman. Je suis né, on le suppose, le 2 juillet 1909.

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 85
l­ inguistes12. La création d’une langue intermédiaire entre les deux langues comme
étape de traduction est une nouvelle forme de formalisation contenant des opé-
rations directement intégrables dans un algorithme.

2. Vers une formalisation dynamique des analyses morpho-syntaxiques


et des procédures de traduction

En 1954, Hockett et Harris utilisent, comme la plupart des néo-bloomfieldiens,


des tableaux et des diagrammes pour présenter leurs analyses morphophoné-
miques fondées sur la méthode distributionnelle13. Dans les travaux distribu-
tionnalistes, ces diagrammes ne deviennent toutefois que tardivement des arbo-
rescences. Alors que la notion de constituant hiérarchique est introduite, dès les
années 1920, par Sapir dans son analyse du mot dans la langue paiute (Seuren
2006), et que cette structure hiérarchique en constituants domine largement les
travaux structuralistes américains, on ne rencontre aucun diagramme arbores-
cent dans ces travaux. Ces linguistes – que ce soit Sapir ou Bloomfield – s’inter-
disent l’utilisation de représentations arborescentes qui restent réservées aux
sciences (mathématiques, physique ou psychologie)14.

2.1. Hockett : diagrammes et représentations hiérarchisées

Dans son article de 1954, Hockett utilise pour la première fois un diagramme hié-
rarchique sous forme de boîtes (les « boîtes de Hockett »), inspiré, dit-il, de Pike
(1943). Il utilisera largement ce type de diagramme dans ses travaux ultérieurs,
notamment dans son cours de linguistique (A Course in Modern Linguistics) de 1958.
Selon Seuren (1998), ce schéma aurait d’abord été utilisé par Chomsky en 1956, et
ensuite seulement par Hockett en 1958. Mais, comme on peut le voir dans les sché-
mas (1), (2) et (3), c’est bien Hockett qui l’utilise le premier en 1954. Ce qui est

12 En suivant Auroux (1998), on peut appeler « formalisation faible » les formes ou représenta-


tions abstraites construites par les linguistes, telles que les transcriptions, les listes, les tableaux,
etc. Elle s’oppose à la « formalisation forte », à savoir les systèmes formels calculables, tels
qu’apparus dans les années 1930 lors de la première mathématisation du langage. Avec la seconde
automatisation-mathématisation du langage, lorsque les langages formels et les algorithmes
de la première mathématisation sont devenus implémentables directement en programmes
informatiques, on parlera de « formalisation dynamique ».
13 Voir Joos (1957) pour une vue d’ensemble des travaux des distributionnalistes de 1935 à la fin
des années 1940.
14 Voir Seuren (1998) qui précise que Bloomfield a emprunté la notion d’arbre hiérarchisé au
psychologue Wundt, sans toutefois l’utiliser lui-même.

86 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
intéressant, c’est de voir que selon les trois versions, Pike, Hockett, Chomsky, le
même schéma ne s’interprète pas de la même façon et a trois fonctions différentes.

2.1.1. Schéma de Pike (1943, p. 70)

Il s’agit de l’analyse d’une phrase en constituants immédiats avec des indica-


tions morphologiques (M). Dans cette représentation hiérarchique, les niveaux
sont indiqués par des chiffres romains, et les chiffres arabes indiquent l’ordre
des gloses dans le texte.
(1)

2.1.2. Schéma de Hockett (1958, p. 152)

C’est une analyse en constituants immédiats portant sur des morphèmes, très
proche de celle de Pike. Hockett parle ici de boîtes (boxes).
(2)

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 87
2.1.3. Schéma de Chomsky (1956, p. 117)

Chomsky propose ici une représentation hiérarchique en constituants immé-


diats (il parle de « block »), mais l’analyse porte sur des catégories, et non plus
directement sur des morphèmes comme chez Hockett. Il faut signaler que dans
cet article, qui est un de ses premiers articles publiés, Chomsky ne s’intéresse
pas à la description des langues mais discute la puissance relative des différents
modèles de grammaire. Dans ce diagramme, il s’agit de la grammaire syntagma-
tique, à laquelle correspond cette analyse en constituants immédiats15.
(3)
the man took the book
NP Verb NP
VP
Sentence

2.1.4. Schéma de Hockett (1954, p. 314)

Si l’on examine maintenant l’article de 1954 publié dans l’IJAL, où, rappelons-le,
Hockett utilise ce type de diagramme pour la première fois – et avant Chomsky –,
l’analyse en constituants immédiats est utilisée pour la traduction entre deux lan-
gues, du chinois vers l’anglais. C’est l’analyse morphologique du chinois qui est
représentée sous forme de constituants immédiats, et qui, par étapes successives,
aboutit à la version anglaise. En fait, Hockett effectue une analyse en constituants
immédiats de l’anglais à partir du chinois. Comme chez Voegelin, on est en pré-
sence d’une langue intermédiaire. Hockett montre l’intérêt, pour le linguiste, de
laisser toutes les étapes intermédiaires de la traduction, entre la traduction inter-
linéaire, morphème par morphème, et la traduction libre.
(4) Voir tableau ci-contre.

15 Chomsky glose le schéma de la façon suivante : « Evidently, description of sentences in such


terms permits considerable simplification over the word-by-word model, since the composition of a
complex class of expressions such as NP can be stated just once in the grammar, and this class can
be used as a building block at various points in the construction of sentences. We now ask what form
of grammar corresponds to this conception of linguistics structure » (Chomsky, 1956, p. 117).
Traduction française ( J. Léon) : Une telle description des phrases permet une simplification
considérable par rapport au modèle mot à mot, puisque la composition d’une classe complexe
d’expressions comme NP peut être établie une seule fois dans la grammaire, et que cette classe
peut être utilisée comme un bloc susceptible d’être utilisé pour construire la phrase à différents
endroits. On peut se demander maintenant quelle forme de grammaire correspond à cette
conception de la structure linguistique.

88 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s
Ligne 1 : chinois (morphème par morphème)
Ligne 2 : anglais (morphème par morphème)
Dernière ligne : traduction libre : this is STILL a lot less than you owe me altogether.

89
Hockett considère comme essentiel de rendre disponible pour le linguiste les
résultats intermédiaires entre la traduction morphème par morphème (2e ligne)
et la traduction libre (dernière ligne). Pour tous les segments du texte, il donne
le dénominateur commun de sens à tout contexte possible. Il ne s’agit pas d’une
option de traduction mais d’une option d’interprétation. Hockett propose de
résoudre les ambiguïtés sémantiques grâce à cette analyse en constituants immé-
diats. Par exemple, I/me et wo (8e colonne en partant de la gauche) : le chinois
wo signifie I et me. Mais grâce au contexte, « altogether » visible dans les strates
intermédiaires « owe me together », on voit que la glose I est impossible ; seul me
est possible. Pour Hockett, ce n’est pas que wo signifie tantôt I tantôt me mais
c’est que wo est un dénominateur commun à I et à me. Ainsi pour wo, il donne
les sens I et me. En traitant wo comme un constituant immédiat, la construction
dans laquelle il apparaît permet de décider que c’est la glose me qui va être rete-
nue. Outre une rationalisation des étapes de traduction, un tel tableau prend en
compte et constitue une aide à la désambiguïsation morphologique.

2.2. Harris : diagrammes et instructions

L’article de 1954 dans l’IJAL fait partie de la première phase des travaux de Harris
qui, selon Matthews (1999), va de 1942 à 1955 (en excluant Discourse Analysis et les
transformations publiés en 1952 qui font partie de la deuxième phase). Cette pre-
mière phase est consacrée à l’établissement d’unités de base à partir de patterns dis-
tributionnels. En 1954, Harris a déjà publié en 1951 Methods in Structural Linguistics,
texte central de sa première période, et un gros article sur Sapir paru dans Language,
également en 1951, dans lequel est abordée entre autres la question des différences
entre systèmes linguistiques16. Ces deux textes sont essentiels pour comprendre le
projet proposé par Harris dans l’article de 1954 intitulé « Transfer grammar » et
dont l’objet est de déterminer s’il est possible de mesurer la différence entre les
langues (à savoir les systèmes linguistiques de Sapir) en vue de leur traduction. Il
est intéressant de voir comment la représentation en diagramme de la grammaire
de transfert, destinée à la traduction, montre une évolution de la formalisation.

2.2.1. Procédures axiomatisées et ébauche de grammaire générative

Methods in Structural Linguistics présente un ensemble de procédures axiomatisées


visant à établir la description la plus compacte (à savoir la plus simple) possible

16 À la suite de Sapir, Harris (1962b) propose un langage international pour les sciences à partir
de l’idée que toutes les langues ont des structures similaires, en dépit de leurs différences
grammaticales et lexicales. Cette idée de langage international débouchera sur la construction
des sous-langages pour les sciences, projet qu’il mènera jusqu’à sa mort en 1992.

90 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
de toutes les constructions du corpus de données. Harris emprunte aux mathé-
matiques sa notion de procédure axiomatisée, de sorte qu’on peut le considérer
comme le premier linguiste formaliste (Seuren 1998, p. 214 et suiv.). Ces procé-
dures effectuent une analyse en constituants immédiats à tous les niveaux, pho-
nèmes, morphèmes, mots, syntagmes et phrases. Elles sont représentées sous
forme de diagrammes (Harris 1951a, p. 69) :
(5)
More generally : if segment a occurs in environments X-, and b in Y- and in Z- ; and if seg-
ment e occurs in X- and in Y-, while f occurs in Z- ; we group a and b into one phoneme, say
/A/, and e and f into another, say /E/. The result is that /A/ and /E/ each have identical
distributions : each of the two phonemes occurs (is represented by some member) in X-, Y-, Z.

X_ Y_ Z_
a ✓
b ✓ ✓
e ✓ ✓
f ✓

[a] + [b] = /A/ ; [e] + [f ] = /E/

Le tableau (5) n’est pas lisible seul, il est glosé (les six lignes au-dessus du
tableau) et fait l’objet d’une formule qui donne le résultat (ligne au-dessous du
tableau). Les unités (a, b, e, f) sont des segments. Les colonnes (X_, Y_, Z_)
sont les contextes gauches des unités. Le tableau peut se lire comme une règle
en si, alors (il n’y a pas de sinon) qui définit des phonèmes, A et E, en fonction
des éléments du contexte.
À la fin de l’ouvrage (Harris 1951a, p. 350), on trouve un diagramme qui repré-
sente la structure générale des phrases de l’anglais. Il s’agit d’un algorithme per-
mettant de dériver des phrases de surface (en l’occurrence des chaînes de consti-
tuants immédiats) à partir d’un système axiomatique déductif. Comme le signale
Seuren (1998, p. 228), ce diagramme est déjà une grammaire générative17.
(6)

17 Un article de Harwood, publié dans Language en 1955 – donc avant les premières publications de
Chomsky – et qui s’appuie sur Harris (1951a), expose une conception de la grammaire comme
système organisé de règles génératives. En définissant un système syntaxique axiomatique
permettant de dériver des séquences possibles et de les distinguer du « reste », à savoir les
séquences impossibles, l’objectif de Harwood est de déterminer l’adéquation (the goodness of
fit) d’un système syntaxique.

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 91
En (6), l’espace vide en haut à droite montre qu’il est possible de n’avoir
aucun matériel apparaissant à droite de V. Grâce à ce diagramme on peut générer :
S -> N V
S -> N V N
S -> N V P N
S -> N Vb N
S-> N Vb A
Ainsi, ce tableau permet de générer toutes les combinaisons possibles pour
une langue donnée.

2.2.2. Grammaire de transfert et instructions

Dans son article sur Sapir, Harris (1951b) signale qu’il n’est pas possible de voir
comment deux systèmes linguistiques (deux langues) se distinguent de leur
monde physique commun, mais seulement de voir comment ils se distinguent
l’un de l’autre sur le plan grammatical. Harris insiste sur la structure formelle des
langues, en précisant que leur mode d’adéquation fondamental est moins la com-
plétude, qui est statique, que la « complétabilité », c’est-à-dire leur constructi-
vité, dynamique et sans limite.
Dans l’article de l’IJAL de 1954, « Transfer grammar », il s’agit de savoir com-
ment mesurer et corriger la différence entre les deux systèmes. Harris propose
une méthode, la grammaire de transfert, susceptible de mesurer les différences
de structures grammaticales et d’établir le minimum de différence ou le maxi-
mum de ressemblance entre deux systèmes linguistiques. La méthode proposée
a aussi des objectifs pratiques. Elle peut servir à mettre au point une procédure
de traduction éventuellement transformable en instructions pour un système
informatisé de traduction automatique18. La différence entre deux langues est
définie comme le nombre et le contenu des instructions grammaticales néces-
saires pour générer (generate) les énoncés d’une langue (A) à partir des énoncés
d’une autre langue (B). Il définit des instructions de transfert (B-A). La gram-
maire de B peut être obtenue à partir de la grammaire de A à l’aide des instruc-
tions B-A. Celles-ci constituent un appendice, un ajout à la grammaire de A, ou
une grammaire de transfert de B via A. Cette grammaire de transfert est elle aussi
une langue intermédiaire, conçue en vue de l’automatisation.

18 La méthode peut être aussi utilisée à des fins d’enseignement des langues étrangères : Harris
fait l’hypothèse, pour le moins hasardeuse, qu’on peut acquérir une langue en n’apprenant que
les différences entre la nouvelle et l’ancienne, et en laissant de côté ce qu’elles ont de commun.
On est peut-être face à une interprétation assez audacieuse de l’analyse contrastive de Fries
(1940) préconisée pour l’enseignement des langues étrangères (voir chapitre 3).

92 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Outre l’apparition du terme « générer », le maître mot est le terme « instruc-
tion » qui apparaît ici pour la première fois dans l’œuvre de Harris et qui est uti-
lisé 24 fois dans le texte, ce qui est considérable pour un texte de douze pages.
C’est bien dans le sens d’instruction dans un algorithme informatisé que ce
terme est utilisé : « The method is also relevant to a proceduralized system of trans-
lation, and indeed can be put in the form of routine instructions for machine transla-
tions »19 (Harris 1954, p. 259).
Ce sont les mêmes termes, « instruction » et « generate », qui sont utilisés pour
définir la grammaire d’une langue : « A grammar may be viewed as a set of ins-
tructions which generates the sentences of a language »20 (Harris 1954, p. 260). Tou-
tefois, Harris ne donne pas de détails sur ces instructions, et les termes « géné-
rer » et « instruction » ne sont pas réservés aux règles de grammaire. Il y a aussi
des instructions qui servent à générer le lexique et les phonèmes.
(7) Synthèse des instructions de transfert de la forme verbale en hébreu et anglais.
H\E V+ will/ Preverbs V (may/ It’s A I am I I
ed shall not listed to V might/ that N A/N will V Ved
V ­elsewhere should) (Ved/
+V +V will V)
V + pers x
Pers + V x
(yahol/murax/
x
etc) leV
Other V + le V x
(efsar/naxon/
x
etc) se pers. V
Other A + se
x
(pers V/V pers)
Ani (-A/-N) x
Ani e + pers + V x
Ani V + pers + ti x

1re ligne : structures de l’anglais


1re colonne : structures de l’hébreu
Preverb : will, shall, can, could, may
V + pers : éléments personnels suffixés
Pers + V : éléments personnels préfixés

19 Traduction française ( J. Léon) : La méthode peut être utilisée comme procédure dans un sys-
tème de traduction et peut figurer sous forme d’instructions de routine pour des traductions
automatiques.
20 Traduction française ( J. Léon) : Une grammaire peut être considérée comme un ensemble
d’instructions générant les phrases d’une langue.

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 93
Le tableau (7) peut se lire comme des instructions en condition alors action :
s’il existe un x dans une colonne alors traduire par la forme de la ligne corres-
pondante. Ces instructions sont ordonnées dans un algorithme, et directement
programmables.
Si on prend l’exemple de I en anglais, sa traduction en hébreu est condition-
née selon l’environnement. Trois instructions (ou règles) ordonnées permettent
de la désambiguïser.
I (en anglais) se traduit en hébreu par le préfixe e- s’il est suivi par will be (en
hébreu pers + V)
I (en anglais) se traduit en hébreu par le suffixe (ani) – ti s’il est suivi par V +
ed (ou V + pers)
I (en anglais) se traduit en hébreu par ani dans tous les autres cas.

3. Les sources du programme générativiste

L’examen de ces travaux montre que l’analyse en constituants immédiats a évo-


lué de façon progressive, au fil des travaux de plusieurs néo-bloomfieldiens, vers
une première forme de grammaire générative. Cette évolution s’est concrétisée
par une dynamisation des diagrammes, à savoir leur mise en algorithme, rendue
possible par l’automatisation de la traduction. Dès 1943 avec Pike, puis en 1954
avec Hockett, on voit apparaître des représentations hiérarchisées qui restent
toutefois limitées aux constituants immédiats et aux morphèmes. On a vu com-
ment Harris, dès 1951, a fait évoluer ce modèle en intégrant dans les schémas
habituels la notion de génération, même si, dans ce texte, générer n’est pas seu-
lement utilisé pour la grammaire mais aussi pour les phonèmes et le lexique. La
notion d’instruction (condition alors action), apparue en 1954 avec les possibili-
tés d’automatisation, a transformé le modèle en un algorithme automatisable, et
a fait évoluer la définition de la grammaire. Celle-ci devient un ensemble d’ins-
tructions chargées de générer les phrases d’une langue. L’explicitation donnée
par Harwood en 1955 conduit à définir une grammaire capable de délimiter deux
ensembles, celui des phrases possibles et celui des phrases impossibles, transfor-
mant le modèle harrissien en véritable grammaire générative. Autant d’éléments
qui militent pour une approche continuiste de l’histoire de la linguistique amé-
ricaine, en opposition à une conception qui verrait une rupture, voire une révo-
lution entre l’approche distributionnaliste et le programme chomskyen.
Les liens entre Chomsky et la première mathématisation ont fait l’objet de
travaux historiographiques (Seuren 1998, Tomalin 2006). Il est d’ailleurs curieux
que la thèse défendue par un ouvrage récent (Tomalin 2006) donnant toute son
importance aux sources formelles de la théorie chomskyenne fasse encore débat

94 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
(Seuren 2009), dans la mesure où l’influence sur Chomsky des théories mathé-
matiques et logiques (Church, Russell, Hilbert, Carnap etc.), des théories philo-
sophiques empiristes (Quine, Goodman) et de la théorie des algorithmes (Post)
semble bien établie. Quant à la filiation harrissienne, elle n’est plus à démontrer :
d’ailleurs Chomsky cite largement Harris mais aussi Harwood dans sa thèse (1955),
et aussi dans Structures syntaxiques (1957)21.
Par ailleurs, bien qu’il se soit toujours défendu d’avoir jamais participé à des
travaux de TA, ni d’avoir partie liée à l’informatique, il n’en est pas moins vrai
que Chomsky a partagé la culture de technologie de guerre des débuts de la TA
et que sa théorie des grammaires est aussi liée à l’automatisation de l’analyse
syntaxique. Comme d’autres anciens élèves de Harris22, il est recruté en 1955 au
MIT dans le Research Laboratory of Electronics (RLE) dirigé par Victor Yngve,
responsable du groupe de TA et auteur des premiers analyseurs syntaxiques23.
Déjà familier de l’axiomatisation des règles élaborée par Harris, il bénéficie d’un
environnement où peut s’élaborer sa conception computationnelle (combina-
toire) de la grammaire24. Il y rencontre Marcel-Paul Schützenberger (1920-1996)
invité par ­Shannon en 1956 au MIT pour travailler sur la sémantique des lan-
gages formels et, avec Kleene, sur les automates à états finis. Chez Chomsky, le
lien entre grammaires formelles, informatique et mathématiques s’établit à plu-
sieurs niveaux. Chomsky doit au système de production de Post son système
de règles de réécriture qui en est directement inspiré, et plus généralement sa
notion de langage formel. En établissant sa hiérarchie des grammaires, Chomsky
(1956) prétend fonder une linguistique algébrique, destinée à montrer la supé-
riorité de la grammaire transformationnelle (voir § 3 et 4.1 chapitre 2 ci-dessus).
Toutefois, ces premiers travaux et ceux qu’ils entreprend un peu plus tard avec
­Schützenberger (Chomsky et Schützenberger 1963) sur les automates à piles et

21 Comme le signale John Joseph (2002) Chomsky, à partir des années 1960, a toujours nié une
quelconque influence de Harris et revendique que, dans ses travaux, « génératif » signifie
simplement « explicatif ».
22 Chomsky est engagé par Yngve en compagnie de trois autres linguistes Joseph R. Applegate,
Fred Lukoff et Betty Shefts, dont les deux premiers sont des élèves de Harris (Mechanical
Translation vol. 2, no 1, 1955).
23 Nevin (2009) note que les critiques de Chomsky sur le « flou » des théories harrissiennes
visaient essentiellement le fait qu’elles n’étaient pas réductibles en un algorithme programmable
pour un ordinateur.
24 Selon Wildgen (2009), le fait que Harris et Chomsky aient choisi l’algèbre comme métalangage
scientifique est issu d’une conception traditionnelle du langage comme langage écrit, à savoir
discret, linéaire et réductible à une combinatoire dans le temps. Cette stratégie d’emploi des
mathématiques est conservatrice car elle suppose que les faits linguistiques pertinents soient
déjà connus et qu’il suffit de les rendre de façon élégante et cohérente.

a u t o m at i s at i o n e t f o r m a li s at i o n c h e z l e s d i s t r i b u t i o n n a li s t e s 95
les langages hors-contexte vont être utilisés en théorie de la compilation et dans
la définition de langages de programmation et d’algorithmes d’analyse syntaxique.

4. Conclusion

Pour les néo-bloomfieldiens, deux innovations technologiques ont, au xxe siècle,


changé fondamentalement la tâche de l’anthropologue linguiste. Il s’agit du
magnétophone et de la TA. L’automatisation de la traduction a suscité une évo-
lution de la grammaire vers des modèles plus formalisés. Toutefois, même si la
traduction a ainsi regagné un certain attrait pour les linguistes distributionna-
listes, les projets en eux-mêmes n’ont pas été véritablement poursuivis. Voegelin
n’a pas développé plus avant son idée de langue intermédiaire comme méthode
de traduction. Harris, bien que seul linguiste néo-bloomfieldien à avoir dirigé
un groupe de traduction automatique, s’est consacré plutôt à la construction de
sous-langages des sciences dont on peut dire que les grammaires de transfert
constituent la première esquisse25. Ainsi, ce n’est pas la traduction qui a bénéfi-
cié des avancées de la formalisation, mais plutôt le modèle en constituants immé-
diats. On a vu que celui-ci était capable d’évoluer, contrairement à ce qu’ont pu
avancer un certain nombre de critiques. Dès les années 1950, Bar-Hillel montre
les limites de ce modèle qui ne fait, selon lui, que traduire l’intérêt des linguistes
structuralistes pour les processus constructionnels permettant d’analyser les
éléments linguistiques complexes en plus petits éléments (morphèmes et pho-
nèmes) : aucune attention, dit-il, n’est accordée aux relations logiques, à savoir
la syntaxe ; une autre limitation du modèle en constituants immédiats, toujours
selon Bar-Hillel, tiendrait à son incapacité à concevoir les éléments d’une phrase
comme non-adjacents26, problème que tentera de résoudre Chomsky avec les
transformations27.

25 À noter que la méthode par grammaire de transfert a été reprise par M. Salkoff (2002), harris-
sien et membre de l’équipe de recherche de Maurice Gross, pour développer un système de
traduction automatique anglais-français.
26 Cet argument souvent invoqué contre les distributionnalistes est contesté par Sampson (2001,
p. 145) qui rappelle que la notion de constituant discontinu a été introduite par Pike dès 1943
et développée par Rulon Wells en 1947.
27 Bar-Hillel (1953b), on l’a vu chapitre 2, a lui-même élaboré, dès 1953, une syntaxe opérationnelle
pour la traduction automatique à partir des travaux des linguistes structuralistes (notamment
Harris) et des langages formels des logiciens (Ajdukiewicz). Il adoptera ensuite le modèle de
Chomsky.

96 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Chapitre 6

Automatisation de la traduction, sémantique


et lexique : l’inscription de nouvelles questions
et nouveaux objets dans le temps long

Nous allons quitter la scène américaine pour voir comment se sont effectuées
l’intégration de la TA et l’automatisation du langage dans d’autres traditions lin-
guistiques. À la différence de la linguistique structuraliste américaine, qui a inté-
gré l’automatisation-mathématisation par adaptation et où les méthodes distri-
butionnelles partagent déjà une partie des savoirs à l’œuvre dans la linguistique
computationnelle, la linguistique soviétique, la linguistique britannique et la lin-
guistique structurale française ont, chacune avec leur spécificité propre, tiré pro-
fit de l’automatisation de la traduction, sans pour autant intégrer l’ensemble des
conceptions théoriques sous-jacentes.
L’automatisation du langage ne s’est pas nécessairement accompagnée d’em-
blée d’une nouvelle mathématisation. Certains groupes de TA ont donné la prio-
rité à la sémantique et au lexique dans l’élaboration de méthodes de TA. Même
si la mise en algorithme est nécessairement engagée dès lors qu’il s’agit d’auto-
matiser les procédures de traduction, ces groupes, au contraire des Américains,
n’ont pas donné la priorité à l’analyse syntaxique logico-mathématique. L’auto-
matisation de la traduction, fondée sur le lexique et la sémantique, et ancrée dans
des traditions linguistiques et culturelles données, a eu pour effet de susciter ou
renouveler des questions, et de faire émerger de nouveaux objets pour les sciences
du langage. C’est dans le sillage de ces questions nouvelles conçues au sein de
leur tradition que la mathématisation de la syntaxe s’est trouvée intégrée, et non
de façon brutale et externe. Plutôt que de se voir obligées d’intégrer « de force »
un nouvel horizon de rétrospection imposé de l’extérieur dans un laps de temps
limité, ces approches ont inscrit l’automatisation du langage dans le temps long.

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 97
1. Sémantique et méthodes de langues intermédiaires pour la TA

Dans l’horizon de rétrospection de la TA, les questions de sémantique sont


inexistantes : exclues de l’approche behaviouriste des néo-bloomfieldiens, elles
sont appréhendées à partir de la logique chez Carnap et Bar-Hillel. C’est au sein
de traditions où le sens peut être un enjeu que les approches sémantiques de la
TA ont pu être développées.
Les premières expériences de TA en Grande-Bretagne et en URSS présentent
plusieurs similitudes. Acteurs majeurs de la guerre froide, les Britanniques et les
Russes sont en effet les premiers, dans le sillage des États-Unis et de la première
démonstration sur ordinateur de 1954, à s’engager dans des expériences de TA.
Même si les groupes russes et britanniques ont mené des expérimentations en
TA de façon parallèle et souvent dans une méconnaissance totale des travaux
des uns et des autres1, ils ont comme point commun d’avoir entrepris ces expé-
rimentations en donnant la priorité au transfert de sens dans le processus de tra-
duction et en développant, pour la TA, des méthodes de langues intermédiaires
à base sémantique.
Ce qui distingue les deux approches, outre le contexte politique, c’est la fami-
liarité avec la première mathématisation. Avec les travaux de Russell, Turing et
Wittgenstein (entre autres), les Britanniques sont très au fait de la première mathé-
matisation, qui composait l’essentiel de l’horizon de rétrospection de Weaver et
de la TA. Ils ont leur propre école de théorie de l’information avec Colin Cherry,
Dennis Gabor et David McKay. Pour les Soviétiques, c’est au travers des débats
sur la cybernétique, à partir des années 1950, que ces questions sont abordées.
Même si Wiener (1948) reconnaît les travaux pionniers de certains mathémati-
ciens russes – il cite Andrei Kolmogorov (1903-1987), Nicolai Krylov (1879-1955)
et Nicolai Bogolioubov (1909-1992)2 – il est difficile de cerner actuellement l’an-
crage des Russes dans la première mathématisation du langage3.

1 On notera que les Russes connaissaient les travaux britanniques (Mel’čuk 1961 ; Žolkovskij
1961), l’inverse n’étant pas vrai.
2 «  Let it be remarked parenthetically that some of my speculations in this direction attach themselves to
the earlier work of Kolmogoroff in Russia, although a considerable part of my work was done before
my attention was called to the work of the Russian school. [Kolmogoroff A. N. 1941 « Interpolation
und extrapolation von stationären Zufälligen Folgen » Bull. Ac. Sciences USSR ser. maths 5
3-14] (Wiener 1948, p. 11).
Traduction française ( J. Léon) : Remarquons entre parenthèses que certaines de mes spécula-
tions se relient aux premiers travaux de Kolmogoroff en Russie, bien qu’une part considérable
de mon travail ait déjà été accomplie avant que mon attention ne soit attirée par les travaux de
l’école russe.
3 Ce point, abordé dans Mindell et al. (2003), mériterait d’être approfondi.

98 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
1.1. Les pionniers : l’espéranto comme langue intermédiaire

Les tout premiers pionniers de la machine à traduire sont d’une part un Russe,
d’autre part deux Britanniques dont aucun n’est linguiste. Ce sont des inventeurs
qui, bien qu’à des époques différentes, se sont appuyés sur l’espéranto comme
langue intermédiaire pour imaginer une machine à traduire.

1.1.1. La machine de Trojanskij (1931, 1947)

Le projet de machine à traduire conçu par l’ingénieur Smirnov-Trojanskij (1894-


1950) en 1931, et rédigé en 1947 sous le titre De la machine à traduire, construite
sur la base d’une méthode monolingue, est publié en 1959 par les pionniers de la
TA en URSS, Panov et Korolev (Panov et al. 1959)4. En reprenant ce projet des
années 1930-1940, l’objectif des chercheurs soviétiques est de tenter d’instaurer
les Russes comme pionniers de la TA, avant les Américains, à l’instar du Spout-
nik lancé en 1957.
Le tableau ci-dessous illustre la méthode de traduction élaborée par Smirnov-
Trojanskij (voir Archaimbault et Léon 1997, p. 115) :

A A1 (B1 + C1) (B + C)
das Bild das Bild-o картина-о le tableau картина le tableau
der Welt die Welt de -o Мир de -o le monde de-o мирa du monde
zeigt zeigen-as Показывать-as montrer-as показываeт montre
wie wie как comment как comment
die Materie die Materie-o материя-о la matière-o материя la matière
sich bewegt sich bewegen-as двигаться-as se mouvoir-as движется se meut
wie wie как comment как comment
die Materie die Materie-o материя-о la matière-o материя la matière
denkt denken-as Мыслить-as penser-as мыслит pense

Comme base d’automatisation de la traduction, Trojanskij postule une structure


commune à toutes les langues, au-delà de leur diversité ; entre la langue-source et
la langue-cible, il suggère de passer par un texte intermédiaire, qu’il dit logique, qui
consiste en une suite de mots apparaissant sous leur forme grammaticale de base,
comme autant d’entrées de dictionnaire qui seront ensuite traduites. Dans le sys-
tème de Smirnov, un traducteur obtient, à partir d’un texte en langue source A, un
texte en langage logique A1 que la machine traduira automatiquement en ­langage

4 Le brevet de Trojanskij et son algorithme figurent déjà en fac-similé dans l’article de Panov,
Liapunov et Mukhin de 1956 (p. 27-34).

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 99
logique Bl, grâce à un dictionnaire qui traduit automatiquement les entrées. Le texte
Bl sera ensuite arrangé manuellement par un rédacteur en langue cible B.
Certaines formes de ce langage logique : forme + marque de reconnaissance
du verbe (as) et du nom (o) sont clairement des emprunts à l’espéranto5.
Pour Trojanskij, le grand intérêt de cette méthode de traduction réside dans le
fait qu’il s’agit d’une méthode monolingue, chaque traducteur pouvant ne connaître
qu’une langue et une seule : il met ainsi le travail de traduction à la portée de tous,
puisque ce travail s’apparente aux exercices des écoliers du cours élémentaire qui
décomposent un texte de leur langue maternelle « en parties de propositions et
en parties de discours ». En outre, les avantages économiques de la méthode sont
nombreux, notamment la possibilité de faire appel à des traducteurs non qualifiés.

1.1.2. Le pidgin English de Richens et Booth (1955)

Pour Andrew D. Booth (1918-2009) et Richard H. Richens (1919-1984), une langue


est une suite de symboles représentant des idées. La traduction est une opéra-
tion de substitution d’une langue à une autre pour exprimer le même ensemble
d’idées. La procédure consiste à décomposer les mots du texte source en uni-
tés sémantiques (racines et affixes séparés par des *), chacune représentant une
idée (1), puis à opérer une traduction mot à mot en appliquant un dictionnaire
bilingue. Le résultat est une suite de mots et de directives grammaticales res-
semblant à une forme stéréotypée de pidgin English (2) contenant des directives
grammaticales issues de l’analyse de la langue source (3). L’astérisque signale le
lieu d’une décomposition morphologique, résultat d’une post-édition. Celle-ci
doit être réécrite en anglais standard (4).
(1) Texte français (source)
Il n’est pas étonn*ant de constat*er que les hormone*s de croissance ag*issent sur
certain*es espèce*s, alors qu’elles sont in*opér*antes sur d’autre*s, si l’on song*e à la
grand*e spécificité de ces substance*s.
(2) Résultat : pidgin English
v not is not / step astonish v of establish v that / which ? v hormone m of growth act
m on certain m species m, then that / which ? v not operate m on of other m if v one
dream / consider z to v great v specificity of those substance m.
(3) Directives grammaticales utilisées dans l’exemple
m : pluriel (multiple, pluriel ou duel) v vide
z non spécifié

5 o est le morphème du nom en espéranto et -as est la marque du présent pour les verbes.

100 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
(4) Résultat de la post-édition
It is not surprising to learn that growth hormones may act on certain species while having
no effect on others, when one remembers the narrow specificity of these substances.
Dans le cas russe comme dans le cas britannique, ces approches, qui peuvent
paraître naïves, témoignent de l’importance des langues artificielles dans leurs
horizons de rétrospection respectifs. Mais les similitudes s’arrêtent là. Les modèles
de langues intermédiaires qui en sont issus sont très différents. Les contextes eux
aussi sont différents. Trojanskij conçoit sa machine à traduire bien avant l’appa-
rition des ordinateurs, dans un contexte des années 1930 de planification multi­
lingue qui a pour objectif de traduire toutes les langues de l’Union, et dont la
figure de proue est Drezen (Archaimbault 2001).
Le début de la TA en Grande-Bretagne commence avec la rencontre de Booth,
directeur du centre informatique du Birkbeck College de l’université de Londres
avec Warren Weaver en 1946. Celui-ci promet de doter le Birkbeck College d’un
calculateur électronique à la condition que des expérimentations non numé-
riques, en particulier de TA, y soient effectuées. Comme signalé plus haut, ni
Booth ni Richens ne sont linguistes, ni même mathématiciens. Le premier est
cristallographe, le second biologiste, spécialiste de la génétique des plantes. Ce
sont des « inventeurs » sans aucun ancrage ni dans les sciences de la guerre, ni
dans la première mathématisation du langage.

1.2. Lexique, contexte et thésaurus : les expériences du Cambridge


Language Research Unit6

Le groupe britannique, la Cambridge Language Research Unit (CLRU), ne com-


porte pas d’ingénieurs et n’est pas soumis, comme les Américains, à la pression
stratégico-économique de fournir des traductions en série économiquement ren-
tables. Il est dirigé par une philosophe, Margaret Masterman (1910-1986), élève
de Wittgenstein, et comprend des linguistes (Martin Kay et M. A. K. Halliday)
et des mathématiciens (le statisticien A. F. Parker-Rhodes et les informaticiens
Yorick Wilks et Karen Spark-Jones). La présence en son sein de Richard Richens,
qui, comme on l’a vu, a commencé des expérimentations de TA dès 1948, contri-
bue probablement au fait que le groupe ait été reconnu très tôt par les Améri-
cains. En particulier, Richens signe avec Booth un chapitre du premier ouvrage
collectif de TA publié au MIT (Locke et Booth 1955). Le CLRU participe dès
1956 à un colloque organisé par le MIT et, la même année, reçoit un financement
de la NSF. Malgré leur proximité avec les Américains, les membres du CLRU

6 Pour un exposé détaillé de ces travaux voir Léon 2007a.

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 101
n’adoptent pas une approche logico-syntaxique. La langue intermédiaire à base
sémantique qu’ils élaborent se situe à la croisée de deux courants appartenant
à la tradition britannique : les langues universelles du xviie siècle et les théories
contextuelles du sens des années 1930 (Malinowki et le second Wittgenstein).
On peut distinguer trois projets successifs de langues intermédiaires dévelop-
pés par les membres du CLRU entre 1955 et 1968 : Nude, Nude II et les templates.

1.2.1. La langue intermédiaire Nude

Pour élaborer sa langue intermédiaire, Richens (1955) s’inspire des projets de langues
universelles britanniques du xviie siècle, notamment l’Ars Signorum de ­Dalgarno
(1661) et l’Essay towards a real character and a philosophical language de Wilkins
(1668). Il faut préciser qu’un des héritiers des travaux de Wilkins est le botaniste
Linné dont Richens, spécialiste des plantes, connaissait probablement les travaux.
Cette langue est conçue comme un réseau sémantique de cinquante idées
nues, « naked ideas », où les particularités structurales (et surtout morpholo-
giques) de la langue source sont supprimées, d’où son nom de Nude. Le réseau
sémantique, dit Richens, est ce qui est invariant durant la traduction. Ces idées
nues sont structurées en chunks (ou unités sémantiques). Ce sont des formules
composées de primitives sémantiques et d’opérateurs syntaxiques. Par exemple :

.Pz one
Xp’CL seed
Xp’CL.Pz one seed

Six primitives sont utilisées dans cet exemple :

p plant X part, component


z negation, opposite, contrary C causation, influence
P plurality, group, number L living, alive

Ainsi que deux opérateurs syntaxiques :


Le point [.] marque une relation monadique : un adjectif ou un verbe intransitif sont
marqués par l’attente d’une relation avec un nom7.
Les apostrophes [‘] sont utilisées comme des parenthèses à l’intérieur d’un mot.
L’interlingua « algébrique » de Richens, conçue comme un réseau de primitives

7 L’opérateur [:] marque une relation dyadique, par exemple un verbe transitif marqué par
l’attente d’un sujet et d’un objet. Nude a une syntaxe qui a pu être considérée comme une
préfiguration de la grammaire des cas : un verbe transitif est marqué pour un sujet et un objet.

102 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
sémantiques, est très proche d’une caractéristique universelle. Comme Wilkins,
Richens pose le problème de la compositionnalité. Le sens d’un mot est une com-
position d’éléments de sens :
Seed (graine) = Xp’CL [ X partie + p plante / C cause L vie]
Toutefois, aucune procédure automatique d’extraction des réseaux sémantiques
à partir des textes de base n’est envisageable à partir de Nude, et celle-ci ne sera
pas réellement exploitée pour la TA.

1.2.2. Nude II : une langue intermédiaire par thésaurus

À partir de Nude, Margaret Masterman va élaborer un second projet de langue


intermédiaire qui s’inspire tout à la fois de Nude, de la notion de thésaurus
et des théories wittgensteiniennes sur la définition du sens d’un mot par ses
contextes d’usage. Si contradictoire qu’elle puisse paraître, cette tentative d’allier
une conception du sens a priori – que comporte tout projet de langue univer-
selle – avec une conception du sens par l’usage eut des retombées intéressantes.
Une des composantes de la nouvelle langue intermédiaire est le Thesaurus
de Roget, paru en 1852, considéré à raison par les historiens de la linguistique
comme un des continuateurs de Wilkins (Cram 1985, Salmon 1979). Margaret
Masterman remplace les cinquante primitives de Nude par les heads du Thésau-
rus et améliore la syntaxe.
Les primitives sont des mots de l’anglais. La syntaxe de Nude II consiste en deux
connecteurs et une convention de parenthésage.
[:] relie deux éléments dont la relation est celle d’ajout à l’élément principal
[/] est un connecteur verbal non commutatif représentant la relation de sujet au
verbe ou de verbe à objet
() parenthèses remplaçant les apostrophes de Richens, et regroupant les primitives
par deux.
Les primitives de Nude II (Masterman et al. 1959, p. 62) utilisées dans l’exemple
sont les suivantes :

NUDE APPROXIMATING EXAMPLE


ELEMENT AREA OF MEANING
6 CAUSE Causative actions Cause/(have/sign) (say)
13 HAVE Pertain « of » Cause/(nothave/life) (kill)
33 MAN Human Kingdom (part : folk) : man (member of family)
41 SIGN Symbol (any sort) Cause/(have/sign)(speak)

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 103
speak he says speaker
cause/(have/sign) man/(cause/(have/sign)) man : (cause/(have /sign))

L’organisation des heads forme un réseau sémantique de structure non hiérar-


chique (qui a donné lieu à une formalisation en treillis). Les heads doivent avoir
un sens sans pour autant être des mots appartenant à une langue donnée. Mas-
terman, en tant qu’élève de Wittgenstein, partage sa conception du sens des mots
par l’usage et refuse d’envisager les primitives de Nude II comme des concepts
universaux a priori, ce qu’ils étaient dans la version de Richens. De même, elle
est absolument hostile à toute hypothèse cognitive considérant les primitives
comme des éléments d’un langage de la pensée, comme par exemple le Men-
talese de Fodor. Pour Masterman, c’est le thésaurus qui permet de faire le lien
entre les deux conceptions contradictoires du sens (langue universelle/usage).
La méthode de langue intermédiaire par thésaurus est, selon Masterman, direc-
tement inspirée des intuitions de Wittgenstein (1961 [1953]), en ce que le sens
d’un mot est défini à partir de ses contextes d’usage. L’hypothèse fondamentale
qui étaye la faisabilité d’un thésaurus (et donc d’une langue intermédiaire par
thésaurus) est que, bien que l’ensemble des usages possibles des mots dans une
langue soit infini, le nombre de situations extralinguistiques primaires néces-
saires pour communiquer est fini. Cette hypothèse a des conséquences impor-
tantes pour la TA. La traduction, comme la communication, n’est possible que si
les deux populations et les deux cultures correspondant aux langues envisagées
dans la traduction partagent un stock commun de contextes extralinguistiques,
même si elles sont très différentes. Cette conception implique que la traduction
entre deux langues, c’est également la traduction entre deux cultures.

1.2.3. Les templates de Wilks

Le troisième projet est développé par un des plus jeunes membres du CLRU et
élève de Masterman, Yorik Wilks (né en 1939), qui adapte le langage Nude à un
projet de résolution d’ambiguïtés sémantiques dans un texte (Wilks 1968). La
notion d’ambiguïté admise par tout expérimenteur de TA – puis plus tard de
TAL en général – consiste à assimiler mot ambigu sémantiquement et mot poly-
sémique, autrement dit à considérer que tous les sens possibles d’un mot donné
sont les sens attribués par le dictionnaire. Wilks au contraire, dans la lignée de
Wittgenstein, Firth et Masterman, définit les ambiguïtés sémantiques par rapport
à leur contexte d’usage, en l’occurrence le texte. Pour résoudre ces ambiguïtés, il
met au point un système de représentation sémantique des textes à l’aide de tem-
plates qui doivent capturer l’essentiel de l’information dans les textes. Les tem-

104 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
plates, sortes de patrons du sens d’une proposition ou d’une phrase simple, sont
fabriqués à l’aide de formules très proches des formules de Nude. Ces formules
permettent d’encoder les différents sens d’un mot à l’aide de 53 primitives, dont
45 sont communes avec les archiheads de la méthode par thésaurus. Grâce à une
procédure de pattern matching, les différentes représentations des mots vont être
confrontées à celles du texte, et comme pour le thésaurus, si deux représentations
de deux mots contiennent les mêmes primitives, elles permettront de résoudre
l’ambiguïté, ou du moins de proposer un sens préféré (Wilks parlera plus tard
de sémantique préférentielle).
Les travaux de Wilks ont le mérite d’introduire les études sur les primitives
sémantiques, conçues dans le cadre de la TA, dans le débat tout nouveau à la fin
des années 1960 de la sémantique non référentielle et de l’intelligence artificielle.
Ils constituent pour une part l’horizon de projection des premières tentatives de
TA, ouvrant sur des développements internationalisés de la linguistique, tout en
gardant une spécificité britannique qu’ils héritaient de Sweet, Wittgenstein et
Firth, caractérisée par un travail sur les textes plutôt que sur des phrases isolées.

1.3. La TA en URSS : comparatisme, planification linguistique


et langues intermédiaires

1.3.1 Cybernétique et TA en Union soviétique dans les années 1950

Alors qu’aux États-Unis, la TA est clairement un héritage de la cybernétique


et de la théorie de l’information, en URSS leur relation n’est pas aussi immé-
diate – mais tout aussi certaine. Il faut préciser que la cybernétique a connu une
fortune contrastée en URSS (Mindell et al. 2003). L’ouvrage de Wiener (1894-
1964), Cybernetics, paru en 1948, fait l’objet en URSS dès 1952 d’une campagne
hostile, la cybernétique étant considérée comme une science bourgeoise. Après
la mort de Staline, on peut noter un changement d’attitude de la communauté
scientifique soviétique à l’égard de la cybernétique. En novembre 1954, l’ex-
posé « Qu’est-ce que la cybernétique ? » d’Arnost Kolman devant l’Académie
des sciences sociales du comité central du Parti communiste sera publié en RDA,
puis dans La pensée et dans Behavioral Science. Ce changement peut aussi être
imputé au fait que, grâce à ses écrits critiques sur la société américaine, Wiener
n’est plus considéré comme un « scientifique impérialiste » ; notamment dans la
seconde édition de son ouvrage The Human Use of Human Being (Wiener 1950),
il s’en prend au maccarthysme et milite contre l’utilisation de l’arme atomique.
Enfin, la cybernétique et la rétroaction, à l’œuvre dans les systèmes de défense
antiaérienne mis au point pendant la seconde guerre mondiale, sont devenues
nécessaires pour les militaires soviétiques. Un rapport confidentiel rédigé par le

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 105
v­ ice-amiral russe Aksel Berg semble jouer un rôle décisif. En 1958, l’ouvrage de
Wiener est traduit en russe. À partir de 1961, la cybernétique n’est plus une science
bourgeoise mais une théorie à promouvoir. Ainsi, Kroutchtchev et Ulbricht s’y
réfèrent dans les congrès tenus respectivement par leurs partis.
L’engagement des Soviétiques dans la TA est contemporain du retour en
grâce de la cybernétique. C’est en effet à partir de 1954, date de la présentation
d’Arnost Kolman, et de la première démonstration de TA sur ordinateur à New
York, que les premiers travaux en TA sont envisagés. En 1956, une résolution du
20e congrès du PCUS promeut de façon explicite la TA comme projet scienti-
fique prioritaire. C’est en 1958, date de la traduction de l’ouvrage de Wiener, que
sont créées deux revues où seront publiés des articles sur la TA, Problemi kiber-
netiki et Mašinnyj Perevod i Prikladnaja Linguistika8.
Toutefois, contrairement aux États-Unis, la TA n’occupe pas en URSS une
place stratégique dans la guerre froide. Il y a peu de financement et les ordinateurs
sont réservés aux services secrets ou à des fins strictement militaires. Les cher-
cheurs engagés dans la TA appartiennent à des disciplines spéculatives comme les
mathématiques ou la linguistique mathématique, considérées comme peu « dan-
gereuses » idéologiquement. À ce titre, ils bénéficient d’une certaine tranquil-
lité, et leur situation, toutes choses égales par ailleurs, est comparable à celle des
Britanniques, eux aussi peu soumis aux pressions économiques et stratégiques.
Ainsi, la demande des autorités est moins de traduire l’anglais vers le russe que
de traduire le russe dans les autres langues de l’Union. La TA est conçue comme
la première étape d’un programme plus général de traitement de l’information, de
son extraction et de son stockage à partir de textes écrits dans différentes l­ angues,
tel qu’éditer, faire des résumés, fournir des références bibliographiques, etc.
Dans leurs premiers travaux, les chercheurs russes se positionnent vis-à-vis
des travaux américains, pionniers dans le domaine et référence obligatoire en ces
temps de guerre froide et de compétition9. Ils critiquent la conception de la tra-
duction héritée de la théorie de l’information et préconisée par Weaver, consis-
tant à traiter les langues comme des codes et la traduction comme un déco-
dage. Au contraire, la traduction se définissant comme un transfert de sens d’une
langue à l’autre ne peut se traiter comme un changement de code, c’est-à-dire
de formes uniquement. Cette position les conduit à développer une approche

8 Traduction des titres de ces revues en français : Problèmes de cybernétique et Traduction auto-
matique et linguistique appliquée.
9 Les travaux respectifs sont relativement connus des deux côtés du rideau de fer. Un des pion-
niers de la TA, D. Ju. Panov, assiste à la première traduction sur ordinateur à New York. Les
travaux russes en TA ou en documentation automatique sont traduits systématiquement par
un service américain le Joint Publication Research Service (JPRS) dès 1956.

106 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
sémantique de la TA, au détriment de l’analyse syntaxique, dominante aux USA,
et à donner plus d’importance à la synthèse en langue cible, d’où l’élaboration
de ­langues intermédiaires.

1.3.2. Modèles de langues intermédiaires10

Plusieurs modèles ont servi pour l’élaboration de langues intermédiaires : le


russe, les langues internationales et l’idée de protolangue, tous inscrits sur le
long terme dans la tradition culturelle ou linguistique russe. D. Ju. Panov (1956)
écarte les langues artificielles, telles les langues internationales qu’il tient pour
incapables de transmettre la richesse des langues naturelles. Il écarte également
l’idée de construire une langue spécifique adaptée à la traduction et propose le
russe comme langue intermédiaire. Les arguments en faveur du russe sont éco-
nomiques et linguistiques, le russe étant présenté comme comportant des pro-
priétés spécifiques comme la non-ambiguïté morphologique du verbe permet-
tant d’identifier exactement la forme d’un verbe même hors contexte.
Nikolaj Dmitrivic Andreev (1920-1997) dirige à l’université de Leningrad
le laboratoire expérimental de traduction par machine rattaché à l’Institut de
mathématiques et de mécanique. Son modèle de langue intermédiaire est issu
de l’idée de langue univoque d’information promue par Drezen (Andreev 1967).
Sa méthode de construction repose sur un traitement statistique des invariants
linguistiques et sur une conception des langues comme faits sociaux. Ainsi, ne
font partie de la langue intermédiaire que les structures suffisamment distribuées
dans les langues naturelles examinées. La présence ou absence de ces structures se
trouve de plus pondérée par le nombre de locuteurs et le nombre de textes déjà
traduits. Cette méthode fondée sur des données statistiques (nombre de struc-
tures communes, nombre de locuteurs, nombre de textes traduits) rappelle les
méthodes qui, au xixe siècle, présidaient au choix d’une langue internationale
a posteriori ainsi qu’une tendance bien connue en URSS à la planification chif-
frée. Par ailleurs, à travers le terme de hiéroglyphes par lequel Andreev désigne les
éléments de base de sa langue intermédiaire, on reconnaît un des vieux mythes
de construction d’une langue parfaite des images, de même que certains projets
de pasigraphie du xixe siècle. Andreev propose de calculer pour chaque langue
un indice de congruence à partir du nombre de hiéroglyphes concordants (le
hiéroglyphe de la langue d’entrée est le même que celui de la langue de sortie)
et non concordants qu’elle comporte, et de la pondération qui lui est affectée.

10 Voir Archaimbault et Léon (1997).

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 107
Soit la phrase anglaise suivante et sa traduction en hiéroglyphes :

Les hiéroglyphes sémantiques δ correspondent aux unités lexicales : par exemple δ1


est le hiéroglyphe sémantique de sun.
Les hiéroglyphes formels φ correspondent aux informations grammaticales : φ5 est
le hiéroglyphe formel de l’article défini.
Les hiéroglyphes tectoniques traduisent l’ordre des mots : τ4 est le hiéroglyphe tec-
tonique indiquant que l’article est suivi de N.
Igor A. Mel’čuk (né en 1932), hispanisant et francisant, travaille à l’Institut de
linguistique de l’Académie des sciences de Moscou. Il développe en 1956 avec la
mathématicienne Olga Kulagina (1932-2005) un système de TA français-russe,
avant de s’intéresser à un algorithme de traduction russe-hongrois pour lequel il
concevra l’idée d’une langue intermédiaire (Kulagina et Mel’čuk 1967). Le hon-
grois présente une particularité dans le processus de traduction : alors que dans
la traduction de langues comme le russe, l’anglais, le français ou l’allemand, il est
possible de considérer la différence d’ordre des mots comme négligeable, ce n’est
pas possible dans la traduction hongrois-russe. La solution consiste soit à conce-
voir une procédure spéciale qui rende compte de ce changement pour chaque
paire de langues, soit à envisager une méthode dissociant analyse et synthèse de
façon à neutraliser le problème de transfert de l’ordre des mots. Cette méthode,
c’est la langue intermédiaire.
Les travaux de Mel’čuk sont inspirés par ceux de Vjaeslav Ivanov (né en 1929),
qui fut son directeur de thèse. Ivanov propose de réinvestir dans la réflexion sur
la langue intermédiaire le travail théorique de la linguistique historique et com-
parée. Ce travail s’inscrit dans l’héritage direct de Baudoin de Courtenay par les
références explicites que fait Ivanov à la théorie de la mixité de toutes les l­ angues.
L’idée en est que les méthodes de comparaison des faits de langue sont large-
ment éprouvées, mais qu’une métathéorie capable de décrire la structure for-
melle de la comparaison, une théorie des relations des systèmes linguistiques, reste
à construire. Celle-ci s’appuierait sur une langue abstraite, nommée protolangue,
qui ne serait pas représentative d’un état antérieur d’une langue donnée, mais
qui en constituerait le système abstrait, au sens où celle-ci recèlerait toutes les
potentialités communes à un groupe de langues, que ces potentialités soient
exprimées ou non. C’est cette protolangue que propose Ivanov comme langue
intermédiaire pour la TA.
Mel’čuk conçoit la traduction automatique comme le transfert de sens d’une
langue à une autre en s’appuyant sur les invariants linguistiques. Il s’agit alors de
savoir comment traiter les traits variants dans la langue intermédiaire. C’est en

108 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
termes de significations grammaticales (opposées aux significations lexicales),
empruntées à Boas via un article de 1959 de Jakobson, « Boas’ view of gramma-
tical meaning » ( Jakobson 1971 [1959]), que Mel’čuk traite les variations. Toute-
fois, il ne considère pas les significations grammaticales comme des universaux (il
utilisera le terme de flexions dans son Cours de morphologie générale), et exploite
le fait que celles-ci ne sont pas identiques au regard de la traduction. Il va les uti-
liser pour un traitement distinct des langues sources et cibles. Une bonne partie
des significations grammaticales (les informations morphosyntaxiques), singu-
lières pour chaque langue, et utiles lors de l’analyse du texte en langue source, ne
sont plus nécessaires lors de la phase de traduction proprement dite. Ainsi, il n’est
pas nécessaire de connaître directement le genre, le nombre, le cas d’un adjectif
russe quand on le traduit en français ou en allemand. Ce qui est important c’est
d’avoir trouvé, lors de la phase d’analyse, le substantif avec lequel il s’accorde. Il
en va autrement des indicateurs grammaticaux de significations lexicales, servant
au repérage référentiel des éléments lexicaux (nombre des noms, temps et mode
des verbes, etc.) qui, eux, sont nécessaires à la traduction.
Ainsi la langue intermédiaire comportera de façon obligatoire seulement deux
sortes de variations entre langues, les significations lexicales et syntaxiques ; d’une
part parce qu’elles existent dans toutes les langues, d’autre part parce qu’elles sont
nécessaires à la traduction.
Ceci a des conséquences pour la structure de la langue intermédiaire qui,
parce qu’elle ne doit pas rendre compte des significations grammaticales des dif-
férentes langues, n’a pas de vraie grammaire. En revanche, les significations syn-
taxiques sont stockées sous forme de relations syntaxiques de la langue intermé-
diaire, et les traits grammaticaux lexicaux sont stockés sous forme de mots (ou de
concepts) dans un dictionnaire. Mel’čuk (1960, p. 25) rejoint ici la position d’Iva-
nov qu’il cite : « concrètement les significations relationnelles doivent se refléter
non dans la grammaire, mais dans le vocabulaire de la machine ».
Autrement dit, une partie considérable de la grammaire de la langue naturelle
doit être traduite sous forme de dictionnaire. Ceci s’explique, dit-il, par le fait
que la grammaire des langues naturelles correspond très peu à la syntaxe logique
d’une langue scientifique. Les mots et les relations syntaxiques de la langue inter-
médiaire correspondent à l’alphabet et aux règles de formation des langages for-
mels de la logique mathématique.
Enfin, le traitement automatique de la variation des langues impose deux
contraintes lors de la traduction de la langue source vers la langue intermédiaire :
(i) il ne faut perdre aucune information grammaticale de cette langue parce qu’une
telle information peut être nécessaire, en synthèse, à la traduction dans une des
langues cibles. Ainsi, la catégorie du nombre des noms sera exprimée dans la
langue intermédiaire quand elle existe dans les langues sources (russe, anglais,

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 109
hongrois…), mais non pour le chinois : ce qui évite à la fois perte et redondance
de l’information ; (ii) aucune information ne doit être développée de façon spé-
cifique qui ne soit exprimée sous une forme claire dans la langue source, car cette
information peut s’avérer superflue lors de la traduction dans la langue cible. Par
exemple, lors de la traduction du japonais vers le chinois, l’introduction dans la
langue intermédiaire du nombre des noms, qui n’est pas exprimé en japonais, exige
la mise en œuvre d’une série de règles lexico-sémantiques, statistiques et contex-
tuelles, inutiles et redondantes dans ce cas précis. Lorsque cette information est
requise pour la langue de sortie, il est plus économique de la générer durant le
processus de synthèse du texte, grâce à une analyse du contexte.
Une telle approche permet de traduire de nouvelles langues sans introduire
de changements fondamentaux dans la langue intermédiaire : les nouvelles signi-
fications grammaticales sont transformées en mots de la langue intermédiaire et
introduites de façon cumulative sans changer sa structure.
La langue intermédiaire ainsi construite ne peut être une langue ni entièrement
artificielle ni entièrement naturelle. Elle est fondée sur l’extraction de propriétés
de langues. Pour la TA, Mel’čuk en vient à privilégier la synthèse. Commencer
par l’analyse, dit-il, est trop difficile dans la mesure où, le sens étant un élément
fondamental de la traduction, l’analyse suppose que l’on maîtrise la compréhen-
sion d’un texte. Par ailleurs, l’insertion lors de la phase de synthèse de certaines
informations grammaticales propres à la langue cible s’avère plus économique
que de prévoir ce type d’information dans la langue intermédiaire. Cette pri-
mauté de la synthèse sera un des traits caractéristiques du modèle sens-texte qu’il
développera à la fin des années 1960 avec Žholkovskij (voir notamment Mel’čuk
et Žholkovskij, 1970) à partir de ces travaux sur la langue intermédiaire. C’est ce
qu’indique l’orientation sens -> texte de préférence à l’orientation texte -> sens.
Dans sa présentation, Polguère (1998, p. 4) définit le modèle sens-texte de la
façon suivante :
[…] un modèle Sens-Texte est une machine virtuelle qui prend en entrée des
(représentations de) sens d’énoncés et retourne en sortie un ensemble de Textes,
qui contient toutes les paraphrases permettant d’exprimer le Sens donné en entrée.
Le modèle sens-texte s’inspire largement de la langue intermédiaire : les rela-
tions syntaxiques vont constituer une syntaxe de dépendance, les traits gramma-
ticaux lexicaux deviennent des fonctions lexicales. Fidèle à l’idée qu’il doit rendre
compte de la variation entre les langues et de tous les types de structures linguis-
tiques possibles, le modèle utilise des formalismes variés. Dans le modèle sens-
texte, la langue intermédiaire, dont la conception restait attachée à la réalisation
d’algorithmes concrets, est remplacée par l’anglais basic et le russe basic, ensemble
de structures lexico-syntaxiques profondes, nécessaires à la synthèse. En effet, la

110 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
perspective de la synthèse reste essentielle. Voici la raison qu’en donne Polguère,
moins déterminée par un objectif de TA que Mel’cuk (1960) :
La correspondance Sens-Texte est toujours envisagée sous l’angle de la synthèse –
du Sens au Texte – plutôt que sous celui de l’analyse – du Texte au Sens. La raison
en est que seule la modélisation de la synthèse linguistique permet de mettre en jeu
les connaissances purement linguistiques (contenues dans le dictionnaire et la gram-
maire de la langue). L’analyse, elle, ne peut se faire sans que l’on soit confronté au
problème de la désambiguïsation, problème qui ne peut être résolu (par le locuteur
ou par une modélisation formelle) sans le recours à des heuristiques basées sur des
connaissances extra-linguistiques. (Polguère 1998, p. 4)
Le modèle sens-texte est ainsi la partie la plus visible de l’horizon de projec-
tion des travaux de TA des années 1950 en Union soviétique. Par ailleurs, Mel’čuk
se considère comme un typologue et sa conception des significations gram-
maticales non universelles est investie dans son Cours de morphologie générale
(Mel’čuk 1993)11.

2. Automatisation de la traduction et unités lexicales composées

La possibilité d’automatiser la traduction a été l’occasion de faire émerger de nou-


veaux objets linguistiques. C’est le cas des unités lexicales composées dans la lin-
guistique française des années 1960. La réflexion sur le lexique est au cœur de l’au-
tomatisation des sciences du langage en France (voir chapitre 7). C’est d’ailleurs
un des thèmes du Colloque international sur la mécanisation des recherches lexicolo-
giques organisé à Besançon en juin 1961 par Bernard Quemada (né en 1926), qui
signale que la phraséologie est un des domaines lexicologiques les moins explo-
rés. Même si beaucoup de travaux sur les statistiques de vocabulaire sont menés
en parallèle, on ne peut confondre les deux types d’approche. En effet, les tra-
vaux de lexicologie, même si on peut montrer qu’ils sont une conséquence de
l’automatisation, ne mettent pas en œuvre une véritable mathématisation du lan-
gage d’ordre logico-mathématique ou statistique. Ils témoignent d’un renouvel-
lement de la linguistique française à la croisée de plusieurs courants : les études
de vocabulaire associées à la tradition socio-linguistique française, la linguistique
structurale, la linguistique guillaumienne et l’automatisation de la traduction.
Les études de vocabulaire sont inscrites dans la tradition sociolinguistique fran-
çaise qui lie langue, culture et société. Au début du xxe siècle, l’atlas l­ inguistique

11 Il faut aussi citer, dans cet horizon de projection, les travaux de Ju. D. Apresjan sur la sémantique
componentielle.

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 111
de Gilliéron met en œuvre une conception du vocabulaire où les mots permettent
de reconstituer à la fois l’histoire de la langue et l’histoire de la nation. Dans les
années 1940-1950, ce sont les études en dialectologie et sur l’histoire des mots,
les études étymologiques et stylistiques qui vont conduire à la lexicographie.
À la jonction de la tradition sociologique des études de vocabulaire et de la
lexicographie, on trouve tout d’abord en 1936 les travaux de Mario Roques (1875-
1961) et son Inventaire général de la langue française, dont les 6 millions de fiches
(les mots avec leur contexte dans des textes littéraires et techniques) sont desti-
nées à des travaux de lexicographie, plus qu’à la confection de dictionnaires. Dans
les années 1950-1960, l’utilisation de méthodes statistiques fait évoluer les études
de vocabulaire vers des travaux stylistiques, comme ceux de Pierre Guiraud puis
de Charles Muller, ou bien vers des travaux à visée pédagogique comme le Fran-
çais élémentaire dirigé par Gougenheim. Dans les années 1960, enfin, la traduc-
tion automatique ou la possibilité d’automatisation de la traduction suscite un
renouvellement de la réflexion sur le lexique et l’apparition de nouvelles unités,
les unités lexicales complexes.
Les groupes de mots, traditionnellement traités par des opérations de
dérivation-­composition par les grammairiens, n’avaient pas suscité l’intérêt des
linguistes structuralistes. Quant au « mot », il est éminemment suspect, et les
groupes de mots n’ont pas fait l’objet d’études particulières. Pour Saussure, ce
sont des syntagmes, c’est-à-dire des unités consécutives : mots composés, déri-
vés, parties de phrases ou phrases complètes. Ce qui l’intéresse, c’est moins de
définir les structures et les délimitations des syntagmes que de déterminer leur
appartenance à l’ordre de la langue ou de la parole. Ce qui milite pour la parole,
c’est que la phrase, unité de parole par excellence, est un syntagme ; l’argument
contraire est que les unités de parole sont par définition libres, et qu’on peut
trouver des syntagmes non libres (par exemple prendre la mouche). L’identifica-
tion de tels syntagmes non libres comme unités de langue constitue tout ce que
le structuralisme a à dire sur les unités composées.

2.1. Lexies, synapsies et synthèmes

Avec la TA, les linguistes structuralistes vont être amenés à reconsidérer le statut
du « mot » et des groupes de mots. La machine ne reconnaît que les mots gra-
phiques, à savoir des suites de lettres entre deux blancs ou deux séparateurs. Par
ailleurs, l’objectif consistant à faire traduire un texte par la machine les contraint
à définir des unités, qui soient à la fois unités de segmentation du texte, unités de
langue, unités de sens et unités de traduction. Il s’agit de faire coïncider forme gra-
phique, unité syntaxique et unité sémantique. Les critères de définition doivent
permettre de reconnaître ces unités dans un texte et de les stocker dans un dic-

112 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
tionnaire. Un certain nombre de termes sont forgés par les linguistes pour défi-
nir des unités de ce type :
 –  les lexies de Bernard Pottier (né en 1924) ;
 –  les synapsies d’Émile Benveniste (1902-1976) ;
 –  les synthèmes d’André Martinet (1908-1999).
Pottier (1962a et 1962b) considère que le lexique est un des domaines les plus
complexes de la TA, tant sur le plan formel (notamment les mots composés) que
sur le plan sémantique (polysémie). Il propose la lexie comme unité lexicale et
syntaxique pour l’analyse automatique des textes. Les lexies simples (chaise),
composées (sous-chef, cheval-vapeur) ou complexes (pomme de terre, prendre la
mouche) ne peuvent jamais être inférieures au mot-graphique. Ce sont les lexies
complexes qui posent problème à la TA, puisque les autres, simples et compo-
sées, sont graphiquement identifiables par la machine. Il est en effet souvent dif-
ficile de les distinguer des groupes ou associations libres de mots dont la réu-
nion, dit Pottier, est fortuite en discours. De fait, les critères permettant de définir
les lexies complexes sont multiples et laissent des zones d’incertitude. Outre le
critère sémantique référant à une désignation stable et à une unicité de l’objet
assurée par ce type d’unité lexicale, les critères les plus importants, que Pottier
désigne comme fonctionnels, sont d’ordre syntaxique. Ils désignent l’impéné-
trabilité de l’unité par toute forme d’insertion. Un autre critère, lié à l’objectif de
traduction, vient de la comparaison inter-langues : une lexie complexe est sus-
ceptible de se traduire par une lexie simple dans une autre langue. C’est le cas
de cheval de course et son équivalent corcel en espagnol. Pottier appréhende les
zones d’incertitude par des critères statistiques qui déterminent un degré de
lexicalisation : pomme de terre est plus lexicalisé que crise de croissance. Enfin, il
est intéressant de voir que Pottier mentionne la structure interne de ces lexies
complexes en termes de catégories (subst, adj ou V) où commence à émerger un
début de traitement syntaxique. Pottier introduit une catégorisation qui s’appa-
rente à la notion de tête en grammaire syntagmatique : plaque tournante est caté-
gorisée comme substantif, parce que c’est la catégorie hiérarchiquement supé-
rieure (dans le syntagme). Ainsi S + A = S12.
Ce qui est nouveau chez Pottier, en partie grâce à la TA, c’est une conception
unificatrice des unités lexicales. Les lexies, simples, composées ou complexes,
sont à la fois des unités syntaxiques, des unités de sens et des unités de traduc-
tion. Ceci explique pourquoi Pottier s’intéresse moins aux aspects morpholo-
giques des lexies qu’à leur mode de construction et de catégorisation syntaxique.

12 « Les lexies sont de types différents. (A) groupement d’éléments nominaux. La valeur fonc-
tionnelle résultative est celle de l’élément possédant la plus haute hiérarchie : plaque tournante :
S + A= S » (Pottier 1962a, p. 64).

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 113
Dans des articles postérieurs de quelques années à ceux de Pottier, B
­ enveniste
(1966, 1967) identifie les synapsies, qu’il définit comme des groupes de lexèmes
formant une unité nouvelle à signifié unique et constant. À la suite de ­Darmesteter
(1875), Benveniste s’intéresse davantage à la structure interne des synapsies, qu’il
considère comme d’ordre exclusivement syntaxique. Une synapsie est issue de
la conversion nominale d’un énoncé prédicatif : gardien d’asile de nuit est issu
de l’énoncé prédicatif il garde un asile de nuit. La nature syntaxique des synap-
sies garantit leur expansion et donc leur productivité, comme (gardien d’asile)
de nuit)) ou bien comme ((gardien) d’asile de nuit)), ce qui est tout à fait nova-
teur dans les processus de formation par composition. En mettant en œuvre les
mécanismes réguliers de la syntaxe, les synapsies constituent un mode très pro-
ductif de création de nouveaux composés, et constituent ainsi la forme de com-
position de base dans les nomenclatures techniques.
Comme pour Pottier, ce sont des développements technologiques, traduc-
tion automatique pour l’un, nomenclature technique pour l’autre, qui ont contri-
bué à l’identification de ces nouvelles unités. Dans les deux cas, on est en pré-
sence d’une approche non morphologique de certains processus de composition.
En ce qui concerne Martinet, on a pu montrer que l’idée de s’intéresser aux
unités lexicales composées est venue de Pottier et plus généralement de la TA
(voir Léon 2004). Ainsi, ce n’est qu’à partir de 1967 que le « synthème » appa-
raît. C’est une unité syntaxique qui regroupe toutes les formes construites par
dérivation, composition ou figement et qui est définie par un ensemble de cri-
tères hétérogènes d’ordre morphologique, flexionnel et dérivationnel, critères
d’ordre syntaxique non obligatoires. Martinet ne s’intéresse pas véritablement
au mode de construction des unités. Les synthèmes ne permettent pas d’iden-
tifier un niveau spécifique du lexique distinct du niveau morphologique. Il reste
proche de la conception structuraliste selon laquelle toutes les unités de langue
(mots, syntagmes, phrases) sont organisées de manière homogène et uniforme :
ce sont des monèmes ou des combinaisons de monèmes. En revanche, comme
les unités de Bally et de Pottier, les synthèmes sont des unités syntaxiques à signi-
fiant stable dans l’énoncé.
On notera que ces travaux, stimulés par des développements technologiques
comme la traduction automatique et la terminologie scientifique et technique,
sont à la base de développements inédits dans le domaine de la syntaxe et du
lexique. Le fait que ces unités soient souvent des termes de spécialité et que leur
reconnaissance fasse appel à un savoir extra-linguistique les rend sensibles à une
approche discursive qui s’inscrit dans une tradition spécifique d’étude du voca-
bulaire. C’est ainsi qu’on peut dire que ces études débouchent sur une lexicologie
ancrée dans le discours. Les modes de construction interne des unités sont asso-
ciés à leur fonction syntaxique dans l’énoncé et à leur fonction référentielle dans

114 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
le discours. On reconnaît là l’importance des théories de l’énonciation, qui consti-
tue une spécificité de la linguistique française de la seconde moitié du xxe siècle.

2.2. TAL et traitement des unités lexicales complexes

Initié dans les années 1960, ce courant de recherche sur les unités lexicales com-
plexes a donné lieu à des développements spécifiques en TAL. Il constitue ce
qu’on appelle actuellement l’approche « structurale » de l’analyse des unités
lexicales complexes, à laquelle s’est adjointe à partir des années 1990, avec la
seconde étape de l’automatisation-mathématisation, une seconde approche
dénommée « approche statistique » (Habert et Jacquemin 1993). Ces recherches,
qui étaient spécifiquement françaises dans les années 1960, sont devenues
internationales13.
Le courant structural considère que l’identification des unités lexicales com-
plexes est un préalable à tout traitement automatique, alors que le courant sta-
tistique considère cette identification comme accessoire. Toutes les approches
du courant structural se rejoignent sur un certain nombre de points, comme la
nécessité d’identifier les unités lexicales complexes, de les classer et de les stoc-
ker dans des dictionnaires avant d’envisager un traitement automatique, qui ne
s’effectuera de toute façon que dans un second temps. Elles divergent selon l’im-
portance donnée à l’analyse interne des unités, à la recherche de règles de forma-
tion et de construction ; selon la préférence donnée au traitement, morpholo-
gique ou syntaxique, de ces règles de construction ; selon le mode d’identification
des groupes de mots considérés comme des données en langue, et listés a priori,
ou bien devant être identifiés à l’aide de procédures automatiques. Pour la TA
et en génération de texte, le problème se pose de trouver des équivalents dans la
langue cible, ce qui, dans la plupart des cas, suppose de (re)construire les unités
lexicales composées, et pose la question cruciale de non-compositionnalité du
sens caractéristique des idiomes.
Dans l’approche statistique, les expressions figées ne sont pas déterminées a
priori mais localisées durant le traitement, et ne se voient attribuer de statut que
dans un second temps. L’objectif de cette approche est d’étudier le fonctionne-
ment lexical d’un texte ou d’un corpus à l’aide de méthodes statistiques. Toutes
les approches de ce courant partagent une option commune : la priorité d­ onnée

13 Dans les années 1950, Bar-Hillel (1955) est un des rares non-français à s’être posé la question
de la traduction automatique des idioms pour les cas où le nombre d’unités formant le com-
posé varie selon les langues, et lorsque le sens ne peut pas être traduit de façon univoque. En
dehors de toute réflexion sur le lexique, sa seule suggestion de traitement est de constituer un
dictionnaire d’idioms.

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 115
au texte dans le cadre d’une analyse stylistique ou discursive. Le « mot » est
l’unité de base, et c’est le fonctionnement des textes qui va décider si ces mots
doivent être regroupés ou non grâce à la recherche de cooccurrences et de collo-
cations. L’analyse interne des groupes de mots est considérée comme sans intérêt.

3. Formalisation, mathématisation et automatisation

Les trois séries de travaux que nous avons regroupés dans ce chapitre ont élaboré
des méthodes sémantiques pour rendre compte du transfert de sens dans la tra-
duction automatique. Il est intéressant de voir que, chacun de son côté, ces projets
ont abouti à des propositions de représentation du sens lexical, en opposition au
tout syntaxique du modèle computationnel dominant de Bar-Hillel et Chomsky.
Par ailleurs, ces travaux n’ont pas tous comporté de réflexion sur la mathéma-
tisation. C’est notamment le cas de Pottier. Dans ses travaux préparatoires à la
TA, la dimension de l’automatisation sous forme algorithmique existe bien, et il
présente certaines règles, notamment de désambiguïsation, à l’aide « d’ordino-
grammes » (appelés « schémas », Pottier 1962b, p. 205). La question de l’automa-
tisation avec ou sans mathématisation était un enjeu pour les sciences humaines
à l’époque. On pense notamment à la position défendue par Gardin (Gardin et
Jaulin 1968) dans son introduction des actes du colloque de 1966 sur la formali-
sation en sciences humaines14. Formalisation, selon lui, ne suppose pas calcul15.
Et calcul ne suppose pas mathématiques. Gardin définit le calcul comme
[…] toute suite d’opérations enchaînées les unes aux autres selon des règles pres-
crites à l’avance pour former un raisonnement, un “calcul”, applicable à des données

14 La linguistique n’est pas du tout représentée à ce colloque, indice qu’elle occupait une place à
part dans les sciences humaines, dans ce milieu des années 1960. Par ailleurs des débats houleux
opposent les linguistes structuralistes aux tenants de l’analyse documentaire et des catégories
sémantiques universelles comme Gardin (voir chapitre 8 ci-dessous).
15 Auroux (2009) distingue formalisation et mathématisation. Il propose deux définitions de la
formalisation : (i)  la formalisation au sens strict, en tant que « mise en forme », « application
au langage d’une forme qu’il ne possède pas » n’implique pas nécessairement la mathémati-
sation ; (ii)  au sens spécifique, la formalisation se définit comme l’« action de représenter un
domaine d’objets par un système littéral nécessairement non univoque ». Il commente « littéral »
dans une note de la façon suivante : « À dire vrai qu’il s’agisse de “lettre” ne paraît pas une
nécessité : on pourrait remplacer A par “valise”, B par “terreur” et G par “vide”, mais pour que
la substitution ait un sens il faudrait leur ôter toute signification, ou utiliser des espèces de mots
qui fonctionnent justement comme des variables (“truc”, “machin”, “chose”). L’utilisation des
lettres vient probablement de l’existence de l’écriture alphabétique. Il n’y a pas de formalisation
dans les sociétés orales » (Auroux 2009, note 11 p. 25). Voir également la notion de formalisation
faible proposée par Auroux (1998) – note 7, chapitre 5 ici même.

116 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
qualitatives, ou plus justement non-numériques, le trait commun dans les deux cas
étant l’explicitation de toutes les étapes du processus. […] L’essentiel est de recon-
naître cette tendance à une algorithmisation des procédures de recherche, dans des
disciplines qui avaient hier encore la réputation de les négliger au profit de raccour-
cis intuitifs plus immédiatement profitables. (Gardin et Jaulin 1968, p. 8)
Ce qui est mis au premier plan par Gardin, c’est l’explicitation de procé-
dures « algorithmisées » à l’aide de règles sur des données discrétisées, sans
qu’il y ait nécessairement calcul au sens mathématique (à savoir décomptages
ou formalismes logico-mathématiques, algèbre de Boole, monoïdes libres). C’est
ce que met en œuvre Pottier. Comme on l’a indiqué (chapitre 3), les procédures
en linguistique étaient déjà mises en œuvre par les distributionnalistes améri-
cains depuis Bloomfield, bien avant l’automatisation. On peut dire qu’elles ont
été « découvertes » par les linguistes français à l’occasion de la TA.
Contrairement à ceux de Pottier, les travaux de Mel’čuk et du CLRU com-
portent une dimension formelle fondée sur des modèles mathématiques (la théo-
rie des graphes pour le thésaurus, la grammaire générative et transformationnelle
à composante lexicale pour le modèle sens-texte de Mel’čuk et Zholkovskij de
1970 [1967]). Dans les deux cas, formalisation et mathématisation sont associées.
Pour Mel’čuk, il s’agit d’aménager un modèle existant, la grammaire générative
et transformationnelle, afin qu’elle admette des transformations lexicales. Par
exemple, il lui faut définir de nouveaux opérateurs.
Le débat engagé entre Masterman et Bar-Hillel (Masterman et al. 1959), même
s’il porte sur la formalisation logico-mathématique (à propos de la notion de lan-
gage « normal » notamment), interroge le rapport entre formalisation et lan-
gage. Pour Masterman, la formalisation n’est pas une caractéristique interne du
langage, et elle ne doit donc pas être a priori. Elle vient dans un second temps
comme mode de représentation. On ne peut pas dire que les travaux du CLRU
aient abouti à de nouvelles formes de mathématisation des sciences du langage,
une mathématisation intrinsèque (Auroux 2009) par laquelle sont créés de nou-
veaux concepts, indissociables de leur formulation mathématique. Mais il ne s’agit
pas non plus de simples applications artificielles de modèles mathématiques sur
des objets linguistiques. L’utilisation de la théorie des treillis par les membres du
CLRU constitue une importation inédite d’un modèle mathématique dans les
sciences du langage, puisqu’il s’agit de représenter le sens lexical sous forme de
réseau, et que ces réseaux sémantiques constituent de nouveaux objets.

A u t o m at i s at i o n d e l a t r a d u c t i o n , s é m a n t i q u e e t l e x i q u e 117
Chapitre 7

Tradition linguistique française


et réception externe de la mathématisation-
automatisation du langage1

La France occupe une place à part dans le processus d’automatisation-­


mathématisation des sciences du langage. Bien que faisant partie des « vain-
queurs » de la seconde guerre mondiale, et pouvant être comptée parmi les
pionniers de la TA, elle n’entame les expérimentations qu’en 1959, une dizaine
d’années après les États-Unis. Plusieurs facteurs contribuent à expliquer cette par-
ticularité française : l’absence de configuration propre de sciences de la guerre,
l’­absence d’ancrage dans la logique mathématique et la philosophie du langage
de la première mathématisation, le retard français en matière d’équipement infor-
matique, et la quasi-absence de lieux de formation spécifiques dans les universi-
tés. La convergence de ces divers facteurs a eu pour effet une intégration totale-
ment externe de l’automatisation-mathématisation du langage. Nous proposons
donc de parler de réception externe plutôt que d’intégration pour le cas fran-
çais, en définissant la réception externe comme un processus qui ne s’appuie sur
aucun ancrage dans la tradition ni dans l’horizon de rétrospection du champ de
recherche qui va l’accueillir.

1. Tradition française et horizon de rétrospection des sciences de la guerre

La France reste complètement à l’écart du mouvement logico-formaliste des


années  1930, où se trouve ancrée la première mathématisation du langage
du xxe siècle. Cette situation peut s’expliquer par la désaffection à l’égard de

1 Ce chapitre est une reprise de Léon (2010c).

T r a d i t i o n li n g u i s t i q u e f r a n ç a i s e 119
l’­enseignement de la logique, due notamment au destin tragique des logiciens
français ( Jean Cavaillès ou Jacques Herbrand) décimés par la guerre de 1914-
1918, par l’attraction qu’exerce sur les philosophes français la tradition philoso-
phique allemande nietzschéo-heideggérienne, enfin par la radicalité du mouve-
ment structuraliste (sur ces questions voir Dosse 1991).
À la fin des années 1950, au sein de la Société de linguistique de Paris (désor-
mais SLP) toute puissante, les travaux structuralistes américains ne suscitent pas
beaucoup d’intérêt (Chevalier 1990). Quand ils sont recensés dans le BSL, ce
qui arrive rarement, ils sont souvent sévèrement critiqués, comme par exemple
Methods in Structural Linguistics de Zellig Harris recensé par Jean Cantineau en
1954. La situation s’améliore un peu une fois Georges Mounin devenu membre
de la SLP en 1958. C’est lui qui écrira le compte rendu de Syntactic Structures…
en 19612. Les travaux en traduction automatique sont très peu représentés. En
revanche, les travaux issus des pays du bloc soviétique sont systématiquement
recensés. Dès 1955, René Lhermitte rédige des comptes rendus réguliers des revues
russes Voprosy Jazykoznanija et Izvestija Nauk SSSR3 où figurent les travaux sovié-
tiques en linguistique mathématique et les principaux colloques. Quant à Marc
Vey, il recense les revues tchèques dont The Prague Bulletin of Mathematical Lin-
guistics. Ainsi, au début des années 1960, l’information sur les travaux soviétiques
en linguistique mathématique est bien meilleure que celle sur les travaux améri-
cains, qu’ils soient distributionnalistes ou qu’ils concernent les grammaires for-
melles. Ce qui explique en partie, comme on le verra plus loin, le fait qu’au sein
de la linguistique française il y aura d’autres formes de mathématisation que la
conjonction syntaxe-formalismes-programmation.
Enfin, la configuration des sciences de la guerre, creuset de la seconde mathé-
matisation du langage, n’est que très partiellement représentée en France4. L’in-
formatique, au cœur du tournant de l’automatisation-mathématisation, est très en
retard en France, alors qu’aux États-Unis l’ordinateur est un des dispositifs techno­
logiques qui illustre le mieux la réussite de cette nouvelle alliance entre sciences
et ingénierie des sciences de la guerre. Le premier calculateur numérique, dont

2 Marcel Cohen en publiera un compte rendu dans l’Année sociologique en 1962. Toutefois l’ou-
vrage de Chomsky paru en 1957 n’est traduit en français qu’en 1969 (par Michel Braudeau).
3 Questions de linguistique et Nouvelles de la sciences en URSS.
4 Le CNRS, au moment de sa création en 1939, semblait comporter un certain nombre de traits
de la configuration des sciences de la guerre. Sa vocation consistant à regrouper les sciences
humaines et sociales et les sciences appliquées sous le contrôle de comités spécialisés composés
de savants, d’industriels et d’ingénieurs, semblait s’apparenter à celle du MIT aux États-Unis,
à savoir un centre de recherche où interagissent sciences, sciences de l’ingénieur et sciences
humaines. Sa mise en sommeil pendant la guerre a probablement affaibli l’originalité de cet
objectif initial.

120 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
la supériorité sur les calculateurs analogiques vient d’être montrée, est construit
à Harvard en 1944, sous le nom de Mark I. En France, dans les années 1950, il y
a encore une nette prédominance du calcul analogique sur le calcul numérique.
En 1954, il n’existe aucune machine numérique en France, alors qu’en Europe, il
y en a deux en Grande-Bretagne et une en Allemagne. Après l’échec cuisant de la
construction d’une machine française, le CNRS décide, en 1955, d’équiper l’Ins-
titut Blaise Pascal d’une machine anglaise, une Elliott 402. La première machine
française est donc une machine anglaise (Ramunni 1989).
De façon générale, l’armée et l’industrie françaises ne manifestent qu’un inté-
rêt frileux pour les calculatrices électroniques. De son côté, l’université fait preuve
d’une très grande hostilité à l’égard des machines et du traitement de l’informa-
tion. Outre le retard pour la construction du matériel, ce désintérêt a pour consé-
quence une pénurie générale de personnel spécialisé.

2. Contexte d’apparition de la seconde mathématisation en France

Alors qu’aux États-Unis et en Grande-Bretagne, la seconde mathématisation


émerge dans les équipes qui font de la traduction automatique, en France elle
va aussi s’appuyer sur les recherches en TA ; mais du fait du retard d’une dizaine
d’années et de l’absence d’ancrage, ce ne sera pas le seul lieu ni le seul mode de
réception de l’automatisation-mathématisation. Les premières expériences de TA
se développent de façon décalée, sans connaître les balbutiements du début, en
s’arrimant directement sur les analyseurs syntaxiques développés au début des
années 1960 aux États-Unis, tout en adoptant certains aspects des modèles élabo-
rés en Union soviétique. Enfin, la posture des linguistes par rapport au nouveau
champ va également être radicalement différente de celle des linguistes américains.
Le fait que la TA apparaisse en France en 1959 est lié à une conjoncture poli-
tique particulière. Les centres de TA sont créés en France dans le sillage de l’avè-
nement de l’ère gaullienne, dont une des caractéristiques est la mise en œuvre
d’une véritable politique de recherche scientifique. Le CNRS, créé en 1939, connaît
un développement sans précédent et deviendra une puissante « machine » de
recherche ; d’autres organismes sont créés, comparables au modèle américain,
comme la DRME (Direction des recherches et moyens d’essais) où les mili-
taires promeuvent l’intégration de la recherche entre ingénieurs et universitaires.
Mais – sans doute en raison du faible intérêt pour l’informatique évoqué plus
haut – ce n’est ni un universitaire ni un scientifique qui impulse la TA en France.
C’est Émile Delavenay (1905-2003), directeur du service des documents et des
publications de l’Unesco, qui attire dès 1957 l’attention du CNRS et des linguistes
sur les travaux en TA. Il convoque en février et mars 1958 deux r­ éunions sur « la

T r a d i t i o n li n g u i s t i q u e f r a n ç a i s e 121
machine à traduire » à l’Institut de linguistique de la Sorbonne, en collabora-
tion avec André Martinet. À cette réunion présidée par Benveniste participent
Michel Lejeune, directeur adjoint des lettres et sciences humaines au CNRS, et
les mathématiciens Georges Guilbaud, Benoît Mandelbrot et Marcel-Paul Schüt-
zenberger – ces deux derniers joueront un rôle crucial, on le verra, dans le proces-
sus d’automatisation-mathématisation. Émile Delavenay, du fait de ses fonctions
à l’Unesco, et de celle d’ancien responsable des services de traduction et d’édi-
tion à l’ONU, connaît bien les travaux de TA dans le monde, et crée en avril 1959
un groupe de réflexion et d’information sur le domaine qui deviendra une asso-
ciation, l’ATALA (Association pour la traduction automatique et la linguistique
appliquée), à laquelle sera associée la revue La traduction automatique créée en
1960. La vocation de l’ATALA est d’être plutôt un forum de discussion sur la tra-
duction automatique, la documentation automatique et la linguistique appliquée
qu’un organisme de recherche à proprement parler. Ainsi, le premier centre de
TA est une société savante et la pénétration du domaine en France nécessite l’in-
tervention d’un « passeur-entremetteur », Delavenay, qui n’est ni ingénieur, ni
vraiment universitaire (bien que normalien) mais qui est un homme de réseaux
et de frontières.
Le CNRS, grâce notamment à l’appui de Lejeune, crée en décembre 1959,
au sein du Laboratoire de calcul numérique de l’Institut Blaise Pascal, le CETA
(Centre d’étude en traduction automatique) avec deux sections, l’une à Paris diri-
gée par Aimé Sestier, l’autre à Grenoble dirigée par Bernard Vauquois. Alors qu’aux
États-Unis, nombre de centres de TA sont créés dans les universités, au sein des
départements de langues, en France ils sont créés au CNRS chez les mathémati-
ciens (à l’exception du centre de Nancy, créé en 1960 à l’université de Nancy avec
les linguistes Bernard Pottier et Guy Bourquin). Les spécialistes de langues dans
les centres de TA sont des diplômés de langue, en particulier de russe, mais ce
ne sont pas des universitaires. La TA se présente avant tout comme un problème
pour les calculatrices électroniques, ce sont donc les ingénieurs et les mathéma-
ticiens qui prennent le domaine en main, et les mathématiques appliquées sont
la discipline où s’effectuent les recherches en TA. Contrairement à ce que lais-
sait présager leur faible intérêt pour la linguistique américaine, les linguistes ne se
désintéressent pas de la TA. Ils ne participent pas directement aux travaux – sauf,
on l’a dit, Bernard Pottier et Guy Bourquin – mais ils président à sa destinée, au
CNRS et dans le cadre de l’ATALA, où ils lui accordent un statut disciplinaire,
votent les crédits et évaluent les recherches. Cette posture des linguistes, davan-
tage observateurs, évaluateurs et législateurs qu’acteurs, va donner une physio­
nomie particulière à la réception des langages formels. Comme la TA, la réception
de la linguistique computationnelle va nécessiter l’intervention d’intermédiaires,
d’opérateurs de passage (Chiss et Puech 1999), institutions et chercheurs.

122 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
3. Opérateurs de passage (1) : Marcel-Paul Schützenberger et Maurice Gross

La création du CETA à l’Institut Blaise Pascal associe étroitement la TA au déve-


loppement du calcul numérique et des calculateurs électroniques. On a relevé le
rôle important du CNRS, et c’est à l’Institut Blaise Pascal que se met en place un
nouveau champ, qui s’apparente beaucoup à ce qui se passe au MIT, entre mathé-
matiques, informatique, théorie des automates et langages formels. Deux figures
majeures s’y emploient, qui joueront le rôle de passeurs entre ce qui se passe aux
États-Unis et la France. Ce sont véritablement des passeurs et non de simples
importateurs, dans la mesure où leurs travaux ont fait avancer les recherches des
deux côtés de l’Atlantique et dans les deux sens. L’un comme l’autre ont enrichi
les travaux américains comme les travaux français.
Marcel-Paul Schützenberger (1920-1996) peut être considéré comme un véri-
table passeur entre les mathématiques, l’informatique et les langages formels d’une
part, et entre les travaux américains et les travaux français d’autre part. D’abord
docteur en médecine, puis en mathématiques, ses premiers travaux en informa-
tique théorique sont effectués en France en 1955 et portent sur les codes et la théo-
rie des automates. Dans son premier article, publié dans L’évolution psychiatrique
en 1949, « À propos de la cybernétique (mathématiques et psychologie) », Schüt-
zenberger s’intéresse aux rapports entre la notion d’information telle que déve-
loppée par Fisher dans les années 1930 et celle de Shannon. Suite à sa seconde
thèse, en mathématiques cette fois, « Contribution aux applications statistiques
de la théorie de l’information » soutenue en 1953, il est invité en 1956 par Shan-
non au MIT, au Research Laboratory of Electronics (RLE), pour travailler sur la
sémantique des langages formels et, avec Kleene, sur les automates à états finis. Il
y rencontre Chomsky avec lequel, lors d’une seconde invitation aux États-Unis en
1963, cette fois à la Harvard Medical School, il travaille sur les grammaires context-
free, contribuant ainsi à l’édification d’une théorie générale des langages infor-
matiques. Au milieu des années 1960, il travaille à l’Institut Blaise Pascal au sein
d’une équipe chargée de recherches en algèbre appliquée, théorie des langages
et des automates qui comprend notamment Maurice Gross et André Lentin. Il
se consacre alors essentiellement à l’informatique théorique et fonde la combi-
natoire des mots, domaine sur lequel il travaille avec André Lentin.
Maurice Gross (1934-2001) peut être considéré comme un second passeur
entre travaux français et américains, entre langages formels et linguistique. Poly-
technicien ingénieur de l’armement, il est engagé au CETAP en 1960 pour réali-
ser un dictionnaire automatique et des programmes d’analyse syntaxique pour
la TA. D’octobre 1961 à mai 1962, il effectue un stage de recherche dans deux
centres de TA : à Harvard sous la direction d’Œttinger qui y dirige le centre de
TA, puis au RLE (Research Laboratory of Electronics) du MIT alors dirigé par

T r a d i t i o n li n g u i s t i q u e f r a n ç a i s e 123
Victor Yngve. Il suit les cours de Chomsky au RLE et y présente un travail sur la
syntaxe de Tesnière. Il discute avec Bar-Hillel des problèmes que pose la TA et
de la médiocrité des résultats obtenus. Après la dissolution du CETAP en 1962,
il est chercheur CNRS à l’Institut Blaise Pascal et travaille avec Schützenberger
sur la théorie des automates et les grammaires formelles. Grâce aux contacts de
Schützenberger avec Harris, il est chargé de cours à l’université de Pennsylvanie
en 1964-1965, et commence des recherches sur la grammaire transformationnelle
du français selon les méthodes mises au point par Zellig S. Harris. De retour à
l’Institut Blaise Pascal, Maurice Gross fait partie du groupe « linguistique for-
malisée » auquel participe également David Cohen, qui élabore un analyseur de
l’arabe, avant de prendre la succession de Jean-Claude Gardin à la direction de
la SAD (Section d’automatique documentaire) en 1966, qui deviendra le LADL
(Laboratoire d’automatique documentaire et linguistique) en 1970. Jusqu’à sa
rencontre avec Harris, Maurice Gross s’intéresse davantage aux problèmes de la
toute nouvelle informatique non numérique, orientée vers la théorie des com-
pilateurs et des langages formels, qu’à la linguistique proprement dite. Après son
second séjour aux États-Unis et ses travaux menés en collaboration avec Harris, il
jouera un rôle de diffusion-information des grammaires formelles et contribuera
largement à la diffusion des travaux harrissiens et à leur intégration à la linguis-
tique française (voir chapitre 8). Gross invite Harris à donner des conférences à
l’université Paris 8-Vincennes en 1973-1974, conférences qui seront publiées en
1974 aux Éditions du Seuil sous le titre de Notes du cours de syntaxe.

4. Opérateurs de passage (2) : l’ATALA et le Centre Favard

On peut identifier un second type d’opérateurs de passage : les sociétés savantes.


Blanckaert (2006) montre le rôle crucial des sociétés savantes dans l’institution-
nalisation des disciplines au xixe siècle, dont certaines se sont constituées entiè-
rement en-dehors de l’université. Ces sociétés (au xxe siècle, elles ont le statut
d’asso­ciations 1901) constituent sans aucun doute pour la TA un ancrage stable
dans la tradition française. On a déjà évoqué l’ATALA et son fondateur Émile
­Delavenay, qui a joué un rôle de passeur-entremetteur déterminant dans les débuts
de la TA en France. L’ATALA comprend des traducteurs, des documentalistes, des
ingénieurs, des mathématiciens et des linguistes. Elle assure une mission essen-
tielle d’information et d’échange sur les questions de TA, puis de linguistique
formelle et d’automatisation-mathématisation de la linguistique.
La formation est assurée par une autre association, le Centre Favard créé en mars
1960, en particulier au sein de son Séminaire de linguistique quantitative, à l’Institut
Henri Poincaré. Y sont diffusés un enseignement de linguistique pour mathémati-

124 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
ciens (André Martinet, Jean Dubois) et un enseignement pour non-spécialistes de
mathématiques, logique mathématique et théorie de l’information (René Moreau
et Daniel Hérault). En 1962-1963, un cours supplémentaire sur la théorie des lan-
gages est assuré par Jacques Pitrat et Maurice Gross. Ces enseignements donneront
lieu à la publication en 1967 de l’ouvrage de Gross et Lentin Notions sur les gram-
maires formelles, véritable introduction au domaine, y compris pour les linguistes.
Ces lieux de diffusion et de formation, bien qu’ouverts à tous, sont fréquentés
par les jeunes chercheurs mais ne constituent pas un lieu d’enseignement spéci-
fique pour les étudiants linguistes. Il n’existe rien de tel à l’université, et la sépa-
ration nette entre facultés des sciences et des lettres ne favorise pas le développe-
ment de telles formations où interagissaient plusieurs disciplines. C’est à l’EPHE,
6e section, qu’une formation de cet ordre est mise en place pendant quelques
années (1967-1970). L’EPRASS (Enseignement préparatoire à la recherche appro-
fondie en sciences sociales) s’adjoint une section de linguistique et sémantique en
1966 sous la direction d’Algirdas-G. Greimas, qui tente d’organiser un enseigne-
ment spécifique pour les linguistes comprenant une formation à la linguistique
formelle (logique, formalisation mathématique, programmation, documentation
automatique). Y enseignent Marc Barbut, Oswald Ducrot, Algirdas-G. Greimas,
Christian Metz, Jean-Blaise Grize, Yves Gentilhomme, Frédéric ­François, Michel
Pêcheux, etc. Cet enseignement, une première en France, a pour objectif de for-
mer les linguistes à tous les champs de la linguistique en inversant la tendance
existante qui favorisait les enseignements isolés.
En consultant la présentation des programmes de l’EPRASS, on peut mesu-
rer l’ampleur des obstacles que rencontre un enseignement de la linguistique for-
melle en France. Les deux mondes, mathématiques et logique d’un côté et lin-
guistique de l’autre, parviennent difficilement à se parler. Les enseignants sont
conscients du fait qu’une confrontation trop hâtive entre linguistique et forma-
lisation peut avoir des implications néfastes et contraires aux objectifs souhai-
tés. Deux écueils sont signalés dans la présentation du programme 1966-1967. Il
est « dangereux pour les chercheurs intéressés par la linguistique générale d’igno-
rer l’extension donnée par les mathématiques et la logique à la notion de lan-
gage, ou les fonctions du langage que révèle son étude psychologique ou socio-
logique ». Inversement, les étudiants ayant reçu une formation mathématique au
départ « considèrent comme allant de soi le découpage de l’énoncé en mots, ou
la classification des propositions principales et subordonnées. Il en résulte qu’on
applique la logique ou les mathématiques à une conception du langage mise en
question depuis longtemps déjà, généralement à celle qui sous-tend les gram-
maires scolaires d’il y a vingt ans » ; ces différentes postures faisant évidemment
obstacle à « toute collaboration ultérieure entre la linguistique et les disciplines
formelles » (archives EPRASS, EHESS).

T r a d i t i o n li n g u i s t i q u e f r a n ç a i s e 125
5. Les aléas d’une réception externe (1) : la TA comme
linguistique computationnelle

Le fait que les travaux en TA ne commencent en France qu’en 1959-1960 a plu-


sieurs conséquences. Alors qu’aux États-Unis la linguistique computationnelle
s’est construite progressivement à partir de certains projets de TA, en France, TA
et linguistique computationnelle sont assimilées et développées simultanément.
La phase de TA comme technologie de guerre, à peine esquissée par le CETAP
(Paris), a été vite abandonnée dès la dissolution de celui-ci. Le CETAG (Gre-
noble) a pu travailler d’emblée sur les systèmes de TA en tant que systèmes for-
mels, sans objectif de production de traductions en série.
Après le rapport de l’ALPAC, le CNRS, qui n’est préoccupé que de façon
tout à fait secondaire par les aspects économiques de la TA, continue à encou-
rager les travaux du CETA de Grenoble pour faire face aux questionnements et
aux attentes suscités par les modèles formels et l’analyse syntaxique automa-
tique dans la communauté des mathématiciens appliqués et des linguistes. Il
s’agit d’assimiler les langues naturelles à des langages formels et à des langages
de programmation et d’explorer, grâce aux systèmes de TA, l’analogie entre tra-
duction et compilation (traduction d’une langue naturelle en une autre/traduc-
tion d’un langage de programmation en langage machine). En 1967, un an après
le rapport de l’ALPAC, le CETA est florissant et prend une place internationale
en organisant la Deuxième conférence internationale sur le traitement automatique
des langues, la première ayant eu lieu à New York en 1965 sous l’intitulé Interna-
tional Conference on Computational Linguistics.
Toutefois, le débat entre aspects théoriques de l’automatisation de la linguis-
tique et aspects pratiques de l’ingénierie linguistique n’est pas clos. Vauquois est
vivement critiqué par Maurice Gross dans son rapport sur le CETA présenté au
CNRS en 1967. Pour Gross, qui avait fait partie du CETAP, en avait vécu la dis-
solution et avait rencontré Bar-Hillel peu de temps après la publication de son
rapport, il n’est pas possible de faire de la linguistique formelle en même temps
que de la TA : soit on fait de la TA, qui n’a pour finalité que de proposer un pro-
duit fini industrialisé et commercial, soit on se consacre à l’analyse des structures
des langages artificiels et des langues naturelles. La TA, dit-il, n’est en rien un pro-
blème d’application, c’est-à-dire un problème d’adaptation de la linguistique à
l’informatique ou de l’informatique à la linguistique. Durant les décennies sui-
vantes, cette tension entre aspects théoriques et aspects appliqués et industriels
va demeurer très vive au sein du Traitement automatique des langues.

126 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
6. Les aléas d’une réception externe (2) : modèles américains
versus modèles soviétiques

En 1960, les Américains n’ont pas seuls l’apanage des modèles de TA. Les Britan-
niques et les Soviétiques ont aussi développé leurs propres modèles, mais ceux-ci
ne sont pas exclusivement fondés sur l’analyse syntaxique (voir chapitre 6). De
plus, parmi les modèles d’analyse syntaxique, il existe bien d’autres analyseurs
que ceux construits à partir des grammaires syntagmatiques. Ainsi les expéri-
mentateurs français vont pouvoir développer des analyseurs en testant et com-
parant les modèles existants.
Les travaux soviétiques en linguistique mathématique sont bien connus en
France. On a vu que les comptes rendus du BSL se sont largement fait l’écho des
travaux soviétiques, dont ceux en linguistique mathématique, davantage même
que des travaux américains. Un certain nombre des membres de l’ATALA et/ou
du Centre Favard font partie du Parti communiste français. Des chercheurs d’ori-
gine roumaine (George Moisil puis Solomon Marcus) assurent la diffusion des
travaux des « pays du bloc de l’Est ». L’ATALA reçoit les traductions en français
des travaux russes assurées par le service de recherche de l’armée française (le
CASDEN, Comité d’action scientifique de défense du centre d’exploitation scien-
tifique et technique du ministère de la Défense) et est abonnée au centre amé-
ricain de traduction en anglais des travaux russes ( Joint Publications Research
Service). Contrairement aux expérimentateurs en TA américains, qui s’y réfèrent
très peu malgré les traductions, les membres de l’ATALA publient et discutent
les travaux russes dans TA Informations, les Documents de linguistique quantitative
ou la série publiée chez Dunod. C’est le cas des travaux de Isaak Iosifovic Revzin,
Igor Alexandrovic Mel’čuk et Sebastian Konstantinovic Shaumyan, entre autres.
En ce qui concerne le groupe de TA de Grenoble, Bernard Vauquois et Jean
Veyrunes se rendent en Union soviétique en 1962 et prennent contact avec Igor
Mel’čuk et le groupe d’Andreev, qui travaillent sur des méthodes de langue inter-
médiaire pour la TA. Vauquois va développer au CETAG son propre modèle de
langue intermédiaire, appelée langue-pivot. Proche du modèle de Mel’čuk, c’est
un modèle syntaxico-sémantique qui assure l’indépendance des phases d’ana-
lyse et de synthèse dans le processus de traduction.
Les modèles français sont aussi mis à contribution et sont comparés avec les
modèles chomskyens. David Hays (1964) élabore à partir de la grammaire de
Tesnière son modèle de « dependency grammar ». Dans son modèle des conflits,
Lecerf (1960) propose de construire une représentation unique en associant auto-
matiquement à une phrase donnée un « graphe de Chomsky » (arbre syntagma-
tique) et un « graphe de Tesnière » (stemma). La comparaison des deux modèles
le conduit à distinguer deux grandes tendances en linguistique : la ­tendance qui

T r a d i t i o n li n g u i s t i q u e f r a n ç a i s e 127
travaille sur les chaînes de mots (Bar-Hillel, Chomsky et Yngve notamment) et la
tendance qui décrit les langues en termes de mots, de « dépendance » ou « hié-
rarchie » de mots (Tesnière, Hays). Dans le second modèle, on n’a pas besoin de
catégories intermédiaires entre la phrase et les mots.
Afin de mettre au point des analyseurs syntaxiques pour la TA, les membres
du CETA vont s’appuyer sur les modèles russes de langues intermédiaires, cer-
tains modèles américains d’analyseurs, tels le modèle de « dependency grammar »
de David Hays ou celui de « stratificational grammar » de Sydney Lamb, des for-
malismes développés par les Britanniques, comme les structures en treillis du
Cambridge Language Research Unit, enfin sur les structures arborescentes issues
des grammaires chomskyennes. Ce qui va constituer l’originalité du CETA, c’est
la mise au point d’un langage d’écriture des règles syntaxiques et le développe-
ment d’un langage-pivot.

7. Les aléas d’une réception externe (3) : les deux types de mathématisation,
statistiques et langages formels

7.1. Théorie de l’information et statistiques de vocabulaire

Le courant formel issu des développements en logique mathématique des


années 1930-1940 et de l’informatisation du langage à partir des années 1950
n’est pas la seule forme de mathématisation du langage de l’après seconde guerre
mondiale. Une seconde orientation est issue des travaux statistiques et probabi-
listes du début du xxe siècle, qui vont se retrouver remaniés et renforcés par la
théorie de l’information.
Comme on l’a vu plus spécifiquement dans le chapitre 4, l’application de la
théorie de l’information aux sciences du langage a engendré un ensemble hété-
rogène de concepts et méthodes qui ont connu des destins divers. On peut tou-
tefois identifier deux ensembles de travaux et deux passeurs principaux qui vont
contribuer à transférer les méthodes et concepts de la théorie de l’information
vers la linguistique française, en particulier vers les études statistiques de voca-
bulaire, traditionnellement ancrées dans les études stylistiques françaises des
années 1940-1950.
Benoît Mandelbrot (1924-2010) est un passeur. Lui aussi a assuré la circula-
tion des théories entre la France et les États-Unis en les enrichissant. Plus encore
que Schützenberger et Gross, il poursuit une (impressionnante) carrière franco-­
américaine dans les laboratoires américains au cœur des sciences de la guerre.
Après des études à Polytechnique, il passe deux ans (1947-1949) au Caltech (Ins-
titut de technologie de Californie où a enseigné Weaver dans les années 1930),

128 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
puis il travaille un an (1953-1954) avec Von Neumann à l’Institute for Advanced
Study de Princeton. De 1953 à 1971, il enseigne très régulièrement au MIT avant
d’enseigner dans d’autres universités américaines et au Collège de France.
Mandelbrot publie en 1954 un article dans la revue Word intitulé « Structure
formelle des textes et communication ». C’est un travail mathématique sur la
loi d’Estoup-Zipf5, dont il réexamine les données dans le cadre de la théorie de
­Shannon. Il s’intéresse aux formes vides (lemmes) par opposition à Zipf qui s’inté­
resse aux formes fléchies (mots-formes) dont les fréquences auraient des proprié-
tés intrinsèques, ce qui paraît tout à fait discutable à Mandelbrot. Il repense la loi
de Zipf comme loi théorique d’organisation des textes. Les travaux de Mandelbrot
attirent l’attention de Chomsky lorsque celui-ci travaille avec George A. Miller et
évalue l’intérêt de la loi de Zipf pour la grammaire. Chomsky conclut toutefois
que les remaniements de Mandelbrot, bien qu’appor­tant une réelle envergure
théorique aux travaux de Zipf, n’ont aucune pertinence pour la grammaire.
En France, le débat s’engage avec les stylisticiens qui font des études de fré-
quence de vocabulaire, comme Pierre Guiraud. Les comptes rendus d’ouvrages
et les articles sur les statistiques lexicales se multiplient et se croisent dans le BSL
des années 1950 – comptes rendus de Mandelbrot par Guiraud et de ­Guiraud par
Mandelbrot, compte rendu de Herdan par Mandelbrot – de même que les expo-
sés au sein de la SLP elle-même. Ce débat fait donc partie intégralement de la
linguistique en France.
Il faut signaler également l’importance de Marcel Cohen, notamment au sein
de la SLP, qui joua un grand rôle de diffuseur-passeur des théories nouvelles
concernant les statistiques de vocabulaire. Il publia plusieurs comptes rendus
des travaux de Zipf dans le BSL dès leur parution (Cohen 1932, 1950), de même
qu’un des premiers articles français sur la statistique linguistique (Cohen 1949).
La question reste de déterminer s’il s’agit véritablement d’une mathémati-
sation de la linguistique et si elle a apporté des résultats. Pêcheux (1969) consi-
dère que ces méthodes mettent en œuvre un concept pré-saussurien (et donc
pré-scientifique), à savoir la bi-univocité du rapport signifiant-signifié. Auroux
(2009) qualifie de « mathématisation couvrante » les approches quantitatives
qui abordent le langage « par-dessus », en effectuant des comptages d’éléments
observables, comme les mots, et en leur attribuant une propriété ou un chiffre ;
il l’oppose à la « mathématisation substitutive » opérée par les langages formels
qui substituent au langage des variables et des constantes.
Ce débat, qui n’a cessé d’exister en France, prendra un nouveau tournant dans

5 Moreau (1964) définit ainsi cette loi : « Elle se schématise de la façon suivante : le produit de
la fréquence d’un mot par son rang (lequel a été élevé à une certaine puissance) est constant
dans un texte ».

T r a d i t i o n li n g u i s t i q u e f r a n ç a i s e 129
les années 1990 avec la mise à disposition des grands corpus informatisés, qui
débute avec la lexicométrie, les travaux de Charles Muller, de Bernard Quemada
et la mise en place du TLF au début des années 1960. Dans les années 1960, l’auto­
matisation de ce courant concurrence le courant formel en France.

7.2. Guerre des dénominations et frontières de champs

Une des conséquences de l’existence du champ des statistiques de vocabulaire,


considéré comme négligeable par les chomskyens et la linguistique computation-
nelle mais profondément ancré dans la tradition française et ravivé par la théorie
de l’information, est la tension provoquée par la rivalité entre les deux orienta-
tions. En témoigne la multitude des dénominations qui vont désigner le champ
et les sous-champs du domaine, que depuis le début des années 1960 les Améri-
cains désignent par « computational linguistics »6.
Le Centre Favard opte explicitement pour l’appellation « séminaire de linguis-
tique quantitative » afin de ne pas dissocier les aspects formels de la linguistique
et les méthodes statistiques. Desclés et Fuchs (1969) discutent une classification
proposée par Solomon Marcus lors du Séminaire international de linguistique
formelle qui eut lieu à Aiguille en 19687. Pour ne reprendre que quelques classes,
Marcus distingue la linguistique algébrique (travaux sur les monoïdes comme
ceux de Chomsky-Schützenberger), la linguistique mathématique (utilisant les
chaînes de Markov) dont la linguistique probabiliste et la linguistique quantita-
tive, la linguistique automatique, computationnelle ou cybernétique, enfin la lin-
guistique appliquée. Marcus n’inclut pas dans la linguistique computationnelle
les travaux sur les grammaires formelles ni les statistiques de vocabulaire. C’est
le terme de linguistique formelle qui subsume l’ensemble.
Vauquois en 1969, toujours directeur du CETA et président de l’ATALA
regroupe, pour des raisons probablement d’ordre plus politique qu’épistémo-
logique, grammaire générative et études statistiques de vocabulaire d’un côté,
et traitement automatique des langues et formalisation sémantique de l’autre8.
Ces classifications ne font pas apparaître les distinctions opérées par la « com-
putational linguistics ». Celle-ci déclare englober, tout en les distinguant explicite-

6 Voir Cori, Léon (2002).


7 Ce séminaire fut organisé à l’initiative d’Antoine Culioli et de Daniel Hérault.
8 En fait, ce que traduit la classification de Vauquois, de même que l’apparition du terme « lin-
guistique formelle », c’est l’émergence du courant culiolien de formalisation sémantique à la
fin des années 1960 (dont l’examen excède l’étude de la réception que nous menons ici). En
promouvant ainsi Traitement automatique des langues et formalisation sémantique contre
grammaires formelles et statistiques, Vauquois souhaite faire reconnaître le TAL par le CNRS.

130 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
ment, les aspects théoriques de l’interaction entre langages formels, linguistique
et programmation d’une part, et les aspects pratiques de l’ingénierie linguistique
d’autre part. Cet ensemble sera pris en charge par ce qui s’appellera le TAL dans
les années 1970 (voir chapitre 2).
Cette profusion de termes montre la diversité des champs concernés mais aussi
la complexité de leur intégration dans le champ des sciences du langage en France.
Là où la première mathématisation avait fait défaut, la seconde automatisation-­
mathématisation se trouve confrontée à des sources particulièrement dispa-
rates (automatisées ou non, américaines ou soviétiques, grammaires formelles
ou études statistiques de vocabulaire, théoriques ou orientées vers les applica-
tions à visée industrielles) la plupart du temps complètement externes à la tra-
dition intellectuelle en France et à l’horizon de rétrospection de la linguistique
française. Cette situation aura des conséquences non négligeables sur le second
tournant de l’automatisation des années 1990 (voir chapitre 9).

8. Les aléas d’une réception externe (4) : réception et/ou réflexivité,


l’externalité redoublée

Sur le plan de l’historiographie et des études réflexives sur la mathématisation


du langage, la situation en France est, là aussi, très différente de celle des États-
Unis. Jusqu’au milieu des années 1960, c’est Chomsky lui-même qui assure la
synthèse des travaux sur les grammaires formelles (voir entre autres Chomsky
et Miller 1963). Le relais est pris dans les années 1980, une fois les limitations for-
melles du modèle transformationnel reconnues, par des ouvrages réhabilitant les
modèles hors-contextes face aux grammaires transformationnelles (voir entre
autres Savitch et al. 1987). Plus généralement, c’est dans la revue Computational
Linguistics que se trouvent les articles critiques sur la formalisation de la linguis-
tique. Les langages formels et les modèles de mathématisation du langage sont
la plupart du temps associés à l’algorithmique, aux langages de programmation
et plus généralement à l’informatique (Perrault 1984).
En France, faute d’enracinement propre et d’intérêt précoce pour le domaine,
les premiers travaux sur la formalisation s’avèrent d’emblée réflexifs, du moins
en partie. On a vu que les recherches sur l’analyse syntaxique se faisaient à par-
tir de la comparaison des modèles existants. Parallèlement, faute de cursus spéci-
fiques, se manifeste immédiatement une demande de cours et de manuels d’intro-
duction au domaine. Aussi ne s’étonnera-t-on pas que l’ouvrage d’initiation aux
langages formels de Gross et Lentin (1967) paraisse une dizaine d’années avant
son homologue américain Fundamentals of Mathematics for Linguistics publié en
1978 par Barbara Hall Partee. Le premier est issu des séminaires de linguistique

T r a d i t i o n li n g u i s t i q u e f r a n ç a i s e 131
q­ uantitative, destinés à la formation ou plus simplement l’information des lin-
guistes, alors que le second est un cours donné par l’auteur à partir de 1962 dans
le cadre d’un cursus universitaire, et qui évolue chaque année.
Dès la fin des années 1960, en complément de la revue de l’ATALA, intitulée
alors TA Informations, la revue Mathématiques et sciences humaines, avec des numé-
ros spéciaux consacrés au thème « Mathématiques et linguistique », fait réguliè-
rement le point sur le domaine (en 1971, 1982 et 1988). Les auteurs comparent
les formalismes grammaticaux, relativisent l’apport de la grammaire générative,
puis dans les années 1990 notent les évolutions comme le retour de la logique,
l’émergence de l’intelligence artificielle et d’autres modèles de mathématisation,
comme la théorie des graphes ou la topologie.
L’externalité se voit assumée en quelque sorte par la réflexivité. Mais, même si
des formes d’institutionnalisation ont pris le relais, comme par exemple des cur-
sus spécifiques de TAL, la question reste de savoir si l’intégration de l’automatisa-
tion-mathématisation dans les sciences du langage en France a réellement réussi.

9. Conclusion

Pour conclure et pour compléter la réception de la linguistique computationnelle


en France, il convient d’ajouter quelques mots sur la réception des grammaires
formelles et plus généralement des travaux américains par la nouvelle généra-
tion des linguistes français9. Si l’on suit les témoignages recueillis par Chevalier
(2006), les rares jeunes linguistes qui lisent les travaux américains au début des
années 1960 le font de façon isolée et en fonction de leur trajet personnel. Dans
le cadre de sa thèse soutenue en 1955, Pottier lit tous les travaux américains qui
lui sont accessibles, dans Word et Language. Mais il n’est pas un diffuseur, il uti-
lise éventuellement ses lectures pour son propre travail mais n’en fait pas matière
à enseignement10. Gross et Ruwet lisent Syntactic Structures au tout début des
années 1960, l’un en 1961 avant son premier séjour aux États-Unis, le second en
1960 en l’ayant trouvé sur le bureau de Lacan. L’un et l’autre avouent n’avoir com-
pris le texte qu’après s’être familiarisés avec les travaux américains, en particu-
lier avec ceux de Harris ; lecture systématique pour Ruwet, collaboration directe
dans le cas de Gross. Ce sont en effet avant tout les textes de Harris qui leur ont

9 Pour la génération précédente, il faut souligner l’importance du rôle joué par Knud Togeby
dans la diffusion de la linguistique américaine (voir chapitre 8).
10 On peut toutefois avancer que cette connaissance approfondie des travaux américains a joué un
rôle non négligeable dans le fait que Pottier ait été le seul linguiste à entreprendre des travaux
pour la TA au début des années 1960.

132 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
permis de pénétrer dans le contexte linguistique américain, que leur formation
et environnement français (ou belge) rendaient inaccessible.
Ce n’est qu’en 1965-1966 que les travaux américains, parmi lesquels les travaux
sur les grammaires formelles, vont être diffusés de façon systématique auprès des
linguistes voire d’un public plus large, au-delà du cercle de l’ATALA et du Centre
Favard. C’est aussi en 1966 que Gross qui, selon son propre témoignage, se sen-
tait jusqu’alors avant tout informaticien et isolé des linguistes qu’il ne fréquen-
tait qu’au Centre Favard, commence à s’insérer dans le milieu linguistique fran-
çais. La politique mise en œuvre dans Langages (créée en 1966) par Jean Dubois,
de traduction systématique et de diffusion des travaux américains, est un vecteur
important de l’intégration de la linguistique formelle, comme en témoignent
un certain nombre des premiers numéros dirigés par Todorov, Ducrot, Ruwet,
Gross ou Dubois.
Il faut souligner que la pénétration des travaux linguistiques américains
en France coïncide avec l’explosion éditoriale de 1966 qualifiée par Dosse
(1991) « d’année structurale », où la linguistique domine comme science pilote,
et qui conduira à l’apogée du structuralisme en 196711. Beaucoup de conditions,
donc, paraissent devoir être réunies pour que la « nouvelle linguistique » trouve
enfin sa place.

11 C’est aussi l’année du colloque international organisé à l’université Johns Hopkins rassemblant
la plupart des théoriciens structuralistes sur le thème « Critical Languages and the Sciences
of Man »/« Les langages critiques et les sciences de l’homme ».

T r a d i t i o n li n g u i s t i q u e f r a n ç a i s e 133
Chapitre 8

Documentation automatique et analyse


automatique de discours. Spécificité
des réceptions de Harris en France

Il existe deux domaines de l’automatisation du langage en France qui doivent


être associés, la documentation automatique et l’analyse automatique du dis-
cours. Une des raisons de cette proximité est la réception de Harris en France,
et plus largement du prestige de la linguistique structurale dans les années 1960.
Contrairement à la traduction automatique, les Français sont pionniers dans le
domaine de la documentation automatique, notamment avec les travaux de Jean-
Claude Gardin (1925-2013) à la Section d’automatique documentaire (SAD) créée
en 1961 par le CNRS au sein de l’Institut Blaise Pascal. C’est aussi à la SAD, diri-
gée par Maurice Gross (1934-2001) qui lui succède en 1966, que des travaux sont
entrepris à partir des grammaires transformationnelles de Harris. C’est toujours
dans le sillage de la documentation automatique et de la réception de ­Harris que
Michel Pêcheux (1938-1984) a conçu l’Analyse automatique du discours (infra
AAD). Enfin, il faut noter qu’une version non automatisée de « l’analyse de dis-
cours française », d’inspiration harrissienne mais sans relation avec la documen-
tation automatique, a vu le jour dans les années 1960 avec les travaux de Jean
Dubois (né en 1920).
Dans ce chapitre, on examinera les deux volets de l’automatisation associés
aux travaux de Harris que constituent la documentation automatique et l’analyse
automatique du discours. Plus généralement, on étudiera la réception de Harris
en France et son influence sur l’analyse de discours française.

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 135
1. La documentation automatique

1.1. Histoire des systèmes documentaires

On peut situer l’apparition des premiers systèmes documentaires à la fin des


années 1950, soit une dizaine d’années après les débuts de la TA. Comme elle, le
développement de la documentation automatique doit faire face à l’accroissement
des savoirs et des documents dans la période d’après-guerre. La documentation
automatique, qui inclut l’analyse automatique des documents et la recherche auto-
matique des informations (information retrieval), fait souvent appel aux mêmes
outils que la TA et les deux domaines sont souvent associés dans les publications
(voir notamment Kent 1961). Les problèmes à résoudre sont en partie de même
nature : homonymie et polysémie, résolution d’anaphores, analyse des faits syn-
taxiques. Aux États-Unis, elle s’est développée dans le sillage des premiers ana-
lyseurs syntaxiques de sorte que plusieurs pionniers de la documentation auto-
matique sont aussi des pionniers de la TA. C’est le cas de Victor Yngve, dont le
langage de programmation COMIT, mis au point pour l’analyse syntaxique et
la traduction automatique, a servi à programmer le General Inquirer (Stone et
al. 1966)1. C’est aussi le cas de l’analyse prédictive d’Ida Rhodes (développée
par Œttinger à Harvard) ou bien de l’analyse en chaîne de Harris2. Harris (1970
[1959]) a lui-même entrepris un projet d’information retrieval. Dans le rapport de
l’ALPAC (1966), l’information retrieval est citée comme un axe à développer de
façon prioritaire au même titre que la traduction assistée par ordinateur. Enfin,
un des auteurs du rapport, David G. Hays, a travaillé à la fois sur des analyseurs
syntaxiques et sur l’analyse de contenu automatique. En France Maurice Gross
a abandonné la TA pour l’automatique documentaire, en travaillant sur les lan-
gages formels et sur la linguistique transformationnelle harrissienne. En URSS,
des outils comme les langues intermédiaires à base logique ou sémantique ont
été conçus pour l’analyse documentaire automatique comme pour la TA.
Sur le plan technologique, l’automatisation de la documentation a connu
un développement progressif, de la mécanographie aux calculateurs électro-

1 Le General Inquirer est un des premiers systèmes informatisés d’analyse de contenu.


2 L’analyse en chaînes (string analysis) est une méthode d’analyse syntaxique, intermédiaire
entre l’analyse en constituants immédiats et l’analyse transformationnelle, mise au point par
Harris (1962a) pour le traitement automatique. Alors que l’analyse en constituants immédiats
dépend de l’ordre de concaténation des mots, et que l’analyse transformationnelle analyse les
phrases en termes de phrases noyaux et d’opérations, l’analyse en chaînes analyse les phrases
en termes de phrases noyaux (sujet verbe, sujet verbe objet) et d’ajouts (adjectifs, etc.) (voir
Daladier 1990 pour plus de détails).

136 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
niques, alors que la TA, impliquant langages formels, algorithmes et program-
mation, nécessitait d’emblée l’utilisation d’ordinateurs, ou du moins est appa-
rue dans leur sillage3.
La documentation automatique, visant à la classification des documents et
des domaines de savoir, a des sources plus anciennes que la TA dont l’idée même
n’émerge qu’en 1942 chez les cryptographes. La classification décimale de l’Amé-
ricain Melvil Dewey, conçue en 1876 et complétée par la classification décimale
universelle des Belges Henri La Fontaine et Paul Otlet, et qui avait pour objec-
tif d’établir une bibliographie universelle exhaustive en classant l’ensemble du
savoir humain à partir d’indices complexes, est encore utilisée de nos jours dans
les bibliothèques et les centres de documentation. Sans faire ici l’histoire du
domaine qui excède le propos de cet ouvrage, signalons que les débuts de l’auto-
matisation des systèmes documentaires ont été ponctués par un certain nombre
de colloques marquant ainsi le début du traitement de l’information (voir Coyaud
1966) : le colloque de Dorking en 1957, organisé par le Classification Research
Group de Londres ; l’International Conference on Scientific Information à Washing-
ton en 1958 ; l’International Conference for Standards on a Common Language for
Machine Searching and Translation à Cleveland en 1959 – dont les actes constituent
un état de l’art pour la documentation et la traduction automatique (Kent 1961) ;
le 1er congrès de l’AFCALTI (Association française de calcul et de traitement de
l’information) à Grenoble en 1960. Pour l’Europe, l’EURATOM (Communauté
européenne de l’énergie atomique), institution stratégique créée à Bruxelles en
1957, inclut parmi ses missions le développement de l’automatisation des systèmes
documentaires4. Y est organisé un enseignement préparatoire aux techniques de
la documentation automatique en 1960, et c’est grâce à un contrat de l’EURA-
TOM en 1960-1962 que l’équipe de Gardin met au point SYNTOL (Syntagmatic
Organization Language), dans le cadre de la Section d’automatique documentaire
et en collaboration avec l’EPHE (6e section). SYNTOL est un des premiers et
des plus éminents systèmes développés au début des années 1960, avec SMART
(System for the Mechanical Analysis and Retrieval of Text) conçu par Gerard
Salton (1927-1995) à Harvard puis à Cornell, et le General Inquirer de Harvard,
davantage orienté vers l’analyse de contenu (Stones et al. 1966).

3 Cros et al. (1964) font l’éloge à maintes reprises du procédé des cartes perforées appelé « peek
a boo », ou cartes perforées « à sélection visuelle », au moyen duquel les trous laissant passer
la lumière permettent de sélectionner certaines cartes. Celles-ci correspondent aux ouvrages
recherchés.
4 C’est d’ailleurs au CEA que Paul Braffort développe un système documentaire en 1955-1956
(Braffort et al. 1956).

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 137
1.2. SYNTOL

Dès 1955, dans un article de la revue Diogène, Jean-Claude Gardin, archéologue


et logicien, analyse les problèmes spécifiques de la documentation en sciences
humaines et esquisse des méthodes pour systématiser l’analyse et la classifica-
tion documentaires en archéologie, à partir de la mécanographie. Son objectif
est de construire les règles d’un inventaire d’objets archéologiques, de manière
à couvrir tous les caractères de tous les objets considérés, de quelque lieu ou
époque qu’ils proviennent. Ces caractères sont traduits dans un langage artificiel
documentaire de façon à « fournir une manière d’exprimer, par le moyen d’un
ensemble relativement limité de traits élémentaires non-ambigus, un très grand
nombre de caractères intriqués les uns dans les autres dans les objets à décrire
et classer, qui ont des noms très vagues ou qui n’ont pas de noms du tout dans
l’usage ordinaire » (Gardin 1959, p. 76)5. Gardin conçoit SYNTOL comme « un
ensemble de règles et de procédures concernant l’enregistrement et la recherche
des informations scientifiques », poursuivant un double objectif, celui de tra-
duire un texte écrit en langage naturel en un langage normalisé ayant une syn-
taxe propre, et celui de procéder à la recherche automatique des documents ana-
lysés. Une des caractéristiques du système est que les expressions admises pour
représenter le contenu des documents scientifiques se réduisent à des chaînes
de « syntagmes » élémentaires, à savoir des couples de mots-clés Mi, Mj, expli-
citement liés par une relation Rn, d’où son nom de « Syntagmatic Organization
Language ». Toutefois Gardin se défend d’utiliser « syntagme » au sens linguis-
tique du terme :
L’emploi du mot « syntagme » est une liberté que nous prenons, par rapport à son
acception courante en linguistique ; il s’agit ici d’une unité d’expression syntaxique
définie non pas dans une langue naturelle, en effet, mais dans le langage convention-
nel que nous avons choisi d’utiliser pour exprimer et enregistrer les informations
scientifiques, en vue des recherches mécaniques ultérieures. (Cros et al. 1964, p. 20)
L’omniprésence de la terminologie linguistique traduit la prégnance de la lin-
guistique structurale dans ce milieu du xxe siècle, notamment celle de Martinet
pour les langages documentaires. Mounin (1963) consacre plusieurs pages aux
emprunts linguistiques effectués par Gardin, en tentant de montrer que SYN-
TOL tient plus de la sémantique structurale que de la phonologie. C’est aussi la
position de Greimas qui, selon Coyaud (1966), insiste dans son cours de séman-
tique structurale de 1963-1964 sur la similitude entre la construction d’un langage
documentaire et celle d’une théorie sémantique. Les emprunts de Gardin à la

5 Cité par Mounin 1964, p. 114.

138 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
terminologie linguistique sont nombreux. En 1956, il utilise le terme de « traits
distinctifs », qu’il remplacera ensuite par « traits élémentaires » (voir la citation
ci-dessus), pour caractériser son langage documentaire, dans un article emprun-
tant probablement le terme à Martinet qui vient de publier l’Économie des chan-
gements phonétiques, lui-même l’ayant emprunté à Jakobson6. SYNTOL est un
langage artificiel univoque avec son lexique et sa syntaxe propres, mais, précise
Gardin (Cros et al. 1964, p. 20), si l’existence de cette syntaxe justifie que l’on parle
de « langage », il n’est pas doté d’une double articulation. À noter qu’il évoque
aussi les transformations de Harris pour justifier certaines normalisations à l’in-
térieur de son langage documentaire (ibid, p. 54).
Quant aux « lexiques documentaires », ou codes, il s’agit d’un ensemble de
dictionnaires de mots-clés et de thésaurus que Gardin qualifie d’outils linguis-
tiques dans sa préface à la seconde édition de SYNTOL en 1968 :
Les outils linguistiques utilisés en pratique pour l’automatisation des recherches
documentaires demeurent essentiellement les mêmes (lexique de descripteurs et
thésaurus, pour le contrôle du vocabulaire scientifique ; indicateurs de rôle ou rela-
tions logiques pour l’expression éventuelle de rapports syntaxiques entre les descrip-
teurs, etc.). (Gardin et al. 1968, p. i)
Toutefois il précise que le SYNTOL n’est pas à proprement parler un lan-
gage immédiatement défini par un lexique et/ou par une grammaire propres,
mais plutôt un cadre logico-linguistique où peuvent venir se couler la plupart
des langages documentaires ainsi définis, à quelque niveau d’élaboration et pour
quelque champ d’application que ce soit. En effet le langage documentaire de
SYNTOL est un langage artificiel dont les unités doivent être univoques et non
ambigües – Mounin l’apparente même aux langues universelles, notamment à
la caracteristica de Leibniz – au même titre que les langages documentaires de
l’époque. D’ailleurs cette recherche d’un langage artificiel univoque de représen-
tation du sens conduira Gardin à se tourner, dans les années 1980, vers l’intelli-
gence artificielle et les systèmes-experts.

1.3. SYNTOL et l’unification des sciences humaines

SYNTOL est très tôt appliqué dans plusieurs domaines des sciences humaines.
Les premières expérimentations sont menées dans le cadre de la SAD (Section
d’automatique documentaire). Commencée en 1963 sous la direction de Marti-
net, la thèse de Maurice Coyaud porte sur trois mille documents en psychophy-
siologie, psychologie et anthropologie culturelle (issus du Bulletin signalétique

6 Gardin, 1956 p. 13 (cité par Mounin 1964, p. 115).

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 139
du Centre de documentation du CNRS) et comporte des tests en machine (une
IBM7090). La seconde expérimentation est menée par l’anthropologue Françoise
Lhéritier (alors Françoise Izard) sur 5 000 résumés fournis par le Centre d’ana-
lyse documentaire de l’Afrique noire. Entre temps, Gardin a déjà été associé à plu-
sieurs projets de lexiques (ou codes) documentaires spécialisés dans différents
domaines des sciences sociales (cartographie, ethnographie, histoire, archéolo-
gie) : en 1959, un code pour un inventaire systématique des événements relatés
dans les tablettes akkadiennes par René Labat du Collège de France ; en 1960, un
code de sociologie rurale à l’initiative de l’École pratique des hautes études ; en
1961, un code d’analyse des documents graphiques pour le laboratoire de carto-
graphie de l’École pratique des hautes études, dirigé par Jacques Bertin ; toujours
en 1961, un code établi pour une bibliographie de la Préhistoire pour le Centre
de documentation préhistorique du Musée de l’Homme dirigé par André Leroi-
Gourhan ; en 1962, un code relatif aux « films ethnographiques » établi par Marie-
Salomée Lagrange pour le Comité international du film ethnographique dirigé par
Jean Rouch (Cros et al. 1964). Ces codes se sont ajoutés à ceux réalisés au CEA
par Braffort, et pour les sciences sociales par Robert Pagès pour la psychologie
sociale en 1959. Gardin en vient alors à concevoir l’idée d’un « lexique de base »
commun à toutes les sciences humaines et sociales pouvant être développé loca-
lement pour chacune d’elles en fonction des besoins propres et tout en respec-
tant une compatibilité des résultats. Le SYNTOL constitue ce cadre unificateur
pour les différents lexiques documentaires ainsi définis. Quelques années plus
tard, Gardin et al. (1981) poursuit son ambition en proposant de « clarifier les
fondements conceptuels des constructions de sciences humaines, telles qu’elles
se présentent en pratique, par l’étude conjointe des systèmes symboliques qui en
sont le matériau et des suites d’opérations qui en commandent l’architecture »
(Gardin et al. 1981, p. 5).

1.4. Institutionnalisation de la documentation automatique


et formalisation des sciences humaines

Ce projet d’envergure internationale doit s’accompagner d’une institutionnalisa-


tion forte. Il ne peut être réalisé que dans le cadre d’un centre de documentation.
En 1958, Gardin devient le directeur d’un Centre d’analyse documentaire pour l’ar-
chéologie, puis dirige la Section d’automatique documentaire (SAD), créée en 1960
à l’Institut Blaise Pascal regroupant les grands laboratoires de calcul du CNRS et
dont font partie les centres de traduction automatique. Il envisage de faire partici-
per la Maison des sciences de l’homme à cet objectif d’harmonisation des codes et
de fédération des centres spécialisés, avec la création d’une bibliothèque centrale,
d’un service d’études bibliographiques spécialisées, et enfin l’ouverture d’un centre

140 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
de calcul. Si le centre de documentation (CDSH) continue d’être confié au CNRS
ainsi que la création en 1969 du service de calcul (SCSH), la direction de ce dernier
reviendra aux collaborateurs de Gardin. En 1976 c’est Monique Renaud, ancienne
collaboratrice de Gardin à la SAD, qui prend la direction du SCSH. Transformé en
1981 en Laboratoire pour les sciences de l’homme, il est dirigé par Mario Borillo
et Jacques Virbel, tous deux membres de la SAD puis membres du CADA. Quant
au Centre de mathématique et de calcul créé en 1969 à la Maison des sciences de
l’homme, il est fondé et dirigé par le logicien Bernard Jaulin (1934-2010), ami de
Jean-Claude Gardin et contributeur de l’ouvrage Archéologie et calculateurs édité par
celui-ci (Gardin 1970). Gardin et Jaulin coéditent les actes du colloque de Rome
en 1966 Calcul et formalisation dans les sciences de l’homme.

2. Harris et la documentation automatique en France

Les travaux de Harris de 1959 et 1962 sur la grammaire en chaîne et l’information


retrieval sont des références incontournables en documentation automatique.
Le General Inquirer répertorie le système de Harris comme un système à base
linguistique, en signalant que l’analyse distributionnelle est une procédure per-
mettant l’identification de mots ou expressions appartenant aux mêmes catégo-
ries, utile à l’analyse de contenu.
La documentation automatique constitue une des voies importantes de la
réception de Harris en France. Toutefois celle-ci prend des formes multiples :
simples mentions par Gardin, analyse critique de Coyaud, interprétation des tra-
vaux harrissiens en automatique documentaire par Maurice Gross.

2.1 Les langages documentaires et l’analyse distributionnelle :


quelle compatibilité ?

Cros et al. (1964) citent Harris à plusieurs reprises. Outre une utilisation du
terme de transformation pour rendre compte de certaines normalisations, ­Gardin
évoque l’analyse en chaîne (string analysis) de Harris qui permet la reconnais-
sance automatique de la structure des phrases comme préalable à la recherche
documentaire proprement dite (Cros et al. 1964, note 1 p. 32).
Dans sa thèse sur les langages documentaires, Coyaud (1966) définit plu-
sieurs catégories : les langages documentaires à fondement purement logico-­
mathématique comme certains modèles conçus pour la géométrie et la chimie ;
les langages documentaires à relations syntaxiques, comme ceux de Braffort, de
Pagès ou le SYNTOL de Gardin ; les langages documentaires considérés comme
purement linguistiques, comme ceux de Yngve, ou Harris. Coyaud connaît bien

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 141
les travaux de Harris7. Lors de sa thèse, il travaille avec Naomi Sager, collabora-
trice de Harris, pour l’analyse grammaticale transformationnelle de deux phrases
empruntées à un corpus de psychophysiologie qui serviront d’entrées à une
analyse en SYNTOL. Coyaud (1966) consacre douze pages au projet de Harris.
L’appli­cation de sa théorie des transformations devrait permettre la récupéra-
tion de l’information du fait que, selon Harris, une phrase porte la même infor-
mation que sa transformée. Pour Coyaud, les avantages des systèmes à base lin-
guistique comme celui de Harris sont multiples : suppression des résumés, des
classifications et des indexations ; pas de perte d’information ; mise à jour aisée
du système (pas de reclassification) ; pas de limitation essentielle de la portée
des questions dans la partie recherche d’information.
Toutefois, il critique le système de Harris sur plusieurs points. L’analyse en
chaîne ne prévoit ni la résolution des anaphores interphrases ni la prise en compte
des mots composés (par exemple, « glande thyroïde » constitue un seul mot pour
un système documentaire). Il est difficile de justifier que les opérations d’analyse
et de récupération de l’information puissent se faire exclusivement en langue natu-
relle et à l’aide seulement de l’analyse grammaticale (voir la critique de l’applica-
tion à l’analyse des documents par Climenson et al. 1961). Du point de vue docu-
mentaire, l’analyse en chaîne et l'analyse des critères distributionnels permettraient
d’identifier le « centre » de l’énoncé à la phrase élémentaire, candidate potentielle
pour l’indexation d’un document. Or, pour Coyaud, il est difficile de prouver que le
contenu d’un énoncé est assimilable à son « centre » ; il n’y a pas de concordance
systématique entre phrases centrales (phrases noyaux utilisées pour indexer d’un
point de vue formel) et « centrales » du point de vue sémantique (du point de vue
de sa valeur informationnelle). D’ailleurs Harris lui-même considérera plus tard
que cette façon de caractériser la valeur informationnelle des énoncés est trop gros-
sière : l’analyse transformationnelle ne produit pas de hiérarchie entre les noyaux
du point de vue de leur importance informative, alors qu’il est nécessaire de distin-
guer les noyaux importants du point de vue documentaire des noyaux peu signi-
fiants. C’est d’ailleurs à l’analyse de l’information qu’Harris se consacrera de façon
plus systématique à partir des années 1980 (Léon 2011a).

2.2. Maurice Gross : l’héritage « documentaire » de Harris en France

On a vu que Maurice Gross a joué un rôle de passeur (voir chapitre 7). C’est aussi
un des pionniers à la fois de la TA et de la documentation automatique. Pendant

7 Après ses travaux sur les langages documentaires, M. Coyaud s’est consacré entièrement à des
études sur les langues d’Asie de l’Est dont il est devenu spécialiste.

142 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
son affectation au CNRS (1963-1967), à la section de mécanique du Laboratoire
de calcul numérique de l’Institut Blaise Pascal, où il travaille, sous la direction de
Marcel-Paul Schutzenberger, sur la théorie des automates, les langages formels,
l’analyse syntaxique du français, il passe un an et demi à l’université de Pennsyl-
vanie pour travailler avec Harris. Il est nommé directeur de la Section d’automa-
tique documentaire en 1966 qu’il remplacera en 1970 par le Laboratoire d’auto-
matique documentaire et linguistique8. Le terme « automatique documentaire »
persiste donc, et on peut se demander en quoi les travaux ultérieurs de Maurice
Gross peuvent se prévaloir de cette qualification. Il est certain que ce ne sont ni
les langages documentaires artificiels de Gardin, ni les conceptions de l’infor-
mation vers lesquels Harris s’orientera à la fin de sa vie, qui intéressent Gross.
C’est une certaine idée morphosyntaxique du traitement automatique du lan-
gage qu’il met en œuvre dès ses premiers travaux en traduction automatique et
ses recherches à l’Institut Blaise Pascal. Même si la finalité ultime demeure l’ex-
traction d’informations dans des textes (l’information retrieval de Harris), elle
n’est pas la priorité.
En vue du traitement automatique des textes, il faut d’abord réaliser la descrip-
tion exhaustive des langues, en l’occurrence d’une langue, le français, en classant
les analyses et en les stockant dans des dictionnaires électroniques. Au départ, il
se consacre à l’analyse syntaxique des structures verbales à l’aide de l’approche
distributionnelle et transformationnelle de Harris. Ce sera le thème de son doc-
torat de 3e cycle soutenu à la Faculté des lettres de Paris en 1967, « L’Analyse for-
melle comparée des complétives en français et en anglais » qui débouchera sur
l’ouvrage La grammaire transformationnelle du français. Syntaxe du verbe, paru
chez Larousse en 1968. Comme le signale Fuchs dans son ouvrage sur la para-
phrase, l’objectif de Gross
[…] n’est pas de chercher à définir la relation de paraphrase (le jugement d’identité
de sens étant considéré comme une donnée de base livrée par l’intuition), mais de
l’étendre empiriquement à de nouveaux domaines aux frontières de la syntaxe et du
lexique, en cherchant à faire des relevés lexicalement exhaustifs des paires de struc-
tures en relation paraphrastique. (Fuchs, 1982 p. 132)
Jusqu’à sa disparition en 2001, Maurice Gross et son équipe du LADL s’atta-
cheront à la continuation de ces descriptions, à leur stockage informatisé dans des
lexiques-grammaires (bases de données syntaxiques) et des dictionnaires électro-
niques, et à la mise au point d’automates chargés de fournir une analyse syntaxique
des textes en préalable à l’extraction d’information (Courtois, ­Silberztein 1990).

8 Voir le dossier de carrière et scientifique de Maurice Gross, CNRS 910024 DPC, archives
CNRS.

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 143
3. L’analyse automatique du discours

Avec l’analyse automatique du discours (AAD) élaborée par Michel Pêcheux et


son équipe, on peut dire qu’on est en présence de deux moments successifs de
la réception de Harris en France : le moment documentaire, dont nous venons
de tracer les grandes lignes, et la mise en œuvre de la paraphrase comme clé de
voûte de la construction discursive9.

3.1. Psychologie sociale, analyse de contenu et systèmes documentaires

On peut faire l’hypothèse que l’AAD a été conçue par Michel Pêcheux comme
une machine documentaire pour faire pièce aux systèmes existants, en particu-
lier au SYNTOL, très implanté dans la formalisation de différentes disciplines
en sciences humaines. La psychologie sociale, élue par Michel Pêcheux comme
champ d’application de ses recherches sur l’histoire des sciences et la théorie des
idéologies, est une des sciences humaines où l’automatisation documentaire et
l’analyse de contenu sont les plus avancées10. C’est en psychologie sociale que le
General Inquirer a élaboré un de ses premiers thésaurus (le Harvard 3rd Psycho-
sociological Dictionary). Selon Cartwright (cité par Pêcheux), c’est l’objet même
de la psychologie sociale qui exige le recours à ce type de méthode :
L’objet même de la psychologie sociale se ramène, dans une large mesure, à des mani-
festations verbales et d’autres comportements symboliques tels qu’ils apparaissent
dans la société… La description systématique de ces phénomènes par les psycho-
logues et les sociologues suppose qu’on ait observé et consigné ces actes symbo-
liques avec méthode en les classant et en les catégorisant, comme en calculant leurs
fréquences et en déterminant leurs interrelations… Le travail de classement ou de
catégorisation est, en général, désigné sous le nom d’« analyse du contenu » ou
de « codage ». (Cartwright 1963, p. 483-484)
Le laboratoire de psychologie sociale de la Faculté des lettres et sciences
sociales de l’université de Paris, fondé en 1952 par Daniel Lagache, compte parmi
les pionniers dans le domaine de la documentation. Il possède un centre de docu-
mentation et ses chercheurs élaborent très tôt des méthodes et un langage d’infor-
mation documentaire pour les sciences humaines (Pagès 1959, Bouillut 1967). Ces

9 Voir Léon (2010a).


10 Analyse documentaire et analyse de contenu sont à distinguer. Si l’on suit Gardin, l’analyse docu-
mentaire transforme le texte contrairement à l’analyse de contenu. « En revanche, l’analyse docu-
mentaire conserve toujours une partie au moins de la structure des phrases – en exprimant certains
rapports logiques entre les unités significatives – alors que souvent l’analyse de contenu se contente
d’une simple juxtaposition de “mots-clés” sans liens syntaxiques » (Gardin 1962, p. 88). À noter
que ce que Pêcheux reproche aux deux méthodes c’est une catégorisation sémantique a priori.

144 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
auteurs sont plusieurs fois cités par Cros et al. (1964) pour les avancées produites
dans le domaine des classifications en psychologie sociale. Le laboratoire de psy-
chologie sociale est aussi pionnier sur le plan technologique, et est un des premiers
à utiliser les cartes perforées « peek a boo ». C’est donc en psychologie sociale que
Michel Pêcheux, en parallèle avec ses activités de philosophe au sein de groupes
de réflexion marxiste et althussérien11, décide de développer une réflexion épis-
témologique, une fois recruté en 1966 comme attaché de recherches au CNRS12.
Pêcheux signale que c’est à Jean Bouillut, qu’il doit le principe de l’analyse de
comparaison des relations binaires, la formation des chaînes et le regroupement
en classes d’équivalence (Pêcheux 1968, p. 117)13. Or Jean Bouillut, au sein du labo-
ratoire de psychologie sociale, est engagé dans la fabrication d’un langage docu-
mentaire pour la psychologie sociale à partir de SYNTOL. Certaines parties de
la procédure d’AAD sont d’ailleurs empruntées à SYNTOL : la représentation
d’une phrase par un graphe de relations binaires est en particulier très proche
des chaînes de « syntagmes » élémentaires de SYNTOL qui, on l’a vu § 1.2 (ci-­
dessus), sont des graphes de couples de mots-clé Mi, Mj, reliés par une relation Rn.
La procédure d’AAD comportait deux étapes, une fois le corpus constitué :
(i)  le codage des phrases du corpus en « énoncés élémentaires » (suite de
catégories morphosyntaxiques) reliés par un opérateur de dépendance. Chaque
couple d’énoncés élémentaires forme une « relation binaire ». Chaque phrase
de surface est représentée par un graphe de relations binaires ;
(ii)  la constitution de classes d’équivalence (les domaines sémantiques), à
partir de la comparaison du lexique dans un environnement (chaînes d’énoncés
élémentaires et d’opérateurs de dépendance) identique.
Soit l’exemple simplifié extrait de Léon et Lima (1979, p. 30). La phrase « Les
pays occidentaux et ceux du Tiers-Monde risquent de manquer de matières
­premières » est analysée en énoncés élémentaires et en relations binaires de la
façon suivante :

11 Les philosophes disciples d’Althusser étaient encouragés à « faire de l’entrisme » en sciences


humaines afin de les transformer selon leur propre vision de l’épistémologie des sciences. Dans
une perspective autre, pour les disciples de Desanti, il s’agissait de se former et de travailler dans
les différentes sciences humaines (je remercie Sylvain Auroux pour cette dernière précision).
12 C’est dans les revues de psychologie que M. Pêcheux publie ses premiers travaux : il est membre
de la rédaction de Psychologie française, revue de la Société française de psychologie où il publie
un de ses premiers textes sur l’AAD (Pêcheux 1968). Il publie également dans le Bulletin d’études
et recherches psychologiques (infra CERP) (Pêcheux 1967a). Enfin AAD sera publié en 1969
chez Dunod, dans la collection Sciences du comportement, dirigée par deux psychologues,
F. Bresson et M. de Montmollin (Pêcheux 1969).
13 Dans la version ronéotée de sa thèse (1967b), M. Pêcheux avait d’ailleurs réservé 30 pages
(pages 58 à 88) à Jean Bouillut afin qu’il expose la méthode d’AAD.

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 145
Liste des énoncés élémentaires :

En D1 N1 V ADV PP D2 N2
01 LS pays risquer ø ø ø ø
02 R pays manquer ø de ø matièresprem
03 R pays E ø ø ø occidental
04 R pays E ø de le Tiers Monde

Liste des relations binaires (qu’on peut aussi représenter par un graphe)
avec les connecteurs suivants : 06 = infinitive ; 91 = détermination du N1 ; 40 =
coordination.
01 06 02
01 92 03
01 91 04
02 91 03
02 91 04
03 40 04
Exemple de classes d’équivalence (ou domaines sémantiques), obtenues par
comparaison du lexique dans un environnement identique (extrait de Léon et
Lima 1979, p. 38) :

En1 N1 V PP ADV N2 Co En2 N1 V PP ADV N2


172 pro- E à ø intellectuel 40 173 programme E à ø culturel
gramme
481 épanouis- E à ø intellectuel 40 482 épanouis- E à ø culturel
sement sement
519 dévelop- E à ø intellectuel 40 520 développe- E à ø culturel
pement ment
818 dévelop- E à ø intellectuel 40 819 développe- E à ø culturel
pement ment
689 épanouis- E à ø culturel 40 690 épanouis- E à ø intellectuel
sement sement
549 dévelop- E à ø intellectuel 91 550 développe- E à ø meilleur
pement ment
519 dévelop- E à ø intellectuel 91 521 développe- E de ø l’homme
pement ment
589 potentiel E à ø intellectuel 91 590 potentiel E de ø l’homme
588 potentiel E à ø culturel 40 589 ordre E à ø intellectuel
936 ordre E à ø culturel 40 937 ordre E à ø intellectuel
383 niveau E à ø culturel 40 384 niveau E à ø intellectuel

146 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
3.2. La critique de SYNTOL

Le projet de Gardin intéresse particulièrement Michel Pêcheux et Paul Henry,


un mathématicien proche de Pêcheux et d’Althusser, chercheur au Laboratoire
européen de psychologie sociale dirigé par Serge Moscovici (1925-2014). Ils cri-
tiquent tout particulièrement la réduction des synonymies et des polysémies du
langage naturel dans les langages documentaires, où les termes ont un sens uni-
voque et consensuel pour une discipline donnée. SYNTOL comprend un sys-
tème de renvoi entre mots, une sorte de réseau sémantique, qui structure l’infor-
mation là encore de façon univoque.
Dans un numéro du Bulletin du CERP de 1967, entièrement consacré à l’ana-
lyse de contenu et aux systèmes documentaires, Paul Henry critique SYNTOL
tout en admettant la nécessité d’un langage de la science nécessairement réduit
et comportant des invariants et des liens logiques. Par ailleurs, il reconnaît l’inté-
rêt des exigences qu’impose la formalisation en SYNTOL, obligeant le chercheur
à une analyse plus rigoureuse et plus systématique. Il met toutefois en évidence
les interventions subjectives de l’analyste à plusieurs moments clés de la procé-
dure, en l’absence de tout contrôle et de toutes règles. Il montre également que
l’analyse effectuée à l’aide de SYNTOL morcelle le texte et détruit la logique de
la classification proposée par le sujet, pourtant légitime et naturelle, en ne gar-
dant aucune trace des glissements de sens.
Quant à Pêcheux, c’est à une question épistémologique, la constitution de
codes institutionnellement définis pour les sciences, qu’il consacre le début de
son article (Pêcheux 1967a). Il questionne
[…] l’analyse technologique destinée à établir le recensement de tous les traits dis-
tinctifs nécessaires à la description des objets […] C’est donc parce qu’il existe déjà
un discours institutionnellement garanti sur l’objet que l’analyste peut rationaliser
le système de traits sémantiques qui caractérisent cet objet […] le système d’ana-
lyse aura donc l’âge théorique (le niveau de développement) de l’institution qui le
norme. (Pêcheux 1967a, p. 216)
À cette norme a priori garantie par l’institution, Michel Pêcheux oppose de
prendre en compte les processus de production des textes seuls susceptibles de
déterminer ce sens et qu’il convient de théoriser :
Tout système sémiologique [représenté par un discours empiriquement donné] doit
être référé aux places d’où les discours correspondants peuvent être respectivement
prononcés et entendus, ce qui suppose une saisie psychosociologique des conditions
de communication, mettant en évidence le système des places possibles. (Pêcheux
1967a, p. 219-220)
À partir des concepts saussuriens qu’il développe longuement, Pêcheux adopte,

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 147
contre la pratique de l’analyse de contenu dans les sciences humaines, une concep-
tion non-réductionniste du langage et une position structuraliste constructiviste
sur le sens. Il systématisera sa critique dans un article de 1968 (Pêcheux 1968), en
mettant au jour les hypothèses implicites à l’œuvre derrière les différentes pra-
tiques d’analyse de contenu, notamment pour l’analyse automatique documen-
taire de type SYNTOL qui postule des classes d’équivalence a priori. À ces hypo-
thèses, il oppose des contre-hypothèses fondatrices d’une « technique d’analyse
du discours » où les classes d’équivalence ne sont pas données a priori mais sont
des résultats : après avoir évalué la comparabilité sémantique de deux configura-
tions, on forme des chaînes de similitudes sémantiques susceptibles d’être regrou-
pées en classes d’équivalence ou domaines sémantiques. On peut dire qu’AAD69
a été conçu comme un système d’analyse du discours alternatif aux systèmes
d’analyse documentaire14.

4. Discourse Analysis de Harris et l’analyse de discours française

4.1. La paraphrase : un second temps de l’analyse automatique du discours

La version initiale du système AAD, conçue comme système documentaire en


dehors de la linguistique, explique la faible importance accordée à Harris. Celui-ci
n’est mentionné qu’une seule fois à propos d’une transformation mineure (ajout
de la copule dans le cas d’un adjectif épithète), alors que la représentation en
phrases-noyaux des énoncés élémentaires, la méthode par classes d’équivalence,
et le nom même d’« analyse du discours » lui sont dus. Une telle méthode per-
mettait de fournir les conditions d’interprétation du discours sans avoir recours
au sens a priori comme les systèmes documentaires.
En fait, si Pêcheux adopte l’idée de classes d’équivalence pour « générer »
les discours, définis comme systèmes sémiologiques, il critique la « taxinomie »
effectuée par Harris pour qui les classes d’équivalence sont stables sur tout le dis-
cours, ce qui ne permet pas de rendre compte des « formes de progression du
discours ». Il propose d’ailleurs une ébauche de typologie des discours, où « la
forme présentative (rapport, récit, histoire, légende) » s’opposerait à « la forme

14 La thèse de Michel Pêcheux a été publiée en 1969 et le système AAD fut désigné dès lors par
AAD69. Plus que de concurrence, il faut parler d’hostilité irréductible entre le groupe de Gardin
et celui de Pêcheux. Parmi les critiques les plus virulentes d’AAD69, on trouvera celles des
collaborateurs de Gardin, Mario Borillo et Jacques Virbel. Gardin ne mentionne ni Pêcheux
ni AAD69 (ni d’ailleurs les travaux de Dubois) dans son ouvrage Les analyses de discours paru
en 1974.

148 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
démonstrative (preuve, justification, argumentation) » (1967a, p. 221). La critique
faite à Harris du discours ramené à un seul texte n’est pas encore à l’ordre du jour15.
Par la suite, Michel Pêcheux a fait plusieurs fois amende honorable en recon-
naissant sa dette envers Harris. En particulier, dans le cadre des grands remanie-
ments présentés dans Langages 37 (1975), sont discutés deux aspects fondamen-
taux de la théorie harrissienne, absents d’AAD69 parce qu’ils n’en étaient pas
alors l’enjeu : la notion de paraphrase et les questions associées d’identité et de
synonymie, et l’opposition à la conception harrissienne du corpus réduit à un
seul texte. Au moment de l’élaboration d’AAD69, la linguistique ne faisait pas
partie de l’horizon de rétrospection de Michel Pêcheux. Elle le devient en 1975.

4.2. La troisième voie de la réception de Harris en France :


de Togeby à Jean Dubois

Même si les travaux de Jean Dubois et son équipe en analyse du discours n’ont pas
été conçus, du moins au début, comme procédures informatisées, il est nécessaire
d’évoquer cette troisième voie de la réception de Harris en France. D’une part,
les cloisons ne sont pas très étanches entre les différents courants. Jean Dubois a
collaboré avec le LADL de Maurice Gross (Linx 34-35, 1996) ; certains de ses dis-
ciples, notamment Denise Maldidier et Jacques Guilhaumou, ont fait partie de
l’équipe « Analyse du discours et lectures d’archive » créée par Michel Pêcheux
en 1982. Enfin, le courant Pêcheux et le courant Dubois, bien qu’issus de sources
­distinctes et opposés sur divers points, notamment le lien étroit entre analyse
du discours et sociolinguistique soutenu par Marcellesi et Guespin (élèves de
Dubois), ont été identifiés comme « l’analyse de discours française ». On doit le
terme à Guespin (1971, p. 15) dans sa présentation du numéro de Langages consa-
cré au discours politique. Par « analyse de discours française » Guespin entend
les travaux de Pêcheux et ceux de Dubois et de ses disciples (Maldidier, Mar-
cellesi et lui-même), sous le triple parrainage de « l’école américaine » (Harris),
de « l’école européenne » ( Jakobson, Benveniste) et de l’analyse de contenu
(comprenant l’analyse documentaire de Gardin) dont seraient issues les notions
de conditions de production et de processus de conditions de production16.

15 D’ailleurs, les exemples que propose M. Pêcheux dans AAD69, des extraits d’Alice au pays des
merveilles et de la vie de Jeanne d’Arc, ressemblent étrangement au type d’exemple, la fable « The
Very Proper Gander », soumis par Harris à la méthode de Discourse Analysis.
16 Dans le numéro 140 de Langage et Société, paru en juin 2012 sous le titre Analyse du discours
à la française à la résonance étrangement culinaire, les responsables du numéro soulignent
l’hétérogénéité des références et des courants tout en insistant sur la dominance du volet
sociolinguistique, pourtant contesté par le courant Pêcheux (Dufour et Rosier 2012).

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 149
4.2.1. La structure immanente de la langue française (1951) de Knud Togeby :
l’introduction de la linguistique structurale américaine en France

Il faut mentionner le rôle crucial de l’ouvrage de Knud Togeby Structure imma-


nente de la langue française paru en français en 1951 dans Les cahiers de linguistique
de Copenhague17. Togeby est un disciple de Hjelmslev et son point de départ, le
principe d’immanence saussurien, implique le rejet du sens en linguistique. Son
ouvrage, qui établit une véritable typologie des méthodes structuralistes, euro-
péennes et américaines, connaît un succès certain en France dès sa parution ; il
fait l’objet de nombreux comptes rendus, la plupart dans des revues françaises18,
et est réédité chez Larousse en 1965 par Claude et Jean Dubois.
Togeby est l’auteur d’une des premières recensions de Methods in Structu-
ral Linguistics paru en 195119 et connaît bien les travaux de Harris. Dans Structure
immanente, il consacre à Harris plusieurs pages et souligne l’importance de son
rôle dans l’analyse distributionnelle. Auparavant, on ne trouve que quelques réfé-
rences à Harris et quelques comptes rendus épars dans des travaux de linguis-
tique qui, selon toute évidence, n’ont pas vraiment compris les enjeux de ses tra-
vaux (voir chapitre 7). On peut dire que Togeby est véritablement celui qui a
introduit la linguistique structurale américaine en France.
Il faudra attendre la fin des années 1960 pour que soient traduits en français
certains travaux des linguistes américains. C’est Maurice Gross qui, le premier,
traduit un article de Harris, « From morpheme to utterance », dans le numéro de
Langages de 1968 consacré aux modèles en linguistique. Succèdent l’article « Dis-
course analysis » (1952) traduit par Françoise Dubois-Charlier dans un numéro
de Langue française de 1969 ; l’ouvrage de Harris de 1968, Mathematical Structures
of Language, traduit en 1971 par Catherine Fuchs ; enfin « Les deux systèmes de la
grammaire : prédicat et paraphrase » traduit dans un numéro de Langages dirigé
par Danielle Leeman en 1973.

17 Je voudrais ici remercier Jean-Claude Chevalier qui a attiré mon attention sur l’importance de
Togeby dans la réception de Harris en France et son influence sur les travaux de Dubois
18 Pour l’édition de 1951, il y a eu neuf comptes rendus (dans le Journal de psychologie normale
et pathologique, le BSL, en plus de Language et de Word, etc.). Parmi les auteurs, on trouve
Martinet, Pottier, Wagner, etc. Pour l’édition de 1965, Bonnard, Prebensen et Arrivé rédigent
respectivement des comptes rendus dans le Journal de psychologie normale et pathologique,
Langue française et Langages.
19 Voir Modern Language Notes 68.19-194 (1954).

150 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
4.2.2. Jean Dubois et le courant lexicologique de l’analyse de discours française

Dubois cite Togeby20 et Methods in Structural Linguistics de Harris dans sa thèse


Histoire du mouvement ouvrier et vocabulaire politique publiée en 1962, et il est
probablement le premier linguiste français à utiliser la méthode distribution-
nelle de Harris.
Dans sa thèse, Dubois se démarque des travaux de lexicologie et de stylis-
tique de l’époque en amorçant les débuts d’une lexicologie structurale où l’uni-
vocité signifiant/signifié n’est pas tenue pour acquise21. Il appréhende les groupes
nominaux complexes comme des unités sémantiques qui ont une fonction dis-
cursive pour un corpus donné. C’est à l’aide de classes d’équivalence qu’il éta-
blit des unités sémantiques qui lui permettent d’étudier discursivement le voca-
bulaire social de l’époque considérée.
Voir notamment le tableau figurant dans la thèse (p. 186) :

Affranchissement Du prolétaire Avènement politique De la classe ouvrière


Du prolétariat Des travailleurs
Des travailleurs
Émancipation Des masses Aspirations Des classes ouvrières
Du prolétariat Du prolétariat
De la classe ouvrière Du peuple
Des travailleurs Ouvrières
Avènement De la classe ouvrière Amélioration du sort Des travailleurs
Du prolétariat Des conditions des
Des travailleurs classes ouvrières
Cause Des travailleurs
Des masses
Du peuple

Comme le font remarquer Chauveau (1971) et Guespin (1971), les sources de


l’analyse de discours de Dubois sont multiples. Elle emprunte à la méthode distri-
butionnelle, mais aussi aux théories de l’énonciation de Jakobson et de Benveniste.
Chauveau justifie la nécessité du recours à une théorie de l’énonciation chez les
Européens par les différences de statut et de traitement entre phrase et discours :
Dans la tradition européenne, les limites imposées à la phrase sont d’ordre théorique,
la différence entre la phrase et l’au-delà de la phrase est qualitative : avant, il s’agit de
la langue (système de signes) ; au-delà, il s’agit d’autre chose (parole, discours) et les

20 On a vu qu’il rééditera Structure immanente chez Larousse en 1965.


21 Voir aussi Jean Dubois 1960, « Les notions d’unité sémantique complexe et de neutralisation
dans le lexique », Cahiers de lexicologie, vol. 2, p. 62-66.

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 151
procédures d’analyse ne sont plus identiques (théorie de l’énonciation). Rien de tel
dans la tradition américaine où l’énoncé, présenté dans les termes du behaviorisme,
est considéré, quelle que soit sa longueur, comme relevant en droit de la linguistique,
et descriptible selon des procédures similaires à tous les niveaux. (Chauveau 1971, p. 12)
Dans son article paru dans les Cahiers de lexicologie en 1969, Dubois déclare
que l’ambition du lexicologue est avant tout d’élaborer une science de l’énoncé.
Son projet est certes lexicologique, et le point de départ est l’analyse du voca-
bulaire, mais celle-ci doit être comprise comme une partie de l’analyse du dis-
cours. C’est pourquoi l’analyse du discours pour Dubois nécessite une typologie
des discours qui détermine des rapports de l’énonciation à l’énoncé ; il distingue
notamment les discours polémiques des discours didactiques.
Sur le plan méthodologique, Dubois adopte la méthode de Harris, une ana-
lyse distributionnelle complétée par une manipulation transformationnelle abou-
tissant à la constitution de classes d’équivalence. Les manipulations transforma-
tionnelles sont destinées à mettre dans les mêmes classes d’équivalence passifs et
actifs, compléments de nom et adjectifs. De même on transforme les phrases com-
plexes en propositions à deux arguments. L’analyse consiste à étudier les réparti-
tions des mots cooccurrents dans les mêmes types de propositions, par exemple
le terme « étudiant » dans les textes de mai 1968. Ces opérations linguistiques
une fois effectuées, on met en correspondance les modèles linguistiques (modèles
d’analyse d’énoncé sur la base des propositions lexicales et modèles de discours)
et les modèles sociologiques, définis ici comme des structures idéologiques :
Lorsque, par analyse lexicale, on choisit dans ce corpus un certain nombre de vocables,
on émet du même coup l’hypothèse que les propositions réunies autour de ces termes
sont représentatives du corpus et permettent d’établir une relation avec le modèle
idéologique de l’auteur. (Dubois 1969b, p. 117)

4.3. Discourse Analysis comme texte fondateur

Pour conclure cette partie consacrée à la réception de Harris dans l’analyse de


discours française, il est intéressant de constater que les deux courants d’AD se
réclament du texte de Harris Discourse Analysis (1952) comme texte fondateur.
C’est ainsi que le formule Marandin, en citant Harris :
L’analyse du discours française se réfère à Discourse Analysis comme à un texte fon-
dateur. Il définit, en effet, un champ de recherche : « le prolongement de la linguis-
tique descriptive au-delà des limites d’une seule phrase à la fois », « les rapports entre
la « culture » et la langue » et la relation entre ces deux séries de faits. (Harris 1969
[1952], p. 9) (Marandin 1979 p. 19)
Au-delà de la tentative qui peut paraître hasardeuse de regrouper sous un

152 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
même terme, en suivant Guespin (1971), les différents courants français, l’una-
nimité est loin d’être faite sur l’homogénéité de l’analyse de discours en géné-
ral. Pour Chauveau (1971), il y a une incompatibilité entre courants européens
et américains, ce qu’indique le recours à un traitement spécifique du discours
par la théorie de l’énonciation.
Par ailleurs on peut montrer que le texte qui a inspiré d’une part l’AAD de
Pêcheux et d’autre part les études lexico-discursives de Dubois (1960 et 1962),
c’est Methods in Structural Linguistics et non Discourse Analysis. Dans ses premiers
textes, Pêcheux ne cite pas Discourse Analysis mais Discourse Analysis Reprints de
1963 dont Harris lui-même signale qu’ils sont une réimpression de textes de tra-
vail de 1957 et ne prétendent pas représenter les derniers développements de la
méthode d’AD.
Dans son texte de 1969 (Dubois 1969b), bien qu’il cite Discourse Analysis –
qu’il vient d’ailleurs de contribuer à diffuser en français – Dubois ne s’en ins-
pire que comme méthode et non comme cadre théorique. Dans les numéros de
Langages et de Langue française de 1971, ses disciples citent Harris de façon spo-
radique et la méthode de Harris est souvent médiatisée par la grammaire struc-
turale de Dubois (1965, 1967, 1969a). C’est une méthode qui n’est d’ailleurs pas
utilisée seule, mais associée à la méthode lexicologique de Dubois et à un cadre
énonciatif inspiré de Jakobson et Benveniste. Quant aux transformations, elles
sont référées à Chomsky, davantage cité que Harris dans la bibliographie générale.
Autrement dit, cette tentative de fonder l’analyse de discours française sur Dis-
course Analysis apparaît plus comme une tentative forgée dans l’après coup, au
sein du courant Pêcheux. Il est intéressant de voir que c’est Pêcheux lui-même qui,
dans un mouvement réflexif et au moment de l’abandon officiel de la méthode
AAD6922 au profit d’une remise au centre de la syntaxe, érige Discourse Analysis
comme texte fondateur :
La mise au point de l’AAD69 constitue une tentative, parmi d’autres, de réaliser ce pro-
gramme, en s’efforçant de prendre au sérieux « la linguistique moderne », et en parti-
culier les travaux d’un linguiste américain, auteur d’un texte providentiellement inti-
tulé Discourse Analysis qui servit pendant toute une période de référence ­scientifique

22 L’abandon officiel d’AAD69 en 1982 (Pêcheux et al. 1982) a clairement remis la syntaxe au
centre de l’AD. L’hypothèse centrale est qu’aucune manipulation d’expressions linguistiques
n’est possible sans prendre en compte leur structuration syntaxique, considérant toutefois que
le questionnement sur l’autonomie de la syntaxe dans les phénomènes discursifs implique la
prise en compte d’autres dimensions comme l’énonciation, le lexique ou la séquence. Ainsi,
la séquence, l’intra-discours et leur appréhension à l’aide « d’algorithmes syntagmatiques »
se retrouvèrent légitimés au même titre que la dimension de l’énoncé, traditionnelle de l’AAD,
qu’appréhendaient les « algorithmes paradigmatiques ».

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 153
concrète aux linguistes travaillant dans le champ de l’analyse de discours, sur la lan-
cée des travaux de Jean Dubois. […] De ce point de vue, la spécificité de l’AAD ver-
sion 69, dans l’espace des travaux d’analyse du discours, ce fut d’abord me semble-
t-il, de pousser la linguistique harrissienne jusqu’au bout de ses conséquences […].
(Pêcheux et al. 1982, p. 97)
Dans cet extrait, Pêcheux, en endossant Discourse Analysis comme texte fon-
dateur, opère deux mouvements : (i)  il situe ses propres travaux dans le sillage
de ceux de Jean Dubois, acquérant ainsi une légitimité linguistique qui lui faisait
défaut jusque-là ; (ii)  il confère aux travaux de Harris une stature scientifique
dont il s’est agi d’éprouver les hypothèses et les conséquences.
Ce double mouvement lui permet ainsi d’abandonner AAD69 tout en le
légitimant après-coup, et en inscrivant l’analyse de discours dans le champ de
la linguistique23.

5. Conclusion

Pour revenir à l’héritage harrissien, il faut préciser qu’à partir de 1965, Harris ne
publie plus dans Language (Matthews 1999) et peu aux États-Unis24. Comme
les autres néo-bloomfieldiens, ses travaux sont éclipsés par l’essor du courant
chomskyen dans les années 1960. Si le courant harrissien a néanmoins survécu,
c’est grâce à sa réception à l’extérieur des États-Unis, et en grande partie dans
le domaine du TAL. En France, on l’a vu, les travaux en analyse de discours, les
recherches en analyse documentaire, sur les dictionnaires électroniques et sur
les analyseurs en chaînes (string analysis), se réfèrent à Harris. Au Canada, les
travaux sur les sous-langages, notamment le projet de traduction automatique
Taum-météo mis au point en 1975 par John Chandioux (Chandioux et al. 1981)
et poursuivi dans les années 1980 (Kittredge et Lehrberger éd, 1982), sont direc-
tement dérivés de ceux de Harris. Toutefois le débat sur l’héritage de Harris
n’est pas clos et les positions sont contradictoires. Dans sa biographie de Harris,
Barsky (2011) met en doute l’intérêt actuel des travaux de Harris, son héritage et

23 Bien qu’elle pose des questions infiniment plus complexes, l’analyse de Puech (2008) du Cours
de Saussure comme texte fondateur, fonctionne a minima ici. Construction d’après-coup au
moment même de l’abandon d’un pan entier de la théorie, elle sert à légitimer ce qui a été au
nom de ce qui sera.
24 Dans sa biographie de Harris, Barsky (2011) note qu’au moment de la disparition de Harris
en 1992, nombre de linguistes américains avaient même oublié jusqu’à son existence, et le
pensaient mort depuis longtemps.

154 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
son importance dans l’histoire de la linguistique25. L’ouvrage de Nevin (2002),
au contraire, donnait des arguments pour une descendance très orientée vers le
traitement automatique à partir des options de Harris pour une théorie calcu-
lable du langage. Cette position, comme l’ensemble de l’ouvrage, a été sévère-
ment critiquée par Anne ­Daladier (2003) dans son compte rendu publié dans le
BSL. Autant d’éléments qui montre que la descendance de Harris et son impact
sur les sciences du langage reste encore un débat largement ouvert.

25 À noter que Barsky est le biographe de Chomsky et a été encouragé par celui-ci pour rédiger
une biographie de Harris. Nul doute que le projet était de faire apparaître Harris comme
un militant sioniste convaincu, ce qu’admirait Chomsky, bien plus que comme un linguiste
éminent (voir Léon 2013b).

D o c u m e n tat i o n a u t o m at i q u e e t a n a ly s e a u t o m at i q u e d e d i s c o u r s 155
Chapitre 9

Le tournant empiriste de l’automatisation-


mathématisation. Grands corpus, langages
restreints, sous-langages

On peut identifier un second tournant de l’automatisation-mathématisation des


sciences du langage avec la mise à disposition de très grands corpus au début des
années 1990. Ce tournant se caractérise par les traits suivants :
 –  contrairement à l’émergence de la TA et de la linguistique computation-
nelle dans les années 1960, il n’y a pas rupture d’horizon de rétrospection ;
 –  le tournant se situe plus au niveau de l’automatisation que de la mathéma-
tisation. Les méthodes sont de nature statistique et probabiliste, dans la conti-
nuité des méthodes ébauchées dans les années 1950-1960 à partir de la théorie
de l’information. La seule nouveauté, certes de taille, c’est qu’elles deviennent
applicables sur des données de grande dimension. À l’heure actuelle, l’élabo-
ration pour le TAL de méthodes mixtes, à la fois probabilistes et computation-
nelles, montre qu’il n’y a pas de discontinuité sur le plan de la mathématisation.
Par ailleurs, certaines études probabilistes sur corpus s’inscrivent dans le cadre
du connexionnisme, renouant ainsi avec la première cybernétique. C’est le cas
notamment des modèles dynamiques ayant pour objectif l’étude de la poly­sémie
(Fuchs et Victorri, 1996) ;
 –  ce qui constitue le plus grand changement pour les sciences du langage,
c’est l’automatisation des données qui introduit un changement radical dans
les pratiques des linguistes. C’est pourquoi ce qu’on appelle actuellement « lin-
guistique de corpus », ou plutôt, d’ailleurs à raison, « linguistiques de corpus »
(au pluriel) recouvre des champs extrêmement variés des sciences du langage
(Habert et al. 1997). Les objectifs, les méthodes de traitement, voire la défini-
tion même de l’objet corpus sont divers. Il devient rare d’ailleurs qu’un linguiste,
de quelque « obédience » qu’il soit, se passe totalement des possibilités offertes
par les grands corpus.

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 157
Il faut souligner que cette apparition des grands corpus a été rendue possible
par des changements technologiques drastiques comme l’apparition des micro-
ordinateurs individuels, puis l’utilisation généralisée de l’Internet qui ont changé
assez fondamentalement les pratiques des linguistes par rapport aux données. Là
encore, il s’agit d’un véritable renouveau de l’empiricité en linguistique. Toutefois,
ce bouleversement, qui affecte bien d’autres domaines du savoir et de la société
en général, ne justifie pas qu’on puisse en appeler à l’émergence d’une nouvelle
discipline, d’une « nouvelle linguistique » comme le font certains (Leech 1992),
à des fins souvent de légitimation.
Dans ce chapitre, on examinera trois points : les sources britanniques de
la « corpus linguistics », les débats entre chomskyens et empiristes britanniques
sur l’utilisation de corpus, et les nouveaux objets apparus aux confins de l’ap-
proche empiriste et de l’automatisation.

1. Sources britanniques de la linguistique de corpus

1.1. Le « premier » corpus informatisé : plusieurs hypothèses

Le débat sur le « premier » corpus informatisé présente un intérêt, celui de mon-


trer que les méthodes fondées sur l’utilisation des corpus appartiennent à plusieurs
traditions, et qu’elles n’opèrent pas de « rupture » lors de leur automatisation.
Dans la vulgate partagée par les spécialistes de TAL, le premier corpus infor-
matisé est le Brown Corpus, développé à l’université américaine Brown par
­Twadell, Kucera et Francis en 1963 et dont les premiers résultats sont publiés en
1967 (Kucera et al. 1967). Or on peut facilement montrer que le Brown Corpus
a un prédécesseur, le Survey of English Usage (SEU), du britannique Randolph
Quirk et son équipe, créé en 1960 (Quirk 1960). Le Brown Corpus est entière-
ment organisé selon les normes du SEU dont le projet initial était de compiler
200 textes (écrits et oraux) de différents genres de 5 000 mots chacun pour un
total d’un million de mots. Le créateur du SEU, Quirk, a fait partie de l’équipe
de Brown au moment de la mise en place des spécifications du corpus. Un deu-
xième candidat « précurseur » est le Trésor de la langue française dont la créa-
tion fut décidée dès 1957 lors d’un colloque organisé par le CNRS à Strasbourg,
sous la responsabilité de Paul Imbs, un élève de Mario Roques. Il s’agit d’un cor-
pus essentiellement littéraire du français moderne (à partir de 1789) comportant
quatre-vingts millions d’occurrences. Son informatisation décidée dès 1957 est
due à Bernard Quemada, assistant de Imbs1.

1 Pour l’histoire du TLF, voir Cerquiglini (1998) et Chevalier (2006).

158 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
La vulgate attribuant l’antériorité au Brown Corpus fait apparaître plusieurs
choses. Les corpus font partie depuis longtemps de l’appareil méthodologique
de la linguistique anthropologique et structurale américaine. De plus, les Amé-
ricains sont les pionniers de l’automatisation-mathématisation de la linguis-
tique. Il n’est donc pas étonnant qu’ils aient été les premiers à produire un cor-
pus complètement informatisé. Il n’est pas étonnant non plus que les Français,
en retard dans tous les aspects de l’informatique en général et dans l’automati-
sation-mathématisation du langage – TA, linguistique computationnelle puis
TAL – n’aient pas pu stabiliser et faire fructifier les méthodes ancrées dans leur
propre tradition, telles que les méthodes statistiques de vocabulaire, dont le TLF
est issu. Au moment de l’institutionnalisation des études sur corpus, ils ont d’ail-
leurs peiné à occuper une position sur la scène internationale et se sont retrou-
vés à la remorque des études britanniques.
Quant aux Britanniques, leur conception des corpus, orientée vers des objec-
tifs descriptifs, était tout à fait formatée pour l’automatisation. Outre que le
Brown Corpus et, à sa suite, tous les corpus d’étude de la variation de l’anglais
ont été pensés sur le modèle du corpus britannique SEU, il est indéniable que
l’arrière-plan théorique de la notion même d’analyse linguistique de corpus est
issu de cette tradition.

1.2. Sens en contexte, usage, lexique-grammaire, texte… corpus :


la tradition empiriste britannique

C’est dans la tradition britannique que le terme de « corpus linguistics » apparaît


en 1984 comme titre de l’ouvrage collectif d’Aarts et Meijs, Corpus Linguistics :
Recent Developments in the Use of Computer Corpora in English Language Research,
qui regroupe des travaux britanniques, scandinaves et néerlandais sur des corpus
informatisés de la langue anglaise. Depuis, la corpus linguistics a consolidé son ins-
titutionnalisation avec des revues et des colloques spécialisés. Toutefois, sous une
homogénéité apparente, on peut distinguer deux courants, corpus-based et corpus-­
driven, correspondant à deux options différentes sur la constitution et l’analyse
des corpus issues du même courant firthien. L’option corpus-driven privilégie les
textes authentiques et intégraux alors que l’option corpus-based s’­appuie sur des
corpus échantillonnés, ce qui suppose des conceptions différentes du rapport
entre langage et corpus (Léon 2008b).
Les deux courants de la corpus linguistics partagent un certain nombre de traits
communs à la tradition britannique, héritée de Henry Sweet2 d’une part et de

2 Henry Sweet (1845-1912) était un phonéticien, chef de file de l’Association phonétique

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 159
l­ ’Oxford English Dictionary d’autre part à la fin du xixe siècle, jusqu’au tournant des
corpus dans les années 1980-1990 : le rôle crucial de la phonétique et de la langue
parlée ; l’importance de la notion de texte ; la formation des linguistes dans des
­langues non-européennes liées à l’Empire britannique puis à la décolonisation ou au
multi­linguisme interne à la Grande-Bretagne, une forte tradition empiriste centrée
sur l’usage, un attachement à la « linguistique descriptive », où linguistique théo-
rique et linguistique appliquée sont indissociables ; enfin le refus d’une discontinuité
entre les différents niveaux du langage, en particulier entre la syntaxe et le lexique.
Il est intéressant de voir que l’on peut considérer la tradition linguistique bri-
tannique comme relativement homogène et continue dans le temps. Les diffé-
rences apparaissent entre générations, souvent pour des raisons externes (guerre,
décolonisation), plutôt qu’à l’intérieur d’une même génération (Brown et Law
2002). Ce qu’on appelle la London School regroupe ainsi, de façon plus ou moins
floue, la plupart des linguistes britanniques de l’après-guerre autour des idées de
John Rupert Firth (1890-1960). Cette homogénéité dépasse la linguistique et est
une caractéristique de la tradition intellectuelle britannique de cette époque. Cer-
tains traits comme la détermination du sens des mots en contexte et par l’usage
appartiennent à la tradition philosophique (Wittgenstein 1961 [1953]) ou anthro-
pologique (Malinowski 1923, 1935) et ont fortement imprégné les sciences du
langage et leur automatisation. On l’a vu avec le CLRU dirigé par la philosophe
Margaret Masterman, élève de Wittgenstein3. Malinowski introduit le concept de
situation en 1923 et Firth, qui a été son assistant dans les années 1930, y fait réfé-
rence dès 1930 dans Speech. En 1935, ils publient chacun un texte dans lequel ils
développent de façon distincte la notion de contexte de situation, centrale dans
la tradition empiriste britannique. La notion de contexte de situation, dévelop-
pée par Malinowski dans Coral Gardens and their Magic, est ethnographique et
inclut outre le contexte linguistique, les gestes, les regards, les mimiques et le
contexte perceptif. Dans l’article « The technique of semantics », Firth introduit
l’idée que le contexte de situation peut se définir en un ensemble de catégories
linguistiques et pragmatiques. Celles-ci seront développées comme catégories
des langages restreints (restricted languages) à partir de 1945 (voir § 2.1 ci-dessous).
Bien que beaucoup aient effectué de nombreux séjours aux États-Unis, peu
de linguistes britanniques sont devenus véritablement « chomskyens » ; ceux qui

­internationale et du Mouvement de la Réforme. Ce mouvement, créé à la fin du xixe siècle par


les plus grands phonéticiens de la période, se donna pour tâche de réformer l’enseignement
des langues à partir de trois grands principes : la primauté de la parole ; la centralité du texte et
l’enseignement des langues par l’oral (voir Howatt 2004, chapitre 14) et ici même chapitre 3, § 1.
3 De plus, certains linguistes ont participé aux deux groupes : c’est le cas de M.A.K. Halliday,
qui a été élève de Firth et un membre pionnier du CLRU.

160 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
sont les plus proches de la théorie chomskyenne le sont de façon critique, comme
John Lyons ou Peter Matthews. De fait, la formalisation du langage, à commen-
cer par le débat Bar-Hillel/Masterman de la fin des années 1950 (voir chapitre 6),
de même que les propositions de Chomsky ont fait l’objet de nombreux débats
dès leur apparition. Plutôt que d’intégrer la linguistique computationnelle à base
logico-mathématique issue du MIT, les Britanniques l’ont affrontée et discutée,
ce qui a d’ailleurs abouti à conforter leur propre position empiriste.
L’attachement au lexique, au sens lexical en contexte et au refus de disconti-
nuité entre lexique et syntaxe (voir les travaux de Halliday, Sinclair et Quirk § 1.3 et
§ 1.4 ci-dessous) a abouti à un intérêt pour le rôle des probabilités dans le langage,
dans le sillage de la théorie de l’information, plutôt que pour la logique mathéma-
tique. C’est pourquoi l’automatisation a vraiment pris son essor au moment de
l’apparition des grands corpus, quand la mise en œuvre de ces hypothèses pro-
babilistes sur des grandes masses de données est devenue possible.

1.3. Halliday, Sinclair et le courant corpus-driven

Les notions de sens lexical et de texte, cruciales dans l’approche de Firth (1957),
sont au cœur du courant corpus-driven dont le chef de file était, jusqu’à très récem-
ment, John Sinclair (1933-2007). Dans l’approche polysystémique de Firth, oppo-
sée aux structuralismes européen et américain, le « meaning by collocation » est
le sens lexical, correspondant à un des cinq niveaux inter-reliés de description
des langues. Les quatre autres niveaux étant la phonétique, la morphologie, la
syntaxe et la sémantique. À un certain niveau, le sens d’une unité est fonction
du rôle que joue cette unité au niveau supérieur (Léon 2007c).
La notion de collocation a évolué dans l’œuvre de Firth pour aboutir à un
objet automatisable. Alors que dans les premiers textes, la notion de colloca-
tion désignait la cooccurrence de deux éléments linguistiques quelconques dans
n’importe quelle étendue de texte, elle a ensuite été limitée aux mots en attente
mutuelle (mutual expectation) : dans « nuit noire », le sens de « nuit » est qu’il
peut entrer en collocation avec « noire » et inversement. Plusieurs contraintes
méthodologiques sont apparues lorsque Firth donna des pistes pour l’étude des
collocations à des fins pratiques : enseignement des langues, traduction, fabri-
cation de dictionnaires. Outre celle limitant l’étude des collocations aux mots,
la seconde contrainte concerne l’étude des collocations non dans le langage en
général mais dans des langages restreints (voir § 2.1 ci-dessous). Une troisième
contrainte concerne le texte : pour aborder le sens, il faut étudier des colloca-
tions de mots dans des textes authentiques. Suivant en cela Wittgenstein, Firth
définit le sens d’un mot par l’usage, c’est-à-dire à partir de son occurrence dans
un texte contextuellement situé.

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 161
Lorsque Sinclair s’engage en 1963 dans l’automatisation de la recherche de
patterns de collocations dans l’anglais écrit et parlé (projet OSTI – UK Govern-
ment Office for Scientific and Technical Information), il s’inscrit totalement dans
cette filiation firthienne (Sinclair et al. 2004). Halliday, élève de Firth et super-
viseur du projet, a déjà posé les premiers jalons de sa théorie probabiliste du
langage dont un des éléments est l’hypothèse d’un continuum entre lexique et
grammaire (lexicogrammar) qu’on peut analyser à partir de configurations par-
ticulières (collocation patterning) : un item noyau et une étendue de texte d’un
nombre donné de mots à droite et à gauche (Halliday 1966). Conformément à
l’approche firthienne, la recherche de collocations doit s’effectuer dans des textes
intégraux et authentiques, et non à partir de corpus échantillonnés. Le sens est
conçu comme un potentiel qui dépend des choix effectués dans le texte intégral
et donc susceptible d’une étude probabiliste. N’importe quel texte (un poème
par exemple) peut être considéré comme un échantillon d’une langue donnée
et n’a de sens que par rapport à l’ensemble de cette langue :
A literary text has meaning only by comparison with a particular language at a particular
time. Any stretch of language has meaning only as a sample of an enormously large body
of text ; it represents the results of a complicated selection process, and each selection has
meaning by virtue of all the other selections which might have been made, but have been
rejected [...]. So a poem is a sample of a language ; perhaps not a representative sample,
but only carrying meaning because it can be referred to a description of a whole language.
(Sinclair 1965, p. 76-77)4
Cette approche probabiliste du sens n’est possible qu’à travers l’étude de
grands corpus de textes. C’est pourquoi Sinclair s’oppose aux méthodes fon-
dées sur un corpus échantillonné et sur des genres définis a priori. C’est pour-
quoi, aussi, cette étude resta à l’état de projet jusqu’à la fin des années 1980, étant
donné l’inca­pacité technologique, dans les années 1960, de traiter des données tex-
tuelles en nombre. Sinclair reprendra ces travaux avec le projet COBUILD (Col-
lins Birmingham University International Language Database), vaste base de don-
nées lexicales destinée à confectionner des dictionnaires à partir d’un ensemble
de textes authentiques et intégraux, la Birmingham Collection of English Texts
(BCE). L’interruption du projet Sinclair pendant une vingtaine d’années n’a pas

4 Traduction française ( J. Léon) : Un texte littéraire n’a de sens que comparativement avec une
langue particulière à un moment particulier. Toute étendue de langage n’a de sens que comme
échantillon d’un énorme corpus de texte ; elle représente le résultat d’un processus de sélection
complexe, et chaque sélection a un sens en vertu de toutes les autres sélections qui ont été
faites, mais ont été rejetées […]. Ainsi un poème est un échantillon d’une langue ; peut-être
un échantillon non représentatif, mais porteur de sens seulement parce qu’il peut être référé
à une description de la langue dans son ensemble.

162 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
modifié l’orientation théorique. Lorsque, en plein essor de la « corpus linguistics »,
Sinclair propose une typologie des corpus, il privilégie encore les corpus consti-
tués de collections de textes intégraux (large text corpora).

1.4. Quirk, Leech et le courant corpus-based

Le courant corpus-based, dont on peut dire que le chef de file est actuellement
­Gœffrey Leech, est directement issu du SEU de Quirk avec lequel il partage les
principaux objectifs. Bien que son intérêt pour la grammaire l’écarte des préoccu-
pations principales des néo-firthiens pour le sens, et en particulier le sens lexical
en contexte, Quirk se rattache à la lignée de l’empirisme britannique par l’impor-
tance qu’il donne à la « lexicographical syntax » d’Henry Sweet (Sweet 1884, p. 585),
à la recherche de patterns grammaticaux, et à la tradition des dictionnaires de l’an-
glais fondés sur l’usage de la fin du xixe siècle comme l’Oxford English Dictionary
dirigé par James Murray, dont le titre original A New English Dictionary on Histori-
cal Principles ; Founded Mainly on the Materials Collected by the Philological Society
signale l’utilisation d’une méthodologie corpus-based. Contrairement à Halliday
et Sinclair, Quirk s’inscrit aussi dans la tradition néo-bloomfieldienne5. Il doit à
Charles Fries l’idée d’utiliser des conversations enregistrées, idée qui s’avère tota-
lement cohérente avec la tradition britannique de l’étude du langage parlé. Il colla-
bore avec Freeman Twaddell lors de la constitution du Brown Corpus. Il emprunte
à Harris et aux anthropologues linguistes américains les tests de substituabilité et
le recours à des informateurs, et à Hockett son idée de grammaire de l’auditeur.
L’objectif de Quirk (voir Léon 2013a) est de fabriquer des grammaires pour
faire face à la demande d’enseignement de l’anglais comme langue étrangère
dans les années d’après la seconde guerre mondiale. Il conçoit une grammaire
fabriquée à partir d’un corpus d’usage, à savoir des données en nombre, attestées,
enregistrées ou transcrites, qu’il appelle « a corpus of natural usage », « a body of
full and objective data », « a copious body of actually recorded usage »6.
Cette grammaire doit être à la fois descriptive et prescriptive. À partir de l’usage
grammatical permettant d’obtenir des structures descriptives (descriptive patterns)
aussi systématiques que possible, on peut élaborer des prescriptions nouvelles
objectivement fondées. Pour Quirk, l’usage n’est pas une notion qui va de soi et il
va s’attacher à distinguer l’usage observé dans les corpus, la norme prescrite par les
grammaires et les dictionnaires, et la croyance des locuteurs. À l’époque, le débat est

5 Après son doctorat en syntaxe à University College of London, Quirk effectue un séjour aux
États-Unis en 1951-1952 où il rencontre plusieurs néo-bloomfieldiens.
6 Corpus attesté, corpus de données complètes et objectives, corpus abondant de données
attestées enregistrées.

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 163
(déjà) vif sur les notions chomskyennes de grammaticalité, acceptabilité et intuition
des locuteurs, et Quirk accorde beaucoup d’attention à l’écart entre l’intuition des
locuteurs (et des linguistes) et l’usage, c’est-à-dire entre les formes qu’ils acceptent
comme bien formées et celles qu’ils produisent vraiment. Cette fréquente inadé-
quation entre les croyances des locuteurs et l’usage réel conduit Quirk à mettre en
œuvre des tests pour apprécier cet écart, et à considérer l’acceptabilité comme un
phénomène multiface et continu qui ne peut se réduire à un jugement strict en oui
ou non. Dans certains cas, il parlera d’ailleurs de préférence de l’usage pour telle et
telle forme plutôt que de règles (Quirk et Svartvik 1966).
Les tests ne sont qu’une partie du dispositif d’étude de l’usage. L’étude des
variations est essentielle : il existe des variations par rapport à une norme, et il n’y
a pas de variation sans cause linguistique ; toute variation, même apparemment
mineure, doit être expliquée et apparaître dans la grammaire. Cet attachement
à la variation est un autre point qui rattache Quirk au courant firthien. Sinclair
pour sa part ne portait aucun intérêt à la variation, et considérait les corpus échan-
tillonnés, qui étaient une façon d’en rendre compte, comme des corpus « spé-
ciaux » déviants par rapport au langage normal, noyau central de la description.
Quirk partage l’hypothèse d’un continuum entre lexique et grammaire, thé-
matisée par Halliday. Toutefois, alors que Halliday oppose un modèle probabi-
liste du lexique (avec un choix ouvert de possibilités) à un modèle de grammaire
déterministe (avec un choix fermé de possibilités), Quirk (voir Quirk et al. 1964,
p. 149) parle de gradient y compris pour les classes grammaticales. Entre in spite
of qui constitue une quasi-préposition et on the table near the door, complètement
libre, il y a différentes réalisations, in spite of the hotel, at the sight of the hotel et in
the lounge of the hotel qui se situent sur un continuum et qui conduisent à ranger,
à partir d’une dizaine de traits distinctifs, une classe grammaticale, les préposi-
tions, parmi les classes ouvertes en anglais. Le SEU doit être un corpus construit
par le linguiste, systématique, échantillonné et représentatif, dont l’objectif est
de rendre compte en synchronie du langage parlé et écrit de locuteurs britan-
niques éduqués adultes, et d’élaborer des expériences sélectives susceptibles
d’établir les règles des variations et des usages rares, à des fins prescriptives. Les
variations sont appréhendées au travers d’un certain nombre de genres : littéra-
ture, textes techniques, scientifiques, juridiques, politiques, religieux, journalis-
tiques, mais ce qui intéresse particulièrement Quirk, ce sont les variations libres
pour lesquelles l’examen d’un corpus (en l’occurrence le SEU) ne peut consti-
tuer la seule méthode. Il faut également mettre en œuvre des tests d’élicitation
qu’il commence à implémenter en 1966 en collaboration avec Jan Svartvik (Quirk
et al. 1966). En résumé, les données utilisées par Quirk en vue de la fabrication
d’une grammaire ont diverses origines : des données artificielles produites en
situation expérimentale, et des données attestées écrites ou orales.

164 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Bien que Quirk et ses collaborateurs aient fabriqué des procédures automa-
tisées pour explorer les données du SEU dès les années 1960, la base de données
elle-même n’a été informatisée qu’à la fin des années 1980, notamment avec la créa-
tion de l’ICE (International Corpus of English) en 1990, corpus de textes organisé
par genres pour les diverses variétés d’anglais dans le monde. Comme on l’a dit
précédemment, on peut considérer que le Brown Corpus, estimé à plus ou moins
juste titre comme le premier corpus informatisé, constitue en fait une des formes
de l’informatisation du SEU. Dans les années 1970, c’est sur le modèle du SEU et
du Brown Corpus, que se poursuivent les travaux de compilation des variations
de l’anglais, avec les grands corpus développés essentiellement en Scandinavie
par les élèves de Quirk. Geoffrey Leech de l’université de Lancaster, Svartvik de
l’université Lund, et des Norvégiens d’Oslo et de Bergen entreprennent en 1975
la construction du London-Lund Corpus of Spoken English (LLC) et en 1978
celle du Lancaster-Oslo-Bergen Corpus of British English (LOB).
Dans les années 1990, quand les corpus informatisés de très grande dimen-
sion deviendront disponibles, ces corpus vont être intégrés au TAL et considérés
comme de grands ensembles de données permettant d’effectuer des explorations
de toutes sortes, que ce soient des décomptes statistiques ou des recherches de
structures selon des hypothèses linguistiques définies. Le courant corpus-based n’a
pas de projet défini ; c’est plutôt un cadre général visant à une utilisation multi­
forme des corpus pour les projets de TAL.

2. Empirisme en linguistique et en TAL : nouveaux objets, nouveaux défis

À des fins appliquées d’enseignement, de traduction ou de diffusion des sciences,


les traditions empiristes ont produit des objets intermédiaires entre les données
et la théorie. Les « restricted languages », ou langages restreints de John Rupert
Firth en font partie, de même que les « sublanguages », ou sous-langages de ­Harris.
Sous des appellations diverses (registres, langages restreints, langages de spécia-
lité, sous-langages), ces objets sont devenus des objets du TAL, aux confins des
méthodes probabilistes et computationnelles7.

2.1. Langages restreints et registres (Firth, Halliday)

Dans la théorie de Firth, les langages restreints appartiennent aux catégories


situationnelles, c’est-à-dire aux catégories linguistiques permettant d’analyser

7 Voir Léon 2007b, 2008c.

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 165
le concept de contexte de situation. Les langages restreints réfèrent aussi à une
fonction « technique » du langage, et l’inspiration est cette fois-ci wittgenstei-
nienne8. De fait, la notion de langage restreint mêle deux aspects distincts qui vont
d’ailleurs aboutir à deux notions, l’une développée par Firth lui-même, celle des
langages restreints, et l’autre par ses disciples, dont Halliday, celle des registres.
Deux exemples donnés simultanément par Firth, lorsqu’il commence à déve-
lopper cette notion en 1950, permettent de distinguer ces deux aspects. Le premier
exemple est l’analyse d’une phrase en cockney « Ahng gunna gi’ wun fer Ber » (I’m
going to get one for Bert) (Firth 1957 [1950a], p. 182). Quand on prononce une telle
phrase, il faut se poser un certain nombre de questions pour fournir un contexte
de situation typique de l’action verbale (nommée également « événement lin-
guistique ») : Combien y a t-il de participants ? Où se passe l’action ? Quels sont
les objets pertinents ? Quel est l’effet de la phrase ? Par exemple, les participants
sont dans un pub, le locuteur se lève et va chercher une pinte de bière pour Bert,
etc. Le second exemple réfère à l’expérience de Firth d’enseignant du japonais
pendant la seconde guerre mondiale. Son objectif est moins d’enseigner aux
pilotes britanniques la façon de converser informelle, destinée à nouer des rela-
tions sociales, que le langage utilisé par les pilotes japonais, à savoir un langage
technique et restreint. De ces deux aspects, Firth n’a mis en place de façon élabo-
rée que les langages restreints, issus des langages techniques. Plus tard, les catégo-
ries situationnelles connaîtront un destin varié chez les Firthiens (les registres)
et en ethnographie de la communication.
La notion de langage restreint désigne au départ trois types de langages, au
cœur de la linguistique descriptive : le langage de description, le langage sous
description (the language under description) et le langage de traduction. Mal-
gré l’apparente confusion manifestée par cette multiplicité de fonctions des lan-
gages restreints, la notion est cohérente avec la vision empiriste de Firth. C’est au
moment où Firth se positionne en opposition au structuralisme post-­saussurien
et aux néo-bloomfieldiens, auxquels il reproche notamment l’abus d’un méta-
langage axiomatisé, qu’il propose les « restricted languages of linguistics », et plus
généralement les « restricted languages of sciences », comme faisant office de méta-
langage. Quant aux langages sous description, ce sont des langages restreints
définis comme des sous-ensembles d’une langue donnée, situés contextuelle-

8 Dans ses Investigations philosophiques, Wittgenstein (Wittgenstein 1961 [1953] I, 2, p. 116) parle
des fonctions du langage en tant qu’outils. Il donne l’exemple d’un langage primitif constitué
de seulement quelques mots, « blocs », « dalles », « poutres » qui pourraient s’avérer suffire
à deux ouvriers du bâtiment pour communiquer. Firth s’inspire directement de cette idée
lorsqu’il préconise un langage restreint permettant aux pilotes d’avion de communiquer entre
eux en japonais (voir son exemple 2 ci-dessous).

166 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
ment : langages techniques, du sport, de l’industrie, de l’aviation, du commerce,
de l’administration, etc. Le texte est l’espace empirique de matérialisation des
langages restreints, pouvant être réduit à un seul, ou à l’œuvre d’un seul auteur.
Firth donne comme exemples l’ensemble de l’œuvre du poète Swinburne, des
textes uniques comme la Magna Carta du latin médiéval ou l’American Decla-
ration of Independence. Cet aspect déterminera certains traits fondamentaux de
l’approche corpus-driven de la corpus linguistics, telle l’option prise par Sinclair de
considérer qu’un texte (un poème) peut être considéré comme représentatif de
la langue dans sa totalité.
Les langages restreints sont fondamentaux pour une linguistique descriptive
qui définit pour chacun d’eux des micro-grammaires et des micro-glossaires. Enfin,
ce sont les lieux privilégiés de recherche des collocations. On voit ici comment
la linguistique descriptive firthienne est directement informatisable à l’aide de
corpus et des méthodes probabilistes qui leur sont associées.
Une caractéristique essentielle des langages restreints, liée au fait qu’ils sont
situés contextuellement, est qu’ils sont les lieux privilégiés pour l’étude de la varia-
tion. Les « grandes » langues, comme le français ou l’anglais, du fait qu’elles sont
utilisées dans des contextes variables géographiquement ou culturellement, sont
soumises à des variations linguistiques. Ces langues, parlées en Afrique, Asie, Amé-
rique ou Europe ne sont pas unifiées et ne peuvent être ni enseignées ni traduites
comme des ensembles homogènes. Différents espaces de référence déterminent
des langages restreints différents qui ne sont pas partagés par tous les locuteurs
francophones ou anglophones. En ce sens, on pourrait dire que les langages res-
treints sont proches de la notion d’hyperlangue française, anglaise, portugaise…
(voir Auroux 1997)9. De ce fait, les langages restreints ne peuvent pas être assi-
milés à des langues artificielles comme le Basic English, ou le français élémentaire,
fondés par définition sur un lexique limité. Au contraire, les langages restreints
comportent de riches microglossaires qui témoignent de la richesse du lexique
en variation. De plus, la définition du lexique chez Ogden est fondée sur des caté-
gories sémantiques a priori et située à l’opposé de la conception du sens de Firth.
Les langages restreints, au cœur de la linguistique descriptive britannique, ont
un statut double. Ils sont à la fois au cœur de l’étude de la variation, et constituent

9 « Le langage humain n’est pas autonome, ce n’est pas une sphère d’activité en soi et pour soi.
Pour fonctionner comme moyen de communication, il doit être situé dans un monde donné
et parmi d’autres habitudes sociales. Il n’y a pas de langage humain possible sans hyperlangue
[…]. Un Québécois (ou un Brésilien) utilise bien la même expression que le Français (ou le
Portugais) quand il parle d’un “grand arbre”. Pourtant, à bien des indices textuels on remarquera
que les expressions n’ont pas le même sens : la langue grammaticale n’a pas changé, c’est le
monde qui a changé, provoquant un changement de l’hyperlangue » (Auroux 1997, p. 114-115).

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 167
des zones de stabilité pour l’enseignement et la traduction, dans la mesure où ils
permettent de limiter les problèmes de compréhension. Enfin, ils deviennent des
outils importants pour le TAL dès lors qu’ils permettent de définir des micro-
grammaires et des micro-glossaires. Lieux privilégiés de recherche des collocations,
ils sont tout à fait adaptés aux recherches sur les corpus. Les registres, quant à eux,
sont particulièrement appréhendables à l’aide de méthodes probabilistes. Halli-
day les définit comme des phénomènes continus qui ne peuvent être distingués
d’un locuteur à l’autre, et qui ne peuvent pas être traités par des catégories ni des
méthodes discrètes. Ce ne sont pas des règles, mais des patterns d’usage, obtenus
par généralisation à partir de grands corpus, qui permettent de les appréhender.

2.2. Sous-langages (Harris)

Les sous-langages de Harris sont des objets qui permettent de mettre en œuvre
une linguistique descriptive empirique et de définir des grammaires partielles. Ils
sont aussi des objets privilégiés pour le TAL. Il est intéressant de voir que, mal-
gré des différences importantes, dues notamment à leurs origines théoriques sou-
vent incompatibles, sous-langages, langages restreints et registres se sont retrou-
vés confondus dans les projets de TAL.
En 1968, les sous-langages sont conçus par Harris comme des systèmes mathé-
matiques, définis par des opérations – les transformations – et sans détermina-
tion empirique. Plus tard, ils deviennent des structures de discours concrètes,
applicables à des textes scientifiques réels, contextuellement situés et suscep-
tibles d’un traitement automatique. Ils sont à la base de l’analyse en chaîne de
Naomi Sager, du projet de traduction automatique Taum-Meteo, et du projet
de sous-langage des sciences élaboré par Harris lui-même et son équipe, notam-
ment dans le domaine de l’immunologie (Harris 1988, 1991).
Une des sources du projet de Harris est son implication dans les langues inter-
nationales. À la suite de Sapir (voir Harris 1951b), dont l’objectif était de construire
une langue auxiliaire scientifique10, et de Carnap et de son projet de syntaxe
logique, Harris rédigea en 1962 un projet de langage international des sciences.
Contrairement à Carnap, ce langage ne devait pas être fondé sur la logique mathé-
matique, mais être un sous-langage du langage naturel (Harris 1962b).
Contrairement à Firth, que les langues universelles n’ont jamais séduit, et dont
les langages restreints sont des lieux irréductibles de variation, Harris considère
que le sous-langage des sciences est universel, identique pour toutes les langues.

10 Dans l’édition des œuvres complètes de Sapir, Swiggers (2008) souligne l’engagement de Sapir
dans les langues auxiliaires internationales. Sapir y a consacré quatre articles entre 1925 et 1933.

168 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
L’exemple des bulletins météo illustre la différence entre les deux approches.
Alors que Firth les tient, au même titre que tout autre « texte », pour soumis à
variation d’une langue à l’autre, voire à l’intérieur d’une même langue parlée dans
des espaces distincts (de l’hyperlangue anglaise), Harris considère au contraire
qu’ils présentent une structure semblable dans toutes les langues. Les premiers
exemples de traduction automatique utilisant les sous-langages sont la traduc-
tion au Canada des bulletins météo (considérés comme sous-langages) dans le
cadre du projet Taum-Meteo11.
Concernant le statut du métalangage, les deux auteurs ont une position dis-
tincte. Firth (1968 [1955], p. 46-47) préconise l’établissement d’un métalangage
(un langage restreint) pour faire face à l’indétermination des langues naturelles qui
mettent en collocation des termes techniques avec des termes du langage ordinaire.
Harris considère au contraire que, comme chaque langue contient son propre
métalangage, la construction d’un métalangage artificiel n’est pas nécessaire.
Malgré une coïncidence de termes entre lexicogrammar et lexique-grammaire
(développé en particulier par Maurice Gross), leur conception du lexique est
aussi très différente. Pour Harris, les restrictions de sélection sur le lexique s’ef-
fectuent en termes syntaxiques à l’aide d’opérateurs et d’arguments ; pour Firth,
le sens par collocation est dans l’usage, et Halliday prône l’idée d’un continuum
entre lexique et grammaire, accessible seulement par des méthodes probabilistes.
Pour Firth, chaque langage restreint a sa propre micro-grammaire. Harris a
une conception plus élaborée : les grammaires des sous-langages ne sont pas des
sous-ensembles de la grammaire d’une langue dans sa totalité, ce sont des intersec-
tions. Les sous-langages sont le lieu où le sens est produit, comme par exemple les
synonymes et les homonymes qui ne sont pas les mêmes dans les sous-langages
et dans la langue dans sa totalité. Par exemple, « cells have multiplied » et « cells
have divided » sont synonymes dans le langage de la biologie, alors qu’ils ne le
sont pas dans la langue générale. De même, les non-sens n’existent pas dans les
sous-langages : un non-sens est tout simplement hors du sous-langage.
Des différences théoriques notoires, notamment concernant le texte, le
contexte, le sens et la variation existent et restent irréductibles. De plus Firth a
toujours exprimé une position très critique à l’égard des méthodes distribution-
nelles, et celles de Harris tout particulièrement (Firth 1968 [1955], [1956], [1957]).
Il critique la méthode distributionnelle, en citant en note Methods in Structural
Linguistics (Harris 1951a), qui, dit-il, n’a jamais produit aucun résultat :
The main criticism to be offered of American structuralist linguistics based on phonemic
procedures is that, having attempted just that, it has not furnished any valid g­ rammatical

11 TAUM pour Traduction automatique à l’université de Montréal.

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 169
analysis of any language by means of which renewal of connection in experience can be
made with systematic certainty. (Firth 1968 [1957], p. 191)12
Toutefois, on peut avancer que les langages restreints et les sous-langages par-
tagent un certain nombre de traits qui les rattachent à un certain empirisme dans les
sciences du langage : méthode inductive et niveaux intermédiaires entre données
et descriptions linguistiques, permettant l’abstraction. De plus, une utilisation de
ces langages dans des applications pratiques tend à en réduire les divergences. En
TAL, certains auteurs utilisent les registres et les sous-langages dans un même pro-
jet, les sous-langages étant limités aux langages techniques et les registres et genres
aux formes plus générales ou plus littéraires, contes pour enfants ou critique litté-
raire. Les termes de « langages spécialisés » ou « langages de spécialité », de plus en
plus utilisés, ont tendance à neutraliser les différences. À l’heure actuelle, on trouve
des descendants des sous-langages et des langages restreints – la différence n’a plus
guère de sens – dans des domaines variés. À partir des années 1980, des langages
opérationnels spécialisés ont été développés dans le domaine des communications
aériennes (Airspeak), maritimes (Seaspeak) et de la police (­Policespeak) au sein
de l’espace Schengen. Ces projets intègrent des langages spécialisés, des techno­
logies de la communication, des procédures informatiques et des interfaces mul-
tilingues. De façon générale, on peut se demander si des objectifs pratiques, dont
le TAL fait partie indéniablement, n’ont pas tendance à minimiser les différences
théoriques, voire à les considérer comme négligeables.

3. Les corpus et les données, enjeu des débats entre empiristes et chomskyens

Les linguistes britanniques, au lieu de rejeter ou d’intégrer en bloc la théorie


chomskyenne, n’ont cessé de mener avec elle une discussion approfondie et sur
le long terme, à partir de points qui les concernaient directement. Cette posture,
ouverte mais sans concession, est caractéristique de la façon dont a été appré-
hendée l’automatisation-mathématisation de la linguistique dans l’empirisme bri-
tannique. On peut distinguer trois moments distincts du débat entre empiristes
britanniques et chomskyens. Le premier moment correspond à l’émergence de
la grammaire générative et aux nouveaux défis qu’elle suscite, y compris chez les
empiristes qui discutent les couples de notions de grammaticalité/acceptabilité
et gradience, et de compétence/performance. Le second temps correspond à

12 Traduction française ( J. Léon) : La principale critique qu’on peut faire de la linguistique


structuraliste américaine fondée sur des procédures d’analyse phonémique, est que, s’étant
limitée à ce type d’étude, elle n’a fourni aucune analyse grammaticale valide d’aucune langue,
qui aurait pu renouveler l’analyse empirique de façon systématique.

170 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
l’appa­rition des grands corpus qui conduit les empiristes comme Sampson (2001)
à contester les positions générativistes. Le courant corpus-driven questionne la
notion chomskyenne de créativité linguistique, dont le caractère innéiste est mis
en cause par les grands corpus. Quant aux tenants du courant corpus-­based, ils
revisitent les arguments de Chomsky sur la validité des corpus et des méthodes
probabilistes pour l’analyse linguistique. Dans un troisième temps, ce sont les
Chomskyens et post-chomskyens qui, avec l’apparition des grands corpus, révisent
leur position à l’égard des données, par intuition, par attestation ou par expéri-
mentation au sein d’un mouvement récent de la Philosophy of linguistics13.

3.1. Dans les années 1960 : acceptabilité, lexicalité


et nature probabiliste du langage14

Dans les années 1960, les Britanniques s’approprient de façon tout à fait origi-
nale le nouvel horizon de rétrospection introduit par la TA et la linguistique com-
putationnelle. On a vu que les premières expériences de TA ont été menées en
Grande-Bretagne, au Birkbeck College de Londres, indépendamment de tout
cadre théorique (voir chapitre 6). Sans ancrage théorique spécifique, ces expé-
riences mettaient en jeu les mêmes intuitions que celles de l’ingénieur russe Tro-
janskij, à savoir une langue intermédiaire fondée sur l’espéranto. En revanche, le
CLRU, bénéficiant d’un environnement solidement ancré dans la logique mathé-
matique et la philosophie du langage, a mené des expériences fondées sur la tra-
dition britannique du sens en usage et en contexte, tout en menant de front une
mathématisation originale et une discussion sur la formalisation.
La théorie chomskyenne est accueillie dans le même esprit. Loin de la récep-
tion externe et décalée des Français, les Britanniques sont prêts à débattre « à
égalité » des avantages et inconvénients de cette nouvelle théorie, d’en accep-
ter certaines propositions ou de lui en opposer certaines autres jugées plus per-
formantes. On pourrait parler d’intégration « par confrontation ». L’objectif de
Randolph Quirk et de ses collègues, sans rejeter d’emblée l’idée de compétence,
est de mettre à l’épreuve la performance et l’acceptabilité qu’ils proposent de
tester expérimentalement, à partir du constat de l’écart entre le jugement des
locuteurs et leurs propres productions. Ils proposent une conception gradiente

13 «  Philosophy of linguistics is the philosophy of science as applied to linguistics. This differentiates it shar-
ply from the philosophy of language, traditionally concerned with matters of meaning and reference. »
(Scholz Barbara C., Pelletier Francis Jeffry et Pullum Geoffrey K., « Philosophy of Linguistics »,
The Stanford Encyclopedia of Philosophy (Winter 2011 Edition), Edward N. Zalta éd. [http://plato.
stanford.edu/archives/win2011/entries/linguistics/], consulté le 26 janvier 2015.
14 Voir Léon 2010b.

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 171
de ­l’acceptabilité, à partir d’une approche empiriste de la performance fondée
sur l’usage, usage cognitivement sollicité par des tests, ou usage étudié à partir
de méthodes inductives et de corpus. Il est à noter que seul ce dernier aspect
subsistera dans la suite des travaux de Quirk et dans le courant corpus-based
qui en est issu. La position de Halliday est plus nettement empiriste, et c’est la
notion même de compétence qu’il discute notamment lors du débat ayant suivi
la communication de Chomsky au IXe congrès des linguistes en 1962 (Chomsky
1964). Comme notion complémentaire de la notion chomskyenne de gramma-
ticalité, par nature discrète et non gradiente, il propose celle de lexicalité (lexi-
calness) non discrète et interprétable en termes de degrés. De plus, il conteste
l’opposition entre possible et impossible (de langue) : ce qui est possible l’est
de façon prédictive, en termes de degré de probabilité et non de façon absolue.
Halliday ne cède en rien sur sa conception du langage comme objet social et
en action. Dans le sillage de Firth et des ethnographes de la communication, il
développe une socio-sémiotique qui constitue un des courants les plus actifs
du fonctionnalisme.

3.2. Dans les années 1990 : la grammaire générative


et transformationnelle revisitée

Le débat sur l’utilisation des corpus et des méthodes probabilistes trouve un regain
de vitalité au moment de l’apparition des grands corpus dans les années 1990. On
s’aperçoit que ces arguments, qui paraissent anachroniques puisqu’ils ravivent
un débat ayant eu lieu trente ans auparavant, sont en fait discutés à des fins de
légitimation par les tenants du courant corpus-based (Leech 1992). Ce courant,
plutôt orienté vers le TAL, et dont les objectifs prioritaires sont plus pratiques
que théoriques, revendique l’idée de créer une nouvelle linguistique, en rupture
avec le courant chomskyen. On ne peut s’empêcher de penser que ces arguments
semblent vouloir reprendre l’histoire à zéro. On revient au milieu des années 1960,
au moment où l’ALPAC érige la linguistique computationnelle en « nouvelle lin-
guistique », en s’appuyant théoriquement sur la toute nouvelle grammaire géné-
rative et transformationnelle contre les distributionnalistes et leurs méthodes
sur corpus. En inversant les arguments, il s’agit de montrer qu’une linguistique
empirique fondée sur les corpus, anéantie autrefois par les chomskyens, s’avère
en fait théoriquement beaucoup plus performante.
Le débat ravivé par les tenants du courant corpus-based est celui qui oppo-
sait, dans les années 1960, Chomsky et les distributionnalistes sur la concep-
tion du langage et de la grammaire. Le langage, infini pour Chomsky, est fini en
tant qu’ensemble d’énoncés dans un corpus pour les néo-bloomfieldiens. Cette
conception des corpus des néo-bloomfieldiens ne peut être imputée aux néo-

172 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
firthiens, pour lesquels un corpus peut s’étendre à l’infini, en particulier dans
la version Sinclair. Par ailleurs, les premiers corpus du courant corpus-based, en
particulier le Brown Corpus, sont utilisés à des fins statistiques de comptages de
vocabulaire. Or Chomsky ne s’intéresse pas aux modèles statistiques de vocabu-
laire ; comme ils ne remettent pas en cause sa théorie, il lui est même arrivé de
les approuver (Chomsky et Miller 1963). Ce que critique Chomsky, c’est l’utili-
sation des chaînes de Markov pour la syntaxe. Celles-ci, incapables de récursivité,
ne peuvent générer toutes les phrases grammaticales, et elles seulement. Selon
lui, la grammaticalité ne peut être probabiliste (Chomsky 1957). De sorte que
le débat ravivé par les tenants du courant corpus-based semble monté de toutes
pièces à des fins plus politiques que scientifiques. On peut avancer l’hypothèse
suivante. Conscients des enjeux que constituent les études sur corpus, ils veulent
l’ériger en « nouvelle linguistique ». Toutefois, ayant peu à peu abandonné ses
fondements théoriques au profit d’objectifs pratiques propres au TAL, le cou-
rant corpus-based a besoin de se relégitimer. À cette fin, il s’est forgé un précur-
seur qui est en fait un anti-précurseur, Chomsky, et un pionnier qui est un objet
TAL, le Brown Corpus.
Concernant les applications TAL, on peut dire qu’un certain nombre d’argu-
ments chomskyens restent pertinents. Peut-on ériger en dogme le primat de l’at-
testé, au moment où l’ensemble de la toile est considéré par certains comme « le »
corpus. Est-ce que toutes les formes rencontrées dans un tel corpus sont néces-
sairement bien formées ? Un corpus, si gros soit-il, peut-il comporter l’ensemble
des formes grammaticales ? Chomsky (1962, p. 180) soutient qu’il y a peu de
chance de trouver dans un corpus, y compris dit-il dans la Library of Congress,
la phrase « John ate a sandwich » bien qu’elle soit absolument bien formée. De
façon générale, des données nouvelles et attestées ne constituent pas nécessai-
rement de nouveaux faits en linguistique15.
Le débat, qui était essentiellement orienté dans le sens des empiristes vers les
chomskyens dans les années 1990 comme dans les années 1960, s’est généralisé
dans le domaine du TAL dans les années 2000. Toutefois sa mise en pratique dans
le TAL en a neutralisé ou émoussé les enjeux. Certains optent pour la réconci-
liation et la complémentarité entre TAL à base computationnelle et TAL à base
probabiliste (Pereira 2002). Beaucoup utilisent des méthodes mixtes. Quant aux
bailleurs de fonds, ils favorisent alternativement les deux types de méthodes, au
gré des résultats, au gré des modes…

15 Pour une étude critique de la linguistique de corpus voir Cori et David 2008.

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 173
3.3. Créativité linguistique et lexique : un débat en cours

Un autre aspect de la théorie chomskyenne est mis en question par l’usage des
grands corpus. Il s’agit de la créativité linguistique, liée au caractère infini et inné
du langage. Le débat, ouvert par Sinclair, a pour enjeu la créativité du lexique et
l’implication de la mémoire dans l’apprentissage et l’usage des langues.
Sinclair (1991) propose deux principes complémentaires d’interprétation du
sens dans un texte : l’open choice principle, selon lequel le locuteur dispose d’un
grand choix de possibilités lexicales, uniquement restreintes par des contraintes
grammaticales ; et l’idiomprinciple, selon lequel le locuteur ne dispose souvent
que d’un choix limité de syntagmes en partie préfabriqués. L’idiom principle et
l’existence dans le langage d’éléments préfabriqués permettent de réhabiliter le
rôle de la mémoire dans l’apprentissage et la production du langage. De plus, l’uti-
lisation d’éléments partiellement lexicalisés ne met pas nécessairement en cause
le caractère innovateur du langage. Selon Joseph (2003), Chomsky rejette tout
modèle « collocationnel » du langage au nom de la créativité linguistique infinie,
alors que pour Sinclair et ses disciples, le phénomène des collocations, appréhen-
dable dans les corpus, n’implique pas une absence de créativité. De plus, l’exis-
tence de segments préfabriqués contribue à réfuter une séparation nette entre
lexique et règles de grammaire.

3.4. Le débat sur le statut des données (data evidence)


dans la linguistique théorique post-chomskyenne

Avec la possibilité de traitement de grandes masses de données, de nouvelles ques-


tions se sont posées pour les chomskyens. À la fin des années 1990, le débat s’est
généralisé au sein d’un courant de la philosophie de la linguistique, avec pour
objectif de discuter les notions de grammaticalité et d’intuition et plus généra-
lement du statut des données comme preuves (data evidence), d’en évaluer les
enjeux pour la linguistique théorique et d’approfondir la réflexion sur l’empiricité
dans la linguistique post-chomskyenne (voir notamment Schütze 1996, ­Sternefeld
éd. 2007, Pullum 2007, Riemer 2009, Kertész et Rákosi 2012).
Kertész et Rákosi (2012) tentent de faire le point sur ces débats. Méconnais-
sant les travaux des distributionnalistes utilisant l’élicitation, ou ceux de Quirk uti-
lisant des données expérimentales en plus des données attestées dans les corpus,
ils se situent dans une perspective exclusivement post-chomskyenne. Ils décrivent
une nouvelle ère générativiste, selon laquelle on ne peut plus se contenter des
données par introspection. Il faut aussi utiliser les résultats de recherches fondées
sur les corpus et les expériences. Ceux qui s’attachent à identifier les principes
de la grammaire universelle utilisent les résultats de recherches en typologie, en

174 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
neuro et en psycholinguistique. Les erreurs et les lapsus, tenus (depuis Chomsky
1955) comme non grammaticaux, peuvent maintenant être utilisés comme evi-
dence faible pour l’étude de la grammaticalité. Des données s’avèrent avoir un sta-
tut mixte (intuition/attestation dans des corpus) : selon Schütze (1996), le web,
parce qu’il est très étendu, est le meilleur corpus, mais il doit être contrôlé par
l’intuition linguistique du chercheur. Les questionnaires, les études du mouve-
ment des yeux, les mesures neuro-anatomiques, etc. sont des expériences fon-
dées sur les réponses de participants à des stimuli, qui ne sont ni des données par
corpus ni des données par introspection. Ainsi, la compétence linguistique n’est
plus le seul facteur pertinent pour les jugements d’acceptabilité.
Le statut des contre-exemples s’en trouve modifié. Les générativistes adoptent
une stratégie inédite (pour eux) consistant à ignorer provisoirement les contre-
exemples, en faisant l’hypothèse qu’à une étape ultérieure de développement
de la théorie, les outils deviendront disponibles pour résoudre les incohérences
(Chomsky 2002). Les données « découvertes » ne satisfont plus le critère d’em-
piricité. Les données par corpus, moins susceptibles de manipulation, sont tenues
pour plus objectives que les données par intuition. Enfin le mode d’argumen-
tation doit être cyclique et non linéaire. Pour trouver une solution adéquate, il
faut revenir en arrière et essayer un autre chemin. À chaque cycle, la perspective
change et la théorisation linguistique obéit à un processus heuristique par l’appli­
cation de stratégies de résolution de problèmes ( problem-solving).

4. Conclusion

Il est intéressant de voir que la linguistique descriptive britannique contient en


elle-même des potentialités de développement devenues réalisables grâce à l’au-
tomatisation. Depuis Henry Sweet, elle comprend aussi bien les aspects théo-
riques que tous les aspects pratiques, comme l’enseignement des langues, la tra-
duction, puis l’automatisation de la traduction, la recherche automatique des
collocations, etc. L’automatisation n’a pas fait rupture ; elle s’est au contraire ins-
crite dans la continuité des méthodes d’application de la linguistique. Ce qui a
véritablement introduit un bouleversement, c’est la mise à disposition de masses
de données considérables. L’outil linguistique que constituent les corpus était
disponible depuis les années 1960. Leur mise en œuvre est devenue possible
avec la technologie des ordinateurs des années 1990, accroissant leurs potentia-
lités de façon inédite.
Cet aspect est souligné par Halliday (2002) lui-même. Jusqu’aux années 1990,
dit-il, la linguistique avait très peu de données à sa disposition et était dans la situa-
tion de la physique à la fin du xve siècle avant que la technologie ne lui permette

L e t o u r n a n t e m pi r i s t e d e l’ a u t o m at i s at i o n - m at h é m at i s at i o n 175
d’expérimenter. Pour Halliday, et une partie des linguistes empiristes, la linguis-
tique est une science expérimentale qui a connu deux développements majeurs
au xxe siècle grâce aux avancées technologiques : (i) l’apparition des magnéto-
phones et des ordinateurs dans les années 1950, qui lui a permis de rattraper la
phonétique déjà constituée dès les années 1920 comme science de laboratoire ;
(ii) l’évolution des ordinateurs dans les années 1990 qui ont permis de mettre à
disposition des linguistes des masses de données inédites : « From all this it should
be possible in the next decade or two to crack the semiotic code, in the sense of coming
fully to understand the relationship between observed instances of language behaviour
and the underlying system of language » (Halliday 2002, p. 8)16. ­Sampson (2001)
argumente dans le même sens pour critiquer l’opposition possible/impossible
interne à la notion chomskyenne de grammaticalité. Cette opposition, dit-il, sup-
pose une « negative evidence » qui n’est pas observable et ne peut relever de l’in-
tuition. Dans les années 1950-1960, on remplaçait la mise en évidence empirique
par l’intuition, faute de données suffisantes. Or, grâce aux grands corpus, rien
n’interdit actuellement à la linguistique d’être une science empirique au même
titre que les autres sciences. Au-delà d’une conception empirico-positiviste, il
est indéniable que les corpus sont devenus une source d’appoint de données
pour tous les linguistes. Rares sont ceux qui n’y ont pas recours pour construire
leurs faits en linguistique. Il existe même des domaines, comme la prosodie ou
la morphologie, où il est impossible, même en adoptant une démarche forma-
liste et/ou réaliste, de ne pas les utiliser. Les débats au sein du courant de la lin-
guistique post-chomskyenne (ci-dessus § 3.4) témoignent de cette évolution et
incitent les linguistes générativistes à utiliser les corpus et les expérimentations.
De façon générale, il s’agit de savoir en quoi les corpus constituent de nou-
veaux instruments (une « linguistique instrumentée », Habert 2005), voire un
nouvel observatoire pour la linguistique (voir Auroux 1998, Cori et David 2008,
Girault et Victorri 2009, entre autres), ou bien si leur utilisation n’est qu’un des
moyens pour la linguistique d’éprouver son empiricité.

16 Traduction française ( J. Léon) : À partir de là il devrait être possible dans 10 ou 20 ans de


déchiffrer le code sémiotique, c’est-à-dire de parvenir à comprendre la relation entre les ins-
tances observées du comportement langagier et le système sous-jacent du langage.

176 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Conclusion générale

Pour conclure cette étude, il conviendrait de reprendre certains problèmes théo-


riques posés par l’histoire du traitement automatique des langues en tant qu’his-
toire du récent. L’apparition de la traduction automatique comme événement
dans un contexte de guerre a accéléré le processus d’automatisation sans que
nécessairement ce processus s’inscrive dans une tradition linguistique ou intel-
lectuelle. Le point de vue adopté, consistant à étudier les modes d’intégration
de la traduction automatique, de la linguistique computationnelle, de la théo-
rie de l’information et de la documentation automatique dans les sciences du
langage, pose la question du rapport entre horizon de rétrospection et tradition,
entre histoire institutionnelle et histoire des idées, pose la question d’une pério-
disation unique pour cette courte histoire, et enfin pose la question de savoir si
on a affaire à une révolution et à un nouveau mode d’historicisation. Par ail-
leurs, le tournant de l’automatisation ancré dans les sciences de la guerre a pris
des formes plus périphériques, comme la technologisation de l’enseignement
des langues et l’institutionnalisation de la linguistique appliquée, et a conduit à
l’émergence de nouveaux domaines comme l’analyse automatique du discours.
Enfin, le second tournant des corpus a des caractéristiques propres et comporte
des enjeux épisté­mologiques différents.
Dans le cas de la traduction automatique, nous avons parlé d’intégration
d’un nouvel horizon de rétrospection plutôt que de transferts de concepts et de
méthodes d’une discipline à l’autre, en l’occurrence de l’informatique et/ou des
mathématiques vers les sciences du langage. L’intégration peut comporter un tel
transfert mais ne lui est pas équivalent. Dans l’idée d’intégration, il y a l’idée de
contextualisation et d’inscription dans une tradition. L’intégration, c’est le trans-
fert contextualisé de concepts et de méthodes.

Conclusion générale 177


Bien qu’instauré de façon brutale par la TA et la linguistique computationnelle,
le nouvel horizon de rétrospection n’était pas complètement externe aux hori-
zons des sciences du langage dans certaines traditions. En fonction de sa familia-
rité ou de son étrangeté, nous avons distingué des modes d’intégration différents.
Nous avons parlé d’« adaptation » lorsque l’ancrage logico-­mathématique et lin-
guistique était suffisamment solide. C’était le cas des néo-bloomfieldiens, fami-
liers avec les ouvrages de synthèse des travaux de la première mathématisation
et avec certains de ses principes, comme l’axiomatisation. Par ailleurs, la « nou-
velle linguistique » computationnelle, fondée sur les grammaires syntagmatiques,
partageait beaucoup d’options de la linguistique structurale américaine.
À l’opposé du spectre, on a parlé de « réception externe » pour les linguistes
français, pour lesquels les deux mouvements de la mathématisation du langage
et de l’automatisation se sont imposés de l’extérieur sans aucune inscription dans
leur tradition. Il a fallu imaginer des relais, comme les sociétés savantes tradition-
nellement au cœur de la constitution des disciplines, ou bien définir des passeurs
faisant circuler les méthodes et concepts dans les deux sens (entre États-Unis et
Europe ; entre les sciences du langage et les autres disciplines).
Le cas des Britanniques est particulier. Leur familiarité avec la première mathé-
matisation et la philosophie du langage les rendait aussi aptes que les Américains
à intégrer l’automatisation-mathématisation de la linguistique computationnelle.
Mais leur tradition empiriste les a conduits à adopter une position critique, à
débattre avec les tenants de la nouvelle linguistique et à innover sur leur propre
terrain plutôt qu’à adopter la « nouvelle linguistique ». C’est ainsi qu’on peut
parler d’intégration par confrontation.

Le choix de traiter séparément l’intégration de la linguistique computationnelle


et celle de la théorie de l’information se justifie d’une part parce que les formes
de mathématisation sont très différentes : la première se fonde sur la logique
mathématique et le calcul d’unités discrètes alors que la seconde se fonde sur les
méthodes probabilistes et le continu. On ne se prononcera pas sur le fait que l’une
serait d’ordre intrinsèque et l’autre extrinsèque (Auroux 2009), dans la mesure
où certains empiristes, dont Halliday et Sinclair, revendiquent une nature pro-
babiliste du langage à partir d’arguments qui restent à réfuter. Le point qui est
ici défendu est que l’intégration de la théorie de l’information s’est effectuée de
façon très différente de celle de la linguistique computationnelle. Aucune des
traditions linguistiques envisagées n’était ignorante des méthodes statistiques.
Cette situation est probablement due au fait que les travaux de Zipf en phoné-
tique et sur le vocabulaire avaient rencontré très tôt un écho à la fois chez les Bri-
tanniques et chez les Français au sein de l’International Phonetic Association.
Les néo-bloomfieldiens ont très tôt utilisé les chaînes de Markov pour délimi-

178 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
ter les unités à l’intérieur d’un énoncé. Certaines approches en sciences du lan-
gage, c’est particulièrement le cas de la théorie des traits distinctifs de Jakobson,
comportent des aspects qui convergent nettement avec certaines notions de la
théorie de l’information ; on l’a vu avec la notion de redondance et le principe
de binarité notamment. C’est pourquoi nous avons parlé de transferts et conver-
gences de concepts et de méthodes entre théorie de l’information et sciences du
langage. Il est probable que l’engouement général pour la cybernétique, à visée
unificatrice des sciences, dont la théorie de l’information est généralement consi-
dérée comme la partie quantitative, a beaucoup facilité l’intégration de cette der-
nière dans les sciences du langage, comme d’ailleurs dans les autres sciences. Le
moment historique où s’est fait cette intégration est essentiel. Les années 1960
sont la période de l’essor du structuralisme, dont la visée universaliste est aussi
très importante. La question d’une complémentarité ou d’une concurrence entre
ces deux mouvements, tous deux à prétention universaliste, théorie de l’infor-
mation et structuralisme, reste à étudier1.

Une autre question concerne la périodisation. On a vu que celle-ci pouvait être


variable selon le point de vue adopté. Choisir comme fil conducteur les modes
d’intégration contextuellement situés a conduit à adopter des modes de pério-
disation différents et des focales d’historicisation diverses, histoire institution-
nelle et/ou histoire des idées, de façon alternative ou simultanée. L’histoire ins-
titutionnelle est première lorsqu’on veut analyser l’événement « fondateur »,
délimitable par trois rapports institutionnels, dans une période courte d’une
quinzaine d’­années2. Une telle périodisation centrée sur l’événement fait appel
naturellement au rôle joué par des personnalités clés des débuts de l’automa-
tisation des sciences du langage. Pour certaines de ces personnalités, et sans
pour autant souscrire à un modèle narratif d’histoire des sciences3, nous avons
présenté des éléments biographiques à chaque fois qu’ils ont été jugés néces-
saires, comme cela a été le cas pour Yehosuha Bar-Hillel, Warren Weaver, Benoît
­Mandelbrot, Pierre-­Marcel Schützenberger et Maurice Gross. Dans cette étude,
Zellig S. ­Harris occupe une place centrale et ses travaux sont invoqués dans plu-
sieurs chapitres. Comme linguiste néo-bloomfieldien, un des plus engagés dans
la voie de la formalisation, il a dirigé un centre de traduction automatique et

1 Voir les travaux de Ronan Le Roux sur la convergence entre cybernétique et structuralismes,
en particulier chez Lévi-Strauss et Lacan (Le Roux 2009, 2013).
2 En l’occurrence, l’histoire institutionnelle met en avant l’interaction du composant sociologique
avec le composant pratique (la construction de systèmes de TA) qu’elle analyse prioritairement
au composant théorique (voir le modèle de la science proposé par Auroux 1987).
3 Pour une critique d’un tel modèle, voir Auroux (1982).

Conclusion générale 179


ses travaux ont directement ­bénéficié de l’automatisation de la traduction. Sa
méthode distributionnelle, qu’il a lui-même appliquée à l’extraction d’informa-
tion (information retrieval) est devenue la méthode linguistique la plus recon-
nue en documentation automatique. Relayés par Maurice Gross et les tenants
de l’analyse de discours française, ses travaux ont connu un parcours original en
France alors qu’ils étaient quasiment oubliés aux États-Unis ; enfin on peut faire
l’hypothèse qu’une partie importante de son héritage se situe dans le domaine
du traitement automatique du langage.
Pour ce qui concerne les sources de la linguistique de corpus, l’analyse de
la lente mise en place d’une sémantique lexicale, ou encore l’élaboration d’ob-
jets intermédiaires pour la linguistique descriptive empirique, d’autres types de
périodisation sont nécessaires. De telles études ne peuvent s’effectuer que sur le
temps long, analysable selon une histoire des idées. La durée de ce temps long
est variable et n’est pas nécessairement linéaire. Si l’on prend comme exemple
la genèse des réseaux sémantiques, celle-ci institue une périodisation allant du
xviie siècle au milieu du xxe siècle, mais cette périodisation n’est pas linéaire et il
est nécessaire de distinguer trois moments en discontinuité : l’Essay de Wilkins
au xviie siècle, le Thesaurus de Roget au xixe siècle, les langues intermédiaires
pour la TA du groupe de Cambridge (GB) dans les années 1950. Les langages
restreints de Firth élaborés dans les années 1950 s’inscrivent dans la continuité
de la linguistique descriptive de Henry Sweet mais prennent probablement leur
source dans l’empirisme britannique bien antérieurement.
Dans cette étude, les notions d’horizon de rétrospection et de tradition
ont souvent été utilisées de façon équivalente. Cette position peut se défendre
lorsqu’on a affaire à une empreinte culturelle nationale encore très prégnante en
ce milieu du xxe siècle, se situant au seuil de l’internationalisation des sciences
du langage. Pour Auroux (1987, p. 34), l’horizon de rétrospection se transmet par
tradition ; inversement, on peut considérer que la tradition est une des condi-
tions pour changer d’horizon de rétrospection. Ainsi, c’est à partir d’une tradi-
tion donnée que l’automatisation a pu susciter le développement de nouvelles
questions et de nouveaux objets.
Comme nous l’avons indiqué, les expérimentations des quinze premières
années de la période-événement TA constituent un corpus fini et répertoriable.
On a tenté d’éviter une posture « présentiste » (Fischer 1970) qui aurait consisté
à ne sélectionner que les méthodes encore en cours (« en cour ») aujourd’hui4.

4 « Sometimes called the fallacy of nunc pro tunc, it (the fallacy of presentism) is the mistaken idea
that the proper way to do history is to prune away the dead branches of the past, and to preserve the
green buds and twigs which have grown into the dark forest of our contemporary world » (Fischer
1970, p. 136).

180 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Les expérimentations que nous avons choisi d’analyser l’ont été parce qu’elles
ont eu pour effet de faire « bouger les lignes », et que l’automatisation a suscité
de nouvelles questions pour les sciences du langage, ou les a renouvelées. Une
telle position n’est pas sans risque et conduit parfois à l’incompréhension de cer-
tains de nos collègues linguistes contemporains pour lesquels ces expérimenta-
tions ne sont que de « poussiéreuses vieilleries ».
Pour la seconde automatisation, la question est tout autre : nous sommes au
cœur de la linguistique en train de se faire. Se donner pour tâche une étude épis-
témologique des résultats linguistiques fournis par les études sur corpus doit tenir
compte des procédures d’évaluation mises en place par les acteurs eux-mêmes. Il
serait nécessaire, auparavant, de penser et créer le dispositif théorique permet-
tant une telle recherche.

Une autre question reste en suspens, celle de savoir si on peut assimiler l’auto-
matisation du langage à une nouvelle révolution technologique5, équivalente à la
révolution de l’écriture, et à celle de la grammatisation des vernaculaires (Auroux
1994). Il y aurait certes des parallèles à faire entre les contextes historiques de la
révolution de la grammatisation et ceux de l’automatisation, où la nécessité d’in-
ternationaliser la communication dans le sillage des grandes découvertes d’une
part, et de l’après seconde guerre mondiale d’autre part6, ont suscité des boule-
versements technologiques et un nouvel outillage pour les sciences du langage.
Il est incontestable que l’automatisation, à travers la constitution de bases
de données – éventuellement multilingues – de corpus de très grande taille, la

Traduction française ( J. Léon) : Appelée parfois « fallacie du nunc pro tunc » (la fallacie du
présentisme), c’est l’idée fausse selon laquelle la façon correcte de faire de l’histoire serait de
couper les branches mortes du passé et de préserver les bourgeons et les brindilles vertes ayant
poussé dans la sombre forêt de notre monde contemporain.
5 Cette révolution, pas plus que les précédentes, n’est analysable selon le modèle kuhnien qui
définit la révolution des systèmes scientifiques par l’interruption du processus cumulatif de la
science normale en cours. Comme l’ont signalé de nombreuses critiques (Auroux 1987, 1994,
Blanckaert 2006, entre autres), une telle science normale suppose un noyau théorique stable
et unifié. Ce qui n’est, de toute façon, pas le cas des sciences du langage.Par ailleurs l’idée de
révolution chez Kuhn implique qu’il y ait eu crise dans la science normale en cours et victoire
d’un camp sur l’autre. Même si la victoire du courant chomskyen sur les distributionnalistes
présente des aspects qui pourraient être analysés selon le modèle kuhnien, on peut tout à fait
lui opposer une analyse continuiste. Ce dont témoigne d’ailleurs un certain nombre des articles
de l’ouvrage dirigé par D. Kibbee (2010) sur l’évaluation du courant chomskyen et dont le titre
même, Chomskyan (R)evolutions, évoque cette lecture double.
6 Un tel parallèle existe d’ailleurs entre le développement de projets de langues universelles en
Grande-Bretagne au xviie siècle (Cram 1985) et le regain d’intérêt qu’ils ont suscité comme
méthodes de TA.

Conclusion générale 181


p­ ossibilité d’annotation, les dictionnaires électroniques, etc. constituent un outil-
lage des langues sans précédent prolongeant la compétence humaine, et dont le
retentissement excède les sciences du langage et atteint la société tout entière.
Enfin, l’histoire du traitement automatique des langues est non seulement une
histoire du récent mais aussi une histoire en cours. On assiste actuellement à une
accélération du changement de méthodes, entièrement parallèle aux développe-
ments technologiques, voire dominée par eux. La pression de la demande sociale
et les ambiguïtés intrinsèques du TAL ont pour conséquence l’apparition de cycles
d’abandon-reprise/oubli-redécouverte de méthodes qui vont en s’accélérant7. Il
arrive même que l’alternance des modèles soit tellement rapide qu’on assiste à
de véritables courts-circuits8. Le brouillage introduit par ce rythme d’alternance
se trouve renforcé par les nouvelles alliances entre partisans des méthodes com-
putationnelles et partisans des méthodes probabilistes qui tendent à neutrali-
ser les divergences théoriques au profit des applications pratiques. Toutefois il
est difficile de savoir si cette accélération, qui est à l’œuvre dans la société tout
entière, détermine véritablement un nouveau mode d’historicité, « une nouvelle
manière d’être au temps » (Hartog 2003), et si le mode d’historicisation régi par
l’exigence de progrès à l’œuvre dans les sciences depuis le xixe siècle (Auroux
2007) se trouve sur le point de laisser la place à un nouveau mode fondé sur le
culte du présent. Abolissant tout passé et par la même annulant toute projec-
tion possible, ce nouveau mode d’historicisation, caractéristique du TAL mais
aussi de l’ensemble des sciences du langage, serait davantage celui du développe-
ment technologique et de l’objet industriel consommable que celui de la science.
Enfin il est probable que de nouveaux développements technologiques
amorcent encore d’autres mouvements. Par exemple, il n’est pas impossible que
l’utilisation massive de l’Internet et de grandes masses de données ne puisse pas
être considérée comme un nouveau pic dans l’automatisation du langage. Ce nou-
veau tournant, ou « dataturn », apparu en informatique et en intelligence artifi-
cielle dans les années 1990, lorsque le traitement de grandes masses de données
est devenu possible, s’est étendu au TAL avec la linguistique de corpus. Contrai-
rement à celle-ci, qui se fonde sur des hypothèses, des objets et des structures lin-

7 Cette alternance de cycles courts, le caractère éphémère des recherches et leurs effets dom-
mageables pour l’accumulation des connaissances avaient été signalés par certains chercheurs
dès les années 1990 (voir notamment Victorri 1995).
8 Le 23 juin 2009, lors de la cérémonie du cinquantenaire de l’ATALA, un représentant allemand
du TAL annonce que le courant actuel dominant en TA est fondé sur les méthodes statistiques,
alors qu’au même moment, le représentant des États-Unis annonce que c’est la méthode rule-
based (fondée sur des règles) qui a le vent en poupe, sans d’ailleurs que l’un ou l’autre fasse
référence à la déclaration de l’autre.

182 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
guistiques, le statut linguistique ou non des données pour le « data turn » n’est
pas un enjeu pertinent. Les méthodes traitent indifféremment des tableaux, des
chiffres, des « sacs » de mots, voire des parties d’arbres syntaxiques, comme des
données. Leur seule caractéristique commune est d’être organisées en couples
d’attributs-valeurs. Les méthodes elles-mêmes ne sont pas distinguées : même
si les méthodes statistiques et probabilistes sont dominantes, des méthodes
symboliques sont aussi utilisées et on assiste de plus en plus à l’hybridation des
méthodes. Dans une telle configuration on peut se demander si la linguistique
occupe toujours une place et laquelle. Est-elle de pur outillage, quand il s’agit
d’avoir recours à la linguistique comme simple ressource ? Dans ce cas la linguis-
tique serait-elle purement et simplement instrumentalisée au service de tâches
pratiques ? De nouvelles questions pour la connaissance des langues et du lan-
gage peuvent-elles émerger à partir de ce type de traitement ?
Sur le temps long, il n’est pas impossible que ce nouveau tournant puisse appa-
raître anecdotique, et que son impact sur les sciences du langage s’avère insigni-
fiant. Il est difficile de caractériser entièrement la troisième révolution technolo-
gique des sciences du langage comme d’en tirer toutes les conséquences. Nous
sommes ici devant une des limites qu’impose l’histoire du récent, l’histoire du
présent.

Conclusion générale 183


Bibliographie

Aarts Jan and Meijs Willem éd., 1984, Corpus Linguistics : Recent Developments in the Use of
Computer Corpora in English Language Research, Amsterdam, Rodopi.
Abella Alex, 2008, Soldiers of Reason : the Rand Corporation and the Rise of the American
Empire, Orlando, Harcourt Inc.
Ajdukiewicz Kaziemirz, 1935, « Die syntaktische Konnexität », Studia philosophica 1, p. 1-27.
Akhmanova O. S, Mel’čuk I. A., Frumkina R. M. et Paducheva E. V., 1963, Exact Methods in
Linguistic Research, University of California Press.
Anderson, Stephen R., 1985, Phonology in the Twentieth Century, Chicago, University of
Chicago Press.
Andreev Nicolai D., 1967, « The intermediary language as the focal point of machine transla-
tion », Machine Translation, A. D. Booth éd., Amsterdam, North Holland Publishing
Company, p. 3-27.
Archaimbault Sylvie, 2001, « Les approches normatives en Russie », History of the Language
Sciences – An International Handbook on the Evolution of the Study of Language from
the Beginnings to the Present, E. F. K. Kœrner, S. Auroux, H. J. Niederehe, K. Versteegh
éd., Berlin, Walter de Gruyter, Handbooks of Linguistics and Communication Sciences,
vol. 18/1, p. 901-907.
 — et Léon Jacqueline, 1997, « La langue intermédiaire dans la traduction automatique
en URSS (1954-1960). Filiations et modèles », Histoire Épistémologie Langage, no 19-2,
p. 105-132.
Auroux Sylvain, 1982, « Compte rendu de Peter Schmitter Untersuchungen zur Historio­
graphie der Linguistik », Bulletin de la SHESL, no 9, p. 38-44.
 — 1987, « Histoire des sciences et entropie des systèmes scientifiques. Les horizons
de retrospection », Zur Theorie und Methode der Geschichtsschreibung der Linguistik,
P. ­Schmitter éd., Tübingen, Narr, p. 20-42.
 — 1994, La révolution technologique de la grammatisation, Liège, Mardaga.

Bi b li o g r a p h i e 185
 — 1995, « L’histoire des sciences du langage et le paradoxe historiographique », Le Gré
des Langues, no 8, p. 40-63.
 — 1996, La philosophie du langage, en collaboration avec J. Deschamps et D. Kouloughli,
Paris, PUF.
 — 1997, « La réalité de l’hyperlangue », Langages, no 127, p. 110-121.
 — 1998, La raison, le langage et les normes, Paris, PUF.
 — 2007, La question de l’origine des langues suivi de L’historicité des sciences, Paris, PUF.
 — 2009, « Mathématisation de la linguistique et nature du langage », HEL, no 31-1, p. 5-45.
Bar-Hillel Yehoshua, 1953a, « The present state of research on mechanical translation »,
American Documentation, no 2, p. 229-236.
 — 1953b, « A quasi-arithmetic notation for syntactic description », Language, no 29, p. 47-58.
 — 1955, « Idioms », Machine Translation of Languages, 14 Essays, W. N. Locke et A. D. Booth
éd., Cambridge MA, MIT/New York, John Wiley, p. 183-193.
 — 1960, « The present status of automatic translation of languages », Advances in Comput-
ers vol. 1, F. C. Alt éd., Academic Press, N.Y., Londres, p. 91-141.
 — 1964, Language and Information, Reading, Mass., Addison-Wesley.
Barsky Robert, 2011, Zellig Harris. From American Linguistics to Socialist Zionism, Cambridge
Mass., MIT Press.
Belevitch Vitold, 1956, Langage des machines et langage humain, Bruxelles, Office de publicité.
Benveniste Émile, 1966, « Formes nouvelles de la composition nominale », Bulletin de la
société de linguistique, no 61, p. 82-95.
 — 1967, « Fondements syntaxiques de la composition nominale », Bulletin de la société de
linguistique, no 62, p. 15-31.
Biggs Bruce, 1957, « Testing intelligibility among Yuman languages », IJAL, vol. 23-2, p. 57-62.
Blanckært Claude, 2006, « La discipline en perspective. Le système des sciences à l’heure
du spécialisme (xixe-xxe siècles) », Qu’est qu’une discipline ?, J. Boutier, J.-C. Passeron,
J. Revel dir., Paris, Éditions de l’EHESS, p. 117-148.
Bloomfield Leonard, 1914, An Introduction to the Study of Language, Londres, G. Bel and
sons ltd.
 — 1926, « A set of postulates for the science of language », Language, no 2, p. 153-164.
 — 1933, Language, New York, H. Holt and Company. Traduction française Janick Gazio,
Le langage, Paris, Payot, 1970.
 — 1942, Outline Guide for the Practical Study of Foreign Languages, Linguistic Society of
America.
Booth Andrew D. et Richens, 1955, « Some methods of mechanized translation », Machine
Translation of Languages, 14 essays, W. N. Locke et A. D. Booth éd., Cambridge MA,
MIT/New York, John Wiley, p. 24-46.
 — 1958, « The history and recent progress of machine translation », Aspects of translation,
Booth et al. éd., Londres, Secker and Warburg, p. 88-104.
Bouillut Jean, 1967, « Problèmes et méthodes dans le traitement de l’information documen-
taire : application à la psychologie sociale », Bulletin de psychologie, no 20, p. 1191-1206.
Braffort Paul et Jung J., 1956, Classification alphanumérique pour le fichier matières du service

186 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
de documentation du CEA, Rapport CEA, no 568 Saclay.
Brown Keith et Law Vivien éd., 2002, Linguistics in Britain : Personal Histories, Oxford, Pub-
lications of the Philological Society.
Cantineau Jean, 1954, « Compte rendu de Zellig S. Harris Methods in Structural Linguistics
1951 », Bulletin de la société de linguistique, no 46-2, p. 4-9.
Carnap Rudolf et Bar-Hillel Yehoshua, 1952, « An outline of a theory of semantic informa-
tion », Massachussetts Institute of Technology, Reseach Laboratory of Electronics,
Technical Report no 247, 27 oct. 1952. Réimp. dans Bar-Hillel, 1964, p. 221-274.
Cartwright Dorwin P., 1963, « L’analyse du matériel qualitatif », Les méthodes de recherche
dans les sciences sociales, t. 2, traduction française Léon Festinger et Daniel Katz dir.,
Paris, PUF, p. 481-537).
Cerquiglini Bernard, 1998, « Le Trésor de la langue française », Modèles linguistiques, no 19-2,
p. 31-36.
Chandioux John et Guéraud Marie-France, 1981, « METEO : un système à l’épreuve du
temps », Méta, no 26-1, p. 18-22.
Chauveau Geneviève, 1971, « Problèmes théoriques et méthodologiques en analyse du dis-
cours », Langue française, no 9, p. 6-21.
Cherry Colin, 1957, On Human Communication, Cambridge, MIT Press.
 — Halle Morris et Jakobson Roman, 1953, « Toward the logical description of languages
in their phonemic aspect », Language, no 29, p. 34-46.
Chevalier Jean-Claude, 1990, « La linguistique au CNRS 1939-1949 », Cahiers pour l’histoire
du CNRS, no 9, p. 39-80.
 — 2006, Combats pour la linguistique, de Martinet à Kristeva, Lyon, ENS Éditions.
Chiss Jean-Louis et Puech Christian, 1999, Le langage et ses disciplines, xixe-xxe siècles, Paris
et Bruxelles, Éditions Duculot.
Chomsky Noam, 1955, The Logical Structure of Linguistic Theory, MIT [document ronéoté].
 — 1956, « Three models for the description of language », IRE (Institute of Radio Engineers)
Transactions on Information Theory, IT-3, p. 113-124. Traduction française dans Langages,
no 9, 1968, p. 51-76.
 — 1957, Syntactic Structures, Londres, Mouton.
 — 1962, « Explanatory models in linguistic », Logic, Methodology and Philosophy of Science,
Ernest Nagel, Patrick Suppes et Alfred Tarski éd., Stanford, Stanford University Press ,
p. 528-50. Traduction française « Modèles explicatifs en linguistique », Textes pour une
psycholinguistique, J. Mehler et Georges Noizet dir., 1974, Paris/La Haye, Mouton.
 — et Schützenberger Marcel-Paul, 1963, « The algebraic theory of context-free languages »,
Computer Programming and Formal Systems (= Studies in Logic and the Foundations of
Mathematics, 14), Paul Braffort et David Hirschberg éd., Amsterdam, North-Holland
Publ. Co., p. 118-161.
 — et Miller George A., 1963, « Introduction to the formal analysis of natural languages »,
Handbook of Mathematical Psychology, vol. 2, D. Luce, R. Bush et E. Galanter éd., New
York, Addison-Wiley, p. 269-321.
 — 1964, « The logical basis of linguistic theory », Proceedings of the 9th International

Bi b li o g r a p h i e 187
­Congress of Linguists 1962, H. Lunt éd., La Haye, Mouton, p. 914-978.
 — 2002, On Nature and Language, Cambridge, Cambridge University Press.
Climenson W. D., Hardwick N. H., Jacobson S. N., 1961, « Automatic syntax analysis in
machine indexing and abstracting », American Documentation, no 12-3, p. 178-183.
Cohen Marcel, 1932, « Compte rendu de George Kingsley Zipf Selected Studies of the Principle
of Relative Frequency in Language, Cambridge, Mass., Harvard University Press, 1932 »,
Bulletin de la société de linguistique, no 33, p. 10-11.
 — 1949, « Sur la statistique linguistique », Conférences de l’institut de linguistique de
l’université de Paris, Paris, Klincksieck, p. 7-16.
 — 1950, « Compte rendu de George Kingsley Zipf Human Behavior and the Principle of
Least Effort. An Introduction to Human Ecology, Cambridge, Mass., Harvard University
Press, 1949 », Bulletin de la société de linguistique, vol. 46, p. 12-13.
 — 1962, « Compte rendu de Chomsky Syntactic Structures 1957 », L’année sociologique,
p. 528-530.
Conway Flo et Siegelman Jim, 2005, Dark Hero of the Information Age. In Search of Norbert
Wiener the Father of Cybernetics, New York, Basic Books.
Cori Marcel et Marandin Jean-Marie, 2001, « La linguistique au contact de l’informatique :
de la construction de grammaire aux grammaires de construction », Histoire Épisté-
mologie Langage, no 23-1, p. 49-79.
 — et Léon Jacqueline, 2002, « La constitution du TAL. Étude historique des dénomina-
tions et des concepts », Traitement Automatique des Langues, no 43-3, p. 21-55.
 — et David Sophie, 2008, « Les corpus fondent-ils une nouvelle linguistique ? », Langages,
no 171, p. 111-129.
Coste Daniel, 2012, « À propos d’un manuel français de linguistique appliquée », Les dossiers
d’HEL : « La disciplinarisation des savoirs linguistiques. Histoire et Épistémologie »,
no 5 [supplément électronique à la revue Histoire Épistémologie Langage], Chiss et al. éd.,
Paris, SHESL. En ligne : [http://htl.linguist.univ-paris-diderot.fr/num5/num5.html],
consulté le 26 janvier 2015.
Courtois Blandine et Silberztein Max éd., 1990, Dictionnaires électroniques du français, Langue
française, no 87.
Cowan J. Milton, 1991, « American linguistics in peace and at war », First Person Singular II,
E. F. K. Kœrner éd., Amsterdam, Benjamins (SiHoLS 61), p. 69-82.
 — et Graves M., 1986 [1976], « Report of the first year’s operation of the Intensive Lan-
guage Program of the American Council of Learned Societies 1941-1942 », Notes on the
Development of the Linguistic Society of America, 1924-1950, M. Joos éd., p. 97-113.
Coyaud Maurice, 1966, Introduction à l’étude des langages documentaires, Paris, Klincksieck.
Cram David, 1985, « Universal language scheme in 17th century Britain », Histoire Épisté-
mologie Langage, no 7-2, p. 35-44.
Cros René-Charles, Gardin Jean-Claude et Lévy Francis, 1964, L’automatisation des recherches
documentaires. Un modèle général. Le SYNTOL, Paris, Gauthier-Villars.
Dahan Amy et Pestre Dominique éd., 2004, Les sciences pour la guerre (1940-1960), Paris,
Éditions de l’EHESS.

188 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Daladier Anne, 1990, « Aspects constructifs des grammaires de Harris », Langages, no 99,
p. 57-84.
 — 2003, « Compte rendu de Nevin Bruce E. et Johnson éd, 2002, The Legacy of Zellig Harris,
Amsterdam, Benjamins », Bulletin de la société de linguistique, no 98-2, p. 50-61.
Darmesteter Arsène, 1967 [1875], Traité de la formation des mots composés dans la langue
française comparée aux autres langues romanes et au latin, Paris, Honoré Champion.
Davies Alan, 1990, « Obituary of Stephen Pit Corder », BAAL Newsletter 36, Summer 1990.
Davis Boyd H. et O’Cain Raymond K., 1980, First Person Singular, Amsterdam, Benjamins
(SiHoLS 21).
Delavenay Émile, 1959, La machine à traduire, Paris, PUF (Que sais-je ?). Traduction anglaise
An Introduction to Machine Translation, Londres, Thames and Hudson, 1960.
Desclés Jean-Pierre et Fuchs Catherine, 1969, « Le séminaire international de linguistique
formelle », TA Informations, 1969-1, p. 1-5.
Dosse François, 1991, Histoire du Structuralisme. I. Le champ du signe 1945-1966, Paris, La
Découverte.
Dostert Leon, 1954, « Pedagogical concepts for the use of certain audio aids in language
teaching », Monograph Series on Languages and Linguistics, no 6, p. 1-6.
 — 1955, « The Georgetown-IBM experiment », Machine Translation of Languages, 14 essays,
W. N. Locke et A. D. Booth éd., Cambridge MA, MIT/New York, John Wiley, p. 124-135.
 — 1957, « Brief review of the history of machine translation research », Monograph Series
on Languages and Linguistics, no 10, p. 3-10.
Dubois Jean, 1960, « Les notions d’unité sémantique complexe et de neutralisation dans
le lexique », Cahiers de lexicologie, no 2, p. 62-66.
 — 1962, Le vocabulaire politique et social en France de 1869 à 1872. À travers les œuvres des
écrivains, les revues et les journaux, Paris, Larousse.
 — 1964a, « La traduction de l’aspect et du temps dans le code français (structure du
verbe) », Le français moderne, no 32-1, p. 1-26.
 — 1964b, « Compte rendu de Roman Jakobson Essais de linguistique générale aux Éditions
de Minuit », Le français moderne, no 32-4, p. 303-307.
 — 1965, Grammaire structurale du français, nom et pronom, Paris, Larousse.
 — 1967, Grammaire structurale du français, le verbe, Paris, Larousse.
 — 1969a, Grammaire structurale du français, la phrase et les transformations, Paris, Larousse.
 — 1969b, « Lexicologie et analyse d’énoncé », Cahiers de lexicologie, no 15, p. 115-126.
Dufour Françoise et Rosier Laurence éd., 2012, « Analyses du discours à la française : con-
tinuités et reconfigurations », Langage et société, no 140.
Dupuy Jean-Pierre, 1994, Aux origines des sciences cognitives, Paris, La Découverte.
Fehr Johannes, 2000, « Visible speech and linguistic Insight », Shifting Boundaries of the
Real, Making the Invisible Visible, H. Nowotny et M. Weiss éd., Zürich, Hochschulverlag
AG an der ETH, p. 31-47.
 — 2003, « Interceptions et interférences : la notion de “code” entre cryptologie, télé-
communications et les sciences du langage », History of Linguistics 1999, S. Auroux éd.,
Amsterdam, Benjamins (SiHoLS 99), p. 363-372.

Bi b li o g r a p h i e 189
Ferguson Charles, 1959, « Selected readings in applied linguistics », The Linguistic Reporter.
Supplement, no 2.
Firth John Rupert, 1930, Speech, Londres, Benn’s Sixpenny Library.
 — 1957, Papers in Linguistics (1934-1951), Oxford, Oxford University Press.
 — 1957 [1935], « The technique of semantics », Papers in Linguistics (1934-1951), Oxford,
Oxford University Press, p. 7-33.
 — 1957 [1936], « Alphabets and phonology in India and Burma », Papers in Linguistics
(1934-1951), Oxford, Oxford University Press, p. 54-75.
 — 1957 [1950a], « Personality and language in society », Papers in Linguistics (1934-1951),
Oxford, Oxford University Press, p. 177-189.
 — 1957 [1950b], « Improved techniques in palatography and kymography », Papers in
Linguistics (1934-1951), Oxford, Oxford University Press, p. 173-176.
 — 1968 [1955], « Structural linguistics », Selected papers of J. R. Firth (1952-59), F. R. Palmer
éd., Londres/Harlow, Longmans, Green and co ltd., p. 35-52.
 — 1968 [1956], « Descriptive linguistics and the study of English », Selected Papers of J. R. Firth
(1952-59), F. R. Palmer éd., Londres/Harlow, Longmans, Green and co ltd., p. 96-113.
 — 1968 [1957], « A synopsis of linguistic theory 1930-1955 », Selected Papers of J. R. Firth
(1952-59), F. R. Palmer éd., Londres/Harlow, Longmans, Green and co ltd., p. 168-205.
Fischer David H., 1970, Historians’ Fallacies. Towards a Logic of Historical Thought, New York,
Harper and Row Publishers.
Fortun Michael et Schweber Sylvan S., 1993, « Scientists and the legacy of World War II :
the case of operations research (OR) », Social Studies of Science, no 23, p. 595-642.
Fries Charles Carpenter, 1927, The Teaching of the English Language, New York, Thos Nelson
and Sons.
 — 1940, American English Grammar, the Grammatical Structure of Present-Day American
English with Especial Reference to Social Differences or Class Dialects, New York/Londres,
Appleton-century Company.
 — 1945, Teaching and Learning English as a Foreign Language, University of Michigan Press.
 — 1949, « The Chicago investigation », Language Learning, no 23, p. 89-99.
 — 1961, « The Bloomfield “school” », dans Trends in European and American Linguistics 1930-
1960, C. Mohrmann, A. Sommerfelt et J. Whatmough éd, Utrecht, Spectrum, p. 196-224.
Fuchs Catherine, 1982, La paraphrase, Paris, PUF.
 — et Victorri Bernard, 1996, La polysémie, construction dynamique du sens, Paris, Hermès.
Gardin Jean-Claude, 1955, « Problèmes de la documentation », Diogène, no 11, p. 107-124.
 — 1956, Le fichier mécanographique de l’outillage : outils en métal de l’âge du bronze, des Balkans
à l’Indus, Beyrouth, Institut français d’archéologie.
 — 1959, « On the coding of geometrical shapes and other representations, with reference
to archaelogical documents », Proceedings of the International Conference of Scientific
Information, Washington DC 16-21 nov. 1958, National Academy of Sciences-National
Research Council, p. 75-87.
 — 1962, « Documentation sur cartes perforées et travaux sur ordinateurs dans les sciences
humaines », Revue internationale de documentation, vol. 29, no 3, p. 84-92.

190 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
 — éd., 1970, Archéologie et calculateurs, Paris,Éditions du CNRS.
 — 1974, Les analyses de discours, Neuchâtel, Delachaux et Niestlé.
 — et Jaulin Bernard éd., 1968, Calcul et formalisation dans les sciences de l’homme, Actes des
Journées internationales d’études sur les méthodes de calcul dans les sciences de l’homme,
Rome 4-8 juillet 1966, Unesco et MSH, Paris, Éditions du CNRS.
—, Lagrange Marie-Salomé, Martin Jean-Maurice, Molino Jean et Natali Johanna, 1981, La
logique du plausible, Essais d’épistémologie pratique, Paris, Éditions de la Maison des
sciences de l’homme.
Garvin Paul, 1967, « American Indian languages : a laboratory for linguistic methodology »,
Foundations of Language, no 3-3, p. 257-260.
Garvin Paul, 1968, « Machine translation today : the fulcrum approach and heuristics »,
Lingua, no 21, p. 162-182.
Girault Stéphanie et Victorri Bernard, 2009, « Linguistiques de corpus et mathématiques
du continu », Histoire Épistémologie Langage, no 31-1, p. 147-170.
Giroux Henry A., 2007, The University in chains : Confronting the Military-industrial-academic
Complex, Boulder Co., Paradigm Publishers.
Graves Mortimer, 1951, « Report on the annual round table meeting on linguistics and
language teaching », John De Francis éd., Monograph Series on Languages and Linguis-
tics, no 1, p. 1-45.
Gross Maurice, 1968, Grammaire transformationnelle du français. Syntaxe du verbe, Paris,
Larousse.
 — et Lentin André, 1967, Notions sur les grammaires formelles, Paris, Gauthier-Villars.
Guespin Louis, 1971, « Problématique des travaux sur le discours politique », Langages,
no 23, p. 3-24.
Guiraud Pierre, 1954, Les caractères statistiques du vocabulaire, Paris, PUF.
Gumperz John et Hymes Dell, 1972, Directions in Sociolinguistics : The Ethnography of Com-
munication, New York, Holt, Rinehart and Winston.
Habert Benoît, 2005, Instruments et ressources électroniques pour le français, Paris, Ophrys.
 — et Christian Jacquemin, 1993, « Noms composés, termes, dénominations complexes :
problématiques linguistiques et traitements automatiques », TAL, no 34-2, p. 5-43.
 — Nazarenko Adeline et Salem André, 1997, Les linguistiques de corpus, Paris, Armand
Colin et Masson.
Hall Robert A., 1991, « 165 Broadway – a crucial node in American structural linguistics »,
Historiographia Linguistica, no 18-1, p. 153-166.
Halliday M. A. K., 1966, « Lexis as a Linguistic Level », In Memory of J. R. Firth, C. E. Bazell,
J. C. Catford, M. A. K. Halliday et R. H. Robins éd., Londres, Longmans, p. 148-162.
 — 2002, The Collected Works of MAK Halliday vol. 1, Jonathan Webster éd., Londres, New
York, Continuum.
 — McIntosh Angus et Strevens Peter, 1964, The Linguistic Sciences and Language Teaching,
Londres, Longmans.
Harris Zellig Sabbettai, 1946, « From morpheme to utterance », Language, no 22-3, p. 161-183.
Traduction française dans Langages, no 9, 1968, p. 23-50.

Bi b li o g r a p h i e 191
 — 1951a, Methods in Structural Linguistics, Chicago, University of Chicago Press.
 — 1951b, « Review of Mandelbaum éd. 1949 Selected Writings of Edward Sapir in Language,
Culture and Personality », Language, no 27, p. 288-333.
 — 1952, « Discourse analysis », Language, no 28, p. 18-23. Traduction française Françoise
Dubois-Charlier, « Analyse du discours », Langages, no 13, 1969, p. 8-45.
 — 1954, « Transfer grammar », International Journal of American Linguistics, no 20-4, p. 259-270.
 — 1955, « From phoneme to morpheme », Language, no 31, p. 190-222.
 — 1957, « Co-occurrence and transformation in linguistic structure », Language, no 33,
p. 283-340.
 — 1959, « Linguistic transformations for information retrieval », Proceedings of the Interna-
tional Conference on Scientific Information, Washington DC 16-21 nov. 1958, Washington,
National Academy of Sciences, National Research Council, p. 937-950.
 — 1962a, String Analysis of Sentence Structure, La Haye, Mouton.
 — 1962b, « A language for international cooperation », Preventing World War III : Some
Proposals, Q. Wright et al. éd., New York, Simon and Schuster, p. 299-309.
 — 1963, Discourse Analysis Reprints, Papers on Formal Linguistics 2, La Haye, Mouton.
 — 1968, Mathematical Structures of Language, New York, John Wiley and Sons. Traduction
française par Catherine Fuchs, 1971, Structures mathématiques du langage, Monographies
de linguistique mathématique, 3, Paris, Dunod.
 — 1969, « The two systems of grammar : report and paraphrase »,Transformations and
Discourse Analysis Papers, 79, Philadelphia, University of Pennsylvania, p. 612-692. Réimp.
1970. Traduction française Danielle Leeman, 1973, « Les deux systèmes de grammaire :
Prédicat et paraphrase », Langages, no 29, p. 55-81.
 — 1970 « Linguistic transformations for information retrieval », Papers in Structural and
Transformational Linguistics [1959], p. 458-471.
 — 1970, Papers in Structural and Transformational Linguistics, Dordrecht, D. Reidel.
 — 1988, Language and Information, New York, Columbia University Press.
 — 1991, A Theory of Language and Information : A Mathematical Approach, Oxford et New
York, Clarendon Press.
 — et Charles F. Vœgelin, 1975 [1939], Lowie Robert H. Hidatsa Texts ; with Grammatical
Notes and Phonograph Transcriptions, New York, AMS Press.
Hartley R. V. L., 1928, « Transmission of information », Bell System Technical Journal, no 7,
p. 535-563.
Hartog François, 2003, Régimes d’historicité. Présentisme et expériences du temps, Paris, Seuil.
Harwood F. W., 1955, « Axiomatic syntax. The construction and evaluation of a syntactic
calculus », Language, no 31-3, p. 409-413.
Hays David G., 1964, « Dependency theory : A formalism and some observations », Lan-
guage, no 40-4, p. 511-525.
Heims Steve J., 1993, Constructing a Social Science for Postwar America : The Cybernetics Group,
1946-1953, Cambridge Mass., MIT Press.
Henry Paul, 1967, « Analyse de contenu, connaissances scientifiques et langage documen-
taire ; questions méthodologiques », Bulletin du CERP, no 16-3, p. 245-263.

192 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Hickerson Harold, Turner Glen D. et Hickerson Nancy P., 1952, « Testing procedures
for estimating transfer of information among Iroquois dialects and languages », IJAL,
vol. 18-1, p. 1-8.
Hill Archibald A., 1964, « History of the linguistic institute », Bulletin of the Indiana Uni-
versity Linguistic Institute.
 — 1979, « Martin Joos », Language, no 55-3, p. 665-669.
Hockett, Charles F., 1952, « Report on the 3rd annual round table meeting on linguistics
and language teaching (Salvatore J. Castiglione éd.) », Monograph Series on Languages
and Linguistics, no 2, p. 3-10.
 — 1953, « Review : The Mathematical Theory of Communication by Claude L. Shannon and
Warren Weaver », Language, no 29-1, p. 69-93.
 — 1954, « Translation via immediate constituents », International Journal of American
Linguistics, no 20-4, p. 313-315.
 — 1958, A Course in Modern Linguistics, New York, The Macmillan Company.
 — 1968, The State of the Art, La Haye, Mouton.
 — et Ascher Robert, 1964, « The human revolution », Current Anthropology 5, p. 135.
Howatt APR, 2004 [1984], History of English Language Teaching, Oxford University Press.
Hutchins William John, 1986, Machine Translation, Past, Present, Future, Chichester, Ellis
Horwood.
 — 1995, « “The whisky was invisible”, or persistent myths of MT », MT News International,
no 11, p. 17-18.
 — 1996, « ALPAC : the (in)famous report », MT News International, no 4, p. 9-12.
 — 1997, « From first conception to first demonstration : the nascent years of machine
translation, 1947–1954. A chronology », Machine Translation, no 12-3, p. 192-252.
 — éd., 2000a, Early Years in Machine Translation, Amsterdam, Benjamins (SiHoLS 97).
 — 2000b, « Gilbert W. King and the IBM-USAF translator », dans W. J. Hutchins éd.,
Early Years in Machine Translation, Amsterdam, Benjamins (SiHoLS 97), p. 171-176.
Hymes Dell, 1962, « The ethnography of speaking », Anthropology and Human Behaviour,
T. Gladwin et W. C. Sturtevant éd., Washington DC, Anthropology Society of Wash-
ington.
 — et Fought John, 1981, American Structuralism, La Haye, Paris, New York, Mouton Publishers.
Jakobson Roman, 1958, « Typological studies and their contribution to historical compara-
tive linguistics », Actes du 8e Congrès international des linguistes, Eva Sivertsen éd., Oslo,
Presses universitaires d’Oslo, p. 17-35.
 — 1971, « Boas’view of grammatical meaning » [1959], Selected Writings II, s-Gravenhage,
Mouton, p. 489-496. Traduction française « La notion de signification grammaticale
selon Boas », Essais de linguistique générale, Paris, Seuil, 1963, p. 197-206.
 — 1971, « Linguistics and communication theory » [1961], Selected Writings II, s-Graven-
hage, Mouton, p. 570-579. Traduction française « Linguistique et théorie de la com-
munication », Essais de linguistique générale, Paris, Seuil, 1963, p. 87-100.
 — 1963, « Observations sur le classement phonologique des consonnes » [1938], Essais
de linguistique générale, Paris, Seuil, p. 123-130.

Bi b li o g r a p h i e 193
 — 1963, « Le langage commun des linguistes et des anthropologues » [1953], Essais de
linguistique générale, Paris, Seuil, p. 25-42.
 —, Fant C. Gunnar et Morris Halle, 1952, Preliminaries to Speech Analysis. The Distinctive
Features and their Correlates, MIT Acoustic Laboratory, Technical report, no 13.
 — et Morris Halle, 1956, Fundamentals of Language, La Haye, Mouton.
Joos Martin, 1942, « Statistical patterns in Gothic phonology », Language, no 18-1, p. 33-38.
 — 1948, Acoustic Phonetics, Language Monograph, no 23.
 — 1951, « Report on the 2nd annual round table meeting on linguistics and language teach-
ing ( John De Francis éd.) », Monograph Series on Languages and Linguistics, no 1.
 — 1956, « Review of Machine translation of languages : Fourteen essays, William N. Locke
et A. Donald Booth éd. », Language, no 32-2, p. 293-298.
 — 1957, Readings in Linguistics. The Development of Descriptive Linguistics in America 1925-
1956, Chicago, University of Chicago Press.
 — 1986, Notes on the Development of the Linguistic Society of America, 1924-1950 [1976], Ithaca,
NY, Linguistica.
Joseph John E., 2002, From Whitney to Chomsky. Essays in the History of American Linguistics,
Amsterdam, Benjamins (SiHoLS 103).
 — 2003, « Rethinking linguistic creativity », dans Rethinking Linguistics, Davies H. Hayley,
Taylor Talbot éd, Londres/New York, Routledge Curzon, p. 121-150.
Josselson Henry H., 1971, « Automatic translation of languages since 1960 : a linguist’s
view », Advances in Computers, no 11, p. 1-58.
Kaplan Robert B. éd., 2002, Oxford Handbook of Applied Linguistics, Oxford, Oxford Uni-
versity Press.
Kent Allen éd., 1961, Information Retrieval and Machine Translation, New York/Londres,
Interscience Publishers.
Kertész Andras et Csilla Rákosi, 2012, Data and Evidence in Linguistics. A Plausible Argumen-
tation Model, Cambridge, CUP.
Kibbee Douglas éd., 2010, Chomskyan R(e)volutions, Amsterdam, Benjamins.
Kittredge Richard et John Lehrberger éd., 1982, Studies of Language in Restricted Semantic
Domains, Berlin/New York, Walter de Gruyter.
Kœrner Konrad éd., 1991, First Person Singular II, Amsterdam, Benjamins (SiHoLS 61).
Koutsoudas Andreas, 1956, « Report from the International Conference on Mechanical
Translation (MIT, 20 octobre 1956) », Machine Translation, vol. 3-2, p. 34.
Kucera Henry and W. Nelson Francis, 1967, Computational Analysis of Present Day American
English, Providence, Brown University Press.
Kulagina Olga S. et Mel’čuk Igor A., 1967, « Automatic translation : some theoritical aspects
and the design of a translation system », Machine Translation, A. D. Booth éd., Amster-
dam, North Holland Publishing Company, p. 137-173.
Lamb Sidney M., 1962, « On the mechanization of syntactic analysis », Proceedings of the
International Conference on Machine Translation and Applied Language Analysis, Ted-
dington 1961, Londres, HMSO, p. 673-686.
1966, Language and Machines. Computers in Translation and Linguistics, A Report by the

194 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Automatic Language Processing Advisory Committee (ALPAC), National Academy of
Sciences, National Research Council.
Le Roux Ronan, 2009, « Lévi-Strauss, une réception paradoxale de la cybernétique » (avec
une réponse de C. Lévi-Strauss), L’Homme, Éditions EHESS, no 189, p. 165-190.
 — 2013, « Structuralisme(s) et cybernétique(s). Lévi-Strauss, Lacan et les mathé-
maticiens », Les dossiers d’HEL (Histoire Épistémologie Langage), no 3 Les structuralismes
linguistiques. Problèmes d’historiographie comparée, Christian Puech éd. En ligne : [http://
htl.linguist.univ-paris-diderot.fr/num3/num3.htm], consulté le 26 janvier 2015.
Lecerf Yves, 1960, « Programme des conflits, modèle des conflits », La traduction automa-
tique, no 4-5, p. 17-36.
Leech Geoffrey, 1992, « Corpora and theories of linguistic performance », Directions in
Corpus Linguistics. Proceedings of Nobel Symposium, 4-8 August 1991, J. Svartvik éd., Berlin/
New York, Mouton de Gruyter, p. 105-122.
Léon Jacqueline et Torres-Lima Maria Emilia, 1979, « Études de certains aspects du fonc-
tionnement d’AAD69 : traitement des syntagmes nominaux en expressions figées et
segmentation d’un corpus en séquences discursives autonomes », T. A. Informations,
no 20-1, p. 25-46.
Léon Jacqueline, 1992, « De la traduction automatique à la linguistique computationnelle.
Contribution à une chronologie des années 1959-1965 », Traitement automatique des
langues, no 33-1, 2, p. 25-44.
 — 1999, « La mécanisation du dictionnaire dans les premières expériences de traduction
automatique (1948-1960) », History of Linguistics 1996, vol. 2, D. Cram, A. Linn, E. Nowak
éd., Amsterdam, Benjamins, p. 331-340.
 — 2000, « De la traduction automatique à l’automatisation de la traduction. Parcours
historique », Bulag, no 25, p. 5-21.
 — 2001, « Conceptions du mot et débuts de la traduction automatique », Histoire Épisté-
mologie Langage, no 23-1, p. 81-106.
 — 2004, « Lexies, synapsies, synthèmes : le renouveau des études lexicales en France au
début des années 1960 », History of Linguistics in Texts and Concepts.Geschichte der
Sprachwissenschaft in Texten und Konzeptionen, Gerda Hassler éd., Münster, Nodus
Publikationen, p. 405-418.
 — 2007a, « From universal languages to intermediary languages in machine translation :
the work of the Cambridge Language Research Unit (1955-1970) », History of Linguistics
2002, E. Guimarães et D. L. Pessoa de Barros éd, Amsterdam, Benjamins (SiHoLS 110),
p. 123-132.
 — 2007b, « From linguistic events and restricted languages to registers. Firthian legacy and
corpus linguistics », The Bulletin of the Henry Sweet Society for the History of Linguistic
Ideas, no 49, p. 5-26.
 — 2007c, « Meaning by collocation. The Firthian filiation of corpus linguistics », History
of Linguistics 2005, D. Kibbee éd, Amsterdam, Benjamins (SiHoLS 112), p. 404-415.
 — 2008a, « Théorie de l’information, information et linguistes français dans les années 1960.
Un exemple de transfert entre mathématiques et sciences du langage », Actes du Congrès

Bi b li o g r a p h i e 195
mondial de linguistique française, J. Durand, B. Habert, B. Laks éd, Paris, 9-12 juillet 2008,
p. 923-938. En ligne : [http://dx.doi.org/10.1051/cmlf08142], consulté le 26 janvier 2015.
 — 2008b, « Aux sources de la “corpus linguistics” : Firth et la London School », Construc-
tion des faits en linguistique : la place des corpus, Cori M., David S., Léon J. éd., Langages,
no 171, p. 12-33.
 — 2008c, « Empirical traditions of computer-based methods. Firth’s restricted languages and
Harris’ sublanguages », Beiträge zur Geschichte der Sprachwissenschaft, no 18-2, p. 259-274.
 — 2010a, « AAD69. Archéologie d’une étrange machine », Semen, no 29, p. 79-98.
 — 2010b, « British empiricism and transformational grammar : a current debate », Chom-
skyan (R)evolutions, Douglas Kibbee éd., Amsterdam, Benjamins, p. 421-442.
 — 2010c, « Automatisation-mathématisation de la linguistique en France dans les années
1960. Un cas de réception externe », Actes du 2e Congrès mondial de linguistique française,
F. Neveu, V. Muni-Toke, J. Durand, T. Kingler, L. Mondada, S. Prévost dir., Paris, EDP Sci-
ences, p. 825-838. En ligne : [www.linguistiquefrancaise.org] [DOI10.1051/cmlf 2010158].
 — 2011a, « S. Z. Harris and the semantic turn of mathematical information theory », History
of Linguistics 2008. Selected Papers from the EleventhInternational Conference on the History
of Language Sciences, 28 August-2 September 2008 Postdam, G. Hassler éd., Amsterdam,
Benjamins (SiHoLS 115), p. 449-458.
 — 2011b, « De la linguistique descriptive à la linguistique appliquée dans la tradition bri-
tannique. Sweet, Firth et Halliday », Histoire Épistémologie Langage, no 33-1, p. 69-81.
 — 2013a, « Quand usage et prescription sont fondés sur la description systématique de
l’usage : Randolph Quirk et le “Survey of English Usage” », Bon usage et variation socio-
linguistique. Perspectives diachroniques et traditions nationales, Wendy Ayres-Bennett et
Magali Seijido éd., Lyon, ENS Éditions, p. 161-170.
 — 2013b, « Review of Barsky, Robert, 2011, Zellig Harris. From American Linguistics to
Socialist Zionism Cambridge Mass, MIT », History and Language, no 56-2, p. 119-122.
Leslie Stuart W., 1993, The Cold War and American Science : the Military-Industrial-Academic
Complex at MIT and Standford, New York, Columbia University Press.
Linn Andrew, 2008, « The birth of applied linguistics : the Anglo-Scandinavian school as
“discourse community” » Historiographia Linguistica, no 35-3, p. 342-384.
—, Candel Danielle et Léon Jacqueline éd., 2011, « Disciplinarisation de la linguistique
appliquée », Histoire Épistémologie Langage, no 33-1.
Linx, no 34-35, 1996, Lexique, syntaxe et analyse automatique des textes. Hommage à Jean Dubois,
Centre de recherches linguistiques de l’université Paris X-Nanterre.
Locke William N. et Booth Andrew D. éd., 1955, Machine Translation of Languages, 14 Essays,
Cambridge MA, MIT/New York, John Wiley.
Loffler-Laurian Anne-Marie, 1996, La traduction automatique, Lille, Septentrion.
Malinowski Bronislaw, 1923, « The problem of meaning in primitive languages », The Mean-
ing of Meaning, C. K. Ogden et I. A. Richards, Londres, Kegan Paul Supplement 1.
 — 1935, Coral Gardens and their Magic : The Language of Magic and Gardening vol II, Londres,
Allen and Unwin.
Mandelbrot Benoît, 1951, « Mécanique statistique et théorie de l’information », Comptes

196 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
rendus des séances de l’Académie des Sciences, t. 232, 30 avril 1951, p. 1 638-1 640, p. 2003-2005.
 — 1954a, « Structure formelle des textes et communication », Word, no 10-3, p. 1-27.
Mandelbrot Benoît, 1954b, « Compte rendu de l’ouvrage Pierre Guiraud 1954 Les caractères
statistiques du vocabulaire. Essai de méthodologie, Paris, PUF », Bulletin de la société de
linguistique, vol. 50, p. 16-21.
Marandin Jean-Marie, 1979, « Problèmes d’analyse du discours. Essai de description du
discours français sur la Chine », Langages, no 55, p. 17-88.
Markov Andrei A., 1913, « Exemple d’une étude statistique d’un texte extrait d’Eugène
Onéguine illustrant les probabilités liées », Bulletin de l’Académie impériale des sciences
de Saint-Pétersbourg, p. 153-162. Traduction française Comité d’action scientifique de
défense nationale [Archives HTAL].
Martinet André, 1952, « Function, structure and sound change », Word, no 8-1, p. 1-32.
 — 1955, Économie des changements phonétiques, Berne, Francke.
 — 1957c, « Substance phonique et traits distinctifs », Bulletin de la société de linguistique,
vol. 53, p. 72-85.
 — 1960, Élements de linguistique générale, Paris, Armand Colin.
 — 1967, « Syntagme et synthème », La linguistique, no 2, p. 1-14.
 — 1970, Élements de linguistique générale [1960], Paris, Armand Colin.
 — 1993, Mémoires d’un linguiste, Paris, Quai Voltaire.
 — 1957b, « Compte rendu de Vitold Belevitch Langage des machines et langage humain,
Paris, Hermann 1956 », Bulletin de la société de linguistique, vol. 53, p. 27-29.
 — 1957a, « Compte rendu de George A. Miller Langage et communication, Paris, PUF
1956 », Bulletin de la société de linguistique, vol. 53, p. 25-26.
Martin-Nielsen Janet, 2010, « “This war for men’s minds” : the birth of a human science in
Cold War America », History of the Human Sciences, p. 131-155.
Masterman Margaret, A. F. Parker-Rhodes, K. Sparck Jones, Martin Kay, E. B. May,
R. M. Needham, E. W. Bastin, C. Wordley, F. H. Ellis, R. McKinnon Wood, 1959, Essays
on and in Machine Translation by the Cambridge Language Research Unit, dedicated to
Yehoshua Bar-Hillel [non publié, Archives HTAL].
Matthews Peter H., 1999, « Obituary of Zellig Sabbettai Harris », Language, no 75-1, p. 112-119.
McIntosh Angus, Halliday M. A. K, 1966, Patterns of Language, Papers in General, Descriptive
and Applied Linguistics, Londres, Longmans.
Melby Alan, 1992, « The translator workstation », Computers in Translation, A practical
Appraisal, John Newton éd., Londres, Routledge, p. 147-165.
Mel’čuk Igor A., 1960, « K voprosu o grammatičeskom v jazyke-posrednike », Mašinnyj
Perevod i Prikladnaja Linguistika 4, p. 25-451. Traduction anglaise « The problem con-
cerning the “grammatical” in an intermediate language », JPRS/8026 (archives HTAL).
 — 1961, « Some problems of MT abroad, USSR », Reports at the Conference on Information
Processing, MT and Automatic Text Reading, Academy of Science, Institute of Scientific
Information, no 6, Moscou, p. 1-44. Traduction anglaise JPRS/13135, p. 1-75 (archives HTAL).
 — et Žholkovskij Aleksander K., 1970, « Sur la synthèse sémantique », T. A. Informations,
no 2, p. 1-85. Traduction du russe Problemy Kibernetiki 19, 1967, p. 177-238.

Bi b li o g r a p h i e 197
 — 1993, Cours de morphologie générale, vol. 1, Introduction et première partie : le mot, Presses
de l’université de Montréal, CNRS Éditions.
Micklesen Lew. R., 1956, « Form classes : structural linguistics and mechanical translation »,
For Roman Jakobson, Essays on the Occasion of his Sixtieth Birthday 11 Oct 1956, M. Halle,
H. G. Lunt, H. McLean , C. H. van Schooneveld éd., La Haye, Mouton, p. 344-352.
Miele Alfonse R. Colonel, 1960, « Armed forces have well-planned language program »,
The Linguistic Reporter, no 5-2, p. 1-2.
 — 1964, « United States Air Force Academy language program », The Linguistic Reporter,
no 6-2, p. 1-2.
Mildenberger Kenneth W., 1962, « The National Defense Education Act and linguistics »,
Monograph Series on Languages and Linguistics, no 13, p. 157-165.
Miller George A., 1956, Langage et communication [1951], Paris, PUF.
Mindell David, Segal Jérôme, Gerovitch Slava, 2003, « Cybernetics and information theory
in the United States, France and the Soviet Union », Science and Ideology : A Compara-
tive History, Mark Walker éd., Londres, Routledge, p. 66-95.
Moreau René, 1964, « Initiation à la méthode statistique en linguistique », Cahiers Vilfredo
Pareto, no 3, Genève, Librairie Droz.
Morgan Raleigh Jr., 1959, « Practical application of linguistics to language teaching », The
Linguistic Reporter, no 1-1, p. 4-5.
Moulton William G., 1961, « Linguistics and language teaching in the United States 1940-
1960 », Trends in European and American Linguistics 1930-1960, C. Mohrmann, A. Som-
merfelt et J. Whatmough éd., Utrecht/Anvers, Spectrum Publishers, p. 82-109.
Mounin Georges, 1961, « Compte rendu de Chomsky Syntactic Structures 1957 », Bulletin
de la société de linguistique, t. 56-2, p. 38.
 — 1963, Les problèmes théoriques de la traduction, Paris, Gallimard.
 — 1964, La machine à traduire. Histoire des problèmes linguistiques, La Haye, Mouton.
Murray Stephen O., 1993, Theory Groups and the Study of Language in North America, Amster-
dam, Benjamins (SiHoLS 69).
Nevin Bruce E. éd., 2002, The Legacy of Zellig Harris, Amsterdam, Benjamins.
 — 2009, « More concerning the roots of transformational generative grammar », Histo-
riographia Linguistica, no 36-2/3, p. 459-479.
Œttinger Anthony G., 1955, « The design of an automatic Russian-English technical dic-
tionary », Machine Translation of Languages, 14 essays, W. N. Locke et A. D. Booth éd.,
Cambridge MA, MIT/New York, John Wiley, p. 47-65.
Pagès Robert, 1959, « L’analyse codée, technique documentaire en psychologie sociale et en
sciences humaines : présentation et résumé de la grammaire », Chiffres, no 2, p. 102-122.
Panov Dimitri I., 1956, Avtomatičeskij perevod, Moscou, AN SSSR. Traduction anglaise 1960,
Automatic Translation, Oxford/New York, Pergamon Press Inc.
 — et Korolev L. N. éd., 1959, La machine à traduire de P. P. Trojanskij, Édition de l’Académie
des sciences de Moscou. Traduction française CASDN, no T/R/ -1059 [Archives HTAL].
 —, Liapunov A. A. et Mukhin I. S., 1956, « Avtomatizatsja perevoda s odnogo jazyka na
drugoi », Moscou, Académie des sciences. Traduction anglaise « Automatization of trans-

198 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
lation from one language to another », JPRS/DC-379, novembre 1958 (archives HTAL).
Partee Hall Barbara, 1978, Fundamentals of Mathematics for Linguistics, Dordrecht, D. Reidel
Publishing Company.
Pêcheux Michel, 1967a, « Analyse de contenu et théorie du discours », Bulletin du CERP,
no 16-3, p. 211-227.
 — 1967b, Analyse automatique du discours, document ronéoté novembre 1967.
 — 1968, « Vers une technique d’analyse de discours », Psychologie française, no 13-1, p. 113-117.
 — 1969, Analyse automatique du discours, Paris, Dunod.
 — 1975 « Analyse du discours, langue et idéologies », Langages, no 37.
 — Bonnafous Simone, Léon Jacqueline et Marandin Jean-Marie, 1982, « Présentation de
l’analyse automatique du discours (AAD69) : théorie, procédures, résultats, perspec-
tives », Mots, no 4, p. 95-124.
Pélissier Aline et Tête Alain, 1995, Sciences cognitives. Textes fondateurs (1943-1950), Paris, PUF.
Pereira Fernando, 2002, « Formal grammar and information theory : together again ? », The
Legacy of Zellig Harris, Bruce E. Nevin éd., Amsterdam, Benjamins, p. 13-32.
Perrault Raymond C. éd., 1984, « Special issue on mathematical properties of grammatical
formalisms », Computational Linguistics, no 10/3-4.
Peters Stanley et Ritchie Robert, 1973, « On the generative power of transformational
grammars », Information Science, no 6, p. 49-83.
Petruszewycz Micheline, 1981, Les chaînes de Markov dans le domaine linguistique, Genève,
Paris, Éditions Slatkine.
Pierce Joe E. 1952, « Dialect distance testing in Algonquian », IJAL, vol. 18-4, p. 203-210.
Pike Kenneth L., 1943, « Taxemes and immediate constituents », Language, no 19, p. 65-82.
Polguère Alain, 1998, « La théorie sens-texte », Dialangue, no 8-9, université du Québec à
Chicoutimi, p. 9-30.
Post Emil L. 1943, « Formal reductions of the general combinatorial decision problem »,
American Journal of Mathematics 65-2, p. 197-215.
Pottier Bernard, 1962a, « Introduction à l’étude des structures grammaticales fondamen-
tales », La traduction automatique 3-3, p. 63-91.
 — 1962b, « Les travaux lexicologiques préparatoires à la traduction automatique », Cahiers
de lexicologie, no 3, p. 200-206.
Pratt Vernon, 1995, Machines à penser [1987], Paris, PUF.
Puech Christian, 2008, « Qu’est-ce que faire l’histoire du “récent” ? », Congrès mondial de
linguistique française – CMLF08, J. Durand, B. Habert, B. Laks éd., Paris, Institut de
linguistique française.
Pulgram Ernst éd., 1954, « Applied linguistics in language teaching », Monograph Series on
Languages and Linguistics, no 6.
Pullum Geoffrey K., 2007, « Ungrammaticality, rarity, and corpus use », Corpus Linguistics
and Linguistic Theory, no 3, p. 33-47.
Quirk Randolph et Jan Svartvik, 1966, Investigating Linguistic Acceptability, La Haye, Mouton.
Quirk Randolph et Mulholland Joan, 1964, « Complex prepositions and related sequences »,
English Studies, no 45, p. 148-160.

Bi b li o g r a p h i e 199
Quirk Randolph, 1960, « Towards a description of English usage », Transactions of the
Philological Society, no 59, p. 40-61.
Ramunni Jeronimo, 1989, La physique du calcul. Histoire de l’ordinateur, Paris, Hachette.
Reifler Erwin, 1955, « The mechanical determination of meaning », Machine Translation of
Languages, 14 essays, W. N. Locke et A. D. Booth éd., Cambridge MA, MIT/New York,
John Wiley, p. 136-164.
Richens Richard H. et Booth Andrew D., 1955, « Some methods of mechanized translation »,
Machine Translation of Languages, 14 essays, W. N. Locke et A. D. Booth éd., Cambridge
MA, MIT/New York, John Wiley, p. 24-46.
Richens Richard H., 1955, « A general programme for mechanical translation between any
two languages via an algebraic interlíngua » (non publié, archives HTAL).
Riemer Nick, 2009, « Grammaticality as evidence and as prediction in a Galilean linguis-
tics », Language Sciences, no 31, p. 612-633.
Romashko Sergej, 2000, « Vers l’analyse du dialogue en Russie », Histoire Épistémologie
Langage, no 22-1, p. 83-98.
Rorty Richard éd., 1967, The Linguistic Turn. Recent Essays in Philosophical Method, Chicago,
University of Chicago Press.
Rumelhart David E., McClelland James L. et le PDP Research Group, 1986, Parallel Distri­
buted Processing : Explorations in the Microstructure of Cognition, vol. I et II., Cambridge,
MA, MIT Press.
Salkoff Morris, 2002, « Some new results on transfer grammar », The Legacy of Zellig Harris,
B. Nevin éd., Amsterdam, Benjamins, p. 167-178.
Salmon Vivian, 1979, « John Wilkins’ essay (1668) : critics and continuators », The Study
of Language in 17th Century England, Amsterdam, Benjamins, p. 97-126.
Sampson Geoffrey, 2001, Empirical Linguistics, Londres/New York, Continuum.
Savitch Walter J., Bach Emmon, Marsh William et Safran Naveh Gila éd., 1987, The Formal
Complexity of Natural Language, Dordrecht, D. Reidel.
Schütze Carson T., 1996, The Empirical Base of Linguistics : Grammaticality Judgments and
Linguistic Methodology, Chicago, University of Chicago Press.
Segal Jérôme, 2003, Le zéro et le un. Histoire de la notion scientifique d’information au xxe siècle,
Paris, Éditions Syllepse.
Sériot Patrick éd., 2006, Nicolaï Troubetzkoy : Correspondance avec Roman Jakobson et autres
écrits (traduction du russe par Patrick Sériot et Margarita Schœnenberger), Lausanne,
Payot.
Seuren Pieter, 1998, Western Linguistics : An Historical Introduction, Oxford, Blackwell.
 — 2006, « Early formalization tendencies in 20th-century American linguistics », History
of the Language Sciences – An International Handbook on the Evolution of the Study of
Language from the Beginnings to the Present, E. F. K. Kœrner, S. Auroux, H. J. Niederehe,
K. Versteegh éd., Berlin, Walter de Gruyter, Handbooks of Linguistics and Communica-
tion Sciences, vol. 18/3, p. 2 026-2 034.
 — 2009, « Concerning the roots of transformational generative grammar », Historiographia
Linguistica, no 36-1, p. 97-115.

200 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Shannon Claude E. et Weaver Warren, 1949, The Mathematical Theory of Communication,
Urbana-Champaign, University of Illinois Press.
 — 1950, « A chess-playing machine », Scientific American, no 182-2, p. 48-51. Traduction
française Sciences cognitives. Textes fondateurs (1943-1950), A. Pélissier et A. Tête dir.,
1995, p. 231-245.
 — 1956, « The bandwagon », Institute of Radio Engineers, Transactions on Information Theory,
no IT-2, p. 3.
Sinclair John McH., 1965, « When is a poem like a sunset ? », A Review of English Literature,
no 6-2, p. 76-91.
 — 1991, Corpus, concordance, collocation, Oxford, Oxford University Press.
 —,Jones Susan et Daley Robert, 2004, The OSTI Report (1970), R. Krishnamurthy éd.,
Londres/New York, Continuum.
Sternefeld Wolfgang éd., 2007, « Data in generative grammar », Theoretical Linguistics, no 33-3.
Stone Philip James, Dunphy D. C., Smith M. S., Ogilvie D. M., 1966, The General Inquirer :
a Computer Approach to Content Analysis, MIT Press, Cambridge Computer Associates.
Sweet Henry, 1884, « Practical study of language ». Transactions of the Philological Society,
p. 577-599.
Swiggers Pierre, 2008 « Introduction : the problem of an international auxiliary language »,
The Collected Works of Edward Sapir, Pierre Swiggers éd., Berlin/New York, Mouton
de Gruyter, p. 245-250.
Tesnière Lucien, 1953, Esquisse d’une syntaxe structurale, Paris, Klincksieck.
 — 1959, Éléments de syntaxe structurale, Paris, Klincksieck.
Togeby Knud, 1951, Structure immanente de la langue française, Copenhague, Nordisk Sprog-
og Kulturforlag (Travaux du cercle linguistique de Copenhague, vol. VI).
Tomalin Marcus, 2006, Linguistics and the Formal Sciences : the Origins of Generative Gram-
mar, Cambridge, CUP.
Troubetzkoy Nikolai S. 1949, Principes de phonologie [1939], traduction française par J. Can-
tineau, Paris, Klincksieck.
Turing Alan M., 1950, « Computing machinery and intelligence », Mind, no 59, p. 433-460.
Van de Walle Jürgen, 2008, « Roman Jakobson, cybernetics and information theory : a
critical assessment », Folia Linguistica Historica, no 29-1, p. 87-124.
Varela Francisco, 1989, Invitation aux sciences cognitives, Paris, Seuil (Points Sciences).
Velleman Barry L., 2008, « “The scientific linguist” goes to war », Historiographia Linguistica,
no 35-3, p. 385-416.
Verleyen Stejn, 2007, « Le fonctionnalisme entre système linguistique et sujet parlant :
­Jakobson et Troubetzkoy face à Martinet », Cahiers Ferdinand de Saussure, no 60, p. 163-
188.
 — Swiggers Pierre, 2006, « Causalité et conditionnement dans le fonctionnalisme dia-
chronique », Folia Linguistica Historica, vol. 27/1-2, p. 171-195.
Victorri Bernard, 1995, « Les enjeux de l’implémentation informatique de modèles lin-
guistiques », Langage et sciences humaines : propos croisés, S. Robert éd., Berne, Peter
Lang, p. 79-95.

Bi b li o g r a p h i e 201
Voegelin Charles F. et Harris Zellig S., 1951, « Methods of determining intelligibility among
dialects of natural languages », Proceedings of the American Philosophical Society, no 95-3,
p. 322-329.
 — 1951, « Culture, language, and the human organism », Southwestern Journal of Anthropo­
logy, no 7, p. 352-373.
 — 1953, « From FL (Shawnee) to TL (English), autobiography of a woman », International
Journal of American Linguistics vol. 19, p. 1-25.
 — 1954, « Multiple stage translation », International Journal of American Linguistics, no 20-4,
p. 271-280.
Waltz David L. et Pollack Jordan B., 1985, « Massively parallel parsing : a strongly interactive
model of natural language interpretation », Cognitive Science, no 9-1, p. 51-74.
Waugh Linda R. et Monville-Burston Monique, 1990, On Language. Roman Jakobson, Cam-
bridge, Harvard University Press.
Weaver Warren, 1955, « Translation », Machine Translation of Languages, 14 essays,
W. N. Locke et A. D. Booth éd., Cambridge MA, MIT/New York, John Wiley, p. 15-23.
 — 1970, Scene of Change. A Lifetime in American Science, New York, Charles Scribner’s Sons.
Wells Rulon S., 1963, « Some neglected opportunities in descriptive linguistics », Anthro-
pological Linguistics, no 1, p. 38-49.
Whatmough Joshua, 1952, « Natural selection in language », Scientific American, no 186, p. 82-86.
Wiener Norbert, 1948, Cybernetics, or Control and Communication in the Animal and the
Machine, Paris, Hermann and Cie, MIT Press et New York, Wiley.
 — 1950, The Human Use of Human Beings, Boston, Houghton Mifflin.
Wildgen Wolfgang, 2009, « La rivalité historique entre une modélisation statique et dynam-
ique des faits linguistiques », Histoire Épistémologie Langage, no 31-1, p. 99-126.
Wilkins John, 1668, An Essay towards a Real Character and a Philosophical Language, Londres,
The Royal Society.
Wilks Yorick, 1968, « On line semantic analysis of english texts », Mechanical Translation,
no 11-3/4, p. 59-72.
Winograd Terry, 1972, Understanding Natural Language, New York, Academic Press.
Wittgenstein Ludwig, 1961 [1953], Tractatus logico-philosophicus suivi de Investigations philo­
sophiques, traduction française par Pierre Klossowski, Paris, Gallimard.
Yngve Victor H., 1955, « Syntax and the problem of multiple meaning », Machine Transla-
tion of Languages, 14 essays, W. N. Locke et A. D. Booth éd., Cambridge MA, MIT/New
York, John Wiley, p. 208-226.
 — 1959, « The COMIT system for mechanical translation », IFIP Congress 1959 : Paris,
France, p. 183-187.
 — 1960, « A model and an hypothesis for language structure », Proceedings of the American
Philosophical Society, no 104-5, p. 444-466.
 — 1964, « Implications of mechanical translation research », Proceedings of the American
Philosophical Society, no 108-5, p. 275-281.
Zipf George Kingsley, 1949, Human Behavior and the Principle of Least Effort, Cambridge,
Addison Wesley.

202 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Žolkovskij Aleksandr K., 1961, « Essays on and in MT by the Cambridge research unit,
Cambridge, England, June 1959 », Masinnyj Perevod i Prikladnaja Linguistika, no 5, p. 81-89.
Traduction anglaise JPRS 13761 mai 1962, p. 102-115 (archives HTAL).

Archives

Archives de l’EPRASS (EHESS)


Archives du CNRS
Archives Histoire du traitement automatique des langues HTAL (UMR7597, Histoire des
théories linguistiques).

Bi b li o g r a p h i e 203
Index des noms

AAD (Analyse automatique du discours) Barbut Marc – 125


– 135, 144, 145, 148, 153, 154 Bar-Hillel Yehoshua – 13, 14, 15, 16, 19, 20,
AAD69 – 148, 149, 153, 154 21, 26, 29, 30, 31, 33, 34, 36, 39, 41, 56, 57,
ACLS (American Council of Learned 64, 78, 96, 98, 115, 116, 117, 124, 126, 128,
Societies) – 46 161, 179
ALGOL60 – 34 Benveniste Émile – 113, 114, 122, 149, 151, 153
ALPAC (Automatic Language Processing Bertin Jacques – 140
Advisory Committee) – 14-17, 26, 34, Bloch Bernard – 46, 47, 48, 78, 79
35, 36, 40, 126, 136 Bloomfield Leonard – 23, 46, 47, 48, 49,
AMTCL (Association for Machine 59, 62, 64, 78, 79, 80, 81, 82, 86, 117
Translation and Computational Lin- Boas Franz – 68, 76, 78, 81, 109,
guistics) – 34 Booth Andrew D. – 21, 22, 26, 31, 100, 101
Andreev Nicolaï D. – 107, 127 Borillo Mario – 141, 148
Airspeak – 170 Bouillut Jean – 145
Applegate Joseph R. – 95 Braffort Paul – 137, 140, 141
ASTP (Army Specialized Training Pro- Brown Corpus – 158, 159, 163, 165, 173
gram) – 45, 46, 51, 52
ATALA (Association pour l’étude et le Caracteristica (Leibniz) – 139
développement de la traduction auto- Carnap Rudolf – 6, 29, 30, 57, 95, 98, 168
matique et de la linguistique appli- Centre Favard – 69, 124, 127, 130, 133
quée) puis (Association pour le trai- CETA (Centre d’étude en traduction
tement automatique des langues) – 11, automatique) – 122, 123, 124, 126, 127,
34, 40, 43, 54, 122, 124, 127, 130, 132, 128, 130
133, 182 Chao Yuen Ren – 56, 78
Chauveau Geneviève – 151, 152, 153

index des noms 205


Cherry Colin – 55, 59, 61, 62, 63, 64, 65, Gilliéron Jules – 112
68, 70, 98 Gentilhomme Yves – 125
Chomsky Noam – 6, 7, 10, 16, 22, 29, 30, Gougenheim Georges – 112
31, 32, 33, 35, 36, 41, 64, 66, 78, 81, 86, Graves Mortimer – 46, 51
87, 88, 91, 94, 95, 96, 116, 120, 123, 124, Greimas Algirdas G. – 125, 138
127, 128, 129, 130, 131, 153, 154, 155, 158, Grize Jean-Blaize – 125
160, 161, 164, 170, 171, 172, 173, 174, 175, Gross Maurice – 60, 96, 123, 124, 125, 126,
176, 181 128, 131, 132, 133, 135, 136, 141, 142, 143,
CNRS (Centre national de la recherche 149, 150, 169, 179
scientifique) – 120, 121, 122, 123, 124, Guespin Louis – 149, 151, 153
126, 130, 135, 140, 141, 143, 145, 158 Guilhaumou Jacques – 149
COBUILD (Collins Birmingham Uni- Guiraud Pierre – 72, 73, 74, 112, 129
versity International Language Data-
base) – 162 Hall Robert – 46, 78, 81
Cohen David – 124 Halle Morris – 35, 59, 61, 63, 64, 72
Cohen Marcel – 120, 129 Halliday Michael A.K. – 43, 45, 50, 101,
COMIT – 32, 33, 34, 136 160, 161, 162, 163, 164, 165, 166, 168, 169,
Cowan John Milton – 46, 49 172, 175, 176, 178
Coyaud Maurice – 138, 139, 141, 142 Harris Zellig Sabettai – 10, 29, 30, 31, 36,
Culioli Antoine – 130 56, 57, 58, 59, 60, 64, 72, 73, 74, 75, 78,
80, 82, 83, 86, 90, 91, 92, 93, 94, 95, 96,
Delavenay Émile – 26, 121, 122 120, 124, 132, 135-136, 139, 141, 142, 143,
Dewey Melvil – 137 144, 148-155, 163, 168-169
Distinctive Features Theory (DFT) Haugen Einar – 78
– 61-67 Hays David – 21, 24, 32, 34, 35, 127, 128, 136
Dostert Leon – 15, 22, 26, 49, 50, 51, 52, 54 Henry Paul – 147
Ducrot Oswald – 125, 133 Hill Archibald – 46, 49, 78
Dubois Jean – 69, 74-76, 125, 133, 135, 148, Hockett Charles F. – 29, 31, 35, 36, 52, 59,
149, 150, 151, 152, 153, 154 78, 80, 86-88, 90, 94, 163
Hunt Horace – 35
EPRASS (Enseignement préparatoire à
la recherche approfondie en sciences ICE (International Corpus of English)
sociales) – 125 – 165
ILP (Intensive Language Program) – 45, 46
Fant Gunnar – 61, 62 Imbs Paul – 158
Firth John Rupert – 45, 104, 105, 160, 161, Institut Blaise Pascal – 121, 122, 123, 124,
162, 165, 166, 167, 168, 169, 170, 172, 180 135, 140, 143
François Frédéric – 125 Ivanov Vjaeslav – 108, 109
Fries Charles C. – 46, 47, 48, 53, 79, 92, 163 Izard Françoise – 140

Garvin Paul – 15, 16, 32, 82 Jakobson Roman – 9, 55, 56, 59, 61-76, 78,
General Inquirer – 136, 137, 141, 144 109, 139, 149, 151, 153, 179

206 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Jaulin Bernard – 116, 141 Masterman Margaret – 101, 103, 104, 117,
Joos Martin – 7, 14, 46, 49-50, 51, 52, 62, 160, 161
66, 67, 78, 86, Mel’čuk Igor A. – 35, 98, 108-111, 117, 127
Metz Christian – 125
King Gilbert – 17 Moreau René – 69, 125, 129
Klima Edward – 35 Moscovici Serge – 147
Kulagina Olga – 108 Moulton William – 46
Mouvement de la Réforme – 44, 45, 47,
Labat René – 140 160
LADL – 60, 124, 143, 149 Muller Charles – 112, 130
Lagache Daniel – 144
Lagrange Marie-Salomé – 140 NSF (National Science Foundation) – 15,
Lamb Sidney – 32, 128 20, 21, 30, 78, 101
Leech Geoffrey – 163, 165 Nida Eugene – 78
Lehmann Winfred – 49, 77
Lentin André – 123, 125, 131 Œttinger Anthony – 22, 23, 35, 123, 136
Leroi-Gourhan André – 140
LSA (Linguistic Society of America) – Pagès Robert – 140, 141
46, 66, 77, 81 Pêcheux Michel – 125, 129, 135, 144, 145,
LLC (London-Lund Corpus of Spoken 147, 148, 149
English) – 165 Peek a boo – 137, 145
LOB (Lancaster-Oslo-Bergen Corpus of Pike Kenneth – 78, 81, 86, 87, 94, 96
British English) – 165 Policespeak – 170
Locke William N. – 35 Pottier Bernard – 50, 113, 114, 116, 117, 122,
London School – 160 132, 150
Lukoff Fred – 95
Lyons John – 161 Quemada Bernard – 44, 111, 130, 158
Quirk Randolf – 158, 161, 163, 164, 165, 171,
Maison des sciences de l’homme – 140, 141 172, 174
Maldidier Denise – 149
Malkiel Yakov – 81 Rand Corporation – 18, 20, 21
Malinowski Bronislaw – 160 Renaud Monique – 141
Marcellesi Jean-Baptiste – 149 Richens Richard H. – 22, 100, 101, 102,
Mark I – 17, 121 103, 104
Mark II – 16, 17 Roget Peter Mark – 103, 180
Martinet André – 69-74, 113, 114, 122, 125, Roques Mario – 112, 158
138, 139, 150 Ruwet Nicolas – 132, 133
Matthews Peter – 161
Mandelbrot Benoît – 55, 69, 74, 75, 122, SAD (Section d’automatique documen-
128, 129, 179 taire) – 124, 135, 139, 140, 141
Markov (chaîne de) – 31, 56, 58, 59, 60, 63, Sager Naomi – 142, 168
64, 72, 75, 130, 173, 178 Sampson Geoffrey – 96, 171

index des noms 207


Sapir Edward – 78, 86, 90, 92, 168 Togeby Knut – 132, 149, 150, 151
Saussure Ferdinand de – 58, 61, 112, 154 Trager George – 46, 47, 48, 78, 79
Schützenberger Marcel-Paul – 55, 69, 95, Trojanskij Piotr P. – 99, 100, 101, 171
122, 123, 124, 128, 130, 143, 179 Troubetzkoy Nicolas – 61, 62, 70, 71, 72,
Seaspeak – 170 74
Service de calcul pour les sciences de Turing Alan – 18, 33, 36, 38, 64, 98
l’homme (SCSH) – 141 Twaddell William F. – 81, 163
Shannon Claude – 18, 19, 21, 38, 50, 55, 56,
57, 58, 59, 60, 62, 63, 66, 68, 73, 75, 76, Vœgelin Charles F. – 78, 80, 81, 82, 83, 84,
123, 153, 154 85, 88, 96
Shefts Betty – 95 Vœgelin Florence Robinett – 83
Sinclair John McH. – 161, 162, 163, 164, 167, Von Neumann John – 18, 19, 36, 129
173, 174, 178
SMART (System for the Mechanical Weaver Warren – 13, 14, 19, 20-22, 24, 25,
Analysis and Retrieval of Text) – 137 26, 29, 38, 55, 56, 57, 58, 59, 73, 76, 98,
Smith Henry Lee – 46, 52 101, 106, 128, 179
Survey of English Usage (SEU) – 158, 159, Wells Rulon – 78
163, 164, 165 Wiener Norbert – 19, 24, 37, 55, 98, 105,
Svartvik Jan – 164, 165 106
Sweet Henry – 44, 45, 47, 159, 163, 175, 180 Wilkins John – 102, 103, 180
SYNTOL (Syntagmatic Organization Wilks Yorick – 39, 101, 104, 105
Language) – 137, 138, 139, 140, 141, 142, Wittgenstein Ludwig – 98, 101, 102, 103,
144, 145, 147, 148 104, 105, 160, 161, 166
Systran – 17, 24, 51
Yngve Victor – 22, 31, 32, 33, 34, 95, 124,
Taum-météo – 154, 168, 169 128, 136, 141
Tesnière Lucien – 32, 124, 127, 128
Todorov Tzvetan – 133 Zipf George Kingsley – 56, 63, 71, 72, 73,
Trésor de la langue française (TLF) – 130, 74, 129, 178
158, 159 Loi d’Estoup-Zipf – 129

208 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Index des notions

Acceptabilité / grammaticalité – 164, 170, Créativité linguistique – 171, 174


171, 172, 175 Cryptographie – 9, 14, 19, 44, 49, 50, 55, 137
Analyse automatique du discours – 10, Cybernétique 6, 19, 20, 26, 36, 37-39, 55, 58,
135, 144, 148-149, 177 67, 69, 98, 105-106, 130, 157, 179
Analyse de discours – 74, 135, 148-149, 152-
154, 180 Data evidence – 174
Analyse en chaîne (string analysis) – 136, Distinctive Features Theory (DFT)
141, 142, 154, 168 – 61-67
Analyse syntaxique – 7, 9, 26, 29-33, 39, Distributionnaliste – 10, 29, 31, 41, 46, 66,
41, 78, 95, 96, 97, 107, 123, 126, 127, 131, 76, 77, 78, 82, 86, 94, 96, 117, 120, 172,
136, 143 174, 181,
Analyse transformationnelle – 124, 135, Documentation automatique – 10, 17, 36,
136, 142, 143, 152 106, 122, 125, 135-136, 140-142, 177, 180
Army method – 48, 51, 52, 53
Axiomes – 29, 80 Élicitation – 164, 174
Axiomatisation – 64, 90, 91, 95, 166, Empirisme – 10, 36, 95, 157, 158, 159, 160,
178 161, 163, 165, 166, 170, 171, 172, 173, 176,
178, 180
Collocation – 116, 161, 162, 167, 168, 169, Événement – 6, 8, 9, 14, 166, 177, 180
174, 175
Compétence / performance – 170, 171, Formalisation – 6, 10, 29, 33, 34, 77, 80, 85,
172, 175 86, 90, 96, 104, 116-117, 125, 130, 131, 140,
Contexte de situation – 160, 166 141, 144, 147, 161, 171, 179,
Corpus-based – 159, 163, 165, 171, 172, 173 Formalisme(s) – 32, 110, 117, 120, 128, 132
Corpus-driven – 159, 161, 167, 171 Fully automatic high quality translation
Corpus Linguistics – 158, 159, 163, 167 (FAHQT) – 15, 26

index des notions 209


Gradience – 164, 170, 171, 172 Technologie de guerre – 8,9, 13, 17, 26,
Grammaire 30, 95, 126
Grammaire catégorielle – 64, 78
Grammaire formelle – 7, 30, 31, 32, Horizon de projection – 6, 27, 111
34, 35, 40, 64, 66, 95, 120, 124, 130, 131, Horizon de rétrospection – 5, 6, 7, 8, 9, 10,
132, 133 13, 17, 19, 20, 22, 26, 27, 30, 41, 58, 77, 97,
Grammaire hors contexte (context- 119, 171, 177, 178
free grammar type 2) – 31, 34, 123, 131 Hyperlangue – 167, 169
Grammaire sensible au contexte
(context-sensitive grammar type 1) – 31 Idiome – 22, 84, 115
Grammaire générative et transforma- Idiom principle – 174
tionnelle – 16, 32, 33, 64, 81, 90, 91, 94, Information – 22, 31, 55, 56, 57, 58, 60, 63,
95, 117, 128, 130, 131, 132, 170, 172 64, 65, 66, 67, 68, 71, 72, 73, 74, 75, 76,
Grammaire syntagmatique – 31, 32, 78, 106, 108, 110, 121, 123, 137, 138, 142, 143
88, 113, 127, 178 Information retrieval – 60, 78, 136, 141,
Grammaire de dépendance – 32, 127 143, 180
Grammaire stratificationnelle – 32 Théorie de l’information – 6, 8, 9, 19,
Puissance des grammaires – 32, 33, 88 21, 26, 27, 31, 36, 38, 55-76, 98, 105, 106,
Grammaires scolaires – 45, 125 123, 125, 128, 130, 157, 161, 177, 178, 179
Grammaire de l’information – 60, Intelligence artificielle – 8, 30, 36, 37, 39,
Grammaire structurale – 74, 76, 153 105, 132, 139, 182
Grammaire générale – 79
Grammaire de transfert – 90, 92, 96 Langage artificiel – 126, 138, 139
Grammaire des cas – 102 Langages restreints – 10, 45, 157, 160, 161,
Grammaire en chaîne (string 165, 166, 167, 168, 170, 180
grammar) – 141 Langue intermédiaire – 78, 86, 88, 92, 96,
Grammaire de l’auditeur – 163 98, 99, 101, 102, 103, 104, 105, 107, 108,
Grammaire descriptive – 163 109, 110, 127, 128, 136, 171, 180
Grammaire prescriptive – 163 Langue internationale – 107, 168
Micro-grammaire – 167, 169 Langue universelle – 102, 103, 104, 139,
Grammaire partielle – 168 168, 181
Grammaire universelle – 174 Lexicogrammar – 162, 169
Grammatical meaning (signification Lexique-grammaire – 159, 169
grammaticale) – 75, 76, 109, 110, 111 Lexie – 112, 113
Guerre Linguistique appliquée – 9, 43, 44, 45, 46,
Culture de guerre – 17, 18, 21, 27, 51, 48, 49, 50, 51, 53, 54, 122, 130, 160, 177
54, 77 Linguistique computationnelle – 6-10, 13,
Effort de guerre (war effort) – 9, 20, 14, 16, 17, 27, 29, 33-36, 40, 4, 56, 58, 97,
43, 46, 48, 52, 77, 81 122, 126, 130, 132, 157, 159, 161, 171, 172,
Science(s) de la guerre – 6, 7, 9, 18-19, 177, 178
25, 29, 41, 48, 50, 55, 56, 61, 66, 101, 119, Linguistique descriptive – 45, 79, 152, 160,
120, 128, 177 166, 167, 168, 175, 180

210 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Linguistique de corpus – 157, 158, 159, 180, Périodisation – 6, 8, 9, 10, 13, 14, 17, 46, 177,
182 179, 180
Phonétique acoustique – 50, 61, 62, 63
Mathématisation (du langage) – 29, 30, Probabilistes (méthodes) – 8, 57, 59, 60,
35, 36, 41, 61, 64, 76, 78, 80, 86, 94, 97, 73, 74, 76, 128, 130, 157, 161, 162, 163, 165,
98, 101, 111, 116, 117, 120, 121, 128, 129, 131, 167, 168, 169, 171, 172, 173, 178, 182, 183
132, 157, 171, 178 Protolangue – 107, 108
Mathématisation intrinsèque – 40,
Mathématisation couvrante – 40, 129 Redondance – 56, 58, 59, 60, 63, 64, 65, 73,
Mathématisation substitutive – 129 74, 75, 76, 84, 110, 179
Automatisation-mathématisation (du Registres – 45, 165, 166, 168, 170
langage) – 6, 7, 8, 9, 10, 14, 17, 41, 69, Rendement fonctionnel – 72, 74
86, 97, 115, 119, 121, 122, 124, 131, 132, 157, Révolution technologique – 9, 181, 183
159, 170
Mémoire photoscopique – 17 Sous-langage – 10, 60, 90, 96, 154, 157, 165,
Métalangage – 95, 166, 169 168, 169, 170
Mode d’intégration – 7, 8, 9, 10, 30, 56, 58, Spectrographe – 49, 50, 52, 62, 71
97, 119, 121, 124, 131, 132, 133, 171, 177, Speech community – 68, 80, 82
178, 179 Statistiques – 17, 19, 20, 26, 60, 63, 64, 72,
Mot – 8, 22, 31, 33, 63, 72, 84, 85, 86, 91, 99, 73, 107, 110, 111,112, 113, 115, 123, 128, 129,
103, 104, 105, 108, 109, 110, 112, 114, 116, 130, 131, 159, 165, 173, 178, 182, 183,
123, 128, 158, 160, 161, 162, 166, 183 Synapsie – 112, 113, 114
Mots-clés – 138, 139, 144, 145 Synthème – 112, 113, 114
Mots composés – 113, 142
Mots-formes – 129 Texte – 45, 47, 72, 73, 82, 83, 84, 85, 99, 104,
Mot à mot – 25, 84, 88, 100 105, 107, 110, 129, 149, 158, 159, 160, 161,
Mutual pinpointing – 23, 162, 163, 167, 169, 174
Texte fondateur – 152-154
Néo-bloomfieldien – 10, 24, 29, 35, 36, 46, Thésaurus – 39, 101, 103, 104, 105, 117, 139,
56, 58, 61, 77, 78, 79, 80, 81, 86, 94, 96, 144, 180
98, 154, 163, 166, 172, 178, 179 Traitement automatique des langues
Nouvelle linguistique – 13, 16, 17, 29, 36, (TAL) – 8-11, 14, 17, 25, 29-41, 54, 60,
41, 133, 158, 172, 173, 178 104, , 115, 126, 130-132, 154, 157, 158, 159,
165, 168, 170, 172, 173, 177, 182
Open choice principle – 174 Traduction – 10, 14, 16, 25, 26, 45, 46, 47,
Opérationel 53, 78, 81, 82, 83, 161, 165,
Démarche opérationnelle – 18, 21 Traduction libre – 82, 83, 84, 88, 89, 90
Recherche opérationnelle – 18 Interpreter translation – 82, 83
Méthode opérationnelle – 48, 52, Multiple stage translation – 84
Syntaxe opérationnelle – 15, 30, 31, 33, 96 Procédures de traduction – 86-94, 97
Operational form class – 23 Langage de traduction – 166
Traduction automatique (TA) – 5-11,

index des notions 211


13-27, 29-41, 43, 5, 0, 51, 54, 56, 58, Usage – 103, 104, 138, 159, 160, 161, 163, 164,
77-78, 83, 92, 95, 96-99, 101, 103-108, 168, 169, 171, 172
110-116, 119-124, 126-128, 135, 136, 137,
140, 142, 143, 154, 157, 168, 169, 171, 177, Variation – 109, 110, 159, 164, 165, 167, 168,
178, 179, 180, 181 169
Transcription – 78, 82, 86 Vocabulaire (études de) – 44, 56, 69, 73,
Transfert de sens – 98, 106, 108, 116 74, 111, 114, 128, 129, 130, 131, 152, 159, 173
Unités lexicales complexes – 111-115

212 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Table

Introduction 5

Ch ap i t r e 1
La traduction automatique
comme technologie de guerre

1. La TA : une histoire courte ? 14

2. La TA technologie de guerre 17

3. Une linguistique pour ingénieur 22

4. La TA : une technologie imparfaite 24

5. Conclusion 26

Ch ap i t r e 2
De la TA à la linguistique
computationnelle et au TAL

1. Le rôle central de l’analyse syntaxique 29

2. Syntaxe opérationnelle pour la TA et grammaires formelles 30

3. Constitution de l’analyse syntaxique automatique en champ autonome 31

4. La linguistique computationnelle 33

5. TA, compréhension du langage naturel et intelligence artificielle 36

6. La constitution du TAL 40

Ta b l e 213
Ch ap i t r e 3
Effort de guerre, technologisation de la linguistique
et naissance de la linguistique appliquée

1. Pré-histoire de la disciplinarisation de la linguistique appliquée :


le domaine anglo-scandinave 44

2. L’enseignement des langues comme machine de guerre aux États-Unis 45

3. Méthode opérationnelle et liens avec les sciences de la guerre 48

4. L’Army method et l’enseignement des langues dans l’après-guerre 51

Ch ap i t r e 4
La théorie de l’information :
transfert de termes, concepts et méthodes

1.  Information : terme et notion 57

2. Théorie de l’information et néo-bloomfieldiens :


un mode d’intégration par adaptation 58

3. La théorie des traits distinctifs de Jakobson : transferts


et convergences entre théorie de l’information, ingénierie et linguistique 61

4. Théorie de l’information, information et linguistes français


dans les années 1960 69

Ch ap i t r e 5
Tournant de l’automatisation et formalisation chez les linguistes dis-
tributionnalistes néo-bloomfieldiens

1. Le tournant de l’automatisation pour les néo-bloomfieldiens 78

2. Vers une formalisation dynamique des analyses morpho-syntaxiques


et des procédures de traduction 86

3. Les sources du programme générativiste 94

4. Conclusion 96

214 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Ch ap i t r e 6
Automatisation de la traduction, sémantique et lexique :
l’inscription de nouvelles questions et nouveaux objets
dans le temps long

1. Sémantique et méthodes de langues intermédiaires pour la TA 98

2. Automatisation de la traduction et unités lexicales composées 111

3. Formalisation, mathématisation et automatisation 116

Ch ap i t r e 7
Tradition linguistique française
et réception externe de la mathématisation-automatisation
du langage

1. Tradition française et horizon de rétrospection des sciences


de la guerre 119

2. Contexte d’apparition de la seconde mathématisation en France 121

3. Opérateurs de passage (1) : Marcel-Paul Schützenberger


et Maurice Gross 123

4. Opérateurs de passage (2) : l’ATALA et le Centre Favard 124

5. Les aléas d’une réception externe (1) : la TA comme


linguistique computationnelle 126

6. Les aléas d’une réception externe (2) : modèles américains


versus modèles soviétiques 127
7. Les aléas d’une réception externe (3) : les deux types
de mathématisation, statistiques et langages formels 128

8. Les aléas d’une réception externe (4) : réception et/ou réflexivité,


l’externalité redoublée 131

9. Conclusion 132

ta b l e 215
C ha p i t r e 8
Documentation automatique et analyse automatique de discours.
Spécificité des réceptions de Harris en France

1. La documentation automatique 136

2. Harris et la documentation automatique en France 141

3. L’analyse automatique du discours 144

4. Discourse Analysis de Harris et l’analyse de discours française 148

5. Conclusion 154

C ha p i t r e 9
Le tournant empiriste de l’automatisation-mathématisation. Grands
corpus, langages restreints, sous-langages

1. Sources britanniques de la linguistique de corpus 158

2. Empirisme en linguistique et en TAL : nouveaux objets,


nouveaux défis 165

3. Les corpus et les données, enjeu des débats entre empiristes


et chomskyens 170

4. Conclusion 175

Conclusion générale 177

Bibliographie 185

Index des noms 205

Index des notions 209

216 h i s t o i r e d e l’ a u t o m at i s at i o n d e s s c i e n c e s d u l a n g a g e
Cet ouvrage, composé avec les caractères
Arno Pro, a été mis en page
par les soins du service d’édition
de l’École normale supérieure de Lyon.
L’ouvrage a été reproduit sur du papier
Olin regular blanc naturel 90 g
Il a été achevé d’imprimer
par l’imprimerie Jouve
en avril 2015.

Dépôt légal avril 2015


Numéro d’impression :

imprimé en France

Vous aimerez peut-être aussi