Académique Documents
Professionnel Documents
Culture Documents
Édition électronique
URL : http://journals.openedition.org/linx/117
DOI : 10.4000/linx.117
ISSN : 2118-9692
Éditeur
Presses universitaires de Paris Nanterre
Édition imprimée
Date de publication : 1 juin 2003
Pagination : 13-28
ISBN : 0246-8743
ISSN : 0246-8743
Référence électronique
Marcel Cori, « La mathématisation des formalismes syntaxiques », Linx [En ligne], 48 | 2003, mis en
ligne le 01 octobre 2003, consulté le 02 mai 2019. URL : http://journals.openedition.org/linx/117 ;
DOI : 10.4000/linx.117
1. Introduction*
* Je remercie très vivement Gabriel G. Bès, Sophie David, Françoise Kerleroux, Danielle Leeman et
Jean-Marie Marandin pour leurs lectures critiques d’une première version de cet article.
1 Ainsi, dans Structures syntaxiques, il n’est pas fait mention du traitement automatique. Près de vingt
ans plus tard, Chomsky (1975 : 39) se justifiera en ces termes : « for machine translation and related
entreprises, they seemed to me pointless as probably quite hopeless ».
2 Voir par exemple Miller et Torris (1990). Pour un panorama de différents formalismes syntaxiques
et une bibliographie plus complète, on peut citer également Abeillé (1993) et Ligozat (1994).
13
Marcel Cori
Dans ce qui suit, nous commençons par situer la mathématisation par rapport à
la perspective des recherches linguistiques (§ 2) et par rapport à celle du TAL (§ 3), en
précisant quels sont les critères propres à chacune de ces perspectives. Nous essayons
ensuite (§ 4) de déterminer quels sont les courants qui, au cours des cinquante
dernières années, ont été les porteurs du projet de mathématisation. Enfin (§ 5), le
formalisme des HPSG est examiné de plus près, en tant que point d’aboutissement
actuel et provisoire de l’évolution d’un certain nombre de tendances des formalismes
syntaxiques.
2. La mathématisation en linguistique
3 Pour une théorie générale des méthodes scientifiques, nous renvoyons à Popper (1959).
4 Ce passage est cité notamment par Pollard et Sag (1994 : 7-8).
5 « Un système faisant partie de la science empirique doit pouvoir être réfuté par l’expérience » (Popper, 1959 : 37,
souligné par l’auteur).
14
La mathématisation des formalismes syntaxiques
Il apparaît ainsi essentiel qu’un modèle soit objectif6. Autrement dit, mises
entre n’importe quelles mains, les mêmes hypothèses dans un même modèle doivent
conduire aux mêmes conclusions, comme les mêmes calculs doivent conduire aux
mêmes résultats quel que soit le calculateur. C’est dire qu’un modèle « précisément
construit » ne peut être qu’un modèle mathématique. On peut se passer de l’auteur
d’une théorie mathématisée pour la tester expérimentalement, ou pour essayer de
l’appliquer à tel ou tel fait. On peut transmettre la théorie à d’autres personnes, qui en
deviennent des dépositaires aussi légitimes que les auteurs originels. La théorie n’est
plus attachée au théoricien.
Cela ne signifie évidemment pas qu’en dehors de la modélisation
(mathématique) il n’y a pas de pratique scientifique, et encore moins qu’avant
Chomsky la linguistique n’était pas scientifique. Nous dirons, de manière très rapide,
que la démarche scientifique consiste à observer, décrire, classer, généraliser,
modéliser. L’observation est la toute première phase de la démarche scientifique,
tandis que la modélisation en constitue la phase ultime, phase exclusive de la
mathématisation.
6 Selon Popper (1959 : 41, souligné par l’auteur) « l’objectivité des énoncés scientifiques réside dans le
fait qu’ils peuvent être intersubjectivement soumis à des tests ».
15
Marcel Cori
3. La problématique du TAL
7 Deux formalismes T et T’ sont faiblement équivalents si pour toute grammaire G de T il existe une
grammaire G’ de T’ telle que l’ensemble des énoncés engendrés par G’ soit identique à l’ensemble
des énoncés engendrés par G, et inversement.
8 Deux formalismes T et T’ sont fortement équivalents si pour toute grammaire G de T il existe une
grammaire G’ de T’ telle que l’ensemble des descriptions structurales engendrées par G’ soit
identique à l’ensemble des descriptions structurales engendrées par G, et inversement.
9 Cela sera en revanche possible si on ajoute la notion de tête aux CFG, comme cela se fait par
exemple dans le cadre de la théorie X-barre.
10 Par exemple les arbres de dépendance de Tesnière, dont on peut faire remonter les origines aux
années 1930, ont reçu de nouvelles définitions dans les années 1960.
16
La mathématisation des formalismes syntaxiques
Dès les origines du TAL, cependant, deux logiques se sont opposées : une
logique « scientifique », qui cherche à s’appuyer sur les recherches linguistiques et à
faire progresser celles-ci, face à une logique que l’on peut qualifier d’« utilitariste »,
selon laquelle la fin justifie les moyens. L’opposition se poursuit aujourd’hui (cf. Bès
2002), la logique utilitariste se manifestant dans les travaux dits de TAL robuste, avec
notamment les outils de désambiguïsation fondés sur les statistiques et les probabilités,
ou les analyses partielles qui cherchent uniquement à délimiter certains constituants
dans les phrases en ignorant les ambiguïtés. Ces travaux, même s’ils font appel à des
outils mathématiques, sont très éloignés d’une mathématisation des connaissances
linguistiques. Prenons les modèles probabilistes markoviens : ils peuvent servir aussi
bien à prédire le prochain mot que va prononcer un locuteur que le temps qu’il fera
demain. Quant aux automates finis, très utilisés par les systèmes d’analyse robuste, leur
inadéquation en tant que modèle de la syntaxe a été démontrée par Chomsky (1957).
Quoi qu’il en soit, l’objet des travaux de TAL robuste n’est pas de construire des
généralisations sur les langues.
Or ces dernières années, en raison du développement des industries de la
langue, le TAL a plutôt penché du côté de la logique utilitariste. Une conséquence
semble être une moindre demande de formalismes syntaxiques qui soient
mathématiquement rigoureux.
17
Marcel Cori
(1) if a[0]=='V':
if categ(a[1:])=='SN': return 'SV'
elif categ(a[1:])=='SP': return 'SV'
(2) a. SV → V SN
b. SV → V SP
Les règles de la CFG peuvent être prises comme les données d’un programme
qui, alors, n’aura pas à intégrer de connaissances linguistiques spécifiques. On obtient
en ce cas un traitement automatique dans lequel la représentation des connaissances
est déclarative, alors que dans le premier cas elle était procédurale.
Le premier avantage d’un traitement automatique déclaratif est que celui-ci est
plus général. Les programmes, écrits une fois pour toutes, ne sont pas à modifier
quand on veut réviser une grammaire. Reprenons l’exemple ci-dessus. Si on veut
admettre la possibilité d’un complément d’objet direct suivi d’un complément indirect
dans le SV, il suffit d’ajouter une règle à la grammaire :
c. SV → V SN SP
On peut même envisager d’avoir des programmes qui ne soient pas à modifier
si on change la langue sur lesquels ils s’appliquent.
Dans le cas du traitement procédural, il faut évidemment des programmes
différents selon les langues traitées, et la mise à jour des informations linguistiques, qui
revient à la correction d’un programme, est une opération techniquement complexe.
Un deuxième avantage du traitement déclaratif est qu’il permet une division du
travail entre l’informaticien (qui n’a pas nécessairement à connaître la linguistique et
les langues) et le linguiste en mesure de définir les grammaires et les lexiques (qui n’a
pas à savoir programmer). Le linguiste exprime ses connaissances dans un ordre
indifférent, et indépendamment de ce que le système informatique aura à en faire.
18
La mathématisation des formalismes syntaxiques
On se trouve alors placé dans la logique des systèmes experts : l’expert est un
utilisateur privilégié qui communique des données au programme. Cet utilisateur est à
opposer à l’utilisateur naïf qui, lui, fournit des données ne témoignant pas d’une
quelconque science : par exemple un texte à traduire d’une langue dans une autre. En
TAL l’expert est le linguiste, c’est-à-dire quelqu’un qui a des compétences en
linguistique et/ou qui a des connaissances sur une langue donnée.
L’expert doit être capable d’exprimer ses connaissances dans un format imposé
par le traitement automatique. C’est-à-dire connaître le formalisme dans lequel
représenter ses données – en définissant ici le formalisme comme étant composé du
modèle mathématique en vertu duquel les données sont structurées et du langage
permettant de traduire le modèle. Le traitement automatique, si du moins il se place
dans une optique déclarative, requiert donc bien la mathématisation des connaissances
linguistiques.
Le formalisme constitue de la sorte une « langue commune », à la fois
« comprise » par l’expert-linguiste et par la machine, une interface entre l’étude
linguistique et le traitement automatique. Il s’ensuit que, même dans le contexte du
traitement automatique, l’expressivité des formalismes, leur lisibilité, est importante. Il
ne suffit pas d’avoir des modèles mathématiques rigoureusement définis et
susceptibles d’être traités par des machines : encore faut-il que les êtres humains qui
ont à intervenir soient susceptibles d’écrire des représentations dans le cadre du
formalisme et de comprendre celles qui sont écrites sans trop de difficulté.
19
Marcel Cori
4.2. La réforme
Très tôt des linguistes (Yngve, 1960 et Harman, 1963) ne se sont pas satisfaits
des transformations et ont proposé de conserver les grammaires syntagmatiques en
accroissant leur capacité descriptive. Pour eux, comme pour d’autres linguistes à leur
suite, il fallait enrichir les grammaires syntagmatiques de telle sorte qu’elles permettent
l’expression claire et distincte des principes organisateurs des langues. Les auteurs de
ce type de démarche se sont présentés comme les plus fidèles continuateurs du
programme initial de Chomsky, que celui-ci aurait trahi. C’est pourquoi nous les
regroupons dans le courant de la réforme (Cori et Marandin, 2001).
Bresnan (1982), en définissant les LFG (Lexical-Functional Grammar), joue un
rôle majeur dans l’affirmation de ce courant. Les arguments contre les grammaires
transformationnelles, et donc en faveur des LFG, sont linguistiques et
psycholinguistiques. Le formalisme est inspiré de travaux menés en TAL.
Mais le modèle le plus achevé dans ce cadre est constitué par les GPSG
(Generalized Phrase Structure Grammars, Gazdar et al., 1985). Gazdar (1982 : 131) critique
lui aussi les grammaires transformationnelles sur le plan de la rigueur mathématique,
observant notamment qu’elles ne donnent pas lieu à des procédures de décision
indépendantes de l’intuition des auteurs de grammaires.
L’innovation clef des GPSG est la définition des catégories syntaxiques comme
des ensembles de spécifications de traits, où les traits sont des couples <attribut,
valeur>. Cette définition des catégories autorise la prise en compte de catégories plus
ou moins spécifiées, et par conséquent l’écriture de règles à plusieurs niveaux de
généralité. Par ailleurs, des principes permettent d’énoncer des connaissances
générales sur le langage.
On rattachera également au courant de la réforme les TAG (Tree Adjoining
Grammars, Joshi, 1985) qui ont la particularité de redéfinir l’opération de composition
des arbres. De même, les Grammaires d’arbres polychromes (Cori et Marandin, 1993,
20
La mathématisation des formalismes syntaxiques
12Pour une présentation des Grammaires d’arbres polychromes, voir l’article d’Anne Lablanche
dans ce numéro.
21
Marcel Cori
formalismes est PATR II (Parse and Translate, Shieber, 1986). PATR II, comme les
DCG, s’appuie sur des CFG. Aux règles de la grammaire s’ajoutent des contraintes, et
les représentations structurales construites sont des structures de traits (comme elles
sont des termes pour les DCG). On trouvera en (4) la double représentation possible
(4) PERSONNE 3
SN ACCORD 1 NOMBRE SING
GENRE FEM
SV [ ACCORD 1 ]
SN SV
ACCORD ACCORD
PER NB GENRE
3 SING FEM
[CAT = SN]
[CAT = VERBE]
22
La mathématisation des formalismes syntaxiques
Il est intéressant de s’attarder un peu plus longuement sur les HPSG qui
constituent un formalisme sans aucun doute actuel, résultat d’une évolution qui s’est
produite au cours des dernières décennies. Les HPSG ont essayé de s’approprier et
d’unifier les héritages des différents formalismes qui ont précédé (GPSG, FUG,
grammaires catégorielles et même grammaires transformationnelles)14. Ainsi, ce
formalisme peut être vu comme un héritier tout à la fois des courants issus du TAL et
des courants de la réforme. Pollard et Sag (1994) s’inscrivent d’ailleurs explicitement
dans la lignée de Chomsky (1957) et de son projet de mathématisation.
23
Marcel Cori
(6)
[DTRSstructure à tête [ ]] ⇒
SYN|LOC|HEAD 1
DTRS|HEAD-DTR|SYN|LOC|HEAD 1
24
La mathématisation des formalismes syntaxiques
18 Le partage du travail défini à propos des systèmes experts se trouve ici affiné. On peut en effet
imaginer l'existence de deux types d’experts : d’une part un linguiste « théoricien » qui confectionne
le modèle, et d’autre part des linguistes « praticiens » qui élaborent des grammaires décrivant des
langues ou des parties de langues.
19 Pollard et Sag (1987 : 147) définissent des théories qui décrivent une langue donnée : une théorie
pour l’anglais, une théorie pour le français, etc.
25
Marcel Cori
Conclusion
20 Par exemple, comme Reape (1994) pour un traitement de certains phénomènes spécifiques de
l'allemand.
26
La mathématisation des formalismes syntaxiques
Marcel CORI
RÉFÉRENCES
ABEILLÉ A., 1993, Les nouvelles syntaxes : Grammaires d’unification et analyse du français, Paris :
Armand Colin.
BÈS G. G., 2002, La linguistique entre science et ingénierie, TAL, 43-3, 57-81.
BRESNAN J., 1982, The mental representations of grammatical relations, Cambridge : MIT Press.
CHOMSKY N., 1957, Syntactic structures, La Haye : Mouton.
CHOMSKY N., 1975, Introduction 1973, The logical structure of linguistic theory, Chicago : The
University of Chicago Press.
COLMERAUER A., KANOUI H., ROUSSEL P. et PASERO R., 1973, Un Système de
Communication Homme-Machine en Français, Groupe de Recherche en Intelligence
Artificielle, Université d’Aix-Marseille.
CORI M. et LÉON J., 2002, La constitution du TAL, Étude historique des dénominations et
des concepts, TAL, 43-3, 21-55.
CORI M. et MARANDIN J.-M., 1993, Grammaires d'arbres polychromes, TAL, 34-1, 101-132.
CORI M. et MARANDIN J.-M., 1994, Polychrome tree grammars (PTGs) : a formal
presentation, [C. Martin-Vide, ed.] Current issues in Mathematical Linguistics, 141-149,
Amsterdam : North-Holland.
CORI M. et MARANDIN J.-M., 2001, La linguistique au contact de l’informatique : de la
construction des grammaires aux grammaires de construction, Histoire Épistémologie
Langage 23-1, 49-79.
GAZDAR G., 1982, Phrase structure grammar, [Jacobson P. et Pullum G., eds] The Nature of
Syntactic Representation, 131-186, Dordrecht : D. Reidel Publishing Company.
GAZDAR G., KLEIN E., PULLUM G. et SAG I., 1985, Generalized Phrase Structure Grammar,
Oxford : Basil Blackwell.
HARMAN G.H., 1963, Generative Grammars without Transformation Rules : A Defense of
Phrase Structure. Language 39, 597-616.
JOSHI A.K., 1985, Tree adjoining grammars : How much context-sensitivity is required to
provide reasonable structural descriptions, [D.R. Dowty, L. Karttunen, A.M. Zwicky,
eds] Natural language parsing, Cambridge University Press, 206-250.
27
Marcel Cori
KAY M., 1985, Parsing in functional unification grammar, [D.R. Dowty, L. Karttunen et A.M.
Zwicky eds.] Natural language parsing, Cambridge University Press, 251-278.
LIGOZAT G., 1994, Représentation des connaissances et linguistique, Paris : Armand Colin.
MILLER P. H., 1999, Strong Generative Capacity : The Semantics of Linguistic Formalism, Stanford :
CLSI Publications.
MILLER P.H. et TORRIS T., 1990, Formalismes syntaxiques pour le traitement automatique du langage
naturel, Paris : Hermes.
PEREIRA F. et WARREN D., 1980, Definite Clause Grammars for Language Analysis - A
Survey of the Formalism and a Comparison with Augmented Transition Networks,
Artificial Intelligence, 13-3, 231-278.
POLLARD C. et SAG I. A., 1987, Information-Based Syntax and Semantics, Vol. 1: Fundamentals,
Stanford : CLSI Lecture Notes Series.
POLLARD C. et SAG I. A., 1994, Head-Driven Phrase Structure Grammar, Chicago : University of
Chicago Press.
POPPER K. R., 1959, The logic of scientific discovery, traduction française, 1973, Paris : Payot.
PULLUM G. K., 1991, Formal linguistics meets the Boolum, in The great eskimo vocabulary hoax,
The University of Chicago Press, 47-55.
REAPE M., 1994, Domain Union and Word Order Variation in German, [J. Nerbonne, K.
Netter et C. Pollard, eds] German in Head-Driven Phrase Structure Grammar, Stanford :
Lecture Note Series, CSLI, 151-197.
SHIEBER S. M., 1986, An introduction to unification-based approaches to grammar, Stanford : CSLI.
SHIEBER S. M., 1992, Constraint-Based Grammar Formalisms, The MIT Press.
TESNIÈRE L., 1959, Éléments de syntaxe structurale, Paris : Klincksieck.
WOODS W.A., 1970, Transition Network Grammars for Natural Language Analysis,
Communications of the ACM, 13 : 10, 591-606.
YNGVE V., 1960, A model and an Hypothesis For Language Structure. Proceedings of the
American Philosophical Society, 104, 444-466.
28