Vous êtes sur la page 1sur 63

TALN 2001, Tours, 2-5 juillet 2001 (version revue et corrige, juillet 2001)

Grammaires de dpendance formelles et thorie Sens-Texte1


Sylvain Kahane Lattice, Universit Paris 7, UFRL Case 7003, 2, place Jussieu, 75251 Paris cedex 5 sk@ccr.jussieu.fr

Rsum Abstract
On appelle grammaire de dpendance toute grammaire formelle qui manipule comme reprsentations syntaxiques des structures de dpendance. Le but de ce cours est de prsenter la fois les grammaires de dpendance (formalismes et algorithmes de synthse et danalyse) et la thorie Sens-Texte, une thorie linguistique riche et pourtant mconnue, dans laquelle la dpendance joue un rle crucial et qui sert de base thorique plusieurs grammaires de dpendance. We call dependency grammar every grammar which handles dependency structures as syntactic representations. The aim of this course is to present both dependency grammars (formalisms, analysis and synthesis algorithms) and the Meaning-Text theory, a rich but nevertheless not well known linguistic theory, in which dependency plays a crucial role and which serves as theoretical basis of several dependency grammars.

1 Introduction
La reprsentation syntaxique d'une phrase par un arbre de dpendance est certainement plus ancienne que la reprsentation par un arbre syntagmatique. L'usage des dpendances remonte l'antiquit. Les grammairiens arabes du 8ime sicle, comme Sibawaih, distinguaient dj gouverneur et gouvern en syntaxe et utilisaient cette distinction pour formuler des rgles d'ordre des mots ou de rection (Owens 1988:79-81). On trouve des reprsentations de structures de dpendance dans des grammaires du 19me sicle (Weber 1992:13). La premire thorie linguistique base sur la dpendance est incontestablement celle de Tesnire (1934, 1959), sans minimiser des travaux prcurseurs, comme les reprsentations molculaires de Jespersen (1924) ou la syntaxe du russe de Pekovskij (1934). Peu aprs, Hays (1960, 1964) dveloppait la premire grammaire de dpendance, tandis que Gaifman (1965) tablissait les liens entre les grammaires de dpendance de Hays, les grammaires catgorielles de Bar-Hillel et les grammaires de rcriture de Chomsky. A l'exception de la grammaire de Robinson (1970), les grammaires de dpendance se sont ensuite surtout dveloppes en Europe, notamment autour de Sgall et Hajiov Prague (Sgall et al. 1986) et de Mel'uk Moscou (Mel'uk 1974, 1988a), ainsi qu'en Allemagne (cf., par ex., la classique grammaire de l'allemand de Engel 1992) et au Royaume Uni autour de Anderson (1971) et Hudson (1990), la France restant curieusement l'cart.
1

Version revue et corrige par rapport la version publie dans les actes de TALN 2001. Je remercie en particulier Alexandra Kinyon et Alain Polgure pour leurs nombreuses corrections, remarques et suggestions prcieuses.

Sylvain Kahane

La reprsentation syntaxique d'une phrase par une structure syntagmatique, quant elle, ne s'est dveloppe qu' partir de Bloomfield (1933) et des travaux des distributionnalistes. L'engouement formidable pour les grammaires gnratives-transformationnelles de Chomsky (1957, 1965) dans les annes 60-70 a retard l'essor des grammaires de dpendance. Pourtant, depuis la fin des annes 70 et l'avnement de la Syntaxe X-barre, la plupart des modles linguistiques issus de la mouvance chomskienne (GB/PP/MP, LFG, G/HPSG) ont introduit l'usage de la dpendance syntaxique sous des formes plus ou moins caches (fonctions syntaxiques, constituants avec tte, cadre de sous-catgorisation, c-commande). De leur ct, les grammaires compltement lexicalises comme les Grammaires Catgorielles ou TAG (Joshi 1987), en drivant une phrase par combinaison de structures lmentaires associes aux mots de la phrase, construisent, par un effet de bord, des structures de dpendance. Le retour de la dpendance au premier plan, au cours des annes 80, est d deux facteurs principaux : le retour en grce du lexique d'une part et de la smantique d'autre part. Pour le lexique, les grammaires de dpendance, en mettant la lexie au centre de la structure syntaxique, permettent d'exprimer simplement les relations lexicales comme la valence et le rgime (ou sous-catgorisation). Pour la smantique, les structures de dpendance, en permettant de dissocier l'ordre des mots et la structure syntaxique proprement dite, se rapprochent davantage d'une reprsentation smantique que ne le fait une structure syntagmatique. Mieux encore, les relations smantiques prdicat-argument, parfois appeles dpendances smantiques, bien que devant tre distingues des dpendances syntaxiques, concident en partie avec celles-ci (cf. Mel'uk 1988b, Kahane & Mel'uk 1999). Enfin, les grammaires de dpendance prouvent l'heure actuelle leur bonne adquation au traitement automatique des langues. Citons deux systmes d'envergure dvelopps en France : le gnrateur de texte dvelopp LexiQuest par Coch (1996) et intgr au systme MultiMto (Coch 1998) de gnration de bulletins mto multilingues et l'analyseur en flux de Vergne (2000) qui a remport l'action Grace, portant sur l'valuation des tiqueteurs pour le franais. Pour d'autres travaux, on pourra galement se reporter aux actes du dernier atelier sur le traitement automatique par des grammaires bases sur la dpendance (Kahane & Polgure 1998), au numro spcial de la revue TAL sur les grammaires de dpendance (Kahane 2000c) et au portail officiel des grammaires de dpendance (http://ufal.mff.cuni.cz/dg.html). Comme annonc dans le titre, cet expos est consacr aux grammaires de dpendance en gnral et la thorie Sens-Texte en particulier. Dans la Section 2, nous tenterons de caractriser les notions de base de dpendance syntaxique et de fonction syntaxique et nous prsenterons les premires grammaires de dpendance. La Section 3 sera consacre la thorie Sens-Texte [TST], probablement la plus acheve des thories linguistiques bases sur la dpendance. Dans la Section 4, nous ferons le lien entre la TST, dont les rgles servent mettre en correspondance des structures, et les grammaires gnratives, dont les rgles servent gnrer des structures, et nous proposerons une grammaire de dpendance base sur les principes thoriques de la TST, mais utilisant un formalisme d'unification. Dans la Section 5, nous nous pencherons sur les techniques de base pour l'analyse avec une grammaire de dpendance. Je souhaite insister sur le fait que cet expos n'est pas un survol impartial du domaine des grammaires de dpendance, loin de l. Il s'agit clairement d'un point de vue personnel sur la question, enrichi, je l'espre, de mes nombreuses discussions avec Igor Mel'uk sur les fondements de la thorie Sens-Texte et sur le rle de la dpendance en linguistique. J'en profite pour le remercier chaleureusement pour ses nombreuses remarques sur la premire version de ce texte.

Grammaires de dpendance formelles et thorie Sens-Texte

2 Arbres et grammaires de dpendance


Dans la Section 2.1, nous tenterons de caractriser la notion de dpendance syntaxique. A travers divers exemples, nous exposerons les points qui font lunanimit entre les diffrentes thories et ceux qui posent problme (l'auxiliaire, la conjonction de subordination, le dterminant, le pronom relatif, la coordination, ). Nous nous intresserons aux diffrentes faons d'encoder la dpendance et en particulier l'quivalence entre arbres de dpendance et arbres syntagmatiques avec ttes. Dans la Section 2.2, nous nous intresserons la notion de fonction syntaxique qui est indissociable de celle de dpendance syntaxique. Enfin, dans la Section 2.3, nous prsenterons les premires grammaires de dpendance (Hays 1964, Gaifman 1965) et leur lien avec les grammaires catgorielles et les grammaires de rcriture horscontexte.

2.1 Caractrisation de la notion de dpendance syntaxique


La quasi-totalit des thories linguistiques s'accordent sur le fait que, au-del de la question du sens, les mots d'une phrase obissent un systme d'organisation relativement rigide, qu'on appellera la structure syntaxique de la phrase. Il existe deux grands paradigmes pour reprsenter cette structure : soit dcrire la faon dont les mots peuvent tre groups en des paquets de plus en plus gros (ce qui a donn les structures syntagmatiques), soit expliquer la faon dont les mots, par leur prsence, dpendent les uns des autres (ce qui a donn les structures de dpendance). Comme on le verra, les deux paradigmes s'opposent davantage sur la faon de prsenter l'organisation syntaxique que sur la nature mme de cette organisation.2 Considrer qu'un arbre de dpendance syntaxique peut rendre compte des proprits syntaxiques d'une phrase, c'est considrer que dans une phrase, la prsence de chaque mot (sa nature et sa position) est lgitime par la prsence d'un autre mot (son gouverneur syntaxique), l'exception d'un mot, le mot principal associ au sommet de l'arbre syntaxique. La dpendance syntaxique est donc une dpendance entre mots (Figure 1 gauche).

parle garon le petit Marie garon

parle

le petit Marie

Figure 1 : Arbre de dpendance et arbre la Gladkij pour Le petit garon parle Marie Cette prsentation de la structure syntaxique de la phrase est souvent mal accepte de ceux qui voient plutt des relations entre des mots et des groupes de mots que des relations entre des mots seulement. Prcisons ce point. Quand un mot x lgitime la prsence d'un mot y (c'est-dire quand x gouverne y), en fait, par transitivit, x lgitime galement la prsence des mots lgitims par y et des mots lgitims par ceux-ci. En consquence, x lgitime non seulement la
2

Je parle ici des reprsentations elles-mmes. Il existe bien sr des oppositions plus fondamentales qui ont conduit les uns ou les autres dvelopper telle ou telle manire de prsenter les choses. En particulier, la grammaire syntagmatique est ne d'une vision purement oriente vers l'analyse ( partir du texte), le distributionnalisme, et d'un rejet presque absolu des questions de smantique et des diffrences lexicales (voir Gross 1975 qui a point avec clat cette lacune srieuse de la grammaire gnrative).

Sylvain Kahane

prsence de y, mais la prsence d'un groupe de mot, qu'on appelle la projection de y. On peut donc prsenter la structure de dpendance non pas comme des dpendances entre mots, mais comme des dpendances entre des mots et des groupes de mots ( l'intrieur desquels il y a nouveau des dpendances entre mots et groupes de mots. Cette structure de dpendance entre des mots et des groupes peut tre reprsente par une structure que nous appellerons un arbre la Gladkij (Figure 1 droite) (Gladkij 1968, Kahane 1997). A l'intrieur de chaque groupe ainsi considr, il y a un mot qui n'appartient aucun sous-groupe et qu'on appelle la tte3. On peut aussi reprsenter l'arbre la Gladkij par une structure syntagmatique avec ttes lexicales, c'est--dire une structure syntagmatique traditionnelle4 o chaque constituant possde un sous-constituant tte qui est un mot. Nous reprsentons Figure 2 la structure syntagmatique avec tte lexicale quivalente l'arbre de dpendance de la Figure 1. Cette structure est reprsente de deux faons : par un parenthsage ou enchssement de groupe (figure de gauche) et par un arbre formellement quivalent (figure de droite) ; dans les deux cas, le sous-constituant tte est indiqu par l'tiquette T. Notons que le fait de considrer pour chaque constituant une tte n'est pas nouveau (cf. par ex. Pittman 1948). Ceci est devenu monnaie courante depuis la Syntaxe X-barre (Jackendoff 1977).

parle T garon
T T

T T

parle T Marie

le petit Marie

garon le petit

Figure 2 : Arbres syntagmatiques avec ttes pour Le petit garon parle Marie Les structures syntagmatiques avec tte et les arbres de dpendance (entre mots) sont formellement quivalents (Gladkij 1966, Robinson 1970). On a vu comment on passe d'un arbre de dpendance une structure syntagmatique avec tte en introduisant les groupes obtenus par transitivation de la relation de dpendance. Inversement, on passe d'un arbre syntagmatique avec tte lexicale un arbre de dpendance en ne reprsentant plus les groupes et en reliant le gouverneur d'un groupe directement avec la tte de ce groupe. 5 Aprs nous tre attach aux diffrentes faons de reprsenter formellement la dpendance, nous allons aborder la question de la caractrisation thorique de la dpendance. Tesnire lui-

Nous distinguons clairement les termes tte et gouverneur. Le gouverneur x d'un mot y (ou d'un goupe G) est le mot qui lgitimise la prsence de y (ou de G). Il n'appartient pas G. Par contre, la tte y du groupe G est un mot de G qui lgitimise, par transitivit, la prsence des autres mots de G. L'arbre de dpendance n'encode pas l'ordre linaire des mots. Bien que ce ne soit pas l'usage, on parle donc ici d'un arbre syntagmatique non ordonn. On peut galement obtenir un arbre de dpendance partir d'une structure syntagmatique avec tte o on autorise le sous-constituant tte tre un groupe de mots. En d'autres termes, on autorise en fait un mot tre la tte lexicale de plusieurs constituants. (Par exemple, S a pour tte GV qui a pour tte V et donc le verbe est la tte lexicale de GV et de S.) Dans ce cas, lors du passage un arbre de dpendance, on crase les diffrents constituants qui possdent la mme tte et la structure de dpendance est donc structurellement plus pauvre, bien qu'on puisse rcuprer cette information (l'appartenance une projection de la tte et pas une autre) autrement, par exemple dans l'tiquetage des dpendances, en considrant diffrents types de relations syntaxiques comme cela est l'usage en grammaire de dpendance.

Grammaires de dpendance formelles et thorie Sens-Texte

mme ne caractrise pas clairement la dpendance. Mel'uk 1988a propose, la suite de Garde 1977, une tentative de caractrisation directement en terme de dpendance entre mots. Du fait de l'quivalence entre arbres de dpendance et structure syntagmatique avec tte, il est galement possible de caractriser la dpendance en caractrisant le constituant, puis la tte d'un constituant. Nous ne nous attarderons pas sur la faon d'identifier les constituants, mais sur la faon d'identifier la tte d'un constituant. Concernant les diffrentes dfinitions possibles de la tte et les cas litigieux, citons tout particulirement le travail de Zwicky 1985. Nous adopterons ici la dfinition suivante (Mel'uk 1988a) : La tte syntaxique d'un constituant est l'lment qui dtermine la valence passive de ce constituant, c'est--dire l'lment qui contrle la distribution de ce constituant. Nous allons illustrer cette dfinition par des exemples. Commenons par la tte de la phrase. A l'intrieur de la proposition, tout le monde s'accorde considrer que le verbe fini est la tte, car c'est bien la prsence du verbe fini qui fait qu'il s'agit d'une proposition. Signalons nanmoins deux difficults : 1) Lorsque le verbe est un temps compos (comme dans Pierre a donn un livre Marie), on peut s'interroger sur qui de l'auxiliaire ou du participe est la tte de la proposition. Certains considrent que l'auxiliaire dpend du participe. Je serais plutt enclin prfrer considrer, la suite de Tesnire ou de Mel'uk, que l'auxiliaire est la tte. En effet, c'est l'auxiliaire qui porte le mode (Il faudrait que Pierre ait/*a donn un livre Marie), qui hrite de marques grammaticales (Pierre pense avoir donn un livre Marie ; Pierre a-t-il donn un livre Marie ?), qui porte la ngation (Pierre n'a pas donn un livre Marie), 2) Dans des langues comme le franais ou l'anglais o la prsence du sujet est obligatoire, des linguistes ont t amens considrer que la prsence du sujet n'tait pas lgitim par le verbe, mais par un principe suprieur. Dans la grammaire gnrative, on considre l'heure actuelle que le sujet, la diffrence des complments n'est pas gouvern par le verbe en tant que tel, mais par le morphme grammatical exprimant le temps. Dans la mesure o ce morphme appartient la forme verbale et o, en grammaire de dpendance, on ne considre que les dpendances entre mots, les deux approches sont compatibles. Elles le sont encore en considrant que lorsque le verbe est un temps compos, le sujet dpend de l'auxiliaire qui est aussi le porteur de la flexion temporelle. Plus gnralement, tout le monde s'accorde sur le sens de la relation de dpendance lorsqu'il existe une relation de subordination, c'est--dire lorsqu'il existe une relation actancielle (entre une tte et son actant) ou une relation modificative (entre une tte et un modifieur) (mme si la frontire entre actant et modifieur est parfois difficile saisir).6 Pose problme la coordination et les relations avec des lments jouant un rle grammatical, notamment les complmenteurs, les dterminants et les auxiliaires. Avant de parler de la coordination, nous allons aborder la question des lments grammaticaux en voquant la thorie de la translation de Tesnire (1959). Si l'uvre de Tesnire est bien connue pour ce qui concerne la dpendance, on a souvent oubli sa thorie de la translation qu'il considrait probablement comme sa dcouverte principale (bien qu'on puisse estimer que l'ide est dj l dans la thorie des rangs de Jespersen 1924). Selon Tesnire, il existe 4 parties du discours majeures (verbe, nom, adjectif, adverbe) avec des relations prototypiques entre ces parties du discours : les actants du verbe sont des noms et ses modifieurs des adverbes, les dpendants du nom sont des adjectifs et les
6

La distinction entre actants et modifieurs est considre par Tesnire (1959), qui l'on doit le terme d'actant (et de circonstant pour les modifieurs). Nous reviendrons dans la Section 3.2 sur cette distinction qui joue un grand rle dans la thorie Sens-Texte.

Sylvain Kahane

dpendants de l'adjectif et de l'adverbe sont des adverbes. Nanmoins, un lment de partie du discours X peut venir occuper une position normalement rserve un lment de partie du discours Y, mais dans ce cas, l'lment doit tre translat de la partie du discours X la partie du discours Y par un lment morphologique ou analytique appel un translatif de X en Y. Comme il y a 4 parties du discours majeures, il y aura 16 types de translatifs (y compris des translatifs de X en X qui ne change pas la partie du discours). Par exemple un verbe peut tre l'actant d'un autre verbe (c'est--dire occuper une position nominale), mais il devra tre l'infinitif ou tre accompagn de la conjonction de subordination que (Pierre veut la parole ; Pierre veut parler ; Pierre veut que Marie parle). L'infinitif et la conjonction de subordination que sont donc des translatifs de verbe en nom. De mme, les participes pass et prsent, qui permettent un verbe de modifier un nom (le livre rouge ; le livre vol par Pierre ; la personne volant le livre), sont des translatifs de verbe en adjectif, la copule tant son tour un translatif d'adjectif en verbe (le livre est rouge ; le livre est vol par Pierre). Les prpositions quant elles seront catgorises comme des translatifs de nom en adjectif ou en adverbe (le livre rouge ; le livre de Pierre ; Pierre boit maladroitement ; Pierre boit avec maladresse). Les cas de translation suscitent gnralement des discussions quant au choix de la tte : le translatif, lorsqu'il est analytique doit-il tre trait comme le gouverneur du translat ou comme un dpendant ? Si l'on s'en tient notre dfinition de la tte, le translatif doit tre clairement considr comme le gouverneur, car c'est bien lui qui contrle la valence passive, son rle tant justement de permettre au translat d'occuper des positions auxquelles il ne pourrait accder sans tre translat. Nanmoins, certains, comme Pollard & Sag (1994:44) en HPSG, considrent que la conjonction de subordination que doit tre traite comme un marqueur, le verbe restant la tte de la compltive, arguant du fait que la distribution de la compltive dpend galement du mode qui est port par le verbe (Il faut que Pierre parte/*part ; Marie pense que Pierre part/*parte). En fait, cela revient traiter les deux lments, le translatif et le translat, plus ou moins comme des co-ttes, puisque les traits tte et marqueur sont tous les deux des traits de tte en HPSG (c'est--dire des traits dont les valeurs montent sur la structure rsultante de leur combinaison). Tesnire lui-mme hsite traiter le translatif comme le gouverneur du translat et prfre parler de nuclus translatif : il reprsente alors le translatif et le translat comme un groupe (dessin horizontalement) et dpendant ensemble de leur gouverneur. En plus, du fait que le translat contrle aussi quelque peu la distribution du groupe translatif-translat (par exemple, certaines positions n'acceptent que des verbes infinitifs, c'est--dire des verbes translats en nom, mais pas de noms : Pierre peut partir ; *Pierre peut le dpart), Tesnire argue du fait que les translatifs ont tendance tre analytiques au dpart et se morphologiser par la suite (c'est--dire devenir des morphmes flexionnels sur le mot qu'ils translatent)7 et que le lien entre le translatif et le translat est particulirement troit. La coordination est un autre cas qui pose problme. Considrons la phrase Pierre achte un livre et un cahier neufs. Si l'on s'en tient considrer que la structure syntaxique doit tre un arbre de dpendance et que tout groupe doit avoir une tte, le meilleur candidat comme tte du groupe coordonn est certainement le premier conjoint (ici livre) (Mel'uk 1988a) (Figure 3, gauche). Certains proposent galement de prendre la conjonction de coordination (ici et) comme tte du groupe coordonn, mais il s'agit alors d'un choix davantage guid par la smantique, la conjonction de coordination agissant comme oprateur smantique prenant les

Tesnire distingue les translats des drivs : le translat, mme lorsque la translation est morphologique, continue se comporter vis--vis de ses dpendants comme un lment de sa partie du discours initiale : par exemple, le verbe l'infinitif, c'est--dire le verbe translat en nom, continue se comporter comme un verbe vis--vis de ses dpendants, la diffrence du driv. Par exemple, si l'on compare manier cet outil est difficile et le maniement de cet outil est difficile, on voit qu'avec le verbe translat en nom manier, outil reste complment d'objet, alors qu'avec le driv nominal maniement, il devient complment de nom.

Grammaires de dpendance formelles et thorie Sens-Texte

conjoints comme arguments.8 Notre exemple prsente une deuxime difficult due au fait que l'adjectif neufs, qui est au pluriel, modifient les deux conjoints. Si l'on impose la structure d'tre un arbre, l'adjectif ne pourra dpendre des deux conjoints ; il sera donc dpendant du deuxime conjoint par une relation syntaxique spcifique (ici mod-distr) indiquant qu'il se distribue sur les deux conjoints.9 On peut aussi considrer comme le font la plupart des grammaires syntagmatiques avec tte (Jackendoff 1977, Pollard & Sag 1994) que les conjoints sont des co-ttes. Dans le cadre des grammaires de dpendance, cette solution peut tre formalise de deux faons. La premire consiste considrer, comme le proposent Tesnire 1959 ou Hudson 1990, 2001, que les diffrents conjoints soient des codpendants et qu'un dpendant partag par les conjoints dpendent des deux conjoints (Figure 3, au centre). La deuxime consiste introduire un nud supplmentaire pour le groupe conjoint, par exemple sous forme d'une bulle comme propos dans Kahane 1997, et attribuer ce nud un dpendant partag par les deux conjoints (Figure 3, droite).

achte
suj dobj

achte livre et
conj suj dobj

achte
dobj suj dobj

Pierre

dt coord

Pierre

livre
dt

et

cahier

mod

dt mod

Pierre un

livre et cahier
dt dt mod

un

cahier

un

un neufs

dt mod-distr

un neufs

un

neufs

Figure 3 : Trois structures de dpendance pour un groupe coordonn : arbre, graphe la Tesnire, arbre bulles Parmi les autres cas qui posent problme, citons le cas du dterminant (Zwicky 1985 ; Abney 1987 o il est dfendu la DP-hypothesis, c'est--dire le choix du dterminant comme tte du groupe nominal) et du pronom relatif (Tesnire 1959:561, Kahane & Mel'uk 1999, Kahane 2000a). Si comme on l'a vu, le recours un arbre de dpendance peut dans certains cas ne pas tre entirement satisfaisant, je voudrais insister sur le fait que mme dans ces cas-l, l'arbre de dpendance reste un moyen d'encodage suffisant. Il est possible que des moyens d'encodage de l'organisation syntaxique plus puissants permettent des analyses plus lgantes, mais l'arbre de dpendance conserve l'avantage de la simplicit. En plus, l'arbre de dpendance n'a pas, la diffrence du rle donn l'arbre syntagmatique en grammaire gnrative, comme objectif d'encoder toutes les informations pertinentes sur une phrase. Dans la plupart des grammaires de dpendance et en particulier dans la thorie Sens-Texte, l'arbre de dpendance est avant tout une reprsentation intermdiaire entre la reprsentation smantique et la reprsentation morphologique (l o les mots sont forms et ordonns). L'arbre de dpendance doit donc contenir suffisamment d'information pour exprimer la relation avec la reprsentation smantique, notamment les possibilits de redistribution ou de
8

De la mme faon, un adjectif agit comme un prdicat smantique qui prend le nom qu'il modifie comme argument ( le livre rouge : rouge(livre)) sans qu'on souhaite pour autant considrer l'adjectif comme le gouverneur syntaxique du nom. Il est vrai que l'adjectif entretient un rapport privilgi avec le deuxime conjoint. Par un exemple, il est difficile de ne pas respecter l'accord en genre avec le deuxime conjoint : ??un plat et une assiette blancs.

Sylvain Kahane

pronominalisation. D'un autre cot, il doit galement contenir suffisamment d'informations pour exprimer les relations avec la reprsentation morphologique, c'est--dire les diffrentes possibilits d'ordre, d'accord ou d'assignation de cas. Ni plus, ni moins.

2.2 Fonctions syntaxiques


Un arbre de dpendance ne suffit pas encoder l'organisation syntaxique des phrases sans un tiquetage des dpendances par des fonctions syntaxiques. Les fonctions syntaxiques permettent de distinguer les diffrents dpendants d'un mme mot, mais aussi de rapprocher deux dpendants de deux mots diffrents qui prsentent des comportements similaires vis-vis de diffrentes proprits syntaxiques : placement, pronominalisation, rgime, accord, redistribution, cooccurrence, La notion de fonction syntaxique a t labore depuis l'antiquit et utilise indpendamment des grammaires de dpendance, par la grammaire traditionnelle, comme par des travaux plus formel comme ceux de Jespersen 1924. Tesnire a certainement marqu une tape fondamentale dans la comprhension de la notion de fonction syntaxique en liant la fonction la dpendance et en passant de la notion de sujet de la proposition celle de sujet du verbe. Dans le courant gnrativiste, on a vit le recours explicite un tiquetage fonctionnel en tentant d'encoder les diffrences de comportement d'un dpendant d'un mot par des diffrences de position dans l'arbre syntagmatique (par exemple le sujet est le GN sous S ou Infl', alors que l'objet direct est le GN sous GV). Nanmoins, de nombreuses thories issues de la grammaire syntagmatique (notamment LFG et HPSG) ont rintroduit explicitement la notion de fonction syntaxique, notamment la suite des travaux de Comrie & Keenan 1987 sur la hirarchie fonctionnelle.10 (Cf. Abeill 1996-97 pour un survol des diffrents arguments pour l'usage des fonctions syntaxiques en grammaire syntagmatique.) L'une des principales difficults pour dcider combien de fonctions syntaxiques il est ncessaire de considrer est qu'on peut toujours attribuer une proprit particulire la catgorie du dpendant ou du gouverneur (comme le font les grammaires syntagmatiques) plutt qu' l'tiquette de la relation de dpendance entre eux. Quitte multiplier les catgories syntaxiques, il est formellement possible de limiter l'tiquetage des relations un simple numrotage (il faut quand mme garder un minimum pour distinguer entre eux les diffrents complments du verbe). Il semble donc difficile d'tablir des critres exacts pour dcider si deux dpendances doivent ou non correspondre la mme fonction et il est ncessaire de prendre en compte l'conomie gnrale du systme en cherchant limiter la fois le nombre de catgories syntaxiques et le nombre de fonctions syntaxiques et chercher la plus grande simplicit dans les rgles grammaticales. On attribuera donc la catgorie syntaxique les proprits intrinsques d'une lexie (c'est--dire qui ne dpendent pas de la position syntaxique) et la fonction les proprits intrinsques d'une position syntaxique (c'est--dire qui ne dpendent pas de la lexie qui l'occupe). Autrement dit, on attribuera la mme catgorie des lexies qui prsentent un comportement similaire dans toutes les positions syntaxiques et la mme fonction des positions syntaxiques qui prsentent des comportements similaires avec toutes les lexies. Pour caractriser l'ensemble des diffrentes fonctions syntaxiques, nous avons besoin de critres pour dcider 1) si deux dpendants d'un mme mot (dans deux phrases diffrentes) remplissent la mme fonction et 2) si deux dpendants de deux mots diffrents remplissent la mme fonction.

10

Toute grammaire syntagmatique qui fait usage des fonctions syntaxiques dfinit un arbre la Gladkij (chaque syntagme dpend d'un mot) et devient de fait une grammaire de dpendance.

Grammaires de dpendance formelles et thorie Sens-Texte

Pour le premier cas considrons le paradigme suivant : Pierre lit le livre / Pierre le lit / le livre que Pierre lit. On admet gnralement que les syntagmes un livre, le et que11 sont des ralisations du deuxime argument smantique du prdicat lire ; plus prcisment, le et que sont des formes pronominales de cet argument. De plus, ces syntagmes s'excluent mutuellement (*ce que Pierre lit le livre ; *ce que Pierre le lit ; seul Pierre le lit le livre est possible, mais avec une prosodie sur le livre trs diffrente de Pierre lit le livre, qui laisse penser que le livre ne remplit pas alors la mme fonction). Dans ce cas, on considre que ces lments remplissent tous la mme fonction ( savoir la fonction d'objet direct). Pourtant, les complments un livre, le et que ne se positionnent pas de la mme faon et les pronoms, la diffrence des groupes nominaux, distinguent les cas (il/le/lui ; qui/que). Peuttre, peut-on distinguer fonction et relation syntaxique et dire que le clitique le remplit la fonction d'objet direct, mais dpend de son gouverneur par une relation spcifique (comme objet-clitique) qui impose un placement particulier ainsi que l'assignation d'un cas. 12 Dans ce cas, l'arbre de dpendance sera tiquet par des relations syntaxiques et deux lments remplissant des fonctions syntaxiques similaires pourront dpendre de leur gouverneur par des relations syntaxiques diffrentes. Nanmoins, il ne semble pas ncessaire de leur attribuer des relations syntaxiques diffrentes, car le comme que appartiennent des classes fermes de mots outils pour lesquels on peut donner des rgles d'ordre spcifique. Mais on peut comprendre que certains prfrent introduire des relations syntaxiques spcifiques pour ces lments plutt que de devoir invoquer des proprits catgorielles de l'lment dpendant dans la rgle de placement de l'objet direct. Considrons un deuxime paradigme : Pierre veut un bonbon / Pierre veut manger / Pierre veut qu'on lui donne un bonbon. Encore une fois, ces diffrents complments ralisent tous le deuxime argument smantique du verbe vouloir, s'excluent mutuellement et se pronominalisent de la mme faon (Pierre le veut ; Que veut Pierre ?), ce qui nous inciterait leur attribuer la mme fonction syntaxique. Nanmoins, la construction avec verbe infinitif (veut manger) ncessite des spcifications supplmentaires, savoir qu'il s'agit d'une construction verbe contrle, ou equi-construction, o le sujet du verbe vouloir concide avec le sujet de l'infinitif. Ceci peut suffire vouloir introduire une relation particulire, bien qu'il existe d'autres faons d'encoder cette proprit (par exemple, en considrant directement une relation particulire entre le verbe infinitif et le sujet de vouloir). Notons qu'il existe un autre critre souvent invoqu pour dcider si deux dpendants d'un mme mot remplissent la mme fonction : la coordination (Sag et al. 1985, Hudson 1988). On peut dcider par exemple que deux syntagmes peuvent tre coordonns seulement s'ils remplissent la mme fonction (condition laquelle s'ajouteront d'autres conditions, notamment sur l'identit catgorielle).13 Dans notre dernier exemple, le fait que la coordination soit possible (Pierre veut un bonbon et manger) nous incitera encore davantage utiliser la mme fonction. Considrons maintenant le deuxime cas : comment dcider si des dpendants de deux mots diffrents doivent recevoir la mme fonction. On considre que les dpendants de deux mots diffrents remplissent la mme fonction si et seulement si ils acceptent les mmes
11

On suppose ici que que est trait comme un dpendant du verbe, ce qui n'est pas ncessairement justifi (Kahane 2000b). Pour assurer la monte du clitique dans, par exemple, Pierre le fait lire Marie, on peut mme considrer que le clitique dpend de faire, alors qu'il remplit une fonction vis--vis de lire. Par exemple, la coordination des adjectifs pithtes obit des conditions complexes et l'itration de la relation d'pithte est souvent prfrable la coordination : des plats franais exquis, ?*des plats franais et exquis, des plats franais et nanmoins exquis.

12

13

10

Sylvain Kahane

redistributions, les mmes pronominalisations et les mmes linarisations (Iordanskaja & Mel'uk 2000). Considrons un premier exemple : Pierre compte sur Marie / Pierre pose le livre sur la table / le livre est sur la table. Les dpendants sur Marie et sur la table remplissent-ils la mme fonction ? Ces dpendants se distinguent nettement par leurs possibilits de pronominalisation : seul le deuxime accepte la cliticisation en y (*Pierre y compte ; Pierre y pose le livre ; le livre y est) et les interrogatives et les relatives en o (*O Pierre compte-t-il ? ; O Pierre pose-t-il le livre ? ; O le livre est-il ?). De plus, le complment en sur de poser ou tre est interchangeable avec des complments introduits par d'autres prpositions (Pierre pose le livre sous la table / dans la bote /). On distinguera donc deux fonctions syntaxiques diffrentes, complment oblique pour compter et complment locatif pour poser et tre (qui n'est pas le mme tre que la copule). Deuxime exemple : Pierre compte sur Marie / Pierre est aid par Marie. Les dpendants sur Marie et par Marie remplissent-ils la mme fonction ? Aucune redistribution de ces dpendants n'est possible. On peut objecter que Pierre est aid par Marie est le rsultat de la passivation de Marie aide Pierre, mais la passivation est en quelque sorte oriente et Marie aide Pierre n'est pas le rsultat d'une redistribution de Pierre est aid par Marie. Les possibilits de pronominalisation sont les mmes : pas de cliticisation, mme pronominalisation pour les interrogatives et les relatives. On pourrait objecter que sur N accepte la pronominalisation en dessus, mais celle-ci est trs rgulire et doit tre impute la prposition sur (de mme qu'on aura dessous pour sous ou dedans pour dans) plutt qu' la fonction de sur N. Les possibilits de placement sont galement les mmes. En consquence on peut attribuer ces deux relations la mme tiquette, par exemple complment oblique. Cela n'empche pas de dire que par Marie dans Pierre est aid par Marie est un complment d'agent ; ceci ne signifie pas que ce groupe remplit la fonction syntaxique de complment d'agent qui n'a pas de raison d'exister en tant que telle, mais simplement que ce groupe est le rsultat d'une ralisation particulire de l'agent suite une redistribution. Un dernier exemple : Pierre mange un bonbon / Pierre veut un bonbon. Les deux dpendants un bonbon remplissent-ils la mme fonction ? Les deux dpendants partagent les mmes proprits une exception prs, la passivation (le bonbon est mang par Pierre ; ?*le bonbon est voulu par Pierre). Deux solutions sont alors possibles : 1) considrer qu'il s'agit de la mme fonction dans les deux cas (objet direct) et faire assumer la diffrence la catgorie du verbe qui gouverne cette position ou 2) considrer qu'il s'agit de deux fonctions diffrentes. Etant donne la grande similitude comportement par ailleurs, la premire solution est plus conomique. En conclusion, comme on l'a vu, le choix d'un ensemble de fonctions syntaxiques est directement li la faon dont seront crites les rgles de pronominalisation, linarisation, redistribution ou coordination.

2.3 Premires grammaires de dpendance


Dans cette section, nous allons prsenter les premires grammaires de dpendance (Hays 1960, Gaifman 1965), qui ont pour particularit de ne traiter que des structures projectives. Rappelons que lun des points remarquables de la thorie de Tesnire est davoir dissoci la reprsentation syntaxique de lordre linaire des mots : les arbres de dpendance de Tesnire ne sont pas ordonns. Lobjet de la syntaxe est alors dexprimer le lien entre lordre des mots et leurs relations de dpendance. Lune des principales proprits de compatibilit entre un arbre de dpendance et un ordre linaire est la projectivit (Lecerf 1961, Iordanskaja 1963, Gladkij 1966). Un arbre de dpendance assorti d'un ordre linaire sur les nuds est dit projectif si et seulement si, en

Grammaires de dpendance formelles et thorie Sens-Texte

11

plaant les nuds sur une ligne droite et tous les arcs dans le mme demi-plan, on peut assurer que 1) deux arcs ne se coupent jamais et que 2) aucun arc ne couvre la racine de larbre (Figure 5)14.

* (1)

* (2)

Figure 4 : Les cas de non projectivit La projectivit est quivalente au fait que la projection de tout nud x de l'arbre (cest--dire l'ensemble des nuds domins par x, x compris) forme un segment continu de la phrase (Lecerf 1961, Gladkij 1966). Autrement dit, la projectivit dans le cadre des grammaires de dpendance correspond la continuit des constituants dans le cadre des grammaires syntagmatiques. La littrature sur les structures de dpendance non projectives est dailleurs toute aussi abondante que la littrature sur les constituants discontinus (toutes proportions gardes). Nous y reviendrons la fin de cette section. La projectivit prsente un intrt immdiat : il suffit, pour ordonner un arbre projectif, de spcifier la position de chaque nud par rapport son gouverneur, ainsi que vis--vis de ses frres (Figure 5). Nous allons voir comment cette proprit est exploite par les premires grammaires de dpendance.

le

Zo

petit garon parle

Figure 5 : Un exemple darbre de dpendance projectif La premire grammaire de dpendance formelle est due Hays (1960). Une grammaire de Hays est constitue d'un vocabulaire V, d'une ensemble de catgories lexicales C, d'un lexique associant chaque lment du vocabulaire une catgorie et d'un ensemble de rgles de la forme X(Y1Y2Yk*Yk+1Yn) o X et les Yi sont des catgories lexicales. La rgle X(Y1Y2Yk*Yk+1Yn) indique qu'un nud de catgorie X peut possder n dpendants de catgories respectives Y1, Y2, , Yn placs dans l'ordre linaire Y1Y2Yk*Yk+1Yn (o * indique la place de X par rapport ses dpendants). Une rgle de la forme X(*) indique qu'un nud de catgorie X peut tre une feuille de l'arbre de dpendance. Une telle grammaire permet de gnrer des arbres de dpendance projectifs dont les nuds sont tiquets par un mot de V et sa catgorie syntaxique dans C ou, ce qui revient au mme, gnrer des suites de mots de V o chaque mot correspond un nud d'un arbre de dpendance tiquet par une catgorie syntaxique dans C. Comme on le voit, les grammaires de Hays n'ont pas recours aux fonctions syntaxiques et elles gnrent simultanment des arbres de dpendances et des suites de mots. Comme l'a remarqu Gaifman (1965), les grammaires de Hays peuvent tre simules par des grammaires catgorielles la Ajdukiewicz-Bar-Hillel (Ajdukiewicz 1935 ; Bar-Hillel 1953), la rgle X(Y1Y2Yk*Yk+1Yn) correspondant simplement la catgorie complexe YkY1\X/YnYk+1 (l'inversion dans l'ordre des catgories est due au fait que la catgorie la plus l'extrieur sera la premire tre rduite et donnera donc le dpendant le plus proche de X). Si les grammaires catgorielles la Ajdukiewicz-Bar-Hillel ne sont pas considres
14

Suivant Hudson 2000, nous reprsenterons la racine de larbre avec une dpendance gouverneur verticale (potentiellement infinie). La condition (2) se ramne alors un cas particulier de la condition (1).

12

Sylvain Kahane

comme les premires grammaires de dpendance, c'est que les auteurs n'ont jamais mis leur formalisme en relation avec la construction d'arbres de dpendance (ni d'arbres syntagmatiques d'ailleurs). De plus, une catgorie complexe comme la catgorie N/N donne un adjectif antpos ne s'interprte pas par un adjectif est un N dont dpend un N droite, mais comme un adjectif est un mot qui combin un N sa droite donne un syntagme de mme nature (voir nanmoins Lecomte 1992 pour une interprtation des grammaires catgorielles en termes de graphes et Rtor 1996 pour le lien entre grammaire logique et rseaux de preuve, eux-mmes interprtables en termes de graphes de dpendance). Gaifman (1965) a galement not que les grammaires de Hays sont trivialement simulables par des grammaires de rcriture hors-contextes o la rgle X(Y1Y2Yk*Yk+1Yn) correspond un famille de rgle de rcriture XY1Y2YkaYk+1Yn pour tout mot a de catgorie X. Les grammaires de Hays, les grammaires d'Ajdukiewicz-Bar-Hillel et leurs quivalents en grammaire de rcriture se distinguent par la faon dont le vocabulaire pointe sur les rgles syntaxiques. L'article de Gaifman (1965) contient galement deux rsultats remarquables : l'quivalence faible entre les grammaires hors-contexte et les grammaires de dpendance de Hays15 et un thorme d'quivalence forte entre une large classe de grammaires hors-contextes et les grammaires de dpendance de Hays (cf. galement Dikovsky & Modina 2000). D'un point de vue linguistique, les grammaires de Hays prsentent plusieurs faiblesses : elles ne sparent pas les rgles de bonne formation des arbres de dpendance des rgles de linarisation, c'est--dire des rgles de mise en correspondance d'un arbre de dpendance et d'un ordre linaire. De plus, concernant la bonne formation des arbres de dpendance, elles ne distinguent pas la sous-catgorisation et la modification. Ceci peut tre rsolu trs simplement en divisant une rgle de la forme X(Y1Y2Yk*Yk+1Yn) en trois familles de rgles : une rgle indiquant quelles sont les catgories des actants de X, des rgles indiquant quelles sont les catgories des modifieurs potentiels de X et une ou des rgles indiquant comment les dpendants de X se placent les uns par rapport aux autres. On aura alors avantage tiqueter les dpendances par des fonctions et mentionner les fonctions plutt que les catgories dans les rgles de linarisation. Nous verrons dans la suite comment ces diffrentes rgles se prsentent dans le cadre de la thorie Sens-Texte. Enfin, les grammaires de Hays ne prvoient pas le traitement de structures non projectives16. Pour traiter les cas non projectifs, diffrentes extensions sont possibles : on peut introduire des traits Slash dans les catgories comme cela est fait en GPSG et HPSG (Pollard & Sag 1994 ; cf. Lombardo & Lesmo 2000 pour une adaptation du procd aux grammaires de dpendance), proposer des rgles spcifiques qui permettent de dplacer des lments dans l'arbre de dpendance pour se ramener un arbre projectif (Hudson 2000, Kahane et al. 1998) ou utiliser une structure plus complexe o est vrifi un quivalent de la projectivit (Kahane 2000a). D'autres mthodes consistent ne pas mettre en relation l'arbre de dpendance directement en relation avec l'ordre linaire, mais utiliser une structure syntagmatique intermdiaire comme cela est fait en LFG (Bresnan 1982, Bresnan et al. 1982 ; cf. Gerdes &

15

Plus prcisment, Gaifman 1965 montre que toute grammaire hors contexte est simulable par une grammaire dont les rgles sont de la forme X aY1Y2, XaY1 et Xa , ce qui est un thorme bien connu sous le nom de thorme de mise en forme normale de Greibach, thorme attribu Greibach (1965) par qui ce rsultat a t dmontr indpendamment. En franais, l'une des principales sources de constructions non projectives sont les extractions non bornes, comme la relative une personne sur qui je pense que tu peux compter, o sur qui n'est pas dans la projection de son gouverneur compter, puisqu'ils sont spars par peux et pense qui sont des anctres de compter. Les constructions non projectives sont monnaies courantes dans des langues ordre libre comme l'allemand (cf., par exemple, Gerdes & Kahane 2001).

16

Grammaires de dpendance formelles et thorie Sens-Texte

13

Kahane 2001 ou Duchier & Debusman 2001 pour des mthodes quivalentes dans le cadre des grammaires de dpendance).

14

Sylvain Kahane

3 Prsentation de la thorie Sens-Texte


La thorie Sens-Texte [TST] est ne il y a 35 ans des premiers travaux en traduction automatique en URSS (olkovskij & Mel'uk 1965, 1967) et sest depuis dveloppe autour dIgor Mel'uk (Mel'uk 1974, 1988a, 1997). Cf. galement, pour d'autres prsentations, Milievi 2001 ou Weiss 1999. La TST est intressante tudier dans le cadre dune prsentation des grammaires de dpendance, non seulement parce quil sagit dune des thories majeures utilisant des arbres de dpendance comme reprsentations syntaxiques, mais parce que les postulats mme de la thorie conduisent naturellement considrer une telle structure, o le mot joue un rle central et o la structure syntaxique doit rendre compte des relations entre les mots. Lapproche Sens-Texte se distingue des grammaires syntagmatiques plus dun titre : 1) en privilgiant la smantique sur la syntaxe ; 2) en privilgiant le sens de la synthse17 sur celui de lanalyse pour la description ; 3) en donnant une importance primordiale au lexique (avec notamment la notion de fonction lexicale qui permet de dcrire les relations lexicales drivationnelles et collocationnelles) ; 4) en prfrant une reprsentation syntaxique base sur un arbre de dpendance plutt quun arbre syntagmatique (ce qui est, en quelque sorte, une consquence naturelle des points prcdents). Dans cette section, nous prsenterons les postulats de base de la TST (Section 3.1), les diffrentes reprsentations d'une phrase considres par la TST (Section 3.2) et les diffrentes rgles d'un modle Sens-Texte (Section 3.3). Dans la Section 4, nous prsenterons une grammaire d'unification base sur la TST.

3.1 Les postulats de base de la thorie Sens-Texte


La thorie Sens-Texte [TST] repose sur les trois postulats suivants. Postulat 1. Une langue est (considre comme) une correspondance multivoque18 entre des sens et des textes19. Postulat 2. Une correspondance Sens-Texte est dcrite par un systme formel simulant lactivit linguistique dun sujet parlant. Postulat 3. La correspondance Sens-Texte est modulaire et prsente au moins deux niveaux de reprsentation intermdiaires : le niveau syntaxique (structure des phrases) et le niveau morphologique (structure des mots).

17

Le terme synthse est peu utilis en linguistique et on lui prfre gnralement le terme gnration de textes. Nanmoins, la gnration de textes inclut la question du choix d'un texte parmi tous les textes qui expriment un sens, question que nous ne considrons pas ici. Plusieurs sens peuvent correspondre au mme texte (homonymie) et plusieurs textes peuvent correspondre au mme sens (synonymie). Texte renvoie n'importe quel segment de parole, de n'importe quelle longueur, et son pourrait tre un meilleur terme.

18

19

Grammaires de dpendance formelles et thorie Sens-Texte

15

Commentaires sur les postulats. 1) Le premier postulat de la TST signifie que la description d'une langue naturelle L consiste en la description de la correspondance entre l'ensemble des sens de L et l'ensemble des textes de L. On peut comparer ce point de vue celui de Chomsky 1957, dont l'influence a t primordiale : la description d'une langue L consiste en un systme formel drivant l'ensemble des phrases (acceptables) de L. Pendant longtemps, ce point de vue a eu une interprtation plutt restrictive, une phrase tant comprise comme une suite de caractres20 c'est--dire un texte dans la terminologie de la TST ou au mieux comme une structure syntagmatique. Nanmoins, le postulat de Chomsky est formellement quivalent au premier postulat de la TST ds qu'on entend par phrase un signe au sens saussurien avec un signifi (le texte) et un signifiant (le sens). D'un point de vue mathmatique, il est en effet quivalent de dfinir une correspondance entre l'ensemble des sens et l'ensemble des textes ou de dfinir l'ensemble des couples forms d'un sens et d'un texte en correspondance, un tel couple reprsentant une phrase21 (Kahane 2000b, 2001). 2) Le deuxime postulat met l'accent sur le fait qu'une langue naturelle doit tre dcrite comme une correspondance. Un locuteur parle. Un modle Sens-Texte (= le modle d'une langue donne dans le cadre de la TST) doit modliser l'activit d'un locuteur, c'est--dire modliser comment un locuteur transforme ce qu'il veut dire (un sens) en ce qu'il dit (un texte). C'est l'une des principales particularits de la TST de dire qu'une langue doit tre dcrite comme une correspondance (Sens-Texte) et, qui plus est, que la direction du sens au texte doit tre privilgie sur la direction du texte au sens. 3) Le troisime postulat de la TST appelle plusieurs commentaires. La plupart des thories linguistiques considrent des niveaux de reprsentation syntaxique et morphologique. La particularit de la TST est de considrer que ces niveaux sont des niveaux intermdiaires entre le niveau smantique (le sens) et le niveau phonologique (le texte). En consquence, la correspondance entre les sens et les textes sera entirement modulaire : une correspondance entre les niveaux smantique et syntaxique, une correspondance entre les niveaux syntaxique et morphologique et une correspondance entre les niveaux morphologique et phonologique. (En fait, la TST considre non pas deux, mais cinq niveaux intermdiaires, ce qui ne change rien notre discussion.) Le rsultat est que le module syntaxique, qui assure la correspondance entre les niveaux syntaxique et morphologique, ne fait qu'associer des reprsentations syntaxiques avec des reprsentations morphologiques. Il n'a pas pour objet, comme cela l'est pour une grammaire gnrative, de donner une caractrisation complte des reprsentations qu'il manipule. Dans le sens de la synthse, le module syntaxique prend en entre des reprsentations syntaxiques qui ont t synthtises par le module smantique partir de reprsentations smantiques bien formes et qui reprsentent des sens rels. En consquence, une reprsentation syntaxique est caractrise par l'ensemble des modules, par le fait qu'elle est un intermdiaire possible entre une reprsentation smantique bien forme et une reprsentation phonologique correspondante. En conclusion, la TST ne donne aucune primaut la syntaxe et la TST n'a pas pour objectif de donner une caractrisation explicite des reprsentations syntaxiques bien formes.
20

Le meilleur exemple de cette interprtation restrictive du postulat de Chomsky est la dfinition du terme langage formel comme une suite de caractres. Un langage formel, pris dans ce sens, ne peut jamais modliser l'essence d'une langue naturelle. En aucun cas, le fait de connatre l'ensemble des suites de caractres acceptables d'une langue ne peut tre considr comme la connaissance d'une langue ; il faut videmment tre capable d'associer ces suites leur sens. Nous laissons de ct le fait que la description d'un langage ne se rduit pas la description de phrases isoles.

21

16

Sylvain Kahane

Je pense que, maintenant, 35 ans aprs leur premire formulation, les postulats de la TST, mme s'ils peuvent apparatre avec des formulations diffrentes, sont plus ou moins accepts par l'ensemble de la communaut scientifique. Par exemple, j'aimerais citer les toutes premires phrase d'une monographie consacre au Programme Minimaliste, la plus rcente des thories chomskienne (Brody 1997) : It is a truism that grammar relates sound and meaning. Theories that account for this relationship with reasonable success postulate representational levels corresponding to sound and meaning and assume that the relationship is mediated through complex representations that are composed of smaller units. Le principal point qui semble ne pas tre pris en considration par la plupart des descriptions formelles contemporaines des langues naturelles est le fait qu'une langue, si elle reprsente une correspondance entre des sens et des textes, doit tre dcrite par des rgles de correspondance.

3.2 Niveaux de reprsentation d'une phrase


La TST spare clairement les diffrents niveaux de reprsentation d'une phrase. Les reprsentations des diffrents niveaux ont des organisations structurelles diffrentes : les reprsentations smantiques sont des graphes (de relations prdicat-argument), les reprsentations syntaxiques sont des arbres de dpendance (non ordonns) et les reprsentations morphologiques sont des suites. Dans l'approche Sens-Texte, tout ce qui peut tre diffrenci doit tre diffrenci. Et des objets avec des organisations diffrentes doivent tre reprsents avec des moyens diffrents. De plus, la TST donne une grande importance la gomtrie des reprsentations. Le fait que les humains communiquent par la voix entrane que les productions linguistiques sont irrmdiablement linaires (mme si la suite des phonmes se superpose la prosodie et si des gestes peuvent accompagner la parole). Par contre, tout laisse penser que, dans notre cerveau tridimensionnel, le sens possde une structure multidimensionnelle. Le passage du sens au texte comprendrait alors, du point de vue de l'organisation structurelle, deux tapes essentielles : la hirarchisation, c'est--dire le passage d'un sens multidimensionnel une structure syntaxique hirarchique (= bidimensionnelle), et la linarisation, c'est--dire le passage de cette structure hirarchique une structure linaire (= unidimensionnelle). 3.2.1 Reprsentation smantique Le sens est dfini, dans le cadre de la TST, comme un invariant de paraphrase, cest--dire comme ce qui est commun toutes les phrases qui ont le mme sens. Ceci fait automatiquement de la TST est un modle de la paraphrase (Mel'uk 1988b) et, par consquent, un outil adapt la traduction automatique (les deux sont intimement lies, la paraphrase tant de la traduction intralangue). Le cur de la reprsentation22 smantique est un graphe orient dont les nuds sont tiquets par des smantmes. Une reprsentation smantique est un objet purement linguistique
22

Comme l'a remarqu Polgure 1990, le terme de reprsentation, utilis par Mel'uk lui-mme, est en fait un peu contradictoire avec le point de vue de la TST. En un sens, la reprsentation smantique ne reprsente pas le sens d'un texte, mais c'est plutt les textes qui expriment des reprsentations smantiques. Mel'uk (2001:15) dit d'ailleurs ce propos : During the process of sentence construction (= synthesis), lexical and syntactic choices carried out by the Speaker very often lead to the modification of the starting meaning, i.e. of the initial semantic representation, making it more precise and specific: the lexical units bring with them additional nuances of meaning that have not been present in the initial semantic representation. The MTT tries to model this phenomenon; as a result, quite often the following situation obtains: Suppose that the synthesis starts with the representation and produces sentences S1, S2, , Sn; the sentences having as their common source the semantic representation are considered to be synonymous. Now if we analyze these sentences semantically, the semantic S1, S2, , Sn obtained from this process may well be different from each other and from the initial semantic representation ! [...] The initial semantic representation is

Grammaires de dpendance formelles et thorie Sens-Texte

17

spcifique une langue. Un smantme lexical d'une langue L est le sens d'une lexie23 de L dont le signifiant peut-tre un mot ou une configuration de mots formant une locution. Par exemple, cheval, pomme de terre, prendre le taureau par les cornes sont des smantmes du franais. Des lexies de parties du discours diffrentes peuvent avoir le mme smantme ; ainsi, partir = dpart (j'attends ton dpart = j'attends que tu partes) ou durer = pendant (Ta sieste a dur 2 heures = Tu as fait la sieste pendant 2 heures)24. Il existe aussi des smantmes grammaticaux correspondant au sens des morphmes flexionnels (ou de configurations contenant des morphmes flexionnels, comme le pass compos) : par exemple, singulier, dfini, prsent ou pass compos sont des smantmes grammaticaux.25 Un smantme agit comme un prdicat et est li ses arguments par des arcs pointant sur eux. Les diffrents arcs mergeant d'un smantme sont numrots de 1 n, en suivant l'ordre d'oblicit croissant des arguments. Un arc reprsente une relation prdicat-argument et est appele une dpendance smantique. Les dpendances smantiques doivent tre distingues des dpendances syntaxiques. Comme l'a not Tesnire lui-mme (1959:42), dans la plupart des cas, quand un mot B dpend syntaxiquement d'un mot A, il y a une dpendance smantique entre A et B. Mais ce que n'avait pas vu Tesnire (et qui est probablement une dcouverte attribuable olkovskij & Mel'uk 1965), c'est que la dpendance smantique peut tre oriente de A et B comme de B vers A. Par exemple, dans une petite rivire, petite dpend syntaxiquement de rivire, mais, parce que la petitesse est une proprit de la rivire, rivire est un argument du prdicat petit. Par contre, dans la rivire coule, rivire dpend syntaxiquement de coule et, parce que l'coulement est une proprit de la rivire, rivire est un argument du prdicat couler. Quand les dpendances smantique et syntaxique sont dans la mme direction, on dit que B est un actant de A (rivire est un actant de coule dans la rivire coule), tandis que, quand les dpendances smantique et syntaxique sont dans la direction oppose, on dit que B est un modifieur de A (petite est un modifieur de rivire dans une petite rivire). Il existe aussi des cas o dpendances smantique et syntaxique ne se correspondent pas, comme dans les phnomnes de monte (dans Pierre semble malade, Pierre dpend syntaxiquement de semble, mais sembler est un prdicat unaire qui prend seulement malade comme argument) ou de tough-movement (dans un livre facile lire, facile dpend syntaxiquement de livre, mais livre est un argument de lire et pas de facile)26 ; voir galement le cas des relatives et des interrogatives indirectes (Kahane & Mel'uk 1999).

taken to be rather approximateit need not necessarily fully specify the meaning of the sentences that can be obtained from it. The meaning can become more preciseor less precisein the course of its lexicalization and syntacticization.
23

Un vocable est ensemble de lexies correspondant aux diffrentes acceptions d'un mme mot. En toute rigueur, le nom d'une lexie doit tre accompagn, comme dans le dictionnaire, d'un numro qui la distingue des autres lexies du vocable. Les deux phrases peuvent apparatre non synonymes en raison de la structure communicative (voir plus loin) : par exemple, si la premire peut facilement avoir pour thme la dure de ta sieste (= ta sieste a dur), cela parat plus difficile pour la deuxime qui aura plutt pour thme toi ou ta sieste (= tu as fait la sieste). Comme pour les lexies, les diffrentes acceptions d'un morphme flexionnel devraient tre distingues par des numraux. A noter que Mel'uk ne considre pas de smantmes grammaticaux et utilise des paraphrases lexicales : plus d'un, avant maintenant, Nous reviendrons plus en dtail sur la monte et tough-movement dans la Section 4.2.1.

24

25

26

18

Sylvain Kahane

La valence smantique d'un smantme, c'est--dire l'ensemble de ses arguments smantiques, est dtermine par sa dfinition lexicographique. Ainsi blessureI.2 est une prdicat ternaire (Mel'uk et al. 1999 ; dfinition rvise) : blessureI.2 de X Y par Z = lsion la partie Y du corps de X qui est cause par Z et qui peut causer une ouverture de la peau de Y, un saignement de Y, une douleur de X Y ou la mort de X (saX blessure par balleZ la jambeY). Et blesser I.1 est un prdicat quaternaire : W blesseI.1 X Y par Z = W cause une blessureI.2 de X Y par Z. La reprsentation smantique comprend, en plus du graphe smantique, trois autres structures qui s'y superposent : la structure communicative, la structure rfrentielle (qui relie des portions du graphe aux rfrents qu'elles dnotent) et la structure rhtorique (qui indiquent les intentions stylistiques du locuteur, c'est--dire si celui-ci veut tre neutre, ironique, relch, humoristique, ). La Figure 6 prsente une reprsentation smantique simplifie (limite au graphe smantique et la thmaticit) pour la phrase (1) : (1) Zo essaye de parler la belle dame La mme reprsentation smantique vaut pour des paraphrases de (1) comme Zo cherche dire un mot la jolie femme.
essayer
1 1 1 2 1 1 dfini 2

T
Zo

prsent

parler beau

dame
1 singulier

Figure 6 : La reprsentation smantique de (1) La structure communicative spcifie la faon dont le locuteur veut prsenter l'information qu'il communique (de quoi il parle, ce qu'il veut dire, ce qu'il veut souligner, ce qu'il prsente comme information commune avec son interlocuteur, ). La structure communicative est encode en marquant certaines zones du graphe smantique par des marques communicatives. Dans chacune de ces zones, on indique (par un soulignement) le smantme qui rsume le contenu smantique de cette zone (Polgure 1990). Mel'uk 2001 propose huit catgories communicatives : thmaticit (thme-rhme-spcifieurs), donn-nouveau, focalisation, perspective (arrire-plan), emphatisation, prsupposition, unitarit (unitaire-articul) et locutionalit (signal-perform-communiqu). Nous allons montrer comment des changements dans la thmatisation et la focalisation du graphe smantique de la Figure 6 donnent d'autres phrases. Tout message doit ncessairement communiquer quelque chose (le rhme) propos de quelque chose (le thme) ou ventuellement de rien. La phrase (1) peut tre glose par propos de Zo (thme), je veux dire qu'elle essaye de parler la belle dame (rhme). La partition thme-rhme s'identifie en voyant quelle est la question sous-jacente au message communiqu (ici que fait Zo ?). Un lment focalis quant lui est une partie du sens que le locuteur prsente comme tant localement prominente pour lui ou, en d'autres termes, comme tant le sige (angl. focus) de son attention (Mel'uk 2001). Voici quelques phrases ayant le mme graphe smantique que (1) avec des structures communicatives diffrentes (et pour lesquelles les mmes choix lexicaux ont t faits) : (3) a. La belle dame, Zo essaye de lui parler. (belle dame thme focalis) b. C'est la belle dame que Zo essaye de parler. (belle dame rhme focalis) c. Zo, c'est la belle dame qu'elle essaye de parler. (focalisation de Zo en plus)

Grammaires de dpendance formelles et thorie Sens-Texte

19

d. Ce que Zo essaye de faire, c'est de parler la belle dame. (Zo essaye thme foc.) On trouvera de nombreux exemples dans Mel'uk 2001. Le rle de la structure communicative dans la production des relatives est tudi dans Kahane & Mel'uk 1999. Notons encore que la structure communicative est souvent considre, la diffrence de la structure prdicat-argument, comme trs vague et difficile cerner prcisment. Nous pensons que cette vision est compltement fausse et due en partie au fait que les linguistes tudient gnralement cette question du point de vue de l'analyse, en cherchant dterminer la structure communicative de textes. Evidemment, si l'on considre un nonc isol tel que Marie a dit que Pierre est parti, il est impossible de dterminer sa partition thme-rhme. Cette phrase peut rpondre, avec certes des prosodies diffrentes, des questions aussi diverses que Que fait Marie ?, Qu'a dit Marie ?, Qu'a dit Marie de Pierre ?, Que fait Pierre ?, Qui a dit que Pierre est parti ?, Qui est parti ?, (par exemple, lorsqu'elle rpond la question Que fait Pierre ?, Pierre est le thme, partir est le rhme, Marie m'a dit un spcifieur qui spcifie sous quelles conditions je peux dire que Pierre est parti). Par contre si on se place du point de vue de la synthse, il est vident que le locuteur sait de quoi il veut parler et ce qu'il veut dire ce propos. La partition thme-rhme est donc parfaitement tablie (notons d'ailleurs qu'elle s'tablit au niveau smantique). D au pouvoir paraphrastique de la langue, il reste au locuteur de nombreuses possibilits d'nonciation conditionnes aussi par les autres choix communicatifs, notamment la focalisation. Des noncs tels que Marie a dit que Pierre est parti, peu conditionns par la structure communicative, seront possibles avec de nombreux choix communicatifs, mais d'autres choix syntaxiques ne seront possibles qu'avec des choix communicatifs prcis : D'aprs Marie, Pierre est parti (Marie a dit spcifieur), C'est Marie qui a dit que Pierre est parti (Marie rhme focalis), etc. Une reprsentation smantique peut tre encode dans un style inspir de la logique. La traduction d'un graphe smantique en une formule logique ncessite d'introduire une variable pour chaque nud du graphe ( l'exception des nuds tiquets par un smantme grammatical). Cette variable reprsente le nud et est utilise comme argument par tout smantme pointant sur le nud. En introduisant des variables x, y, p, e et e' pour les smantmes lexicaux Zo, dame, beau, essayer et parler, on peut encoder le graphe de la Figure 6 par la formule (2). (2) THEME(x) x : Zo RHEME(e) e : essayer(x,e) e' : parler(x,y) y : dame p : beau(y) prsent(e) singulier(y) dfini(y)

La structure thme-rhme est encode par la partition des smantmes en deux groupes et par les prdicats THEME et RHEME pointant sur les nuds dominants de ces deux zones. Si l'on omet la structure thme-rhme, l'ordre des prdicats n'est pas pertinent et la formule s'apparente une formule conjonctive du calcul des prdicats (cf. par exemple les reprsentations smantiques de la DRT ; Kamp 1981, Kamp & Reyle 1993). La variable reprsentant un nud peut d'ailleurs tre attribue au smantme (on parle de rification) : ainsi la place des notations y : dame ou e : essayer(x,e), on peut utiliser les notations dame(y) ou essayer(e,x,e), plus habituelles en logique. Malgr leur similitude formelle, les reprsentations smantiques de la TST doivent tre distingues des reprsentations smantiques des smantiques issues de la logique frgenne, comme la DRT. En TST, la reprsentation smantique ne reprsente pas l'tat du monde que dnote un sens, mais le sens lui-mme. En particulier, les variables que nous avons introduites

20

Sylvain Kahane

lors de la rification ne renvoient pas, comme c'est le cas dans la logique frgenne, des objets du monde. Les variables renvoient ici uniquement aux smantmes, c'est--dire aux signifis des mots. Donnons un exemple : dans le sens de une grosse fourmi, le smantme gros est un prdicat unaire dont l'argument est le smantme fourmi et en aucun cas le rfrent de fourmi. D'ailleurs, quand on parle d'une grosse fourmi, on ne veut pas dire que le rfrent de fourmi est gros en soi (d'ailleurs rien n'est gros en soi), mais qu'il est gros en tant que fourmi. La chose est peut-tre encore plus vidente quand on parle d'un gros fumeur. Ici non plus, on ne veut pas dire que le rfrent de fumeur est gros, mais que quelque chose dans le sens fumeur est gros. En effet, si un fumeur est une personne qui fume (rgulirement), un gros fumeur est une personne qui fume (rgulirement) en grosse quantit. D'autre part, le smantme gros pourra lui-mme tre l'argument d'un autre smantme comme dans une trs grosse fourmi ou une fourmi plus grosse que mon pouce, ce qui ncessite d'introduire une variable pour gros lors de la rification, sans qu'on veuille pour autant considrer que gros possde un rfrent de discours. En TST, le sens est dfini comme ce qui est commun tous les noncs qui ont le mme sens. La dfinition n'est pas circulaire, avoir le mme sens tant dfini pralablement au sens : il est plus facile de demander un locuteur si deux noncs ont le mme sens (sont synonymes) que de lui demander quel est le sens d'un nonc (ce qui d'ailleurs le conduira essentiellement proposer des noncs qui ont le mme sens). La TST est donc un modle de la paraphrase. Le sens est un objet purement linguistique. La description du monde est relgue un niveau de reprsentation plus profond, extralinguistique. Remarquons tout de mme que la rfrence au monde extrieur n'est pas exclue de la reprsentation smantique de la TST et fait l'objet d'une structure particulire, la structure rfrentielle, superpose au graphe smantique et indiquant quelle zone du graphe correspond un rfrent de discours. Notons enfin, pour terminer sur les diffrences entre les reprsentations smantiques de la TST et les formules logiques, que tous les smantmes sont formaliss par des prdicats (les noms smantiques comme Zo ou dame tant des cas particuliers de prdicats zro argument), mme des sens comme quel que soit, quelqu'un, et ou non, qui sont habituellement formaliss en logique par des objets d'une autre nature, quantifieurs ou connecteurs.27 3.2.2 Reprsentation syntaxique profonde

Le niveau syntaxique profond est un niveau intermdiaire entre le niveau smantique et le niveau syntaxique de surface, o le graphe a t hirarchis et les smantmes lexicaliss, mais o ne figurent pas encore proprement parl les mots. Le cur de la reprsentation syntaxique profonde est un arbre de dpendance (non ordonn) dont les nuds sont tiquets par des lexies profondes accompagnes chacune d'une liste de grammmes profonds. Les lexies profondes sont des lexies pleines correspondant des mots ou des locutions. Les
27

La diffrenciation formelle des quantifieurs est certainement ncessaire pour la dduction logique, mais ne l'est pas forcment pour la paraphrase et la traduction. La porte des quantifieurs n'est pas clairement encode dans les reprsentations smantiques standard. En un sens, il n'est pas sr que la porte des quantificateurs doive rellement tre encode dans la reprsentation smantique de Tous les hommes cherchent un chat et il est curieux de voir fleurir des travaux qui montrent comment sous-spcifier les reprsentations smantiques dans des formalismes qui obligent indiquer la porte des quantifieurs. Mel'uk 2001 met l'hypothse que les effets de porte des quantificateurs rsultent de la structure communicative. Polgure 1992 propose d'encoder les quantifieurs comme des smantmes biactanciels dont le deuxime argument, reprsentant la porte, pointe sur une zone du graphe, ce qui pourrait tre reli l'hypothse prcdente. Dymetman & Coperman 1996 proposent une solution l'encodage de la porte des quantifieurs avec une reprsentation intermdiaire entre graphe smantique et formule logique.

Grammaires de dpendance formelles et thorie Sens-Texte

21

lexies vides, comme les prpositions rgies, n'apparaissent qu'au niveau syntaxique de surface. Les grammmes profonds sont de trois types : les morphmes grammaticaux pleins (qui correspondent aux smantmes grammaticaux de la reprsentation smantique), les smantmes de changement de diathse (qui expriment les diffrentes correspondances possibles entre arguments smantiques et actants syntaxiques, savoir, pour le verbes, les voix) et les grammmes de translation (comme l'infinitif). Les grammmes vides dus l'accord ou la rection, comme le cas, apparaissent plus tard (au niveau morphologique profond). Les catgories grammaticales profondes du verbe sont le mode28, le temps et la voix. Les lexies sont crites en majuscules et les grammmes placs en indice : LEXIEgrammme. Les branches de l'arbre sont tiquetes avec un petit ensemble de relations syntaxiques profondes : les actants sont simplement numrots par oblicit croissante (I, II, III, ), les modifieurs relis leur gouverneur par la relation ATTR (angl. attributive) et deux autres relations sont considres, COORD pour les groupes coordonns (Marie, Jean et Pierre : MARIE COORD JEAN COORD ET II PIERRE) et APPEND pour les parenthtiques, les interjections, les interpellations, etc. (Naturellement, il n'a rien fait ; O vas-tu, Zo ?). Kahane & Mel'uk 1999 introduisent une autre relation pour les modifieurs qualitatifs (non restrictifs) et Kahane 1998 propose l'introduction d'une relation spcifique pour un actant rtrograd (tel que le complment d'agent). La Figure 7 donne la reprsentation syntaxique profonde de (1). Le trait hachur reprsente une relation de corfrence entre les deux occurrences de ZO rsultant de la coupure du graphe smantique au niveau du smantme Zo. L'une des deux occurrences sera efface en surface par la rgle d'effacement de l'actant I d'un verbe l'infinitif. Le grammme infinitif est introduit par le fait que ESSAYER est actant d'un verbe et occupe donc une position nominale. La structure communicative syntaxique profonde qui reprend la structure communicative smantique n'est pas reprsente ici.

ESSAYER ind,prsent,actif
I II I

ZO ZO

PARLER inf,actif
II

DAME sg,df

ATTR

BEAU
Figure 7 : Reprsentation syntaxique profonde de (1) Notons encore l'une des spcificits de l'approche Sens-Texte : le concept de fonction lexicale (olkovskij & Mel'uk 1965, Mel'uk et al. 1995, Wanner 1996, Kahane & Polgure 2001). Certains sens, comme l'intensification, le commencement, la causation, la ralisation, etc., tendent s'exprimer de manire collocationnelle, c'est--dire que leur expression n'est pas dtermine librement, mais dpend fortement de l'expression d'un de leurs arguments smantiques. Les fonctions lexicales sont des lexies dont le signifiant n'est pas un mot prcis, mais varie en fonction de l'expression d'un argument. Par exemple, le sens intense pourra s'exprimer avec amoureux par follement, avec heureux par comme un pape, avec
28

Nous reprenons ici la catgorie traditionnelle de mode. D'un ct, il n'est pas clair que mode et temps puissent tre spars en deux catgories flexionnelles. D'un autre ct, la catgorie de mode est particulirement htrogne et pourrait tre scinde en plusieurs catgories : une catgorie de translation indiquant si le verbe joue un rle de verbe, de nom ou d'adjectif (fini, infinitif, participe), une catgorie de dclarativit indiquant s'il s'agit d'un dclaration, d'un souhait ou d'un ordre (indicatif : Pierre y va, subjonctif : Que Pierre y aille, impratif : Pierre, vas-y !) et une catgorie de mdiation indiquant si le locuteur assume ou non ce qu'il dclare (indicatif : Pierre a dormi, conditionnel : Pierre aurait dormi).

22

Sylvain Kahane

improbable par hautement, avec bless par gravement, etc. De mme, le sens commencer pourra s'exprimer avec incendie par se dclarer, avec jour ou vent par se lever, avec orage par clater, etc. Les fonctions lexicales correspondantes seront notes Magn et Incep. Ces fonctions seront utilises pour tiqueter un nud de l'arbre syntaxique profond correspondant un sens intense ou commencer. Les valeurs seront introduites seulement dans l'arbre syntaxique de surface (Mel'uk 1988, Polgure 1998). 3.2.3 Reprsentation syntaxique de surface Le cur de la reprsentation syntaxique de surface dune phrase est un arbre de dpendance (non ordonn) la faon des arbres de dpendance de Tesnire 1959. Les nuds de l'arbre sont tiquets par des lexies de surface accompagnes chacune dune liste de grammmes de surface. Chaque lexie de surface correspond un mot de la phrase. Ces lexies peuvent correspondre directement une lexie profonde, ou bien tre l'une des lexies simples constituant une locution, ou tre la valeur d'une fonction lexicale, ou bien tre une lexie vide introduite par un rgime (comme les prpositions DE et ici), ou encore tre une partie de l'expression d'un grammme profond (comme un auxiliaire de temps ou l'article LE ici). Les grammmes de surface correspondent directement un grammme profond, sauf pour les grammmes profonds qui ont une expression analytique comme les temps composs, les voix ou la dtermination. Rappelons que les grammmes de surface daccord ou de rgime (comme les cas) ne sont introduits qu'au niveau morphologique profond. Les branches de l'arbre syntaxique de surface sont tiquetes par des fonctions syntaxiques ou relations syntaxiques de surface (cf. Mel'uk 1974 pour le russe, Mel'uk & Pertsov 1987 pour l'anglais et Iordanskaja & Mel'uk 2000 pour le franais; voir aussi Section 2.2).
ESSAYER ind,prsent
suj inf

ZO

DE PARLERinf

prp iobj

prp dt mod

DAME sg LE BEAU

Figure 8 : Reprsentation syntaxique de surface de (1)

3.2.4 Reprsentation morphologique profonde Le cur de la reprsentation morphologique profonde d'une phrase est la suite des reprsentations morphologiques des mots de la phrase, c'est--dire une chane morphologique. La reprsentation morphologique d'un mot est une lexie de surface accompagne d'une liste de grammmes de surface. A noter que, en franais, l'adjectif s'accorde en genre et nombre avec le nom et le verbe en personne et nombre avec son sujet. Le nom possde une marque de

Grammaires de dpendance formelles et thorie Sens-Texte

23

genre qui est indique dans son entre lexicale, mais ne porte pas de grammme de genre comme les adjectifs, car il n'est pas flchi par le genre.29 La chane morphologique de (1) est : (2) ZO ESSAYERind,prsent,3,sg DE PARLERinf LEfm,sg BEAUfm,sg DAMEsg

La reprsentation morphologique d'une phrase comprend, en plus de la chane morphologique, une structure prosodique. La structure prosodique au niveau morphologique est essentiellement un regroupement des mots en groupes prosodiques, agrment de marques prosodiques calcules en fonction des marques communicatives des portions de l'arbre syntaxique de surface auxquelles correspondent ces groupes. La vritable structure prosodique sera calcule au niveau phonologique partir de cette structure prosodique de niveau morphologique et des proprits phonologiques des mots (qui ne sont pas encore prises en compte au niveau morphologique, les phonmes n'tant pas considrs). Dans Gerdes & Kahane 2001 (inspirs par des discussions avec Igor Mel'uk), nous proposons de construire au niveau morphologique une structure syntagmatique qui, contrairement l'usage qu'en font les grammaires bases sur la syntaxe X-barre, n'encode pas la reprsentation syntaxique de la phrase, mais plutt sa structure prosodique de niveau morphologique (cf. aussi Section 6).

3.3 Modle Sens-Texte standard


On appelle modle Sens-Texte [MST] d'une langue le modle de cette langue dans le cadre de la TST. Le terme modle est prfr au terme plus couru de grammaire (formelle), car le terme grammaire masque le fait qu'une composante essentielle d'un modle d'une langue, ct de la grammaire proprement dite, est le lexique. Dans la Section 3.3.1, nous prsenterons le lexique d'un MST, puis, dans la Section 3.3.2, l'architecture gnrale d'un module de correspondance. Enfin, dans les Sections 3.3.3 3.3.5, nous prsenterons les modules smantique, syntaxique profond et syntaxique de surface d'un MST. 3.3.1 Le lexique d'un modle Sens-Texte La TST donne une place centrale au lexique. Le lexique d'un MST est appel un Dictionnaire Explicatif et Combinatoire [DEC]. Un premier DEC pour le russe a t propos par Mel'uk & olkovsky 1984. Un DEC du franais est maintenant en dveloppement depuis 20 ans luniversit de Montral (Mel'uk et al. 1984, 1988, 1992, 1999). Les entres du DEC sont les lexies profondes.30 En plus de la description des valences smantique et syntaxique, qui est indissociable des approches bases sur la dpendance, le DEC se caractrise par le grand soin donn la dfinition smantique des lexies (base sur la paraphrase) et par lutilisation des fonctions lexicales dans la description des liens drivationnels et collocationnels entre lexies (Mel'uk et al. 1995, Kahane & Polgure 2001).

29

Il n'est probablement pas judicieux de considrer que les noms possdent un trait de personne. On peut penser que seuls les pronoms possdent un tel trait et que le verbe prend la 3me personne par dfaut, comme il le fait aussi avec les sujets verbaux ou phrastiques (que tu viennes est une bonne surprise). La description spare des lexies de surface pourrait tre galement utile. Pour l'instant, celles-ci sont dcrites grossirement lorsqu'elle apparaissent dans la description des lexies profondes, comme lment d'une locution, comme valeur d'une fonction lexicale ou comme lment rgi introduit dans le tableau de rgime.

30

24

Sylvain Kahane

Nous allons prsenter et commenter l'entre (rvise et simplifie) de la lexie BLESSUREI.2 (Mel'uk et al. 1999). Chaque article est divis en trois zones : la zone smantique donne la dfinition lexicographique de la lexie ; la zone syntaxique donne le tableau de rgime (ou cadre de sous-catgorisation de la lexie, c'est--dire la correspondance entre les actants smantiques (X, Y, ), les actants syntaxiques profonds (I, II, ) et leur expression de surface ( N, par N, ); le tableau de rgime est suivi par des conditions particulire et des exemples de ralisations et de combinaisons des diffrents actants ; la zone de cooccurrence lexicale donne les valeurs des fonctions lexicales pour la lexie, c'est--dire les collocations formes avec cette lexie (une blessure cuisante, se faire une blessure, la blessure s'infecte, ) et les drivations smantiques de la lexie (bless, plaie, se blesser, ).

Exemple : article de dictionnaire de BLESSUREI.2 Dfinition lexicographique blessureI.2 de X Y par Z = lsion la partie Y du corps de X qui est cause par Z et qui peut causer (I) une ouverture de la peau de Y, (II) un saignement de Y, (III) une douleur de X Y ou (IV) la mort de X31

Rgime X =1 1. de N 2. Apos Contrainte sur 3.1 Contrainte sur 3.2 Exemples 1 2 3 1+2 1 + 2 +3 1. N : N dsigne une arme blanche32 : N = balle, Y=2 Z=3 1. N 2. par N

: la blessure de Jean/du soldat/du cheval ; sa blessure : une blessure l'paule/au cur/ l'abdomen ; des blessures au corps : une blessure l'arme blanche/au couteau ; une blessure par balle : les blessures de l'enfant aux bras ; sa blessure au poignet droit : sa blessure par balle la jambe

31

La dfinition lexicographique est base sur la paraphrase (la dfinition de L doit tre substituable L) et la cooccurrence lexicale : les composantes (I) (IV) sont conditionnes par les diffrentes valeurs des Fact-Real de BLESSUREI.2 (qui se trouvent dans la suite de l'article de la lexie et qui pointent sur ces composantes). Cette portion de la dfinition indique les objectifs inhrents de L (une blessure peut tre profonde (I), saigner (II), faire souffrir (III) ou tre fatale (IV)). Voir, pour comparaison, les valeurs du trait telic dans les descriptions lexicales du Lexique Gnratif de Pustejovsky 1995. Ceci signifie que dans la 3me colonne 1re ligne, l'expression N n'est possible que si N est un arme blanche.

32

Grammaires de dpendance formelles et thorie Sens-Texte

25

Fonctions lexicales Syn Syn

: lsion : coupure, corchure; gratignure; morsure; brlure; ecchymose; dchirure; fracture; entorse Syn : plaie; bobo fam personne-S1 : bless A1/2 : // bless A1/2+Magn : couvert, cribl [de ~s] Magn : grave, majeure, srieuse AntiMagn : lgre, mineure, superficielle // gratignure AntiBon : mauvaise, vilaine IncepMinusBon : s'aggraver; s'enflammer, s'envenimer, s'infecter Oper1 : avoir [ART ~]; porter [ART ~]; souffrir [de ART ~] FinOper1 : se remettre, se rtablir [de ART ~] Caus1Oper1 : se faire [ART ~] LiquOper1 : gurir [N de ART ~] FinFunc0 : se cicatriser, (se) gurir, se refermer essayer de LiquFunc0 : soigner, traiter [ART ~]; bander, panser [ART ~] CausFunc1 : faire [ART ~] [ N]; infliger [ART ~] [ N] // blesser [N] [avec N=Z] Caus1Func1 : se faire [ART ~]; se blesser [avec N=Z] Real1 : (II) souffrir [de ART ~]; (IV) succomber [ ART ~], mourir [de ART ~] AntiReal1 : (IV) rchapper [de ART ~] Fact0 : (I) s'ouvrir, se rouvrir; (II) saigner Fact1 : (IV) emporter, tuer [N] Able1Fact1 ( Magn) : (I) ouverte < profonde < bante; (III) cuisante, douloureuse; (IV) fatale, mortelle, qui ne pardonne pas AntiAble1Fact1 ( AntiMagn) : bnigne spc, sans consquence Nous ne pouvons expliquer ici les sens des diffrentes fonctions lexicales (cf. Mel'uk et al. 1995). Chaque fonction lexicale simple (Magn, Oper1, ) correspond une rgle smantique particulire (voir Section 3.3.3) et les fonctions lexicales complexes (IncepOper1, Able1Fact1, ) correspondent des oprations naturelles sur les fonctions lexicales simples (Kahane & Polgure 2001). Les fonctions lexicales jouent un grand rle dans les choix lexicaux (Mel'uk 1988a, Polgure 1998), ainsi que dans la paraphrase et la traduction (Mel'uk 1988b). 3.3.2 Les modules de correspondance d'un modle Sens-Texte La grammaire d'un modle Sens-Texte est divise en modules. Chaque module assure la correspondance entre deux niveaux adjacents : le module smantique assure la correspondance entre le niveau smantique et le niveau syntaxique profond, le module syntaxique profond la correspondance entre le niveau syntaxique profond et le niveau syntaxique de surface, le module syntaxique de surface la correspondance entre le niveau syntaxique de surface et le niveau morphologique profond, etc. Les rgles de grammaire dun modle Sens-Texte sont toutes des rgles de correspondance entre deux niveaux adjacents, cest--dire des rgles qui associent un fragment dune structure dun niveau donn avec un fragment dune structure dun niveau adjacent. Les rgles se prsentent toutes sous la forme A B | C o A et B sont des fragments de structure de deux niveaux adjacents et C est un ensemble de conditions. La rgle doit tre lue si les conditions C sont vrifies, A peut tre traduit par B dans le sens de la synthse et si les conditions C sont vrifies, B peut tre traduit par A dans le sens de l'analyse. En fait, ce n'est pas

26

Sylvain Kahane

l'ensemble des configurations A et B qui sont traduites l'une dans l'autre : les configurations contiennent aussi des lments qui indiquent comment la rgle va s'articuler avec d'autres rgles, comment la configuration produite par la rgle va s'attacher aux configurations produites par les autres rgles (voir Section 3.3.3). Suivant Kahane & Mel'uk 1999, nous sparons les rgles en rgles nodales et sagittales : les rgles nodales sont les rgles o la portion de A manipule par la rgle est un nud, tandis que les rgles sagittales (lat. sagitta) sont les rgles o la portion de A manipule par la rgle est une flche (une dpendance smantique, syntaxique ou, pour le niveau morphologique, une relation d'ordre). Nous allons maintenant prsenter les trois premiers modules d'un MST. 3.3.3 Le module smantique d'un modle Sens-Texte Le module smantique ralise la correspondance entre le niveau smantique et le niveau syntaxique profond. Le module smantique assure deux oprations fondamentales : la lexicalisation et la hirarchisation ou arborisation du graphe smantique. La hirarchisation est assure par les rgles sagittales. Parmi les rgles sagittales smantiques, on distingue les rgles positives et ngatives. Une rgle positive transforme une dpendance smantique en une dpendance syntaxique de mme direction, tandis qu'une rgle ngative inverse la direction. L'arborisation consiste choisir une entre dans le graphe qui donnera la racine de l'arbre, puis parcourir le graphe partir de ce nud d'entre. Les dpendances smantiques parcourues positivement (du prdicat vers l'argument) seront traduites par des rgles positives, tandis que les dpendances parcourues ngativement seront traduites par des rgles ngatives. Le choix du nud d'entre, ainsi que celui des nuds o seront coups les cycles du graphe, est guid par la structure communicative. Nous ne dvelopperons pas ce point ici (cf. Polgure 1990, Kahane & Mel'uk 1999). Notons simplement que le nud d'entre est par dfaut le nud dominant du rhme lorsque celui-ci peut tre lexicalis par un verbe (ou une tournure quivalente de type verbe support-nom prdicatif ou verbe copuleadjectif) et qu'il prend le nud dominant du thme comme argument smantique. Une rgle sagittale smantique positive traduit une dpendance smantique en une dpendance syntaxique profonde actancielle, tandis qu'une rgle ngative traduit une dpendance smantique en une dpendance syntaxique profonde ATTR, COORD ou APPEND (Figure 9). Chaque dpendance smantique est attache a deux nuds smantiques X et Y dont les correspondants syntaxiques profonds sont X et Y ; ces tiquettes permettent de s'articuler la rgle dcrite ici avec les rgles nodales qui traduisent X en X et Y en Y. La grosse flche que nous indiquons dans la partie gauche de la rgle indique le sens de parcours et doit tre compatible avec la structure communicative (cf. Mel'uk & Kahane 1999).

Grammaires de dpendance formelles et thorie Sens-Texte

27

X
1

X X est un N ou X est un V pas au passif


1

II

X est un V au passif

PierreY part X ; le dpartX de Pierre Y X


1

le livre volX par Pierre Y (Y est un N et X est un Adj) ou (Y n'est pas un N et X est un Adv)

ATTR

un grosX tasY ; trsX grosY ; partirY vite X


Figure 9 : Trois rgles smantiques sagittales Toutes les rgles que nous prsentons dans la Figure 9 sont locales, c'est--dire que la dpendance syntaxique profonde qui traduit la dpendance smantique considre doit tre attache la traduction nuds X et Y des nuds X et Y auxquels est attache la dpendance smantique. Il existe pourtant des disparits entre les structures smantiques et syntaxiques profondes ncessitant des rgles non locales (cf. Kahane & Mel'uk 1999 pour des rgles non locales pour le traitement des phrases extraction). Les rgles smantiques nodales associent un smantme une lexicalisation de ce smantme. La plupart des smantmes sont lexicaliss par une lexie profonde. Certains smantmes comme intense vont tre lexicalis par une fonction lexicale (ici Magn), dont la valeur sera recherche par le module syntaxique profond dans l'entre lexicale de l'argument concern. Enfin, des rgles smantiques particulires assurent la ralisation des smantmes grammaticaux par des grammmes profonds. Terminons notre prsentation du module smantique en montrant comment on passe de la reprsentation smantique de (1) (Figure 6) sa reprsentation syntaxique profonde (Figure 7). On commence par choisir le nud d'entre de la reprsentation smantique. Le smantme essayer est choisi car il est le nud dominant du rhme, qu'il peut tre lexicalis par un verbe et qu'il prend le nud dominant du thme comme argument. Ce nud est lexicalis par ESSAYER. Ensuite, on parcourt le graphe partir de ce nud. Le cycle form par essayer, parler et Zo sera coup au niveau de Zo afin d'assurer la connexit du rhme. Le sens de parcours de toutes les dpendances smantique est maintenant dcid. Les dpendances smantiques parcourues positivement donneront des dpendances syntaxiques profondes actancielles. Seule la dpendance entre beau et dame, parcourue ngativement, donnera une dpendance ATTR. Comme dame sera lexicalis par le nom DAME, beau devra tre lexicalis par un adjectif. Nous ne prsentons pas les rgles grammaticales. 3.3.4 Le module syntaxique profond d'un modle Sens-Texte Le module syntaxique profond ralise la correspondance entre le niveau syntaxique profond et le niveau syntaxique de surface. Le module syntaxique profond doit assurer l'introduction de toutes les lexies de surface de la phrase (lesquelles correspondent un un aux mots de la phrase, l'exception de cas de rduction comme de le en du).

28

Sylvain Kahane

Les rgles syntaxiques profondes sagittales traduisent une dpendance syntaxique profonde en fonction de la nature des lments qu'elle relient et de leurs tableaux de rgime. En particulier, ces rgles introduisent les prpositions rgies (Figure 10).

X
I

X X est un V fini
I

suj

dt

X est un N et Y est un pronom

Y PierreY part X

Y sonY dpart X

X
I

X DE X est un N et Y est un N
ATTR

cnom prp

mod

X est un N et Y est un Adj

Y le grosY tasX X Y

Y le dpartX de Pierre Y

ATTR

cnom

DE
prp

X est un N et Y est un N quantitatif

X un verreY de vinX ; trois mtres Y de tissuX


Figure 10 : Cinq rgles syntaxiques profondes sagittales Les rgles syntaxiques profondes nodales traduisent une lexie profonde. La plupart de ces rgles sont contrles par le lexique, comme l'expansion d'une locution, ou l'introduction de la valeur d'une fonction lexicale. Les rgles syntaxiques profondes nodales comprennent galement les rgles de pronominalisation : dans une chane de rfrence (c'est--dire une chane de lexies profonde qui correspondent un mme nud smantique), il faut remplacer sous des conditions prcises certaines lexies par des pronoms. Ces rgles n'ont pas fait l'objet d'une tude srieuse pour l'instant. Le module syntaxique profond contient galement des rgles grammaticales qui assurent la traduction des grammmes profonds, notamment ceux qui comme la dtermination, la voix ou le temps peuvent s'exprimer par des expressions analytiques comprenant des mots. L encore ces rgles n'ont pas fait l'objet d'une tude srieuse en TST. Nous en proposerons Section 4.2.1 dans le formalisme GUST. Montrons comment on passe de la reprsentation syntaxique de (1) (Figure 7) sa reprsentation syntaxique de surface (Figure 8). Comme le verbe ESSAYER est fini, l'actant I de ESSAYER devient sujet. La rgle sagittale qui traduit l'actant II de ESSAYER doit, en fonction du tableau de rgime de ESSAYER, introduire une relation syntaxique infinitive, la prposition DE et une relation syntaxique prpositionnelle. L'actant I de PARLER est effac par la rgle de pronominalisation de l'actant I d'un verbe l'infinitif. L'actant II de PARLER

Grammaires de dpendance formelles et thorie Sens-Texte

29

est traduit, en fonction du tableau de rgime de PARLER, par la relation d'objet indirect (iobj) et la prposition . Comme BEAU est un adjectif, la relation ATTR donne la relation syntaxique modifieur. Enfin, comme DAME n'a pas de dterminant, le grammme dfini sur DAME donne le dterminant LE, reli DAME par une relation dterminative. 3.3.5 Le module syntaxique de surface d'un modle Sens-Texte Le module syntaxique de surface ralise la correspondance entre le niveau syntaxique de surface et le niveau morphologique profond. Le module syntaxique de surface assure la linarisation, l'accord et le rgime (Figure 11) (cf. Mel'uk & Pertsov 1987 pour un fragment consquent du module syntaxique de l'anglais). Les rgles de linarisation indiquent comment un lment se place par rapport son gouverneur (X < Y ou Y < X). Mais, elles doivent aussi indiquer comment les diffrents dpendants d'un mme nud se placent les uns par rapport aux autres. Plusieurs techniques sont possibles : on peut par exemple indiquer dans la rgle de linarisation d'un dpendant quels sont les autres dpendants qui peuvent se placer entre lui et son gouverneur (Mel'uk & Pertsov 1987, Nasr 1996). Nous prfrons encoder le placement des co-dpendants par une marque de position indiquant la distance d'un dpendant donn au gouverneur (Mel'uk 1967, Courtin & Genthial 1998, Kahane 2000a). Comme mtaphore, on peut voir les dpendances comme des lastiques auxquels sont accrochs les mots avec un poids gal la valeur du trait position : plus le poids est grand (en valeur absolu), plus le mot est loin de son gouverneur. On peut galement voir les marques de position comme des adresses de positions prcises ouvertes par le gouverneur. Par exemple, un verbe fini ouvre 7 positions devant lui pour les clitiques (il < ne < me < le < lui < en < y). Nous donnons Figure 11 les rgles de linarisation du sujet : un sujet non pronominal peut se placer devant le verbe la position -10 ou aprs le verbe la position +10 sous certaines conditions, tandis qu'un sujet pronominal se cliticise et occupe la position -7 devant le verbe. De mme, un objet direct pronominal se cliticise et occupe la position -5 ou -4 selon sa personne.

X
suj

Y < X -10 0 PierreY partX X


suj

Y n'est pas un pronom

suj

Y < X -7 0 jeY parsX

Y est un pronom

X < Y 0 +10

Y n'est pas un pronom et X est le verbe principal d'une proposition o un lment a t extrait et o il n'y a pas d'objet direct non pronominal

le livre que litX PierreY


Figure 11 : Trois rgles syntaxiques de surface sagittales Notons que le placement des co-dpendants dpend galement de la taille du syntagme domin par le dpendant (les gros syntagmes ont tendance tre plus loigns) et de la structure communicative (les syntagmes les plus saillants communicativement ont tendance a tre plus loigns); la marque de position devrait donc tre une fonction dpendant de la relation syntaxique, de la taille du syntagme et de la saillance communicative.

30

Sylvain Kahane

Pour le traitement des constructions non projectives, des rgles non locales sont ncessaires, puisque l'lment ne se place plus par rapport son gouverneur, mais par rapport un anctre plus loign.33 Montrons comment on passe de la reprsentation syntaxique de surface de (1) (Figure 8) sa reprsentation morphologique profonde (2). La racine ESSAYER de l'arbre syntaxique est place en premier. Le sujet ZO est plac sa gauche et la prposition DE, qui est la tte de son complment infinitif, sa droite, conformment aux rgles de linarisation des relations sujet et infinitive. Le dpendant PARLER de la prposition DE est plac sa droite, puis la prposition , qui est la tte de l'objet indirect de PARLER, sa droite, puis le nom DAME qui dpend de sa droite. L'article LE et l'adjectif BEAU seront placs gauche de DAME. En raison de la projectivit, ils devront se placer entre DAME et son gouverneur . Enfin conformment aux marques de position des rgles de placement du dterminant et du modifieur, l'article LE sera plac gauche de l'adjectif BEAU. Nous terminons ici notre prsentation de la TST standard. On trouvera une description des rgles morphologiques dans Mel'uk 1993-2001.

4 Une grammaire Sens-Texte base sur l'unification


Afin de proposer une version compltement formalise de la TST et dtablir le lien entre lapproche Sens-Texte et dautres approches, nous allons montrer comment les rgles de correspondance d'un modle Sens-Texte peuvent tre interprtes comme des rgles gnratives base sur lunification, c'est--dire comment un modle Sens-Texte standard peut tre simul par une grammaire qui gnre des portions de structures et les combine par unification. Le formalisme que nous prsentons sera appel GUST (Grammaire d'Unification Sens-Texte). Nous ferons le lien entre GUST et d'autres formalismes bien connus comme HPSG et TAG, dont il s'inspire d'ailleurs largement.

4.1 Grammaires transductives et grammaires gnratives


Les rgles de la TST sont des rgles qui mettent en correspondance deux fragments de deux structures de deux niveaux de reprsentation adjacents (par exemple un fragment de structure syntaxique de surface avec un fragment de chane morphologique profonde, c'est--dire un fragment d'arbre de dpendance avec un fragment d'ordre linaire). Etant donns deux ensembles S et S' de structures (graphes, arbres, suites, ), nous appellerons grammaire transductive entre S et S' une grammaire G qui met en correspondance des lments de S et de S' par un ensemble fini de rgles de correspondance qui mettent en correspondance un fragment d'une structure de S avec un fragment d'une structure de S' (Kahane 2000b). Tous les modules de la TST sont des grammaires transductives. Un modle Sens-Texte, le modle d'une langue donne, est encore une grammaire transductive obtenue par composition des diffrents modules du modle.34

33

La rgle d'inversion du sujet que nous proposons Figure 11 devrait tre en fait une rgle non locale : le sujet invers ne se place pas par rapport son gouverneur, mais rapport au nuclus verbal qui contrle l'extraction. Cf. Kahane 2000a pour une formalisation. La compose de deux grammaires transductives ne donnent pas trivialement une grammaire transductive. En effet, si G est une grammaire transductive entre S et S' et G' une grammaire transductive entre S' et S", on peut construire une grammaire transductive G G' entre S et S", mais cette grammaire n'est pas obtenue en composant simplement les rgles de G avec les rgles de G'. La difficult vient du fait que les fragments de structure de S' considrs par G ne sont pas forcment les mmes que ceux considrs par G'. Ainsi le module syntaxique profond de la TST considre comme fragments des portions importantes d'arbre

34

Grammaires de dpendance formelles et thorie Sens-Texte

31

Remarquons qu'une grammaire transductive G entre S et S' dfinit davantage qu'une correspondance entre S et S'. En effet, pour chaque couple (s,s') de structures appartenant S et S' et mises en correspondance par G (c'est--dire par des rgles de correspondance qui vont associer des fragments de s avec des fragments de s'), G dfinit aussi des partitions de s et s' (les fragments considrs par les rgles) et une fonction (s,s') entre ces partitions. Nous appellerons cela une supercorrespondance (Kahane 2000b). Par exemple, le module syntaxique de surface ne fait pas que mettre en correspondance des arbres de dpendance et des chanes morphologiques : pour chaque arbre et chane en correspondance, il met en correspondance les nuds de l'arbre avec les lments de la chane (par l'intermdiaire des rgles nodales) (Figure 12). La supercorrespondance entre S et S' dfinie par une grammaire transductive est mathmatiquement quivalente l'ensemble des triplets (s,s', (s,s')) o s et s' sont des lments de S et S' mis en correspondance et (s,s') est la fonction associant les partitions de s et s' dfinies par la mise en correspondance de s et s'. Un triplet de la forme (s,s', (s,s')) est en fait une structure produit au sens mathmatique du terme, c'est dire une structure complexe obtenue par l'enchevtrement de deux structures (l'enchevtrement est du au fait que, en un sens, les deux structures sont dfinies sur le mme ensemble l'ensemble des fragments mis en correspondance). Pour prendre l'exemple du module syntaxique de surface d'un MST, si s est un arbre de dpendance, s' une suite et (s,s') une correspondance entre les nuds de s et les lments de s', le triplet (s,s', (s,s')) n'est autre qu'un arbre ordonn (Figure 12).
essaye Zo
suj inf

de parler
suj

prp iobj

prp

prp

inf

prp

iobj

dt

mod

Zo essaye de parler

la belle dame

dame belle

dt mod

la Zo essaye de parler

la belle dame

Figure 12 : Equivalence entre un arbre et une suite en correspondance et un arbre ordonn Une grammaire transductive entre S et S' peut tre simule par une grammaire gnrative qui gnre l'ensemble des triplets (s,s', (s,s')) dcrit par G. Les rgles de correspondance sont alors vues comme des rgles gnrant des fragments de structure produit. Nous allons dvelopper cette ide dans la suite. Inversement, les grammaires gnratives qui gnrent des structures produits peuvent vues comme des grammaires transductives. Par exemple, les grammaires de Gaifman-Hays, qui gnrent des arbres de dpendance ordonns, peuvent tre vue comme des grammaires mettant en correspondance des arbres de dpendance non ordonns avec des suites, c'est-dire comme une implmentation d'un module syntaxique de surface de la TST. Notons quand
syntaxique de surface qui correspondent dans la structure syntaxique profonde un seul nud (par exemple pour la rgle d'expansion d'une locution), alors que le module syntaxique de surface n'en considre pratiquement pas (et pas les mmes).

32

Sylvain Kahane

mme que les grammaires de Gaifman-Hays cherchent aussi assurer la bonne formation des arbres de dpendance, alors que, dans le cadre de la TST, celle-ci rsulte de l'interaction des diffrents modules.

4.2 Grammaire d'Unification Sens-Texte


Nous allons maintenant montrer comment un modle Sens-Texte peut tre simul par une grammaire gnrative base sur l'unification, que nous appelons GUST (Grammaire d'Unification Sens-Texte).35 Le formalisme de GUST s'inspire de la grammaire de Nasr (1995, 1996; Kahane 2000a), elle-mme inspire des grammaires TAG lexicalises (Schabes 1990, Abeill 1991, XTAG 1995, Candito 1999).36 Nous ne considrons que 3 des 7 niveaux de reprsentations de la TST : le niveau smantique, le niveau syntaxique (de surface) et le niveau morphologique (profond). Le 4me et dernier niveau considr sera le texte lui-mme, c'est--dire la squence des caractres de la phrase. Nous aurons ainsi trois modules (modules smantique, syntaxique et morphologique). Nous allons les prsenter maintenant, puis nous tudierons leurs diffrentes combinaisons, ce qui nous permettra de faire le lien avec les grammaires compltement lexicalises comme TAG. 4.2.1 Module smantique de GUST Le module smantique de GUST assure directement la correspondance entre le niveau smantique et le niveau syntaxique de surface, sans considrer un niveau syntaxique profond intermdiaire. Nous considrons deux types de rgles : des rgles smantiques lexicales, qui manipulent la configuration smantique forme d'un smantme lexical et de ses arguments (plus exactement des dpendances smantiques vers ses arguments), et des rgles smantiques grammaticales, qui manipulent un smantme grammatical (et la dpendance vers son argument). Ces deux types de rgles suffisent assurer la correspondance entre un graphe smantique et un arbre syntaxique de surface, puisque n'importe quel graphe smantique peut tre partitionn en un ensemble de configurations prises en entre par nos rgles smantiques lexicales et grammaticales. On voit Figure 13 la rgle qui donne la ralisation syntaxique de surface de la configuration smantique compose du prdicat parler et de ces deux premiers arguments. Dans la TST standard, cette information se trouve dans l'entre de dictionnaire de PARLER. En un sens, le dictionnaire ne dit pas comment obtenir la correspondance entre ces deux configurations, et l'information de la Figure 13 est en fait le rsultat de la composition de plusieurs rgles nodales et sagittales smantiques et syntaxiques profondes dclenches sous le contrle de l'entre de dictionnaire de PARLER. Dans la rgle de la Figure 13, il est galement indiqu que PARLER est un verbe et que ce verbe doit recevoir des grammmes profonds de mode, temps et voix. Les flches () qui prcdent ces grammmes indiquent que ceux-ci ne sont pas encore exprims. Ils le seront par des rgles smantiques grammaticales qui seront obligatoirement dclenches (en exigeant que les flches aient disparues dans une reprsentation syntaxique bien forme).

35

GUST n'est pas exactement une autre prsentation de la TST. Certains choix thoriques peuvent tre diffrents et nous pensons que ce formalisme permet de rsoudre certaines questions dont le traitement classique en TST n'est pas trs clair, notamment tout ce qui concerne l'interaction entre les diffrentes rgles d'un mme module ou de deux modules adjacents. Voir galement Hellwig 1986 pour une proposition antrieure de grammaire de dpendance base sur l'unification, appele DUG (Dependency Unification Grammar).

36

Grammaires de dpendance formelles et thorie Sens-Texte

33

parler
1 2

PARLER (V)"m,"t,"v

!
Y

suj

iobj

X(N)

(Prp)

prp

Y(N)
smantique syntaxique (de surface)

Figure 13 : Une rgle de correspondance TST (smantico-syntaxique profonde) Nous proposons Figure 14 la rgle de GUST qui simule la rgle TST de la Figure 13. Au lieu de mettre en correspondance un fragment de structure smantique avec un fragment de structure syntaxique, cette rgle propose un fragment de structure produit smantiquesyntaxique, exprimant la fois la relation entre le smantme parler et la lexie PARLER et les relations entre les arguments 1 et 2 de parler et les sujet et objet indirect (iobj) de PARLER. Dans la rgle de la Figure 14, l'arbre syntaxique est reprsent explicitement (ce qui donne une certaine primaut la syntaxe), alors que le graphe smantique est encod dans l'tiquetage des nuds par l'intermdiaire des traits sm, arg1 et arg2. Chaque nud possde un trait sm dont la valeur est un smantme, le signifi de la lexie tiquetant ce nud. Lorsque ce smantme a des arguments, ceux-ci sont les valeurs des traits arg1, arg2, etc., valeurs qui sont partages avec les traits sm des nuds syntaxiques qui ralisent ces arguments. Le partage d'une valeur par plusieurs traits est indiqu par une variable, la valeur elle-mme n'tant indique qu'une fois.37 Notons encore que les mots vides portent un trait sm qui bloquera l'unification avec une tiquette portant le trait sm.
PARLER (V)!m, !t,!v sm: parler arg1: x arg2: y suj iobj (Prp) sm prp (N) sm: x (N) sm: y

Figure 14 : Une rgle smantique lexicale GUST Les rgles lexicales se combinent par unification. Nous prsentons Figure 15 la drivation de la phrase Le petit chat dort ici par combinaison des rgles lexicales associes aux lexies de cette phrase (il s'agit en fait de rgles lexicales sur lesquelles ont dj t appliques les rgles grammaticales, comme on le verra plus loin). Deux rgles se combinent par fusion de deux nuds et unification des tiquettes correspondantes. Comme nous le verrons dans la suite, plusieurs nuds, ainsi que des dpendances, peuvent fusionner lors de la combinaison de deux rgles. Le rsultat d'une drivation est bien form si cette drivation met bien en

37

Le fait de faire partager une mme valeur plusieurs traits est une technique bien connue dans les formalismes bass sur l'unification. Voir l'usage intensif qu'en fait par exemple le formalisme HPSG (Pollard & Sag 1994).

34

Sylvain Kahane

correspondance un graphe smantique connexe avec un arbre de dpendance, c'est--dire si le rsultat est un arbre dont tous les traits sm sont instancis (certains traits ont pour valeur une variable qui indique en fait l'adresse de la valeur d'un autre trait qui est instanci).
DORMIR
(V)ind,prsent t: prsent sm: dormir arg1: x (N) sm: x (V) sm: x

DORMIR CHAT
(V)ind,prsent t: prsent sm: e dormir arg1: x

(N) sm: x d: dfini

CHAT
(N,masc)sg,!d sm: chat

sujet
(N) sm: x

adv
ICI (Adv) sm: ici arg1: x

"

(N,masc)sg d: dfini sm: x chat

suj

adv (Adv)
sm: ici arg1: e

ICI

dt
LE (Dt) sm

mod
PETIT (Adj) sm: petit arg1: x

dt mod
LE (Dt) sm PETIT (Adj) sm: petit arg1: x

Figure 15 : Drivation de Le petit chat dort ici Avant de revenir sur les rgles lexicales, nous allons prsenter les rgles smantiques grammaticales. Les grammmes profonds sont calculs partir de la reprsentation smantique : certains yapparaissent explicitement comme des smantmes grammaticaux, d'autres seront calculs partir de la structure communicative smantique (comme la voix qui dpend en partie de la partition thme-rhme) et d'autres encore sont imposs par la rection (comme le mode infinitif). Il n'est pas ais de traiter la combinaison entre une rgle lexicale et une rgle grammaticale par unification, car un grammme ne fait pas qu'ajouter de l'information : il peut aussi entraner une modification importante du comportement de la lexie qu'il spcifie. C'est le cas, par exemple, d'un grammme de voix passive qui entrane une redistribution des fonctions des actants syntaxiques de la lexie (l'objet devient sujet et le sujet devient un complment d'agent). Dans un premier temps, nous allons traiter les rgles grammaticales comme des oprateurs qui associent une rgle lexicale une nouvelle rgle lexicale (o un grammme profond supplmentaire est exprim). Nous prsentons Figure 16 les rgles pour le prsent, le pass compos et la voix passive. Le pass compos d'un verbe X est exprim par l'auxiliaire AVOIR38 au prsent et le verbe X au participe pass. L'auxiliaire AVOIR est l'auxiliaire par dfaut : si X possde un trait aux indiquant un autre auxiliaire (par exemple TRE), la valeur @aux de ce trait sera utilise la place de AVOIR. 39 Le smantme pass compos apparat dans l'tiquette de X (son argument est la valeur du trait sm de X), mais le grammme profond pass compos n'apparat pas en tant que tel. Seuls apparaissent les grammmes de surface tels que prsent ou p-pass (participe pass). Notez galement le positionnement des traits pour le mode sur l'auxiliaire et de la voix sur le verbe X.

38

Nous passons sous silence la question de la smantique de l'auxiliaire. Nous devons assurer que les modifieurs de la forme verbale compose qui dpendent smantiquement de l'auxiliaire prennent bien le signifi du verbe comme argument smantique. La notation a//b utilise dans les rgles comme valeur d'un trait signifie : la valeur est a, si la valeur b ne peut tre trouve, et b sinon.

39

Grammaires de dpendance formelles et thorie Sens-Texte

35

X (V)"m, "t,"v

prsent

X (V)"m, prsent,"v t: prsent

X (V)"m,"t,"v
suj

pass compos

AVOIR//@aux (V)"m,prsent
suj aux

Y X (V)"m, "t,"v
suj dobj

X (V)p-pass,"v t: pass compos

passif

TRE (V)"m," t
suj aux

!
Y

X (V)p-pass PAR//@prp-passif sm

(obl) prp

Z
Figure 16 : Rgles grammaticales GUST pour le prsent, le pass compos et la voix passive (version oprateur) Nous proposons Figure 17 une autre version de la rgle grammaticale pour le pass compos. Cette rgle se combine par unification avec la rgle lexicale d'un verbe. La monte du sujet Y de X sur l'auxiliaire est assure par la flche tiquete sujet de X Y. Cette flche, que nous appelons une quasi-dpendance, va fusionner avec la dpendance sujet de X (dans sa rgle lexicale) et tuer cette dpendance. Nous proposons galement une rgle grammaticale pour le dfini lorsqu'il est exprim par l'article LE. La dtermination (dfini, indfini, partitif) est un grammme profond qui a une expression purement analytique et ne donne donc pas de grammme de surface.40

40

Ce comportement marginal de la dtermination peut pousser certains ne pas traiter la dtermination comme une catgorie flexionnelle et prfrer traiter les lexies LE ou UN comme des lexies pleines exprimant les sens dfini et indfini. Nous prfrons notre solution. Cette solution, par l'obligation d'exprimer la dtermination, rgle aussi le problme de la prsence obligatoire du dterminant.

36

Sylvain Kahane

AVOIR//@aux (V)!m,prsent
suj aux suj

(N) sm: x d: dfini


dt

X (V)p-pass,!v t: pass compos

LE (Dt) sm

Figure 17 : Rgles grammaticales GUST pour le pass compos et le dfini (version unification) Nous allons maintenant montrer comment sont traits quelques phnomnes linguistiques en proposant d'autres rgles smantiques lexicales. Nous donnons Figure 18 la rgle pour la locution LA MOUTARDE MONTER AU NEZ. La rgle smantique pour une locution fait correspondre un smantme une configuration de lexies de surface. D au fait que seul la racine de cette configuration accepte des modifications (cf. (4)), seule la racine de l'arbre aura un trait sm (instanci par le signifi de locution), tandis que les autres nuds auront un trait sm qui bloquera toute modification (puisqu'un modifieur est un prdicat qui prend son gouverneur comme argument et exige donc que celui-ci ait un trait sm (cf. les rgles pour PETIT et ICI de la Figure 15). Un verbe avalent (sans argument) comme PLEUVOIR aura une rgle similaire celle d'une locution, avec un nud sm pour le sujet vide.41 (4) a. La moutarde me monte srieusement au nez b. *La moutarde forte me monte au nez

MONTER (V)!m, !t,!v sm: la moutarde monter au nez arg1: x (N,pro) MOUTARDE iobj sm: x suj (N,fm)sg sm dt prp , (Prp), sm NEZ LE (N,masc)sg dt (Dt) sm sm
LE, (Dt), sm

PLEUVOIR (V)!m,!t,!v sm: pleuvoir


suj

IL (N)cl sm

Figure 18 : Rgles lexicales pour une locution et pour un verbe avalent Le contraste entre verbe contrle (comme ESSAYER) et verbes monte (comme COMMENCER) est traditionnellement encod dans les grammaires syntagmatiques dans la structure syntaxique. Dans notre approche, les deux types de verbes ont exactement la mme reprsentation syntaxique : le verbe gouverne un sujet et un infinitif qui partage avec le verbe le mme sujet (nous reviendrons sur la relation sujet de l'infinitif). Le contraste vient de la

41

Le traitement est diffrent en TST o l'introduction d'un sujet vide rsulte d'une rgle grammaticale syntaxique profonde. D'ailleurs, notre traitement n'est pas entirement satisfaisant. Il serait probablement prfrable de traiter le sujet de PLEUVOIR comme un lment grammatical et non comme une portion de locution, puisque celui-ci n'apparat pas dans certaines constructions comme Dieu fait pleuvoir.

Grammaires de dpendance formelles et thorie Sens-Texte

37

reprsentation smantique : un verbe contrle prend son sujet comme argument smantique, mais pas un verbe monte (Figure 19). Dans les deux cas, l'infinitif contrle le sujet de son gouverneur et il faut un moyen d'assurer cela. Pour cela, nous considrons qu'un infinitif possde une sorte de dpendance sujet ; ce lien s'apparente une dpendance, mais n'en est pas une, car il ne compte pas dans la structure d'arbre et il n'est pas pris en compte dans la linarisation (cf. Hudson 2000 pour une proposition similaire). Un tel lien sera appel une quasi-dpendance. De mme, on aura dans la rgle d'un verbe contrle ou monte une quasi-dpendance sujet pour l'infinitif avec laquelle la quasi dpendance de la rgle de l'infinitif devra s'unifier. La quasi-dpendance est donc juste un moyen assez simple d'assurer le contrle du sujet du verbe contrle ou monte par l'infinitif. Notons que ce contrle est bien syntaxique : il s'agit du sujet du verbe infinitif et pas d'un argument smantique prcis. En effet, il peut s'agir d'un sujet smantique vide (5a), d'un sujet qui fait partie d'une locution (5b) et, lorsque ce sujet est plein, il peut s'agir aussi bien du premier argument (5c) que du second argument (5d). En consquence, les infinitifs doivent avoir un sujet dans leur reprsentation syntaxique, mais ce sujet sera une quasi-dpendance (afin d'viter qu'un verbe infinitif ait un vrai sujet). La rgle smantique du grammme infinitif devra assurer que la relation sujet devienne bien une quasi-dpendance . (5) a. b. c. d. Il commence pleuvoir. La moutarde commence lui monter au nez. Le bruit commence gner le garon. Le garon commence tre gen par le bruit.
ESSAYER (V)!m, !t,!v sm: essayer arg1: x arg2: y DE suj inf (Prp) sm (N) suj prp sm: x (V)inf sm: y COMMENCER (V)!m, !t,!v sm: commencer arg1: x suj inf (Prp) sm
suj prp

(V)inf sm: x

Figure 19 : Rgles lexicales pour un verbe contrle et un verbe monte

Remarquons que le fait qu'un verbe contrle prenne son sujet comme argument smantique suffit viter que ce verbe ait un sujet vide (ce qui est un contraste bien connu entre verbes contrle et verbes monte) : (6) a. *Il essaye de pleuvoir. b. *La moutarde essaye de lui monter au nez. Les verbes copules, c'est--dire les verbes prenant un attribut, seront traits de faon similaire aux verbes monte : dans la rgle smantique lexicale d'un verbe copule, on aura une quasidpendance modifieur indiquant le lien entre le dpendant du verbe copule modifi par l'adjectif attribut et l'adjectif lui-mme (Figure 20). Cette quasi-dpendance permet la fois l'adjectif de rcuprer son argument smantique et d'assurer l'accord de l'adjectif avec le nom modifi par la rgle d'accord ordinaire de l'adjectif avec le nom qu'il modifie (et sans qu'il soit ncessaire de faire circuler de l'information au travers du verbe copule). Enfin, cette solution permet d'utiliser la mme rgle lexicale pour l'adjectif qu'il soit pithte (7a) ou qu'il contrle le sujet (7b) ou l'objet (7c) (voir Figure 20 la rgle pour l'adjectif PETIT).

38

Sylvain Kahane

(7) a. un petit livre b. ce livre est petit c. Pierre trouve ce livre petit

TRE (V)!m,!t,!v
suj prd mod (Adj)

TROUVER (V)!m, !t,!v sm: trouver arg1: x arg2: y


suj dobj prd mod (Adj)

(N) sm: x
mod

(N)
mod (Adj)

FACILE sm: facile

(N) sm: x

sm: y

PETIT (Adj) sm: petit arg1: x

dobj inf arg1: x prp

, (Prp), sm (V)inf sm: x

Figure 20 : Rgles lexicales pour les verbes copules et les adjectifs Le phnomne dit du tough-movement peut tre dcrit de la mme faon. Quand un adjectif tel que FACILE gouverne un verbe, le nom que modifie l'adjectif n'est pas son argument smantique mais un argument smantique du verbe (8a). De plus, le nom doit remplir le rle d'objet direct du verbe. Par consquent, la rgle smantique de FACILE contient une quasidpendance objet direct entre le verbe gouvern et le nom modifi (Figure 20). Ainsi seul un verbe pourvu d'un objet direct peut se combiner avec FACILE et l'extraction de l'objet direct du verbe sera assure par l'unification de la dpendance objet direct du verbe avec la quasi-dpendance de mme rle de la rgle de FACILE. On peut remarquer que la rgle de FACILE peut aussi se combiner avec un verbe copule (8b,c). (8) a. un livre facile lire b. ce livre est facile lire c. Pierre trouve ce livre facile lire Nous arrterons l la prsentation du module smantique de GUST. Comme on l'a vu, l'un des objectifs de GUST est d'viter la multiplication des rgles associ une lexie. Sur le fragment de grammaire propos, on a pu couvrir avec une seule rgle lexicale par lexie un grand nombre de constructions diverses. De mme, par la combinaison avec les rgles grammaticales, on construit les rgles des diffrentes formes d'un verbe partir d'une seule rgle lexicale.42 4.2.2 Module syntaxique de GUST Le module syntaxique de GUST correspond au module syntaxique de surface de la TST : il assure la correspondance entre le niveau syntaxique de surface et le niveau morphologique profond. Le module syntaxique possde trois types de rgles : des rgles d'accord, des rgles de rgime et des rgles de linarisation. On voit Figure 21 la rgle d'accord du verbe avec son sujet et la rgle de rection des pronoms sujet (qui reoivent le nominatif). La rgle d'accord

42

Nous n'avons pas discut des diffrentes sous-catgorisations d'une mme lexie (par exemple, demander N N, que Vsubj, Vinf, ). Tel que nous avons prsent le formalisme, nous devrions introduire une rgle pour chaque sous-catgorisation. Pour des questions d'efficacit de l'analyse automatique ou de pertinence cognitive (cf. Section 5.3), nous pensons prfrable, tant que cela est possible, de rassembler ces diffrentes sous-catgorisations dans une mme rgle. Nous devrons alors de introduire des disjonctions et considrer des dpendances optionnelles.

Grammaires de dpendance formelles et thorie Sens-Texte

39

du sujet indique que le sujet s'accorde en nombre et en personne avec son sujet (9a). Lorsque le sujet ne possde pas de trait de personne, la valeur par dfaut est 3 (9b,c) et lorsqu'il ne porte pas de grammme de nombre la valeur par dfaut est le singulier (sg) (9c). (9) a. Nous viendrons. b. Pierre viendra. c. Que tu viennes est impossible.

(V)3//p,sg//n
suj

(V)
suj

(p)n

(N,pro)nom

Figure 21 : Rgles syntaxiques d'accord et de rection Les rgles de linarisation de GUST simulent les rgles de linarisation de la TST (prsentes dans la Figure 8 de la Section 3.2.3). Nous reprenons Figure 22 la rgle de placement par dfaut d'un sujet non pronominal. Une rgle de ce type met en correspondance la dpendance entre deux nuds syntaxiques avec une relation d'ordre (agrmente d'un trait de position) entre les nuds morphologiques correspondants. Pour prparer le passage GUST, nous avons dplac les conditions d'application de la rgle.
X(V)
suj

Y(pro)
syntaxique

Y < X -10 0
morphologique

Figure 22 : Une rgle de linarisation TST Nous proposons Figure 23 la rgle de GUST qui simule la rgle TST de la Figure 22. Au lieu de mettre en correspondance un fragment de structure syntaxique avec un fragment de structure morphologique, cette rgle propose un fragment de structure produit syntaxiquemorphologique, c'est--dire un morceau d'arbre ordonn.
suj, pos: -10 (pro) (V)

Figure 23 : Une rgle de linarisation GUST Les rgles comme celles de la Figure 23 se combinent par unification. On impose que le rsultat soit un arbre ordonn projectif (Kahane 2000b, 2001). Nous ne traiterons pas ici la question de la linarisation des arbres non projectifs (voir, par exemple, Brker 1998, Lombardo & Lesmo 1998, Kahane et al. 1998, Hudson 2000, Gerdes & Kahane 2001).

40

Sylvain Kahane

4.2.3 Module morphologique GUST Nous terminons notre prsentation des modules de GUST par le module morphologique qui assure la correspondance entre le niveau morphologique (profond) et le niveau textuel, c'est-dire la chane de caractres qui forme le texte d'une phrase. Les rgles TST permettent de mettre en correspondance la reprsentation morphologique profonde d'un mot, une lexie de surface accompagne d'une liste de grammmes de surface, avec une chane de caractres. Nous prsentons Figure 24 une rgle de ce type dans le style TST 43.

MANGER (V)ind,prsent,1,pl
morphologique (profond)

mangeons
textuel

Figure 24 : Une rgle morphologique TST Cette rgle est simule en GUST par une rgle qui prsente ces deux informations dans une mme structure (Figure 25).
MANGER (V)ind,prsent,1,pl graph: mangeons

Figure 25 : Une rgle morphologique GUST Contrairement la TST, GUST n'utilise pas de dictionnaire spar : par exemple, le tableau de rgime est compltement encod dans les rgles smantiques. De mme, la partie du discours et tous les traits pertinents (genre des noms, personne des pronoms, comportements particuliers, ) devront tre introduit par la rgle morphologique.

4.3 Combinaison des modules


Nous allons maintenant montrer comment les rgles des diffrents modules se combinent pour driver une phrase, c'est--dire pour mettre en correspondance une reprsentation smantique avec un texte. L'avantage de GUST, sur un modle Sens-Texte standard, est que, comme pour tous les formalismes bass sur l'unification, il est trs facile de combiner n'importe quelles rgles ensemble. En particulier, comme nous allons le voir, une grammaire GUST peut garder une forme modulaire, comme la TST, ou tre compltement lexicalise, comme TAG (avec des avantages sur cette dernire, notamment le fait qu'on peut viter l'explosion du nombre de structures lmentaires associes chaque entre lexicale. 4.3.1 Drivation d'une phrase Nous prsentons Figure 26 l'ensemble des rgles ncessaires la drivation de la phrase (10) : (10) Nous essayons de manger la soupe.

43

Dans la TST standard, une telle rgle est en fait le rsultat de la composition d'un grand nombre de rgles morphologiques et phonologiques. Si nous voulons tre capable de traiter des mots inconnus, nous devrons avoir des rgles de ce type.

Grammaires de dpendance formelles et thorie Sens-Texte

41

Ces rgles permettent de mettre en correspondance la reprsentation smantique de (10) avec le texte de (10). Il y a plusieurs faons d'utiliser ces rgles, dans le sens de l'analyse comme de la synthse. Nous allons regarder le sens de l'analyse. Il s'agit de construire une reprsentation smantique partir du texte. On peut distinguer deux stratgies principales : la stratgie horizontale et la stratgie verticale. La mtaphore horizontal/vertical s'entend par rapport au dcoupage de l'ensemble des rgles de la Figure 26, selon qu'il est fait en tranches horizontales ou verticales.
essayer
niveau

soupe
2 smantique

nous ESSAYER
(V)ind,prsent sm: essayer t: prsent arg1: x arg2: y

1 1

manger MANGER
(V)inf sm: manger arg1: x arg2: y

NOUS (N,pro,1)pl
sm: nous

(N)df sm: x d: dfini

SOUPE
(N,fm)sg,!d sm: soupe

suj
(N) sm: x

inf

DE
(Prp) sm

dt
LE (Dt)

suj
(N) sm: x

dobj
(N) sm: y

suj prp
(V)inf sm: y

niveau syntaxique

(V) suj

(V)3//p,sg//n suj (N,p)n

suj, pos: -7 inf, pos: +10

prp, pos: +5 dobj, pos: +10

dt, pos: -5

(N,g)n dt

(N,pro)nom NOUS

(N,pro) (V)

(V) (Prp) (Prp) (N/V)


niveau morphologique

(V)

(N)

(Dt) (N)

(Dt)g,n

ESSAYER
(V)ind,prsent,1,pl

DE
(Prp)

MANGER
(V)inf

LE
(Dt)fm,sg

SOUPE
(N,fm)sg

(N,pro,1)pl,cl,nom

graph: nous

graph: essayons

graph: de graph: manger graph: la


niveau textuel

graph: soupe

Figure 26 : Drivation de Nous essayons de manger la soupe

4.3.2 Stratgie horizontale La stratgie horizontale consiste dclencher les rgles module aprs module. 1) Le module morphologique permet de passer du texte proprement dit (la chane de caractre) la reprsentation morphologique, c'est--dire une suite de lexies accompagnes d'une liste de grammmes. La rgle introduit galement la partie du discours et tous les traits pertinents pour la suite. Le module morphologique ralise ce qu'on appelle traditionnellement la lemmatisation, l'tiquetage morphologique ou le tagging. A noter que le module n'a pas le pouvoir, comme le font ce qu'on nomme gnralement des taggeurs, de filtrer certaines squences de lexies (ou de catgories lexicales) qui ne peuvent apparatre dans la langue. De tels filtres sont en fait la projection d'informations contenues dans le module syntaxique, et nous pensons qu'il est prfrable d'utiliser le module syntaxique lui-mme pour cette tche. Notre tiqueteur ne fait donc que proposer pour chaque mot toute les lemmatisations possibles sans tenir compte des tiquettes attribues aux lexies voisines.

42

Sylvain Kahane

2) Le module syntaxique permet de passer de la reprsentation morphologique la reprsentation syntaxique. Il propose pour chaque couple de lexies, en fonction de leurs positions relatives, une liste (ventuellement vide) de dpendances susceptibles de les lier. Nous verrons Section 5 diffrentes procdures pour produire des arbres syntaxiques. Le module syntaxique ralise ce qu'on appelle traditionnellement le shallow parsing ou analyse superficielle. A noter que le module syntaxique n'a pas le pouvoir de contrler la sous-catgorisation des lexies, ni mme de vrifier qu'un verbe a bien un et un seul sujet. Ceci sera contrl par le module smantique. Comme prcdemment, il est possible de projeter une partie du module smantique sur le module syntaxique pour assurer ces points, bien que nous pensions qu'il est prfrable d'utiliser le module smantique luimme.44 3) Le module smantique permet de passer de la reprsentation syntaxique la reprsentation smantique. Chaque dpendance syntaxique doit tre associe une configuration mise en correspondance avec une configuration smantique de relations prdicat-argument entre smantmes pour tre valide. Comme on l'a dit, notre reprsentation smantique est une reprsentation du sens purement linguistique et n'a pas l'ambition d'tre une reprsentation de l'tat du monde dnote par la phrase. Pour cette raison, une grande partie de ce que ralise notre module smantique est considre par beaucoup comme une tape de l'analyse syntaxique et correspond ce qu'on appelle gnralement l'analyse profonde, ou deep analysis. La stratgie horizontale est la stratgie retenue par la plupart des approches modulaires. Le principal inconvnient de la stratgie horizontale est le fait que la dsambigusation (quand elle est possible) n'intervient qu'au niveau smantique et qu'il faudra manipuler aux niveaux morphologique et syntaxique un trs grand nombre d'analyses concurrentes. 4.3.3 Stratgie verticale et lexicalisation complte La stratgie verticale consiste dclencher les rgles mot aprs mot. Prenons l'exemple (10). Lorsqu'on analyse le mot nous, le module morphologique propose (parmi d'autres propositions) d'tiqueter nous comme une forme nominative du pronom NOUS. Mais, on peut alors, par la rgle syntaxique de rection, en dduire qu'il s'agit d'un clitique sujet, puis par la rgle de linarisation des pronoms sujet et par la rgle d'accord prdire la position du verbe et en partie sa forme. La rgle smantique associe la lexie NOUS peut tre galement dclenche. Par la seule analyse du mot nous, on peut donc dclencher 5 rgles et dbuter l'analyse syntaxique et smantique. La mme chose lorsqu'on analyse le mot suivant essayons. Le module morphologique proposer d'tiqueter essayons comme une forme du verbe ESSAYER. Cette forme remplit les conditions imposes par nous son gouverneur syntaxique et la rgle peut donc tre immdiatement combine avec les rgles prcdentes. Une des rgles smantiques associes ESSAYER peut tre dclenche. Si l'on dclenche la rgle o le deuxime argument est ralis par DE Vinf, on dclenchera les rgles syntaxiques de linarisation associes une telle construction. Et ainsi de suite. La Figure 27 montre les diffrents paquets de rgles dclenchs par les diffrents mots de la phrase.

44

Pour que l'analyseur soit robuste, la grammaire doit proposer un traitement par dfaut des mots inconnus. Par exemple, le module smantique doit proposer, parmi ses diffrentes rgles par dfaut, une rgle pour une forme verbale qui indiquera que la forme en question doit avoir un sujet et qu'elle aura au plus un objet direct, un objet indirect et deux complments obliques. Ce sont les projections de ces rgles smantiques par dfaut qui sont les rgles filtres gnralement utilises par les modules syntaxiques.

Grammaires de dpendance formelles et thorie Sens-Texte

43

niveau smantique

ESSAYER
(V)ind,prsent sm: essayer t: prsent arg1: x arg2: y

MANGER
(V)inf sm: manger arg1: x arg2: y

NOUS (N,pro,1)pl
sm: nous

(N)df sm: x d: dfini

SOUPE
(N,fm)sg,!d sm: soupe

suj
(N) sm: x

inf

DE
(Prp) sm

suj
(N) sm: x

dt dobj
(N) sm: y LE (Dt)

suj prp
(V)inf sm: y

niveau syntaxique

(V) suj

(V)3//p,sg//n suj (N,p)n

suj, pos: -7 inf, pos: +10

prp, pos: +5 dobj, pos: +10

dt, pos: -5

(N,g)n dt

(N,pro) (V)

(V) (Prp) (Prp) (N/V)


niveau morphologique

(V)

(N)

(Dt) (N) (Dt)g,n

(N,pro)nom NOUS

ESSAYER
(V)ind,prsent,1,pl

DE
(Prp)

MANGER
(V)inf

LE
(Dt)fm,sg

SOUPE
(N,fm)sg

(N,pro,1)pl,cl,nom

graph: nous

graph: essayons

graph: de

graph: manger graph: la

graph: soupe

niveau textuel

Figure 27 : Regroupement des rgles dans l'analyse verticale Une stratgie d'analyse verticale semble beaucoup plus sduisante qu'une stratgie d'analyse horizontale si l'on se place du point de vue cognitif, c'est--dire du point de vue de la modlisation du processus d'analyse linguistique par un locuteur. Mme du point de vue du traitement informatique, une analyse verticale pourrait s'avrer plus efficace qu'une analyse horizontale. Il existe d'ailleurs une variante de l'analyse verticale qui consiste prcompiler les paquets de rgles dclenchs par chaque mot. On obtient ainsi une grammaire dite compltement lexicalise (fully lexicalized grammar). La grammaire ainsi obtenue s'apparente la grammaire propose par Nasr 1995, 1996, elle-mme inspire des TAG (cf. galement Kahane 2000a pour un traitement des extractions). Le passage des rgles compltement lexicalises se fait simplement par combinaison d'un paquet de rgles modulaires (Figure 28). Il s'agit de la combinaison ordinaire des rgles de la grammaire (base sur l'unification) ; la seule diffrence est que la combinaison des rgles ne se fait pas au moment de l'analyse, mais dans une phase pralable de prcompilation (Candito 1996, Candito & Kahane 1998). Le passage d'une grammaire modulaire une grammaire compltement lexicalise amne plusieurs commentaires. 1) L'analyse verticale avec la grammaire modulaire revient en fait utiliser une grammaire compltement lexicalise sans l'avoir lexicalise au pralable, mais en construisant les rgles lexicalises la demande (on line) au moment de l'analyse. Quels sont alors les avantages ou les inconvnients de la grammaire compltement lexicalise ? La prcompilation consomme de l'espace, puisqu'il faut mmoriser toutes les rgles lexicalises, lesquelles sont extrmement redondantes entre elles. Par contre, le temps d'analyse, si l'accs aux rgles compiles est bien gr, devrait tre amlior par le fait qu'une partie des combinaisons de rgles est dj faite. L'alternative entre grammaire modulaire et grammaire compltement lexicalise peut aussi tre considre du point de vue cognitif : sous-quelle forme la grammaire est-elle code dans notre cerveau ? Y-a-t-il

44

Sylvain Kahane

des constructions linguistiques plus frquentes que d'autres qui sont dj lexicalises ? La grammaire s'acquiert-elle sous forme modulaire ou lexicalise ? 2) Les deux analyses, avec ou sans prcompilation, posent les mmes problmes thoriques, savoir quels sont les paquets de rgles qui doivent tre associs une lexie donne ou, de manire quivalente, mais en se plaant du point de vue des rgles plutt que des lexies, quelle lexie doit tre associe une rgle donne. Prenons un exemple : quelle lexie, gouverneur ou dpendant, doit tre associe une rgle de linarisation? Considrons le cas de l'objet direct en franais. Les rgles sont les suivantes : un nom objet direct se place derrire le verbe, un pronom clitique se place devant le verbe ( une place bien prcise par rapport aux autres clitiques) et un pronoms relatif ou interrogatif se place l'avant de la proposition. Il serait peu conomique d'indiquer pour chaque nom, dans la rgle lexicalise qui lui correspond, comment il se place quand il est objet direct, sujet ou autre chose encore. Il est donc prfrable d'attacher la rgle de linarisation de l'objet direct aux verbes qui en possde un. Par contre, le pronom clitique objet direct a une forme bien particulire et un placement bien particulier. Il semble plus conomique d'attacher ce seul mot, le, le pronom clitique objet direct, les rgles qui lui sont spcifiques. De mme, les pronoms relatifs ou interrogatifs ont un placement particulier qui ne dpend pas rellement de leur fonction. Il semble donc aussi plus conomique que la rgle de placement de ces lments leur soit attache. La solution retenue est donc de panacher l'information sur le placement de l'objet direct entre les verbes transitifs pour les lments canoniques (les noms) et les lments non canoniques eux-mmes pour ce qui les concerne (voir Figure 28). Cette faon de faire permet d'viter la multiplication des rgles lexicalises associes un mme verbe, comme cela est le cas par exemple en TAG o le formalisme ne permet pas d'encoder le placement des arguments d'une lexie ailleurs que dans la rgle (appele structure lmentaire en TAG) de cette lexie. Reste une difficult : il faut viter, lors de la combinaison d'un verbe x avec un lment en position non canonique y, que rentre en conflit la rgle de linarisation des lments en position canonique attache x avec la rgle de linarisation spcifique attache l'lment y (voir Kahane 2000a pour une solution base sur l'unification consistant tuer la rgle de positionnement attache la dpendance objet du verbe en l'unifiant avec un leurre, une quasi-dpendance objet place dans la structure associe l'lment y). 3) En dehors des questions computationnelles, les grammaires compltement lexicalises ont un autre intrt : il est trs facile d'crire un premier fragment de grammaire et de l'tendre chaque nouvelle construction rencontre. Nanmoins, de cette faon, on contrle difficilement la consistance globale de la grammaire et certaines constructions obtenues seulement par combinaison de phnomnes divers peuvent tre facilement oublies (par ex., la forme passive d'un verbe o un complment est relativis et un autre cliticis). Pour cette raison, ds qu'on souhaite dvelopper et maintenir une grammaire large couverture, il est ncessaire de contrler la grammaire compltement lexicalise par une grammaire modulaire partir de laquelle on la gnre. Dans le cadre des TAG, il a t dvelopp des formalismes modulaires partir desquels on peut gnrer la grammaire TAG (VijayShanker 1992, Candito 1996, 1999), ainsi que des procdures pour gnrer la grammaire TAG partir d'une grammaire modulaire existante, comme HPSG (Kasper et al. 1995). Notre approche prsente un avantage par le fait que nous proposons un formalisme qui permet d'crire la fois une grammaire modulaire et une grammaire compltement lexicalise. On peut ainsi envisager de lexicaliser une partie de la grammaire seulement et de maintenir une grammaire non lexicalise pour les constructions marginales. J'aimerais insister, pour terminer cette section sur l'analyse verticale, sur le fait qu'une grammaire modulaire ne s'utilise pas ncessairement module par module. Quand on parle d'une architecture modulaire pour un systme de TAL, on pense gnralement, tord, une succession de modules agissant les uns aprs les autres. D'autre part, si j'ai mis l'accent sur le lien entre l'analyse verticale et les grammaires lexicalises, c'est parce que ce lien existe et que les grammaires lexicalises connaissent l'heure actuelle un certain succs en TAL. Mais je

Grammaires de dpendance formelles et thorie Sens-Texte

45

ne voudrais pas que ceci masque le fait que l'analyse verticale est possible sans prcompilation et qu'il s'agit, mon avis, de la meilleure solution. Enfin, tout ce que nous venons de montrer pour l'analyse est aussi valable pour la synthse. La aussi, on peut envisager des stratgies horizontales ou verticales et il est possible d'utiliser la grammaire sous forme modulaire ou de la prcompiler en une grammaire lexicalise (cf. Danlos 1998, Candito & Kahane 1998 pour l'usage d'une grammaire compltement lexicalise en synthse).
ESSAYER
(V)ind,prsent sm: essayer t: prsent arg1: x arg2: y

suj
(N) sm: x

inf

DE
(Prp) sm

suj pos: -10

suj prp
(V)inf sm: y

inf pos: +10 suj

prp pos: +5

!
prp, pos: +5

(V)3//p,sg//n suj (N,p)n

suj, pos: -10

inf, pos: +10

(N)

(V)

(V) (Prp) DE

(Prp) (N/V)

(N,1)pl ESSAYER sm: x graph: essayons (V)ind,prsent,1,pl sm: essayer t: prsent arg1: x arg2: y

(V)inf graph: de sm: y (Prp) sm

DE

ESSAYER
(V)ind,prsent,1,pl

(Prp)

graph: essayons

graph: de

Figure 28 : Lexicalisation complte de essayons Pour clore cette section sur les diffrentes stratgies dans la combinaison des rgles, notons que les stratgies verticales et horizontales reprsentent les deux cas extrmes et que des stratgies intermdiaires peuvent tre envisages. Par exemple, on peut envisager une stratgie verticale o les rgles ne sont pas regroupes mots par mots, mais chunks par chunks.

5 Analyse en grammaire de dpendance


Aprs nos prsentations des grammaires TST et GUST et de l'articulation des modules, nous allons nous concentrer sur le module qui pose les plus grandes difficults en analyse, le module syntaxique de la grammaire, c'est--dire le module qui assure la correspondance entre une chane de mots et un arbre de dpendance. Nous considrerons les rgles syntaxiques prsentes dans les Sections 3.3.5 et 4.2.2 (sous forme transductive, puis gnrative) : une telle rgle associe une dpendance entre deux mots une relation d'ordre entre les deux mmes mots. Nous allons prsenter trois techniques d'analyse : l'analyse par contrainte et l'analyse CKY, qui sont des stratgies d'analyse horizontale (les rgles sont dclenches module aprs module), et l'analyse incrmentale avec un analyseur pile, qui est une stratgie verticale (les rgles sont dclenches mot aprs mot). Nous illustrerons nos diffrentes techniques d'analyse sur l'exemple suivant : (11) Le boucher sale la tranche

46

Sylvain Kahane

Cette phrase bien connue possde deux interprtations : le boucher est sale et il tranche quelque chose ou le boucher met du sel sur la tranche.

5.1 Analyse par contraintes


Le principe de l'analyse par contraintes est de considrer toutes les structures imaginables et de filtrer l'aide des rgles les structures bien formes qui peuvent correspondre la phrase. Plutt que de tester l'une aprs l'autre toutes les structures imaginables (ce qui serait trop long), on construit en fait une structure trs gnrale que l'on contraint par les rgles et par les proprits de bonne formation (par exemple le fait que l'on veuille un arbre projectif). On commence donc par envisager pour chaque couple de mots de la phrase toutes les dpendances imaginables : on obtient ainsi un graphe de dpendance complet (Figure 29 de gauche). Ensuite, on applique les rgles de linarisation pour filtrer les dpendances qui sont valides par une rgle de linarisation (Figure 29 de droite)45. Rappelons qu'une rgle de linarisation dit, vu du point de vue de l'analyse, que si deux mots sont de telle et telle catgories et s'ils sont dans tel ordre, alors une dpendance avec telle fonction syntaxique peut les relier : par exemple, si un N suit un V, alors le N peut tre l'objet du V.


le boucher sale la tranche

obj obj obj mod obj D/Cl N/V A/V D/Cl/N N/V obj obj dt suj mod dt obj mod dt suj obj dt

le boucher sale la tranche

Figure 29 : Graphes de (11) avant filtrage et aprs filtrage par les rgles de linarisation La dernire tape consiste extraire des arbres projectifs du graphe ainsi obtenu (Figure 30). (Nous ne dtaillons pas cette tape ; voir les sections suivantes pour cela).
mod obj

le boucher sale la tranche


D N A Cl V

le boucher sale la tranche


D N V D N

dt suj

obj

dt suj

dt

Figure 30 : Graphes de (11) aprs filtrage complet L'analyse par contraintes est particulirement adapte aux grammaires de dpendances par le fait que, contrairement aux grammaires syntagmatiques, il est facile de considrer une structure qui contient en elle toutes les structures acceptables aprs filtrage. L'analyse par

45

Pour simplifier la prsentation, nous utilisons des catgories lexicales trs grossires. Par exemple, la catgorie Cl vaut pour tous les clitiques et comprend donc les (N,pro)nom et (N,pro)acc.

Grammaires de dpendance formelles et thorie Sens-Texte

47

contraintes dans les grammaires de dpendance a t introduite par Maruyama (1990a, 1990b) et dveloppe, par exemple, par Duchier (1999 ; Duchier & Debusman 2001) ou par Blache (1998, 2001)46. Le mme genre de techniques peuvent tre appliques avec des rgles pondres suivant leur probabilit d'apparition dans une situation donne. Chaque rgle possde un poids compris entre 0 et 1 ; plus le poids est proche de 0, plus la rgle est contraignante. Aprs avoir construit le graphe de toutes les dpendances imaginables, on va utiliser les rgles de linarisation pour adresser chaque dpendance un poids : soit le poids de la rgle si une rgle s'applique, soit le poids 0.1 si aucune rgle ne s'applique (on vite les poids 0 qui craseraient dfinitivement le score final). On pourra alors extraire du graphe l'arbre projectif qui donne le meilleur score (le score d'un arbre est le produit des poids des dpendances) (Menzel & Schrder 1998 ; Schrder et al. 2000). On pourra mme accepter des entorses la dpendance en pondrant galement les rgles qui assurent la projectivit. Plus gnralement, pour des mthodes probabilistes en grammaire de dpendance, voir Eisner 1996, Collins 1997.

5.2 Analyse CKY


L'analyse CKY a t dveloppe indpendamment par Cocke, Kasami et Younger pour les grammaires de rcriture hors-contextes (Kasami 1963, Younger 1967, Floyd & Biegel 1995). L'analyse CKY est une analyse montante : il s'agit d'identifier des segments analysables de la phrase de dpart en allant des plus petits aux plus grands ; si le plus grand segment analysable est la phrase complte, la phrase est donc analysable. L'algorithme fonctionne en temps O(n3) o n est le nombre de mots de la phrase. Avec une grammaire syntagmatique hors-contexte, on mmorise pour chaque segment analys sa catgorie syntagmatique. L'algorithme peut tre adapt trivialement aux grammaires de dpendance : dans ce cas, on mmorisera la catgorie lexicale de la tte du segment. Considrons une phrase de longueur n. Pour chaque segment analys allant du i-ime mot au j-ime mot (compris), on mmorise la catgorie X de la tte du segment sous la forme d'un triplet [i,j,X]. Avec le module morphologique, on commence par analyser tous les mots de la phrase, c'est--dire tous les segments de longueur 1. Pour la phrase (11), on obtient : [1,1,D], [1,1,Cl], [2,2,N], [2,2,V], , [5,5,N], [5,5,V] On essaye ensuite d'obtenir des segments de longueur 2 en utilisant les rgles de linarisation. Par exemple, pour la phrase (11), [1,1,D] + [2,2,N] = [1,2,N], car un lment de catgorie D la gauche d'un lment de catgorie N peut dpendre de celui-ci par un dpendance dt. On obtient donc, pour la phrase (11) : [1,2,N], [1,2,V], [2,3,N], [2,3,V], , [4,5,N], [4,5,V] Et ainsi de suite : les segments [i,j,X] et [j+1,k,Y] peuvent tre combins pour donner le segment [i,k,X] (resp. [i,k,Y]) s'il existe une rgle de linarisation indiquant qu'un lment de catgorie X prcdant un lment de catgorie Y peut gouverner celui-ci (resp. peut dpendre de celui-ci). On construit ainsi tous les segments de longueur 2, 3, etc., jusqu' n. Pour construire tous les segments de longueur k (qui sont tous de la forme [i,i+k-1,Z]), on va considrer tous les couples de segments dj obtenus de la forme ([i,j,X],[j+1,i+k-1,Y]) et

46

Blache 1998 considre au dpart une grammaire syntagmatique avec tte partir de laquelle il construit ensuite un graphe de dpendances.

48

Sylvain Kahane

chercher les combiner par les rgles de linarisation. Ceci demande k(n-k)C2R oprations 47 o C est le nombre de catgories lexicales et R le nombre de rgles de linarisation. En sommant sur k, on obtient un rsultat en O(n3C2R). Nous avons prsent l'algorithme de base. Tel quel cet algorithme vrifie que la phrase peut tre associe un arbre de dpendance projectif, mais il ne construit pas un tel arbre. Pour construire des arbres associs, le plus simple est de redescendre le calcul en partant des segments maximaux et de construire les arbres partir de la racine. Pour l'exemple (11), le segment final [1,5,V] peut tre obtenu de trois faons : en combinant [1,3,N] et [4,5,V] par la rgle de placement du sujet, en combinant [1,3,V] et [4,5,N] par la rgle de placement de l'objet ou en combinant [1,2,N] et [3,5,V] par la rgle de placement du sujet. Comme les deux dernires correspondent au mme arbre, on obtient en continuant les deux arbres de la Figure 30. On peut viter de refaire les calculs en descendant l'arbre en conservant davantage d'informations lors du premier calcul (en indiquant pour chaque segment sa dcomposition et la rgle qui permet de l'obtenir), mais cela est en fait plus coteux. Quoi qu'il en soit, il faut noter que le nombre d'arbres correspondant une phrase de longueur n est dans le pire des cas une fonction exponentielle de n et que, par consquent, un algorithme qui construirait tous les arbres ne peut pas tre polynomial (sauf reprsenter la fort d'arbres sous forme compacte). Cet algorithme peut tre enrichi de diffrentes faons. 1) Nous n'avons pas encore pris en compte le placement respectif des diffrents dpendants d'un mme nud. Celui-ci est encod dans nos rgles de linarisation par les traits de position sur les dpendances. On peut trs facilement tenir compte des positions en gardant en mmoire la dernire position utilise pour chacune des deux directions : au lieu de segments [i,j,X], on manipulera des segments [i,j,X,p,q], o p est la dernire position utilise pour un dpendant gauche de la tte du segment et q est la dernire position utilise pour un dpendant droit (p et q tant gaux 0 si aucune rgle n'a t utilis). Un tel segment ne pourra pas tre combin un segment dpendant que par une rgle dont le trait de position n'est pas compris entre p et q (le nouveau segment dpendant doit tre positionn plus loin que les prcdents). Pour l'exemple (11), si on combine les segments [4,4,Cl,0,0] et [5,5,V,0,0] avec la rgle qui relie un clitique objet dans la position -4 au verbe, on obtiendra le segment [4,5,V,-4,0]. Ce segment ne pourra pas tre combin avec un clitique qui exige une position entre -4 et 0, mais pourra tre combin avec un lment qui accepte une position infrieure -4. 2) Nous n'avons pas encore pris en compte les rgles de sous-catgorisation, qui font partie des rgles smantiques de notre grammaire. On peut considrer cette information en indiquant dans la description d'un segment, en plus de la catgorie lexicale de la tte X, la liste des lments sous-catgoriss par X qui ne sont pas dans le segment. Si on reprend l'exemple (11), le segment form du seul mot tranche, lorsque ce dernier est analys comme une forme du verbe TRANCHER, recevra une liste de sous-catgorisation avec sujet et objet direct : [5,5,V,{suj,dobj}]. Lorsque ce segment sera combin avec le segment form du mot la reconnu comme clitique accusatif, on obtiendra le segment [4,5,V,{suj}], par application de la rgle de linarisation du clitique objet direct. Lorsque, ce nouveau segment sera combin avec le segment le boucher sale reconnu comme groupe nominal (et donc dcrit comme [1,3,N,]), on obtiendra, par application de la rgle de linarisation du sujet, le segment [1,5,V, ]. A noter qu'on impose que, lors de la combinaison de deux segments, le segment dpendant soit satur, c'est--dire que sa liste de sous-catgorisation soit vide. Quant la liste de sous-catgorisation du segment tte, elle est prive de l'lment correspondant la fonction du segment dpendant.

47

Pour k donn, on a n-k valeurs pour i, k valeurs pour j, C valeurs pour X et Y et R faons de combiner les segments tester.

Grammaires de dpendance formelles et thorie Sens-Texte

49

Dans cet exemple, nous avons rduit l'information de niveau smantique prise en compte au minimum. Si nous prenons en compte l'ensemble de l'information contenue dans la rgle smantique de la tte, notamment la description des dpendances smantiques, nos descriptions de segments vont alors s'apparenter fortement aux descriptions de syntagmes en HPSG (Pollard & Sag 1994). Le mode de combinaison des segments que nous venons de dcrire s'apparente lui-mme au schma de combinaison tte-actant d'HPSG (headdaughter schema) : lorsque deux syntagmes X et Y se combinent pour en former un nouveau syntagme et que l'un des segments, par exemple Y, est reconnu comme un actant de la tte de l'autre, la description du nouveau segment est gale la description du segment tte X o l'lment Y t retir de la liste des actants de X. La principale diffrence entre notre approche et HPSG est que la combinaison de deux segments doit tre valide par une rgle syntaxique spare. En conclusion, en restant un niveau de description grossier, on peut voir HPSG comme une version procdurale oriente vers l'analyse CKY d'une grammaire de dpendance. 3) Nous n'avons pas non plus pris en compte l'analyse des structures non projectives. Cela est possible. La modification de l'algorithme dpend de la faon dont sont crites les rgles qui assurent le placement des lments qui ne sont pas dans la projection de leur gouverneur. Kahane et al. 1998 propose des rgles de lifting, permettant de remonter un lment sur un anctre de son gouverneur et de le positionner par rapport ce dernier(cf. galement Brker 2000 pour une analyse commente de cette solution). Dans la description d'un segment, on indiquera donc en plus de la catgorie lexicale de la tte et de sa liste de sous-catgorisation, la liste des lments lifts. Encore une fois, cette solution s'apparente fortement aux descriptions de syntagmes en HPSG o apparat un trait Slash (non-local) : le trait Slash contient prcisment la liste des lments lifts, c'est--dire des lments qui ne se placent pas dans la projection de leur tte, mais dans celle d'un anctre de leur tte. Avec les rgles de lifting, on peut encore obtenir un algorithme polynomial, mais il faut pour cela borner le nombre d'lments lifts dans un segment (sinon le nombre de segments que l'on peut considrer crot exponentiellement avec n).48 Remarquons que l'algorithme CKY est strictement montant et que, une fois qu'un lment a t combin avec son gouverneur , il n'est plus possible de le combiner avec un de ses dpendants (puisque le segment n'est reprsent que par sa tte). Par exemple, si l'on analyse la phrase Le garon que j'ai rencontr la semaine dernire est tudiant, il n'est pas possible de combiner le garon avec la tte de la relative (que ou ai suivant les modles) tant que la relative dans son entier n'a pas t analyse. La seule faon d'analyser le sujet de cette phrase est de combiner la et dernire semaine, puis la dernire semaine rencontr, puis le tout ai, et ainsi de suite jusqu' la combinaison de la relative complte avec garon. Autrement dit, l'algorithme CKY, s'il a l'avantage d'tre simple, ne peut en aucune faon tre rendu incrmental. Il existe un autre algorithme classique pour les grammaires hors-contextes, l'algorithme d'Earley (Earley 1970, Floyd & Biegel 1995), qui peut tre aussi adapt aux grammaires de dpendance (Lombardo 1996). A l'inverse de l'algorithme CKY, l'algorithme d'Earley est un algorithme descendant. L'algorithme d'Earley fonctionne galement en temps 0(n3) (o n est le nombre de mots de la phrase) et mme en temps 0(n2) pour les grammaires non ambigu. Nanmoins l'algorithme d'Earley n'est pas prcisment adapt la langue naturelle qui est hautement ambigu. En particulier, cet algorithme, s'il apparat comme plutt incrmental,

48

Il est probable qu'en l'absence d'une borne sur le nombre d'lments lifts, le problme de la reconnaissance par une telle grammaire soit NP-complet (cf. Neuhaus & Brker 1997 pour un rsultat de ce type).

50

Sylvain Kahane

oblige en fait construire l'arbre partir de la racine et anticiper, ds la lecture du premier mot, sur la chane complte de ses anctres dans l'arbre.49

5.3 Analyse incrmentale


On appelle analyse incrmentale une analyse qui se dveloppe au fur et mesure de la lecture. Les diffrents algorithmes d'analyse incrmentale diffrent sur le traitement de l'ambigut. Lorsque deux rgles concurrentes sont applicables deux stratgies sont possibles : 1) choisir une des deux rgles et en cas d'chec revenir en arrire (back-track) et essayer la deuxime rgle ou 2) mener en parallle les deux analyses. Nous appellerons analyse incrmentale stricte une analyse incrmentale qui ne permet pas de retour en arrire. 5.3.1 Analyse incrmentale et cognition L'analyse incrmentale est la plus sduisante des techniques d'analyse du point de vue cognitif. Il est clair que les humains analysent un texte au fur et mesure qu'il en prenne connaissance et qu'il peuvent parfaitement faire l'analyse d'un dbut de phrase et mme en proposer des continuations. Des expriences de psycholinguistique montrent par ailleurs que dans certains cas d'ambigut majeure, les sujets humains font des retours en arrire (O'Regan & Pynte 1992). Les exemples de ce type sont appels des garden paths. Par exemple, lors de la lecture de (12b), on observe (par l'analyse du mouvement des yeux) au moment de la leve d'ambigut, lorsque est est considr, une saccade rgressive sur reconduit. (12) a. L'espion russe reconduit la frontire un espion international. b. L'espion russe reconduit la frontire est un espion international.

Dans la suite, nous allons donc nous intresser des algorithmes d'analyse incrmentale non stricte, lesquels correspondent davantage au fonctionnement humain. Nous reviendrons dans la Section 5.3.3 sur la question de savoir quelles sont les situations o doit tre fait un choix, conduisant ventuellement un chec, et quelles sont les situations o il faut viter de traiter sparment deux options. Du point de vue computationnel, il est permis de penser que dans la mesure o un systme de TAL cherche obtenir les mmes rsultats qu'un humain, la meilleure technique consiste chercher simuler au maximum la faon dont procde un humain. 5.3.2 Analyseurs pile Laissons de ct la question de l'ambigut pour le moment. On peut associer un analyseur pile un module syntaxique avec des rgles de linarisation comme celles que nous avons prsentes dans les Sections 3.3.5 et 4.2.2 (qui indiquent quels sont les couples de mots qui peuvent tre relis entre eux). La technique consiste charger dans la pile les mots au fur et
49

Pour cette raison, l'algorithme d'Earley n'est pas applicable pour des grammaires dcrivant des constructions rcursives (un V peut subordonner un V qui peut subordonner un V qui ) sans introduire une limitation sur la profondeur de la rcursion. Ceci est un vrai problme si on veut traiter de la langue naturelle. Par exemple, en franais, anglais, allemand, etc., le degr d'enchssement d'un groupe topicalis en dbut de phrase est potentiellement infini.

Grammaires de dpendance formelles et thorie Sens-Texte

51

mesure de la lecture et relier les mots par des oprations au sommet de la pile (Kornai & Tuza 1992, Kahane 2000b). Nous allons montrer sur un exemple comment fonctionne prcisment l'analyseur pile associ notre module syntaxique. Nous commenterons nos rgles sur l'exemple de la Figure 31.

INPUT le boucher sale


0

PILE la tranche

RGLES
initialisation

D! N! D -

0 0 0

0 0 0

le ! LE !!!!!!!!!! (D)masc,sg boucher ! BOUCHER (N,masc)sg dt, pos: -10

dt
3
D N N! - -10 A N 0

(D)

(N)

dt
4
D N mod N A mod N A mod N A mod N mod N A mod N A A Cl V Cl A - 0 0 - -10 0 sale ! SALE (Adj)masc,sg mod, pos: +5 A + 0 0 N - -10 +5 Cl - 0 0 A + 0 0 N - -10 +5 V! Cl A N - 0 0 - 0 0 + 0 0 - -10 +5

dt
5
D

(N)

(A)

dt
6
D

la ! LUI (Cl)acc,fm,sg

dt
7
D

tranche ! TRANCHER (V)ind,prs,3,sg obj, pos: -4

dt
8
D

obj
Cl V

V! - -4 0 A + 0 0 N - -10 +5

(Cl) (V)

dt
9
D

obj suj
Cl V V! - -4 0 N - -10 +5 dpilement suj, pos: -10

dt
10
D

obj
Cl V V - -10 0

(N) (V)

Figure 31 : Analyse de (11) L'analyseur effectue la lecture de la phrase de gauche droite. Au dpart, la pile est vide (tape 0 : initialisation). Nous avons quatre types de rgles de transition.

52

Sylvain Kahane

1) Transition d'empilement (tapes 1, 2, 4, 6 7). A chaque fois qu'un mot nouveau est lu, une rgle morphologique est dclenche et la catgorie du mot analys est stocke dans la pile. Trois autres paramtres compltent la catgorie : le deuxime paramtre indique si le nud est dj gouvern ou non (- pour non gouvern, + pour gouvern), le troisime paramtre donne le valeur du trait de position de la dernire rgle de linarisation avec un position ngative utilise et le quatrime paramtre donne la valeur du trait de position de la dernire rgle de linarisation avec une position positive utilise. Lors du stockage, ces paramtres ont respectivement la valeur -, 0 et 0. 2) Transition de liaison un dpendant gauche (tapes 3, 8, 10). Une telle transition correspond une rgle de linarisation dont le dpendant est gauche. Les deux nuds que nous allons lier se trouvent dans les deux cases suprieures de la pile. Appelons les x et y, x tant le dernier nud lu et se trouvant sur le dessus de la pile. La rgle peut s'appliquer si x et y possdent les catgories requises par la rgle de linarisation. Le nud y ne doit pas tre dj gouvern (valeur - du deuxime paramtre). Enfin, la valeur du trait de position de la rgle doit tre suprieure en valeur absolue celle de la dernire rgle avec une position ngative utilise pour relier x un dpendant sa gauche (voir le troisime paramtre). Ainsi l'tape 8, le verbe tranche (= x) est li avec le clitique la (= y) par un rgle de position -4. Aprs application de la rgle, le troisime paramtre de tranche prend la valeur -4. A l'tape 10, le verbe tranche est li son sujet par une rgle de position -10, ce qui est possible car -10 est suprieur en valeur absolue -4. Lors de l'application de la rgle, la valeur -10 est consigne la place de -4 dans la case de tranche. En raison de la projectivit, le nud y est retir de la pile. En effet, ce nud ne peut avoir de dpendants la droite de x, sans enfreindre la projectivit. 3) Transition de liaison un gouverneur gauche (tape 5). Une telle transition correspond une rgle de linarisation dont le gouverneur est gauche. Comme prcdemment, les deux nuds que nous allons lier se trouvent dans les deux cases suprieures de la pile. Appelons les x et y, x tant le dernier nud lu et se trouvant sur le dessus de la pile. La rgle peut s'appliquer si x et y possdent les catgories requises par la rgle de linarisation. Le nud x ne doit pas tre dj gouvern (valeur - du paramtre correspondant). Aprs la transition, les nuds x et y sont tous les deux maintenus dans la pile, puisqu'ils peuvent avoir tous deux des dpendants droite de x. Comme le nud x est maintenant gouvern, la valeur du paramtre passe de - +. Enfin, la valeur du trait de position de la rgle doit tre suprieure en valeur absolue celle de la dernire rgle de linarisation avec une position positive utilise pour relier y un dpendant sa gauche (voir le quatrime paramtre). A l'tape 5, le nom boucher (= y) n'a pas encore eu de dpendant droite. Son quatrime paramtre est donc gal 0. Aprs application de la rgle, ce paramtre aura la valeur +5. 4) Transition de dpilement (tape 9). A tout moment, il est possible de retirer de la pile un nud qui est dj gouvern. Pour pouvoir lier tranche son sujet boucher, on est ainsi oblig de dpiler l'adjectif sale (qui de toute faon, en raison de la projectivit ne pourra plus avoir de dpendant au -del de tranche). Une phrase est reconnue si la fin de la lecture, la pile contient un unique nud non gouvern, qui est en fait la racine de l'arbre de dpendance. Notons que nous assurons bien que le graphe construit est un arbre et que cet arbre est projectif. Lanalyseur en flux de Vergne (2000) utilise une mthode similaire l'analyseur que nous venons de prsenter, si ce nest quil effectue un squenage (chunking) pralable de la phrase et charge, au lieu des mots, les blocs (chunks) ainsi obtenus dans la pile (construisant ainsi un arbre de dpendance sur les blocs). Comme pour l'analyseur CKY, cet analyseur peut tre enrichi en prenant en compte des rgles de plus haut niveau, notamment des rgles de sous-catgorisation. On chargera alors dans la pile non seulement les caractristiques morphologiques d'un mot (sa catgorie lexicale), mais

Grammaires de dpendance formelles et thorie Sens-Texte

53

aussi ses caractristiques smantiques. Voir Nasr 1995, 1996, Kahane 2000a, Lombardo 1992 pour des analyseurs de ce type (lesquels s'apparentent galement aux grammaires catgorielles de Ajdukiewicz-Bar-Hillel). Une variante de ces analyseurs consiste charger dans la pile non pas des mots, mais les liens potentiels quun mot peut avoir avec les mots qui le suivent. Cette mthode repose sur une description complte des valences possibles d'un mot. Le plus abouti des analyseurs de ce type est la Link Grammar de Sleator & Temperley 1993. Dans ce formalisme lexicalis, chaque rgle dcrit l'ensemble des liens que peut avoir un mot donn, c'est--dire les actants, mais aussi les modifieurs et les conjoints ventuels, ainsi que le gouverneur. Ces mthodes peuvent tre complexifies pour traiter des arbres non projectifs : on peut, par exemple, garder en mmoire dans la pile dans la case d'un mot donn des informations sur certains de ses dpendants et autoriser les dits dpendant crer des liens lorsque la case de leur gouverneur est considre. Nous ne dvelopperons pas cette question, par ailleurs fort intressante, dans cette prsentation (voir Nasr 1995, 1996, Kahane 2000a pour des traitements de ce type). 5.3.3 Traitement des ambiguts Comment traiter les cas d'ambigut avec un analyseur incrmental ? La premire technique consiste faire des choix. A chaque fois que plusieurs rgles concurrentes se prsentent, il faudra choisir une rgle. On peut dvelopper des heuristiques, pour chaque fois qu'un choix se prsente, faire le meilleur choix. En cas d'chec, on peut effectuer un retour en arrire au dernier point o un choix a t fait et essayer le choix suivant. Si on autorise les retours en arrire sans mcanismes additionnels, on obtient un algorithme en temps exponentiel dans le pire des cas. En particulier, le pire des cas sera atteint chaque fois qu'on aura affaire une phrase agrammaticale (= pour laquelle notre grammaire ne peut fournir d'analyse). Pour obtenir un temps de traitement raisonnable, deux techniques sont possibles. La premire consiste simplement limiter les retours en arrire : on peut par exemple se fier entirement aux heuristiques qui nous aident faire le meilleur choix et interdire tout retour en arrire. On obtient alors un traitement en temps linaire. C'est ce que fait l'analyseur en flux de Vergne 2000. Voir galement Arnola 1998 pour un analyseur dterministe bas sur les dpendances. La deuxime technique, appeler mmosation, consiste, lors d'un retour en arrire, conserver en mmoire les analyses dj faites pour ne pas avoir les refaire. Par exemple, si l'on considre l'exemple (11b) de garden-path, il ne sera pas ncessaire aprs le retour en arrire et le deuxime choix pour reconduit de refaire l'analyse de la frontire (ce qui peut devenir vraiment intressant si frontire gouverne en plus une relative). La mmosation, utilise par Sleator & Temperley 1993 pour les Link Grammars, permet d'assurer une complexit en O(n3) (pour des grammaires quivalentes aux grammaires hors-contextes, comme l'est la Link Grammar ou le fragment de GUST prsent ici). La deuxime technique de traitement des ambiguts consiste ne pas faire de choix et mener en parallle les diffrentes analyses. Par exemple, Nasr 1995, 1996 utilise une technique adapte de Tomita 1988 consistant dupliquer la pile ; on peut ensuite factoriser un certain nombre d'oprations effectues plusieurs fois dans plusieurs piles en factorisant les piles au sein d'une pile structure de graphe et garantir un temps de traitement polynomial. J'aimerais faire quelques commentaires sur la question du choix en me plaant d'un point de vue linguistique et cognitif. Certaines grammaires, notamment des grammaires compltement lexicalises comme TAG, considrent des rgles diffrentes pour chacune des souscatgorisations d'un verbe (par exemple, parler Marie, parler de Jean, parler de Jean Marie correspondront trois rgles diffrentes pour parler). De telles grammaires obligent faire des choix tout va et ne font pas la diffrence entre des choix non pertinents (comme les diffrentes sous-catgorisation de parler qui devraient tre traites en parallle) et des choix pertinents (comme les deux reconduit que l'on trouve en (11a) et (11b), qui diffrent fortement puisque le premier gouverne le nom qui le prcde, tandis que le deuxime en

54

Sylvain Kahane

dpend). Je pense que la grammaire doit tre crite de telle faon que seuls les choix rels (les choix qui pourront conduire un locuteur un retour en arrire s'il n'a pas fait le bon choix du premier coup) correspondent des rgles spares. Par exemple, les diffrentes souscatgorisations possibles d'un mme verbe devront tre rassembles en une mme rgle. Il serait souhaitable d'valuer prcisment les situations qui provoquent des retours en arrire chez un locuteur afin de dcider quand deux constructions doivent tre traites par une mme rgle et quand deux situations doivent correspondre deux rgles bien spares entre lesquelles le locuteur doit faire un choix. On pourra noter toute l'attention que nous avons porte cette question dans l'criture des rgles de GUST (Section 4.2). 5.3.4 Limitation du flux On peut observer sur les arbres de dpendances ordonns des phrases d'une langue certaines limitations. Ainsi, bien qu'en l'absence de larges corpus tiquets par des dpendances nous ne puissions tre absolument affirmatif, il apparat que le flux des dpendances est gnralement born par 6 ou 7 (voir Yngve 1960, Tuza & Kornai 1992 ou Murata et al. 2001 pour des hypothses de cette nature). Nous appelons flux des dpendances en une position donne (entre deux mots d'une phrase) le nombre de dpendances qui relient un mot gauche de cette position un mot droite (Figure 32).
suj

dt
0 1

mod

obj
1 2 0

le boucher sale la tranche


2

Figure 32 : Le flux des dpendances pour (11) On peut penser que cette borne sur le flux correspond une limitation lie la mmoire immdiate: un locuteur ne peut grer simultanment plus de 7 dpendances (voir la fameuse tude de Miller 1956 sur le fait que les humains ont au plus 7 2 lments dans leur mmoire court terme). Si l'on borne le flux des dpendances, on peut alors borner la taille de la pile dans l'analyseur pile que nous avons prsent. Comme le langage de la pile est fini, le nombre de contenus possible de la pile est alors fini (bien que trs gros). L'analyseur pile, si l'on ne s'intresse plus aux arbres de dpendance qu'il produit, est alors quivalent un automate nombre fini d'tats (un tat de l'automate est un contenu de la pile). Cet automate est donc quivalent un automate dterministe, ce qui nous donne un reconnaisseur en temps linaire (l'automate ne fournit plus d'analyse, mais peut seulement reconnatre les phrases qui ont une analyse). Cet automate peut tre particulirement utile pour filtrer les phrases agrammaticales, qui sont les phrases les plus coteuses pour l'analyseur incrmental (puisque n'importe quel choix conduit une situation d'chec et un retour en arrire). Nanmoins, pour que cet automate ne soit pas trop gros, il faudra certainement limiter le nombre de symboles de pile (le nombre d'tat de l'automate avant dterminisation est major par Zk o Z est le nombre de symboles de pile et k le nombre maximum de nuds autoriss dans la pile). On peut galement esprer optimiser l'analyseur incrmental par une tude statistique des contenus possibles de la pile pour des analyses correctes. Ceci permettrait dans une situation donne de choisir entre des rgles afin d'obtenir le contenu de pile le plus probable et d'viter au maximum les checs et les retours en arrire.

Grammaires de dpendance formelles et thorie Sens-Texte

55

6 Conclusion
Comme nous l'avons dit au dbut de cet expos, la dpendance est maintenant une notion utilise par toutes les thories linguistiques, bien qu'elle soit souvent cache sous diverses formes (fonctions syntaxiques, constituants avec tte, ). Nous esprons avoir convaincu le lecteur de l'intrt qu'il y a mettre en avant la dpendance et crire des rgles qui manipulent explicitement des dpendances. A travers l'tude des dpendances, nous avons souhait mettre l'accent sur la thorie SensTexte. La TST est l'une des thories qui spare le plus clairement les notions smantiques, syntaxiques et morphologiques, en distinguant, en particulier, les dpendances smantiques et syntaxiques, les lexies profondes et de surface, les grammmes profonds et de surface ou en sparant clairement les rgles de sous-catgorisation, d'ordre des mots, d'accord et de rection. D'autre part, la TST, en privilgiant la synthse sur l'analyse, met bien en vidence lavantage des grammaires de dpendance sur les grammaires syntagmatiques. En effet, la synthse dbute avec une reprsentation smantique, un moment o l'ordre des mots n'est pas encore fix. Lorsqu'on veut dcrire la synthse d'une phrase en passant d'une reprsentation smantique une reprsentation o les mots sont ordonns, on voit tout lavantage quil y a avoir un moyen de reprsenter la structure syntaxique sans avoir encore encoder lordre des mots ou mme le regroupement des mots en constituants de surface. La synthse met galement l'accent sur l'importance des choix lexicaux et du lexique. En particulier, un notion comme celle de fonction lexicale prend toute son importance lorsqu'il faut faire les bons choix lexicaux (et ne pas dire follement improbable ou hautement amoureux la place de hautement improbable ou de follement amoureux). Nous avons galement prsent une grammaire d'unification base sur la TST, la Grammaire d'Unification Sens-Texte (GUST). Au del de son intrt propre, ce formalisme permet de rattacher plus facilement la TST d'autres formalismes contemporains, comme HPSG, LFG, les Grammaires Catgorielles ou TAG. GUST hrite de la TST une claire sparation des informations smantiques, syntaxiques et morphologiques et la modularit qui en rsulte. Nous avons pu, au travers de GUST, montrer comment les rgles de diffrents modules pouvaient tre combines, permettant, par exemple, d'crire une grammaire compltement lexicalise. D'autre part, contrairement aux grammaires compltement lexicalises crites dans d'autres formalismes (comme TAG), GUST permet de porter une grande attention la faon dont les rgles de la grammaire modulaire doivent tre rparties entre les diffrentes lexies pour viter une explosion du nombre de rgles de la grammaire lexicalise. Nous avons termin notre expos par une prsentation thorique des principales techniques d'analyse. Il faut noter que les grammaires de dpendances, la diffrence des grammaires syntagmatiques, n'ont pas encore fait l'objet de travaux mathmatiques ou d'informatique thorique d'envergure. Il n'existe pas pour les grammaires de dpendance de formalisme de rfrence (voir Kahane 2000b pour une proposition), comme le sont les grammaires de rcriture hors-contextes de Chomsky (1957) pour la grammaire syntagmatique. De mme, tous les compilateurs de langages de programmation sont bass sur des techniques dveloppes pour les grammaires hors-contextes. Nous esprons avoir montr que les mmes techniques (comme l'algorithme CKY) se prtaient au traitement des grammaires de dpendance et qu'en plus, les grammaires de dpendance permettaient des techniques propres, comme l'analyse incrmentale avec un analyseur pile dont les cases de la pile contiennent les descriptions des mots de la phrase. D'autre part, nous avons pu faire le lien entre GUST et HPSG, montrant comment les grammaires syntagmatiques se prsentent en fait comme des versions procdurales des grammaires de dpendance orientes vers l'analyse (et plus

56

Sylvain Kahane

prcisment l'analyse CKY, qui n'est pas, du point de vue cognitif et mme computationnel, le plus intressant des algorithmes d'analyse de la langue )50. Nous souhaiterions clore cet expos, en voquant ce que nous aurions aim prsenter et que nous n'avons pu prsenter faute d'une maturit suffisante des notions concernes et d'un dveloppement suffisant des travaux sur ces questions. Dans la Section 3.2.1, nous avons montr le rle primordial que joue la structure communicative dans la reprsentation smantique d'une phrase, mais nous n'avons pas pu montrer comment la structure communicative intervenait dans les diffrentes rgles des diffrents niveaux. La structure communicative joue un rle essentiel dans la hirarchisation du graphe smantique (notamment le choix de la tte syntaxique de la phrase) et dans la linarisation. Dans les langues ordre des mots relativement libre comme le russe ou l'allemand, la structure communicative (notamment la partition thme-rhme et la focalisation) contrle fortement l'ordre des mots et la prosodie. Dans des langues l'ordre moins libre, comme le franais ou l'anglais, la structure communicative se ralise par des constructions particulires, comme le clivage, le pseudo-clivage ou la dislocation en franais. D'autre part, nous n'avons pas abord la question des constituants morphologiques : les mots, lorsqu'ils sont linariss, s'assemblent pour former des groupes qui sont placs les uns par rapport aux autres. Ces constituants morphologiques sont mis en vidence, entre autres, par la prosodie. La notion de constituant morphologique doit tre distingue de la notion de constituant syntaxique, laquelle n'est pas directement considre en grammaire de dpendance.51 Les constituants morphologiques forment une hirarchie comparable aux constituants syntaxiques, mais il ne servent pas reprsenter la structure syntaxique d'une phrase, laquelle est reprsente, dans notre cadre thorique, par un arbre de dpendance. Parmi les constituants morphologiques, il faut en particulier distinguer les blocs (ou chunks) l'intrieur desquels l'ordre des mots est trs rigide et qui n'accepte pas de coupures prosodiques, comme les squences dterminantadjectifs-nom ou clitiques-verbe du franais (Mel'uk 1967, Abney 1991, Vergne 2000). Le rle jou par de tels blocs (que ne considrent d'ailleurs pas les grammaires syntagmatiques) n'est plus faire en TAL, que ce soit pour l'analyse syntaxique ou la synthse de la prosodie (Mertens 1997, Vergne 2000). La structure communicative joue un grand rle, cot de la structure de dpendance, dans la formation des constituants. Kahane & Gerdes 2001 propose, partir de l'tude de l'ordre des mots en allemand, un formalisme qui permet d'associer un arbre de dpendance une hirarchie de constituants morphologiques, qui n'est pas le reflet immdiat de l'arbre de dpendance (et qui ne correspond donc pas non plus une structure de constituants syntaxiques). Un mme arbre de dpendance correspond de nombreux ordres des mots et un mme ordre des mots peut recevoir diffrentes structures de constituants morphologiques correspondant diffrentes prosodies, mettant en vidence diffrentes structures communicatives. Ce travail doit maintenant tre poursuivi pour montrer comment une structure communicative permet de choisir une structure de constituants morphologiques plutt qu'une autre.

Rfrences
Abeill Anne, 1991, Une grammaire lexicalise d'Arbres Adjoints pour le franais, Thse de doctorat, Universit Paris 7, Paris.
50

Quand on sait que les fondements de la grammaire syntagmatique reposent sur le distributionnalisme, c'est-dire sur une description des langues par la distribution des segments de textes, il n'est pas tonnant que la grammaire syntagmatique ait un lien troit avec un algorithme de type CKY. Comme nous l'avons montr dans la Section 2.1, les constituants syntaxiques considrs par les grammaires syntagmatiques peuvent tre rcuprs partir de l'arbre de dpendance : ce sont les projections des sousarbres constitus d'un nud et de tout ou partie de ses dpendants. Par exemple, un constituant S ou Infl' est la projection d'un verbe, tandis qu'un constituant GV est la projection d'un verbe sans son sujet.

51

Grammaires de dpendance formelles et thorie Sens-Texte

57

Abeill Anne, 1996-97, Fonction objet ou position objet (1re et 2nde parties), Gr des langues, 11, 8-29 ; 12, 8-33. Abney Steven, 1987, The English Noun Phrase in its Sentential Aspect, PhD thesis, MIT, Cambridge. Abney Steven, 1991, Parsing by chunks, in R. Berwick, S. Abney and C. Tenny (eds.), Principle-Based Parsing, Kluwer. Abney Steven, 1992, Prosodic structure, performance structure and phrase structure, Proceedingsof Speech and Natural Language Workshop, Morgan Kaufmann, San Mateo, CA. Anderson John, 1971, The Grammar of Case: Towards a Localist Theory, Cambridge University Press, Cambridge. Ajdukiewicz Kasimir, 1935, Die syntaktische Konnexitt, Studia Philosophica, 1, 1-27. Apresjan J., Boguslavskij I., Iomdin L., Lazurskij A., Sannikov V., Tsinman L., 1992, ETAP-2: The linguistics of a machine-translation system, Meta, 37:1, 97-112. Arnola Harri, 1998, On parsing binary dependency structures deterministically in linear time, Processing of Dependency-based Grammars, COLING/ACL'98 Workshop, 68-77. Bar-Hillel Yehoshua, 1953, A quasi-arithmetical notation for syntactic description, Language, 29.1, 47-58. Bar-Hillel Yehoshua, Gaifman Ham, Shamir E., 1960, On categorial and phrase-structure grammars, Bull. Res. Counc. of Isral, 9F, 1-16. Blache Philippe, 1998, Parsing ambiguous structures using controlled disjunctions and unary quasi-trees, COLING/ACL'98, Montral, 124-30. Blache Philippe, 2001, Les grammaires de proprits : des contraintes pour le traitement automatique des langues naturelles, Herms, 224p. Blanche-Benveniste Claire, 1975, Recherche en vue d'une thorie de la grammaire franaise. Essai d'application la syntaxe des pronoms, Champion, Paris. Bloomfield Leonard, 1933, Language, New York. Boyer Michel, Lapalme Guy, 1985, Generating paraphrases from Meaning-Text semantic networks, Computational Intelligence, 1, 103-117. Bresnan Joan (ed), 1982, The Mental Representation of Grammatical Relations, MIT Press, Cambridge. Bresnan Joan, Kaplan Ronald, Peters Stanley, Zaenen Annie, 1982, Cross-serial dependencies in Dutch Linguistic Inquiry, 13:4, 613-635. Brody Michael, 1997, Lexico-Logical Form: A Radically Minimalist Theory, MIT Press, Cambridge. Brker Norbert, 2000, Unordered and non-projective dependency grammars, T.A.L., 41:1, 245-272. Candito Marie-Hlne, 1996, A principle-based hierarchical representation of LTAG, COLING96, Copenhagen.

58

Sylvain Kahane

Candito Marie-Hlne, 1999, Organisation modulaire et paramtrable de grammaires lectroniques lexicalises. Application au franais et l'italien, Thse de doctorat, Universit Paris 7, Paris. Candito Marie-Hlne, Kahane Sylvain, 1998, Une grammaire TAG vue comme une grammaire Sens-Texte prcompile, TALN'98, Paris, 40-49. Chomsky Noam, 1957, Syntactic Structure, MIT Press, Cambridge. Chomsky Noam, 1965, Aspects of the Theory of Syntax, MIT Press, Cambridge. Coch Jos, 1996, Overview of AlethGen, Proc. 8th Int. Workshop on Natural Language Generation (INLG'96), Vol. 2, Herstmonceux, 25-28. Coch Jos, 1998, Interactive generation and knowledge administration in MultiMeteo, Proc. 9th Int. Workshop on Natural Language Generation (INLG'98), Niagara-on-the-Lake, 300-303. Courtin Jacques, Genthial Damien, Parsing with dependency relations and robust parsing, Workshop on Dependency-based Grammars, COLING/ACL98, Montral, 25-28. Danlos Laurence, 1998, G-TAG : un formalisme lexicalis pour la gnration de textes inspir de TAG, T.A.L., 39:2, 7-34. Dikovsky Alexander, Modina Larissa, 2000, Dependencies on the other side of the Curtain, T.A.L., 41:1, 79-111. Duchier Denys, 1999, Axiomatizing dependency parsing using set constraints, Proc. 6th Meeting of the Mathematics of Language (MOL 6), Orlando, 115-126. Duchier Denys, Ralph Debusmann, 2001, Topological dependency trees: A constraint-based account of linear precedence, ACL 2001, Toulouse. Dymetman Marc, Copperman Max, 1996, Extended dependency structures and their formal interpretation, COLING'96, Copenhague, 255-61. Earley J., 1970, An efficient context-free parsing algorithm, Communications of the ACM, 13:2, 94-102. Eisner Jason M., 1996, Three new probabilistic models for dependency parsing: An exploration, COLING'96, Copenhague. Engel Ulrich, 1992, Deutsche Grammatik. Floyd Robert, Biegel Richard, 1995, Le langage des machines : une introduction la calculabilit et aux langages formels, International Thomson Publishing, Paris. Gaifman Ham, 1965, Dependency systems and phrase-structure systems, Information and Control, 18, 304-337 ; Rand Corporation, 1961, RM-2315. Garde Paul, Ordre linaire et dpendance syntaxique : contribution une typologie, Bull. Soc. Ling. Paris, 72:1, 1-26. Gerdes Kim, Kahane Sylvain, 2001, Word order in German: A formal dependency grammar using a topological hierarchy, ACL 2001, Toulouse.

Grammaires de dpendance formelles et thorie Sens-Texte

59

Gladkij Aleksej V., 1966, Leckii po matematiceskoj linguistike dlja studentov NGU, Novosibirsk (French transl: Leons de linguistique mathmatique, fasc. 1, 1970, Dunod). Gladkij Aleksej V., 1968, On describing the syntactic structure of a sentence (en russe avec rsum en anglais), Computational Linguistics, 7, Budapest, 21-44. Gross Maurice 1975, Mthodes en syntaxe, Hermann, Paris. Hays David, 1960, Grouping and dependency theories, Technical report RM-2646, Rand Corporation. Hays David, 1964, Dependency theory: A formalism and some observations, Language, 40:4, 511-525. Hellwig Peter, 1986, Dependency Unification Grammar (DUG), COLING'86, 195-98. Hudson Richard, 1988, Coordination and grammatical relations, Journal of Linguistics, 24, 303-342. Hudson Richard, 1990, English Word Grammar, Oxford ,Blackwell. Iordanskaja Lidija, 1963, O nekotoryx svojstvax pravil'noj sintaksieskoj struktury (na materiale russkogo jazyka) [On some Properties of Correct Syntactic Structure (on the Basis of Russian)], Voprosy Jazykoznanija, 4, 102-12. Iordanskaja L., Kim M., Kittredge R. I., Lavoie B., Polgure A., 1992, Generation of extended bilingual statistical reports, COLING'92, Nantes, 1019-23. Iordanskaja L., Mel'uk I., 2000, The notion of surface-syntactic relation revisited (Valencecontrolled surface-syntactic relations in French), in L.L. Iomdin, L.P. Krysin (ed), Slovo v tekste i v slovare [Les mots dans le texte et dans le dictionnaire], Jazuki Russkoj Kul'tury, Moscou, 391-433. Jackendoff Ray, X-bar Syntax. A Study of Phrase Structure, MIT Press, Cambridge. Jespersen Otto, 1924, Philosophy of Grammar, Londres. Kahane Sylvain, 1996, If HPSG were a dependency grammar ..., TALN96, Marseille, 4549. Kahane Sylvain, 1997, Bubble trees and syntactic representations, in Becker T., Krieger U. (eds), Proc. 5th Meeting of the Mathematics of Language (MOL5), DFKI, Saarbrcken, 7076. Kahane Sylvain, 1998, Le calcul des voix grammaticales, Bull. Soc. Ling. de Paris, 93:1, 325-48. Kahane Sylvain, 2000a, Extractions dans une grammaire de dpendance lexicalise bulles, T.A.L., 41:1, 211-243. Kahane Sylvain, 2000b, Des grammaires formelles pour dfinir une correspondance, TALN 2000, Lausanne, 197-206. Kahane Sylvain (ed), 2000c, Grammaires de dpendance, T.A.L., 41:1, Herms.

60

Sylvain Kahane

Kahane Sylvain, 2001, What is a natural language and how to describe it? Meaning-Text approaches in contrast with generative approaches, Computational Linguistics and Intelligent Text Processing, Springer, 1-17. Kahane Sylvain, Mel'uk Igor, 1999, La synthse smantique ou la correspondance entre graphes smantiques et arbres syntaxiques. Le cas des phrases extraction en franais contemporain, T.A.L., 40:2, 25-85. Kahane Sylvain, Nasr Alexis, Rambow Owen, 1998, Pseudo-projectivity: A polynomially parsable non-projective dependency grammar, ACL/COLING'98, Montral, 646-52. Kahane Sylvain, Polgure Alain (eds), 1998, Workshop on Dependency-Based Grammars, ACL/COLING'98, Montral. Kahane Sylvain, Polgure Alain, 2001, Formal foundation of lexical functions, in B. Daille, G. Williams (eds), Workshop on Collocation, ACL 2001, Toulouse. Kamp Hans, 1981, Evnements, reprsentations discursives et rfrence temporelle, Langages, 64, 34-64. Kamp Hans, Reyle Uwe, 1993, From Discourse to Logic, Kluwer, Dordrecht. Kasami T., 1963, An efficient recognition and syntax analysis algorithm for context-free languages," AFCRL-65-758, Air Force Cambridge Research Laboratory, Bedford, MA. Kasper R., Kiefer B., Netter K., Vijay-Shanker K., 1995, Compilation of HPSG to TAG, ACL95. Keenan Edward, Comrie Bernard, 1977, Noun phrase accessibility and universal grammar, Linguistic Inquiry, 8, 63-100. Kittredge Richard, Polgure Alain, 1991, dependency grammars for bilingual text generation: Inside FoG's stratificational models, Proc. Int. Conf. on Current Issues in Computational Linguistics, Penang, 318-30. Kornai Andres, Tuza Zsolt, 1992, narrowness, pathwidth, and their application in natural language processing, Disc. Appl. Math, 36, 87-92. Lavoie Benoit, Rambow Owen, 1997, RealPro: A fast, portable sentence realizer, Proc. 5th Conf. On Applied Natural Language Processing (ANLP'97), Washington, 265-68. Lecerf Yves, 1961, Une reprsentation algbrique de la structure des phrases dans diverses langues natuelles, C. R. Acad. Sc. Paris, 252, 232-34. Lecomte Alain, 1992, Connection grammars: A graph-oriented interpretation, in Lecomte A. (ed), Word Order in Categorial Grammar, Adosa, Clermont-Ferrand, 129-48. Lombardo Vincenzo, 1992, Incremental dependency parsing", ACL'92, 291-93. Lombardo Vincenzo, 1996, An Earley-style parser for dependency grammars, COLING'96, Copenhague. Lombardo Vincenzo, Leonardo Lesmo, 1998, Formal aspects and parsing issues of dependency theory, COLING/ACL98, Montral, 787-93. Lombardo Vincenzo, Lesmo Leonardo, 2000, A formal theory of dependency syntax with empty units, T.A.L., 41:1, 179-210.

Grammaires de dpendance formelles et thorie Sens-Texte

61

Maruyama Hiroshi, 1990a, Constraint Dependency Grammar, Technical Report RT0044, IBM, Tokyo. Maruyama Hiroshi, 1990b, structural disambiguisation with constraint propagation, ACL'90, Pittsburgh, 31-38. Mel'uk Igor, 1967, Ordre des mots en synthse automatique des textes russes, T.A. Informations, 8:2, 65-84. Mel'uk Igor, 1974, Opyt teorii linguistieskix modelej Smysl Tekst. Semantika, Sintaksis [Esquisse d'une thorie des modles linguistiques Sens-Texte. Smantique, Syntaxe], Moscou, Nauka, 314p. Mel'uk Igor, 1988a, Dependency Syntax: Theory and Practice, State Univ. of New York Press, Albany. Mel'uk Igor, 1988b, Paraphrase et lexique: La Thorie Sens-Texte et le Dictionnaire explicatif et combinatoire, in Mel'uk et al. 1988, 9-58. Mel'uk Igor, 1993-2001, Cours de morphologie gnrale, Vol. 1-5, Presses de l'Univ. de Montral / CNRS. Mel'uk Igor, 1997, Vers une Linguistique Sens-Texte, Leon inaugurale au Collge de France, Collge de France, Paris, 78p. Mel'uk Igor, 2001, Communicative Organization in Natural Language (The SemanticCommunicative Structure of Sentences), Benjamins, Amsterdam. Mel'uk Igor, Clas Andr, Polgure Alain, 1995, Introduction la lexicologie explicative et combinatoire, Duculot, Paris. Mel'uk Igor, Pertsov Nikolaj, 1987, Surface Syntax of English. A Formal Model within the Meaning-Text Framework, Benjamins, Amsterdam. Mel'uk Igor, olkovsky Alexandr, 1984, Explanatory Combinatorial Dictionary of Modern Russian, Wiener Slawistischer Almanach, Vienne. Mel'uk Igor et al., 1984, 1988, 1992, 1999, Dictionnnaire explicatif et combinatoire du franais contemporain, Vol. 1, 2, 3, 4, Presses de l'Univ. de Montral, Montral. Menzel Wolfgang, Schrder Ingo, 1998, Decision Procedures for Dependency Parsing Using Graded Constraints, Workshop on Processing of Dependency-Based Grammars, COLING/ACL'98, Montral, 78-87. Mertens Piet, 1997, De la chane linaire la squence de tons, T.A.L., 38:1, 27-52. Milievi Jasmina, 2001, A short guide to the Meaning-Text linguistic theory, paratre in A. Gelbukh (ed), Intelligent Text Processing and Computational Linguistics. Miller George A., 1956, The magical number seven, plus or minus two: Some limits on our capacity for processing information, The Psychological Review, 63, 81-97. Murata Masaki, Uchimoto Kiyotaka, Ma Qing, Isahara Hitoshi, 2001, Magical number seven plus or minus two: Syntactic structure recognition in Japanese and English sentences, in A. Gelbukh (ed), Computational Linguistics and Intelligent Text Processing, Springer, 43-52.

62

Sylvain Kahane

Nasr Alexis, 1995, A formalism and a parser for lexicalised dependency grammars, 4th Int. Workshop on Parsing Tecnologies, State Univ. of NY Press. Nasr Alexis, 1996, Un modle de reformulation automatique fond sur la Thorie Sens-Texte Application aux langues contrles, Thse de doctorat, Universit Paris 7, Paris. Neuhaus Peter, Brker Norbert, 1997, The complexity of recognition of linguistically adequate dependency grammars, ACL/EACL'97, Madrid, 337-43. O'Regan Kevin, Pynte Jol, 1992, Regard et lecture, Sciences cognitives, Courrier du CNRS n 79, CNRS, Paris, p. 16. Owens Jonathan, 1988, The Foundations of Grammar : An Introduction to Mediaeval Arabic Grammatical Theory, Benjamins, Amsterdam. Pekovskij Aleksandr, 1934, Russkij sintaksis v naunom osvenii [Syntaxe russe : une approche scientifique], Moscou, Upedgiz. Polgure Alain, 1990, Structuration et mise en jeu procdurale d'un modle linguistique dclaratif dans un cadre de gnration de texte, Thse de doctorat, Universit de Montral. Polgure Alain, 1992, Remarques sur les rseaux smantiques Sens-texte, in A. Clas (ed), Le mot, les mots, les bons mots, Presses de l'Univ. de Montral, Montral. Polgure Alain, 1998, Pour un modle stratifi de la lexicalisation en gnration de texte, T.A.L., 39:2, 57-76. Pollard Carl, Sag Ivan, 1994, Head-driven Phrase Structure Grammar, Stanford CSLI. Pustejovsky James, 1995, The Generative Lexicon, MIT Press, Cambridge. Robinson Jane, 1970, Dependency structures and transformational rules, Language, 46, 259-85. Sag I., Gazdar G., Wasow T., Wisler S., 1985, Coordination and how to distinguish categories, Natural Language and Linguistic Theory, 3:2, 117-171. Schabes Yves, 1990, Mathematical and Computational Aspects of Lexicalized Grammars, PhD thesis, University of Pennsylvania, Philadelphie. Schrder Ingo, Menzel Wolfgang, Foth Kilian, Schulz Michael, 2000, Modeling dependency grammar with restricted constraints, T.A.L., 41:1, 113-44. Schubert Klaus, 1987, Metataxis: Contrastive Dependency Syntax for Machine Translation, Foris, Dordrecht. Sgall Petr, Hajicov Eva, Panenov Jarmila, 1986, The Meaning of the Sentence in Its Semantic and Pragmatic Aspects, Reidel, Dordrecht. Sleator Daniel, Temperley Davy, 1993, Parsing English with a Link Grammar", Third Int. Workshop on Parsing Technologies ; Carnegie Mellon Univ. Comp. Sc. Techn. Report CMUCS-91-196, 1991. Tesnire Lucien, 1934, Comment construire une syntaxe, Bulletin de la Facult des Lettres de Strasbourg, 7, 12me anne, 219-229. Tesnire Lucien, 1959, lments de syntaxe structurale, Kincksieck, Paris.

Grammaires de dpendance formelles et thorie Sens-Texte

63

Tomita Masaru, 1988, Graph structured stack and natural language parsing, ACL'88, Buffalo. Vergne Jacques, 2000, tude et modlisation de la syntaxe des langues l'aide de l'ordinateur - Analyse syntaxique automatique non combinatoire, Thse d'HDR, Universit de Caen. Vijay-Shanker K., Yves Schabes, 1992, Structure sharing in Lexicalized TAG, COLING92. Wanner Leo (ed), 1996, Lexical Functions in Lexicography and Natural Language Processing, Benjamins, Amsterdam. Weiss Daniel, 1999, Sowjetische Sprachmodelle und ihre Weiter frhung, Handbuch des sprachwissenschaftlich Russistik und ihrer Grenzdisziplinen, Harrassowitz, 973-09. XTAG Research Group, 1995, A Lexicalized Tree Adjoining Grammar for English, technical Report IRCS 95-03, University of Pennsylvania (version mise jour sur le web). Yngve Victor H., 1960, A model and an hypothesis for language structure, The American Philosophical Society, 104:5, 444-66. Yngve Victor H., 1961, The Depth Hypothesis, Proceedings of Symposia in Applied Mathematics, Vol. 12: Structure of Language and its Mathematical Aspects, American Mathematical Society, Providence, 130-138. Younger D.H., 1967, Recognition of context-free languages in time n3, Information and Control, 10:2, 189-208. olkovskij Aleksandr, Mel'uk Igor, 1965, O vozmonom metode i instrumentax semantieskogo sinteza [Sur une mthode possible et des outils pour la synthse smantique (de textes)], Nauno-texnieskaja informacija [Scientific and Technological Information], 6, 23-28. olkovskij Aleksandr, Mel'uk Igor, 1967, O semantieskom sinteze [Sur la synthse smantique (de textes)], Problemy Kybernetiki [Problmes de Cyberntique], 19, 177-238. [trad. fran. : 1970, T.A. Information, 2, 1-85.] Zwicky Arnold, 1985, Heads, Journal of Linguistics, 21, 1-29.