Vous êtes sur la page 1sur 11

TRAITEMENT AUTOMATIQUE DES LANGUES

Article écrit par Anne ABEILLÉ

Prise de vue

Le traitement automatique des langues (T.A.L.) est un domaine de recherches pluridisciplinaire, qui fait
collaborer linguistes, informaticiens, logiciens, psychologues, documentalistes, lexicographes ou traducteurs,
et qui appartient au domaine de l'Intelligence artificielle (I.A.). On dispose d'automates qui jouent aux
échecs, ou conduisent des véhicules, aussi bien, voire mieux, que l'homme. Mais l'automatisation des
activités langagières « intelligentes » n'est pas effective aujourd'hui – et sans doute pas réalisable – à 100 p.
100. Certaines tâches bien délimitées mettant en jeu le langage peuvent donner lieu à des programmes
satisfaisants, mais dans la plupart des cas l'obtention d'une qualité identique à celle de l'humain nécessite
une intervention humaine en amont (préédition, simplification, etc.) ou en aval (postcorrection).

Le T.A.L. est aussi une réalité socio-économique, avec des entreprises et des produits spécialisés :
correcteurs d'orthographe, logiciels de traduction, de dictée vocale... pour ne citer que les produits « grand
public ». On estimait en 1994 le chiffre d'affaires en produits et services T.A.L. (au sens strict) à 75 millions
de dollars aux États-Unis et 100 millions de francs en France, ce qui est encore peu, comparé au marché de
la traduction humaine par exemple (1,2 milliard de francs pour la France à la même époque). Avec
l'informatisation croissante des activités, les domaines d'applications du T.A.L. ne cessent de croître, même
si sa part est variable selon les activités : faible pour les voitures « parlantes » ou les renseignements à voix
synthétique, moyenne pour les programmes de traitement de textes à correcteur incorporé, importante pour
les applications plus « intelligentes » comme la traduction ou le résumé automatiques.

I-Un domaine de recherches pluridisciplinaire

Bref historique

Le T.A.L. au sens strict est récent, et contemporain de l'avènement des ordinateurs. Entendu au sens
large comme simulation des activités langagières (parler, comprendre, lire, écrire, traduire, corriger,
résumer...) par des moyens mécaniques, il a des précédents historiques : l'imprimerie puis la machine à
écrire ont automatisé la copie et l'écriture des textes. La fin du XVIIIe siècle a vu la réalisation d'automates
« parlants » (comme ceux du baron de Kempelen ou de l'abbé Mical) et le XXe siècle, des résultats
importants dans le domaine du codage et de la transmission de la parole avec l'invention du téléphone. Dès
le début des années 1950, le développement des ordinateurs va de pair avec leur utilisation dans le domaine
des langues. Dans un contexte de guerre froide, il s'agit alors de pouvoir lire et traduire automatiquement les
textes scientifiques russes. Les programmes réalisés sont tributaires d'une vision « mot à mot » du langage,
envisagé comme un code, sans beaucoup de connaissances linguistiques, et avec des résultats médiocres.
Dans les années 1960-1980, le T.A.L. s'émancipe des théories de l'information pour entrer dans le domaine
de l'intelligence artificielle. Pour l'oral, des systèmes experts pour la reconnaissance et la production de
formes sonores se développent parallèlement à ceux consacrés aux formes visuelles ; pour l'écrit, le
développement de programmes d'analyse accompagne les progrès de la grammaire générative et de la
formalisation linguistique.

Depuis le début des années 1980, on est entré dans une phase d'industrialisation, avec des systèmes
moins ambitieux mais plus aboutis. L'accent est mis moins sur la formalisation des processus de calcul (de
plus en plus assimilés à des boîtes noires) que sur leur rapidité et sur la constitution de ressources
linguistiques à grande échelle (dictionnaires ou grammaires électroniques). Les applications sont
nombreuses et quasiment sans limite dans des domaines aussi divers que la bureautique, la domotique, la
documentation, la traduction, l'enseignement, la presse, l'édition, le renseignement, l'informatique médicale,
l'aide aux handicapés... Mais les difficultés rencontrées sont nombreuses : coût de l'automatisation, qualité
des résultats, rapidité des programmes..., et on est loin d'avoir atteint en pratique les objectifs définis en
théorie.

Les difficultés du T.A.L.

Les difficultés du T.A.L. viennent d'une part des propriétés des langues elles-mêmes, d'autre part des
situations de communication. Parmi les propriétés intrinsèques aux langues, on peut citer leur diversité,
l'importance des ambiguïtés potentielles, la variabilité des énoncés et la créativité langagière.

On recense plus de 5 000 langues humaines actuellement utilisées. Si l'on se limite aux principales
langues écrites, pour lesquelles l'automatisation représente un enjeu socio-économique, il n'en reste que
quelques centaines. Mais elles ne sont pas toutes suffisamment connues, avec une tradition linguistique, des
dictionnaires et des grammaires, ce qui est un obstacle à leur informatisation. Certaines posent des
problèmes spécifiques : décomposition des caractères pour les langues non alphabétiques, segmentation des
mots pour les langues agglutinantes, vocalisation pour les langues sémitiques écrites sans voyelle, etc. De
plus, rien ne garantit qu'une application réalisée dans une langue pourra être aisément transférée dans une
autre. Certains programmes sont adaptables, mais pas tous.

Chaque langue comporte un nombre important d'ambiguïtés potentielles, qui sont autant d'hypothèses
que doit considérer et éliminer – à l'exception d'une seule – la machine, pour analyser correctement un
énoncé. Ces ambiguïtés virtuelles, bien connues des linguistes mais dont les locuteurs n'ont souvent pas
conscience, viennent du principe d'économie selon lequel les langues utilisent des formes (ou signifiants)
identiques pour des signifiés différents. Elles se rencontrent à tous les niveaux. Une même séquence de sons
(par exemple PER) peut correspondre à plusieurs mots (le nom féminin « paire », les noms masculins
« père » ou « pair », l'adjectif « pair », le verbe conjugué « perd » ou « perds »), ce qui rend difficile la
reconnaissance automatique de l'oral. Une même séquence de lettres peut correspondre à plusieurs mots,
au sens ou à la prononciation distincts, par exemple « savons » peut être le pluriel du nom « savon » ou une
forme du verbe « savoir », « couvent » peut être un nom (avec voyelle finale nasale) ou une forme du verbe
« couver » (avec e muet final), ce qui rend difficile l'analyse automatique ou la synthèse vocale. Une même
séquence de mots peut correspondre à des analyses différentes : dans « un joueur de football américain »,
l'adjectif désigne-t-il la nationalité du joueur (un joueur américain) ou le type de jeu (le football américain) ?
La traduction automatique vers l'anglais sera difficile, puisqu'il faudra choisir entre « american soccer
player » et « football player ». Dans un programme de recherche documentaire, les textes sur les
« avocats », sans autre précision, pourront être du domaine juridique ou agricole ! Il s'agit toujours
d'ambiguïtés potentielles (en langue) ; dans un énoncé donné (en discours), seule une des analyses est
pertinente : d'où des calculs importants puisque l'ordinateur doit examiner toutes les hypothèses.

La variabilité des énoncés est une autre source de difficultés pour le T.A.L. En reconnaissance vocale, on
cherche à définir des invariants pour la réalisation de chaque phonème (ou de chaque syllabe), qui varie
selon les phonèmes voisins, le locuteur, l'état physique ou psychologique d'un même locuteur. C'est aussi
une source de complexité en génération automatique ou en traduction, si l'on veut choisir le mot juste ou la
construction la plus « naturelle » en fonction de paramètres difficilement formalisables.

Enfin, les langues évoluent. Des mots, des constructions apparaissent et disparaissent, se figent en
« incorporant » telle connotation ou tel glissement de sens. La créativité langagière rend difficile
l'établissement d'une liste a priori des sens et des mots – ou des constructions – et de leurs correspondance.
Pour ne considérer que la simple identification lexicale, quelle que soit la taille du dictionnaire électronique
construit, il y aura toujours, à la lecture du journal du soir, des mots qui n'y figureront pas (noms propres,
mots étrangers et leurs dérivés).

Même à supposer une maîtrise parfaite de toutes les connaissances linguistiques nécessaires, il
manquera toujours à la machine les connaissances extra-linguistiques qu'ont à leur disposition les locuteurs :
ellipses et gestes utilisés dans le dialogue, références culturelles, scénarios préétablis... Pour traduire en
anglais une phrase telle que « le professeur a déplacé le bureau car il était vieux », il faut savoir si « il »
renvoie à professeur (et se traduit par « he ») ou à bureau (et se traduit par « it »). Les deux hypothèses sont
possibles, linguistiquement, mais la plus probable est la seconde.

Les différentes approches

Face aux difficultés du T.A.L., plusieurs stratégies ont été proposées : modélisation des connaissances
linguistiques et extra-linguistiques nécessaires, modélisation mathématique fondée sur les régularités
observées dans les textes, ou enfin modélisation cognitive fondée sur la simulation des comportements
humains.

Modélisation linguistique

Dans cette optique, on s'efforce d'expliciter les connaissances linguistiques dont dispose l'individu pour
les transmettre à la machine. La tendance est de segmenter la tâche en autant de niveaux correspondants
aux sous-domaines de la linguistique (phonétique, phonologie, morphologie, syntaxe, sémantique,
pragmatique). On peut suivre telle ou telle théorie : la grammaire générative a eu son heure de gloire (elle
qui proposait de redéfinir les grammaires comme des algorithmes de discrimination entre séquences bien et
mal formées), mais d'autres modèles ont été préférés depuis, qui accordent un rôle plus déterminant au
lexique ou à la sémantique (grammaires d'unification, grammaires de dépendance).

En général, la réalisation d'un système T.A.L. est le fruit d'un savant dosage entre linguistique
traditionnelle (ou descriptive) et linguistique théorique. L'accumulation des connaissances empiriques sur les
langues relève strictement de la linguistique ; la question de leur formalisation (indispensable au codage en
machine) relève, elle, de ce qu'on peut appeler la linguistique mathématique. Dans la définition de
métalangages appropriés se situe un va-et-vient fructueux entre linguistique théorique et T.A.L.

S'agissant de la modélisation des connaissances syntaxiques et sémantiques, on peut distinguer deux


étapes : au départ, le T.A.L. a importé des langages mathématiques ou logiques existants pour la description
linguistique, les grammaires formelles pour la syntaxe, la logique des prédicats ou le lambda calcul qui
permet de manipuler des fonctions indépendamment de leur valeur pour la sémantique. Depuis les années
1980, se sont développés des formalismes plus spécifiquement adaptés à la représentation des phénomènes
linguistiques, comme les grammaires d'unification ou les sémantiques dynamiques.

Modélisation mathématique

Pour les tenants des approches mathématiques, il s'agit d'observer directement les énoncés attendus en
entrée et en sortie d'un programme T.A.L. Pour beaucoup d'applications, une représentation explicite du
sens n'est pas nécessaire. Des approches stochastiques ont été développées avec succès, surtout pour la
reconnaissance de la parole, mais aussi pour l'analyse morpho-syntaxique et la traduction de textes. Il s'agit
d'exploiter le modèle des chaînes de Markov, selon lequel la probabilité d'un état (par exemple le mot, le son
ou la catégorie) est strictement déterminée par les états antérieurs. Ce modèle est développé sous le nom
de bigrammes, trigrammes ou n-grammes, selon qu'on calcule la probabilité d'un état donné en fonction des
deux, trois ou n états précédents. Les méthodes probabilistes sont utilisées pour les traitements (il s'agir de
choisir le résultat le plus probable en cas d'hypothèses multiples) mais aussi pour la construction des
ressources linguistiques (établissement d'un dictionnaire bilingue par observation de similarités entre textes
parallèles dans deux langues ; constitution d'un dictionnaire monolingue selon les contextes observés pour
chaque mot du corpus, induction d'une grammaire selon les suites de catégories constatées dans le corpus
avec leurs fréquences respectives). Elles permettent des traitements efficaces, robustes, et déterministes (il
existe toujours une solution qui maximise les probabilités), et fournissent des ressources linguistiques moins
fiables que celles construites par des linguistes, mais à moindre coût. Les inconvénients sont qu'il faut
disposer de gros corpus préanalysés et recalculer les probabilités à chaque fois qu'on change de type de
texte ou de domaine d'application.

Un second type d'approche mathématiques est celui des automates à état fini. Il a en commun avec les
approches précédentes de ne permettre que des traitements « locaux », pour lesquels on ne dispose pour
traiter tel élément du message que d'informations sur un contexte fini. En revanche, il permet une
représentation plus traditionnelle des connaissances linguistiques (sous forme de règles de succession ou de
transformation, avec des symboles abstraits). Il assure des traitements rapides et déterministes, très utiles
en analyse lexicale ou syntaxique et pour extraire de l'information dans de gros volumes de textes.

Approches cognitives

Même si on n'a pas construit des avions en imitant le vol des oiseaux, il peut être tentant, pour le T.A.L.,
de s'inspirer des comportement langagier. Dans cette optique, le T.A.L. appartient au domaine des sciences
cognitives, et il s'agit souvent moins de réaliser les meilleures applications pratiques que de modéliser et
tester sur machine des hypothèses sur le fonctionnement humain.

En liaison avec la psycholinguistique, certains analyseurs, au lieu de parcourir fastidieusement


l'ensemble des hypothèses, tentent d'aller à l'essentiel en se concentrant sur les mots les plus importants
(comme l'homme le fait dans le cas d'une lecture rapide) ; de même, certains programmes, au lieu d'essayer
de reconnaître linéairement les sons du message, pointent directement sur des zones de stabilité (ou îlots de
confiance) et opèrent à partir de là dans les deux sens.

En liaison avec les neurosciences, ont été développés depuis la fin des années 1980 des réseaux de
neurones artificiels (architecture d'automates élémentaires fonctionnant comme des cellules fortement
interconnectées) utilisés d'abord en reconnaissance des formes, puis en T.A.L. Il s'agit d'un secteur nouveau,
mais qui se prête bien à l'autoapprentissage et à la représentation de phénomènes continus (comme les
variations sonores ou les glissements de sens) sans nécessiter de gros corpus homogènes comme les
approches purement stochastiques (un jeu d'exemples représentatifs est suffisant).

Actuellement, les meilleures performances sont obtenues en combinant plusieurs méthodes, en


particulier les approches linguistiques et mathématiques.

II-Les réalisations

Il ne faut pas s'étonner que peu de programmes passent le « test de Turing » c'est-à-dire produisent des
résultats indiscernables des productions humaines, comme le programme de dialogue ELIZA conçu
spécialement à cet effet.

Réalisé par Joseph Weizenbaum en 1966, ce programme simule une discussion avec un psychanalyste à
partir d'une analyse rudimentaire des phrases de l'utilisateur (par repérage de certains mots clés) et génère
des réponses selon des modules préenregistrés (avec alternance simple entre 1re et 2e personne). C'est un
exemple de réussite (puisque de nombreux utilisateurs ont cru avoir affaire à un interlocuteur humain) basé
sur des traitements très sommaires. Mais la plupart des programmes de T.A.L. ont à la fois un objectif moins
ambitieux, puisqu'il s'agit d'aider à réaliser telle ou telle tâche, non de supprimer toute intervention
humaine, et des besoins (en connaissances, en complexité) bien supérieurs.

Les principaux types d'applications

Toutes les activités mettant en jeu de la parole ou du texte peuvent donner lieu à des produits ou
services de type T.A.L. Le T.A.L. permet soit le développement de produits ou de services entièrement
nouveaux tels que le téléphone traducteur ou les clés vocales (dispositif d'accès qui s'ouvre en reconnaissant
la voix des locuteurs autorisés), soit l'amélioration (en productivité ou en qualité des résultats) de produits
ou de services existants.

Les premiers domaines d'utilisation sont la documentation et la traduction. La documentation est depuis
l'origine un champ d'application important du T.A.L., et les besoins vont croissant avec le développement du
réseau mondial de télécommunications (ce que les Anglo-Saxons appellent le web et les francophones la
toile). En amont, il s'agit d'automatiser la classification et l'indexation de documents par la recherche de
mots clés préétablis, ou en calculant les mots importants du texte en indexation libre ; on peut aller jusqu'au
résumé automatique, qui peut soit extraire les phrases jugées les plus importantes (selon des métriques
linguistiques ou statistiques) soit regénérer un texte résumé, à l'instar de l'humain. En aval, il s'agit de
permettre une interrogation plus souple, s'appuyant sur la langue de l'utilisateur, et non sur un langage
documentaire spécialisé. Les langages spécialisés sont souvent rébarbatifs et ne permettent qu'un type de
requêtes limité (mots clés combinés par des connecteurs logiques) qui rendent mal compte de la richesse
des informations textuelles. Pour le grand public, la masse énorme de textes disponibles sur Internet
(estimée à 150 millions de pages en 1997) nécessite de puissants programmes de recherche multilingues,
qui sans analyse linguistique de la requête comme des textes candidats, risquent de produire beaucoup de
« bruit » (textes non pertinents retenus) et de « silence » (textes pertinents non retenus). Pour les
chercheurs (historiens, politologues, linguistes, littéraires...), les outils de consultation de documents sur
support informatique sont souvent sommaires : recherche de telle forme ou de telle séquence dans les
textes, recherche de mots clés si les textes sont organisés en bases de données. Les résultats sont améliorés
par des programmes T.A.L. qui permettent de retrouver les occurrences d'un mot sous toutes ses formes, ou
avec tous ses synonymes. Certains centres d'études ont développé des programmes permettant de
quantifier le style d'un auteur (vocabulaire, mots ou tournures préférés, etc.) et peuvent automatiser les
recherches en attribution.

La traduction est depuis toujours un énorme marché, qui croît avec le développement des échanges
internationaux. Yeoshuah Bar Hillel avait dès 1960 dénoncé l'utopie d'une machine à traduire de bonne
qualité entièrement automatique pour n'importe quel texte. À cette ambition irréaliste ont succédé des
objectifs plus limités : on automatise la traduction de très gros textes, homogènes, répétitifs, dans des
domaines bien délimités (documentation d'un avion, d'un médicament, d'une centrale électrique..., textes
administratifs devant être disponibles simultanément en plusieurs langues dans certains pays, textes à mise
à jour plus que quotidienne comme les bulletins météo...), où l'on peut limiter la quantité de vocabulaire et
les risques d'ambiguïté et de contresens. Sur des textes moins contraints, on parle plus volontiers de
traduction assistée par ordinateur, sachant qu'il sera nécessaire de faire relire la traduction à une personne,
ou de traduction interactive si la machine peut interroger l'utilisateur au fur et à mesure des difficultés
rencontrées. Même sans automatisation intégrale, ces systèmes de traduction restent avantageux par
rapport à la traduction humaine : la postcorrection peut être effectuée par quelqu'un qui ne connaît que la
langue cible, tandis que le dialogue avec la machine peut être mené par quelqu'un qui ne connaît que la
langue source (les difficultés se situent généralement dans la phase d'analyse). On distingue les petits
systèmes grand public, sur micro-ordinateur, avec des performances médiocres, des systèmes
professionnels, souvent adaptés sur mesure, qui fonctionnent avec d'importants moyens informatiques et de
grosses bases de connaissances. Les systèmes « ouverts », où on peut ajouter son lexique ou ses
préférences pour telle ou telle construction, donnent les meilleurs résultats. Peu de systèmes de traduction
entièrement automatiques sont opérationnels à l'heure actuelle. Pour des besoins de veille technologique, ou
de surveillance des télécommunications, une traduction de qualité médiocre est suffisante (il s'agit
essentiellement de filtrer les textes intéressants ou suspects, dont on pourra demander ensuite une
traduction plus poussée : on parle alors de traduction « brute » ou « au kilomètre »). Pour des traductions de
bonne qualité (lettres professionnelles, textes d'information, textes officiels...), vérification et correction
humaines sont généralement nécessaires. On assiste parallèlement à une sophistication du poste de travail
du traducteur, qui utilise de plus en plus des outils informatiques d'aide à la traduction, tels que les
dictionnaires électroniques et les mémoires de traduction. Des outils de rédaction ou de génération
multilingues peuvent remplacer les besoins en traduction puisque les textes sont directement rédigés en
plusieurs langues.
Dans le domaine des aides à la rédaction, les réalisations sont nombreuses : machines à dicter,
programmes de correction d'orthographe, de recherche de synonymes... Pour la dictée vocale, on est passé
en une quinzaine d'années de systèmes monolocuteurs reconnaissant quelques dizaines de mots isolés à des
systèmes multilocuteurs capables de reconnaître de la parole continue avec des vocabulaires de plusieurs
dizaines de milliers de mots. Les premiers correcteurs d'orthographe se contentaient de consulter un
dictionnaire pour détecter les mots inconnus (présumés fautifs), les plus récents disposent d'une grammaire
leur permettant de détecter des fautes d'accord. S'agissant des documents d'entreprise, de gros volumes de
textes à classer ou à mettre à jour régulièrement, des outils informatiques spécialisés sont nécessaires, pour
uniformiser des textes écrits par des personnes ou des services différents, pour vérifier la conformité à des
normes préétablies, pour extraire des documents plus réduits adaptés à tel ou tel utilisateur...

Le domaine de la lecture automatique, ou reconnaissance intelligente de caractères, profite également


du T.A.L. Si l'on veut obtenir un fichier texte à partir d'un document papier, il faut, outre un scanner, un
programme de reconnaissance de caractères (au sens graphique) et un programme de reconnaissance de
mots disosant de connaissances linguistiques. Le cas le plus difficile est celui de la reconnaissance de
l'écriture manuscrite, particulièrement importante pour les chèques ou les adresses postales. Seule l'écriture
en majuscules ou avec séparation entre les lettres est actuellement reconnue de façon satisfaisante.

Le dialogue homme-machine est important pour de multiples applications : guichets automatiques,


commande de robots, de systèmes d'alarme ou de surveillance automatique... Le dialogue peut être vocal ou
se faire entre l'écran et le clavier ; il peut être rudimentaire, et se limiter à la restitution de messages
préenregistrés (comme dans le cas des voitures ou des jouets « parlants ») ou à la reconnaissance de
quelques dizaines de sons ou de mots clés, comme dans le cas des clés vocales, mais aussi être plus
sophistiqué. On note le développement de la téléphonie « intelligente », à voix synthétique, qui permet
d'avoir des standards sans opérateur humain pour des services comme l'annuaire, l'horloge parlante, ou le
téléachat, mais aussi la production automatique de messages personnalisés comme la consultation de son
courrier électronique par téléphone ou le téléphone « traducteur » (qui doit restituer dans une autre langue,
outre le contenu du message, les caractéristiques de la voix du locuteur). Le dialogue homme-machine
débouche aussi sur l'enseignement assisté par ordinateur, et particulièrement l'enseignement des langues.
Les programmes T.A.L. permettent de dépasser le stade des exercices à trous ou des enregistrements à
répéter : avec un programme disposant de compétences linguistiques, la machine peut engager un véritable
dialogue avec l'élève, analyser ses erreurs, afficher le spectrogramme de sa prononciation... Ces tuteurs
« intelligents » autorisent une plus grande variété d'exercices et un apprentissage plus personnalisé.

Le domaine de l'aide aux handicapés, enfin, revêt des formes multiples : pour les handicapés moteur,
programmes d'aide à la saisie, qui dès les premières lettres tapées proposent le ou les mots pertinents (à
l'aide d'un dictionnaire et d'une grammaire adaptés à l'utilisateur) ; pour les malvoyants, programmes de
phonétisation qui lisent des textes variés ; pour les personnes laryngectomisées, programmes de synthèse
vocale, etc.

Les ressources disponibles

Le T.A.L., dès qu'on dépasse le stade des systèmes « jouets », nécessite des moyens importants, en
termes de puissance de calcul informatique et de bases de données linguistiques.

Les ressources linguistiques

Les dictionnaires et livres de grammaire sont des sources anciennes et importantes de connaissances sur
les langues. Elles sont faiblement utilisables pour le T.A.L., pour plusieurs raisons : elles sont lacunaires (les
meilleurs dictionnaires ne fournissent les mots que sous leur forme canonique, ignorent de nombreux noms
propres ou des mots dérivés selon des règles régulières : « linguistiquement », « politiquement »...) ; elles ne
sont pas formalisées (les sens d'un mot sont donnés sous forme de texte libre – définitions, exemples) ; elles
ne sont pas reliées entre elles (les informations lexicales mentionnées par les grammaires – verbe transitif
direct, adjectif antéposable – sont rarement codées comme telles dans les dictionnaires). La construction de
dictionnaires électroniques de gros volume adaptés aux besoins du T.A.L. est donc indispensable et a été en
partie réalisée pour les principales langues européennes. Voici par exemple un extrait du dictionnaire DELAF
pour les formes fléchies du français associées aux entrées du DELAS (dictionnaire de « mots simples »)
développé par le Laboratoire d'automatique documentaire et linguistique (L.A.D.L.) à l'université Paris-VII.

Il comporte les mots de base, avec toutes leurs formes conjuguées et fléchies, auxquelles sont associés
des codes pour les informations morphologiques, syntaxiques ou sémantiques associées. De tels
dictionnaires (de l'ordre de 500 000 formes pour le français sans compter les mots composés) sont beaucoup
plus volumineux que les dictionnaires pour humains.

Les connaissances sur la phonétique d'une langue ont abouti à la constitution de bases de données
phonétiques (stockant les syllabes possibles, les mots avec leurs transcriptions...). Pour les connaissances
grammaticales, des formalismes spécifiques ont été définis, proches au départ de ceux utilisés pour les
langages informatiques (grammaires formelles) puis plus sophistiqués avec les grammaires d'unification (qui
sont un type de grammaire générative spécialement développé pour le T.A.L.) mais peu de grammaires
électroniques d'envergure ont été réalisées à ce jour. Les gros corpus de textes disponibles sous forme
électronique sont un autre type de ressource, pour tester les programmes T.A.L. et les améliorer (par
exemple en ajoutant des mots, des constructions non prévus a priori). Ils sont d'autant plus utiles qu'ils ont
été préanalysés (en général selon des moyens semi-automatiques), mais on dispose encore de trop peu de
corpus annotés ou enrichis. L'insuffisance actuelle des ressources linguistiques (même si de grands progrès
ont été accomplis) est la principale limite des systèmes aujourd'hui opérationnels.

Les ressources informatiques

Comme toute informatisation de problèmes complexes, le T.A.L. nécessite des ressources informatiques
sophistiquées. Certains programmes fonctionnent sur micro-ordinateurs, mais la plupart des réalisations
« intelligentes » nécessitent des machines plus puissantes. Ce n'est que récemment, avec les progrès de la
miniaturisation, qu'on a obtenu des machines de capacité suffisante pour traiter en un temps raisonnable
d'importants volumes de textes en utilisant de gros dictionnaires électroniques. Les interfaces clavier et
écran ont été adaptées pour la saisie et l'affichage des caractères non latins et des écritures non
alphabétiques, même si tous les systèmes n'adoptent pas les normes internationales. Les progrès de
l'électronique permettent également d'avoir de bonnes interfaces vocales (carte son pour la synthèse et
enregistrement numérique pour la reconnaissance).

Comme pour d'autres tâches en intelligence artificielle, se posent également des questions de langage,
d'architecture et d'algorithmique. Les langages de programmation « évolués » (c'est-à-dire très éloignés des
représentations binaires internes à la machine), comme Prolog, ont été conçus justement pour répondre aux
besoins du T.A.L. Ce langage, qui inclut les capacités de déduction des langages logiques, se prête bien à
l'écriture de petits programmes. Les « langages orientés objets », qui incluent des systèmes de classification
naturels, sont également utilisés. Plus récemment, ont vu le jour des langages spécialement dédiés à la
manipulation d'unités textuelles (perl, awk). On a en général affaire à un compromis entre expressivité du
langage et rapidité d'exécution.

Concernant l'architecture, on peut distinguer l'approche modulaire et l'approche intégrée. La première a


l'avantage de permettre le développement indépendant de chaque module, mais la seconde peut être plus
efficace pour de petites applications. Dans l'approche modulaire, une architecture en série a pour fonction de
faire passer le message entré dans chaque module successivement (sans retour arrière possible) alors que
dans d'autres architectures (comme celle à tableau noir central) la collaboration entre modules est plus
souple et peut permettre des aller et retour. Tout un domaine de l'informatique (la compilation), enfin, est
consacré à la définition d'algorithmes pour l'interprétation par la machine des langages de programmation.
Les résultats obtenus peuvent être transposés à la définition d'analyseurs syntaxiques. Des algorithmes de
compression et de recherche dans de gros dictionnaires ont également été définis.
Les principaux types de programmes

On distingue cinq grands types de programmes de T.A.L., intégrables à telle ou telle application : les
programmes de reconnaissance de la parole, les synthétiseurs vocaux, les analyseurs de textes, les
générateurs de textes et les programmes de traduction.

Les programmes de reconnaissance de la parole

La reconnaissance automatique de la parole consiste à convertir le signal acoustique prononcé par un


locuteur en la suite des mots sous-jacents. On parle de compréhension automatique si cette suite de mots
s'accompagne d'une représentation de leur sens.

Les systèmes actuels comportent au moins deux modules : le décodage acoustico-phonétique qui
transforme la représentation acoustique du signal en une représentation phonétique, et le traitement
linguistique qui convertit cette représentation phonétique en une représentation graphique ; dans une
architecture analytique en série, on peut distinguer davantage de modules.

La tâche du décodeur acoustico-phonétique est d'autant plus difficile que le signal en entrée est de
mauvaise qualité (parole en milieu naturel avec bruit de fond, ou transmise par téléphone), mais également
dans le cas de parole spontanée au débit plus rapide que celui de la parole lue. On aboutit alors à un treillis
de phonèmes avec des zones d'incertitude. Compte tenu de la variété des modes d'élocution et de
prononciation, les utilisateurs doivent en général « entraîner » le système au préalable sur un corpus
préétabli. Le module linguistique doit segmenter la chaîne phonétique et identifier les mots. La segmentation
est facilitée si on impose à l'utilisateur de laisser une pause entre chaque mot, comme le font encore
certains systèmes. Pour une langue comme le français, qui comporte beaucoup d'homophones, on aboutit à
un graphe de mots qui représente les différentes hypothèses compatibles avec le décodage acoustique. La
sélection de la séquence correcte repose sur des connaissances syntaxiques et sémantiques explicites ou sur
des probabilités observées sur des corpus similaires. Les approches probabilistes sont les plus utilisées
actuellement : le module acoustique propose, pour chaque séquence de sons, plusieurs mots avec pour
chacun sa probabilité : le module linguistique associe à chaque mot une probabilité conditionnée par celle
des mots précédents et suivants (modèle de langage), et le résultat final consiste à combiner les deux types
de probabilités en retenant les mots qui les maximisent.

Les synthétiseurs vocaux

La production automatique de parole à partir d'une représentation écrite, ou phonétisation de textes,


peut se faire selon deux méthodes : par concaténation de sons (ou de mots) préenregistrés, ou par calcul de
représentations phonético-acoustiques. Dans le premier cas, on a essentiellement besoin de bases de sons
élémentaires, en général des suites de deux sons ou diphones, qu'on va concaténer et éventuellement
modifier selon la prosodie désirée (hauteur, durée...). Cette méthode fournit des résultats de bonne qualité, à
faible coût, dans des contextes à vocabulaire limité et phraséologie fixe (par exemple l'horloge parlante).
Dans le second cas, qui est celui de la synthèse à formants, on distingue le traitement linguistique (analyse
du texte en entrée), le traitement phonético-acoustique (description du signal au niveau segmental et
prosodique) et le traitement du signal, qui calcule le signal numérique transformé ensuite en signal
acoustique. L'analyse du texte en entrée peut utiliser des ressources classiques mais doit aboutir à une
transcription phonétique avec marqueurs prosodiques (pour l'accentuation et l'intonation). Les difficultés
sont nombreuses, par exemple la présence de mots inconnus, comme les sigles pour lesquels il faut choisir
entre lecture (DATAR) ou épellation (A.N.P.E.), d'homographes non homophones (par exemple « reporter »,
« fils », ou « plus » en français) pour lesquels il faut choisir la bonne prononciation selon le contexte. Une
analyse morphologique est nécessaire pour reconnaître les préfixes et les suffixes (et faire échapper
« parasol » ou « contresens » à la règle de voisement du s intervocalique), une analyse syntaxique pour
déterminer les liaisons obligatoires et interdites. D'autres paramètres peuvent être pris en compte, comme le
style ou l'accent recherchés. Le traitement phonético-acoustique convertit la description phonétique obtenue
en paramètres acoustiques, avec indication de la courbe mélodique, des pauses, de la force de la voix... Pour
calculer la forme acoustique des segments (ou suite de phonèmes), leur durée et leur intensité, on utilise des
méthodes par règles, des méthodes statistiques ou des réseaux de neurones. Il s'agit de pouvoir modifier la
forme canonique de chaque phonème en fonction des phonèmes adjacents, selon le phénomène de
coarticulation.

Les analyseurs

Qu'elle soit basée sur des probabilités ou sur des connaissances linguistiques, ou qu'elle combine les
deux, on distingue généralement plusieurs étapes dans l'analyse automatique, qui peuvent donner lieu à des
programmes différents : l'analyse lexicale (identification des mots ou des morphèmes), l'analyse syntaxique
(identification des syntagmes et de leurs fonctions), et l'analyse sémantique (identification des prédicats et
des relations entre phrases). Chacune de ces tâches peut être elle-même décomposée. Pour l'analyse
lexicale, on distingue ainsi la segmentation (identification des frontières de mots et des frontières de
phrases), la lemmatisation (identification du mot sous sa forme canonique), l'étiquetage (identification de la
bonne catégorie morpho-syntaxique pour une forme donnée, selon le contexte). On doit noter l'absence de
consensus sur le résultat exact de chaque type d'analyse, et sur le mode de présentation de ce résultat.
Beaucoup d'analyseurs lexicaux se limitent au repérage et à l'étiquetage des mots simples, sans restitution
de leur forme canonique et sans prise en compte des mots composés. La plupart des analyseurs syntaxiques
indiquent la fonction des mots de la phrase ou construisent l'arbre syntaxique de celle-ci, selon le type de
grammaire sur lequel ils s'appuient, mais rares sont ceux qui accomplissent les deux tâches à la fois et
encore plus rares ceux qui délivrent finement les prédicats de toute ambiguïté. Pour les analyseurs
sémantiques, la variété des sorties est encore plus grande : traduction en formules logiques, ou en graphes
conceptuels, décomposition en phrases simples (minimales), instanciation de variables dans une grille
d'analyse (de type questionnaire)...

En ce qui concerne les analyseurs syntaxiques ou sémantiques, leur mode de fonctionnement dépend
étroitement du ou des formalismes sur lesquels ils s'appuient. Si l'on fait abstraction de ces derniers, on
distingue les analyseurs incrémentaux, qui analysent la phrase mot à mot, des autres analyseurs qui
attendent d'avoir lu la fin de la phrase pour lancer l'analyse. Les premiers sont utiles s'il s'agit de traduire
une conversation au téléphone où l'on veut que la traduction commence avant la fin de la phrase. Certains
analyseurs sont robustes, ou tolérants aux fautes, et fournissent un résultat même en présence d'un énoncé
déviant ou non attendu, ce qui ne convient pas forcément pour des programmes de correction ou de
détection de fautes, mais s'avère indispensable pour d'autres applications (dialogue, recherche
documentaire...).

Les analyseurs à base linguistique, compte tenu de la multiplicité des hypothèses à considérer pour
chaque mot ou groupe de mots à analyser, sont soit linéaires avec retour arrière (ils privilégient à chaque
fois une seule hypothèse quitte à revenir sur un choix erroné), soit parallèles (en explorant plusieurs
possibilités à la fois avant d'en privilégier une). La plupart fournissent plusieurs analyses pour un énoncé
véritablement ambigu ou pour lequel ils n'ont pas su trancher (on parle alors d'ambiguïtés artificielles ou
superflues). Les analyseurs probabilistes ne fournissent qu'une seule analyse, en ne retenant à chaque choix
possible que le plus probable, quitte à se tromper.

Les générateurs

La génération automatique constitue un domaine de rechercheplus récent que les précédents. Les
premiers programmes de T.A.L. reposaient sur des textes à trous préenregistrés, comme les mailings. Pour
que la sortie vocale ou textuelle soit variée et adaptée au but poursuivi, différents types de calcul sont
nécessaires.

On peut mettre à part la génération aléatoire, qui n'est utilisée qu'à des fins de recherche linguistique
(tester une grammaire en vérifiant que les phrases qu'elle produit sont bien correctes) ou littéraire (générer
des phrases ou des textes en se basant sur une libre combinatoire, en recherchant des effets inattendus ou
poétiques, sur le modèle de 100 000 Milliards de poèmes de Raymond Queneau). On distingue la génération
de phrases isolées, et la génération de textes qui suppose une vision d'ensemble du message à transmettre.
La première est suffisante pour un dialogue homme-machine, ou dans certaines applications de traduction.
La seconde se fonde sur une représentation abstraite du contenu, sous forme de données numériques ou
langagières, qui peut avoir été obtenue automatiquement. Elle comporte au moins deux composants : le
composant stratégique (ou planificateur) qui détermine le contenu du message à transmettre, en éliminant
certaines informations inutiles, et le structure en un tout cohérent (on parle aussi de génération
« profonde ») ; et le composant tactique (ou synthétiseur) qui accomplit des tâches proprement linguistiques,
en choisissant les mots et les structures syntaxiques appropriés (on parle alors de génération « de
surface »). Le premier composant s'appuie sur un modèle de texte (par exemple des bulletins météo, où les
informations doivent être fournies selon un ordre préétabli) et sur un modèle de l'interlocuteur (grand public
ou spécialistes, enfants ou adultes). Le second composant s'appuie sur une base conceptuelle liée à un
dictionnaire et une grammaire qui peuvent être identiques à ceux utilisés en analyse, ou plus restreints. À
partir d'une représentation sémantique abstraite de phrase, il s'agit de déterminer les mots correspondant à
chaque concept, de choisir une construction syntaxique (groupe nominal, phrase à l'actif ou au passif...), et
enfin de synthétiser la phrase en respectant les contraintes de surface : ordre des mots, conjugaison des
verbes, accords... En général plusieurs phrases permettent d'exprimer un contenu identique, et le choix sera
fonction de préférences stylistiques ou rhétoriques. Le premier composant est lié au domaine et à
l'application considérée tandis que le second repose sur des connaissances linguistiques plus générales.

Dans les applications concrètes, les générateurs peuvent être plus sophistiqués : pour la génération de
messages oraux, la sortie du générateur doit passer dans un programme de phonétisation ; dans le cas de
génération multimodale, la production automatique de graphiques ou de dessins doit accompagner celle du
texte (par exemple pour générer un mode d'emploi). Pour la génération multilingue, il s'agit d'utiliser les
mêmes programmes et la même représentation abstraite en entrée, et des bases de données linguistiques
(grammaires et dictionnaires) différentes selon la langue.

Les traducteurs

Au départ considérée comme un avatar de la cryptographie (un texte russe étant vu par Warren Weaver
comme un texte anglais à décrypter), la traduction automatique n'est entrée que progressivement dans le
champ des recherches en linguistique informatique et en intelligence artificielle. Les premiers systèmes qui
traduisaient mot à mot ont cédé la place à des architectures modulaires, où tâches d'analyse, de transfert et
de génération sont bien séparées.

La traduction humaine comporte généralement plusieurs étapes : lecture du texte à traduire,


documentation (encyclopédies, dictionnaires...), traduction, révision. La traduction automatique comporte au
moins une analyse du texte source et une génération du texte cible, avec une étape intermédiaire qui peut
varier selon l'approche adoptée. Dans l'approche à langue pivot (ou interlangue), l'analyse conduit à une
représentation abstraite (dans un langage artificiel supposé universel) indépendante de la langue source, qui
sert directement d'entrée pour générer la phrase cible ; dans l'approche à transfert, la représentation
abstraite obtenue après analyse du texte source doit être traduite dans une autre représentation abstraite
correspondant au texte cible.

En général, un prétraitement (automatique) du texte est nécessaire, pour isoler les parties textuelles des
graphiques ou des tableaux par exemple, ou pour corriger éventuellement certaines erreurs. Pour une bonne
qualité de traduction, une postédition est également nécessaire, automatique pour restituer la mise en page
ou le formatage initial, humaine pour choisir parmi plusieurs traductions proposées, ou pour remplir des
trous éventuels laissés par le programme en cas d'inconnu.

L'analyse ne présente pas de spécificités par rapport aux tâches habituelles d'un analyseur automatique,
sauf celle de pouvoir se contenter d'un niveau d'analyse superficiel (la plupart des systèmes de traduction se
limitent à une analyse morphosyntaxique, dans le cas de couples de langues proches). La génération est
également simplifiée dans la mesure où il s'agit de génération de surface, puisque la représentation interne
du texte à générer est déjà disponible en sortie du module de transfert. Seul ce dernier est original, et
nécessite des ressources spécifiques (dictionnaires bilingues, règles de transfert) : il doit optimiser les choix
entre plusieurs traductions possibles, par différentes techniques (prise en compte du contexte, de
traductions proches antérieures, etc.), et opérer les restructurations nécessaires : regroupement de plusieurs
phrases ou décomposition d'une phrase complexe, changement de construction ou de catégorie syntaxique,
etc.

On parle de programme réversible (ou bidirectionnel) si on peut inverser langue cible et langue source ;
on doit disposer alors d'un analyseur et d'un générateur pour chaque langue ; la bidirectionnalité du module
de transfert est un problème ouvert : les dictionnaires bilingues pour humains sont distincts selon le sens de
la traduction, la plupart des dictionnaires électroniques bilingues le sont également. Pour des applications
multilingues, c'est-à-dire couplant plus d'une langue source avec plus d'une langue cible, l'approche à
langage pivot est en théorie plus avantageuse puisqu'elle ne nécessite qu'un analyseur et un générateur par
langue, tandis que l'approche à transfert nécessite un module de transfert pour chaque couple (orienté) de
langues.

En conclusion, la pleine compréhension d'un texte quelconque n'est pas automatisée ni sans doute
automatisable. Il n'est même pas sûr qu'elle soit réalisée par l'homme. On peut néanmoins développer des
programmes satisfaisants pour au moins deux raisons. D'une part, chaque application peut déterminer son
niveau de compréhension : une compréhension superficielle peut suffire (du type lecture rapide) s'il s'agit de
déterminer rapidement ce dont parle un texte (pour l'indexation automatique de textes ou la réponse à une
recherche de textes sur Internet) ou de repérer les fautes d'accord les plus grossières (pour la correction
automatique). D'autre part, la plupart des applications dites professionnelles (et non grand public) traitent en
fait d'un sous-langage, c'est-à-dire des textes et des messages dans un domaine particulier (les
télécommunications, la météo...) caractérisés par un vocabulaire plus restreint, beaucoup moins ambigu, et
une syntaxe plus limitée que ceux de la langue dans son ensemble.

Anne ABEILLÉ

Bibliographie
• A. ABEILLÉ, Les Nouvelles Syntaxes : grammaires d'unification et analyse du français, Armand Colin, Paris, 1993 

• J. ANIS dir., « La Génération de textes », in Langages, no spéc. 106, 1992 

• CALLIOPE, La Parole et son traitement automatique, Masson, Paris, 1989 

• R. CARRÉ, J-F. DEGREMONT, M. GROSS et al., Langage humain et machines, Presses du C.N.R.S., Paris, 1991 

• N. CATACH, La Phonétisation automatique du français, les ambiguïtés de la langue écrite, Éd. du C.N.R.S. Paris, 1984 

• R. COLE dir., Survey of the State of the Art in Human Language Technology, Cambridge Univ. Press, 1997 

• L. DANLOS, Génération automatique de textes en langues naturelles, Masson, 1985 

• L. DANLOS & J. VÉRONIS dir., « État de l'art », in T.A.L., 38 :2, no spéc., 1997 

• C. FUCHS (éd.), Linguistique et traitements automatiques des langues, Hachette, Paris, 1993 

• B. GROSZ, K. SPARCK JONES & B. WEBBER dir., Readings in Natural Language Processing, Morgan Kaufman, Los Altos, 1986 

• B. HABERT dir., « Traitements probabilistes et corpus », in T.A.L., 36 :1-2, no spéc., 1995 

• R. LADMIRAL dir., « Le Traducteur et l'ordinateur », in Langages, no 116, 1994 

• H. MELONI dir., Fondements et perspectives en traitement automatique de la parole, Aupelf-Uref, Paris, 1996 

• E. ROCHE & Y. SCHABES dir., Finite-State Natural Language Processing, M.I.T. Press, 1997 

• G. SABAH, L'Intelligence artificielle et le langage : 1. Représentation des connaissances, 2. Processus de compréhension, Hermes,
Paris, 1988, 1989 

• M. SILBERZTEIN, Dictionnaires électroniques et analyse automatique de textes : le système INTEX, Masson, 1993.