Vous êtes sur la page 1sur 12

Langages

Terminologie, ingénierie linguistique et gestion de l'information


M. Stéphane Chaudiron

Abstract
Stéphane Chaudiron : Terminologie, ingénierie linguistique et gestion de l'information.
Terminology science is part of the broader field of language processing. Terminology is involved in several key domains of the
new industries issued from researches on data processing applied to languages. Knowledge engineering, data mining, search
engines are in some aspects dependant on terminology science.

Citer ce document / Cite this document :

Chaudiron Stéphane. Terminologie, ingénierie linguistique et gestion de l'information. In: Langages, 39ᵉ année, n°157, 2005.
La terminologie : nature et enjeux. pp. 25-35;

doi : https://doi.org/10.3406/lgge.2005.972

https://www.persee.fr/doc/lgge_0458-726x_2005_num_39_157_972

Fichier pdf généré le 03/05/2018


Stéphane Chaudiron
Université de Paris X

Terminologie, ingénierie linguistique

et gestion de l'information

1. INTRODUCTION

Face au défi de la sur-information auquel les usagers des réseaux électroniques


sont confrontés, l'information est d'abord un processus d'élimination de
l'information. Internet est devenu le lieu emblématique de ce désordre informationnel. La
croissance de la quantité d'information dans les multiples sphères d'Internet
engendre un sentiment d'incertitude de l'observateur. Son hétérogénéité contribue à
renforcer ce sentiment, qui est devenu l'état cognitif « normal » de tout usager
d'Internet qui craint de « passer à côté » de l'information stratégique. Cette
hétérogénéité s'observe à plusieurs niveaux : pertinence et fiabilité incertaine, multiplicité des
formats d'enregistrements, données de plus en plus multilingues.
Dans ce contexte, quel peut être le rôle de la terminologie et de l'ingénierie
linguistique ?
La question du traitement automatique de l'information textuelle sur Internet est
une question clé. L'extension des réseaux induit un bouleversement des besoins
informationnels, qui se caractérise par une nécessité accrue d'identifier et de traiter
l'information en (presque) temps réel, de détecter les indices d'une modification de
l'environnement, de filtrer l'information la plus adaptée au contexte d'usage, de
naviguer facilement dans des volumes de données toujours plus imposants. Dans
ces processus, la capacité des outils logiciels à analyser le contenu informationnel et à
traiter l'hétérogénéité linguistique est essentielle. En effet, le traitement de
l'information par des méthodes automatisées n'est possible que si elle est codée, classée et
balisée de manière adéquate.
C'est ici qu'intervient le rôle central de la terminologie, entendue comme
pratique visant à constituer des ensembles structurés de termes, dans un univers où
l'information est de moins en moins structurée. Dans cet univers informationnel
mouvant, la terminologie occupe une double fonction : elle permet d'une part de
borner des domaines de connaissance, facilitant ainsi une appropriation par les
usagers des techniques de gestion de connaissance, et d'autre part d'améliorer la
performance des logiciels de traitement automatique de l'information.

Langages 157 25
La terminologie : nature et enjeux

Dans cet article, nous nous attacherons à expliciter ce double rôle, central, de la
terminologie dans les outils de traitement linguistique de l'information en présentant
plusieurs exemples. Il ne s'agit pas de dresser un panorama exhaustif de toutes les
applications mais de préciser, à travers quelques exemples significatifs, l'apport de la
terminologie au traitement informatique des langues.

2. LE CYCLE DU TRAITEMENT INFORMATIONNEL

II est donc possible de considérer la terminologie sous deux approches


complémentaires : une première approche qualifiée de vue informationnelle qui considère les
terminologies comme la ressource essentielle de la gestion de l'information et une
seconde approche qualifiée de vue logicielle dans laquelle la terminologie est
considérée comme une ressource linguistique nécessaire au bon fonctionnement des
logiciels d'ingénierie linguistique.
À partir des différents univers informationnels, notamment la mémoire et le
patrimoine immatériel des entreprises, les nombreux corpus textuels produits dans les
organismes scientifiques, techniques, réglementaires, etc., des terminologies
spécialisées sont produites qui alimentent en ressources linguistiques (dictionnaires,
thésaurus, réseaux sémantiques. . .) les outils de traitement linguistique en leur
permettant de fonctionner. Ceux-ci permettent à leur tour de traiter les corpus relevant des
différents univers informationnels. La figure 1 représente ce fonctionnement cyclique.

Outils d'ingénierie
linguistique

Figure 1 : Le cycle du traitement informationnel

En tant que corpus délimitant des univers informationnels, les terminologies sont
des outils de description de champs de connaissance au même titre que les
nomenclatures, les thésaurus ou les ontologies. À ce titre, elles interviennent dans différents
processus de gestion de l'information comme le Knowledge Management, la veille
stratégique, l'intelligence économique, la valorisation de la mémoire d'entreprise ou la
gestion du patrimoine informationnel de l'entreprise.
La figure 1 visualise le double rapport qu'entretient la terminologie avec
l'ingénierie linguistique. Dans de nombreuses applications (la traduction, l'analyse de
contenu, le résumé, la recherche et le filtrage d'informations notamment), la
terminologie est utilisée comme une ressource linguistique nécessaire au fonctionnement des
applications de traitement automatique des langues (TAL). Dans d'autres
applications, les terminologies sont à l'inverse des résultats produits par les outils d'ingénierie
linguistique et, plus largement, des applications de traitement informatique des

26
Terminologie, ingénierie linguistique et gestion de l'information

langues. Dans ce cas, elles sont construites à partir de grands volumes de données
textuelles afin de produire des listes de termes qui permettront ensuite d'élaborer des
dictionnaires, des terminologies, des thésaurus. . .

3. LA TRADUCTION AUTOMATIQUE OU ASSISTÉE PAR ORDINATEUR

La place de la terminologie dans les systèmes de traduction est centrale. En effet,


l'utilisation de dictionnaires, glossaires et terminologies spécialisées pour aider le
traducteur dans sa tâche lui permet non seulement d'améliorer sa productivité mais
également de contrôler la qualité de la traduction, principalement dans les domaines
de haute technicité. C'est donc tout naturellement que les premières terminologies
informatisées sont apparues sous forme de banques de données, d'abord accessibles
en ligne puis disponibles sur cédéroms avant d'être des éléments constitutifs
majeurs des logiciels de traduction.

3.1. La traduction automatique


Les logiciels de traduction automatique automatisent l'intégralité du processus de
traduction de telle sorte qu'aucune intervention humaine n'est requise. Le logiciel agit
comme une « boîte noire » dans laquelle le texte source est entré et de laquelle sort le
texte cible. L'automatisation complète du processus permet de gagner
incontestablement en rapidité par rapport à la traduction humaine, et permet également
d'économiser les coûts de traduction. Néanmoins, ce gain économique s'effectue au détriment,
pour le moment encore, de la qualité de traduction. La traduction est en effet un
processus cognitif extrêmement complexe au cours duquel les différents niveaux
linguistiques interviennent (morphologie, syntaxe, sémantique et même pragmatique
pour identifier et tenter de résoudre les ambiguïtés liées au contexte de renonciation).
L'accroissement des ressources terminologiques, en particulier dans les domaines de
spécialité, est une des pistes permettant d'améliorer la qualité des traductions. On peut
constater à cet égard que la plupart des logiciels du commerce permettent précisément
à l'utilisateur d'intégrer son propre vocabulaire. Mais si des efforts de description
terminologique sont encore certainement à consentir, d'autres problèmes peuvent être
signalés, comme le manque de robustesse de l'analyse liée notamment à la difficile
reconnaissance des entités nommées ou la faible tolérance aux graphies déviantes.
Néanmoins, dans des contextes d'usage bien précis, ces logiciels s'avèrent très
utiles. Mentionnons le cas particulier de la traduction automatique en contexte
restreint utilisée quand un contrôle strict s'est exercé sur la terminologie et la syntaxe
lors du processus de rédaction. Le texte ainsi produit avec un logiciel d'aide à la
rédaction ne contient plus aucune ambiguïté et peut donc être traduit de façon
univoque. C'est le cas dans certains domaines techniques où des normes de langage
contrôlé existent. Ainsi, dans le domaine de la maintenance aéronautique, ГАЕСМА
(European Association of Aerospace Industries) a produit un document1 stipulant les
règles linguistiques d'un anglais simplifié. Cette spécification est utilisée par les
principaux constructeurs d'appareils aéronautiques civils dans le monde. On peut

1. AECMA Simplified English, PSC-85-16598 « A Guide for the Preparation of Aircraft


Maintenance Documentation in the International Aerospace Maintenance Language », http://
www.controlledenglish.com/history.htm^

Langages 157 27
La terminologie : nature et enjeux

ainsi mentionner les travaux de Sylvie Régnier et Eva Dauphin du Centre commun
de recherche de EADS (voir [Régnier, 2002]) pour la présentation d'approches et
d'outils d'aide à la rédaction visant à standardiser la production de documents
techniques en contexte multilingue.
Dans un autre domaine, celui de la pharmacie, Caroline Brun et Marc Dymetman
du Centre de recherche européen de Xerox proposent une approche dénommée
Multilingual Document Authoring, qui permet à un expert humain de spécifier interac-
tivement et pas à pas le contenu d'un document à l'aide de choix successifs dans des
menus (voir [Brun, 2002]).
Un second contexte d'usage, celui de la veille stratégique, tire bénéfice de la
traduction entièrement automatisée. En effet, dans un contexte de recherche
d'information récurrente où le volume d'information traité est inexploitable manuellement,
le recours à de tels outils linguistiques permet d'effectuer une première traduction
« de bas niveau » avant de recourir, si nécessaire, à une traduction plus fine. Le
processus de traduction peut alors être comparé à un processus d'identification de
l'information pertinente.

3.2. Les systèmes d'aide à la traduction


La traduction humaine assistée par ordinateur2 (TAO) recouvre en fait plusieurs
réalités. Comme le nom l'indique, le processus de traduction est entièrement piloté
par le traducteur humain qui est assisté par le logiciel. Les aides les plus simples
consistent dans l'utilisation de dictionnaires électroniques ou banques de données
terminologiques qui proposent les termes à traduire. Mais actuellement, des
systèmes plus sophistiqués recourent à des « mémoires de traduction » qui
permettent de stocker des passages plus ou moins longs de textes déjà traduits (syntagmes,
phrases, paragraphes) et les proposent au traducteur lorsqu'un passage similaire est
atteint. Ces logiciels fonctionnent sur deux principes ; d'une part le constat que les
versions successives des textes techniques (documentation, manuel, guide
d'utilisation,...) reprennent de nombreux passages identiques ou linguistiquement proches.
Le second principe concerne la possibilité pour les logiciels de calculer un indice de
similarité entre un passage déjà traduit et le passage en cours de traduction.
Dans ce type de système, la terminologie, dans une acception extensive du mot,
occupe également une place centrale. D'une part, celle-ci peut être extraite des
passages traduits, alignée avec les termes du texte source, et constituer ainsi une
ressource bilingue utilisable ultérieurement. D'autre part, l'alignement, c'est-à-dire la
mise en correspondance de deux textes ou plus, peut également être effectué non
plus seulement sur les termes mais sur des éléments plus importants comme des
syntagmes, des phrases ou même des paragraphes. Ainsi, la base de données
contient des passages plus importants que les seules unités lexicales.

4. EXTRACTION AUTOMATIQUE

L'extraction automatique de termes est un processus qui n'est pas une fin en soi
mais qui est déterminé par l'usage qui sera fait de la terminologie obtenue. Un outil

2. Voir [Boitet, 2000] pour une présentation de l'état de l'art et des perspectives.

28
Terminologie, ingénierie linguistique et gestion de l'information

d'extraction automatique ou semi-automatique est un logiciel qui sélectionne, et la


plupart du temps ordonne, un ensemble de termes à partir d'un corpus textuel
d'entrée. Le résultat du processus est ainsi une liste de termes qui, en fonction des
logiciels, est plus ou moins finalisée. Il peut s'agir d'une liste de formes fléchies ou
de formes lemmatisées avec leurs étiquettes morphologiques, de termes ou
d'expressions avec des informations complémentaires comme la fréquence d'apparition ou
l'emplacement dans le texte.
Comme le souligne Muriel Amar (voir [Amar, 2001]), l'évaluation des logiciels
d'acquisition automatique de terminologie doit s'effectuer en fonction de l'usage qui
sera fait de la liste de termes obtenue. On peut ainsi considérer trois champs
applicatifs différents des extracteurs de termes. Pour l'indexation de documents textuels,
l'extraction permet d'assigner automatiquement des termes d'indexation à un texte
pour en faciliter la recherche ultérieure. Les unités lexicales extraites représentent les
« concepts » spécifiques à un document et sont proposées comme des « candidats-
descripteurs » pour les documents à indexer. On se référera à [Amar, 2000] pour une
discussion détaillée sur les fondements théoriques et notamment linguistiques de
l'indexation.
Pour la traduction, les termes sont extraits du texte source et du texte cible et
constituent un dictionnaire ou une terminologie. Les unités lexicales représentent
des concepts n'ayant pas d'équivalents connus dans la ou les langues cibles. Certains
logiciels sont des outils d'aide à la création de dictionnaires ou terminologies bi- ou
multilingues. L'extraction de termes ou de syntagmes peut en effet s'effectuer après
alignement3 des textes et mise en correspondance des unités lexicales.
Enfin, les termes obtenus en sortie du processus d'extraction peuvent constituer
des entrées d'un dictionnaire ou d'une terminologie d'un domaine4. Une variante de
cet usage d'acquisition terminologique consiste à faciliter la création de thésaurus.
Dans ce cas, les unités lexicales représentent les concepts d'un domaine auquel
appartiennent les textes dont elles sont issues. Un lexique spécialisé, monolingue ou
multilingue, permet donc d'améliorer les performances des systèmes de recherche
d'informations mais l'utilisation d'un tel lexique est confrontée au problème central
de la pénurie de ressources terminologiques. Deux facteurs essentiels expliquent
cette pénurie : d'une part, l'incomplétude des systèmes terminologiques due au cycle
trop long de construction manuelle des terminologies, et d'autre part, la
représentativité parfois douteuse du corpus à partir duquel sont extraits automatiquement les
termes. Ces deux facteurs sont décrits en détail dans [Chiao, 2002].

5. RÉSUMÉ AUTOMATIQUE

Si l'objectif général du processus de résumé automatique est simple à exprimer,


condenser le contenu informationnel d'un ou plusieurs documents5, le terme même
de résumé automatique recouvre plusieurs réalités et correspond à plusieurs approches.

3. Pour les techniques d'alignement, voir [Veronis, 2000].


4. Voir [Bourigault, 2000] pour la construction de ressources terminologiques.
5. Nous ne nous intéresserons ici qu'au document textuel car il existe également des « résu-
meurs » de séquences video.

Langages 157 29
La terminologie : nature et enjeux

Le résumé peut être de nature indicative quand il a pour fonction de servir de point
d'entrée à une lecture ultérieure plus poussée, de nature informative quand il
synthétise tout le contenu informationnel du document, ou de nature critique quand il
évalue le contenu de la source et fournit une appréciation sur la qualité du document.
De même un résumé d'auteur se distingue fortement d'un résumé de documentaliste.
En ce qui concerne le processus, l'opération de résumé ou de synthèse telle
qu'elle est généralement conçue consiste à repérer le contenu significatif d'un
document, extraire puis hiérarchiser ce contenu et enfin à générer un nouveau texte,
réduit d'un facteur donné par rapport au texte d'origine. Le processus ainsi décrit
comprend donc trois phases principales, l'analyse du texte source, la traduction du
contenu en un formalisme de représentation des connaissances, et la phase de
génération textuelle. Cette approche, extrêmement ambitieuse dans la mesure où de
nombreux problèmes linguistiques et cognitifs étaient posés, n'a pas encore permis
le développement de systèmes opérationnels.
Une seconde approche, plus pragmatique, consiste à repérer puis extraire
automatiquement les phrases les plus significatives d'un texte. On trouvera dans [Mani, 2001]
et [Minel, 2002] une présentation détaillée des principales techniques de résumé
automatique. Les techniques sont extrêmement différentes : certaines se fondent sur
l'identification de marqueurs textuels pour identifier les segments clés ainsi que la
structure argumentative du texte, d'autres s'appuient sur des calculs de fréquence de
termes, d'autres encore sur des éléments méta-textuels tels que les titres et les
intertitres. Certains travaux vont jusqu'à considérer les descripteurs présents dans l'index
comme une vue synthétique du document ([Ait El Mekki, 2002]).

6. RECHERCHE ET FILTRAGE DE DOCUMENTS TEXTUELS

Une autre application d'ingénierie linguistique où la terminologie joue un rôle


important est la recherche d'informations. Cette application permet en effet de
retrouver un ou plusieurs documents textuels en comparant selon certains critères
les termes de la requête avec les termes du documents. La requête est indexée selon
un processus identique à celui qui a permis d'indexer le corpus de documents puis
une phase d'appariement entre les deux index permet d'identifier les documents
supposés être pertinents.
Dans cette application, on peut en fait distinguer deux tâches différentes. Nous
reprenons ici la distinction établie dans le cadre des campagnes d'évaluation TREC 6
{Text REtrieval Conferences) sur les systèmes de recherche d'informations. La
recherche d'informations consiste à interroger une base de documents textuels à
partir de nombreuses requêtes, différentes les unes des autres ; c'est un contexte
d'usage similaire à celui dans lequel se trouverait l'utilisateur d'une bibliothèque de
documents électroniques. La base est stable tandis que les requêtes changent.
La tâche de filtrage (ou de routage) se définit au contraire comme une situation
de recherche dans laquelle le profil de requête est stable alors que la base de
documents change. Il s'agit plus précisément de filtrer un flux d'information entrant,

6. Http:/ /trec.nist.gov/

30
Terminologie, ingénierie linguistique et gestion de l'information

comme cela arrive dans un contexte de DSI (Diffusion sélective de l'information) ou


de veille informationnelle.
Concernant la tâche de recherche, on distinguera également trois types
d'applications. Les systèmes de recherche monolingue, les systèmes de recherche interlingue
et les systèmes de recherche en question/réponse. Les systèmes interlingues (cross-
language information retrieval en anglais) présentent la caractéristique d'autoriser un
utilisateur à interroger dans une langue donnée une base contenant des documents
dans d'autres langues [Oard, 1998]. Quant aux systèmes de recherche Question/
Réponse, ils visent à trouver la réponse précise à une question donnée et non pas à
présenter à l'usager un ensemble de documents jugés pertinents 7.
Afin de calculer la pertinence d'un document par rapport à une requête, les
systèmes utilisent différents modèles qui se fondent sur l'analyse des termes du
document. Ainsi, on citera sans exhaustivité le modèle booléen pondéré qui permet
d'affecter des poids aux termes du document et éventuellement aux termes de la
requête afin de classer les documents retrouvés par ordre de pertinence. Le modèle
vectoriel se fonde également sur les mots du document mais pour le représenter
sous forme d'un vecteur qui comporte autant de composants qu'il y a de mots
significatifs dans le document. Le modèle probabiliste estime la probabilité qu'a un
document d'être pertinent pour une requête donnée. Cette probabilité peut être calculée à
partir d'un poids affecté à chaque terme en fonction de sa fréquence d'apparition.
Ces modèles sont explicités notamment dans [Baeza-Yates, 1999].
Enfin, il convient de souligner l'importance de la terminologie dans les modèles
linguistiques de recherche d'information. Les différentes étapes de l'analyse utilisent
des ressources terminologiques. Au niveau morpho-syntaxique, l'analyse utilise des
dictionnaires de lemmes ou de formes fléchies pour attribuer des étiquettes aux mots
et au niveau sémantique, les terminologies de domaines, d'entreprises et de métiers
permettent d'effectuer la recherche ou le filtrage en enlevant par exemple les
ambiguïtés dues aux emplois polysémiques des termes. L'emploi de dictionnaires
sémantiques, de graphes ou de réseaux conceptuels permet également de travailler non
plus au niveau des marques de surface de l'énoncé mais au niveau des notions. Cette
abstraction est certes coûteuse en terme d'effort de modélisation linguistique mais
peut être utilisée dans différentes applications et en contexte multilingue.

7. CLASSIFICATION AUTOMATIQUE DE DOCUMENTS

Une autre application de la terminologie dans le domaine de l'analyse textuelle


est la classification automatique de documents. La classification est un processus qui
permet d'assigner automatiquement un document ou un flux entrant d'informations
textuelles dans un plan de classement pré-existant et souvent construit
manuellement. Cette définition de la classification se fonde sur une tradition déjà ancienne de
la documentation. Les classifications, telles que la Classification Décimale Universelle
proposée par M. Dewey (1851-1931) ou la Classification par facettes proposée par
S. R. Ranganathan dans les années 30 sont en effet depuis longtemps utilisées en
bibliothéconomie et en documentation.

7. Des requêtes aux questions : nouvelle perspective pour la recherche d'information, Journée
d'étude organisée par l' ATALA, 17 mai 2003, http://www.atala.org/je/je-030517.html

Langages 157 31
La terminologie : nature et enjeux

Dans le cas de la classification de documents, il s'agit donc de « ranger » les


documents selon un plan de classement préalable à partir de l'analyse du contenu textuel.
Ce processus est principalement fondé sur une identification automatique des
termes du document. Cette approche présuppose l'existence d'un modèle conceptuel
d'organisation rationnelle du monde qui se formalise dans des classes. Ce modèle
peut s'exprimer à travers différents outils comme les thésaurus, les réseaux
sémantiques, les ontologies et plus récemment les approches connues sous le nom de Web
sémantique et Topic Maps. La caractéristique commune de ces outils est de procéder
selon une approche deductive ou top down, c'est-à-dire que les classes sont «
projetées » sur les documents.
Dans le monde de l'internet, le projet Open Directory 8 est un exemple de
démarche consistant à ordonner les sites en fonction de classes pré-définies
(actuellement 3,8 millions de sites classés en 460 000 classes). Le classement est manuel mais
cette approche a été reprise, en l'automatisant, dans certains outils de recherche sur
internet, notamment dans le logiciel Exalead9 à ses débuts.

8. CATÉGORISATION AUTOMATIQUE

Inversement, le processus de catégorisation construit automatiquement des


agrégats de termes ou de concepts (clusters) issus d'un texte ou d'un flux d'information.
Cette approche inductive ou bottom up correspond à une tradition épistémologique
de l'organisation des connaissances opposée à la classification. Elle refuse
l'hypothèse en effet qu'il est possible d'organiser rationnellement les objets de connaissance
a priori et part des occurrences lexicales ou des segments significatifs du discours
pour tenter d'organiser les documents.
La construction automatique d'agrégats donne lieu à des représentations
diverses. Une représentation fréquente des clusters se fait en particulier sous forme
d'une visualisation 2D dont l'objectif est d'aider à appréhender rapidement un
volume d'informations textuelles. Différents logiciels comme Grimmer Soft10, Human-
links Organization n ou Tropes 12 proposent de cartographier automatiquement des
documents textuels à partir de la construction d'agrégats.
Cette technique est également utilisée pour visualiser les résultats d'une
recherche d'informations sur Internet. Par exemple, la société Kartoo 13 propose un
méta-moteur de recherche dont l'interface propose une visualisation des résultats. La
figure 2 donne un exemple d'affichage à l'écran à partir d'une requête portant sur la
terminologie.

8. Http:/ /dmoz.org/about.html
9. Http: //www.exalead.com
10. Http: //www.grimmersoft.com/
11. Http: //www.amoweba.com/
12. Http: //www.acetic.fr/
13. Http: //www.kartoo.com/

32
Terminologie, ingénierie linguistique et gestion de l'information

шив

Figure 2 : Copie d'écran de Kartoo

9. NAVIGATION HYPERTEXTUELLE

Nous mentionnerons enfin une dernière application qui se fonde sur une
utilisation de la terminologie des documents. Il s'agit de la navigation hypertextuelle qui
permet de naviguer dans de grandes volumes de données textuelles en passant d'un
terme (unité lexicale) à un autre, soit par des liens fixes, soit par des liens générés
automatiquement. La construction des liens se fait en utilisant des indicateurs de
similarité ou en recourant à des terminologies, ontologies, graphes conceptuels. . .
Dans le cas d'une navigation par des liens fixes, le graphe du parcours est
déterminé par les concepteurs du document ou du produit d'information. C'est le cas par
exemple des sites web dont le parcours est déterminé par les URL et de la plupart
des produits hypermedias comme les encyclopédies sur cédéroms. Les liens relient
des « granules » d'information entre elles et s'appuient fréquemment sur les unités
lexicales du document.

CONCLUSION

Les exemples d'applications en ingénierie linguistique présentés dans cet article


montrent à quel point la terminologie est omniprésente dans le domaine du
traitement informatique des langues (TIL). Ces exemples montrent également que la
terminologie, dans une acception large de cette notion prise comme un ensemble

Langages 157 33
La terminologie : nature et enjeux

organisé ou à organiser de termes, est en étroit rapport avec différentes technologies


de traitement des langues naturelles. Nous avons pu constater qu'au-delà des seuls
modèles linguistiques, d'autres modèles booléens, statistiques, probabilistes
notamment, s'appuient, du moins en partie, sur la terminologie présente dans les
documents pour fonctionner.
Cette question de la centralité de la terminologie dans le TIL nous conduit à nous
interroger sur la question de la standardisation et de la normalisation 14 pour assurer
la réutilisabilité des ressources. En effet, l'un des enjeux du développement des
applications utilisant des technologies de TIL est la capacité à réutiliser les ressources
linguistiques en général mais terminologiques en particulier afin de diminuer le coût
de réalisation des applications. C'est pourquoi les travaux effectués dans le cadre du
comité ISO-CEI TC37 sont fondamentaux. En France, les travaux du groupe miroir
français du TC 37 SC4 visent en particulier les schémas de représentation pour les
ressources linguistiques et la mise au point d'interfaces d'entrées /sorties pour les
outils linguistiques.
Un autre problème concerne la question des droits d'utilisation des ressources
linguistiques. En effet, alors que ces ressources conditionnent le développement et
l'évaluation des outils logiciels, leur disponibilité est extrêmement réduite. Le peu
d'attention portée aux questions réglementaires lors de la création des ressources, la
multiplicité des ayants-droits, la difficulté à définir le statut juridique exact de
nombreuses ressources entravent leur diffusion. C'est en particulier pour résoudre
ces questions que le LDC15 {Linguistic Data Consortium) aux États-Unis et ELRA16
{European Language Ressources Association) en Europe ont été créés. Ces organismes
ont en effet pour mission d'identifier les ressources disponibles, d'aider à leur
constitution et de les diffuser après avoir clarifié les problèmes de nature juridique.

14. Voir [Bonhomme, 2000] pour le codage et la normalisation de ressources textuelles.


15. Http:/ /www.ldc.upenn.edu/
16. Http:/ /www.elra.info/

34
Terminologie, ingénierie linguistique et gestion de l'information

Bibliographie
Ait El Mekki Touria, Nazarenko Adeline, « L'index, une représentation synthétique de
document », in Actes de la Journée d'étude Le résumé automatique : solutions et
perspectives organisée par l'ATALA, 14 décembre 2002, http://www.atala.org/je/je-
021214.html
Amar Muriel, David Sophie, Évaluation de logiciels d'extraction dans les champs de
l'indexation, la traduction et la terminologie, Rapport établi dans le cadre de l'ARC A3,
Agence Universitaire de la Francophonie, avril 2001.
Amar Muriel, Les Fondements théoriques de l'indexation : une approche linguistique, Paris,
ADNS Éditions, 2000.
Baeza-Yates Ricardo, Ribeiro-Neto Berthier, Modem Information Retrieval, New York, Addison
Wesley, 1999.
Boitet Christian, « Traduction assistée par ordinateur », in Ingénierie des langues (sous la
dir. de J.-M. Pierrel), Paris, Hermès, 2000, pp. 271-291.
Bonhomme Patrice, « Codage et normalisation de ressources textuelles », in Ingénierie des
langues (sous la dir. de J.-M. Pierrel), Paris, Hermès, 2000, pp. 173-191.
Bourigault Didier, Jacquemin Christian, « Construction de ressources terminologiques », in
Ingénierie des langues (sous la dir. de J.-M. Pierrel), Paris, Hermès, 2000, pp. 215-233.
Brun Caroline, Dymetman Marc, « Rédaction multilingue assistée dans le modèle MDA », in
Multilinguisme et traitement de l'information (sous la dir. de F. Segond), Paris, Hermès,
2002, pp. 129-152.
Chiao Yun-Chuang, Sta Jean-David, « Accès à l'information multilingue et terminologie », in
Multilinguisme et traitement de l'information (sous la dir. de F. Segond), Paris, Hermès,
2002, pp. 111-127.
Ghiglione Rodolphe, Landre Agnès et ai, L'Analyse automatique des contenus, Paris,
Dunod, 1998.
Jackson Peter, Moulinier Isabelle, Natural Language Processing for Online Applications: Text
Retrieval, Extraction and Categorization, Amsterdam, John Benjamins Publishing
Company, 2002.
Lefevre Philippe, La recherche d'informations : du texte intégral au thésaurus, Paris,
Hermès, 2000.
Mani Inderjeet, Automatic Summarization, Amsterdam, John Benjamins Publishing Company,
2001.
Minel Jean-Luc, Filtrage sémantique : Du résumé automatique à la fouille de textes, Paris,
Hermès, 2002.
Oard Douglas, Diekema Anne, « Cross-Language Information Retrieval », in Annual Review of
Information Science and Technology, 1998, vol. 33 (M. Williams Ed.), Medford,
Information Today Inc., pp. 223-256.
Régnier Sylvie, Dauphin Eva, « Aide à la production de documentation technique multilingue »,
Multilinguisme et traitement de l'information (sous la dir. de F. Segond), Paris, Hermès,
2002, pp. 153-180.
Veronis Jean, « Alignement de corpus multilingues », in Ingénierie des langues (sous la dir.
de J.-M. Pierrel), Paris, Hermès, 2000, pp. 151-171.

Langages 157 35

Vous aimerez peut-être aussi