Académique Documents
Professionnel Documents
Culture Documents
Abstract
Stéphane Chaudiron : Terminologie, ingénierie linguistique et gestion de l'information.
Terminology science is part of the broader field of language processing. Terminology is involved in several key domains of the
new industries issued from researches on data processing applied to languages. Knowledge engineering, data mining, search
engines are in some aspects dependant on terminology science.
Chaudiron Stéphane. Terminologie, ingénierie linguistique et gestion de l'information. In: Langages, 39ᵉ année, n°157, 2005.
La terminologie : nature et enjeux. pp. 25-35;
doi : https://doi.org/10.3406/lgge.2005.972
https://www.persee.fr/doc/lgge_0458-726x_2005_num_39_157_972
et gestion de l'information
1. INTRODUCTION
Langages 157 25
La terminologie : nature et enjeux
Dans cet article, nous nous attacherons à expliciter ce double rôle, central, de la
terminologie dans les outils de traitement linguistique de l'information en présentant
plusieurs exemples. Il ne s'agit pas de dresser un panorama exhaustif de toutes les
applications mais de préciser, à travers quelques exemples significatifs, l'apport de la
terminologie au traitement informatique des langues.
Outils d'ingénierie
linguistique
En tant que corpus délimitant des univers informationnels, les terminologies sont
des outils de description de champs de connaissance au même titre que les
nomenclatures, les thésaurus ou les ontologies. À ce titre, elles interviennent dans différents
processus de gestion de l'information comme le Knowledge Management, la veille
stratégique, l'intelligence économique, la valorisation de la mémoire d'entreprise ou la
gestion du patrimoine informationnel de l'entreprise.
La figure 1 visualise le double rapport qu'entretient la terminologie avec
l'ingénierie linguistique. Dans de nombreuses applications (la traduction, l'analyse de
contenu, le résumé, la recherche et le filtrage d'informations notamment), la
terminologie est utilisée comme une ressource linguistique nécessaire au fonctionnement des
applications de traitement automatique des langues (TAL). Dans d'autres
applications, les terminologies sont à l'inverse des résultats produits par les outils d'ingénierie
linguistique et, plus largement, des applications de traitement informatique des
26
Terminologie, ingénierie linguistique et gestion de l'information
langues. Dans ce cas, elles sont construites à partir de grands volumes de données
textuelles afin de produire des listes de termes qui permettront ensuite d'élaborer des
dictionnaires, des terminologies, des thésaurus. . .
Langages 157 27
La terminologie : nature et enjeux
ainsi mentionner les travaux de Sylvie Régnier et Eva Dauphin du Centre commun
de recherche de EADS (voir [Régnier, 2002]) pour la présentation d'approches et
d'outils d'aide à la rédaction visant à standardiser la production de documents
techniques en contexte multilingue.
Dans un autre domaine, celui de la pharmacie, Caroline Brun et Marc Dymetman
du Centre de recherche européen de Xerox proposent une approche dénommée
Multilingual Document Authoring, qui permet à un expert humain de spécifier interac-
tivement et pas à pas le contenu d'un document à l'aide de choix successifs dans des
menus (voir [Brun, 2002]).
Un second contexte d'usage, celui de la veille stratégique, tire bénéfice de la
traduction entièrement automatisée. En effet, dans un contexte de recherche
d'information récurrente où le volume d'information traité est inexploitable manuellement,
le recours à de tels outils linguistiques permet d'effectuer une première traduction
« de bas niveau » avant de recourir, si nécessaire, à une traduction plus fine. Le
processus de traduction peut alors être comparé à un processus d'identification de
l'information pertinente.
4. EXTRACTION AUTOMATIQUE
L'extraction automatique de termes est un processus qui n'est pas une fin en soi
mais qui est déterminé par l'usage qui sera fait de la terminologie obtenue. Un outil
2. Voir [Boitet, 2000] pour une présentation de l'état de l'art et des perspectives.
28
Terminologie, ingénierie linguistique et gestion de l'information
5. RÉSUMÉ AUTOMATIQUE
Langages 157 29
La terminologie : nature et enjeux
Le résumé peut être de nature indicative quand il a pour fonction de servir de point
d'entrée à une lecture ultérieure plus poussée, de nature informative quand il
synthétise tout le contenu informationnel du document, ou de nature critique quand il
évalue le contenu de la source et fournit une appréciation sur la qualité du document.
De même un résumé d'auteur se distingue fortement d'un résumé de documentaliste.
En ce qui concerne le processus, l'opération de résumé ou de synthèse telle
qu'elle est généralement conçue consiste à repérer le contenu significatif d'un
document, extraire puis hiérarchiser ce contenu et enfin à générer un nouveau texte,
réduit d'un facteur donné par rapport au texte d'origine. Le processus ainsi décrit
comprend donc trois phases principales, l'analyse du texte source, la traduction du
contenu en un formalisme de représentation des connaissances, et la phase de
génération textuelle. Cette approche, extrêmement ambitieuse dans la mesure où de
nombreux problèmes linguistiques et cognitifs étaient posés, n'a pas encore permis
le développement de systèmes opérationnels.
Une seconde approche, plus pragmatique, consiste à repérer puis extraire
automatiquement les phrases les plus significatives d'un texte. On trouvera dans [Mani, 2001]
et [Minel, 2002] une présentation détaillée des principales techniques de résumé
automatique. Les techniques sont extrêmement différentes : certaines se fondent sur
l'identification de marqueurs textuels pour identifier les segments clés ainsi que la
structure argumentative du texte, d'autres s'appuient sur des calculs de fréquence de
termes, d'autres encore sur des éléments méta-textuels tels que les titres et les
intertitres. Certains travaux vont jusqu'à considérer les descripteurs présents dans l'index
comme une vue synthétique du document ([Ait El Mekki, 2002]).
6. Http:/ /trec.nist.gov/
30
Terminologie, ingénierie linguistique et gestion de l'information
7. Des requêtes aux questions : nouvelle perspective pour la recherche d'information, Journée
d'étude organisée par l' ATALA, 17 mai 2003, http://www.atala.org/je/je-030517.html
Langages 157 31
La terminologie : nature et enjeux
8. CATÉGORISATION AUTOMATIQUE
8. Http:/ /dmoz.org/about.html
9. Http: //www.exalead.com
10. Http: //www.grimmersoft.com/
11. Http: //www.amoweba.com/
12. Http: //www.acetic.fr/
13. Http: //www.kartoo.com/
32
Terminologie, ingénierie linguistique et gestion de l'information
шив
9. NAVIGATION HYPERTEXTUELLE
Nous mentionnerons enfin une dernière application qui se fonde sur une
utilisation de la terminologie des documents. Il s'agit de la navigation hypertextuelle qui
permet de naviguer dans de grandes volumes de données textuelles en passant d'un
terme (unité lexicale) à un autre, soit par des liens fixes, soit par des liens générés
automatiquement. La construction des liens se fait en utilisant des indicateurs de
similarité ou en recourant à des terminologies, ontologies, graphes conceptuels. . .
Dans le cas d'une navigation par des liens fixes, le graphe du parcours est
déterminé par les concepteurs du document ou du produit d'information. C'est le cas par
exemple des sites web dont le parcours est déterminé par les URL et de la plupart
des produits hypermedias comme les encyclopédies sur cédéroms. Les liens relient
des « granules » d'information entre elles et s'appuient fréquemment sur les unités
lexicales du document.
CONCLUSION
Langages 157 33
La terminologie : nature et enjeux
34
Terminologie, ingénierie linguistique et gestion de l'information
Bibliographie
Ait El Mekki Touria, Nazarenko Adeline, « L'index, une représentation synthétique de
document », in Actes de la Journée d'étude Le résumé automatique : solutions et
perspectives organisée par l'ATALA, 14 décembre 2002, http://www.atala.org/je/je-
021214.html
Amar Muriel, David Sophie, Évaluation de logiciels d'extraction dans les champs de
l'indexation, la traduction et la terminologie, Rapport établi dans le cadre de l'ARC A3,
Agence Universitaire de la Francophonie, avril 2001.
Amar Muriel, Les Fondements théoriques de l'indexation : une approche linguistique, Paris,
ADNS Éditions, 2000.
Baeza-Yates Ricardo, Ribeiro-Neto Berthier, Modem Information Retrieval, New York, Addison
Wesley, 1999.
Boitet Christian, « Traduction assistée par ordinateur », in Ingénierie des langues (sous la
dir. de J.-M. Pierrel), Paris, Hermès, 2000, pp. 271-291.
Bonhomme Patrice, « Codage et normalisation de ressources textuelles », in Ingénierie des
langues (sous la dir. de J.-M. Pierrel), Paris, Hermès, 2000, pp. 173-191.
Bourigault Didier, Jacquemin Christian, « Construction de ressources terminologiques », in
Ingénierie des langues (sous la dir. de J.-M. Pierrel), Paris, Hermès, 2000, pp. 215-233.
Brun Caroline, Dymetman Marc, « Rédaction multilingue assistée dans le modèle MDA », in
Multilinguisme et traitement de l'information (sous la dir. de F. Segond), Paris, Hermès,
2002, pp. 129-152.
Chiao Yun-Chuang, Sta Jean-David, « Accès à l'information multilingue et terminologie », in
Multilinguisme et traitement de l'information (sous la dir. de F. Segond), Paris, Hermès,
2002, pp. 111-127.
Ghiglione Rodolphe, Landre Agnès et ai, L'Analyse automatique des contenus, Paris,
Dunod, 1998.
Jackson Peter, Moulinier Isabelle, Natural Language Processing for Online Applications: Text
Retrieval, Extraction and Categorization, Amsterdam, John Benjamins Publishing
Company, 2002.
Lefevre Philippe, La recherche d'informations : du texte intégral au thésaurus, Paris,
Hermès, 2000.
Mani Inderjeet, Automatic Summarization, Amsterdam, John Benjamins Publishing Company,
2001.
Minel Jean-Luc, Filtrage sémantique : Du résumé automatique à la fouille de textes, Paris,
Hermès, 2002.
Oard Douglas, Diekema Anne, « Cross-Language Information Retrieval », in Annual Review of
Information Science and Technology, 1998, vol. 33 (M. Williams Ed.), Medford,
Information Today Inc., pp. 223-256.
Régnier Sylvie, Dauphin Eva, « Aide à la production de documentation technique multilingue »,
Multilinguisme et traitement de l'information (sous la dir. de F. Segond), Paris, Hermès,
2002, pp. 153-180.
Veronis Jean, « Alignement de corpus multilingues », in Ingénierie des langues (sous la dir.
de J.-M. Pierrel), Paris, Hermès, 2000, pp. 151-171.
Langages 157 35