Vous êtes sur la page 1sur 8

GESTION DU CORPUS DANS LA RECHERCHE TERMINOLOGIQUE

Lector univ. dr. Mihaela POPESCU Universitatea Transilvania, Braov

Rsum Larticle propose une description des corpus en tant que reprsentations de connaissances. Les caractristiques, les types de corpus, les critres de slection des textes dun ensemble de textes sont les lments censs cl aboutir une possible gestion du corpus en terminologie tout en partant de lide que la saisie des relations entre les concepts et les termes, ainsi que les relations morpho-syntaxiques et paradigmatiques conduit une gestion efficace des textes du corpus dans la recherche terminologique dans une ou plusieurs langues.

La reprsentation des connaissances sous la forme de liste de termes relis par des relations est ancienne et courante. Nous vivons dans un environnement o les taxinomies utilises dans les sciences naturelles au cours du XVII-me et XVIII-me sicles, ainsi que la classification universelle de Dewey (1876), les rseaux smantiques de Quillian (1968) ou les ontologies de lingnierie des connaissances (Gruber, 1993) sont autant de modes de reprsentation qui mettent laccent sur lutilisation dlments lexicaux pour modeler la connaissance. Ces reprsentations sont soit employes dans des systmes informatiques, soit constituent la base de langages de reprsentations (les graphes conceptuels), soit sont des logiques terminologiques. Les reprsentations sont fondes sur des systmes relationnels. La structuration dun rseau conceptuel partir des termes relve dune interprtation, dune normalisation (Bachimont, 2000). Dans ces conditions, nous avons besoin des textes, runis dans un corpus partir desquels nous devons construire les ressources terminologiques ou ontologiques. Ce mode de reprsentation de la connaissance est important dans le cas des textes spcialiss, dune part, et de profiter du potentiel de linformatique, dautre part. Il sensuit quil faut sinterroger sur les liens entre des discours et des lments lexicaux en utilisant les seconds pour arriver aux premiers. La question est celle de savoir comment grer et contrler linformation dun corpus, tape principale dans la recherche terminologique, qui constitue la base de lextraction des termes et des structures prtes ensuite tre traites automatiquement dans une ou plusieurs langues. Le dveloppement de linformatique a contribu lacclration dans la rflexion sur la terminologie. Linformatisation des textes, le dveloppement des outils pour les interroger, dune part, la demande de la part de(s) entreprise(s), dautre part, ont men une rflexion 811

diffrente sur le(s) texte(s) spcialiss. Dj en 1990, informaticiens et linguistes se sont runis (la frontire entre les sciences exactes et celles humaniste est franchie et une nouvelle approche sur interdisciplinarit commence voir le jour) pour interroger les modes de prise en compte de textes dans la construction de terminologies. Cette rencontre a men la dfinition du concept de base de connaissances terminologiques (BCT), structure de reprsentation qui associe un rseau de concepts des termes et des textes justifiant lorganisation du rseau (Meyer et al., 1992). Linformatisation des textes, le dveloppement et lenvergure de lInternet, ont pour les sciences de linformation un effet important. La premire nous aide accder des donnes existant sous forme matrielle, le second a introduit la notion de commerce dans le domaine qui tait plutt considr comme un travail intellectuel. partir des annes 1990, les documentalistes et les terminologues ont t confronts aux questions riges par les effets de linformatisation des textes du traitement automatique des langues et de la reprsentation informatique des connaissances. Linformatique sest approche des disciplines comme la terminologie, et les tensions sont ressenties par les deux. Il est ncessaire de normaliser pour favoriser les changes dans une langue ou entre les langues. Toutefois, normaliser signifie imposer une vision du monde. Un point dquilibre doit tre trouv entre les deux disciplines, puisquelles ont un mode de reprsentation commun : des concepts relis par des relations qui mnent la construction dun systme. Pour entreprendre une recherche terminologique, le terminologue runit un ensemble de textes reprsentatifs du domaine tudi. Le corpus est lensemble constitu par ces textes. Un tel ensemble doit rpondre aux conditions suivantes pour former un corpus (LHomme, 2004) : il constitue un ensemble de donnes linguistiques (des mots, des phrases, des morphmes etc.); les donnes linguistiques doivent apparatre dans un environnement naturel (des mots combins dans des phrases, les phrases agences dans des textes etc.); le corpus diffre des dictionnaires dans le sens que ceux-ci sont le rsultat danalyse faite par des spcialistes et refltent un choix fait par eux; la slection des textes doit reposer sur des critres explicites et permettra un tiers dinterprter les gnralisations faites partir du corpus; lensemble des textes est reprsentatif et doit tre assembl en fonction de llment tudier, comporter un nombre suffisamment lev doccurrences de cet lment. 812

De nos jours, certaine entreprises, concernes par le traitement automatique des langues (TAL), ont confectionn des corpus dont certains atteignent une taille impressionnante. Certains dentre eux peuvent tre acquis, dautres sont interrogeables par lintermdiaire dune interface Web. Les corpus sont utiliss dans diffrentes communauts professionnelles, techniques et scientifiques. Chacun (littraires, linguistes, terminologues, lexicologues et linguistes informaticiens) sen sert pour obtenir les segments de textes correspondant un thme. Il existe aujourdhui une volont de mieux dfinir et dunifier les mthodologies de compilations de corpus pour lobservation de donnes linguistiques contribuant la linguistique du corpus. Pourtant, chaque projet terminologique entrane la confection dun nouveau corpus, mme si on peut rcuprer une partie des textes ayant servi un projet antrieur. En plus, les corpus de grande taille construits par les lexicologues contiennent des textes spcialiss, mais leur caractrisation nest par assez raffine pour tre utile au terminologues. La valeur dune recherche terminologique est directement fonction de la qualit de la documentation qui la fonde (Dubuc, 2002). Le corpus doit constituer un ensemble reprsentatif de donnes linguistiques observables dans leur environnement naturel. En effet, toute la recherche terminologique sorganise partir dun corpus. La slection rigoureuse des textes est garantie de la qualit de la recherche et il convient de passer un temps structurer un corpus spcialis. En premier lieu, il faut slectionner des textes spcialiss qui portent sur le domaine et qui contient les termes spcifiques. Les textes contenus dans le corpus doivent rpondre certains critres. Ils ont t dfinis par Marie-Claude LHomme dans La terminologie : principes et techniques et nous les reprendront tel quels : - Domaine de spcialit les textes choisis doivent reflter le mieux possible le domaine ou le sous-domaine dlimit au moment de la dfinition; Langue(s) la slection sera faite dans chacune des langues constituant lobjet de la description; Langue de rdaction les textes du corpus ne doivent pas tre des traductions, sinon, les traductions choisies doivent reflter lusage rel dans le domaine; Niveau de spcialisation il est dfini en fonction de lauteur du texte et des destinataires. Pearson (1998) a identifi les niveaux suivants : a) expert expert (article dans une revue scientifique); b) expert un expert dans un domaine connexe; c) didactique (texte sadressant des spcialistes en devenir; d) 813

vulgarisation (texte crit par un expert ou un non-expert qui sadresse une personne ne possdant pas a priori les connaissances contenus dans le texte). Type de document la forme de la publication est un reflet du niveau de spcialisation; on distingue des types de documents comme : manuel pdagogique, norme, catalogue, monographie, article scientifique, guide dutilisation, rapport, actes et dautres. Suppport la recherche terminologique sappuie sur des textes crits, dautant plus dans un contexte ou lon fait appel a des traitements automatiques; Date de parution les textes plus rcents sont privilgis; Donnes valuatives il existe des critres de nature valuative, comme la renomme de lauteur ou de la publication ou de la maison ddition. Nous pouvons constater que la slection des textes repose sur des critres rigoureux, nanmoins, la taille et lquilibre du corpus ne doivent pas tre ngligs. Les textes doivent contenir vraisemblablement les termes qui intressent les terminologues ainsi que des renseignements sur ces termes. Comme le texte spcialis porte sur un sujet cibl, alors, il fait appel un nombre limit de termes. Le corpus est quilibr lorsquil assure une certaine reprsentativit. Pearson (1998) affirme que les types de textes qui offrent la meilleure explication des termes et les relations entre eux sont les textes qui assurent une communication de lexpert au spcialiste en devenir (novice), contrairement la communication du type expert-expert o linformation peut rester implicite. La communication de lexpert envers son disciple tente de fournir toutes les notions pour une meilleure comprhension. Les textes crits destins la communication de linformation contiendront un grand nombre de relations smantiques entre les concepts (synonymie, hyperonymie, mtonymie), relations exprimes dune manire explicite. Il existe aussi des corpus qui runissent des textes en deux ou plusieurs langues, en dautres termes, des corpus bilingues ou multilingues conus pour des besoins de traduction. Ces corpus permettent aux terminologues de retrouver plus rapidement les correspondances interlinguistiques et font lobjet de traitements automatiques de langue spcifiques (TAL). Les corpus multilingues peuvent tre des corpus aligns et des corpus comparables. Les premiers runissent des textes de plusieurs langues dont une partie constitue la traduction de lautre. Leur ralisation repose sur ltablissement de correspondances entre les composantes formelles des textes. Les segments choisis sont aligns, lun ct de lautre pour faciliter la consultation. La figure suivante montre comment deux courts textes sont aligns. 814

A term is the designation of a defined concept in a special language by a linguistic expression; it may consist of one or more words (i.e. simple term or complex term), or even may contain symbols. A word is the smallest linguistic unit conveying a specific meaning and capable of existing as a separate unit in a sentence; in a written text, it is marked off by spaces or punctuation marks before and after; affixes and endings are not words. (The simple term "vehicle" has one word; the complex term "police vehicle" has two words. After an unsatisfactory "term" search, a "word" search activates the search for a word and its otherlanguage equivalent that might not be located at the beginning of a term but rather somewhere inside a complex term.)

Un terme est la dsignation au moyen d'une entit linguistique d'une notion dfinie dans une langue de spcialit; il peut tre constitu d'un ou de plusieurs mots (terme simple ou terme complexe) et mme de symboles. Un mot est la plus petite unit signifiante qui peut exister de faon autonome dans une phrase; dans un texte crit, il est dlimit par des blancs ou par des signes de ponctuation; les affixes et les dsinences ne sont pas des mots. (Le terme simple vhicule n'a qu'un mot; le terme complexe vhicule de police a trois mots. Aprs qu'une recherche par terme n'ait pu donner satisfaction, la recherche par mot peut offrir un mot et son quivalent dans l'autre langue qui pourrait se trouver non pas au dbut, mais l'intrieur d'un terme complexe.)

Les corpus aligns peuvent tre produits automatiquement grce des programmes nomms aligneurs. Ceux-ci sappuient sur les frontires de la phrase (le point, le point dinterrogation et les retours) ou sur des lments formels (les limites des paragraphes ou la numrotation des sections). Lalignement porte sur un seul couple de langues et donne lieu un bitexte. Les corpus comparables sont composs de deux ensembles de textes qui possdent des caractristiques communes. Ils peuvent appartenir une seule langue, mais ceux en plusieurs langues sont plus utiles surtout pour les traducteurs. Ils se distinguent des corpus aligns car les textes qui les composent ne constituent pas de traductions, ni dans la premire ni dans la seconde langue. La parent des textes dans ce type de corpus est dfinie en fonction des critres diffrents : le mme niveau de langue, la mme tranche chronologique, la thmatique aborde, savoir le domaine de spcialit ou la subdivision dun domaine gnrique. En vertu de la thmatique commune, les textes doivent prsenter un nombre trs lev de similitudes. Les textes peuvent faire lobjet dun enrichissement avant dtre interrogs ou exploits par dautres formes de traitement automatique. Une technique couramment utilise est ltiquetage, qui consiste attacher une chane de caractres dans un texte, un renseignement de nature linguistique. Cette technique est trs utile puisque les mots graphiques peuvent revtir plusieurs sens et parfois joue le rle de plus dune partie de 815

discours. Dans ce cas, lambigut doit tre enleve mais, pour linformaticien, cette tche nest pas des plus faciles. On marque alors le nom [N], le verbe [VB], ladjectif ou participe pass [ADJ.], prposition [prep], dterminant du groupe nominal [DET], relatif [REL] ou dautres tiquettes peuvent y tre ajoute. La forme dtiquetage la plus courante est ltiquetage morpho-syntaxique. On voit apparatre dautres techniques qui essaient de dcrire une partie de la structure syntaxique dune phrase ou qui attachent de linformation smantique aux mots. La vision de la terminologie est par essence normalisatrice. Elle part de lide que la langue dans le domaine spcialis peut tre un moyen de communication perfectible, do la ncessit de normaliser pour viter les crations individuelles menant souvent de mauvaises comprhensions. Cette approche favorise les changes entre industrie dans une mme langue ou dans diffrentes langues. La construction des terminologies se fait par linterrogation des experts, censs dresser les listes de concepts et de termes dans leur domaine de comptence. Lutilisation des corpus est un moyen daccder aux connaissances dun domaine en complment ou la place de lexpertise humaine. Lutilisation des textes du corpus comme sources de connaissances a pris un grand essor partir du dbut de ce millnaire. Les avantages de cette approche sont les suivants : une automatisation partielle (le traitement automatique des langues), une rduction des cots, le renouvellement des hypothses sur le statut des concepts et de leurs liens avec les termes. Cet usage des termes abandonne la vue normative et constructiviste des concepts, mais prend en compte des usages et des points de vue pour normaliser les concepts et les formaliser en fonction dun objectif spcifique. Grce aux applications pour le web, les effets techniques et conomiques se multiplient. Les architecture du web smantique fait appel des ontologies qui doivent fournir des reprsentations partags par des actants logiciels, des mta-donnes pour annoter ou indexer des documents et assure la mise disposition des connaissances consensuelles. Les ontologies ont t dfinies pour mieux rutiliser les connaissances du domaine, de les grer sparment et de faciliter lchange des connaissances. Pour communiquer, affirmait Gruber, ces systmes requirent des reprsentations du monde compatibles et cohrentes, la recherche dinvariants dans un domaine, dune description gnrique des connaissances. Lontologie est dfinie comme une spcification normalise reprsentant des classes des objets reconnus comme existant dans un domaine et soccupe des concepts, de leur dfinition par le biais des relations smantiques et de leur pertinence pour la restitution des rsultats aux utilisateurs. En prcisant les ontologies, les concepts renvoient aux connaissances exprimes travers le langage et doivent tre dfinis en tenant compte des termes du domaine et de leur smantique. 816

Le Traitement Automatique des Langues (TAL) est form de logiciels qui peuvent produire des terminologies. Un logiciel de telle sorte nest pas un rvlateur de la smantique des textes, au contraire, il est un moyen dautomatiser les recherches cibles qui contribuent reconstruire une smantique. Le corpus est la fois lobjet sur lequel portent les traitements automatiques, la justification de leur pertinence et la source dinformation qui contribuent les interprter et exploiter. Les logiciels de TAL peuvent accomplir les tches suivantes : Acquisition des termes. Ils permettent lextraction partir du corpus analys des termes candidats, en dautres termes, des mots ou groupes de mots susceptibles dtre retenus comme termes et de fournir des tiquettes de concepts. Les types de techniques mise en uvre sont soit morpho-syntaxiques, soit statistiques, soit dune autre nature. Structuration de termes et regroupement conceptuel. Les outils de classification automatique de termes et les outils de reprage de relations se trouvent dans cette catgorie. La classification des termes est une mthode capable didentifier les concepts ou lassociation de termes des classes. Le reprage de relations smantiques permet la mise en relation des concepts. Les structures hirarchiques sont les plus frquemment rencontres. Nous ne pouvons pas conclure notre brve caractrisation du corpus sans nous arrter sur le concept de Knowledge-Rich Contexts (KRC), Contextes riches en connaissances, concept introduit par Meyer et al (1998), fort important pour les terminologues, car ce type de contextes contient des termes dans un domaine spcialis ainsi que des modles (patterns) de connaissances. Cette relation entre le modle de connaissance et les termes est dun grand support pour la comprhension et ltablissement des relations conceptuelles dans lesquelles les termes apparaissent. Les textes sont considrs de bons textes lorsquils sont riches en relations smantiques, surtout en relations paradigmatiques. La richesse des textes sera dautant plus grande si les modles de connaissances apparaissent dans des contextes smantiques simples et relevants pour le domaine. En guise de conclusion, nous pouvons affirmer que la gestion du corpus dans la recherche terminologique a une dimension interdisciplinaire. Lvolution trop rapide des contextes modifie les besoins et les usages langagiers. Toute gestion de corpus, soit-elle automatique et ralise par des logiciels performants, fait appel une interprtation humaine, autrement, toute dmarche terminologique tombera dans le pige de lutilisation massive du web qui conduit sinterroger sur les possibilits de contrler les textes. 817

Bibliographie BACHIMONT, B., Engagement smantique et engagement ontologique : conception et ralisation dontologie en ingnierie des connaissances. volution rcente et nouveaux dfis, Eyrolles, Paris, 2000. CABR, M. T., La terminologie. Thorie, mthode et application, Armand Colin, Paris, Les Presses de lUniversit dOttawa, 1998. DUBUC, R., Manuel pratique de terminologie, 4me ditions, Linguatech, Montral, 2002. GRUBER, T. R., A translation approach to portable ontology specification in Knowledge Acquisition, 5, 1993. LHOMME, M.-C., La terminologie : principes et techniques, Les Presses de lUniversit de Montral, Montral, 2004. QUILLIAN R., MINKI, M. (ed), Semantic memory, in Semantic Information Processing, Cambridge, Mass. M. I. T. Press, 1968. MEYER, T., DOUGLAS, S., BOWER, L., ECK, K., Towards a new generation of terminological knowledge base. Proceedings 16th International Conference on

Computational Linguistics, COLING, Nantes, 1992. PEARSON, J., Terms in Context, John Benjamins, Amsterdam/Philadelphia, 1998.

818