Modelelisation Domaine

Manuscrit auteur, publi dans "9e Confrence Francophone d'Ingnierie des Connaissances IC 2000, Toulouse : France (2000)"
Mo d l i s a t i o n d u d o ma i n e p a r u n e m t h o d e f o n d e s u r l ' a n al y s e d e c o r p u s
Nathalie Aussenac-Gilles(*), Brigitte Bibow (**) et Sylvie Szulman (**)
(*)IRIT, Universit Toulouse 3, 118, route de Narbonne, 31062 TOULOUSE Cedex 4, http://www.irit.fr, Nathalie.Aussenac-Gilles@irit.fr (**)LIPN, Universit Paris 13, Av. J.B Clment, 93430 VILLETANEUSE, http://www.lipn.univ-paris13.fr, {Brigitte.Biebow, Sylvie.Szulman}@lipn.univ-paris13.fr
Rsum
Les nombreux travaux actuels sur les ontologies et modles de domaines, justifis par la perspective de leur rutilisabilit, proposent trs peu de solutions aux problmes pratiques de recueil et de structuration de ces connaissances. Cet article propose une mthode de construction de modles de domaine ou d'ontologies, dont l'originalit est de se fonder sur l'analyse de corpus en utilisant ses principes linguistiques et ses logiciels de traitement automatique de la langue. Cette dmarche se veut un complment efficace et prcis aux mthodes classiques de modlisation du domaine partir d'expertises individuelles. Mots cls : Construction d'ontologies, acquisition de connaissances partir de textes, terminologie.
1 Introduction
La modlisation de connaissances du domaine d'une application a fait l'objet de nombreux travaux pendant les dix dernires annes travers les recherches sur les ontologies. Plus rcemment, ces tudes ont pris un tournant en s'orientant soit vers la rutilisation comme solution au problme de la construction de ces ontologies, soit vers l'acquisition automatique de connaissances selon des techniques d'apprentissage et de fouille de donnes, ou encore en se focalisant sur l'intgration des ontologies avec les mthodes de rsolution de problme. Toutes les difficults lies la construction de ces modles sont cependant loin d'tre rsolues. La plupart des articles faisant un point sur la conception d'ontologies rapportent les mmes points faciles [19] [29]. Les concepteurs reproduisent les erreurs classiques du dveloppement des premiers systmes experts. Ils adoptent des principes de modlisation et des dmarches spcifiques leur quipe, et manquent de repres prcis. Pire, ils ont l'habitude de passer directement des connaissances brutes leur implmentation, sans prendre le soin de construire un modle intermdiaire. De ce fait, les rsultats obtenus sont difficiles interprter et maintenir, et biaiss par le formalisme utilis. Mme s'il y en a, les propositions mthodolo-
giques concrtes sont assez rares ou alors juges caricaturales [18]. A notre connaissance, les problmes difficiles comme la slection des concepts, le choix de leurs proprits et de leurs relations, leur regroupement, l'influence de l'application dans ces choix ou encore la gestion de la masse des connaissances sont peu mentionns, alors qu'ils sont loin d'tre rsolus. Sans apporter de solution universelle et dfinitive, nous dfendons une approche diffrente reposant sur la linguistique pour aider le concepteur. Cette mthode cherche rduire plusieurs difficults en s'appuyant sur des principes novateurs, reprsentatifs du courant franais de travaux la convergence entre terminologie, linguistique, ingnierie des connaissances (IC) et intelligence artificielle. Au sein du PRC-I3 et de l'AFIA, le groupe TIA, dont les auteurs font partie, anime la communaut franaise sur ce thme. Ces principes peuvent sexprimer comme suit : - partir des textes comme sources de connaissances : ils constituent un support tangible, rassemblant des connaissances stabilises qui servent de rfrence ; leur utilisation amliore la qualit du modle final, - enrichir le modle conceptuel dune composante linguistique : laccs aux termes et textes qui justifient la dfinition des concepts garantit une meilleure comprhension du modle ; - utiliser des techniques et outils de Traitement Automatique des Langues (TAL) bass sur des travaux linguistiques : ces outils permettent l'exploitation systmatique des textes et leurs rsultats facilitent la modlisation. Dans cet article, nous exposons notre mthode de modlisation de connaissances du domaine partir de textes. Nous situons d'abord (partie 2) cette dmarche et ses caractristiques par rapport aux diffrents courants de l'ingnierie des connaissances. Nous la prsentons ensuite en insistant sur les donnes produites et les tapes mthodologiques (partie 3). Enfin, nous rapportons une exprience rcente de mise en uvre d'une partie de cette mthode dans le domaine de l'ingnierie des connaissances, en soulignant les traitements linguistiques effectus et leur apport la modlisation (partie 4).
hal-00510453, version 1 - 18 Aug 2010
2 Notre approche dans l'IC

Afin de justifier notre proposition, nous situons la place possible de l'analyse de textes dans la modlisation de connaissances. Nous prsentons ensuite quelques approches reprsentatives de diffrentes manires d'aborder la modlisation du domaine en IC.
1.1 Modlisation du domaine et cycle de vie

conceptualisation Modle Conceptuel Univers du discours implmentation formalisation Modle Formel
Pour faciliter le reprage et lanalyse des connaissances, il est habituel de distinguer dans un modle conceptuel les connaissances de rsolution de problme des connaissances du domaine. Notre approche se concentre sur les connaissances du domaine, qui se retrouvent galement dans les ontologies, sans prjuger de l'intrt des textes pour modliser les mthodes de rsolution de problme.
1.2 Importance des textes dans le processus de modlisation

Au sein du processus de modlisation, les textes ont t longtemps sous-utiliss, alors qu'ils constituent, lorsqu'ils existent, une source importante de connaissances. Le renouveau rcent de l'acquisition de connaissances partir de textes s'explique par un triple constat : Les connaissances stabilises, qui constituent une part significative des modles conceptuels, sont souvent dcrites dans des textes ; Les textes sont de plus en plus sur support informatique, ce qui les rend trs accessibles ; Il existe de nouveaux outils de Traitement Automatique de la Langue (TAL) parvenus une maturit suffisante pour tre utiliss dans le contexte de l'acquisition de connaissances. Ces outils ont bnfici de laugmentation exponentielle des capacits de mmoire et de traitement des ordinateurs, tout autant que de nouveaux rsultats en linguistique de corpus.
SBC
validation
Fig. 1 Cycle de vie d'un SBC La modlisation est lactivit centrale en ingnierie des connaissances. Ce modle est le support pour slectionner, recueillir, organiser des connaissances avant de dcider comment les intgrer dans lapplication finale. Il est labor par le cogniticien, aid dun expert ou de spcialistes du domaine, partir dune tude du besoin auprs dutilisateurs dune part, et d'observations, de verbalisations dexperts et/ou de textes dautre part. Dans le cas de systmes base de connaissances (SBC), ce modle spcifie lactivit du futur systme dans lequel il sera implment (Fig 1.). Dautres types dapplications utilisent les connaissances contenues dans le modle sans quelles soient implmentes. Le modle est alors consult directement en fonction de son organisation (via un hypertexte par exemple), ou bien il sert de ressource directe via une interface, par exemple pour dfinir des index, des glossaires, des thsaurus. Bien sr, le type dapplication vise influence directement son contenu. Les sources de connaissances, ou univers du discours au sens des systmes d'information, comportent des connaissances implicites (savoir-faire, attitudes, etc.) et des connaissances explicites ou explicites (notes dobservation, rcapitulatifs dentretiens, textes rdigs). A partir de cet univers, le cogniticien dfinit un modle conceptuel, qu'il fait valider en fonction des besoins de l'application et de l'expertise [11]. Aprs cette tape de conceptualisation o objets et tches sont dfinis, la formalisation, facultative, consiste transcrire ce modle dans un formalisme normalisant la description, afin de vrifier sa cohrence et sa compltude, ou de prparer limplmentation. Lorsquelle est ralise, limplmentation a pour but de rendre utilisable, ou oprationnel, le modle formel en le traduisant dans un langage de programmation. La validation du systme passe alors par son utilisation. Chaque tape peut tre plus ou moins dveloppe suivant lapplication vise. Les retours vers les tapes prcdentes sont indispensables pour vrifier la correction de ltape en cours.
hal-00510453, version 1 - 18 Aug 2010
Il faut maintenant dfinir en ingnierie des connaissances des outils et des mthodes prenant en compte l'analyse automatique des textes, et utiliser les techniques mises au point en linguistique pour l'tude des corpus. Ce type de mthode s'appuie sur un cadre de rfrence thorique novateur en linguistique [28]. Ce cadre se dmarque d'une linguistique conceptuelle qui fait l'hypothse (sous jacente la plupart des travaux sur les ontologies formelles) que le sens des termes peut s'tudier dans l'absolu, comme si le lien terme concept tait un lien de rfrence, unique et fig. Les travaux actuels de la linguistique de corpus, les hypothses de la smantique rfrentielle ou encore l'tude des langues spcialises offrent des alternatives mieux adaptes la modlisation de connaissances. La constitution d'un modle partir de textes prsente plusieurs avantages. Elle apporte une meilleure lisibilit au modle et facilite ainsi sa maintenance, condition bien sr de conserver un lien entre le texte et le modle ainsi que des traces des choix de modlisation. En effet, lorsque le modle doit tre interprt, le lecteur fait appel toutes les connaissances implicites voques par le nom des primitives, qui dpassent largement le sens dcrit formellement. Le nom d'un concept joue non seulement sur la comprhension de l'utilisateur lorsqu'il interprte des rsultats fournis par le systme, mais aussi sur celle du cogniticien en cours de modlisation lorsqu'il doit remettre en cause ses choix, ou enfin lors de la maintenance du systme en cas de correction ou de
modification du modle. Ainsi, les textes associs un modle rendent explicites une partie des choix de modlisation, et tout particulirement le choix des tiquettes des concepts et des relations, tout en justifiant leur dfinition. Ils permettent en fait, d'une part, d'expliquer le sens du terme dans le domaine (son interprtation rfrentielle) et, d'autre part, de reconstituer la transformation qui a men au sens formel (restreint mais justifi par l'application) donn la primitive portant cette tiquette dans l'ontologie.
1.3 Approches classiques pour construction d'ontologies
la
Depuis plusieurs annes, lingnierie des connaissances a largi sa problmatique. Elle vise des applications assistant intelligemment un oprateur, et non plus seulement des systmes capables de raisonner intelligemment. La place de lexpert et des textes comme sources de connaissances en ont t significativement modifies [11]. En se focalisant sur lexpert comme individu ayant acquis, par son exprience, une plus grande comptence quil est seul dtenir, on recueille des connaissances individuelles, des savoir-faire faire expliciter. Une approche base sur des entretiens et des techniques inspires de la psychologie est gnralement propose. En se focalisant sur les textes et lintertextualit [28], on privilgie les connaissances stabilises, les savoir dj partags et explicits, comme le vocabulaire et des connaissances ontologiques. Des approches linguistiques sont alors possibles. En slectionnant les quelques approches prsentes par la suite, nous voulons souligner lvolution actuelle concernant les sources de connaissances et les techniques utilises en ingnierie des connaissances. Nous diffrencions ainsi des approches plus classiques (KOD, CommonKADS et les textes sur le construction dontologies formelles) presque exclusivement tournes vers les experts, dapproches plus rcentes sappuyant presque uniquement sur les textes (BCT, approche diffrentielle). Ce cadre nous permettra ensuite de dvelopper notre point de vue qui, refusant dopposer ces sources de connaissances, cherche en tirer la complmentarit en fonction de lapplication vise. KOD [30] : Les textes, essentiellement des retranscriptions d'entretiens avec un expert, ont un rle central dans KOD. L'exploitation du texte est systmatique mais manuelle pour ce qui est du reprage des connaissances (la K-Station permet ensuite de grer dans une base les connaissances identifies et les textes dont elles sont issues). KOD s'appuie sur des principes linguistiques et terminologiques. Les groupes nominaux sont mis en vidence pour trouver les concepts, les verbes pour dcrire les activits. Ce travail est trs coteux et produit une quantit importante de connaissances, pas toujours pertinentes pour l'application.
hal-00510453, version 1 - 18 Aug 2010
Common-KADS et assimiles : Les textes y tiennent une place marginale. Il s'agit soit de retranscriptions d'entretiens avec l'expert, soit de textes techniques relatifs l'application. L'exploitation de ces textes est oriente par la tche que doit raliser l'application. On y cherche les concepts qui jouent les rles spcifiques la mthode de rsolution de problme que l'on a associe cette tche. Sur le point prcis de l'analyse de retranscriptions, les recommandations actuelles de CommonKADS sont tout fait semblables celles suggres dans KOD, mais elles ne sont tayes par aucune rfrence linguistique. L'exploitation du texte est complmentaire de l'utilisation d'ontologies du domaine quand elles existent. Approche ontologique [19][18]: Dans la plupart des travaux sur les ontologies, les textes sont trs peu utiliss. Ils sont gnralement exploits manuellement de manire arbitraire, soit pour construire les ontologies, soit pour les adapter une application particulire. La rutilisabilit du rsultat est privilgie, souvent au dtriment de sa qualit et donc de son utilisabilit mme. Approche BCT : Cette approche est purement linguistique [2][21][13]. Son origine provient de la terminologie. Elle s'appuie sur la constitution d'un corpus en fonction de l'application vise, partir duquel les termes du domaine sont extraits selon des critres linguistiques et l'interprtation des occurrences. Ltude des occurrences de ces termes et des relations lexicales conduit dfinir un rseau de concepts qui les dcrit. Les termes tant considrs comme des parties du texte, ils peuvent tre polysmiques et c'est leur tude qui permet de dgager leurs diffrents sens. Des travaux ont fait l'hypothse que ce rseau pouvait tre une tape intermdiaire pour constituer un modle du domaine[4]. Or la pratique a montr que la BCT devait tre fortement remanie avant d'y parvenir : des connaissances, pertinentes linguistiquement, sont inadquates pour l'application alors que d'autres doivent tre rajoutes [13][14]. Approche diffrentielle : Nous appelons ainsi un courant issu des propositions de B. Bachimont et qui a influenc les rflexions issues du groupe TIA [8]. Les textes y sont considrs comme la source presque exclusive de connaissances. Le problme de lIC est dcrit comme celui de la construction de modles partir de lexpression linguistique de connaissances. Il s'agit dassurer une continuit smantique entre linterprtation des expressions lexicales, leur organisation structurelle dans le modle conceptuel et, ventuellement, leur reprsentation oprationnelle dans le systme informatique cible. Plusieurs tapes sont proposes dans ce cheminent, dont la normalisation base sur des principes de diffrenciation explicites, qui fait du modle conceptuel une ontologie appele ontologie rgionale . Dans cette ontologie, les termes sont des tiquettes
de concepts, non polysmiques puisqu'ils rsultent de choix effectus au cours de l'interprtation et de la normatlisation. Une diffrenciation formelle permet ensuite de construire des concepts formels pour lesquels on peut penser qu'ils seront utiliss dans le systme en adquation avec le sens qui leur est attribu dans l'ontologie rgionale.
connaissances. Suivant les applications, le rle des experts peut aller de la constitution du corpus et de l'aide la validation du modle jusqu' un rle primordial pour fournir des connaissances que lui seul dtient.
3 Notre mthode
lments de modles existants description des besoins /application vise documentation technique expertise
1.4 Une mthode s'appuyant sur les textes

Issue de l'approche des BCT, notre mthode en reprend les tapes et les techniques linguistiques. Le modle conceptuel est d'ailleurs organis comme une BCT, avec une composante linguistique pour conserver termes et textes associs au rseau conceptuel. A la diffrence des BCT, ce modle doit tre directement adapt l'application et utilisable. Or, du point de vue mthodologique, l'approche purement linguistique ne propose pas suffisamment de critres pour conduire l'analyse des corpus, pour rduire la quantit d'informations exploiter et pour dcider de la faon de les reprsenter dans le modle cible. De tels critres sont noncs dans la dmarche diffrentielle, dont nous reprenons ainsi le principe de normalisation [8]. D'autres sont relatifs la tche, qui est donc prise en compte pour filtrer les informations chercher dans les textes, celles retenir dans le modle puis pour orienter leur structuration. Comme dans CommonKADS, il est possible, voir recommand, de mener l'analyse des textes en fonction d'une MRP et des caractristiques de la tche de l'application vise. Par contre, comme dans KOD, les textes sont exploits systmatiquement selon des rsultats et des techniques linguistiques. La recherche de dfinitions de concepts s'appuie par exemple des marqueurs linguistiques de relations conceptuelles, Nous prconisons aussi l'utilisation systmatique d'outils logiciel automatisant l'application de ces techniques, ces outils tant actuellement disponibles, alors qu'ils n'existaient pas lorsque KOD a t dfinie (1988). A la diffrence de KOD, nous slectionnons si possible des textes techniques contenant des connaissances stabilises qui dcrivent la fois le domaine et l'application. Comme dans l'approche ontologique, nous proposons de dcouper le domaine en grands sous domaines, et de rutiliser les ressources existantes, ontologies de modle (primitives de modlisation) ou ontologies de domaine, glossaires, index pour amorcer la structuration. Notre approche va galement jusqu' un modle formel, pour vrifier la cohrence et la correction de la structuration. Par contre, notre priorit est de fournir un modle le plus pertinent possible pour lapplication et donc compltement ad hoc le plus souvent. Sa rutilisation requiert des modifications non triviales. Pour terminer cette caractrisation, soulignons que notre position revient tirer le meilleur profit des textes tout en ne les considrant pas comme la seule source de
Modlisation de connaissances partir de corpus modle formel outils de TAL disponibles
Fig. 2 : Vue globale de la mthode La mthode prsente est assez gnrale. Les choix mthodologiques et techniques restent ouverts. Ils dpendent de diffrents facteurs : - la description des besoins relatifs l'application ; - la documentation technique disposition ; - les lments de modles dj existant (glossaires, terminologies, ontologies, etc.) ; - l'expertise disponible ; - les outils d'analyse linguistique disponibles. La mthode est mise en uvre par un ou plusieurs analystes ayant plus ou moins de comptences en linguistique, en modlisation et en formalisation, que nous appellerons "le cogniticien" par la suite. Celui-ci dcide chaque tape de la mthode, des techniques qu'il va utiliser en fonction des facteurs prcdents et de ses propres comptences. Il est clair que l'application pratique de la mthode ne peut s'imaginer sans un logiciel adquat qui permette la fois de grer la grande masse d'informations (termes, concepts et relations), de les dcrire, de les organiser puis de les reprsenter formellement. Ce type d'environnement doit permettre de confronter facilement les termes et relations lexicales, le texte d'o ils sont tirs et le modle dans lequel on va les intgrer. Nous avons dj dvelopp les outils Terminae [7] et Gditerm [3] dans le mme esprit. Terminae permet de consulter un corpus, d'intgrer les rsultats de l'extracteur de candidats-termes Lexter pour en retenir un certain nombre de termes. Les termes peuvent tre polysmiques. Le cogniticien associe chaque sens dun terme, une notion. Ensuite, ces notions sont structures et diffrencies, puis formalises sous forme de concepts tiquets par le terme, dans un langage proche dune logique de descriptions. Les liens entre les termes et leurs occurrences dans le corpus, la notion et le concept formel rsultant sont sauvegards. Gditerm insiste davantage sur les phases initiales de reprage des termes et de l'association terme/concept justifie par les occurrences des termes en corpus. Gditerm ne distingue pas notion et concept. Un concept dans Gditerm correspond
hal-00510453, version 1 - 18 Aug 2010
une notion dans Terminae. Comme Terminae, Gditerm accepte en entre des listes de candidats termes produites par Lexter. Gditerm ne permet pas de formaliser le rseau conceptuel obtenu mais permet mieux de grer la structuration en amont de la formalisation et sa visualisation graphique. Pour prsenter ce cadre mthodologique, nous prcisons dans une premire partie la nature des donnes utilises et produites tout au long du processus, c'est-dire lors du passage du corpus un modle du domaine. Ensuite, nous dtaillons les tapes de la dmarche.
de rles organiss en une hirarchie d'hritage. Les concepts sont caractriss selon deux dimensions, l'une linguistique exprimant s'ils correspondent ou non un syntagme du corpus, l'autre de structuration indiquant la motivation ayant conduit intgrer ce concept dans le modle formel. Ces informations facilitent la maintenance et la comprhension du modle et de la base de connaissances [6].
1.6 Description dtaille des tapes

Le processus de modlisation est dtaill ici, de la constitution du corpus celle du modle formel (Fig. 4). 1.6.1 Constitution du corpus A partir de la description des besoins expliquant quels sont les objectifs de dveloppement du modle, le cogniticien choisit dans la documentation technique sa disposition les textes inclure dans le corpus. Il peut s'agir de textes didactiques, de spcifications techniques, de normes, de compte-rendu d'expriences, d'articles scientifiques Le corpus doit couvrir compltement le domaine requis par l'application. Le choix ncessite une expertise des textes du domaine afin de caractriser leur type et la couverture du domaine. Un glossaire sur le domaine est utile pour dterminer les sous-domaines explorer et vrifier qu'ils sont tous couverts. Le corpus est ensuite mis sur support informatique s'il ne l'tait pas. Le dbut de la modlisation peut conduire revoir le contenu du corpus. 1.6.2 Utilisation doutils de TAL L'tude linguistique est mene l'aide d'outils de TAL avec l'objectif de dterminer les termes et les relations lexicales qui seront ventuellement modliss. Nous diffrentions les outils ddis lacquisition de connaissances terminologiques comme les extracteurs terminologiques, de ceux spcialiss dans la modlisation conceptuelle ou les outils linguistiques classiques. Les extracteurs de candidats-termes fournissent un grand nombre de donnes et ncessitent une slection des termes longue et fastidieuse qui requiert une bonne expertise du domaine. Cette solution est retenir si lon dispose dune main duvre disponible et comptente dans le domaine. Les extracteurs reposent sur des principes danalyse statistique Ana [17], Startex [25], syntaxique Lexter[9], Nomino [16], ou mixte. Ils sont gnralement associs un environnement danalyse plus complet, pour la consultation et la validation de leurs rsultats. Leur application ncessite peu de comptence linguistique. Les extracteurs de relations partir de marqueurs linguistiques Startex, Promth [22], Camlon [26], ncessitent de dfinir dabord des marqueurs de relation pour ensuite les appliquer au corpus et ramener les termes en relation. En partant de marqueurs prdfinis, il est possible de dterminer des termes que lon rutilise pour crer de nouveaux marqueurs et dfinir ainsi des relations lexicales et des termes. Ces outils sont trs sduisants mais ncessitent de bonnes comptences linguistiques. Ils sont complmentaires des extracteurs
1.5 Des textes un modle formel

Description des besoins Documentation technique
constitution du corpus tude linguistique
Corpus
hal-00510453, version 1 - 18 Aug 2010
Termes Relations lexicales Regroupements lexicaux
normalisation
Concepts Relations smantiques formalisation
axe formel
Base de connaissances
Fig. 3 : Les diffrents types de donnes lors du passage de textes un modle du domaine Nous prsentons d'abord ici une vision axe sur les objets mis en jeu (Fig. 3). La mthode part des textes constituant la documentation technique pour aboutir une modlisation formelle du domaine. Elle distingue les termes des concepts et les relations lexicales des relations smantiques. Les termes et les relations lexicales correspondent des syntagmes prsents dans le corpus et considrs comme caractristiques du domaine. Les regroupements lexicaux rassemblent des syntagmes apparaissant dans des contextes analogues. Les syntagmes sont interprts en contexte local (la phrase ou le paragraphe) puis global (le texte ou le corpus). Lorsqu'ils sont attests, ils donnent lieu la cration de concepts et relations smantiques, dont ils sont les tiquettes. L'ensemble des concepts et relations forme un rseau smantique, non formel mais comprhensible par le concepteur. Les concepts et relations tant extraits du corpus et contraints par lapplication, ce rseau forme une ontologie rgionale au sens de [8]. Dans le modle formel, concepts et relations sont formaliss dans un langage terminologique assimilable une logique de descriptions, sous forme de concepts et
de candidats termes, en contribuant la slection et la dfinition des termes. Les outils de regroupement conceptuel associent les syntagmes nominaux qui partagent des relations de dpendances syntaxiques. Les regroupements proposs peuvent ensuite tre analyss manuellement pour constituer des classes smantiques comme avec Zellig [20] ou Lexiclass [1]. Les rsultats sont difficilement interprtables, mais ils permettent de structurer les termes pour dfinir les concepts. Plus original mais ponctuellement
E xp ertise A pp lication vis e Glo ssaire D es criptio n be s oins D ocu me ntatio n te chniq ue E xpe rtise C o nstitutio n d u co rp us Co rpus Info rm at is
utile pour traiter des instances de certaines classes, Lexis [23] permet de reprer des noms propres dans un corpus. Les concordanciers (outil dalignement sur un mot donn ou un groupe de mots ) Sato [15] sont utilisables lorsque lon dispose dj des termes, pour les tudier en contexte en facilitant leur visualisation. Ils sont dutilisation simple.
A p plication vis e Glo ssaire E xp ertise A pplica tio n vise E tude ling uistiq ue Glossa ire E xpe rtise No rm a lisation Conce pts R e lations s ma ntiq ue s A pp licatio n vise On tolog ie s e xista ntes
hal-00510453, version 1 - 18 Aug 2010
Te rme s R e lations le xicale s Ou tils TA L R e grou pe me nts
F orm alisa tio n
Ou tils TA L
F orm a lism e
Fig. 4 : Etapes du processus de modlisation partir de textes selon notre approche 1.6.3 Normalisation La normalisation est un processus particulier de conceptualisation fond sur lanalyse de corpus en suivant [24] et [8]. La normalisation consiste en deux parties : la premire reste dans le domaine du traitement lexical et exploite les donnes retenues par ltape antrieure ; la seconde partie porte sur linterprtation smantique et la structuration des concepts et des relations smantiques. Au cours de la normalisation, la masse de donnes considrer est peu peu restreinte. Les termes et les relations lexicales dtermins par les outils sont associs leurs occurrences dans le corpus ; un premier travail consiste distinguer pour chaque terme et chaque relation lexicale sils conduisent une ou plusieurs interprtations dans le domaine. En cas de polysmie, il faut dcider quels sens parmi ceux prsents dans le corpus sont retenir car pertinents pour la modlisation. Parmi lensemble des termes et relations lexicales, le cogniticien doit choisir ceux dont il va poursuivre lanalyse. Ce sont les termes qui la fois ont du sens en corpus et qui prsentent un intrt par rapport aux objectifs du modle. Puis, il tudie chaque syntagme daprs ses contextes doccurrences afin den donner une dfinition en langage naturel non contraint, qui rende compte du contenu des textes. La deuxime tape de la normalisation consiste dfinir des concepts et des relations smantiques partir des termes et des relations lexicales prcdentes. Il faut en donner une description normalise, reprenant les tiquettes de concepts et de relations dj dfinis, et pertinente par rapport la tche pour laquelle le modle est construit. Cette description normalise na pas t obtenue en utilisant le paradigme diffrentiel comme dans [8]. Linterprtation de la description est contrainte par le corpus dont elle est issue et lapplication. Ces descriptions amorcent une structuration du domaine sous forme de rseau smantique. Elles restent toutefois semi-formelles, au sens o seule la rigueur du travail garantit la cohrence du modle. 1.6.4 Formalisation La formalisation comprend llaboration et la validation de la base de connaissances. Des ontologies existantes, gnrales ou proches du domaine, ou mme un glossaire, peuvent permettre de dfinir les couches hautes de la base de connaissances en larges sousdomaines. Ensuite, les concepts et relations smantiques provenant de ltude linguistique doivent tre traduits en
concepts et rles dans le langage de la base de connaissances, puis il faut les insrer dans le modle. Cette insertion des concepts et rles terminologiques induit parfois une remise en question de la structure existante, car elle doit prendre en compte la correction de lhritage des caractristiques (rles) des concepts. Il est souvent ncessaire ou utile de rajouter des concepts pour amliorer la structuration de la base. Lors de linsertion dun nouveau concept, une vrification locale est effectue, qui garantit la correction syntaxique de la description ajoute. Une validation complte du modle doit tre ralise lorsque la base atteint un tat stable, pour vrifier la cohrence du modle.
de pages Web de chercheurs franais dans ce domaine. Cette exprimentation permettra daffiner la nature de la tche dindexation et damliorer le thsaurus obtenu. 1.7.2 Notre exprience Lexprience dcrite dans ce qui suit, peut tre considre comme un produit driv du projet global. Nous avons dcid de construire une ontologie sans connatre son impact sur la cration du thsaurus. Nous pensons quune ontologie des outils de lIC peut tre utile pour les chercheurs de ce domaine. Cette ontologie permettra de situer des nouveaux outils par rapport ceux qui existent dj. Le domaine est suffisamment restreint pour esprer obtenir un rsultat dans un temps raisonnable et ainsi valuer la mthode. 1.7.3 Le corpus Pour constituer un corpus de rfrence, le groupe TIA na pas retenu les pages Web existantes, du fait de leur nombre faible et de leur contenu trs spcifique une personne ou une quipe. Le corpus choisi, dcrit dans larticle [10] comporte 34 articles scientifiques publis au cours des trois dernires annes la confrence annuelle de IC et rassembls dans un ouvrage de synthse [12]. Ce sont des articles techniques destins des chercheurs du domaine et donc assez peu didactiques. Une premire tude des termes issus de ce corpus a montr quil ne couvrait pas trs bien la totalit du domaine et quil contenait peu de dfinitions de concepts. Pour pallier ces insuffisances, le groupe TIA a rajout quatre textes dcrivant le domaine de faon plus globale, augmentant ainsi de 30% la taille du corpus. Le nombre de mots est pass de 160 000 207 000. Nous avons travaill pour notre exprience sur la totalit de ce corpus. 1.7.4 Les outils utiliss et les cogniticiens Les outils linguistiques mis en uvre sont un extracteur de candidats termes (Lexter) et un extracteur de relations (Camlon). Camlon se focalise sur l'tude des relations smantiques identifies dans des textes pour enrichir incrmentalement un modle conceptuel [27]. Nous avons utilis certains modules de Terminae pour valider et visualiser les rsultats de Lexter et construire le rseau conceptuel. Terminae possde un gestionnaire de base de connaissances qui permet de dcrire un ensemble structur de concepts. Un classifieur teste la validit de linsertion dun concept et informe lutilisateur de la dtection dincohrences ou de redondances. De plus, les concepts possdent une caractristique linguistique. Un concept est dit terminologique sil vient de la liste des termes du corpus, terminologique non attest sil nest pas dans le corpus mais est considr comme un terme du domaine, non terminologique sil est introduit sans lien mme indirect avec le domaine. Les concepts sont aussi diffrencis selon leur rle dans la structuration du modle : un concept est dit de structuration ascendante sil est introduit pour structurer les concepts de plus bas niveaux, descendante sil
4 Application sur un exemple : les outils de l'IC

Dans cet article, nous nous restreindrons la mise en uvre de la mthode prsente ci-dessus pour modliser le sous-domaine des outils de lIngnierie des Connaissances mentionns dans un corpus. Lobjectif de cette ontologie est de permettre des chercheurs du domaine de dcrire leurs propres outils et de les comparer ceux qui existent dj. Cet objectif sintgre dans un projet de plus grande envergure que nous dcrivons ci-dessous, qui dfinit l'application et le corpus. Puis, nous dtaillons les diffrentes phases de la mthode pour identifier et structurer les concepts du sous-domaine des outils de lIngnierie des Connaissances. Nous terminons par une prsentation des premiers rsultats.
hal-00510453, version 1 - 18 Aug 2010
1.7 Contexte de lexprience

1.7.1 Le projet global Le groupe TIA a voulu confronter ses propositions thoriques, techniques et mthodologiques dans le cadre dun projet. Lobjectif de ce projet est llaboration dun thesaurus en franais du domaine de lingnierie des connaissances pour permettre dindexer les pages Web des chercheurs. Le parti a t pris dappliquer directement les mthodes et les outils du groupe sans prendre en compte au dpart dautres ontologies sur ce domaine, comme celle du projet (KA) dveloppe pour un objectif analogue mais en langue anglaise pour la communaut internationale [5]. Cependant, il existe des diffrences importantes entre ce projet global et (KA) : Le domaine couvert est plus large que les activits des chercheurs, leurs productions et organisation. Les sources de la connaissances sont principalement des textes et quelques experts du domaine tandis que pour (KA)2 seuls des experts du domaine ont dfini et structur lontologie. La mthode utilise est fonde sur lanalyse de corpus et non sur lintrospection. Le rsultat final est un thsaurus et non une ontologie considre comme formelle. La validation de lapproche se fera par lutilisabilit des rsultats, sachant que pour le moment il existe peu
spcifie un concept de niveau lev ; la limite entre les deux voies de structuration est imprcise. Dans le cas de cette exprience, comme les proprits sur les concepts ne sont pas dfinies formellement, les concepts sont tous primitifs, et il ny a pas de concepts de regroupement (qui correspondent un concept cr pour factoriser une proprit commune un ensemble de concepts). Les concepteurs du modle sont eux-mmes des experts du domaine tudi mais ne sont pas linguistes.
raissent. La recherche de relations entre ces termes doit permettre ensuite de les organiser. Idalement, les deux mthodes peuvent tre croises, ce qui garantit que tous les termes relevant d outil prsents dans le corpus ont bien t considrs. 1.8.2 Validation de candidats termes C'est la premire approche qui a t applique au corpus dans le cadre de notre exprience. 109 occurrences de candidats termes comportant outil en tte ont t trouves par Lexter. Lanalyse des contextes de ces occurrences a men en liminer un certain nombre comme ntant pas pertinents : les termes dsignant des outils en dehors du domaine comme outil de prformage de la semelle qui relve dune application spcifique ; outil de support du processus exprimental ou outil de travail sont trop gnraux. Simultanment, l'tude des occurrences permet de filtrer les occurrences pertinentes et de rejeter celles qui n'apportent aucune connaissance utile la dfinition de termes. Par exemple, les termes outil de GL du projet et outil de gnie logiciel du projet sont des exemples de synonymie syntaxique en contexte de outil de gnie logiciel . Seul, ce dernier terme et ses occurrences sont pertinents pour notre application. Ainsi, 67 termes ont t retenus. 1.8.3 Dmarches pour ltude des relations Beaucoup de relations peuvent tre facilement identifies par la lecture des occurrences des termes. Cependant, cette mthode est longue. Le nombre doccurrences lire a t rduit en utilisant Camlon [26]. La mthode associe Camlon prconise tout d'abord de mettre au point une base de marqueurs adapts au corpus et auxquels on a associ le type de relation smantique qu'ils permettent de reprer. Pour aider dans cette tche, Camlon fournit comme point de dpart une base de marqueurs gnriques associs aux relations classiques d'hypronymie et de mronymie. Peu de variations par rapport aux cas gnraux ont t trouves. Pour chaque concept dans le modle, nous avons appliqu les hypothses de Camlon sur les occurrences des termes correspondants. Camlon a trouv de 2 10 relations pour les concepts sous OUTIL, et environ 50 relations pour OUTIL, le tiers de ces relations a t valid. Une utilisation ultrieure de Camlon devrait permettre didentifier de nouveaux patrons de relation en projetant les couples de concepts en relation sur le corpus.
1.8 Ltude linguistique

Deux faons damorcer le travail sont possibles. L'une consiste se focaliser en priorit sur les termes, puis de rechercher les relations qui les associent et leurs occurrences. L'autre privilgie les relations lexicales, comme autant d'indicateurs de contextes riches en connaissances. C'est partir des occurrences de relations que l'on repre des termes du domaine et que l'on amorce leur dfinition. Dans le cadre de notre exprience, nous avons tout d'abord privilgi une dmarche centre sur les termes, puisqu'un terme "outil" est donn ds le dpart comme le type d'objets dcrire. L'tude des relations doit complter ce travail sur les termes. 1.8.1 Dmarches pour l'tude des termes Dans notre cas particulier, les outils logiciels ont presque tous un nom propre. Or, dans la perspective de l'indexation de travaux de recherche sur le Web, il est intressant de rpertorier les diffrents noms d'outils et de mthodes. Comme les noms propres peuvent tre identifis en tant que tels, nous avions le choix encore entre deux dmarches d'analyse des termes, selon la place accorde aux noms propres. La premire approche consiste rechercher le terme outil dans les rsultats de Lexter et considrer tous les termes comportant outil en tte Ceux-ci dsignent potentiellement des sous-classes du concept OUTIL associ outil . On recherche ensuite les relations lexicales mettant en jeu chacune de ces sous classes avec Camlon, ce qui permet de regrouper des sous-classes et de les structurer. Enfin, on recherche les noms des outils en tant que noms propres co-occurrents avec un des termes trouvs. Une fois ces noms doutils obtenus, lanalyse plus prcise de leurs contextes dapparition permet de les classer parmi les diffrents types doutils ou bien de constater quils napparaissent pas comme spcialisant outil mais un autre terme ( systme par exemple) et de devoir considrer alors la relation entre outil et ce terme. La deuxime approche considre dabord tous les noms propres du corpus, qui dsignent des auteurs, des acronymes divers ou des institutions. Lexamen de leur contexte permet dliminer rapidement tous les termes qui nont aucune proximit avec outil . Une tude plus fine du contexte permet de trouver un hyperonyme chacun des noms propres. Les termes outil , systme , projet , algorithme , mthode appa-
hal-00510453, version 1 - 18 Aug 2010
1.9 La normalisation
A ce stade, nous avons une liste de termes partir de laquelle nous devons crer un ensemble structur de concepts. La normalisation va consister liminer des termes et structurer hirarchiquement ceux qui restent, en particulier grce leurs relations.
1.9.1 Elimination et regroupement La validation prcdente, ralise rapidement, ncessite peu dexpertise. Ltape suivante, mene avec une expertise plus fine, ncessite un retour au texte avec une rflexion approfondie pour liminer ou regrouper des termes. Cela permet de rduire le nombre de termes et de commencer structurer leur ensemble. La rduction consiste, soit liminer simplement des termes, soit regrouper sous la mme tiquette des termes jugs synonymes dans le corpus, soit regrouper sous la mme tiquette des termes que lon ne veut pas distinguer pour lapplication. La distinction entre termes synonymes et termes assimils est consigne. Ainsi, des termes trs spcifiques comme outil anthropotechnique ou outil de dploiement vont tre assimils respectivement outil de gnie cognitif et outil de gnie logiciel , car ce degr de granularit est considr comme trop fin, lobjectif tant de dcrire les outils dIC. Par contre, outil de cartographie va tre simplement supprim. Des termes sont synonymes lorsque des auteurs utilisent des termes diffrents pour des notions identiques. Nous avons t capables de dcider de ces relations de synonymie car nous sommes la fois cogniticiens et comptents dans le domaine. Dans le cas o le cogniticien dcouvre le domaine, il ne peut s'appuyer que sur des critres linguistiques et des similarits d'usage de ces termes dans leurs diffrentes occurrences. Des comptences linguistiques sont ici trs utiles pour juger de cette synonymie en contexte. Ainsi lanalyse des contextes doccurrences d outil textuel , outil danalyse de textes , outil danalyse de corpus , outil linguistique permet didentifier les trois termes, sous ltiquette outil danalyse de corpus . Il faut cependant faire attention ne pas assimiler des termes gnraux et des termes plus prcis qu'il est important de diffrencier pour l'application. Par exemple, outil terminologique est plus spcifique que outil danalyse de corpus et les deux seront retenus. Par contre, outil dexploration de corpus comme outil de fouille de corpus seront ici assimils outil danalyse de corpus . Identifier outil dextraction de candidats termes et outil dextraction de terminologie ncessite un retour au texte et conduit dfinir soigneusement ce qui les diffrencie : lextraction de terminologie comporte la fois lextraction de candidats termes et celle de relations candidates. En mme temps, les relations dhyperonymie apparaissent et sont soigneusement enregistres. Cette tape rduit lensemble des 67 concepts 46. 1.9.2 Noms propres et noms proches Au fur et mesure de lanalyse des candidats termes, le cogniticien recueille dune part les noms propres qui sont des noms doutils ou de systmes (30 ont t relevs), et dautre part des termes dont le sens apparat proche de outil (18 termes, comme systme, projet ,atelier , collecticiel , concordancier . Ces derniers correspondent soit des synonymes soit
des termes proches qui pourraient mener dautres noms doutils et intervenir dans la structuration. Les termes recueillis sont organiss sous forme de listes. La liste des outils existants (noms propres) comporte lindication du type doutil gnrique dont ils relvent et de leur crateur, lorsque linformation est prsente dans le texte ou connue du cogniticien. 1.9.3 Structuration Comme nous nous intressons aux outils de lIC, nous avons dfini le concept OUTIL, puis nous avons structur les concepts autour dOUTIL. Pour dfinir le concept OUTIL, nous avons tudi tous les termes proches doutil. Le choix de ces termes a t guid par notre expertise et certains noms propres doutils. Nous avons tudi les relations de ces termes avec le terme outil dans le corpus. Ainsi, nous avons tudi les relations des termes mthode , algorithme , formalisme , systme , atelier avec le terme outil . De ltude des relations, nous avons distingu les outils conceptuels ( mthode , algorithme , formalisme , modle ) des outils logiciels ( outil ). En utilisant notre expertise et les occurrences de certains outils, nous distinguons deux sortes de logiciels : ceux qui sont dvelopps selon un processus dingnierie et ceux utiliss dans ce processus, qui peuvent tre soit des outils dingnierie des connaissances (OUTIL D INGENIERIE DES CONNAIS-SANCES), soit des outils de gnie logiciel (OUTIL DE GENIE LOGICIEL). Comme il y a une grande varit de systmes dvelopps qui peuvent tre considrs comme suivant un processus dingnierie des connaissances, nous ne les avons pas dtaills.
hal-00510453, version 1 - 18 Aug 2010
1.10 Premiers rsultats

Notre travail en est ses dbuts. Nous avons surtout tudi la relation dhyperonymie. Nous devons tudier dautres relations comme la mronymie, la relation sert- ou utilise pour continuer la structuration. Pour chaque outil spcifique, nous avons dfini son ou ses auteur(s), un commentaire et les occurrences contenant le nom de loutil dans le corpus. La construction dune ontologie avec Terminae permet de tester la cohrence du rseau smantique construit. Nous montrons dans la suite les lments principaux de la structuration. Nous avons cr sous OUTIL deux concepts terminologiques OUTILLOGICIEL et OUTILCONCEPTUEL. La figure 5 montre la hirarchie sous OUTILLOGICIEL et OUTILCONCEPTUEL. Dans toutes les figures montrant une partie de lontologie, les concepts terminologiques sont en italiques, les concepts individuels qui correspondent un outil spcifique commencent par une majuscule. Seulement OUTILINGENIERIE CONNAISSANCES et OUTILVALIDATION ne sont pas terminologiques, ils sont terminologiques non attests (TNA). Le concept terminologique OUTILAIDE regroupe tous les concepts correspondant aux termes composs qui ont outil daide en tte. Nous avons travaill sur les outils linguistiques dcrits dans le corpus.
hal-00510453, version 1 - 18 Aug 2010
Fig. 5 : schma sous OUTIL La figure 6 prsente les concepts sous OUTILANALYSECORPUS. Nous avons trouv OUTILEXTRACTION T ERMESCANDIDATS et OUTILREPERAGE RELATIONS que lon a regroup sous OUTILT ERMINOLOGIQUE.
tils linguistiques), leur slection et lorganisation des modles dpendent de quatre critres : 1. notre expertise sur le domaine 2. lapplication vise 3. les textes (les contextes des informations, les auteurs et la nature des textes) 4. dautres informations apportes par les outils linguistiques : les termes co-occurents, les termes en relations lexicales, la frquence de certains termes. Ces critres peuvent produire des contradictions. La priorit est donne ce qui parat pertinent pour lapplication compte tenu de lexpertise, ce qui peut tre en dsaccord avec ce qui est dit dans les textes. Par exemple, loutil ASTREE est dcrit dans le corpus comme un outil dIC, ce qui manque de prcision lorsquon veut crer une ontologie qui caractrise les outils de lIC. Ltude approfondie du corpus montre quASTREE est un outil daide la cration de modles conceptuels. Aussi, nous avons dcid de dfinir le concept OUTIL D AIDE A LA MODELISATION et ASTREE comme un concept fils. Nos conclusions comportent galement des rsultats sur la manire dutiliser les principes et logiciels que nous avons retenus, les donnes quils permettent de trouver ainsi que le moment o il vaut mieux les utiliser. Lexprience doit tre mene plus loin pour dboucher sur des propositions vraiment prcises et bien organises au sein de notre mthode, et sur une vritable ontologie comme rsultat. Enfin, nous envisageons une validation de lontologie obtenue par rapport au domaine, qui consisterait essayer de dcrire de nouveaux outils dIC au sein de cette ontologie.
5 Conclusion
Le travail prsent dans cet article a t initi par les recherches rcentes des membres du groupe TIA. Il sagit pour nous dtablir les tapes, outils et mthodes appliquer pour dgager un modle conceptuel du domaine partir de lanalyse dun corpus, en utilisant des outils de traitement automatique des langues. Ce projet nen est qu ses dbuts. Lobjectif de raliser un thsaurus en langue franaise dans le domaine de lingnierie des connaissances, partir dun corpus et en sappuyant sur des techniques linguistiques pour mener la modlisation, est dune importance au moins quivalente au projet europen KA. Il sapparente au projet EuroKnowledge [29] consistant inventorier la terminologie anglaise de la modlisation au niveau connaissance au sein dun ouvrage didactique de rfrence. Pour exprimenter et affiner notre mthode, nous nous sommes donn comme objectif de construire une ontologie du sous-domaine des outils de lIngnierie des Connaissances mentionnes dans le corpus. Ce travail de modlisation est particulirement difficile car il porte sur un domaine de recherche dont les termes sont videmment en constante volution. Le vocabulaire nest donc pas fig, chaque auteur darticle usant dun voca-
Fig. 6 : Schma sous OUTIL DANALYSE DE CORPUS
1.11 Conclusion de lexprience

Une des conclusions de ce travail est davoir mis en vidence limportance de prendre encompte conjointement plusieurs critres pour retenir les connaissances modliser. Quel que soit le type de donnes (concepts, termes, rles ou relations) que nous devons slectionner et quelle que soit la manire de les trouver (lecture de liste ou de textes, manuellement ou en utilisant des ou-
bulaire spcifique dont il est lui-mme expert. Le nombre de termes qui ne sont prsents que dans un seul document est trs important. Cette modlisation ncessiterait donc dtre ngocie avec la communaut, dans un but dclaircissement des concepts en jeu. Il sagit bien dune volont descriptive et non pas normative. Cependant, la mise en uvre de cette mthode sur une application est une illustration passionnante de tout son potentiel mais aussi de toutes les questions pratiques, mthodologiques et mme thoriques quil reste traiter. Il est clair que nous sommes loin davoir exploit au mieux la complmentarit des diffrents types danalyse possibles du corpus. Nous navons pas pu utiliser toute la gamme doutils qui existent aujourdhui notre disposition. Or les rsultats obtenus rapidement sont dj de bonne qualit et prometteurs. Ils seront complts et valus lors dune prochaine tape du projet.
Rfrences
[1] ASSADI H., Construction dontologies partir de textes techniques : Application aux systmes documentaires. Thse de lUniversit Paris 6. 1998. [2] AUSSENAC -G ILLES N. et C ONDAMINES A., Bases de connaissances terminologiques : enjeux pour la consultation documentaire, J.Maniez et W.Mustapha El Hadi (eds), Organisation des connaissances en vue de leur intgration dans les systmes de reprsentation et de recherche dinformation, Villeneuve dAsq : Univ. Charles de Gaulle, pp. 71-88. 1999. [3] AUSSENAC -G ILLES N., GEDITERM, un logiciel de gestion de bases de connaissances terminologiques, in Actes des Journes Terminologie et Intelligence Artificielle (TIA99), Nantes, Terminologies Nouvelles n19, pp 111-123. 1999 [4] AUSSENAC -Gilles N., B OURIGAULT D., C ONDAMINES A. et GROS C., How can knowledge acquisition benefit from terminology ? Proc. of the 9 th Knowledge Acquisition for Knowledge Based Systems Workshop, Banff (CAN), 1995. [5] B ENJAMINS R., F ENSEL D., D ECKER D. et G OMEZ P EREZ A., (KA) : building ontologies for the internet : a mid-term report. In Proc. of the international workshop on ontological engineering on the global information infrastructure (EKAW99). pp 1-24, 1999. [6] B IEBOW B., S ZULMAN S., TERMINAE : A linguisticbased tool for the building of a domain ontology, 11th European Workshop, Knowledge Acquisition, Modeling and Management (EKAW 99), Dagstuhl Castle, Germany, pp 49-66. 1999. [7] B IEBOW B., S ZULMAN S., Terminae : une approche terminologique pour la construction dontologies du domaine partir de textes. Actes de RFIA2000, Reconnaissances des Formes et Intelligence Artificielle, Paris (F), 2000. [8] B ACHIMONT B. : Engagement smantique et engagement ontologique : conception et ralisation dontologies en ingnierie des connaissances. In : Ingnierie des Connaissances, volutions rcentes et nouveaux dfis. Paris:Eyrolles, 2000. [9] B OURIGAULT D. : Lexter, un Logiciel dExtraction de TERminologie . Application lextraction des connaissances partir de textes, Thse en Mathmatiques,
Informatique applique aux sciences de lhomme. EHESS, Paris, 1994. [10] B OURIGAULT D., C HARLET J., Construction dun index thmatique de lIngnierie des Connaissances. Actes de Ingnierie des Connaissances IC99 (Paris), 107118, 1999. [11] C HARLET J., R EYNAUD C. et T EULIER R. Ingnierie des connaissances pour les systmes dinformation. Conception des Systmes dInformation, ed. C. Cauvet, Trait IC2, Paris: Herms. 2000. [12] C HARLET J., Z ACKLAD M., K ASSEL G. et B OURIGAULT D. (eds.) Ingnierie des Connaissances, volutions rcentes et nouveaux dfis. Paris : Eyrolles, 2000. [13] C ONDAMINES A. et A USSENAC -G ILLES N., Entre textes et ontologies formelles : les bases de connaissances terminologiques. In Capitalisation des connaissances. Zacklad M. Grundstein M. (Eds.). Paris : Herms. Traits IC2. 2000. [14] C ONDAMINES A., R EBEYROLLE J., Construction d'une base de connaissances terminologiques partir de textes: exprimentation et dfinition d'une mthode. in J. C HARLET , M. Z ACKLAD , G. K ASSEL , D. B OURI GAULT (eds.) : Ingnierie des Connaissances, volutions rcentes et nouveaux dfis. Paris:Eyrolles, 2000. [15] D AOUST F., SATO (Systme dAnalyse de Textes par Ordinateur) version 3.6, Manuel de rfrence, Centre ATO Universit du Qubec Montral, 1992. [16] D AVID S. et P LANTE P., Termino version 1.0, Rapport du Centre dAnalyse de Textes par Ordinateur. Universit du Qubec Montral, 1990. [17] E NGUEHARD C. et P ANTERA L., Automatic natural acquisition of terminology Journal of Quantitative Linguistics, vol.2, n1, pp 27-32, 1995. [18] F RIDMAN N OY N. et H AFNER C. The state of the Art in Ontology Design : a Survey and Comparative Review. Artificial Intelligence Magazine. pp 53-74, Fall 1997. [19] GOMEZ -P EREZ A., "Dveloppements rcents en matires de conception, de maintenance et d'utilisation des ontologies". in E NGUEHARD C. et C ONDAMINES A. (Eds.) : actes des 3es Rencontres "Terminologie et intelligence artificielle" (Nantes), dans Terminologies Nouvelles. (19). Bruxelles. pp 9-20. 1999 [20] H ABERT B., N AULLEAU E., N AZARENKO A. Symbolic word clustering for medium-size corpora . 16 th International Conference on Computational Linguistics, Copenhagen, Danemark, pp 490-495, 1996. [21] M EYER I., S KUCE D., B OWKER L. et E CK K. : Towards a new generation of terminological ressources : an experiment in building a terminological knowledge base. Proceedings COLING92, Nantes, pp 956-960, 1992. [22] M ORIN E., Acquisition de patrons lexico-syntaxiques caractristiques dune relation smantique, TAL (Traitement Automatique des Langues), vol.40, n1, Paris : Universit Paris VII, pp 143-166, 1999. [23] P OIBEAU T., Reprage des entits nommes : un enjeu pour les systme de veille, in Actes de TIA99 (Terminologie et Intelligence Artificielle), Nantes, Terminologies Nouvelles n19, pp 43-51, 1999. [24] R ASTIER F., Le terme : entre ontologie et linguistique. La banque des mots, n spcial 7/95, pp 35-65, Paris : CLIF, 1995. [25] R OUSSELOT F., F RATH P. et O UESLATI R., Extracting Concepts and relations from corpora. Proceedings ECAI96, 12 th European Conference on Artificial Intelligence, 1996. [26] S EGUELA P., Adaptation semi-automatique dune base de marqueurs de relations smantiques sur des corpus
hal-00510453, version 1 - 18 Aug 2010
spcialiss,in Actes de TIA99 (Terminologie et Intelligence Artificielle), Nantes, Terminologies Nouvelles n19, pp 52-60, 1999. [27] S EGUELA P. et A USSENAC -G ILLES N., Extraction de relations smantiques entre termes et enrichissement de modles du domaine, Actes de IC99 (Ingnierie des Connaissances), pp 79-88, Paris, 1999.
[28] S LODZIAN M., Comment revisiter la doctrine terminologique aujourdhui ? La banque des mots, n spcial 7/95, pp 11-18, Paris : CLIF, 1995. [29] U SCHOLD M., Knowledge level Modelling : concepts and terminology. The knowledge engineering review, Vol. 13:1,pp 5-29, 1998. [30] V OGEL C., Gnie cognitif. Paris : Masson, 1988.
hal-00510453, version 1 - 18 Aug 2010

Modelelisation Domaine

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Modelelisation Domaine

Transféré par

Droits d'auteur :

Formats disponibles

Manuscrit auteur, publi dans "9e Confrence Francophone d'Ingnierie des Connaissances IC 2000, Toulouse : France (2000)"

hal-00510453, version 1 - 18 Aug 2010

2 Notre approche dans l'IC

1.1 Modlisation du domaine et cycle de vie

1.2 Importance des textes dans le processus de modlisation

hal-00510453, version 1 - 18 Aug 2010

1.3 Approches classiques pour construction d'ontologies

hal-00510453, version 1 - 18 Aug 2010

1.4 Une mthode s'appuyant sur les textes

Modlisation de connaissances partir de corpus modle formel outils de TAL disponibles

hal-00510453, version 1 - 18 Aug 2010

1.6 Description dtaille des tapes

1.5 Des textes un modle formel

constitution du corpus tude linguistique

hal-00510453, version 1 - 18 Aug 2010

Termes Relations lexicales Regroupements lexicaux

Concepts Relations smantiques formalisation

hal-00510453, version 1 - 18 Aug 2010

Te rme s R e lations le xicale s Ou tils TA L R e grou pe me nts

F orm alisa tio n

4 Application sur un exemple : les outils de l'IC

hal-00510453, version 1 - 18 Aug 2010

1.7 Contexte de lexprience

1.8 Ltude linguistique

hal-00510453, version 1 - 18 Aug 2010

hal-00510453, version 1 - 18 Aug 2010

1.10 Premiers rsultats

hal-00510453, version 1 - 18 Aug 2010

Fig. 6 : Schma sous OUTIL DANALYSE DE CORPUS

1.11 Conclusion de lexprience

hal-00510453, version 1 - 18 Aug 2010

hal-00510453, version 1 - 18 Aug 2010

Vous aimerez peut-être aussi