Vous êtes sur la page 1sur 6

Recherche smantique base sur les ontologies modulaires et le raisonnement base de cas

Nesrine Ben Mustapha1, Marie-Aude Aufaure2, Hajer Baazaoui Zghal1, Henda Ben Ghezala1
1

Laboratory RIADI-GDL, National School of Computer Sciences, University of Manouba, 2010 la Manouba, Tunisia {nesrine.benmustapha, hajer.baazaouizghal, henda.benghezala }@riadi.rnu.tn 2 Ecole Centrale Paris Laboratoire MAS Chaire SAP Business Objects Grande Voie des Vignes 92 295 Chatenay-Malabry marie-aude.aufaure@ecp.fr

Rsum : Les ontologies ont contribu lapparition des moteurs de recherche smantiques. Parmi ceux-ci, les moteurs de recherche contextuels se basent sur un nombre dtermin dontologie de domaine. La recherche dans ces moteurs est limite un domaine bien dtermin. Ainsi, au dessus dun crawler, plusieurs techniques peuvent tre dveloppes pour ajouter tout moteur de recherche traditionnel une couche smantique qui lui permet dvoluer vers un moteur de recherche smantique bas sur des ontologies multi-domaine. Il est bien vident quil savre difficile de concevoir et de construire des ontologies relatives tous les domaines pour tre exploits par les moteurs de recherche smantiques. Les ontologies modulaires peuvent apporter une rponse cette limitation. Dans le prsent travail, nous proposons une approche de recherche smantique base sur les ontologies modulaires et ladaptation du modle vectoriel et le raisonnement base de cas lindexation dynamique des ressources documentaires par les modules ontologiques.

Mots-cls : Ingnierie des connaissances, ontologie, modularit, apprentissage, raisonnement base de cas.

Introduction

La reprsentation explicite du sens se fait travers les ontologies qui sont une spcification explicite, formelle d'une conceptualisation partage (Gruber, 1993). Les ontologies ont contribu lapparition des moteurs de recherche smantiques. En effet, ces derniers exploitent les ontologies pour les tches suivantes : la reformulation de la requte, lannotation des documents, lindexation des documents, le filtrage de rsultats et la visualisation de rsultats. Ainsi, les ontologies de domaine constituent llment fondamental de ces moteurs. Leur qualit et leur couverture smantique influent sur les rsultats de recherche. Pour ce faire, les moteurs de recherche contextuelle se limitent satisfaire les requtes des utilisateurs que sur les

IC 2009

domaines spcifis par les ontologies de domaine disponibles. Le principal problme rside alors dans lautomatisation de la construction dontologies car la construction manuelle de celles-ci est une tche longue et fastidieuse. Une des solutions proposes consiste extraire des ontologies partir de textes en utilisant des techniques de fouille de textes. Etant donn que le Web est la source textuelle la plus volumineuse, lextraction dontologies (ou les approches dapprentissage) partir du Web ft une nouvelle piste de recherche qui a donn lieu plusieurs travaux. Dans ce mme cadre, nos travaux antrieurs sinscrivent o une mthode incrmentale denrichissement dontologies partir des documents Web dans un systme de recherche en ligne base dontologies de domaine (Ben Mustapha et al. 2008) a t propose. Toutefois, lapproche propose nest valable que pour des systmes de recherche contextuelle et nest pas gnrique pour une recherche multi-domaine. Bien que lide dintgrer la construction dontologie ft propose dans (Hwang et al. 2007) et dans (Wei et al. 2008), ces travaux restent encore thoriques et se contentent de proposer des cadres de rfrences gnriques. En effet, il savre difficile de concevoir, de construire et de grer des ontologies relatives tous les domaines pour tre exploites par les moteurs de recherche smantiques. Lobjectif principal du prsent travail est de trouver une solution pour la construction automatique des ontologies multi-domaine partir des documents Web en se basant sur les expriences partages de recherche des diffrents utilisateurs. Dans cet article, nous proposons une approche gnrique qui permet tout moteur de recherche smantique de dvelopper sa couche smantique en construisant des modules dontologies de domaine partir des associations entre les requtes et les documents rsultants dune recherche. Se servir de ces associations pour mmoriser des situations de recherche et apprendre de nouvelles situations afin de satisfaire des requtes dutilisateurs justifient le choix du raisonnement base de cas dans lapproche propose. Notre contribution rside, alors, dans ladaptation du raisonnement base de cas avec les ontologies pour lamlioration de la recherche et la construction automatiques dontologies modulaires. Notre approche sappliquera aux librairies digitales, la recherche dans les bases documentaires dans un intranet et la recherche dans le Web. Ainsi, il est ncessaire de prendre en considration les points suivants : la modularit et la rutilisation des ontologies apprises, le passage lchelle et lvolution de ces ontologies ainsi que la personnalisation des ontologies construites. Cet article dcrit deux volets de la proposition savoir : une architecture multi-niveaux dontologies pour la recherche multi-domaine et le processus de recherche bas sur ladaptation du raisonnement base de cas avec les ontologies modulaires.

Recherche smantique base sur les ontologies modulaires et raisonnement base de cas

Lide de cette approche est de rendre tout moteur de recherche smantique plus flexible et autonome pour construire sa base dontologies qui serviront lindexation des documents prslectionns partir desquels ces ontologies sont construites. Ainsi, nous proposons de combiner le paradigme de la recherche smantique sur le

Recherche smantique base sur les ontologies modulaires et raisonnement base de cas

Web et les techniques dapprentissage dontologies. Il est en effet possible de faire collaborer un processus dextraction dontologies partir de textes avec un processus de recherche (Ben Mustapha et al. 2009). Ainsi, La construction des fragments dontologies (modules dontologies) sera faite partir partir des requtes mises et les documents Web slectionns par les utilisateurs. Ainsi, la demande de recherche soumise est traduite vers un rseau smantique qui correspond un module dontologie et qui sera enrichi partir des documents appropris choisis. L'association entre ce module d'ontologie et le document appropri sera lentre dune base de cas utilise comme un indexe smantique. Une ontologie modulaire est une ontologie qui rfrence une autre partie dite module dune ontologie pour en importer des catgories et/ou des proprits sans avoir besoin de les dupliquer (Pierra G., 2006). Ces modules dontologies seront utiliss pour retrouver les requtes. Pour ce faire, nous utiliserons le raisonnement base de cas avec le modle vectoriel pour classer ces documents avec les mtadonnes associes des requtes similaires. Ceci nous permettra dindexer les documents avec les modules ontologiques extraits partir de ces mmes documents.

2.1

Une architecture multicouche dontologies pour la recherche smantique

La premire couche de cette architecture (Figure 1) reprsente lontologie de thmes. Il s'agit d'une classification ontologique de sujets et des contextes de domaine. Chaque thme T peut faire l'objet d'un ou plusieurs domaines ou contexte D. La deuxime couche reprsente les ontologies modulaires de domaine. Chaque ontologie de domaine Od est un rseau de modules Mi. Un module est considr comme une dimension dans l'ontologie de domaine qui se compose d'un concept principal C, avec ses proprits (relations avec d'autres concepts secondaires Ci). Les proprits d'un concept C sont dfinies comme tant la classe des relations les plus frquentes dans les requtes mises et dans la majorit des documents Web associ ces requtes. Ainsi, un module M peut tre dans de nombreuses ontologies et en relation avec d'autres modules. Par exemple, le module ayant comme principal concept de "confrence" pourrait tre dans de nombreux domaines de l'ontologie (informatique, physique, mathmatiques, etc.) car, nous pouvons trouver des confrences relatives de nombreux domaines. Un concept C est reprsent par la structure suivante : (id, {(ti, lang, contxt)} i=1..n, etat, Deg_cred) o: Id: est un identifiant associe un sens indpendamment de la terminologie et de la langue ; t : les expressions nominales qui rfrencent un concept dans une langue lang relativement un contexte contxt qui reprsente le rle de ce concept dans un domaine bien dtermin. etat: est l'tat de la dcouverte concept. Lors de la dcouverte de ce concept partir de texte lors de lenrichissement de modules dontologies

IC 2009

(sera dcrit dans la section suivante), le concept peut avoir les tats suivants : "nouveau candidat", "valid", "rejet", "candidat possible". Deg_cred : degr de crdibilit du concept dcouvert en fonction de son module.

Fig. 1 Architecture multicouche dontologies pour la recherche smantique

La troisime couche reprsente une vue personnalise des ontologies modulaires instancies avec des informations issues des rsultats antrieurs de recherche associs lutilisateur. La quatrime couche est lensemble des ressources Web index par les modules dontologies.

2.2

Raisonnement base de cas pour lindexation dynamique et la classification des documents

Chaque utilisateur est associ une base de cas locale qui indexe les documents qui les a consults. Les cas cres seront partags par les autres utilisateurs. La base de cas est utilise pour plusieurs finalits savoir : la reformulation de nouvelles requtes sur la base des anciennes requtes, la proposition des recommandations sous forme de requtes similaires et leurs rsultats (qui partagent le mme focus de recherche) partir de la base de cas, la classification et le filtrage des documents et finalement, la cration et lenrichissement des modules ontologiques. Un cas est le triplet compos dun problme, dune solution et dun score dvaluation. Le problme est dcrit par : le type de but de recherche, le domaine ou le thme de recherche, le concept pivot du module ontologique concern et la classe des requtes similaires. La solution est les rsultats pertinents de recherche. Le processus de recherche des documents au moyen des ontologies modulaires et le raisonnement base de cas est dcrit ci-dessous (cf. figure 2) :

Recherche smantique base sur les ontologies modulaires et raisonnement base de cas - La slection du domaine de recherche partir de lontologie de thmes Lutilisateur met une recherche sur le domaine partir de lontologie de thmes et choisit la thmatique dsire. Dans le cas o le domaine cherch ne figure pas dans lontologie, il doit lajouter au bon emplacement dans lontologie de thmes.

Fig. 2 processus de recherche

- La formulation de lactivit de recherche par lutilisateur selon un but de recherche (Rose and Levinson, 2004). - Lutilisateur dfinit son but de recherche en choisissant lun des buts pris en compte par notre systme savoir : navigation, localisation, demande dinformations gnrales, - Selon le but de recherche choisi, un module dontologie sera instanci et sera visualis sous forme de formulaire remplir par lutilisateur qui slectionne aussi le concept principal auquel il intresse partir de lontologie de domaine associ au thme choisi. Dans le cas ou cette ontologie de domaine nexiste pas, le terme donn par lutilisateur est pris en compte. - Aprs la validation de sa formulation, si lontologie de domaine existe dans lentrept dontologies, la requte sera reformule avec les termes associs au module dontologies. Dans le cas o lontologie nexiste pas, un nouveau module ontologie est cre. Cette demande de recherche sera lentre de ltape suivante permettant de rechercher les cas similaires. Si des cas similaires existent dans la base de cas, les solutions ramenes partir de cette base de cas sont affiches lutilisateur. Dautres documents imports du Web (ou dune base documentaire) et classs selon leur similarit avec les documents associs au cas similaires sont extraits. Aprs lvaluation de ces documents par

IC 2009

lutilisateur, un outil dapprentissage dontologie (Baazaoui et al. 2007) partir des documents pertinents permet denrichir le module ontologique avec de nouveaux concepts ou de nouvelles relations avec dautres modules. Un nouveau cas est appris et insr par le classificateur de la base de cas.

Conclusion et perspectives

Dans le prsent papier, nous prsentons une approche de recherche smantique base sur une architecture multicouche dontologies modulaires et le raisonnement base de cas. Nos travaux futurs consistent proposer une reprsentation optimale de la base de cas, des mesures de similarits entre les modules ontologies et la classification de la base de cas. La contribution principale de ce travail est de faciliter la recherche dinformation en utilisant l'ingnierie des connaissances au sein des systmes de recherche smantiques et de lier les requtes dutilisateurs des utilisateurs de l'ontologie avec les modules construits en utilisant le raisonnement base de cas. La mise en uvre de cette approche permettra de comparer les rsultats de pertinence et de temps avec des moteurs de recherche smantiques.

Rfrences
BAAZAOUI-ZGHAL H., M.-A. AUFAURE, N. BEN MUSTAPHA (2007) A Model-Driven approach of ontological components for on-line semantic Web information retrieval, Journal on Web Engineering, Special Issue on Engineering the Semantic Web, Rinton Press, vol. 6, n4, pp 309-336. BEN MUSTAPHA N., BAAZAOUI H., AUFAURE MA ET BEN GHEZALA H. (2009), Combining semantic search and ontology learning for incremental Web ontology engineering, WISM 09 workshop en conjunction avec Caise09 ( paraitre prochainement). ESMAILI K. S. & ABOLHASSANI H. (2006). A categorization scheme for semantic web search engines. In 4th ACS/IEEE Int. Conf. on Computer Systems and Applications (AICCSA-06.. GRUBER T.(1993).Toward principles for the design of ontologies used for knowledge sharing. International Journal of Human-Computer Studies, special issue on Formal Ontology in Conceptual Analysis and Knowledge Representation. Eds, Guarino, N. & Poli , R... HEFLIN J. & HENDLER J. (2000). SEARCHING THE WEB WITH SHOE, IN AAAI-2000 WORKSHOP ON AI FOR WEB SEARCH. HWANG M.; KONG H.; BAEK S.; HWANG K.; KIM P. (2007). The techniques for the ontologybased information retrieval . In The 9th International Conference on Advanced Communication Technology (IEEE Cat.No.07EX1671), Piscataway, NJ, USA; Gangwon-Do, South Korea : IEEE, Conference Paper. (AN: 9529837), p. 1365-9.

ROSE D. & LEVINSON D.(2004), Understanding user goals in web search. Proceedings of the 13th international conference on World Wide Web.
TAMMA V., BLACOE I., SMITH B., ET Wooldridge M. (2004), SERSE: searching for semantic web content, in Proceedings of the 16th European Conference on Artificial Intelligence, ECAI 2004, Valencia, Spain. WEI WANG, PAYAM M. BARNAGHI, ANDRZEJ BARGIELA (2008). Search with Meanings:An Overview of Semantic Search Systems, International journal of Communications of SIWN, Vol. 3, June 2008, pp. 76-82