Ha If A

Mesure de similarit smantique pour lindexation de documents semi-structurs
Hafa Zargayouna1 et Sylvie Salotti2

1 LIMSI/CNRS, Universit Paris 11 haifa.zargayouna@limsi.fr 2 LIPN - CNRS UMR 7030, Universit Paris 13 sylvie.salotti@lipn.univ-paris13.fr
Rsum : Nous prsentons dans cet article une mesure de similarit entre les concepts dune ontologie que nous utilisons dans un systme dindexation de documents XML. Les documents sont structurs par un ensemble de balises smantiquement pertinentes relies lontologie. Une partie des termes du corpus est galement relie lontologie. Nous avons tendu le modle vectoriel de Salton pour prendre en compte la structure des documents et le voisinage smantique des termes. Ce systme dindexation pourrait tre trs utile dans le cadre dun systme de Raisonnement Partir de Cas (RPC) o les cas seraient dcrits sous forme textuelle avec une certaine structure. Mots-cls : Similarit, ontologie, smantique, index.
Introduction
Dans certains systmes de Raisonnement Partir de Cas (RPC), les cas sont dcrits sous forme textuelle avec une certaine structure et il est primordial de pouvoir indexer ces cas selon leur contenu et raisonner dessus par similarit. (Lenz, 1998) compare les caractristiques de ces systmes de RPC textuel celles des systmes de Recherche dInformation. Nous nous intressons essentiellement la phase de remmoration des cas dans le cadre dapplications o le RPC est utilis pour des tches daide au diagnostic ou linterprtation. Par exemple, partir de la description dun incident sur le rseau tlphonique, on recherche dans une base de fiches de descriptions dincidents antrieurs les cas les plus similaires pour les prsenter l'oprateur afin de l'aider dfinir les actions entreprendre. Autre exemple : partir d'un ensemble de compte-rendus d'hospitalisation on recherche ceux qui correspondent le mieux au cas d'un nouveau patient pour aider un mdecin dans la prescription d'examens ou de traitements. La structure d'un compte-rendu en diffrentes rubriques (informations sur le patient, antcdents, symptmes) peut tre traduite l'aide de balises dans un document XML. Nous prsentons dans cet article une mthode dvaluation de similarit mise en uvre dans un systme dindexation smantique de documents XML (documents textuels semi-structurs). L'avantage de ces documents est qu'ils possdent une structure qui facilite leur prsentation, ainsi que leur interprtation et leur exploitation dans des contextes prsentant diffrents besoins. Cependant, trs souvent, la majeure partie de l'information reste contenue dans les champs textuels, l'utilisation exclusive de la structure n'est donc pas suffisante. Nous proposons un systme dindexation permettant dexploiter la fois la structure et le contenu textuel des documents. XML sest impos comme format standard de documents et un nombre de plus en plus important de documents sont disponibles en format XML. Cependant linformation apporte par les balises peut varier dun simple dcoupage de la structure du document (titre, sections, paragraphe) un vritable dcoupage smantique dans lequel les balises donnent des informations sur le contenu des lments textuels. De plus en plus de travaux visent obtenir un tel balisage smantique des documents, nous nous plaons donc dans cette hypothse. Par exemple un
ensemble de compte-rendus mdicaux pourront tre structurs laide de balises <info-patient>, <antcdent>, <traitement> Cette structure nous permet de considrer le document comme un ensemble dunits smantiques reprsentant chacune un contexte particulier doccurrence des termes. Nous avons tendu le modle vectoriel de Salton (Salton, 71) en effectuant le calcul du poids des termes pour chaque unit smantique. Un document nest donc plus reprsent par un vecteur mais par un ensemble de vecteurs, chacun correspondant une unit smantique. Par ailleurs, nous proposons dutiliser une ontologie pour enrichir le calcul du poids des termes en intgrant la notion de voisinage smantique. Nous supposons donc que les balises pertinentes et une partie des termes du corpus sont relis des concepts organiss dans une ontologie ou une taxonomie (dans un premier temps, nous navons utilis que les liens de spcialisation / gnralisation ). Une mesure de similarit entre les concepts nous permet alors dintgrer la notion de voisinage smantique lors du calcul du poids des termes. Outre la reprsentation dun contexte, les units smantiques servent limiter ltendue des calculs de similarit lors de la phase dindexation. La figure 1 prsente la structure de lindex.
Fig. 1 Structure de l'index
Dans la section suivante, nous prsentons brivement la problmatique de lutilisation dontologies, ou plus gnralement de ressources smantiques, dans les systmes de recherche dinformation. Nous dcrivons ensuite en section 3 diffrentes mesures qui ont t dfinies pour valuer la similarit entre les concepts dune ontologie. Nous terminons cette section en dfinissant la mesure que nous proposons dutiliser. En section 4, nous prsentons comment cette similarit entre concepts est utilise dans lvaluation de la similarit entre documents. Nous concluons en soulignant les avantages et les limites de notre approche et en discutant le problme de la validation dun tel systme dindexation.
Apport de la smantique en Recherche dInformation
Les ressources smantiques (thsaurus, ontologies, etc.) ont un apport considrable pour le traitement des documents textuels ou multimdia. Leur utilisation en Recherche dInformation (RI) peut intervenir lors de la phase de recherche ou lors de la phase dindexation. La phase de recherche consiste retrouver les documents les plus pertinents par rapport une requte donne. En gnral les documents retourns sont ordonns l'aide d'une mesure de similarit calcule entre le document et la requte. La phase d'indexation consiste construire au pralable une structure d'accs aux documents qui facilitera la phase de recherche. Plus la phase d'indexation est sophistique, plus la phase de recherche sera facile.
2.1
Phase de recherche
L'intrt d'utiliser des ressources smantiques en recherche d'information est de pouvoir retourner, lors d'une recherche par similarit, les documents qui partagent avec la requte le
maximum de concepts plutt que le maximum de mots-cls. Les rseaux smantiques ont montr leur apport en expansion de requtes (Lu & Keefer, 1994). Le but de lexpansion de requte est soit dlargir lensemble de documents retourns ou daugmenter la prcision. Dans le premier cas, la requte peut tre tendue en ajoutant des termes similaires ceux de la requte. Dans le deuxime cas, les termes peuvent tre compltement changs pour reformuler la requte, une technique utilise dans les retours arrire sur pertinence (Buckley et al., 1994).
2.2
Phase dindexation
Les documents peuvent tre indexs par un groupe de concepts, o on sait quun tel document traite des concepts A et B mais o on ne connat pas les relations entre eux dans le texte. Une autre mthode attribue chaque document une description smantique o les concepts sont reprsents avec leurs relations smantiques (Alhulou, Napoli & Nauer 2003). Cette reprsentation confre un grand pouvoir dexpression mais peut par ce fait ralentir les traitements et la construction des descriptions smantiques associes chaque document n'est pas une tche facile. Lindexation automatique dans les deux cas pose des problmes notamment celui de lambigut des termes (homonymie et polysmie) et on a gnralement recours des outils sophistiqus de Traitement Automatique des Langues (TAL). Mais ces techniques ne rsolvent pas totalement le problme et il faut toujours faire le compromis entre la finesse des traitements et la complexit des systmes. (Krovetz, 1997) a montr la ncessit dindexer par les concepts (i.e. sens des mots) ainsi que les mots. Indexer les documents par les concepts uniquement peut induire en erreur car les techniques de dsambigusation ne sont pas compltement fiables et se baser uniquement dessus risque dentraner une perte dinformation. Nous indexons dans notre systme les termes, indpendamment du fait quils soient relis ou pas une ontologie. Les liens smantiques constituent ainsi un plus, mais un terme qui nest pas reli lontologie peut aussi tre retrouv. Nous montrerons aussi que le problme dambigut est pris en charge en intgrant la notion de contexte dans nos calculs de similarit.
Mesures de similarit
La dtermination du degr de similarit entre deux concepts relis des termes dun document est un problme qui se pose dans beaucoup dapplications : dsambigusation, rsum automatique, extraction dinformation, indexation automatique, etc. Rada et al. (Rada et al., 1989) ont suggr que la similarit dans un rseau smantique peut tre calcule en se basant sur les liens taxonomiques is-a . Plus gnralement, le calcul de similarit entre concepts peut tre base sur les liens hirarchiques de spcialisation/gnralisation. Un moyen des plus vidents pour valuer la similarit smantique dans une taxonomie est de calculer la distance entre les concepts par le chemin le plus court. Nous prsentons dans ce qui suit quelques mesures de similarit conceptuelle. Un tat de lart complet est prsent par (Patwardham, 2003) o ces diffrentes mesures sont compars par rapport des valuations faites par des sujets humains. Les deux premires mesures sont fondes sur la notion de contenu informationnel, que nous expliquerons plus en dtail dans la section 3.1. Ces mesures utilisent WordNet (Fellbaum, 1998). WordNet peut tre considr comme un rseau smantique o chaque nud reprsente un concept du monde rel (qui peut tre une entit, un artfact, un objet, etc.). Chaque nud est compos dun ensemble de synonymes qui reprsentent le mme concept, cet ensemble sappelle synset. Les synsets sont relis par des arcs qui dcrivent les relations entre les diffrents concepts. Ils sont diviss en 4 catgories (noms, verbes, adjectifs et adverbes). La relation is-a est restreinte aux noms et verbes.
3.1
La mesure de Resnik
La notion de contenu informationnel (CI) a t la premire fois introduite par (Resnik, 1995). Elle utilise conjointement lontologie et le corpus. Le contenu informationnel dun concept traduit la pertinence dun concept dans le corpus en tenant compte de sa spcificit ou gnralit. On dit quun concept gnral subsume un concept plus spcifique. La frquence de concepts dans le corpus est calcule pour retrouver le contenu informationnel. Cette frquence regroupe la frquence dapparition du concept lui-mme ainsi que des concepts quil subsume. La formule est la suivante : CI(c) = -log(P(c)) (1)
O P(c) est la probabilit de retrouver une instance du concept c. Ces probabilits sont calculs par : frequence(c)/N o N est le nombre total de concepts. Voici un extrait de WordNet, le nombre attach chaque noeud est P(c) (Lin, 1998).
Fig. 2 Extrait de Wordnet
Resnik dfinit la similarit smantique entre deux concepts par la quantit dinformation quils partagent. Cette information partage est gale au contenu informationnel du plus petit gnralisant (PPG) le concept le plus spcifique qui subsume les deux concepts dans lontologie. Sim(c1, c2) = CI (ppg(c1, c2)) (2)
Cette mesure ne dpend que du PPG et est de ce fait un peu sommaire car nous pouvons avoir ppg(a,b) = ppg(d,e) mme si d et e sont plus proches du PPG que a et b.
3.2
La mesure de Jiang-Conrath
La mesure de (Jiang & Conrath, 1997) pallie aux limites de la mesure de Resnik en combinant le contenu informationnel du PPG ceux des concepts. Elle prend en considration aussi le nombre darcs. Ainsi une distance est dfinie : distance(c1, c2) = CI(c1) + CI(c2) (2.CI(ppg(c1, c2))) La mesure de similarit devient donc : Sim(c1, c2) = 1/distance(c1, c2) (4) (3)
3.3
La mesure de Hirst-St.Onge
La mesure de (Hirst & St Onge, 1998) prend en considration toutes les relations dans WordNet. Les liens sont classs comme haut (eg. partie-de), bas (eg. sous-classe), horizontal (eg. antonyme). La similarit est calcule entre mots par le poids du chemin le plus court qui mne dun terme un autre. Il est calcul en fonctions de ces classifications qui indiquent les changements de direction : Sim(c1, c2) = T chemin K x d (5)
Tels que T et K sont des constantes, chemin est la longueur du chemin le plus court en nombre darcs et d est le nombre de changements de direction. Lide est que deux concepts sont proches smantiquement si leurs synsets sont connects par un chemin qui nest pas trs long et qui ne change pas souvent de direction. Sil ny a pas de chemin, le poids est gal zro.
3.4
La mesure de Wu-Palmer
Dans un domaine de concepts, la similarit est dfinie par rapport la distance qui spare deux concepts dans la hirarchie et galement par leur position par rapport la racine. La similarit entre C1 et C2 est : ConSim(C1, C2) =
2* N 3 N 1+ N 2+ 2*N 3
(6)
Plus formellement cette mesure devient : ConSim(C1, C2) =

2*depth ( C ) depthC ( C1) + depthC ( C 2 )
(7)
O C est le PPG de C1 et C2 (en nombre d'arcs), depth(C) est le nombre d'arcs qui spare C de la racine et depthc(Ci) avec i le nombre d'arcs qui sparent Ci de la racine en passant par C. Cette mesure a l'avantage d'tre simple implmenter et d'avoir daussi bonnes performances que les autres mesures de similarit (Lin, 1998).
Fig. 3 Les relations conceptuelles (Wu & Palmer, 1994)
3.5
Notre mesure
Dans un prcdent travail (Zargayouna, 2001) dans le cadre dune RI multimdia, nous avons calcul les similarits entre des cas formaliss en logique de description. La similarit entre deux concepts est le PPG les subsumant. Une des limites de ce travail est le manque de relation dordre total entre les similarits. Ce problme peut tre rsolu par les mesures numriques de calcul de la similarit conceptuelle. Nous lappliquons aux donnes textuelles. Nous nous inspirons de la mesure de (Wu & Palmer, 1994) prsente ci-dessus. Nous nutilisons pas la notion de contenu informationnel car elle serait redondante puisque nous combinons la mesure de similarit la mesure distributionnelle des termes dans les documents. La mesure de (Wu & Palmer, 1994) a t utilis par (Halkidi et al., 2003) pour organiser des documents web dans des clusters. Elle a aussi servi dans (Desmontils & Jacquin ,2001) pour valuer la proximit smantique de deux concepts dune page html relativement un thsaurus dans le cadre dune indexation dun site web par des ontologies. La mesure de (Wu & Palmer, 1994) est intressante mais prsente une limite car elle vise essentiellement dtecter la similarit entre deux concepts par rapport leur distance de leur PPG. Plus ce subsumant est gnral, moins ils sont similaires (et inversement). Cependant, elle ne capte pas les mmes similarits que la similarit conceptuelle symbolique. Ainsi on peut avoir conSim(A, f) < conSim(A,B), f tant un des fils de A et B un des frres de A. Ce qui est notre sens inadquat dans le cadre de recherche dinformation o il faut ramener tous les fils dun concept (i.e requte) avant son voisinage. Nous dfinissons spec(C1, C2) une fonction qui calcule la spcificit de deux concepts par rapport au concept le plus bas de lontologie (bottom) comme le montre la figure 3. Cette fonction servira pnaliser les concepts qui ne sont pas dans la mme ligne. Ainsi on sassure que les fils sont pris en compte en priorit et quaucun concept du voisinage ne sera plus similaire que les fils. spec(C1, C2) = N4*N1*N2 (voir figure 4) .Plus formellement : spec(C1, C2) = depthb(C) * distance(C,C1) * distance(C,C2) (8)
avec depthb(C) est le nombre maximum d'arcs qui sparent C de bottom et distance(C, Ci) la distance en nombre d'arcs entre C et Ci spec(C1, C2) est nulle si C1 est anctre de C2 ou linverse. Seront pnaliss donc les concepts voisins de C1 ou C2.
Fig. 4 Les nouvelles relations conceptuelles
Ainsi la mesure de similarit (quation (7)) devient : sim(C1, C2) =

2*depth ( C ) depthC ( C1) + depthC ( C 2 ) + spec ( C1,C 2 )
(9)
Cette mesure vrifie bien les proprits suivantes que doit vrifier une mesure de similarit : S(x,y) = 1 si et seulement si x=y S(x,y) = S(y,x),
Dans lexemple suivant, nous prsentons un extrait de lontologie Menelas ainsi que les calculs de similarits (ConSim pour la mesure de (Wu & Palmer, 1994) et sim pour notre mesure). La similarit entre behavioral_sign et constitutional_sign (lien entre frres) se trouve rduite par notre mesure, celle de behavioral_sign et chronic_stress (lien pre/fils) reste inchange. Nous nous assurons en calculant la distance par rapport bottom que sim(behavioral_sign,constitutional_sign) > sim(behavioral_sign, F), tel que F ensemble des fils de behavioral_sign.
Top subjective_sign objective_sign
ConSim(behavioral_sign, constitutional_sign) = 2*1/(2+1+1)= 0.5 ConSim(behavioral_sign, chronic_stress) = 2*1/(2+2+0)= 0.5 Sim(behavioral_sign, constitutional_sign) = 2*1/(2+1+1)+(4*1*1)= 0.25 Sim(behavioral_sign, chronic_stress) = 2*1/(2+2+0)+(3*0*2)= 0.5
behavioral_sign
constitutional_sign
stress
sedentarity
chronic_stress Bottom
Similarit entre documents
Les documents sont reprsents par des ensembles de vecteurs de termes. Chaque unit smantique gnre un vecteur. Les poids des termes sont calculs en fonction de leur distribution dans les balises. Le poids dun terme est enrichi par les similarits conceptuelles des termes cooccurrents dans la mme balise. Il est calcul pour un document et une unit smantique ( savoir la balise) donns. Ce poids not SemW(t,b,d) est calcul de la manire suivante : SemW(t,b,d) = TF-ITDF(t,b,d) +(
i:1 n ..
Sim(t,t ) * TF-ITDF(t ,b,d))/n

i i
(10)
avec Sim(t,ti)>seuil ; ti ensemble des n termes dans la balise b et seuil une valeur qui fixe la similarit un certain voisinage, nous la fixons dans un premier temps la similarit entre le concept de t et le concept contexte (concept qui reprsente la balise). TF-ITDF (Term Frequency
Inverse Tag and Document Frequency) est le poids initial attribu aux termes en fonction du document et de la balise dans lesquels ils apparaissent (Zargayouna 2004).
Fig. 4 Prise en compte de la similarit smantique Le calcul de la similarit entre les termes co-occurrents dans la mme balise nous permet de grer en partie le problme dambigut smantique. En effet, dans la figure 4 le terme t1 est rattach deux concepts diffrents. Sim(t1, t2) est gal la somme de sim(C1, C2) et sim(C3,C2), C3 tant loin smantiquement de C2, il ne sera pas pris en considration et C1 se trouve enrichi seulement par le poids de C2. Le poids smantique de C1 devient 0,3+(0,8*04) = 3,5. Il est noter que le poids de t3 reste inchang du fait quil nest rattach aucun concept. Ceci est trs important car nous permet de faire une recherche par concepts ainsi que simplement par mots cls. La similarit entre les documents est calcule par une agrgation des similarits entre les vecteurs. Les similarits entre vecteurs sont calculs par leur cosinus :
Cos (V 1, V 2 ) =
v1 .v 2
i =1 i
(11)
i i
v1 .v1
i =1 i
v 2 .v 2
i =1
La similarit entre les documents revient donc un simple calcul mathmatique entre les vecteurs qui le composent.
Conclusion
Pour intgrer la notion de voisinage smantique, nous avons utilis une ontologie de concepts auxquels sont relis les termes des documents. Dans un premier temps nous n'avons pris en considration que les liens de spcialisation/gnralisation entre les concepts. En nous basant sur la mesure de similarit entre concepts prsente par (Wu & Palmer, 1994), nous avons propos une nouvelle mesure telle que les descendants directs d'un concept sont considrs plus similaires au concept que ses frres. Nous avons alors dfini un nouveau calcul du poids des termes SemW qui tient compte de la similarit conceptuelle entre les termes du mme contexte. Le calcul de la similarit smantique lors de lindexation allge les traitements lors de la recherche. Une des limites de notre approche, tient au fait que nous supposons disposer dune ontologie de concepts relie au corpus. Rappelons que nous nous plaons dans le cadre de lindexation de documents structurs, pour lesquels on peut supposer quil existe certaines ressources sur le vocabulaire du domaine. Pour utiliser le modle prsent dans cet article, il suffit de disposer dune structure hirarchique entre concepts correspondant aux liens de spcialisation/gnralisation. Cependant, nous sommes conscientes que le calcul de la mesure de similarit par restriction sur le lien is-a n'est pas toujours bien adapt, les autres types de liens peuvent tre aussi importants dans le calcul de la similarit. Nous envisageons de travailler sur la
prise en compte dautres types de liens comme par exemple le lien de composition. De plus, dans la ralit, les taxonomies ne sont pas toujours au mme niveau de granularit, des parties peuvent tre plus denses que d'autres. Ces problmes peuvent tre rsolus, en partie, en associant des poids aux liens. L'affectation de ces poids peut tre base sur : les types de liens prsents, la profondeur du lien dans la taxonomie et la densit du concept par ses voisins immdiats. Lvaluation de notre mesure de similarit est ncessaire pour tester son efficacit ainsi que la pertinence dun tel calcul lors de la phase dindexation. Trois approches existent pour tester lefficacit des mesures de similarit (Budanitisky & Hirst, 2001): la premire tudie le cadre thorique de telles mesures par leurs proprits et les cas quils traitent, etc. Une deuxime manire consiste comparer ces mesures par rapport un jugement humain mais il est difficile de mettre en place de telles exprimentations qui porteraient sur un ensemble assez significatif de concepts. La troisime approche compare ces mesures par rapport leur performance dans un cadre particulier dune application TAL. Dans (Budanitisky & Hirst, 2001) cette application consiste dtecter et corriger des mots mal orthographis. Nous pouvons valuer directement la structure dindex. Il sagit gnralement de calculer le temps dindexation, lespace de stockage de lindex par rapport la taille de la base documentaire. Comme nous utilisons une ontologie, sa construction et son rattachement au corpus font partie de la phase dindexation. Le calcul du temps de construction de lindex ne permet pas de juger de la valeur de lindex. On peut aussi valuer la pertinence dun index en testant son impact sur la recherche, en utilisant les mesures de pertinence classiques de rappel et prcision ou lexhaustivit et la pertinence. La difficult de lvaluation de notre systme est davoir un corpus avec des balises XML pertinentes (en vue dune recherche structure) et une ontologie associe. Quand lontologie est cre partir du corpus manuellement ou par des mthodes semi-automatiques, le lien entre les termes et le concept est vident. Le problme se pose quand on dispose dun corpus de spcialit et dune ontologie du domaine, lappariement entre terme et concept nest pas toujours vident. Dans un systme de RPC, l'valuation de la similarit entre cas doit tre guide par la tche, c'est dire que les caractristiques servant l'valuation de la similarit doivent tre pertinentes par rapport au but du raisonnement. Dans notre systme d'indexation, cela pourra se traduire par une slection du vocabulaire d'indexation et des concepts reprsents dans l'ontologie. On peut aussi imaginer une pondration associe chaque unit smantique. Il est vident qu'une telle indexation ne sera pas aussi fine qu'une indexation qui s'appuierait sur une reprsentation conceptuelle de chaque cas mais elle prsente l'avantage d'tre beaucoup moins coteuse mettre en uvre lorsqu'on dispose au dpart d'un ensemble de textes dcrivant les cas. Elle facilite aussi l'intgration de nouveaux cas dans la base.
Rfrences
Alhulou R., Napoli A. & Nauer E. (2003) Une mesure de similarit pour raisonner sur des documents, Actes des Journes Nationales sur les Modles de Raisonnement, Paris, 27-28 novembre 2003 Bisson G. (2000) La similarit: une notion symbolique/numrique. Apprentissage symbolique-numrique (tome 2). Eds Moulet, Brito. Editions CEPADUES. pp. 169-201. Buckley, C., Salton, Allan, G., J. & Singhal, A. (1994) Automatic query expansion using SMART: TREC 3. In Proceedings of TREC-3. Budanitsky, A. & Hirst, G. (2001) Semantic Distance in WordNet: An Experimental, Application-oriented Evaluation of Five Measures. In Workshop on WordNet and Other Lexical Resources, in the North American Chapter of the Association for Computational Linguistics (NAACL-2001), Pittsburgh, PA. Desmontils E. & Jacquin C. (2001) Des ontologies pour indexer un site Web. Actes des journes francophones d'Ingnierie des Connaissances (IC'2001):131--146 Fellbaum C. (1998) WORDNET. An Electronic Lexical Database. In The MIT Press. Halkidi M. & Nguyen B & Varlamis I. & Vazirgiannis M. (2003) Thesus: Organising Web Document Collections based on Semantics and Clustering, Journal on Very Large Databases, Special Edition on the Semantic Web, Novembre 2003
Hirst G. & St Onge D. (1998) Lexical chains as representations of context for the detection and correction of malapropisms. In Christiane Fellbaum (editor), WordNet: An electronic lexical database, Cambridge, MA: The MIT Press . Jiang J. & Conrath D. (1997) Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings on International Conference on Research in Computational Linguistics, Taiwan, 1997. Krovetz R. (1997) Homonymy and polysemy in Information Retrieval. In Proceedings of ACL/EACL'97. Lenz M. (1998) Textual CBR and Information Retrieval A Comparison. In L. Gierl, M. Lenz (Eds.): Proc. 6th German Workshop on CBR. D. Lin. (1998) An information-theoretic definition of similarity. In Proceedings of 15th International Conference On Machine Learning, 1998. Lu, X. A. & Keefer, R. B. (1994) Query expansion/reduction and its impact on retrieval effectiveness. Overview of the Third Text REtrieval Conference (TREC-3), NIST Special Publication 500-225, edited by D. K. Harman, 231-240. Patwardham S. (2003). Incorporating Dictionary and Corpus Information in a Measure of Semantic Relatedness, M.S. Thesis, August. Rada R., Mili H., Bicknell E., & Blettner M. (1989). Development and application of a metric on semantic nets. IEEE Transaction on Systems, Man, and Cybernetics, 19(1):17--30. Resnik P. (1995). Using information content to evaluate semantic similarity in a taxonomy. In Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal. Salton G. (1971). The SMART Retrieval System - experiments in automatic document processing. PernticeHall, Inc., Englewood Cliffs, NJ. Wu Z. & Palmer M. (1994) Verb Semantics and Lexical Selection, Proceedings of the 32nd Annual Meetings of the Associations for Computational Linguistics, pages 133-138. Zargayouna H. (2001) Raisonnement par similarit pour l'indexation et la recherche dans des documents multimdia. dans Rapport interne LIMSI, N 2001-12, Juin 2001. Zargayouna H. (2004). Contexte et smantique pour une indexation de documents semi-structurs. paratre dans ACM COnfrence en Recherche Information et Applications, CORIA'2004.

Ha If A

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ha If A

Transféré par

Droits d'auteur :

Formats disponibles

Mesure de similarit smantique pour lindexation de documents semi-structurs

Hafa Zargayouna1 et Sylvie Salotti2

Fig. 1 Structure de l'index

Apport de la smantique en Recherche dInformation

Fig. 2 Extrait de Wordnet

Plus formellement cette mesure devient : ConSim(C1, C2) =

Fig. 3 Les relations conceptuelles (Wu & Palmer, 1994)

Fig. 4 Les nouvelles relations conceptuelles

Ainsi la mesure de similarit (quation (7)) devient : sim(C1, C2) =

Top subjective_sign objective_sign

Similarit entre documents

Sim(t,t ) * TF-ITDF(t ,b,d))/n

Vous aimerez peut-être aussi