Vous êtes sur la page 1sur 12
Impact de pondération des balises sur les processus de recherche d’information et de reformulation des requétes Ings Kantoun Fourati, Mohamed Ben Aouicha Moharned Tinar, Abdstinajie Ber Hanada Iustitut Supérieur &buformatique et cu Multionédia - SPAN, TUNISIE, ines kanmoun @isinasf net mnohaoned hensouicha® inti (mohamed amar abdelmjdl benbarsadou) @ simstema.ta Résumé. Ce papier présente une méthode permettant de ponder les balises un document structuré, Le but de cet acticle et alors de muesurer [allueaee le cette méthode de porsdération dans les processus de recherche information 2t de reformulation des requétes dans le cadre de le recherche information Siructurée: Pour cela nous préscntons notre mode de revherele «information structure, et noite mod2le de reformulation de la requéte, Nos présentons Sya= leanent Pintégration du calcul du poids des btises dns ces deus modes, Pour mesure l'impaet de ce poids, des expérimentations ont ig réalisges sur un er pos issu de la compagne d’ Gvaluation INEX et les sGsuliats monttent apport su notre approche 1 Introduction Le pracesss de recherche dinfrmation (RD permet de metre en elation Monsen des informations tdocuments) disponibles «l'une pa et les besoin dle Publisateur autre part expression de ees besoin seat ein ede requates, Ces regu sero mises en elation vee ensemble des documents pour permet au systme de recherche information (SRL {Cesteaire les documents porentiellement pertnents repondant a espn ae Fuster Nous assisions de nos jours une expsansion sane précéent du Web La standardisation lu Web vers des schémas NML pose de nowceaus problgmes et par la meme de nowveaus besoins pour eects personalise & information, La recherche information se pose au pre= nice phn de cete probigmatique. Ceperdant, es SRI reditonnels manipulent des documents yan flérents formas mos W explo tet pas la structure des documents lors de a phase de lasuehorche et lors de la phase de relormulation) Os un document sect est earactse pa tun contentel une sinicttire, dine par des Elément Leomime les halises les tas ou les Tabs Ceres, este dimension stractutelle doit re prise en compre dans Jes systemes rxnpe lant iels document, et on poole désormias dela recherche ¢'infomtinn structarge(RISI EL le hut de ces systems est de renvoyer di ulilisateur des éléments gui pouent éventuellepent spond:e ison hesoinintormationvel et sruetine! fexprinn sous Forme due reuse set 12) ayant une pranularité pproprice. En se basant sur le jupemtent de pertinence les systames de RIS sont également capublos de proposer & Futlisatear des alternatives isa requate Lupact tose) 595 ne’ align="tefs"> gital Libr vonent de ta cotlection INEX paml ve ges
ative Indy KAMOUN FOUR ATI et balises dune collection de documents stuetusés, LiatGgration ot Vimpuet de ee poids sur le sure provessus de reformulation de ht requdte 2) Etat de Part Ditférentes approches proposeat d'intGerer la structure et sa ponedération dans leurs mo- jon des documents XML, Dans Pinel Sausgnat et Bou er le contexte des éléments a divers niveau de granulation dlgles de recherche on ind, un nem (2006) on propose dint Le contexte Gant détin’ par toute information dgerivant les élénents non pas du point de vue conten mais par Fapport aut conteste dans lequl ils appataissent ative, teille, ancéire, des ‘ndant te. Cette mame notion de contexte 8 ince dans Hlaoua eta :20071 ors de phase de refnemulation de la requcte por réinjecton de pertinence, En et, fa reforenltinn de la neuéte est Gablie on sSloetonnant fe ferme’ ley pls pertinent 3 Piisateu et en se bysant stl notion du contexte. Mas apres leurs experimentation ls ater ont consaté que colte pertinence cantextuele semble n‘avoie que peu dinpaet su la pertinence des Le poids d'un terme est caleulg, selon Fuller et al (1993), en ve basant sur sa fréquence et sur position dans fe document. Cette position est dine par rapport a la structure logique et la stractre de mise en forme Quant sus wanaus pedsentés dans Wilkinson et Nvon 11994), ils praposent que le seures sles dilfévents termes soieat ealeulés 3 base dune combinaison avec Le seore de ['cément qui les contient, out en supposnit que fe document ne contient que des éléments de structuratinn jque et en Faisaat abstraction aus éléments de mise en Forme La prise en compre de la dimension srueturelle dans Troma (2005) et Schlieder et Meuss 12000), s‘appuie sur une représentatinn sohorescente des documents, Ainsi chaque élgnent est cargetGrisé pur nt chemin gui port de ka racine, Le poids allecté 3 chaguue terme de cet élément est ealeulé en eonsidrant ce chemin Toutes ves approches praposent dane ¢ink le recherche et de relormulation tout ea aitribuant un pouls 2 cette structure. Cependint, la plupart cle ees appraches intégrent le poids de la structure dans la porsdération des termes et ne [pronmnent pas en considération les types des ckéments ui les contiennent Dans notre approcie nous poposons de prendre ent consieration ka structure des docu= ments et de fa requdse de Pusilsateur lors la phase dappariement documentrequate et no lament lors de la phase de reformulation deka requéte, Cette prise en considération se bse est une base signification sémantique el <> tne bulive de mise en forme comenant les termes fy, ty et fle systmte doit alors censidgrer que Fic. 4 ~ Structure comsidénée Nous avons emara€ que les balises de mise en forme ont anne propriclé wes pecitique clles se pssdent géneralesnennt pas d'éléments ennts, Sime blise appara souvent eonmne tune balise feulle, elle aura tendaniee & devenit une balise de mise ea forme Ansi, nous proposons de considirer par le poids de ie dans la structure du document ou de la requé, plus le poids diminue, moins elle est révelatrice de la structure lu document. On détnit le poids d'une balise B par 7( 77) ealeulé comme suit of) NPUB) ext le nombre de fois of la balive B apparait comme un élément feulle VGH est le nombre toa apparitions de la halise 3. Le poids de la balise est dene sa proba bbe 'apparition comme un élément reuille d'un document tite alGatoirement de la collection Les poids des balises sont dans Mintervalle [0 1, [a valeur 0 est le poids de toutes les balises {qui apparsissent toujours comme des ékémeats Feuille. Pour mettre en relict la pondération des bulises pour la pestion de la struerane, nous intc= zrons ce povds lors du traitement de la structure dans les deus phases appariement dacument= requéte of reformulation 4 Impact de la pondération des éléments sur le processus de recherche Pour mesurer linypact ee la pondération des éléments sur be provessits de recherche nous prisentons en premier hou notre modéle de seeherche information siructurée. Par la suite Hots du tatement de la structure hous monttons comment es poids des balises seront inte ot pls exaetemeat Ines de appariement document-reguete par a structing Indy KAMOUN FOUR ATI et 4,1 Notre modéle de recherche d'information structurée 4.11 ‘Traitement de la structure Le traitement de Ia structure intervient dans deux phases majews dany le moddle de re cherche d'information structure: Indexation de a structancet Papparigment documenterequate par la structure de I structure Un docinnent XML peut Sire représenté par un ensemble de chemins A —» Boi le nreud A ext le parent dit pocud B La racine dun arbre XML. est le seul neue gui ne possdde pus de parents, un arbre XML T doit véritier la propristésuisante (NwNLM NV eT) ant un reeud del'arbreT et root est la racine deT La recherche de fra nents ayant ne structure similaire 2a celle de la requéie peut &tre tue comme lt recherche dhe sous-ensemies «le chemins de Parbre ds dacurment eon fonds ce ensemble de chemins qui déerivent ka requte La figure 5 montre que le document tin) contient 3 fragments gui partagens la meme struc: ture que la requate 1h (arfiele — ody hapter — section] —pf2)et article \ brady i \ chapter chapter ae Hon — | sectidn{l] seetionl2] pis P ao I, vil 2 pbs) Fic exemple darbres document et requéte, plusieurs fragerents decament Une telle mane de faine Pappariement est ate, elle ne donne aucune change ay ments ayant des structures approsimativenient similaires di eelle de ht requete deine renvoyss Un systéme de recherche d'information struciurde efficace doit renvoyer les éléments qui sé prondensesaetement i fa raqute en tte ce at ite ordonnge ivy das antes ements Pas exemple, la figure S monte que le fragment article — boxly — chapter — p 4] manque seulement le neud seetvony il est alors probublement pertinent besoin en information de Pour metire en relict cette flevibilité, nous propesons de ponalirer cheapue chemin. Le poids on chemin reflete la relation de prosimité entre dews neds «Cun mome chemi, Le poids Impwet de pondératinn des bulises en RIS gpone de la distance ent ces nveuds, le poids de la relation ditecte tparentientant) est & 11 On eonsidire deny muds 4 et 77 qui apparaissent dns un chemin. plus est distant de B dans le chemin original, moins son poids esi, Nous propason la fanetion de pondération f dlgtinie par fA Bop bedi AB 3 fof A, BY est la distance gui sépare Ade Fy dA. 8) — si et 1 vont diractement reli, Enconséquence, un document NML Senduest représenté par ensemble S p dinit comme ‘o81.N; ot Nj sont deus needs et le poids de la relation entre ces neeuls fe fin d’assurer Pappariemens flesible par shre Send, Luppariement dacument-re la rep Appariement document-requéte par la stru le structure, la neque est représentée par consisie 2 sGleetionner [arte le plus large et profond partageé par le document estate ensemble de chemtins pondén’s ES Sp cyan ka eardinalité la possible, xfpondant aux proprisiés de Parbre (Ben Aouieh etal, (2009) et Ben Aouichat et al 2010) La fi dle arbre requdte ot netiele — body, body LE shapter et chapter ©. extrait Pall extrat de arbre documtent soot sermblables, Si on ignore les poids inscrits Sur ehacun des chernins des 5 montee que tier beats terete dlouy représentions, elles ceviennent idenitigues et eles romplissent les propre de Parbre Hormule 2) Nous aulmetinns que vet ensemble de chemins pondérss extrait de Prine document est potentillement pertinent & la requeie. Son score dépend es poids aflectés aus ehernins de ensemble enrrespondant, Nous utilisons ke produit eumulati da poids de chaque chemin dans Je document pur son homologue dans la tequate, soi rees(Eiy Bil te scoreen terme de structured un sos-arire extrait du document. £2 rep Ey) Ty sot un ensemble de ehemins pods én de abe reudteesp. documents eT, = signifie que T, est Vhomologue de Tz pur exemple. chapier “5 p= chapter Pour Pevemple consiée. le score du fragment retour est PP) TE) G87 1 ‘Chayue nesuel regnit ke score di fragment retour uguel i] appartient A co niveau, et plus exsetement aut niveau de l'estimation des distanees entre ley ékiments un méme arbre XML, la prise en comple des balises de mise en page impose. Cette inte eration des poids sera préventée dans la seetion 4.2 Indy KAMOUN FOUR ATI et 4.1.2 Propagation de texte et apparie nt par le conten requéte, Ce seore est ealeulé indpendamment du score en lemme de structure comme suit bart, n}estepoids du terme das le wud net Pq ext easetble de tou es teres qui apporassent dans Heme document et a requdte. Le poids dn terme du document ext witnisiehx oi f(¢ ec est la Frquence da ermer das le meus et ef ~ Seavee Vest le nombre total c’aléments dle incllecton et rest lenombredékéments contenant Te termed. Latin 6 mone que le conten de chaque nee est props vers ses metas antes. Le scone final Wun élément XML es une combinaisn lingaire Ben Aouicha etal. 2009 es sees retro par le contenu (rs et la structure (rst) comme sit ‘oii est la requateet p. & [D, I] est un parametre permettant de renforcer la recherche selon le ccoatene ou kt structs 4.2. Intégration des poids des balises dans le traitement de la structure Lors de la pondération des chemin, fe poids du chemin Vy + Noo.) cen finetion de distance « poids des balises NZ. est enprime Vy Nal = cpl di). Nal y qui ne tient pas compte des 1, Pour ire vontanne 2 vette hypothse, plus les poids des halises saugmentens, plus le distance nite NV}, et Ny atugmente et plus le poids a du chemin Ny, Nj, augmente en conséquence La nouvelle distance d* antre deux halises doit alors véritier les conditions suivantes 1 siwtNy) 09255 OV, Na siw(Nj) = 1V25¢5 8 La valour de aes dterminge on fonction des poids dos bliss No, N3... Naot = Fly 9 En autres termes a dbtance fx la ited lone e pods des bass inerasts entre les extnémisés di chemin que Pon eherche & ponder tendent tous vers le posi ial 1 ‘On pouraalors concevoir les aes vires en chanygeant youre eanception de la distance entre Impwet de pondératinn des bulises en RIS 4.3 Expérimentations et résultats de Pimpact de la pondération sur le processus de recherche Nows avons &uabli ame série d'eypétimentations sur un corpus issu d°INEX. Le corpus cuntient 1681 Particles estiaits de publications dans 24 revues TEBE daises de 1995 3 2005 lot la taille ext d'environ 750 mg hits Pour la sche VWCAS dans la quantification srete nous atons et une amgloration de lu saleur de MAgp (KAZAL G, (2 poor la meme quantification pour le tebe VSCAS nous «bons etme amelioration de 19, 7% La prinipale indignation 6 & entegistnée pour la tache SSCAS, ot hes performances ont presge dou: Le ableau 1 allusire les résultats ebtenas pou la ticbe SSCAS ea utilisant [indexation des 10, nC G25).nurCC IN et MA RAZATG. (20051 O51 qui est passe de 199 A IDIC hhalises au niveau de 2.6 nian moo Deo Deo Lp 7 Tan] OT Tm Pe Te prs [0.1000 _[o.osoo | o.o50 Ds T a apes | oses 0.0653 fires Toot Wane | OTzEy [OT Tae Apes Looser —Laoesa Loans Loon: nus pour la tiche SSCAS awe indexato us de 5 Impact de la pondération des ééments sur le proces reformulation de la requéte Pour mestrer impact de la pondraton de ments sur le rovesus de refomwaton de fs equate, nous présentons en premier lew nowe modsle de reformulation par rinjeetion de pertinence qui se base essentiellement sur étude et analyse des stnactures des fragments de document jagGs pertinents par Futilisateus, Notes modele de relormulation vise a repérer le ekgmenis fes plus pertinents 4 "ubilisateur et leurs relations entae eu Conmne nn approcke se hase essentiellement sur [étude de la structure, les poids des lémenis sera intépré dans oe eontevte 5.1 Notre approche de reformulation de requé tinence 1c par ré-injection de per- Dans note approche nous proposons d'Studier la rogue initiale ans) yue ensemble des ens juges pertinent par utlisateu tout en mieten aecent sur Psoulyse des structures resnectives, Nowe approche ve hase sur deus phaves majeurs La premigre vise i représenter kt requdte et les fragments pertinents dany une meme strtciure representative ds parti de la quelle a dounidme phase vised réverite la requdte& pantie de la strueture Indy KAMOUN FOUR ATI et 5.11 La représentation de structure de la requéte ot des fragments pertinents Liappriche proposé par Recchio Rocelio (1971) demieare Pupprnche la plus popubaire any la telormulation de requéte par tinjection de pertinenee. Elle propose de reprcsenies les documents pettinents et non pertinents par leurs centres de pravilé respectfs. Seulement celle approche « nettement prouvé son efficaeité dans ht recherche d'information classique basse sur une reprSentation vevtorielle et reste dlfcile 2 adapter dans bi revherehe RIS ‘ue quelle se base Sur une repr’sentation a dimension unique. De noire pant, et dans le cadre le relirmulation de ka reqpte dans la recherche structurée, nous pensons gwune dimension saditionnelle us pene de repréenter les objets en question, & Soir ha requste ite ensemble des documents pertinents, Pour eel nous aons pensé & représenter ces derniers sous forme matrivielle appele maurice de desvendaies Ainsi, nous eonstruisons pour kt siructure de requete et pour la structure des chaque doe mnt pertinent une mrattioe de descendance, Cette matriee est déinie comme suit My|A, B) = Paw 10) ‘ob F ext un are tou sous arbre! XML. et vont des sléments de MarbreT et west le pois le Pare enite A et B caleulé por la fonction de ponkléation J ine dans a Formate [3] Pest tune eonsiante uilisge pour avcentaer I importance de la sntcture de wegute par rapport aus structure des autres fragments, En eff, 3 Pinstar de la méthode de Racchio, la valeur de 2? pour la constuction dela mattice do deseendance de la roquste est chosie supérieuze 8 celle ‘pour kt construction ds autres matrives de deseendanees utilisation du poids caleulé par la cistnice dtinie dans lt fommule [3] nous permet de r= prneres erigee de lelté das SRI. Erfovtivement, parev init le sytéme permet de prendre cn eonsidération des structures pettinentes (a besoin ee ubsateiry qu ne sont foreément puts ideatiques & la structure de la soquste. Le poids 9 pemiot dane de consdérer que ebague “hémeat ext reli avee ensemble de ses descendants, ais avec des degre dillcrents Dans noire approcke, nous proposons de egrouper les dllgrentes mateives de deseeninice co ume structure representative nigue sous une Teme matricille(Fourat et al 2000, Cette stoicture, pele est dfinie comme suit a BL SS MnlA.B Ave P= (fr. fof Reg est ensemble liens fragt prtinets par Pubilisatenr et la requete initiate. bet F8 sant des éléments et Fest ensemble de ous les ‘lgments représentés dans les différentes matrices de deseendance Pour réecrire la roqute, nous proposons en premier lieu d'idenitfer la racine de ka nouvelle equate & nombre Glevé de descendants et un nombre wut 'aneétres, Pour eel, pour identifier la tacine urtir de Ja structure 5 obyenue préeédenmnent, Lit ravine est cargetérisée pwr un 5 partir de, i suit de trouver Pélmenis ayant des valeurs clevés sur la ligne correspondante ‘ot des valeurs faibles sur la colonne eorrespondante (Fourati et al. (20061), La racine P est Impwet de pondératinn des bulises en RIS A= arennys Une fois la racine identitige, nous procédons un développement rcursf de ba Soucture cle la nouvelle requate, ent se hasant sur les valeurs représentGes dans la structure S. Le développement ek 'arine commence, bien &viderament, par lt ravine #2, puis par miner tous les éléments tls de R cette méme opération est effectude ewsivement pou les fils de Pjusqu’h arriver auy ékiments Feil Chague element est développeéen li stribuant les Clements fils Belont la valeur SLA, Bl >> ext caleulé a partir de la moyenne yy et de ['Geant type 4 des poids des cle rms ils de A et est dein’ par Seaity parson ul Si ka valeur de > est relat oti ab Virb fement Glevée, Purbre resulta aa fendane 3 tre peu profond et peu rnnifié et nversement 5.2 Intégration des poids des bi de requéte es dans le processus de reformulation Lastmeture S construite ti partir des différentes marice de descendance regroupe ainsi sous les ekéments des fragments jugés pertinens par Putlisateur Ces fra nGralement Jugs selon leur contenn testuel, ef peuvent done contenir des éléments qu sont pou pertinents uw besoin de Puilisateur point de Yue structure), corm les éléments de mise en pause ou de mise en Forme Ainsi, nous tenons en considératinn, lors de la rGeerinure de la structure de la requete, des poids des balises présentés peScodemment. Pour cela, et lors du développement sSeursif de a structure de la requéte, now attrituons & élément A (en cours de développement élément Become fil si S[A. BI > Seuss [scerminge par esperimentation ui eprésente le seul partied quel un Glément est considéré » Seu Ave Sratfo:ds est une eonstante porteur de sémantique structurelle ion sur le Expérimentations et résultats de 1 processus de reformula pact de la pondér: de requéte Pour mesurer Pintégration des poids des bullses das le provessus de reformulation de equate, nous comparoas Les valeurs oblenues des dilléeentes mesures proposses par la com ne INEX IKAZATG. (200511, avant et aprds integration de ee poids. Cette comparison cot reprssent Nous emarquons que les valeurs ont &ié amidtiorées et vec’ prouse impact de Piniégration clu poids des hulises dans le processus de relormnulation dy ka equcte 'Notons 4uaice niveau, nous comparons ls salou obrenties avec le processus de reform: lation par rapport integration ale ka ponelération des balises. La compstaison de ees valeurs avant et apres le processus de reformulation, n'est pas pecseniGe dans eet article Indy KAMOUN FOUR ATI et Te po 7 7 apes Lows Loses Pope Lose 7 Teme [OT a Ta Apes Lo2iit — Lo2ris Po2znny Loorsa Towne Avan | OT Apros | D2716 Tp on TOE Bor | onus Tan. 2 = Réstte tice VVEAS 6 Conclusion Dans ext ate senté une approche qui propose ¢'attrbuer unt poids uy différents éléments constitu un 1 dus le care de la recherche "information structure, nous avons pre Jocument XML. ou une requcte fn ubilisatenr, Le but de ee poids est de représenter "impor Kiments qa ont * éléments de mise en page et de mise en forme du document gui les contieat tance de I'élément point de vue sémantique structelle et climiner ainsi les tendanee Acted Nous avons présensé épalement notre mode de recherche d information base sur un ale rithms qui tate le contenu indépendant de la structure, tout en montant Vntgyraton et Fampaet des pods ated uy éléments Nous akon également préveot’ notre medale de reformulation dha requéte par xinjection de pertinence hasée sur ue représentaion mteiielle de la requste initiate de utsateur ot Jes frazments jus pertinent pot ce dernier et nous avons été impact de Pntéyraton de la ponderaton des €léments sure prucessis Ceruines perspectives s‘ouvrent dans ce contexte, Nous pensons ue le poids eaeulé pou chaque egereat pout ae pss dspendre uniquement de lt féquenee dans toute fa collection cde sa position eas ha italité des dheuments, Done ninus envi ons de ealealer be poids relativemient di un document et non 2 toute la co Leetion. Ce poids pourait Qgalement Ete utilisé dans le cadre de présentarion des résultats de recherche pour [utilivatear, ‘out en dilenciant Références Ben Aouica, M.,M. Tou eM, Bou: sexl ona probabilistic content and structure sare combination, ACM S) Coinpuring (SAC), Sterne, Switverband, 21/08/2019 267032010, 1728 Bon Aouicha, M.. M. Thar, M. Boughasem, et M- Abid (200% Eyperiments on element and Gocunent staties for sanl retrieval hased on tree matching fernetionat Journal of nem (2010), Flesible document-query marching ha siwnion Applied nfonraation Sciewre and Bnginwering, AICISE 311), 716, co Fourati, 1K, M, Tor, &( M- Boughamtem (2006), Relornulation automatique de la requeie eurockirehe ¢ information structux6e, Ln INFORSID, pp. 263-274 Fourati, K., M. Tmat, et A. B, Hamadow (2009), Siruetural relevance feedback sm_sml roirieval. In T, Andreasen, R. R. Yager, H. Bulskos, H. Christiansen, et H, L. Larsen Bas, OAS, Volume 5822 of Lecture 8 1 ie Computer Science, pp. 168 U8, Springer Impwet de pondératinn des bulises en RIS Fulles. M..E, Mackie, R. Sacks-Davis, et R. Wilkinson (19931, Coherent ansiiers for ala structured document collection. In R. Korthage, B. M. Rasmussen, et PW. O0102 Bas. SIGIR, pp. 204-213, ACM Hlaoud, LM, Boughaner, et K, Pinel-Sauvagnat (2007), Combination of Esidenees in Re! vanee Feedback for XML Retrieval. In Conference on Information and Knowledge Mana vient (CIKM}, Lishorme, Porigat 06/1 /07-09/1 107, up fia acta ons, py 883-896 ACM Press KAZALG.,L. M. (2005), Ines 2005 evaluation metrics {VEN 2005 Warksiop Prceedingss 2011-406 Pioel-Sausagpat, K, et M, Boughanern (2006), Propositions pour la por aluation de la pestinenee des i iggments en recherche d infor Injonvition -Ineraction -Iniefigence 6.35 77-98 tio des termes ion set ge Rochio, J. 1971), Relevance feedback in information retrievat (Boglewoedl Clills, NI ed) Prentice Hall Ine Schlieder, Tet H. Meuss 12002), Querying and siking snl documents. Journal af the Ancerican Society for kyfornation Scie Teelmalowy 53. Trotman. (20051, Choosing ducurtent structure weights. dye Process, Manage. 482), 243 264 Wilkinson, R. et R. W. Noon (1994), Bifective retrieval of structured documents Summary We aiim to show the impact of dis weight on the retrieval process anu! relormuhation one in structured information reireval. We present so our information reiriesal model an our reformulation ope, ard then we deseribe hex in show nur proposition’s feasibility, experiments were made on INEX corpus srate weiehting aproach in these models. Te

Vous aimerez peut-être aussi