7 PDF

État d’avancement de thèse: 1ère année
Recherche d’informations sur le Web pour la validation

puis le peuplement de nouvelles bases de données
Vincent Bouvier *,**
*Laboratoire des Sciences de l’Information et des Systèmes

Domaine Universitaire de Saint-Jérôme
Avenue Escadrille Normandie-Niemen
13397 MARSEILLE CEDEX 20 FRANCE
{prenom.nom}@lsis.org
**Kware
Le Mercure A, 565 rue Berthelot
13851 Aix-En-Provence Cedex 3 FRANCE
{prenom.nom}@kware.fr
RÉSUMÉ. Ce document a pour but de présenter les différents travaux effectués durant cette pre-
mière année de thèse. Un état de l’art puis les différentes contributions scientifiques sont pré-
sentées. Les perspectives pour la suite de la thèse sont ensuite annoncées.
ABSTRACT. This document is aimed to show the researches done during the first thesis year.
A state-of-the-art and an abstract of the different submissions are detailed just before giving
perspectives for future works.
MOTS-CLÉS : recherche et extraction d’information, temporalité, expansion de requête, entité
nommées
KEYWORDS: information retrieval, information extraction, temporality, query expansion, named
entities
V. Bouvier
1. Introduction
Cet article a pour but faire un point sur ce qui a été abordé durant la première an-
née de thèse qui a débuté en Janvier 2012. Cette thèse est le fruit d’une collaboration
entre le laboratoire du LSIS de Marseille et l’entreprise Kware (se dit K-ware). Cette
thèse est encadrée par Patrice BELLOT et est supervisée dans l’entreprise par Michel
BENOIT. L’entreprise Kware travaillant dans le domaine de la Recherche d’Informa-
tion (RI), domaine dans lequel M. Bellot est reconnu pour ses différents travaux dans
l’expansion de requêtes, ou encore sur la classification de documents retrouvé avec un
système de RI. Il est également très présent sur des sujets qui relève du Traitement Au-
tomatique des Langues (TAL), et notamment dans le cadre de campagnes d’évaluation
comme CLEF (Cross Language Evaluation Forum) dans la tâche Question Réponse
. Il est donc tout naturel que la thèse présentée dans ce document soit également un
sujet qui relève de la RI.
Dans cette thèse, nous travaillons à la fois sur la notion d’implication textuelle
et la recherche d’informations sur le Web. Il faudra pour cela trouver des approches
nouvelles permettant de retrouver, sur le Web, des textes qui ont permis de peupler
des bases de données. Il s’agira aussi de trouver de nouveaux textes pour alimenter la
base de données en question. Cette tâche peut s’apparenter à une autre tâche ad hoc de
RI si elle n’ajoutait pas la notion de temporalité. En effet, il faudra pouvoir vérifier la
véracité des données concernant une entité à un instant t. Il faudra aussi être capable
de mettre à jours les données lorsque de nouvelles informations apparaissent sur le
Web. Nous devons pour cela déterminer :
– quelle(s) écriture(s) de requêtes permet(tent) d’obtenir le meilleur ensemble de
pages Web pour retrouver les informations contenues dans la base de données ;
– une méthode permettant d’identifier, à l’intérieur des pages Web, les zone infor-
mationnelles les plus pertinentes (Carlson et al., 2008, Kopliku et al., 2011) ;
– une méthode permettant d’établir, et d’estimer, le lien entre les informations
contenues dans la page et les informations de la base de données.
Le département de recherche et développement de l’entreprise Kware réalise des
études dans le domaine de la RI et notamment pour un organisme renommé dans le
domaine du marketing. Cet organisme fournit un ensemble de données sur différents
types de produits vendus à travers le monde. Ce corpus nous permet d’évaluer nos
résultats sur des données industrielles. Il contient des libellés de produits qui sont en
réalité un ensemble de mots qui caractérisent des produits (par ex. une catégorie, la
marque, le modèle, des caractéristiques...). Nous utilisons (pour le moment) dans cette
étude uniquement les libellés qui ne caractérisent qu’un seul produit à la fois. L’idée
c’est de retrouver, à l’aide du web, des informations sur les produits en questions pour
ensuite les extraire et les structurer.
Cette problématique industrielle s’inscrit donc parfaitement dans la problématique
posée dans cette thèse avec les différentes phases que l’on peut retrouver comme le
Short Title
pré-traitement des requêtes, la recherche d’information, le filtrage et l’extraction d’in-

formation.
La suite de cette article est composée d’un état de l’art orienté sur le premier et
le second point des différentes étapes de cette thèse. Il est ensuite suivi d’une partie
traitant des différentes contributions scientifiques qui ont été apportées jusqu’à aujour-
d’hui. Enfin l’article se terminera avec une conclusion et les perspectives de travaux à
venir.
2. État de l’art
Dans le domaine de la RI et de l’extraction d’information beaucoup de travaux

ce sont focalisés sur la population de base de données à partir du Web. Les modèles
de RI "classiques" définissent l’importance d’une information par rapport à une re-
quête en utilisant des mesures tel que le TF.IDF, OKAPI BM25. Celles-ci déterminent
l’importance d’un document en fonction de l’apparition des termes de la requête dans
celui-ci et de la rareté de ce terme dans une collection de documents. Cependant ces
méthodes ne permettent pas de vérifier si l’information délivrée par le document est
vrai, ou, si la source du document est de confiance. Certaines approches dérivées du
PageRank (Page et al., 1999) utilisent des notions de "marche aléatoire" pour estimer
les probabilités d’obtenir un document en question en fonction des hyperliens parcou-
rus par un graphe (Diligenti et al., 2002). Cependant nombre de ces méthodes sont
alors insuffisantes dans certains cas (informations crédibles mais peu diffusées ou par
un petit nombre seulement, stratégies commerciales faussant l’estimation de la popu-
larité...). D’autres systèmes ont plutôt tenté de mesurer le crédibilité globale d’un site
(Balakrishnan et al., 2011) pouvant ainsi obtenir plus de documents pertinents.
Dans le cadre de la tâche question answering (QA) de la campagne d’évalua-
tion Cross-Language Evaluation Forum (CLEF), de nouveaux travaux sur l’évalua-
tion permettant de valider ou d’invalider une information (Glöckner, 2007, Peñas et
al., 2008, Rodrigo et al., 2009) montrent qu’il est tout à fait possible d’améliorer les
réponses apportées par un système classique de QA. À partir de 2009, une nouvelle
tâche (RTE5) a été introduite dans la campagne d’évaluation Text Analysis Confe-
rence (TAC) qui consistait à retrouver, dans les textes, les phrases qui permettent de
déduire la validité d’une phrase proposée comme candidate à faire partie d’un résumé
des documents (Bentivogli et al., 2011). L’année suivante, ce sont les systèmes de
peuplement de bases de connaissances qui ont été testés puisqu’il s’agissait alors de
retrouver les phrases qui permettent de justifier des informations précises (par exemple
la nationalité d’une personne).
Les bases de connaissances comme Wikipedia, sont des ressources très utilisées
notamment dans les travaux relatifs aux entité nommées. L’engouement a été renforcé
par les différentes campagnes d’évaluations TAC dans la tâche “Knowledge Base
Population" (KBP) et la Text REtrieval Conference (TREC) avec la tâche “Know-
ledge Base Acceleration" (KBA). Ces deux tâches sont complémentaires. La première
V. Bouvier
consiste à lier une entité nommée apparaissant dans un document issue du web avec
un noeud d’une base de connaissance lorsque cela est possible. La tâche KBA se
concentre elle sur la mise à jour d’informations concernant une entité en observant un
flux de documents (apparition de nouveau document sur une ligne temporelle). Les
participants doivent essayer de détecter, sur ce flux de documents, ceux qui sont re-
latifs à un ensemble d’entités données. Il faut par ailleurs, être capable de déterminer
que le document trouver à de l’importance pour l’entité de part le contenu informatif
qu’il véhicule. KBA est une tâche récente qui a commencé en 2012. Elle pose le pro-
blème suivant : dans les bases de connaissance comme Wikipedia, le nombre d’entités
est beaucoup plus grand que le nombre de contributeurs. Ceci se répercute alors sur le
temps médian de latence qui est de 356 jours (Frank et al., 2012).
Le World Wide Web (WWW) constitue une base phénoménale de documents, tel-
lement immense qu’il est parfois difficile de trouver des informations précises sur
un sujet particulier. Les systèmes de RI du web, les moteurs de recherche, sont des
systèmes qui se base sur la recherche par mots clés : les requêtes. Lorsque cette der-
nière est bien formulée et que celle-ci ne contient pas de mots qui soient ambigüe
les moteurs de recherche actuels permettent généralement de trouver l’information
recherchée. C’est une tout autre histoire pour les requêtes qui contiennent des mots
mal orthographiées, ambigües, ou tout simplement que le besoin est mal formulé.
Des méthodes dites d’expansion de requêtes ont pour but de reformuler une requête
en ajoutant, supprimant ou modifiant des mots. Il a souvent été vue que l’expansion
de requête tant à améliorer les résultats de manière assez significative (Lüke et al.,
2012). Parmi elle on retrouve des méthodes qui font appelle à des bases de connais-
sances comme WordNET, des dictionnaires, des ontologies (Mihov et al., 2004, Ba-
rathi et al., 2010, Klyuev et al., 2011). Ces méthodes bien qu’offrant globalement de
bonnes performances souffrent d’une complète dépendance à ces ressources linguis-
tiques. Ces ressources sont un frein considérable lorsque l’on travail dans un domaine
multilingue puisque celles-ci sont difficiles à constituer. D’autre méthodes non super-
visées comme le retour de pertinence1 (Rocchio, 1971, Xu et al., 1996) permettent
également d’améliorer la pertinence des résultats. En utilisant les résultats obtenus
avec la requête de départ, le retour de pertinence retrouve un contexte, des mots clés,
et les ajoute à la requête trouvant ainsi un plus grand nombre de résultat. Il est alors
possible d’augmenter considérablement le rappel. En revanche, si la requête de départ
est mal formulée, la précision peut chuter du fait de la dérivation du sujet de départ.
3. Contributions scientifiques
3.1. Méthode non supervisée pour l’amélioration d’un corpus de requêtes
Cette première contribution scientifique a fait l’objet de trois soumissions. La pre-

mière à la conférence internationale ECIR2013, qui a été refusée. La seconde a été
acceptée à la conférence francophone CORIA2013 (Bouvier et al., 2013). Enfin nous
1. Pseudo Relevance Feedbac, PRF

Short Title
attendons la notification aux auteurs pour la soumission à la conférence internationale

ACL2013.
Dans ces articles nous présentons une approche non supervisée qui permet d’amé-
liorer des requêtes. Nous utilisons comme données d’entrée les libellés fournis par
l’organisme avec lequel Kware travail. Ces libellés sont constitués de mots clés qui
définissent un produit. Nous utilisons ces mots clés en temps que requête pour recher-
cher des informations sur les produits en question sur le Web.
Nous ne savons pas réellement comment ces données sont constituées : les diffé-
rents libellés sont ils écrient par un humain, sont ils générés par un système spéci-
fique ? Ce que nous savons en revanche c’est que les libellés peuvent contenir, pour un
grand nombre d’entre eux, des mots qui sont : mal orthographiés ; auxquels il manque
la racine du mot ; où les lettres sont dans le désordre. Autant de types d’erreurs qu’il
est difficile d’établir un profile type des erreurs qui apparaissent. Par ailleurs, l’orga-
nisme qui nous fournit les données est un organisme internationale et donc on doit
être capable de travailler dans différentes langues. Les approches utilisant des diction-
naires ou bases de connaissance ne peuvent être envisagée puisque cela impliquerai
d’avoir de telles ressources pour toutes les langues.
Nous avons mis au point une approche qui permet d’améliorer l’écriture des mots
utilisés dans les libellés afin de les utiliser sur un système de RI en tant que requête.
Le but étant de trouver pour chacun des mots du corpus l’écriture la plus juste et la
plus utilisée. Nous avons constaté que les mots bien orthographiés du corpus avaient
tendance à avoir une probabilité d’apparition plus forte que les différentes variantes
de ces mots. Par ailleurs, les mots bien orthographiés et leurs variantes présentent des
similarités graphiques. Nous avons alors développé un algorithme qui se déroule en 3
étapes :
– Un sac de mot est créé à partir du corpus complet de libellés ;
– Les mots présentant une similarité graphique sont regroupés ensembles ;
– Pour chaque groupe, un mot est sélectionné pour devenir le mot qui remplacera
tous les autres appartenant au même groupe.
Cet algorithme utilise pour le regroupement une mesure de similarité basée sur une
distance d’édition (Levenshtein) que nous avons personnalisé en ajoutant une pondé-
ration. Cette pondération varie en fonction de la longueur des mots qui sont confrontés
ainsi que l’emplacement des différentes variations entre ces mots. Les variations pou-
vant être des ajouts, des retraits ou des substitutions de lettres. Nous utilisons des
statistiques distributionnelles et des graphes pour la phase de sélection du mot “re-
présentant" un groupe. Le tableau 1 montre un exemple d’entrée et de sortie de notre
algorithme. Afin d’amoindrir le nombre d’erreurs induites par les accents, chacune
des lettres accentuées sont remplacées par leurs équivalents non-accentués (par ex. é
devient e).
V. Bouvier
Libellés de départ Libellés en sortie d’algorithme

BODCH REFREGERATEUR KDV3 bosch refrigerateur kdv3
REFRIG.2P.CANDY CRDS6172W M+ refrigerateur 2p candy crds6172w m
FRT423MX CONGEL-REFRIGERATEUR frt423mx congelateur refrigerateur
REF US 628L SAMSUNG RSG5PUBP refrigerateur us 628l samsung rsg5pubp
Tableau 1. Exemple de libellé appartenant à la catégorie “Réfrigérant" en entrée et

en sortie de l’algorithme.
Nous avons évalué notre méthode à l’aide de trois systèmes différents. Le premier
nous permet de mesurer l’impact qu’a notre fonction de pondération sur le regroupe-
ment des mots en comparaison à une similarité non-pondérée. Le tableau 2 montre
les résultats obtenus lorsque l’on utilise une similarité avec une distance d’édition
normalisée sans pondération (LEV_75 et LEV_85) et avec (SP). Un paramètre cor-
respondant au pourcentage de similarité permettant le regroupement est utilisé pour
chacune des mesures de similarité : 0,75 (LEV_75 et SP) et 0,85 (LEV_85). D’après
ces résultats on se rend compte que notre méthode de pondération permet d’apporter
le meilleur compromis entre précision et rappel.
Précision Rappel
LEV_75 64,14% 94,00%
LEV_85 100,00% 37,25%
SP 72,36% 97,54%
Tableau 2. Précision et Rappel de l’évaluation des mots regroupés utilisant la dis-

tance d’édition normalisée avec un seuil de similarité ≥ 0, 75 et 0,85 (LEV_75,
LEV_85) et la similarité pondérée avec un seuil ≥ 0, 75
La deuxième évaluation consiste à évaluer la pertinence des résultats obtenus avant

et après transformations des libellés. Cette évaluation nous a révélé que nous avons
obtenu 10%, soit 30 documents pertinents en plus en utilisant les requêtes traitées par
notre algorithme.
La dernière évaluation nous a permis de testé notre système sur un système un
peut particulier : Google Suggest. Ce système fait de l’expansion de requête de ma-
nière interactive (Carpineto et al., 2012). Il propose à l’utilisateur des mots, en fonc-
tion de ceux que celui-ci a commencer à taper. Nous avons construit deux corpus en
utilisant l’interface de Google. Pour le premier corpus (GS_1), nous tapions simple-
ment le mot mal orthographié et nous avons ensuite sélectionné le premier mot que
Google Suggest nous suggérait (figure 1, cas 1). Pour le deuxième corpus (GS_2) nous
avons commencé par taper des mots correspondant au domaine de la recherche (par
ex. “téléphone mobile"), puis nous avons tapé le mot mal orthographié pour ensuite
sélectionner le premier mot que l’interface nous propose (figure 1, cas 2). Nous avons
alors soumis l’évaluation des deux corpus de Google Suggest et du notre (WS_1) à 6
personnes d’âge et d’orientation professionnelles différentes.
Short Title
Figure 1. Interface Google Suggest pour les deux types d’évaluation : 1, le mot clé
sans le contexte ; 2, le mot clé avec le contexte.
Il apparait dans cette évaluation (tableau 3) que la méthode que nous proposons
donne des meilleures réponses que Google Suggest. Nous avons relevé les cas où
une majorité des personnes interrogées sont d’accords entres elles, notre algorithme
réalise un score de 87,5% de bonnes réponses contre 68,37% de bonnes réponses pour
le système Google Suggest avec le contexte et 66,96% de bonnes réponses sans le
contexte.
NO YES
GS_1 33,04% 66,96%
GS_2 31,63% 68,37%
WS_1 12,05% 87,95%
Tableau 3. Pourcentage de bonnes et mauvaises réponses dans l’évaluation des deux

corpus de Google Suggest (GS_1, GS_2) et du corpus généré par notre algorithme
(WS_1)
3.2. TREC : Knowledge Base Acceleration
Les différentes tâches proposées dans les campagnes d’évaluations TAC et TREC
sont des opportunités de rassembler des chercheurs sur une même problématique.
L’engouement pour la population et le maintient à jour des bases de connaissance
a été renforcé par ces campagnes d’évaluation avec les tâches Knowledge Base Po-
pulation (KBP) et Knowledge Base Acceleration (KBA). Nous avons travaillé avec
Ludovic BONNEFOY, un doctorant du Laboratoire d’Informatique d’Avignon (LIA),
sur la tâche KBA.
La tâche KBA est vraiment spécifique de part son corpus : un flux de documents.
Chacun des documents du corpus sont datés par heure (de début octobre 2011 à fin
avril 2012). Lorsqu’un document est observé, il est interdit d’utiliser des documents
qui apparaissent plus loin chronologiquement. Une partie de ce flux était annoté afin
de fournir au participant un ensemble de données pour entrainer leurs systèmes. Les
organisateurs de la tâches donnent aux participants une liste d’entité nommées issue
de wikipedia (tableau ??). Ces entités sont choisis notamment pour leur ambiguité.
L’idée originale de KBA est de retrouver sur un flux de documents, les informations
importantes concernant une entité pour avertir les contributeurs qu’une page doit être
mise à jour. Pour la première année, la tâche se voulait “simple". En observant le
V. Bouvier
flux de document de manière chronologique, les participants doivent filtrer les docu-
ments qui concernent les entités sélectionnées. Lorsqu’un document est sélectionné,
une classe d’importance doit lui être attribué : non pertinent (bien que le document
mentionne l’entité, aucune information précise la concernant n’est présente), perti-
nent ou central. La notion de document central est capitale dans cette tâche car c’est
la capacité des systèmes à trouver les documents de ce type qui est mesurée. Un docu-
ment est considéré comme central si il apporte une information majeure sur l’entité et
devrait absolument figurer dans l’entrée correspondante (ici sa page Wikipedia). Par
exemple, pour l’entité Barack Obama, un document mentionnant une visite diploma-
tique est pertinent mais non central tandis qu’un document discutant de sa réélection
l’est. Notons que la question de la nouveauté de l’information a été mise de côté pour
l’édition 2012 de KBA.
Aharon_Barak Basic_Element_(music_group) Bill_Coen

Annie_Laurie_Gaylor Basic_Element_(company) Alex_Kapranos
Alexander_McCall_Smith Boris_Berezovsky_(businessman) Darren_Rowse
Charlie_Savage Boris_Berezovsky_(pianist) Lisa_Bloom
Frederick_M_Lawrence Ikuhisa_Minowa Jim_Steyer
James_McCartney Douglas_Carswell Lovebug_Starski
Mario_Garnero Nassim_Nicholas_Taleb Masaru_Emoto
Rodrigo_Pimentel Roustam_Tariko Ruth_Rendell
Satoshi_Ishii Vladimir_Potanin William_Cohen
William_D_Cohan William_H_Gates,_Sr
Tableau 4. Liste des entités wikipedia donné aux participants de KBA.tab :wikientities
Les meilleurs systèmes de KBA 2012 ont employé des approches relativement
simples. (Kjersten et al., 2012) utilise un classifier SVM sur les mots et les entités
nommés rencontrés en tant que composante vectorielle. En revanche, (Araujo et al.,
n.d.) considèrent un document comme central à partir du moment où il contient l’en-
tité telle quelle. Notre approche, classée troisième parmi celles de onze équipes, est
basée sur l’utilisation, en deux étapes, de classifiers pour déterminer le degré d’intérêt
d’un document. Notre but est de proposer et d’étudier quels indices caractérisent un
document "central". Par ailleurs, nous souhaitions avoir une approche qui ne soient pas
dépendante des entités. Beaucoup de participants ont appris des modèles par entités
rendant ainsi leur système fortement supervisé. Les éléments étudiés appartiennent
à trois catégories : prise en compte du temps, caractéristiques des occurrences des
mots-entités dans le document et présence d’entités liées connues.
Pour la plupart des entités, nos approches, avec différents paramètres, obtiennent
un score supérieur au score médian et cela semble d’autant plus vrai que les enti-
tés sont “difficiles" (plus particulièrement certaines entité comme James McCartney,
Vladimir Potanin, Lisa Bloom et Charlie Savage). Un élément d’explication nous est
apporté le nombre de documents par entité et par heure. Deux de ces entités (McCart-
ney et Savage) présentent des successions de pics importants et la prise en compte
Short Title
dans notre approche du facteur temps est probablement à l’origine de ces bons résul-
tats. Cependant, la présence de successions de pics ne signifie pas systématiquement
l’obtention de bons résultats. Nous obtenons en revanche de faibles résultats pour
Basic Element, le groupe musical, et Boris Berezovksy, le pianiste, qui s’expliquent
principalement par l’existence d’homonymes qui sont de plus très présents dans le
corpus.
Jusqu’à aujourd’hui, nos travaux sur cette tâche nous ont permis d’avoir trois pu-
blications. La première dans les actes de la conférence TREC2012 (Bonnefoy et al.,
2012), la seconde dans la conférence CORIA2013 (Bonnefoy et al., 2013b). Nous
avons continuer nos expérimentations et travaux sur cette tâche et avons réussi à amé-
liorer nos résultats et font l’objet d’un article court qui sera publié dans les actes de la
conférence SIGIR2013(Bonnefoy et al., 2013a).
4. Conclusion et perspectives
Dans cet article, nous avons parlé des différents travaux déjà réalisé durant cette
première année de thèse. Deux des points fondamentaux du sujet sont actuellement en
cours d’exploration : l’amélioration de l’écriture des requêtes et la recherche de page
contenant des informations pertinentes. La tâche d’extraction d’information quant à
elle n’a pas encore été explorée.
Concernant l’amélioration de l’écriture des requêtes, notre méthode donne de bon
résultats sur les corpus industrielles. Nous aimerions la tester sur d’autres collections
(publiques) qui pourraient nous permettre de mieux se comparer à l’état de l’art. Nous
aimerions voir également si notre approche peut permettre d’amoindrir les erreurs
dans les environnements de reconnaissance optique de caractères. Aussi, Kware pense
utiliser l’amélioration de requêtes afin de voir si cela peut améliorer les résultats d’une
classification.
Avec Ludovic BONNEFOY, nous allons participer cette année encore à TREC sur
la tâche KBA, et j’aimerai participer également à la tâche “Temporal Summarization"
qui commence cette année. Cette tâche va me permettre de commencer un travail sur
l’extraction d’information, tout en gardant l’aspect temporelle et de nouveauté.
5. Bibliographie
Araujo S., Gebremeskel G., He J., Bosscarino C., de Vries A., « CWI at TREC 2012, KBA Track
and Session Trac », á paraitre dans Proceedings of The 21th Text REtrieval Conference
(TREC 2012), n.d.
Balakrishnan R., Kambhampati S., « SourceRank : Relevance and Trust Assessment for Deep
Web Sources Based on Inter-Source Agreement », the 20th international conference, ACM
Press, New York, New York, USA, p. 227, 2011.
Barathi M., Valli S., « Ontology Based Query Expansion Using Word Sense Disambiguation »,
arXiv preprint arXiv :1003.1460, 2010.
V. Bouvier
Bentivogli L., Clark P., Dagan I., Dang H., Giampiccolo D., « The seventh pascal recognizing
textual entailment challenge », Proceedings of TAC, 2011.
Bonnefoy L., Bouvier V., Bellot P., « LSIS/LIA at TREC 2012 Knowledge Base Acceleration »,
TREC ’12 Notebook, 2012.
Bonnefoy L., Bouvier V., Bellot P., « A Weakly-Supervised Detection of Entity Central Docu-
ments in a Stream », á paratire dans Proceedings of the 36th annual international ACM
SIGIR conference on Research and development in information retrieval., 2013a.
Bonnefoy L., Bouvier V., Deveaud R., Bellot P., « Vers une détection en temps réel de docu-
ments Web centrés sur une entité donnée », coria.unine.ch, 2013b.
Bouvier V., Bellot P., « Amélioration d’un corpus de requêtes à l’aide d’une méthode non-
supervisée », coria.unine.ch, 2013.
Carlson A., Schafer C., « Bootstrapping information extraction from semi-structured web
pages », Machine Learning and Knowledge Discovery in Databases, Springer, p. 195-210,
2008.
Carpineto C., Romano G., « A survey of automatic query expansion in information retrieval »,
ACM Computing Surveys (CSUR), vol. 44, n˚ 1, p. 1, 2012.
Diligenti M., Gori M., Maggini M., « Web page scoring systems for horizontal and vertical
search », Proceedings of the 11th international conference on World Wide Web, ACM,
p. 508-516, 2002.
Frank J., Kleiman-Weiner M., Roberts D., Niu F., Zhang C., Ré C., « Building an Entity-Centric
Stream Filtering Test Collection for TREC 2012 », Proceedings of The 21th Text REtrieval
Conference (TREC 2012), 2012.
Glöckner I., « University of Hagen at QA@ CLEF 2007 : Answer validation exercise », Working
Notes for the CLEF 2007 Workshop, 2007.
Kjersten B., McNamee P., « THE HLTCOE APPROACH TO THE TREC 2012 KBA TRACK »,
Proceedings of the 21st Text REtrieval Conference, TREC, p. 6-9, 2012.
Klyuev V., Haralambous Y., « A query expansion technique using the EWC semantic related-
ness measure », Informatica : An International Journal of Computing and Informatics, vol.
35, n˚ 4, p. 401-406, 2011.
Kopliku A., Pinel-Sauvagnat K., Boughanem M., « Retrieving attributes using web tables »,
JCDL ’11 : Proceeding of the 11th annual international ACM/IEEE joint conference on
Digital libraries, ACM, June, 2011.
Lüke T., Schaer P., Mayr P., « Improving retrieval results with discipline-specific query expan-
sion », Theory and Practice of Digital Libraries, Springer, p. 408-413, 2012.
Mihov S., Koeva S., Ringlstetter C., Schulz K. U., Strohmaier C., « Precise and efficient text
correction using Levenshtein automata, dynamic Web dictionaries and optimized correction
models », Proceedings of Workshop on International Proofing Tools and Language Techno-
logies, 2004.
Page L., Brin S., Motwani R., Winograd T., « The PageRank Citation Ranking : Bringing Order
to the Web. - Stanford InfoLab Publication Server », 1999.
Peñas A., Rodrigo Á., Verdejo F., « Overview of the Answer Validation Exercise 2007 », Ad-
vances in Multilingual and Multimodal . . . , Springer Berlin Heidelberg, Berlin, Heidelberg,
p. 237-248, 2008.
Rocchio J. J., « Relevance feedback in information retrieval », 1971.
Short Title
Rodrigo Á., Peñas A., Verdejo F., « Overview of the Answer Validation Exercise 2008 », Eva-
luating Systems for Multilingual and . . . , Springer Berlin Heidelberg, Berlin, Heidelberg,
p. 296-313, 2009.
Xu J., Croft W. B., « Query expansion using local and global document analysis », Proceedings
of the 19th annual international ACM SIGIR conference on Research and development in
information retrieval, ACM, p. 4-11, 1996.

7 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

7 PDF

Transféré par

Droits d'auteur :

Formats disponibles

État d’avancement de thèse: 1ère année

Recherche d’informations sur le Web pour la validation

Vincent Bouvier *,**

*Laboratoire des Sciences de l’Information et des Systèmes

pré-traitement des requêtes, la recherche d’information, le filtrage et l’extraction d’in-

Dans le domaine de la RI et de l’extraction d’information beaucoup de travaux

3.1. Méthode non supervisée pour l’amélioration d’un corpus de requêtes

Cette première contribution scientifique a fait l’objet de trois soumissions. La pre-

1. Pseudo Relevance Feedbac, PRF

attendons la notification aux auteurs pour la soumission à la conférence internationale

Libellés de départ Libellés en sortie d’algorithme

Tableau 1. Exemple de libellé appartenant à la catégorie “Réfrigérant" en entrée et

Tableau 2. Précision et Rappel de l’évaluation des mots regroupés utilisant la dis-

La deuxième évaluation consiste à évaluer la pertinence des résultats obtenus avant

Tableau 3. Pourcentage de bonnes et mauvaises réponses dans l’évaluation des deux

3.2. TREC : Knowledge Base Acceleration

Aharon_Barak Basic_Element_(music_group) Bill_Coen

Vous aimerez peut-être aussi