Académique Documents
Professionnel Documents
Culture Documents
7 PDF
7 PDF
**Kware
Le Mercure A, 565 rue Berthelot
13851 Aix-En-Provence Cedex 3 FRANCE
{prenom.nom}@kware.fr
RÉSUMÉ. Ce document a pour but de présenter les différents travaux effectués durant cette pre-
mière année de thèse. Un état de l’art puis les différentes contributions scientifiques sont pré-
sentées. Les perspectives pour la suite de la thèse sont ensuite annoncées.
ABSTRACT. This document is aimed to show the researches done during the first thesis year.
A state-of-the-art and an abstract of the different submissions are detailed just before giving
perspectives for future works.
MOTS-CLÉS : recherche et extraction d’information, temporalité, expansion de requête, entité
nommées
KEYWORDS: information retrieval, information extraction, temporality, query expansion, named
entities
V. Bouvier
1. Introduction
Cet article a pour but faire un point sur ce qui a été abordé durant la première an-
née de thèse qui a débuté en Janvier 2012. Cette thèse est le fruit d’une collaboration
entre le laboratoire du LSIS de Marseille et l’entreprise Kware (se dit K-ware). Cette
thèse est encadrée par Patrice BELLOT et est supervisée dans l’entreprise par Michel
BENOIT. L’entreprise Kware travaillant dans le domaine de la Recherche d’Informa-
tion (RI), domaine dans lequel M. Bellot est reconnu pour ses différents travaux dans
l’expansion de requêtes, ou encore sur la classification de documents retrouvé avec un
système de RI. Il est également très présent sur des sujets qui relève du Traitement Au-
tomatique des Langues (TAL), et notamment dans le cadre de campagnes d’évaluation
comme CLEF (Cross Language Evaluation Forum) dans la tâche Question Réponse
. Il est donc tout naturel que la thèse présentée dans ce document soit également un
sujet qui relève de la RI.
Dans cette thèse, nous travaillons à la fois sur la notion d’implication textuelle
et la recherche d’informations sur le Web. Il faudra pour cela trouver des approches
nouvelles permettant de retrouver, sur le Web, des textes qui ont permis de peupler
des bases de données. Il s’agira aussi de trouver de nouveaux textes pour alimenter la
base de données en question. Cette tâche peut s’apparenter à une autre tâche ad hoc de
RI si elle n’ajoutait pas la notion de temporalité. En effet, il faudra pouvoir vérifier la
véracité des données concernant une entité à un instant t. Il faudra aussi être capable
de mettre à jours les données lorsque de nouvelles informations apparaissent sur le
Web. Nous devons pour cela déterminer :
– quelle(s) écriture(s) de requêtes permet(tent) d’obtenir le meilleur ensemble de
pages Web pour retrouver les informations contenues dans la base de données ;
– une méthode permettant d’identifier, à l’intérieur des pages Web, les zone infor-
mationnelles les plus pertinentes (Carlson et al., 2008, Kopliku et al., 2011) ;
– une méthode permettant d’établir, et d’estimer, le lien entre les informations
contenues dans la page et les informations de la base de données.
Le département de recherche et développement de l’entreprise Kware réalise des
études dans le domaine de la RI et notamment pour un organisme renommé dans le
domaine du marketing. Cet organisme fournit un ensemble de données sur différents
types de produits vendus à travers le monde. Ce corpus nous permet d’évaluer nos
résultats sur des données industrielles. Il contient des libellés de produits qui sont en
réalité un ensemble de mots qui caractérisent des produits (par ex. une catégorie, la
marque, le modèle, des caractéristiques...). Nous utilisons (pour le moment) dans cette
étude uniquement les libellés qui ne caractérisent qu’un seul produit à la fois. L’idée
c’est de retrouver, à l’aide du web, des informations sur les produits en questions pour
ensuite les extraire et les structurer.
Cette problématique industrielle s’inscrit donc parfaitement dans la problématique
posée dans cette thèse avec les différentes phases que l’on peut retrouver comme le
Short Title
2. État de l’art
consiste à lier une entité nommée apparaissant dans un document issue du web avec
un noeud d’une base de connaissance lorsque cela est possible. La tâche KBA se
concentre elle sur la mise à jour d’informations concernant une entité en observant un
flux de documents (apparition de nouveau document sur une ligne temporelle). Les
participants doivent essayer de détecter, sur ce flux de documents, ceux qui sont re-
latifs à un ensemble d’entités données. Il faut par ailleurs, être capable de déterminer
que le document trouver à de l’importance pour l’entité de part le contenu informatif
qu’il véhicule. KBA est une tâche récente qui a commencé en 2012. Elle pose le pro-
blème suivant : dans les bases de connaissance comme Wikipedia, le nombre d’entités
est beaucoup plus grand que le nombre de contributeurs. Ceci se répercute alors sur le
temps médian de latence qui est de 356 jours (Frank et al., 2012).
Le World Wide Web (WWW) constitue une base phénoménale de documents, tel-
lement immense qu’il est parfois difficile de trouver des informations précises sur
un sujet particulier. Les systèmes de RI du web, les moteurs de recherche, sont des
systèmes qui se base sur la recherche par mots clés : les requêtes. Lorsque cette der-
nière est bien formulée et que celle-ci ne contient pas de mots qui soient ambigüe
les moteurs de recherche actuels permettent généralement de trouver l’information
recherchée. C’est une tout autre histoire pour les requêtes qui contiennent des mots
mal orthographiées, ambigües, ou tout simplement que le besoin est mal formulé.
Des méthodes dites d’expansion de requêtes ont pour but de reformuler une requête
en ajoutant, supprimant ou modifiant des mots. Il a souvent été vue que l’expansion
de requête tant à améliorer les résultats de manière assez significative (Lüke et al.,
2012). Parmi elle on retrouve des méthodes qui font appelle à des bases de connais-
sances comme WordNET, des dictionnaires, des ontologies (Mihov et al., 2004, Ba-
rathi et al., 2010, Klyuev et al., 2011). Ces méthodes bien qu’offrant globalement de
bonnes performances souffrent d’une complète dépendance à ces ressources linguis-
tiques. Ces ressources sont un frein considérable lorsque l’on travail dans un domaine
multilingue puisque celles-ci sont difficiles à constituer. D’autre méthodes non super-
visées comme le retour de pertinence1 (Rocchio, 1971, Xu et al., 1996) permettent
également d’améliorer la pertinence des résultats. En utilisant les résultats obtenus
avec la requête de départ, le retour de pertinence retrouve un contexte, des mots clés,
et les ajoute à la requête trouvant ainsi un plus grand nombre de résultat. Il est alors
possible d’augmenter considérablement le rappel. En revanche, si la requête de départ
est mal formulée, la précision peut chuter du fait de la dérivation du sujet de départ.
3. Contributions scientifiques
Nous avons évalué notre méthode à l’aide de trois systèmes différents. Le premier
nous permet de mesurer l’impact qu’a notre fonction de pondération sur le regroupe-
ment des mots en comparaison à une similarité non-pondérée. Le tableau 2 montre
les résultats obtenus lorsque l’on utilise une similarité avec une distance d’édition
normalisée sans pondération (LEV_75 et LEV_85) et avec (SP). Un paramètre cor-
respondant au pourcentage de similarité permettant le regroupement est utilisé pour
chacune des mesures de similarité : 0,75 (LEV_75 et SP) et 0,85 (LEV_85). D’après
ces résultats on se rend compte que notre méthode de pondération permet d’apporter
le meilleur compromis entre précision et rappel.
Précision Rappel
LEV_75 64,14% 94,00%
LEV_85 100,00% 37,25%
SP 72,36% 97,54%
Figure 1. Interface Google Suggest pour les deux types d’évaluation : 1, le mot clé
sans le contexte ; 2, le mot clé avec le contexte.
Il apparait dans cette évaluation (tableau 3) que la méthode que nous proposons
donne des meilleures réponses que Google Suggest. Nous avons relevé les cas où
une majorité des personnes interrogées sont d’accords entres elles, notre algorithme
réalise un score de 87,5% de bonnes réponses contre 68,37% de bonnes réponses pour
le système Google Suggest avec le contexte et 66,96% de bonnes réponses sans le
contexte.
NO YES
GS_1 33,04% 66,96%
GS_2 31,63% 68,37%
WS_1 12,05% 87,95%
Les différentes tâches proposées dans les campagnes d’évaluations TAC et TREC
sont des opportunités de rassembler des chercheurs sur une même problématique.
L’engouement pour la population et le maintient à jour des bases de connaissance
a été renforcé par ces campagnes d’évaluation avec les tâches Knowledge Base Po-
pulation (KBP) et Knowledge Base Acceleration (KBA). Nous avons travaillé avec
Ludovic BONNEFOY, un doctorant du Laboratoire d’Informatique d’Avignon (LIA),
sur la tâche KBA.
La tâche KBA est vraiment spécifique de part son corpus : un flux de documents.
Chacun des documents du corpus sont datés par heure (de début octobre 2011 à fin
avril 2012). Lorsqu’un document est observé, il est interdit d’utiliser des documents
qui apparaissent plus loin chronologiquement. Une partie de ce flux était annoté afin
de fournir au participant un ensemble de données pour entrainer leurs systèmes. Les
organisateurs de la tâches donnent aux participants une liste d’entité nommées issue
de wikipedia (tableau ??). Ces entités sont choisis notamment pour leur ambiguité.
L’idée originale de KBA est de retrouver sur un flux de documents, les informations
importantes concernant une entité pour avertir les contributeurs qu’une page doit être
mise à jour. Pour la première année, la tâche se voulait “simple". En observant le
V. Bouvier
flux de document de manière chronologique, les participants doivent filtrer les docu-
ments qui concernent les entités sélectionnées. Lorsqu’un document est sélectionné,
une classe d’importance doit lui être attribué : non pertinent (bien que le document
mentionne l’entité, aucune information précise la concernant n’est présente), perti-
nent ou central. La notion de document central est capitale dans cette tâche car c’est
la capacité des systèmes à trouver les documents de ce type qui est mesurée. Un docu-
ment est considéré comme central si il apporte une information majeure sur l’entité et
devrait absolument figurer dans l’entrée correspondante (ici sa page Wikipedia). Par
exemple, pour l’entité Barack Obama, un document mentionnant une visite diploma-
tique est pertinent mais non central tandis qu’un document discutant de sa réélection
l’est. Notons que la question de la nouveauté de l’information a été mise de côté pour
l’édition 2012 de KBA.
Tableau 4. Liste des entités wikipedia donné aux participants de KBA.tab :wikientities
Les meilleurs systèmes de KBA 2012 ont employé des approches relativement
simples. (Kjersten et al., 2012) utilise un classifier SVM sur les mots et les entités
nommés rencontrés en tant que composante vectorielle. En revanche, (Araujo et al.,
n.d.) considèrent un document comme central à partir du moment où il contient l’en-
tité telle quelle. Notre approche, classée troisième parmi celles de onze équipes, est
basée sur l’utilisation, en deux étapes, de classifiers pour déterminer le degré d’intérêt
d’un document. Notre but est de proposer et d’étudier quels indices caractérisent un
document "central". Par ailleurs, nous souhaitions avoir une approche qui ne soient pas
dépendante des entités. Beaucoup de participants ont appris des modèles par entités
rendant ainsi leur système fortement supervisé. Les éléments étudiés appartiennent
à trois catégories : prise en compte du temps, caractéristiques des occurrences des
mots-entités dans le document et présence d’entités liées connues.
Pour la plupart des entités, nos approches, avec différents paramètres, obtiennent
un score supérieur au score médian et cela semble d’autant plus vrai que les enti-
tés sont “difficiles" (plus particulièrement certaines entité comme James McCartney,
Vladimir Potanin, Lisa Bloom et Charlie Savage). Un élément d’explication nous est
apporté le nombre de documents par entité et par heure. Deux de ces entités (McCart-
ney et Savage) présentent des successions de pics importants et la prise en compte
Short Title
dans notre approche du facteur temps est probablement à l’origine de ces bons résul-
tats. Cependant, la présence de successions de pics ne signifie pas systématiquement
l’obtention de bons résultats. Nous obtenons en revanche de faibles résultats pour
Basic Element, le groupe musical, et Boris Berezovksy, le pianiste, qui s’expliquent
principalement par l’existence d’homonymes qui sont de plus très présents dans le
corpus.
Jusqu’à aujourd’hui, nos travaux sur cette tâche nous ont permis d’avoir trois pu-
blications. La première dans les actes de la conférence TREC2012 (Bonnefoy et al.,
2012), la seconde dans la conférence CORIA2013 (Bonnefoy et al., 2013b). Nous
avons continuer nos expérimentations et travaux sur cette tâche et avons réussi à amé-
liorer nos résultats et font l’objet d’un article court qui sera publié dans les actes de la
conférence SIGIR2013(Bonnefoy et al., 2013a).
4. Conclusion et perspectives
Dans cet article, nous avons parlé des différents travaux déjà réalisé durant cette
première année de thèse. Deux des points fondamentaux du sujet sont actuellement en
cours d’exploration : l’amélioration de l’écriture des requêtes et la recherche de page
contenant des informations pertinentes. La tâche d’extraction d’information quant à
elle n’a pas encore été explorée.
Concernant l’amélioration de l’écriture des requêtes, notre méthode donne de bon
résultats sur les corpus industrielles. Nous aimerions la tester sur d’autres collections
(publiques) qui pourraient nous permettre de mieux se comparer à l’état de l’art. Nous
aimerions voir également si notre approche peut permettre d’amoindrir les erreurs
dans les environnements de reconnaissance optique de caractères. Aussi, Kware pense
utiliser l’amélioration de requêtes afin de voir si cela peut améliorer les résultats d’une
classification.
Avec Ludovic BONNEFOY, nous allons participer cette année encore à TREC sur
la tâche KBA, et j’aimerai participer également à la tâche “Temporal Summarization"
qui commence cette année. Cette tâche va me permettre de commencer un travail sur
l’extraction d’information, tout en gardant l’aspect temporelle et de nouveauté.
5. Bibliographie
Araujo S., Gebremeskel G., He J., Bosscarino C., de Vries A., « CWI at TREC 2012, KBA Track
and Session Trac », á paraitre dans Proceedings of The 21th Text REtrieval Conference
(TREC 2012), n.d.
Balakrishnan R., Kambhampati S., « SourceRank : Relevance and Trust Assessment for Deep
Web Sources Based on Inter-Source Agreement », the 20th international conference, ACM
Press, New York, New York, USA, p. 227, 2011.
Barathi M., Valli S., « Ontology Based Query Expansion Using Word Sense Disambiguation »,
arXiv preprint arXiv :1003.1460, 2010.
V. Bouvier
Bentivogli L., Clark P., Dagan I., Dang H., Giampiccolo D., « The seventh pascal recognizing
textual entailment challenge », Proceedings of TAC, 2011.
Bonnefoy L., Bouvier V., Bellot P., « LSIS/LIA at TREC 2012 Knowledge Base Acceleration »,
TREC ’12 Notebook, 2012.
Bonnefoy L., Bouvier V., Bellot P., « A Weakly-Supervised Detection of Entity Central Docu-
ments in a Stream », á paratire dans Proceedings of the 36th annual international ACM
SIGIR conference on Research and development in information retrieval., 2013a.
Bonnefoy L., Bouvier V., Deveaud R., Bellot P., « Vers une détection en temps réel de docu-
ments Web centrés sur une entité donnée », coria.unine.ch, 2013b.
Bouvier V., Bellot P., « Amélioration d’un corpus de requêtes à l’aide d’une méthode non-
supervisée », coria.unine.ch, 2013.
Carlson A., Schafer C., « Bootstrapping information extraction from semi-structured web
pages », Machine Learning and Knowledge Discovery in Databases, Springer, p. 195-210,
2008.
Carpineto C., Romano G., « A survey of automatic query expansion in information retrieval »,
ACM Computing Surveys (CSUR), vol. 44, n˚ 1, p. 1, 2012.
Diligenti M., Gori M., Maggini M., « Web page scoring systems for horizontal and vertical
search », Proceedings of the 11th international conference on World Wide Web, ACM,
p. 508-516, 2002.
Frank J., Kleiman-Weiner M., Roberts D., Niu F., Zhang C., Ré C., « Building an Entity-Centric
Stream Filtering Test Collection for TREC 2012 », Proceedings of The 21th Text REtrieval
Conference (TREC 2012), 2012.
Glöckner I., « University of Hagen at QA@ CLEF 2007 : Answer validation exercise », Working
Notes for the CLEF 2007 Workshop, 2007.
Kjersten B., McNamee P., « THE HLTCOE APPROACH TO THE TREC 2012 KBA TRACK »,
Proceedings of the 21st Text REtrieval Conference, TREC, p. 6-9, 2012.
Klyuev V., Haralambous Y., « A query expansion technique using the EWC semantic related-
ness measure », Informatica : An International Journal of Computing and Informatics, vol.
35, n˚ 4, p. 401-406, 2011.
Kopliku A., Pinel-Sauvagnat K., Boughanem M., « Retrieving attributes using web tables »,
JCDL ’11 : Proceeding of the 11th annual international ACM/IEEE joint conference on
Digital libraries, ACM, June, 2011.
Lüke T., Schaer P., Mayr P., « Improving retrieval results with discipline-specific query expan-
sion », Theory and Practice of Digital Libraries, Springer, p. 408-413, 2012.
Mihov S., Koeva S., Ringlstetter C., Schulz K. U., Strohmaier C., « Precise and efficient text
correction using Levenshtein automata, dynamic Web dictionaries and optimized correction
models », Proceedings of Workshop on International Proofing Tools and Language Techno-
logies, 2004.
Page L., Brin S., Motwani R., Winograd T., « The PageRank Citation Ranking : Bringing Order
to the Web. - Stanford InfoLab Publication Server », 1999.
Peñas A., Rodrigo Á., Verdejo F., « Overview of the Answer Validation Exercise 2007 », Ad-
vances in Multilingual and Multimodal . . . , Springer Berlin Heidelberg, Berlin, Heidelberg,
p. 237-248, 2008.
Rocchio J. J., « Relevance feedback in information retrieval », 1971.
Short Title
Rodrigo Á., Peñas A., Verdejo F., « Overview of the Answer Validation Exercise 2008 », Eva-
luating Systems for Multilingual and . . . , Springer Berlin Heidelberg, Berlin, Heidelberg,
p. 296-313, 2009.
Xu J., Croft W. B., « Query expansion using local and global document analysis », Proceedings
of the 19th annual international ACM SIGIR conference on Research and development in
information retrieval, ACM, p. 4-11, 1996.