Académique Documents
Professionnel Documents
Culture Documents
DOI 10.3166/dn.8.3.83-106
--------------------------------------------------------------------------------------------------------------------
La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les
limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la
licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie,
sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de
l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage
dans une base de données est également interdit.
2004/3 - Volume 8
ISSN 1279-5127 | pages 83 à 106
because search engines cannot cope with the expansion of the Internet. Consequently, the
results of queries are often of very poor quality. Multi-agent systems can give more accurate
results than traditional search engines because agents can be specialized in different tasks
(search or filtering) and can personalize information. We implemented such an approach
using an open multi-agent system containing personal assistants, library agents, filter agents
and search agents. In this paper, we detail the elements of our multi-agent system and
compare its performance with more traditional search engines. Our results yield a better
accuracy.
MOTS-CLÉS : système multi-agent, recherche d’information, récupération d’information,
recherche sur web.
KEYWORDS: multi-agent system, information search, information retrieval, web search.
1. Introduction
Savoy (2002) affirme que 85 % des utilisateurs qui cherchent des informations
sur la Toile font appel à plusieurs moteurs de recherche, ce qui dénote les
insuffisances de chaque moteur pris séparément. L’insatisfaction liée aux mauvais
résultats obtenus provient essentiellement de deux facteurs :
– les moteurs n’indexent pas tous les mêmes des pages ;
– les moteurs évaluent différemment la qualité des pages obtenues.
Dans ce travail, nous nous intéressons surtout au deuxième problème.
La qualité d’un site est calculée différemment selon le moteur de recherche
employé. Certains moteurs utilisent la fréquence des termes présents dans la
requête, d’autres des techniques heuristiques. La technique utilisée par Google,
connue sous le nom de Page Rank (Brin et Page, 1998), consiste à apprécier la
qualité d’une page en dénombrant le nombre de liens pointant sur celle-ci.
L’heuristique dans ce cas est fondée sur la relation sémantique dénotée par les liens.
Ce genre de techniques peut convenir dans certains cas, mais ne donne pas toujours
de bons résultats, car ni les préférences ni les connaissances des utilisateurs ne sont
prises en compte, autrement dit les résultats ne sont pas personnalisés.
La personnalisation si elle n’est pas un sujet nouveau, continue à susciter de
nouvelles approches. Les premières idées ont été avancées au début des années 90
par Lieberman (1997), Armstrong et collaborateurs (1995), Chen et Sycara (1998)
et Lashkari et collaborateurs (1994). Les trois premiers groupes ont construit des
peuvent :
– faciliter la personnalisation d’information, car certains agents peuvent être
spécialisés dans la création et la gestion de modèles d’utilisateurs ;
– faciliter l’accès à des sources d’information multiples ;
– échanger des informations afin de se perfectionner, et participer à un processus
collaboratif de résolution distribuée ;
– distribuer et équilibrer la charge de travail.
Nous nous sommes appuyés sur ces hypothèses pour concevoir et développer un
SMA appelé MAIS (Multi-Agent based Internet Search) pour la recherche
d’informations personnalisées sur la Toile. Nous détaillons dans cet article
l’architecture et le développement de MAIS, et discutons quelques travaux voisins
des nôtres. La section 2 introduit quelques caractéristiques et avantages des SMA
ouverts ; la section 3 présente MAIS ; la section 4 analyse les performances de
MAIS ; les travaux se rapprochant des nôtres et les différentes formes de
MAIS, SMA pour la recherche d’information sur web 85
L’utilisation d’un SMA ouvert dans une application pour internet offre trois
avantages principaux : l’extensibilité, la stabilité et l’équilibrage de charges.
– extensibilité : le système peut être mis à jour et étendu sans effets collatéraux
quand il est en opération. Etant donné que les agents sont indépendants, ils peuvent
être créés ou modifiés, alors que d’autres agents continuent à travailler et à fournir
des services ;
– stabilité : quand un agent tombe en panne, d’autres agents peuvent coordonner
la distribution des tâches et assurer la continuité des services ;
– équilibrage de charges : les agents distribuent naturellement la charge de
travail. Certaines tâches comme l’apprentissage des profils des utilisateurs ou la
recherche d’information nécessitent beaucoup de calculs. Des protocoles de
coordination peuvent être utilisés pour distribuer la charge de travail uniformément
entre les agents.
Malgré ces avantages, les applications des SMA pour l’internet ne sont pas
pléthore. On peut l’expliquer par le manque de mécanismes standard qui
permettraient d’échanger l’information entre agents de différentes plates-formes,
l’utilisation d’un SMA, car il peut être décomposé en problèmes plus simples de
façon naturelle.
Les différentes fonctionnalités d’un système de recherche sont les suivantes :
– la recherche doit prendre en compte suffisamment de pages pour assurer une
bonne couverture du sujet ;
– le système doit être capable de modéliser les préférences de l’utilisateur pour
personnaliser la présentation des résultats ;
– le système doit posséder un mécanisme pour coordonner ces activités.
Notre réponse à la première question est de définir des agents jouant le rôle de
métamoteurs et capables de récupérer des pages fournies par plusieurs moteurs de
recherche existants, comme Google, Altavista ou All-the-Web. Le deuxième point
peut être résolu par la définition d’agents chargés de construire et de mettre à jour
des profils d’utilisateurs. Ainsi, des personnes qui ont différents centres d’intérêt
pourront recevoir des résultats différents pour une même requête. Le troisième point
est résolu par l’utilisation d’un SMA pour les raisons mentionnées précédemment.
Le système que nous avons conçu et développé, MAIS, est présenté dans les
sections suivantes.
3. Le système MAIS
Documents
Centre d’intérêts
AB publics
Structure
Des Documents
Documents,
Structure
Structure des
Concepts)
Documents
AF2 AR2 Altavista
CFB
Requête Request
(Termes, Nsites, Intérêts) AP .
. Sites .
Réponse Answer . .
.
AFn ARn All-the-Web
AP = Assistant Personnel
AB = Agent Bibliotèque
AF = Agent de Filtrage
AR = Agent de Recherche Agents de Filtrage Agents de Recherche
3.3. Le fonctionnement
L’utilisateur est doté d’un agent assistant personnel (AP) qui lui fournit
fondamentalement deux services : une gestion des pages favorites et, évidemment,
la recherche de nouvelles pages.
documents concernant des domaines précis (de recherche ou pas) fournis par des
experts, par exemple, Artificial-Intelligence-Adaptative-Agents, Groupware-
Knowledge-Management ou encore Artificial-Intelligence-MBR. Ces centres
d’intérêt sont communs à tous les utilisateurs, mais peuvent être personnalisés au fur
et à mesure que les utilisateurs ajoutent de nouveaux documents à leur profil. En
effet, les documents qui forment chaque centre d’intérêt sont copiés dans l’espace
de travail de l’utilisateur lorsqu’il les sélectionne. L’utilisateur peut alors les
compléter. A ce jour le nombre de centres d’intérêt fournis par le système est encore
réduit, car il s’agit d’un prototype, mais nous envisageons de créer une collection de
centres d’intérêt ressemblant aux répertoires de catégories des moteurs de recherche.
mode broadcast. Le premier agent de filtrage (AF) disponible sera chargé de fournir
la réponse.
Les agents de filtrage jouent un rôle central dans le système. La première tâche
d’un agent de filtrage engagé dans un processus de recherche est de rassembler les
résultats fournis par les agents de recherche (AR) à l’issue d’une procédure de
contract-net. Rappelons que dans le contract-net l’agent (le gérant) qui doit
résoudre un problème envoie un appel d’offres en mode broadcast et attend les
propositions des candidats. Ensuite, il choisit les candidats ayant fait les meilleures
offres en leur passant un contrat. Finalement, les contractants envoient leurs
réponses au gérant. Le temps d’attente des réponses est paramétrable (dans notre
cas, il est de 20 secondes). L’agent de filtrage récupère une liste importante de
pages qu’il doit réduire et ordonner pour finalement présenter les résultats à
l’utilisateur. C’est alors que le mécanisme de personnalisation entre en action.
Le processus de personnalisation consiste à ordonner la liste de pages fournies
par les agents de recherche en fonction des préférences de l’utilisateur. Chaque page
est classée selon un processus qui retourne sa classe et le degré de qualité de la
classification. Les classes possibles correspondent aux dossiers créés par
l’utilisateur pour organiser ses documents favoris (centres d’intérêt qu’il a choisis).
Finalement, seules les meilleures pages sont sélectionnées après seuillage. Les
sections suivantes donnent plus de détails sur la conception de chaque agent, et
notamment sur le mécanisme de classification de l’agent de filtrage.
des pages dans son espace de travail. L’interface permet aussi à l’utilisateur de
sélectionner les centres d’intérêt qui lui conviennent (figure 3).
Recherches
Site Titre Classe
Score
Bibliographie de l’equipe SMAC
http://www.irit.fr/ACTIVITIES/EQ_SMI/SMAC/Bibliographie.html
AI-Personal-Assistant
Etant donné que les recherches peuvent durer plusieurs minutes, elles sont
déclenchées de façon asynchrone. L’utilisateur peut donc activer plusieurs
recherches par exemple la nuit, puis analyser les résultats le lendemain.
90 DN – 8/2004. Fouille de textes
par :
Le mécanisme d’apprentissage
La méthode d’apprentissage ELA est une méthode incrémentale que nous avons
développée lors de recherches précédentes pour résoudre les problèmes des
algorithmes de classification automatique utilisant une mémoire comme KNN ou
MBR (Memory-Based Reasoning). De façon résumée, ELA a besoin de beaucoup
moins de données d’apprentissage, n’utilise pas de mesure de similarité et classe les
nouveaux exemples très rapidement. Notre mécanisme d’apprentissage comprend
deux parties : l’acquisition/représentation des données et leur classification.
ELA représente les données sous forme d’un graphe de concepts2 (GC). La
figure 4 illustre la construction d’un tel graphe avec 14 exemples (1, 2,… 14)
2. Ici notre graphe de concept n’a rien à voir avec les graphes conceptuels proposés par Sowa.
Il n’a pas non plus de rapport avec un arbre de décision, car il n’y a pas d’ordre hiérarchique
92 DN – 8/2004. Fouille de textes
extraits de la base de données de Quinlan (1986). Cette base met en relation des
variables météorologiques (Extérieur, Température, Humidité et Vent) et la pratique
de sport (Pratique ou Non Pratique). Dans le graphe, chaque nœud représente un
concept qui correspond à la valeur d’un attribut (dénoté par un rectangle) et chaque
lien représente une transition d’un attribut vers un autre attribut. Nous n’attribuons
pas de poids aux attributs ni ne faisons aucun traitement ultérieur. L’ordre des
attributs (niveau de profondeur de chaque attribut dans le graphe) est donné par la
représentation initiale des données. Les concepts et les liens sont créés de façon
dynamique. Un lien entre deux concepts A et B contient les identifiants des
exemples qui possèdent les valeurs A et B (entre crochets sur la figure).
entre nœuds, autrement dit, chaque chemin de la racine jusqu’aux feuilles du graphe ne
représente pas un concept du point de vue de l’apprentissage automatique.
MAIS, SMA pour la recherche d’information sur web 93
taille 1. Une classe imparfaite doit produire des intersections de tailles variables, par
exemple { [5] [5 7 9] [7] } sur la figure 5. Nous identifions ce comportement en
utilisant une fois de plus la mesure d’entropie, cette fois-ci en choisissant la classe
qui présente l’entropie la plus importante.
Nous avons évalué la performance de cette technique d’apprentissage par
rapport d’autres algorithmes connus dans domaine de l’apprentissage symbolique
(Naïve Bayes, NN, C45, C45 Rules, CN2) et nous avons constaté que notre
technique présente une meilleure performance sur plusieurs bases de données du
domaine public (UCI3). Des commentaires plus détaillés sur la méthode ELA et son
évaluation sont disponibles dans (Enembreck, 2003).
Représentation des
documents de l’utilisateur agent protocole communication auml…
+
Dialogue Systems
dialogue system user preference …
+
Représentation des documents des
centres d’intérêts de l’utilisateur MBR
instance nearest qualitative accuracy …
+
Knowledge Management
knowledge management information organization user …
de chaque centre d’intérêt public. Ces représentations doivent être combinées pour
construire une liste unique de termes qui représente le modèle général de
préférences, et qui sera ensuite utilisée par l’algorithme d’apprentissage. La
combinaison entre ces différentes vecteurs se fait grâce à un processus de
« fusion », pour lequel le critère d’ordonnancement des termes est la valeur TF-IDF.
La liste résultante est limitée arbitrairement à 1 000 éléments. La figure 6 donne un
exemple de la procédure adoptée. A partir de quatre vecteurs de termes représentant
respectivement les favoris de l’utilisateur « ſ », et les centres d’intérêt « Dialogue
Systems », « MBR » et « Knowledge Management », les termes en gras ont été
choisis. Cette approche garantit que des informations de toutes les classes seront
utilisées par l’algorithme d’apprentissage. Pour garder une certaine cohérence entre
les valeurs TF-IDF nous considérons des collections contenant une même quantité
de documents pour chaque centre d’intérêt. Puisque les collections de termes
peuvent présenter des intersections, les répliques sont supprimées et seul le terme
présentant la valeur TF-IDF la plus importante est considérée.
La représentation du modèle général de préférences de l’utilisateur est donc
composée d’une liste de termes choisis à partir de différents vecteurs représentant
plusieurs collections de documents. Ce modèle est formé par la combinaison de
(n + 1) vecteurs, 1 pour les favoris de l’utilisateur et n pour le nombre de centres
d’intérêt publics choisis. Ce processus n’analyse donc pas directement le contenu
des documents des centres d’intérêt, mais utilise simplement le modèle vectoriel
construit au préalable, ce qui permet de diminuer le temps de calcul.
filtrage utilise comme données les documents existants dans les favoris de
l’utilisateur, plus les documents présents dans chaque centre d’intérêt sélectionné
par ce dernier. Il faut souligner que la classe de chaque document est connue. Il
s’agit du nom du dossier favori où l’utilisateur a enregistré le document (dans le cas
des documents favoris) ou du nom du centre d’intérêt concerné (dans le cas des
documents des centres d’intérêt publics).
Lorsque l’agent de filtrage reçoit une requête, il recherche le graphe de concepts
dans l’espace de l’utilisateur, le créant si nécessaire. Ensuite, il classe toutes les
pages envoyées par les agents de recherche et enregistre la réponse en ordonnant les
résultats selon les résultats de la méthode ELA. La figure 2 reproduit les classes
trouvées par l’agent de filtrage.
MAIS, SMA pour la recherche d’information sur web 95
comme Google, Altavista et All-the-Web. Ces agents sont réalisés par des agents
OMAS (Open Multi-Agent System, développé par Barthès, 2002). Comme ceux-ci
évoluent dans un environnement ouvert, de nouveaux agents peuvent être créés
pendant l’exécution du système, ce qui permet l’addition de nouveaux moteurs de
recherche à n’importe quel moment sans que cela n’affecte le fonctionnement
général. Cette architecture permet également de rechercher des pages en parallèle,
ce qui réduit le temps total de recherche. Afin d’effectuer les recherches dans un
espace de taille raisonnable (ni trop grand ni trop petit), chaque agent de recherche a
été programmé pour retourner 2N pages, si N est le nombre de pages demandées par
l’utilisateur. Ainsi, si le système compte n agents de recherche, l’agent de filtrage
concerné va analyser jusqu’à 2nN pages. Généralement, le nombre de pages à
classer sera très inférieur à 2nN, car certaines pages sont communes à plusieurs
moteurs de recherche.
96 DN – 8/2004. Fouille de textes
Du point de vue informatique l’agent assistant est composé d’une interface LISP
capable d’envoyer des messages à l’agent de transfert (AT) qui tourne sur un
serveur HTTP. Ensuite, l’agent de transfert envoie le message concerné vers
l’intérieur de la plate-forme d’agents OMAS. Nous utilisons le serveur HTTP fourni
par Allegro Common Lisp™. L’agent de transfert est lui aussi codé en LISP. Le
choix du serveur Allegro nous permet d’exécuter des fonctions LISP comme des
programmes CGI, ce qui rend la tâche d’interprétation des messages beaucoup plus
facile. La figure 7 montre les ressources mises en œuvre par le système.
L’agent de transfert émule les services de base concernant la communication au
standard FIPA comme l’Agent Manager System, le Directory Facilitator et l’Agent
Communication Channel. Il est capable de traduire des messages OMAS en
messages FIPA SL-0 et d’assurer la cohérence entre les protocoles OMAS et les
protocoles FIPA. L’agent de transfert peut donc jouer le rôle de passerelle entre
OMAS et d’autres plates-formes compatibles FIPA.
FA1 AR
AF SA1 AB
LA
Interface
Interface Message
HTTP Serveur FA2 AR
AF SA2
Fonctions Message OMAS
LISP
Lisp Message
HTTP HTTP AT
Assistant . .
(Contract Net,
4. Résultats
L’évaluation des mécanismes de recherche sur la Toile est toujours une tâche
compliquée. Les mesures couramment utilisées par les systèmes de récupération
d’information comme recall et precision sont insuffisantes en raison de la
dynamicité du corpus de pages. Une majorité de travaux concernant l’évaluation de
tels mécanismes utilise un corpus de pages prédéfini. Les pages sont ordonnées
selon une mesure de similarité calculée automatiquement faisant intervenir les
résultats et les pages de référence. Par exemple, Menczer et al. (2001) ont
utilisé 100 catégories et pages de référence proposées par Yahoo pour comparer les
MAIS, SMA pour la recherche d’information sur web 97
scientifiques choisis par les experts du laboratoire. Chaque utilisateur a été invité à
choisir un nombre de pages de référence (sites favoris) dans le cadre des ses propres
spécialités (tableau 1). Les résultats ont été analysés en aveugle, sans prendre en
compte l’identité des différents moteurs de recherche utilisés par le système.
Tous les utilisateurs ont exécuté les requêtes suivantes : « agent », « autonomy
agent », « personal assistant » et « personal assistant agent ». Par ailleurs, des
centres d’intérêt identiques ont été utilisés par les utilisateurs afin de comparer les
résultats dans les mêmes conditions. Ces requêtes sont intentionnellement ambiguës.
Le but du mécanisme d’évaluation est de savoir jusqu’à quel point le système est
capable de filtrer des informations intéressantes en utilisant l’expertise de chaque
utilisateur comme référence. Nous mesurons également l’influence des centres
d’intérêt publics proposés par le système pour l’utilisateur C.
98 DN – 8/2004. Fouille de textes
18
Intéressants
15
12
All-the-Web
9
6 Altavista
3 Google
MAIS réalise des métarecherches. Si les moteurs utilisés par MAIS sont
incapables de trouver des pages intéressantes, MAIS sera incapable de donner de
bons résultats. Cela se confirme avec la requête « Agent » qui est ambiguë.
Certains moteurs de recherche présentent de bonnes performances pour certaines
requêtes, alors que pour d’autres les résultats sont très pauvres. Nous pouvons
constater, par exemple, que All-the-Web, donne des bons résultats pour la requête
« Autonomy Agent » et de mauvais résultats pour « Personal Assistant ».
30
Nombre de Sites
Intéressants
25
20
15 All-the-Web
10 Altavista
5 Google
ent " Age
nt " a nt" n t" MAIS(B-8)
"Ag sis t Age
my l As ta nt
ton o rso na s si s MAIS(A-55)
"Au "Pe al A
rso n
"Pe
Requêtes
25
Nombre de Sites
Intéressants
MAIS(C):20
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier
20
MAIS(C-int):20
15 MAIS(C):30
MAIS(C-int):30
10
5
"Agent" "Autonomy Agent" "Personal "Personal
Assistant" Assistant Agent"
Requêtes
Si l’on analyse les 30 premières pages, MAIS donne encore les meilleurs
résultats pour l’utilisateur A (figure 9). En revanche, la performance du système
concernant l’utilisateur B est dépassée par d’autres moteurs de recherche pour
3 requêtes sur 4. Cela montre que lorsqu’un utilisateur possède un profil
incompatible avec les informations recherchées, le système ne pourra pas l’aider. Ce
problème peut être résolu simplement en informant le système que le profil de
100 DN – 8/2004. Fouille de textes
l’utilisateur ne doit pas être utilisé pour la recherche, mais qu’il faut utiliser les
centres d’intérêt publics.
Afin de mesurer l’importance des centres d’intérêt publics pour la recherche
d’information avec MAIS, nous avons demandé à l’utilisateur C qui possède un
profil pratiquement vide, de réaliser des recherches sans référencer les centres
d’intérêt « MAIS(C) » et puis en référençant les centres d’intérêt « MAIS(C-int) ».
Les résultats sont indiqués sur la figure 10. Pour la requête « Agent », l’utilisation
des centres d’intérêt est indifférente, car la requête est trop imprécise. Pour la
requête « Autonomy Agent » les centres d’intérêt ont amélioré énormément la
performance tant pour les 20 premières pages que pour les 30 premières. Pour les
deux dernières requêtes, la performance du système a été sensiblement améliorée
lorsque les 30 premières pages sont analysées. Lorsque seulement les 20 premières
pages sont analysées les centres d’intérêt ont peu d’importance pour les requêtes
« Personal Assistant » et » Personal Assistant Agent ». Ceci démontre que même
pour des requêtes raisonnablement précises, comme « Personal Assistant
Agent », les moteurs de recherche utilisés par MAIS ne sont pas capables de
grouper les meilleures pages et de les présenter en priorité.
La performance moyenne pour tous les moteurs de recherche sur les 4 requêtes
est indiquée sur le tableau 2. L’analyse des 20 et 30 premières pages montre que
MAIS a dépassé tous les moteurs de recherche. De façon surprenante, l’utilisateur
obtenant le meilleur résultat est « C-int » qui contient un profil pratiquement vide,
mais qui utilise les centres d’intérêt publics. Ceci montre que les pages jugées
intéressantes par les utilisateurs ne rajoutent pas forcément des informations très
importantes pour le système. Pire, l’ajout de pages peut même diminuer la précision
du système, si ces pages ne contiennent pas beaucoup de texte, car elles introduisent
beaucoup de bruit. Cela explique par exemple que l’utilisateur MAIS-C, qui
n’utilise pas des centres intérêt publics et fait uniquement référence à sa propre page
personnelle dans ses favoris puisse avoir un meilleur résultat que l’utilisateur
MAIS(B-8). Dans ce cas, le système a jugé que plusieurs sites liés à des professions
MAIS, SMA pour la recherche d’information sur web 101
Nous n’avons pas fait d’essais d’acceptabilité du système car le but de notre
90e) ont pu être récupérés par le système, car d’autres moteurs de recherche les
avaient placés en meilleure position. Nous pouvons donc conclure que le système
peut automatiser en partie le fastidieux travail d’analyse des résultats et diminuer
énormément la charge de l’utilisateur dans certaines conditions (l’utilisation des
centres d’intérêt publics et/ou un bon ensemble de sites favoris). Par ailleurs, nous
ne pouvons pas nous appuyer uniquement sur les sites favoris des utilisateurs pour
concevoir une représentation fiable de ces centres d’intérêt car les informations
correspondantes sont souvent ambiguës, contradictoires, incomplètes et bruitées.
C’est la raison pour laquelle nous avons introduits des centres d’intérêt publics
représentant des sujets que les utilisateurs peuvent facilement choisir.
Widyantoro et collaborateurs (2001) discutent différents modèles de
représentation des profils des utilisateurs pour la personnalisation dans le cadre d’un
système d’information. Selon les auteurs, un tel système doit être capable de
modéliser les changements dynamiques d’intérêt des utilisateurs en introduisant une
représentation explicite d’un modèle à long terme et d’un modèle à court terme. Le
modèle à long terme correspond aux intérêt généraux qui ne changent pas souvent,
102 DN – 8/2004. Fouille de textes
4. Une technique similaire de représentation hiérarchique des concepts est utilisé par Freitas
et Bittencourt (2003).
MAIS, SMA pour la recherche d’information sur web 103
encore les documents en cours d’édition. Ces concepts sont utilisés pour
sélectionner seulement certaines parties de la hiérarchie lors du traitement d’une
requête. Ensuite, les sites sont ordonnés en fonction de la similarité vectorielle des
termes sélectionnés dans la hiérarchie. Nous pouvons citer plusieurs problèmes liés
à cette approche, notamment la pertinence des informations contextuelles pour la
requête (le « contexte », est-il toujours liée à une requête donnée ?), le mauvais
choix de certains concepts dans la hiérarchie peut restreindre le nombre de termes et
modifier les résultats de la fonction de similarité. Par ailleurs, il est très difficile de
contextualiser le travail de l’utilisateur, car celui-ci est souvent en train d’exécuter
plusieurs tâches pas toujours en relation et de manière aléatoire.
L’architecture de notre système est similaire à celle du système WAIR (Web
Agents for Internet Research) proposé par Zhang et Seo (2001). Ce système
présente également un agent interface pour l’interaction avec l’utilisateur, des
agents de filtrage dotés de mécanismes d’apprentissage (par renforcement), et des
agents de recherche pour consulter différents moteurs de recherche. La différence
principale par rapport à MAIS se situe encore une fois dans la façon dont le
feedback est utilisé pour la mise à jour du profil de l’utilisateur. WAIR utilise un
feedback explicite et implicite pour calculer la pertinence d’un document. Le
feedback explicite est donné par l’utilisateur (valeur numérique entre 0 et 1) et le
feedback implicite (temps de lecture d’un document, ajout aux favoris, examen du
texte et liens suivis dans un document) est mesuré automatiquement par le système.
Ces paramètres sont normalisés et utilisés pour le calcul des récompenses associées
aux documents et sont utilisés par l’algorithme d’apprentissage par renforcement.
possibles.
Notre approche consiste à diviser le profil de l’utilisateur en n + 1 parties, où n
est le nombre de centres d’intérêt de l’utilisateur, assorti du modèle des favoris.
Dans notre cas, le modèle à long terme est donné par les sites favoris de l’utilisateur.
Le système peut aussi gérer le modèle à court terme car celui-ci est construit
dynamiquement lorsque l’utilisateur change explicitement de centre d’intérêt, en
choisissant par exemple de nouveaux centres d’intérêt publics. Par ailleurs,
l’utilisateur peut simplement désactiver le modèle à long terme, entièrement ou
partiellement, et travailler uniquement avec les centres d’intérêt publics. Nous
pensons que notre approche réduit le besoin de feedback de la part de l’utilisateur
car celui-ci indique simplement les centres d’intérêt qui lui conviennent et n’a pas
besoin de classer chaque document comme positif ou négatif. Par conséquent, le
comportement du système ne dépend pas uniquement du feedback de l’utilisateur.
Evidemment, la construction des centres d’intérêt demande un effort préalable de la
part du développeur pour la sélection des documents représentatifs, mais cet effort
104 DN – 8/2004. Fouille de textes
7. Bibliographie
Armstrong R., Freitag D., Joachims T., Mitchell T., « WebWatcher: A Learning Apprentice
for the World Wide Web », AAAI Spring Symposium on Information Gathering from
Heterogeneous, Distributed Environments, march, 1995.
Barthès J-P., A. OMAS v 1.0 Technical Reference, Memo UTC/GI/DI/N 151, Université de
Technologie de Compiègne, Département de Génie Informatique, January, 2002.
Bottraud J.-C., Bisson G., Brauandet M. F., « Apprentissage de profils pour un agent de
recherche d’information », Actes de la Conférence Apprentissage (CAP’03), 1-2 juillet,
Laval, 2003. p. 31-46.
Brin S., Page L., « The Autonomy of a Large-Scale Hypertextual Web Search Engine »,
Computer Networks, n° 30, p. 107-117, 1998.
Billsus D., Pazzani M., « A Hybrid User Model for News Story Classification », Proceedings
of the Seventh International Conference on User Modeling (UM ‘99), Banff, Canada,
1999.
Chen L., Sycara K., « Webmate: A Personal Agent for Browsing and Searching »,
Proceedings of the 2nd International Conference on Autonomous Agents (Agents’98),
ACM Press, (K. Sycara and M. Woodridge eds.), New York, 1998, p. 132-139.
p. 184-191.
Fox E., Shaw J., « Combination of multiple searches », NIST TREC-2, 1994, p. 243-252.
Freitas F. L., Bittencourt G., « An Ontology-based Architecture for Cooperative Information
Agents », Proceedings of IJCAI’03, Morgan Kaufmann Publishers, Georg Gottlob and
Toby Walsh (eds.), 2003, p. 37-42.
Gasparetti F., Micarelli A., « Adaptive Web Based on a Colony de Cooperative Distributed
Agents », Cooperative Information Agents (CIA) VII, Springer-Verlag, LNAI 2782,
M. Klusch, A. Omicini, S. Ossowski and H. Laamanen (eds.), Helsinki, August, 2003,
p. 168-183.
Lashkari Y., Metral M., Maes P., « Collaborative Interface Agents », In Proceedings of the
Twelfth National Conference on Artificial Intelligence, vol. 1, AAAI Press, Seattle, WA,
1994, http://citeseer.nj.nec.com/lashkari94collaborative.html
Lieberman H., « Autonomous Interface Agents », Proceedings of the ACM Conference on
Computer and Human Interface, Atlanta, Georgia, March 1997.
106 DN – 8/2004. Fouille de textes
Moukas A., « Amalthaea: Information Discovery and Filtering using a Multiagent Evolving
Ecosystem », Applied Artificial Intelligence: An International Journal, 11(5):437-457,
1997.
Menczer F., Pant G., Srinivasan P., Ruiz M. E., « Evaluating Topic-Driven Web Crawlers »,
Proceedings of the 24th Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval, 2001, p. 241-249.
Nick Z., Themis P., « Web Search Using a Genetic Algorithm », IEEE Internet Computing,
March-April 2001, p. 18-26.
Salton G., « The SMART retrieval System », In: Experiments in automatic document
processing, Englewood Clifs, NJ., 1971.
Salton G., « Automatic Text Processing: The Transformations, Analysis, and Retrieval of
Information by Computer », Addison-Wesley, 1989.
Savoy J., « Information Retrieval on the Web: A New Paradigm », Upgrade The European
Online Magazine for the IT Professional, (Ricardo Bayeza-Yates, Peter Schäuble eds.),
n° 3, vol. III, June 2002.
Silverstein C., Henzinger M. R., Marais J., Moricz M., « Analysis of a very large AltaVista
query log », ACM SIGIR, n° 33, 1999, p. 6-12.
Widyantoro D.H., Ioerger T.R., Yen J., « Learning User Interest Dynamics with a Three-
Descriptor Representation », Journal of the American Society for Information Science,
52(3):212-225, 2001.
Zhang B., Seo Y., « Personalized Webdocument Filtering using Reinforcement Learning »,