Vous êtes sur la page 1sur 26

MAIS – UN SYSTÈME MULTI-AGENTS POUR LA RECHERCHE

D'INFORMATION SUR LE WEB


Fabrício Enembreck, Jean-Paul Barthès

Lavoisier | « Document numérique »

2004/3 Vol. 8 | pages 83 à 106


ISSN 1279-5127
Article disponible en ligne à l'adresse :
--------------------------------------------------------------------------------------------------------------------
https://www.cairn.info/revue-document-numerique-2004-3-page-83.htm
--------------------------------------------------------------------------------------------------------------------

Pour citer cet article :

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


--------------------------------------------------------------------------------------------------------------------
Fabrício Enembreck, Jean-Paul Barthès« MAIS – Un système multi-agents pour la
recherche d'information sur le web », Document numérique 2004/3 (Vol. 8),
p. 83-106.
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

DOI 10.3166/dn.8.3.83-106
--------------------------------------------------------------------------------------------------------------------

Distribution électronique Cairn.info pour Lavoisier.


© Lavoisier. Tous droits réservés pour tous pays.

La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les
limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la
licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie,
sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de
l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage
dans une base de données est également interdit.

Powered by TCPDF (www.tcpdf.org)


Cet article est disponible en ligne à l’adresse :
http://www.cairn.info/article.php?ID_REVUE=DN&ID_NUMPUBLIE=DN_083&ID_ARTICLE=DN_083_0083

MAIS – Un système multi-agents pour la recherche d’information sur le web

par Fabrício ENEMBRECK et Jean PAUL BARTHÈS

| Lavoisier | Document numérique

2004/3 - Volume 8
ISSN 1279-5127 | pages 83 à 106

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Pour citer cet article :


— Enembreck F. et Paul Barthès J., MAIS – Un système multi-agents pour la recherche d’information sur le web,
Document numérique 2004/3, Volume 8, p. 83-106.

Distribution électronique Cairn pour Lavoisier.


© Lavoisier. Tous droits réservés pour tous pays.
La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des
conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre
établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière
que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur
en France. Il est précisé que son stockage dans une base de données est également interdit.
MAIS – Un système multi-agents
pour la recherche d’information sur le web

Fabrício Enembreck — Jean-Paul Barthès


UTC - Université de Technologie de Compiègne
Laboratoire HEUDIASYC UMR 6599
Centre de Recherches Royallieu
F-60205 Compiègne cedex
enembrec@hds.utc.fr ; barthes@utc.fr

RÉSUMÉ. Cet article présente un système multi-agent (SMA) améliorant la recherche de


documents sur la Toile. Une telle recherche devient de plus en plus difficile chaque jour car
les mécanismes couramment utilisés ne peuvent suivre la croissance anarchique de l’internet.
En conséquence, les résultats obtenus par les moteurs de recherche classiques sont souvent
très mauvais. Les SMA toutefois peuvent donner de meilleurs résultats, grâce à une
spécialisation des agents pour exécuter des tâches différentes (recherche et filtrage) et à la
possibilité de personnaliser l’information. Nous avons conçu et développé un SMA ouvert,
MAIS (Multi-Agent based Internet Search), doté d’assistants personnels, d’un agent
bibliothèque, d’agents de filtrage, et d’agents de recherche. Dans cet article, nous détaillons

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


les éléments de MAIS et nous comparons ses performances à celles des moteurs de recherche
classiques, dont les résultats sont beaucoup moins précis.
ABSTRACT. In this paper we present a multi-agent system for searching the Internet. The
search for interesting documents on the Internet is becoming increasingly difficult, mainly
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

because search engines cannot cope with the expansion of the Internet. Consequently, the
results of queries are often of very poor quality. Multi-agent systems can give more accurate
results than traditional search engines because agents can be specialized in different tasks
(search or filtering) and can personalize information. We implemented such an approach
using an open multi-agent system containing personal assistants, library agents, filter agents
and search agents. In this paper, we detail the elements of our multi-agent system and
compare its performance with more traditional search engines. Our results yield a better
accuracy.
MOTS-CLÉS : système multi-agent, recherche d’information, récupération d’information,
recherche sur web.
KEYWORDS: multi-agent system, information search, information retrieval, web search.

DN – 8/2004. Fouille de textes, page 83 à 106


84 DN – 8/2004. Fouille de textes

1. Introduction

Savoy (2002) affirme que 85 % des utilisateurs qui cherchent des informations
sur la Toile font appel à plusieurs moteurs de recherche, ce qui dénote les
insuffisances de chaque moteur pris séparément. L’insatisfaction liée aux mauvais
résultats obtenus provient essentiellement de deux facteurs :
– les moteurs n’indexent pas tous les mêmes des pages ;
– les moteurs évaluent différemment la qualité des pages obtenues.
Dans ce travail, nous nous intéressons surtout au deuxième problème.
La qualité d’un site est calculée différemment selon le moteur de recherche
employé. Certains moteurs utilisent la fréquence des termes présents dans la
requête, d’autres des techniques heuristiques. La technique utilisée par Google,
connue sous le nom de Page Rank (Brin et Page, 1998), consiste à apprécier la
qualité d’une page en dénombrant le nombre de liens pointant sur celle-ci.
L’heuristique dans ce cas est fondée sur la relation sémantique dénotée par les liens.
Ce genre de techniques peut convenir dans certains cas, mais ne donne pas toujours
de bons résultats, car ni les préférences ni les connaissances des utilisateurs ne sont
prises en compte, autrement dit les résultats ne sont pas personnalisés.
La personnalisation si elle n’est pas un sujet nouveau, continue à susciter de
nouvelles approches. Les premières idées ont été avancées au début des années 90
par Lieberman (1997), Armstrong et collaborateurs (1995), Chen et Sycara (1998)
et Lashkari et collaborateurs (1994). Les trois premiers groupes ont construit des

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


agents isolés d’aide à la navigation sur la Toile et le dernier groupe a conçu un
système d’agents capable de gérer des courriels. Dans la lignée de ces travaux, nous
pensons que l’introduction de systèmes multi-agents (SMA) peut donner de
meilleurs résultats que des agents personnels isolés. En effet, les agents d’un SMA
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

peuvent :
– faciliter la personnalisation d’information, car certains agents peuvent être
spécialisés dans la création et la gestion de modèles d’utilisateurs ;
– faciliter l’accès à des sources d’information multiples ;
– échanger des informations afin de se perfectionner, et participer à un processus
collaboratif de résolution distribuée ;
– distribuer et équilibrer la charge de travail.
Nous nous sommes appuyés sur ces hypothèses pour concevoir et développer un
SMA appelé MAIS (Multi-Agent based Internet Search) pour la recherche
d’informations personnalisées sur la Toile. Nous détaillons dans cet article
l’architecture et le développement de MAIS, et discutons quelques travaux voisins
des nôtres. La section 2 introduit quelques caractéristiques et avantages des SMA
ouverts ; la section 3 présente MAIS ; la section 4 analyse les performances de
MAIS ; les travaux se rapprochant des nôtres et les différentes formes de
MAIS, SMA pour la recherche d’information sur web 85

personnalisation de l’information sur la Toile sont discutés dans la section 5 ;


finalement, la section 6 conclut l’article.

2. Les SMA et le web

L’utilisation d’un SMA ouvert dans une application pour internet offre trois
avantages principaux : l’extensibilité, la stabilité et l’équilibrage de charges.
– extensibilité : le système peut être mis à jour et étendu sans effets collatéraux
quand il est en opération. Etant donné que les agents sont indépendants, ils peuvent
être créés ou modifiés, alors que d’autres agents continuent à travailler et à fournir
des services ;
– stabilité : quand un agent tombe en panne, d’autres agents peuvent coordonner
la distribution des tâches et assurer la continuité des services ;
– équilibrage de charges : les agents distribuent naturellement la charge de
travail. Certaines tâches comme l’apprentissage des profils des utilisateurs ou la
recherche d’information nécessitent beaucoup de calculs. Des protocoles de
coordination peuvent être utilisés pour distribuer la charge de travail uniformément
entre les agents.
Malgré ces avantages, les applications des SMA pour l’internet ne sont pas
pléthore. On peut l’expliquer par le manque de mécanismes standard qui
permettraient d’échanger l’information entre agents de différentes plates-formes,

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


bien que plusieurs organismes, dont FIPA1, fassent actuellement un effort important
visant à établir ces standards.
La recherche d’information sur la Toile est un problème qui se prête bien à
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

l’utilisation d’un SMA, car il peut être décomposé en problèmes plus simples de
façon naturelle.
Les différentes fonctionnalités d’un système de recherche sont les suivantes :
– la recherche doit prendre en compte suffisamment de pages pour assurer une
bonne couverture du sujet ;
– le système doit être capable de modéliser les préférences de l’utilisateur pour
personnaliser la présentation des résultats ;
– le système doit posséder un mécanisme pour coordonner ces activités.
Notre réponse à la première question est de définir des agents jouant le rôle de
métamoteurs et capables de récupérer des pages fournies par plusieurs moteurs de
recherche existants, comme Google, Altavista ou All-the-Web. Le deuxième point
peut être résolu par la définition d’agents chargés de construire et de mettre à jour
des profils d’utilisateurs. Ainsi, des personnes qui ont différents centres d’intérêt

1. FIPA – Foundations for Intelligent Physical Agents, http://www.fipa.org


86 DN – 8/2004. Fouille de textes

pourront recevoir des résultats différents pour une même requête. Le troisième point
est résolu par l’utilisation d’un SMA pour les raisons mentionnées précédemment.
Le système que nous avons conçu et développé, MAIS, est présenté dans les
sections suivantes.

3. Le système MAIS

3.1. Approche générale

Le principe de fonctionnement du système MAIS est le suivant : un utilisateur


qui souhaite obtenir des informations fait une requête qui sera traitée par des
moteurs de recherche standard. Les résultats sont rassemblés et filtrés en fonction
d’un profil utilisateur calculé à partir de documents personnels (favoris) organisés
en centres d’intérêt et de centres d’intérêt publics. Les pages se rapprochant le plus
des documents déjà contenus dans le profil l’utilisateur sont retenues et placées en
tête des réponses. L’utilisateur prend connaissance des pages qui l’intéressent et a la
possibilité de les rajouter aux documents présents dans ses centres d’intérêt.

Documents
Centre d’intérêts
AB publics
Structure
Des Documents
Documents,
Structure
Structure des

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Documents Des Documents
Documents
Documents,
Espace de l’utilisateur Structure des
(Documents, Structure des Documents
Documents et Graphe de Google
GC AF1 AR1
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Concepts)
Documents
AF2 AR2 Altavista
CFB
Requête Request
(Termes, Nsites, Intérêts) AP .
. Sites .
Réponse Answer . .
.
AFn ARn All-the-Web
AP = Assistant Personnel
AB = Agent Bibliotèque
AF = Agent de Filtrage
AR = Agent de Recherche Agents de Filtrage Agents de Recherche

Figure 1. L’architecture du système MAIS


MAIS, SMA pour la recherche d’information sur web 87

3.2. Structure du système MAIS

Le système MAIS contient quatre catégories d’agents : l’assistant personnel


(AP), l’agent bibliothèque (AB), les agents de filtrage (AF) et les agents de
recherche (AR), comme schématisé sur la figure 1. Les agents échangent des
messages typés (Request, Answer et Call-For-Bids « CFB ») pour l’allocation
dynamique de tâches, contenant des documents des modèles vectoriels de
documents, ou des graphes de concepts (GC) utilisés par l’algorithme
d’apprentissage pour analyser le niveau de pertinence d’un document.

3.3. Le fonctionnement

L’utilisateur est doté d’un agent assistant personnel (AP) qui lui fournit
fondamentalement deux services : une gestion des pages favorites et, évidemment,
la recherche de nouvelles pages.

3.3.1. La gestion des pages favorites


Les pages favorites sont stockées par l’assistant personnel (AP) dans l’espace de
travail de l’utilisateur, dans des dossiers personnels sous forme de documents
textuels qui sont ensuite utilisés par l’agent bibliothèque (AB) pour créer un modèle
vectoriel. Ce modèle est composé de la liste des termes les plus importants, présents
dans la collection de documents personnels. L’agent bibliothèque peut être

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


programmé pour mettre automatiquement à jour la structure des documents de
l’utilisateur (une fois par jour, par exemple), ou activé par une requête de
l’administrateur du système. Il sera aussi utilisé par l’administrateur du système
pour la construction de centres d’intérêt publics. Ces derniers contiennent des
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

documents concernant des domaines précis (de recherche ou pas) fournis par des
experts, par exemple, Artificial-Intelligence-Adaptative-Agents, Groupware-
Knowledge-Management ou encore Artificial-Intelligence-MBR. Ces centres
d’intérêt sont communs à tous les utilisateurs, mais peuvent être personnalisés au fur
et à mesure que les utilisateurs ajoutent de nouveaux documents à leur profil. En
effet, les documents qui forment chaque centre d’intérêt sont copiés dans l’espace
de travail de l’utilisateur lorsqu’il les sélectionne. L’utilisateur peut alors les
compléter. A ce jour le nombre de centres d’intérêt fournis par le système est encore
réduit, car il s’agit d’un prototype, mais nous envisageons de créer une collection de
centres d’intérêt ressemblant aux répertoires de catégories des moteurs de recherche.

3.3.2. Le processus de recherche


L’utilisateur déclenche une recherche en passant à son assistant personnel une
liste de termes, le nombre de pages désiré, et les centres d’intérêt sélectionnés (les
siens ou des centres d’intérêt publics). L’assistant envoie ensuite une requête en
88 DN – 8/2004. Fouille de textes

mode broadcast. Le premier agent de filtrage (AF) disponible sera chargé de fournir
la réponse.
Les agents de filtrage jouent un rôle central dans le système. La première tâche
d’un agent de filtrage engagé dans un processus de recherche est de rassembler les
résultats fournis par les agents de recherche (AR) à l’issue d’une procédure de
contract-net. Rappelons que dans le contract-net l’agent (le gérant) qui doit
résoudre un problème envoie un appel d’offres en mode broadcast et attend les
propositions des candidats. Ensuite, il choisit les candidats ayant fait les meilleures
offres en leur passant un contrat. Finalement, les contractants envoient leurs
réponses au gérant. Le temps d’attente des réponses est paramétrable (dans notre
cas, il est de 20 secondes). L’agent de filtrage récupère une liste importante de
pages qu’il doit réduire et ordonner pour finalement présenter les résultats à
l’utilisateur. C’est alors que le mécanisme de personnalisation entre en action.
Le processus de personnalisation consiste à ordonner la liste de pages fournies
par les agents de recherche en fonction des préférences de l’utilisateur. Chaque page
est classée selon un processus qui retourne sa classe et le degré de qualité de la
classification. Les classes possibles correspondent aux dossiers créés par
l’utilisateur pour organiser ses documents favoris (centres d’intérêt qu’il a choisis).
Finalement, seules les meilleures pages sont sélectionnées après seuillage. Les
sections suivantes donnent plus de détails sur la conception de chaque agent, et
notamment sur le mécanisme de classification de l’agent de filtrage.

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


3.4. Les agents de MAIS

3.4.1. L’assistant personnel (AP)


Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Dans notre application, l’assistant personnel est composé de deux éléments


principaux : l’interface et une base d’actions.
L’interface constitue le côté client de l’assistant personnel et permet à
l’utilisateur de déclencher des recherches, de visualiser les résultats et de gérer les
documents favoris. La base d’actions est composée d’une série de fonctions (LISP)
codées dans un serveur HTTP et déclenchées à distance par l’interface. Par
conséquent, n’importe quel utilisateur connecté à l’internet peut utiliser l’interface
pour faire des recherches de façon transparente. La figure 2 montre l’interface de
l’assistant personnel. Les recherches faites par l’utilisateur peuvent ensuite être
affichées en fonction de différents critères (mots-clés utilisés « keywords », nombre
de sites ou encore état courant des recherches « ready ou running »). Ces résultats
peuvent être supprimées avec le bouton « Delete Query » ou mis à jour avec le
bouton « Update Results ». Au départ, le résultat des recherches est affiché par
ordre d’importance fixé par le système, mais d’autres ordonnancements sont
possibles. L’utilisateur peut gérer les favoris en rajoutant/supprimant des dossiers et
MAIS, SMA pour la recherche d’information sur web 89

des pages dans son espace de travail. L’interface permet aussi à l’utilisateur de
sélectionner les centres d’intérêt qui lui conviennent (figure 3).

Recherches
Site Titre Classe

Score
Bibliographie de l’equipe SMAC

http://www.irit.fr/ACTIVITIES/EQ_SMI/SMAC/Bibliographie.html

AI-Personal-Assistant

Dossiers favorites Sites favorites

Figure 2. L’interface de l’AP

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


.
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Figure 3. Les centres d’intérêt publics

Etant donné que les recherches peuvent durer plusieurs minutes, elles sont
déclenchées de façon asynchrone. L’utilisateur peut donc activer plusieurs
recherches par exemple la nuit, puis analyser les résultats le lendemain.
90 DN – 8/2004. Fouille de textes

3.4.2. L’agent bibliothèque (AB) et la représentation des documents


L’agent bibliothèque est spécialisé dans la manipulation des documents. Son
rôle est de construire à partir d’une collection de documents, un dictionnaire
représentatif composé d’index. Pour cela il met en œuvre certaines techniques
empruntées à différents domaines comme la classification automatique de
documents ou la récupération d’information. Nous utilisons un dictionnaire anglais
contenant tous les noms possibles et leurs variations, ce qui nous dispense de faire
des traitements linguistiques préalables comme une lemmatisation. Ainsi nous
sommes capables de supprimer du texte toute catégorie grammaticale inutile et
sélectionner seulement les noms. Nous cherchons une approche générale, qui puisse
être utilisée sans effort indépendamment du langage. Dans notre cas, il suffit
d’ajouter de nouveaux dictionnaires pour pouvoir utiliser le système dans des
langages différents.
La tâche de l’agent bibliothèque consiste à trouver une bonne représentation
pour l’ensemble des documents (favoris de l’utilisateur et centres d’intérêt publics)
en choisissant les bonnes caractéristiques (index). Une technique bien connue, basée
sur le modèle vectoriel de Salton (1971), consiste à choisir certains termes existant
dans un document pour construire un vecteur qui le représente. Ces termes sont
normalement les termes les plus importants dans une collection de documents. Pour
choisir les termes nous avons utilisé comme mesure de qualité TF-IDF (Term
Frequency - Inverse Document Frequency) (Salton, 1989). TF-IDF considère qu’un
terme est important s’il est très fréquent dans un petit nombre de documents. TFter
représente la fréquence du terme ter dans la collection de documents et IDF

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


représente la fréquence inverse par rapport au nombre de documents, calculée selon
la formule log(N/DFter) où N est le nombre total de documents dans la collection et
DFter est le nombre de documents qui contiennent le terme ter. Ainsi, la valeur TF-
IDF d’un terme quelconque i par rapport à une collection de documents est donnée
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

par :

TFIDF (i) TFi u log§¨ N ·


¸
© DFi ¹ [1]
La représentation d’un document donné d est donnée par le vecteur

d = ­TF d u log§¨ N ·,..., TF d u log§ N ·½


®
¯
1
© DF1 ¸¹ n ¨ DF ¸¾
© n ¹¿

où TFi d est la fréquence du terme i dans le document d. Ainsi la représentation de la


collection de documents de chaque utilisateur dans chaque domaine est structurée
selon les termes trouvés par l’agent bibliothèque. La section suivante montre
comment les structures obtenues sont utilisées dans le processus d’apprentissage.
MAIS, SMA pour la recherche d’information sur web 91

3.4.3. L’agent de filtrage (AF)


L’agent de filtrage coordonne le dialogue entre les différents agents du système.
Il reçoit comme paramètres la liste de termes à rechercher, le nombre de pages à
retourner et les noms des centres d’intérêt donnés par l’utilisateur. Il est responsable
de la personnalisation et son rôle principal est d’ordonner et de réduire la liste de
pages qu’il reçoit des agents de recherche en fonction du profil de l’utilisateur. Pour
cela, il utilise la méthode d’apprentissage ELA (Entropy-based Learning Approach)
décrite ci-après.

Le mécanisme d’apprentissage
La méthode d’apprentissage ELA est une méthode incrémentale que nous avons
développée lors de recherches précédentes pour résoudre les problèmes des
algorithmes de classification automatique utilisant une mémoire comme KNN ou
MBR (Memory-Based Reasoning). De façon résumée, ELA a besoin de beaucoup
moins de données d’apprentissage, n’utilise pas de mesure de similarité et classe les
nouveaux exemples très rapidement. Notre mécanisme d’apprentissage comprend
deux parties : l’acquisition/représentation des données et leur classification.

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Figure 4. Construction d’un graphe de concepts

ELA représente les données sous forme d’un graphe de concepts2 (GC). La
figure 4 illustre la construction d’un tel graphe avec 14 exemples (1, 2,… 14)

2. Ici notre graphe de concept n’a rien à voir avec les graphes conceptuels proposés par Sowa.
Il n’a pas non plus de rapport avec un arbre de décision, car il n’y a pas d’ordre hiérarchique
92 DN – 8/2004. Fouille de textes

extraits de la base de données de Quinlan (1986). Cette base met en relation des
variables météorologiques (Extérieur, Température, Humidité et Vent) et la pratique
de sport (Pratique ou Non Pratique). Dans le graphe, chaque nœud représente un
concept qui correspond à la valeur d’un attribut (dénoté par un rectangle) et chaque
lien représente une transition d’un attribut vers un autre attribut. Nous n’attribuons
pas de poids aux attributs ni ne faisons aucun traitement ultérieur. L’ordre des
attributs (niveau de profondeur de chaque attribut dans le graphe) est donné par la
représentation initiale des données. Les concepts et les liens sont créés de façon
dynamique. Un lien entre deux concepts A et B contient les identifiants des
exemples qui possèdent les valeurs A et B (entre crochets sur la figure).

Figure 5. Classification d’un exemple

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


La classification d’un nouvel exemple est faite de la manière suivante : d’abord
l’algorithme identifie dans le graphe les concepts appartenant à l’exemple à classer.
Par exemple, sur la figure 5 les concepts « Rain », « Cool », « H-High » et « True »
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

sont choisis. Deuxièmement, l’algorithme obtient la collection de sous-ensembles


correspondants. Sur la figure 5 les sous-ensembles sont [4 5 6 10 14], [5 6 7 9], [1 2
3 4 8 12 14] et [2 6 7 11 14]. Ensuite, le sous-ensemble qui présente la meilleure
distribution de classes est sélectionné (car il correspond à l’entropie la plus faible,
[5 6 7 9]) et est partitionné en fonction des classes qu’il contient ([5 7 9] pour la
classe Pratique et [6] pour la classe Non Pratique). La mesure de qualité des classes
(Pratique et Non Pratique) est calculée en fonction du comportement de
l’intersection des exemples de la classe avec toutes les partitions initiales. En effet,
une classe est optimale si elle est représentée entièrement dans l’ensemble complet
de partitions. Evidemment, quand c’est le cas, l’intersection entre la classe et les
partitions doit produire des sous-ensembles de taille identique. Cela arrive sur la
figure 5 pour la classe NP (Non Pratique), où l’ensemble suivant est obtenu avec
l’intersection : { [6] [6] [6] } ; Dans ce cas, nous avons trois sous-ensembles de

entre nœuds, autrement dit, chaque chemin de la racine jusqu’aux feuilles du graphe ne
représente pas un concept du point de vue de l’apprentissage automatique.
MAIS, SMA pour la recherche d’information sur web 93

taille 1. Une classe imparfaite doit produire des intersections de tailles variables, par
exemple { [5] [5 7 9] [7] } sur la figure 5. Nous identifions ce comportement en
utilisant une fois de plus la mesure d’entropie, cette fois-ci en choisissant la classe
qui présente l’entropie la plus importante.
Nous avons évalué la performance de cette technique d’apprentissage par
rapport d’autres algorithmes connus dans domaine de l’apprentissage symbolique
(Naïve Bayes, NN, C45, C45 Rules, CN2) et nous avons constaté que notre
technique présente une meilleure performance sur plusieurs bases de données du
domaine public (UCI3). Des commentaires plus détaillés sur la méthode ELA et son
évaluation sont disponibles dans (Enembreck, 2003).

Représentation des
documents de l’utilisateur agent protocole communication auml…
+
Dialogue Systems
dialogue system user preference …
+
Représentation des documents des
centres d’intérêts de l’utilisateur MBR
instance nearest qualitative accuracy …
+
Knowledge Management
knowledge management information organization user …

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Représentation générale
agent nearest dialogue knowledge preference …
des documents

Figure 6. Combinaison des index


Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Dans l’application à la classification de pages web, la valeur de l’entropie


calculée pour la meilleure classe donne le degré de qualité de la page.
Toutefois, pour créer le graphe de concepts et ensuite l’utiliser pour classer les
pages, deux questions doivent être résolues :
– les données d’un algorithme d’apprentissage doivent être structurées (avoir des
attributs), autrement dit, les pages doivent être indexées ;
– nous devons disposer d’exemples d’apprentissage.

Indexation des documents (modèle de préférences)


Nous avons vu dans la section 3.4.2 comment l’agent bibliothèque est capable
de construire une représentation vectorielle des documents favoris de l’utilisateur et

3. University of California, Irvine.


94 DN – 8/2004. Fouille de textes

de chaque centre d’intérêt public. Ces représentations doivent être combinées pour
construire une liste unique de termes qui représente le modèle général de
préférences, et qui sera ensuite utilisée par l’algorithme d’apprentissage. La
combinaison entre ces différentes vecteurs se fait grâce à un processus de
« fusion », pour lequel le critère d’ordonnancement des termes est la valeur TF-IDF.
La liste résultante est limitée arbitrairement à 1 000 éléments. La figure 6 donne un
exemple de la procédure adoptée. A partir de quatre vecteurs de termes représentant
respectivement les favoris de l’utilisateur « ſ », et les centres d’intérêt « Dialogue
Systems », « MBR » et « Knowledge Management », les termes en gras ont été
choisis. Cette approche garantit que des informations de toutes les classes seront
utilisées par l’algorithme d’apprentissage. Pour garder une certaine cohérence entre
les valeurs TF-IDF nous considérons des collections contenant une même quantité
de documents pour chaque centre d’intérêt. Puisque les collections de termes
peuvent présenter des intersections, les répliques sont supprimées et seul le terme
présentant la valeur TF-IDF la plus importante est considérée.
La représentation du modèle général de préférences de l’utilisateur est donc
composée d’une liste de termes choisis à partir de différents vecteurs représentant
plusieurs collections de documents. Ce modèle est formé par la combinaison de
(n + 1) vecteurs, 1 pour les favoris de l’utilisateur et n pour le nombre de centres
d’intérêt publics choisis. Ce processus n’analyse donc pas directement le contenu
des documents des centres d’intérêt, mais utilise simplement le modèle vectoriel
construit au préalable, ce qui permet de diminuer le temps de calcul.

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Les exemples d’apprentissage
Une fois résolu le problème de la structuration et de l’indexation des documents,
le deuxième problème consiste à trouver suffisamment de données pour
l’algorithme d’apprentissage. Pour fabriquer le graphe de concepts, l’agent de
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

filtrage utilise comme données les documents existants dans les favoris de
l’utilisateur, plus les documents présents dans chaque centre d’intérêt sélectionné
par ce dernier. Il faut souligner que la classe de chaque document est connue. Il
s’agit du nom du dossier favori où l’utilisateur a enregistré le document (dans le cas
des documents favoris) ou du nom du centre d’intérêt concerné (dans le cas des
documents des centres d’intérêt publics).
Lorsque l’agent de filtrage reçoit une requête, il recherche le graphe de concepts
dans l’espace de l’utilisateur, le créant si nécessaire. Ensuite, il classe toutes les
pages envoyées par les agents de recherche et enregistre la réponse en ordonnant les
résultats selon les résultats de la méthode ELA. La figure 2 reproduit les classes
trouvées par l’agent de filtrage.
MAIS, SMA pour la recherche d’information sur web 95

Aspect adaptatif de l’agent (utilisation de feedback)


Dans l’application à la recherche sur la Toile, l’adaptation est réalisée par les
agents de filtrage. Dans ce cas, le graphe de concepts constitue le modèle général
des préférences de l’utilisateur.
L’adaptation du modèle des préférences de l’utilisateur se fait dans deux cas :
– l’utilisateur ajoute/supprime un document dans les favoris ;
– l’utilisateur demande une recherche avec des centres d’intérêt différents de
ceux présents dans son profil.
Dans le premier cas, l’aspect incrémental du graphe permet à l’agent d’ajouter et
de supprimer un nouveau document sans effort, entraînant une mise à jour
automatique de son profil. En conséquence, le filtrage des résultats se fera toujours
par rapport au modèle courant, ce qui revient à dire que l’algorithme apprend
instantanément. Si un document est supprimé l’identifiant du document concerné est
supprimé. Si un nœud devient vide, il est aussi supprimé.
Dans le deuxième cas, le graphe est reconstruit entièrement. Chaque centre
d’intérêt ajouté/supprimé correspond à plusieurs documents qu’il faut ajouter ou
supprimer du graphe et du profil de l’utilisateur. La procédure la plus simple
consiste à recréer le graphe. Le calcul nécessaire dépend évidemment du nombre de
centres d’intérêt concernés et du nombre de documents stockés dans les favoris.
Cependant, la création du graphe ne pose pas de problèmes quand il s’agit de
représenter quelques milliers de documents.

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


3.4.4. L’agent de recherche (AR)
Les agents les plus simples du système sont certainement les agents de
recherche. Chaque agent de recherche gère un moteur de recherche particulier,
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

comme Google, Altavista et All-the-Web. Ces agents sont réalisés par des agents
OMAS (Open Multi-Agent System, développé par Barthès, 2002). Comme ceux-ci
évoluent dans un environnement ouvert, de nouveaux agents peuvent être créés
pendant l’exécution du système, ce qui permet l’addition de nouveaux moteurs de
recherche à n’importe quel moment sans que cela n’affecte le fonctionnement
général. Cette architecture permet également de rechercher des pages en parallèle,
ce qui réduit le temps total de recherche. Afin d’effectuer les recherches dans un
espace de taille raisonnable (ni trop grand ni trop petit), chaque agent de recherche a
été programmé pour retourner 2N pages, si N est le nombre de pages demandées par
l’utilisateur. Ainsi, si le système compte n agents de recherche, l’agent de filtrage
concerné va analyser jusqu’à 2nN pages. Généralement, le nombre de pages à
classer sera très inférieur à 2nN, car certaines pages sont communes à plusieurs
moteurs de recherche.
96 DN – 8/2004. Fouille de textes

3.5. La réalisation du système MAIS

Du point de vue informatique l’agent assistant est composé d’une interface LISP
capable d’envoyer des messages à l’agent de transfert (AT) qui tourne sur un
serveur HTTP. Ensuite, l’agent de transfert envoie le message concerné vers
l’intérieur de la plate-forme d’agents OMAS. Nous utilisons le serveur HTTP fourni
par Allegro Common Lisp™. L’agent de transfert est lui aussi codé en LISP. Le
choix du serveur Allegro nous permet d’exécuter des fonctions LISP comme des
programmes CGI, ce qui rend la tâche d’interprétation des messages beaucoup plus
facile. La figure 7 montre les ressources mises en œuvre par le système.
L’agent de transfert émule les services de base concernant la communication au
standard FIPA comme l’Agent Manager System, le Directory Facilitator et l’Agent
Communication Channel. Il est capable de traduire des messages OMAS en
messages FIPA SL-0 et d’assurer la cohérence entre les protocoles OMAS et les
protocoles FIPA. L’agent de transfert peut donc jouer le rôle de passerelle entre
OMAS et d’autres plates-formes compatibles FIPA.

FA1 AR
AF SA1 AB
LA

Interface
Interface Message
HTTP Serveur FA2 AR
AF SA2
Fonctions Message OMAS
LISP
Lisp Message
HTTP HTTP AT
Assistant . .
(Contract Net,

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


(MAIS Langage) . .
KQML Message, . .
L’Agent Assistant MAIS Langage)
Assistant Personnel Serveur HTTP
Chez l’utilisateur FAn AR
AF SAn
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

AB = Agent Bibliothèque Agents OMAS


AF = Agent Filtrage
AR = Agent Recherche Réseau Local
AT = Agent Transfert

Figure 7. Ressources informatiques utilisées par le système

4. Résultats

L’évaluation des mécanismes de recherche sur la Toile est toujours une tâche
compliquée. Les mesures couramment utilisées par les systèmes de récupération
d’information comme recall et precision sont insuffisantes en raison de la
dynamicité du corpus de pages. Une majorité de travaux concernant l’évaluation de
tels mécanismes utilise un corpus de pages prédéfini. Les pages sont ordonnées
selon une mesure de similarité calculée automatiquement faisant intervenir les
résultats et les pages de référence. Par exemple, Menczer et al. (2001) ont
utilisé 100 catégories et pages de référence proposées par Yahoo pour comparer les
MAIS, SMA pour la recherche d’information sur web 97

résultats de trois mécanismes de recherche. Dans ce cas, les ensembles de pages


utilisées comme références et comme tests sont statiques et de taille limitée. Pour
éviter ces problèmes, Gasparetti et Micarelli (2003) ont utilisé les mesures recall et
precision sur la base « .gov » proposée par TREC (Text REtrieval Conference -
http://trec.nist.gov). Cette base compte 1,2 million de pages « .gov » répertoriées
jusqu’à 2002 et, selon les auteurs est suffisamment importante pour être
représentative d’une collection de documents de la Toile. Les auteurs ont évalué les
résultats sur trois requêtes : « exchange office », « educational department » et
« children foundation ». Le nombre de résultats moyen pour chaque requête est
373 712, 445 964 et 117 036, respectivement. Ces mesures de performance sont
utiles pour découvrir l’information disponible sur un sujet susceptible d’être traité
automatiquement par une machine, mais notre problème est plus difficile, car un
système de recherche d’information personnalisé doit limiter le nombre de résultats,
en tenant compte de l’effort que l’utilisateur devra fournir pour les analyser
(Silvertein et al., 1999).
Notre évaluation prend l’avis de trois utilisateurs sur les résultats obtenus
directement sur la Toile et non sur des bases de données simulées. Les utilisateurs,
ayant différents niveaux d’expertise, analysent uniquement les vingt ou trente
premières pages en indiquant combien de pages leur sont utiles. Nous estimons que
seuls les premiers sites doivent être analysés, car un bon système de recherche ne
doit pas demander un effort important d’analyse des résultats. Le domaine de
recherche est celui des systèmes multi-agents. Nous avons choisi des requêtes sur un
même domaine pour réduire les ambiguïtés liées à l’identification des sites

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


intéressants, et donc pour pouvoir estimer plus précisément les apports des centres
d’intérêt publics et des sites favoris.
Chaque centre d’intérêt public a été construit selon la technique présentée dans
la section 3.4.2. Les centres d’intérêt ont été construits à partir de 10 articles
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

scientifiques choisis par les experts du laboratoire. Chaque utilisateur a été invité à
choisir un nombre de pages de référence (sites favoris) dans le cadre des ses propres
spécialités (tableau 1). Les résultats ont été analysés en aveugle, sans prendre en
compte l’identité des différents moteurs de recherche utilisés par le système.
Tous les utilisateurs ont exécuté les requêtes suivantes : « agent », « autonomy
agent », « personal assistant » et « personal assistant agent ». Par ailleurs, des
centres d’intérêt identiques ont été utilisés par les utilisateurs afin de comparer les
résultats dans les mêmes conditions. Ces requêtes sont intentionnellement ambiguës.
Le but du mécanisme d’évaluation est de savoir jusqu’à quel point le système est
capable de filtrer des informations intéressantes en utilisant l’expertise de chaque
utilisateur comme référence. Nous mesurons également l’influence des centres
d’intérêt publics proposés par le système pour l’utilisateur C.
98 DN – 8/2004. Fouille de textes

Utilisateur Expertise Pages de référence Centres d’intérêt


Adaptative-Agents
Autonomous-Agents
A Systèmes multi-agent 58
Agents
Personal Assistant
Adaptative-Agents
Intelligence artificielle Autonomous-Agents
B 8
Agents
Personal Assistant
C Aucune 1 -
Adaptative-Agents
Autonomous-Agents
C-int Aucune 1
Agents
Personal Assistant

Tableau 1. Informations sur les utilisateurs

Performance avec 20 sites


Nombre de Sites

18
Intéressants

15
12
All-the-Web
9
6 Altavista
3 Google

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


ent" Age
nt " ta nt" n t" MAIS(B-8)
"Ag s sis Age
n omy nal A sis ta nt MAIS(A-55)
to rso s
"Au "Pe al A
rso n
"Pe
Requêtes
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Figure 8. Performance mesurée sur les 20 premières pages

Le graphique présenté sur la figure 8 illustre la performance de trois moteurs de


recherche connus (All-the-Web, Altavista et Google) et les résultats des utilisateurs
A (A-55) et B (B-8) avec MAIS. Comme nous nous y attendions, l’utilisateur A a
obtenu les meilleurs résultats dans tous les tests, ce qui démontre la capacité du
système à tenir compte du profil de l’utilisateur (sous forme de ses pages favorites)
pour la personnalisation des résultats. L’utilisateur B a obtenu les mêmes
améliorations.
Deux observations semblent évidentes à partir des résultats de la figure 8 :
– la première est la limite des performances de MAIS imposée par les moteurs
de recherche ;
– la variabilité des moteurs de recherche.
MAIS, SMA pour la recherche d’information sur web 99

MAIS réalise des métarecherches. Si les moteurs utilisés par MAIS sont
incapables de trouver des pages intéressantes, MAIS sera incapable de donner de
bons résultats. Cela se confirme avec la requête « Agent » qui est ambiguë.
Certains moteurs de recherche présentent de bonnes performances pour certaines
requêtes, alors que pour d’autres les résultats sont très pauvres. Nous pouvons
constater, par exemple, que All-the-Web, donne des bons résultats pour la requête
« Autonomy Agent » et de mauvais résultats pour « Personal Assistant ».

Performance avec 30 sites

30
Nombre de Sites
Intéressants

25
20
15 All-the-Web
10 Altavista
5 Google
ent " Age
nt " a nt" n t" MAIS(B-8)
"Ag sis t Age
my l As ta nt
ton o rso na s si s MAIS(A-55)
"Au "Pe al A
rso n
"Pe
Requêtes

Figure 9. Performance mesurée sur les 30 premières pages

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Performance avec 20 et 30 sites, avec et sans centres
30 d'intérêts

25
Nombre de Sites
Intéressants

MAIS(C):20
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

20
MAIS(C-int):20
15 MAIS(C):30
MAIS(C-int):30
10

5
"Agent" "Autonomy Agent" "Personal "Personal
Assistant" Assistant Agent"
Requêtes

Figure 10. Résultats avec et sans les centres d’intérêt publics

Si l’on analyse les 30 premières pages, MAIS donne encore les meilleurs
résultats pour l’utilisateur A (figure 9). En revanche, la performance du système
concernant l’utilisateur B est dépassée par d’autres moteurs de recherche pour
3 requêtes sur 4. Cela montre que lorsqu’un utilisateur possède un profil
incompatible avec les informations recherchées, le système ne pourra pas l’aider. Ce
problème peut être résolu simplement en informant le système que le profil de
100 DN – 8/2004. Fouille de textes

l’utilisateur ne doit pas être utilisé pour la recherche, mais qu’il faut utiliser les
centres d’intérêt publics.
Afin de mesurer l’importance des centres d’intérêt publics pour la recherche
d’information avec MAIS, nous avons demandé à l’utilisateur C qui possède un
profil pratiquement vide, de réaliser des recherches sans référencer les centres
d’intérêt « MAIS(C) » et puis en référençant les centres d’intérêt « MAIS(C-int) ».
Les résultats sont indiqués sur la figure 10. Pour la requête « Agent », l’utilisation
des centres d’intérêt est indifférente, car la requête est trop imprécise. Pour la
requête « Autonomy Agent » les centres d’intérêt ont amélioré énormément la
performance tant pour les 20 premières pages que pour les 30 premières. Pour les
deux dernières requêtes, la performance du système a été sensiblement améliorée
lorsque les 30 premières pages sont analysées. Lorsque seulement les 20 premières
pages sont analysées les centres d’intérêt ont peu d’importance pour les requêtes
« Personal Assistant » et » Personal Assistant Agent ». Ceci démontre que même
pour des requêtes raisonnablement précises, comme « Personal Assistant
Agent », les moteurs de recherche utilisés par MAIS ne sont pas capables de
grouper les meilleures pages et de les présenter en priorité.

Avec 20 pages Avec 30 pages


MAIS(C-int) 13,25 MAIS(C-int) 19,5
MAIS(A-58) 12,5 MAIS(A-58) 18,25
MAIS(C) 11,75 MAIS(C) 16,25

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


MAIS(B-8) 11 MAIS(B-8) 15
Google 9,5 Google 15
All-the-Web 8,25 All-the-Web 13,5
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Altavista 6,5 Altavista 9,25

Tableau 2. Résultats moyens en nombre de pages intéressantes pour les 4 requêtes

La performance moyenne pour tous les moteurs de recherche sur les 4 requêtes
est indiquée sur le tableau 2. L’analyse des 20 et 30 premières pages montre que
MAIS a dépassé tous les moteurs de recherche. De façon surprenante, l’utilisateur
obtenant le meilleur résultat est « C-int » qui contient un profil pratiquement vide,
mais qui utilise les centres d’intérêt publics. Ceci montre que les pages jugées
intéressantes par les utilisateurs ne rajoutent pas forcément des informations très
importantes pour le système. Pire, l’ajout de pages peut même diminuer la précision
du système, si ces pages ne contiennent pas beaucoup de texte, car elles introduisent
beaucoup de bruit. Cela explique par exemple que l’utilisateur MAIS-C, qui
n’utilise pas des centres intérêt publics et fait uniquement référence à sa propre page
personnelle dans ses favoris puisse avoir un meilleur résultat que l’utilisateur
MAIS(B-8). Dans ce cas, le système a jugé que plusieurs sites liés à des professions
MAIS, SMA pour la recherche d’information sur web 101

libérales et à la finance étaient pertinents pour l’utilisateur MAIS(B-8). Ces sites


contenaient certains termes comme live, service, intelligent, time, personal,
assistants, training, learning, planning, organization d’usage courant. Par ailleurs,
lorsque le profil de l’utilisateur est vide ou incomplet comme dans le cas de MAIS-
C, c’est-à-dire, ne contient pas un nombre minimal (fixé à 200) de termes
nécessaires à la création du modèle de préférences, le système ordonne les sites en
utilisant une technique simple de vote, qui renforce l’importance d’un document s’il
est récupéré par plusieurs moteurs de recherche. Cette technique est similaire à la
méthode CombMNZ, proposée par Fox et Shall (1994). Les résultats obtenus
montrent par ailleurs que notre technique de personnalisation donne de meilleurs
résultats que cette technique simple de fusion. Toutefois, les travaux sur la fusion de
résultats de moteurs de recherche sont hors du cadre de cet article car ces méthodes
ne prennent généralement pas en compte la personnalisation. Nous constatons
également que le système MAIS est plus précis lorsque l’utilisateur choisit les
centres d’intérêt publics, car ceux-ci sont composés de documents validés par des
experts. Les documents sont représentatifs du domaine et contiennent beaucoup
d’informations textuelles. Nous pouvons donc conclure que les utilisateurs devront
analyser soigneusement les pages qui leur conviennent avant de les ajouter à leur
liste de favoris.

5. Discussion et travaux similaires

Nous n’avons pas fait d’essais d’acceptabilité du système car le but de notre

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


travail était simplement de démontrer techniquement qu’une approche multi-agent
peut améliorer sensiblement les résultats de recherches sur la Toile. Cependant,
l’analyse des résultats nous a permis de constater que certains sites très mal classés
par certains moteurs de recherche (comme par exemple, entre les positions 80e et
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

90e) ont pu être récupérés par le système, car d’autres moteurs de recherche les
avaient placés en meilleure position. Nous pouvons donc conclure que le système
peut automatiser en partie le fastidieux travail d’analyse des résultats et diminuer
énormément la charge de l’utilisateur dans certaines conditions (l’utilisation des
centres d’intérêt publics et/ou un bon ensemble de sites favoris). Par ailleurs, nous
ne pouvons pas nous appuyer uniquement sur les sites favoris des utilisateurs pour
concevoir une représentation fiable de ces centres d’intérêt car les informations
correspondantes sont souvent ambiguës, contradictoires, incomplètes et bruitées.
C’est la raison pour laquelle nous avons introduits des centres d’intérêt publics
représentant des sujets que les utilisateurs peuvent facilement choisir.
Widyantoro et collaborateurs (2001) discutent différents modèles de
représentation des profils des utilisateurs pour la personnalisation dans le cadre d’un
système d’information. Selon les auteurs, un tel système doit être capable de
modéliser les changements dynamiques d’intérêt des utilisateurs en introduisant une
représentation explicite d’un modèle à long terme et d’un modèle à court terme. Le
modèle à long terme correspond aux intérêt généraux qui ne changent pas souvent,
102 DN – 8/2004. Fouille de textes

et le modèle à court terme correspond aux nouveaux intérêt ponctuels de


l’utilisateur. La technique introduite par les auteurs est basée sur une représentation
du modèle de l’utilisateur séparée en trois parties (long terme, court terme positive
et court terme négative), où positive et négative correspondent au feedback de
l’utilisateur sur les documents. Nous pouvons citer encore d’autres travaux où
l’utilisateur doit fournir un feedback afin d’aider le système : Amalthea (Moukas et
Zacharia, 1997), (Billsus et Pazzani, 1999) et Webnaut (Nick et al., 2001). Le
premier utilise une collection d’agents pour filtrer et ordonner les informations d’un
utilisateur. Chaque agent de filtrage fait partie d’une population d’agents qui évolue
en fonction d’un algorithme génétique prenant en compte la qualité des documents
que les agents fournissent. Cette approche intéressante présente l’inconvénient
d’avoir besoin d’une fonction de fiabilité pour chaque agent pour calculer le degré
de « fitness » en fonction des résultats fournis par l’agent, ce qui peut s’avérer très
complexe et demander beaucoup de feedback, comme l’indiquent Lashkari et al.
(1994). Le deuxième travail utilise quatre types de feedbacks : interesting, not
interesting, I already know this, et tell me more about this qui sont traduits par des
valeurs numériques à l’intérieur du système et utilisés par certaines heuristiques
pour le calcul de l’intérêt des documents. Nick et al. (2001) utilisent le feedback de
l’utilisateur pour construire un SMA capable de réaliser des métarecherches. Parmi
les agents du système, l’agent apprentissage utilise un algorithme génétique pour
construire des populations de requêtes à partir des mots-clés trouvés dans le profil
de l’utilisateur, la requête de l’utilisateur et des opérateurs logiques. Dans ce
système l’utilisateur doit analyser son propre modèle et indiquer au système quels
sont les termes importants. Par ailleurs, les systèmes fondés sur le principe

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


d’expansion de requêtes introduisent souvent beaucoup de bruit avec des requêtes
incohérentes produites de façon aléatoire et sont très dépendants de la qualité des
requêtes initiales proposées par les utilisateurs.
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Afin de réduire la surcharge de travail introduite par le besoin de feedback


explicite, certains travaux comme ceux de (Bottraud et al., 2003) introduisent des
mécanismes ou des heuristiques automatisés pour l’acquisition implicite de
feedback, comme par exemple, de concepts extraits du contexte de travail, les
mouvements et clicks de la souris ou encore des informations personnelles stockées
en zone de travail ou des répertoires de documents personnels. Bottraud et al.
(2003), comme Enembreck et Barthès (2003a), propose l’utilisation des documents
personnels de l’utilisateur pour la construction du profil de l’utilisateur. Le
deuxième travail utilise une structure vectorielle standard pour représenter les
centres d’intérêt de l’utilisateur tandis que le premier propose une structure
hiérarchique construite à partir d’un algorithme de regroupement4 (COBWEB)
enrichie par les concepts présents dans les tâches courantes de l’utilisateur,
capturées par des agents observateurs qui enregistrent des événements provoqués
par l’utilisateur, comme le contenu du presse-papier, les pages web visitées ou

4. Une technique similaire de représentation hiérarchique des concepts est utilisé par Freitas
et Bittencourt (2003).
MAIS, SMA pour la recherche d’information sur web 103

encore les documents en cours d’édition. Ces concepts sont utilisés pour
sélectionner seulement certaines parties de la hiérarchie lors du traitement d’une
requête. Ensuite, les sites sont ordonnés en fonction de la similarité vectorielle des
termes sélectionnés dans la hiérarchie. Nous pouvons citer plusieurs problèmes liés
à cette approche, notamment la pertinence des informations contextuelles pour la
requête (le « contexte », est-il toujours liée à une requête donnée ?), le mauvais
choix de certains concepts dans la hiérarchie peut restreindre le nombre de termes et
modifier les résultats de la fonction de similarité. Par ailleurs, il est très difficile de
contextualiser le travail de l’utilisateur, car celui-ci est souvent en train d’exécuter
plusieurs tâches pas toujours en relation et de manière aléatoire.
L’architecture de notre système est similaire à celle du système WAIR (Web
Agents for Internet Research) proposé par Zhang et Seo (2001). Ce système
présente également un agent interface pour l’interaction avec l’utilisateur, des
agents de filtrage dotés de mécanismes d’apprentissage (par renforcement), et des
agents de recherche pour consulter différents moteurs de recherche. La différence
principale par rapport à MAIS se situe encore une fois dans la façon dont le
feedback est utilisé pour la mise à jour du profil de l’utilisateur. WAIR utilise un
feedback explicite et implicite pour calculer la pertinence d’un document. Le
feedback explicite est donné par l’utilisateur (valeur numérique entre 0 et 1) et le
feedback implicite (temps de lecture d’un document, ajout aux favoris, examen du
texte et liens suivis dans un document) est mesuré automatiquement par le système.
Ces paramètres sont normalisés et utilisés pour le calcul des récompenses associées
aux documents et sont utilisés par l’algorithme d’apprentissage par renforcement.

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Comme précédemment, ces techniques présentent des problèmes car seuls les
utilisateurs expérimentés peuvent apprécier un document de façon fiable. Par
ailleurs les heuristiques de feedback implicite souvent ne reflètent pas l’intérêt réel
de l’utilisateur car elles ne sont pas capables de prévoir toutes les situations
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

possibles.
Notre approche consiste à diviser le profil de l’utilisateur en n + 1 parties, où n
est le nombre de centres d’intérêt de l’utilisateur, assorti du modèle des favoris.
Dans notre cas, le modèle à long terme est donné par les sites favoris de l’utilisateur.
Le système peut aussi gérer le modèle à court terme car celui-ci est construit
dynamiquement lorsque l’utilisateur change explicitement de centre d’intérêt, en
choisissant par exemple de nouveaux centres d’intérêt publics. Par ailleurs,
l’utilisateur peut simplement désactiver le modèle à long terme, entièrement ou
partiellement, et travailler uniquement avec les centres d’intérêt publics. Nous
pensons que notre approche réduit le besoin de feedback de la part de l’utilisateur
car celui-ci indique simplement les centres d’intérêt qui lui conviennent et n’a pas
besoin de classer chaque document comme positif ou négatif. Par conséquent, le
comportement du système ne dépend pas uniquement du feedback de l’utilisateur.
Evidemment, la construction des centres d’intérêt demande un effort préalable de la
part du développeur pour la sélection des documents représentatifs, mais cet effort
104 DN – 8/2004. Fouille de textes

peut être minimisé avec l’utilisation de répertoires publics de documents dans


différents domaines.
Concernant les SMA, certaines applications web, moins nombreuses utilisent les
concepts de résolution distribuée de problème. Freitas et Bittencourt (2003) utilisent
la collaboration entre agents pour rechercher des informations spécifiques sur la
Toile. Les agents ont des connaissances (patrons de pages, règles, et fonctions) sur
des domaines spécifiques et sont capables de faire des propositions sur ces pages.
Lorsqu’une recommandation d’un agent est acceptée, les autres agents rajoutent à
leur connaissance les règles et concepts qui lui ont permis de faire cette
recommandation. Par conséquent, les agents coopèrent pour résoudre le problème.
Les agents sont utilisés pour la recherche d’appels à participation à des conférences
et pour obtenir des articles scientifiques. Concernant l’architecture de MAIS, nous
sommes conscients que nos agents, comme ceux de (Bottraud et al., 2003) et
(Zhang et Seo, 2001), ne sont pas très coopératifs et que le mécanisme de
coordination est codé en dur dans les agents de filtrage. Cependant, nos tâches sont
très spécifiques et ne sont pas vraiment propices à une résolution distribuée de
problèmes, car les activités de chaque agent sont exécutées de façon indépendante.
Cependant, tous nos agents sont effectivement distribués (y compris les agents
filtrage), ce qui peut être très important car l’utilisateur peut démarrer plusieurs
requêtes qui seront traitées en parallèle par plusieurs agents filtrage du système (ce
sont eux qui coordonnent les recherches). Par ailleurs, de nouveaux agents peuvent
être ajoutés au système au fur et à mesure, afin diminuer la charge de travail des
agents dans un environnement contenant plusieurs utilisateurs.

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


6. Conclusions
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

La personnalisation de la recherche d’information sur internet est un vaste


domaine. Il semble que l’idée de SMA capables de réaliser des services
personnalisés comme la recherche et le filtrage d’information devient plus réaliste
chaque jour. La plupart de ces systèmes introduisent différentes techniques de
représentation du modèle de l’utilisateur. Les systèmes sont souvent pilotés par le
feedback de l’utilisateur afin de mettre à jour son profil et raffiner les résultats, ce
qui peut accroître la charge de travail de l’utilisateur. Nous pensons que certains
modèles d’intérêt peuvent être partagés par plusieurs utilisateurs et mis à jour par
chaque utilisateur lorsqu’il le juge nécessaire. Ainsi, n’importe quel utilisateur
(même ceux qui n’ont pas beaucoup d’expérience) peut profiter d’une certaine
personnalisation. Pour développer notre idée, nous avons présenté dans cet article
un nouveau système de recherche d’information sur la Toile sous forme d’un SMA
capable de récupérer et de classer automatiquement l’information à partir de
recherches effectuées par des moteurs de recherche standard. Le système
personnalise les recherches en prenant en compte des pages favorites de l’utilisateur
et/ou des centres d’intérêt publics construits au préalable à partir de documents
sélectionnés par des experts de divers domaines. Les mesures de performance
MAIS, SMA pour la recherche d’information sur web 105

montrent que l’utilisation de centres d’intérêt publics ou privés (documents favoris)


peuvent améliorer sensiblement les résultats de la recherche.

7. Bibliographie

Armstrong R., Freitag D., Joachims T., Mitchell T., « WebWatcher: A Learning Apprentice
for the World Wide Web », AAAI Spring Symposium on Information Gathering from
Heterogeneous, Distributed Environments, march, 1995.
Barthès J-P., A. OMAS v 1.0 Technical Reference, Memo UTC/GI/DI/N 151, Université de
Technologie de Compiègne, Département de Génie Informatique, January, 2002.
Bottraud J.-C., Bisson G., Brauandet M. F., « Apprentissage de profils pour un agent de
recherche d’information », Actes de la Conférence Apprentissage (CAP’03), 1-2 juillet,
Laval, 2003. p. 31-46.
Brin S., Page L., « The Autonomy of a Large-Scale Hypertextual Web Search Engine »,
Computer Networks, n° 30, p. 107-117, 1998.
Billsus D., Pazzani M., « A Hybrid User Model for News Story Classification », Proceedings
of the Seventh International Conference on User Modeling (UM ‘99), Banff, Canada,
1999.
Chen L., Sycara K., « Webmate: A Personal Agent for Browsing and Searching »,
Proceedings of the 2nd International Conference on Autonomous Agents (Agents’98),
ACM Press, (K. Sycara and M. Woodridge eds.), New York, 1998, p. 132-139.

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Enembreck F., Contribution à la conception d’agents assistants personnels adaptatifs, Thèse
de doctorat, Université de Technologie de Compiègne, décembre, 2003.
Enembreck F., Barthès J.-P., « Agents for Collaborative Filtering, Cooperative Information
Agents VII », Springer-Verlag, Lecture Notes in Artificial Intelligence LNAI 2782, 2003a,
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

p. 184-191.
Fox E., Shaw J., « Combination of multiple searches », NIST TREC-2, 1994, p. 243-252.
Freitas F. L., Bittencourt G., « An Ontology-based Architecture for Cooperative Information
Agents », Proceedings of IJCAI’03, Morgan Kaufmann Publishers, Georg Gottlob and
Toby Walsh (eds.), 2003, p. 37-42.
Gasparetti F., Micarelli A., « Adaptive Web Based on a Colony de Cooperative Distributed
Agents », Cooperative Information Agents (CIA) VII, Springer-Verlag, LNAI 2782,
M. Klusch, A. Omicini, S. Ossowski and H. Laamanen (eds.), Helsinki, August, 2003,
p. 168-183.
Lashkari Y., Metral M., Maes P., « Collaborative Interface Agents », In Proceedings of the
Twelfth National Conference on Artificial Intelligence, vol. 1, AAAI Press, Seattle, WA,
1994, http://citeseer.nj.nec.com/lashkari94collaborative.html
Lieberman H., « Autonomous Interface Agents », Proceedings of the ACM Conference on
Computer and Human Interface, Atlanta, Georgia, March 1997.
106 DN – 8/2004. Fouille de textes

Moukas A., « Amalthaea: Information Discovery and Filtering using a Multiagent Evolving
Ecosystem », Applied Artificial Intelligence: An International Journal, 11(5):437-457,
1997.
Menczer F., Pant G., Srinivasan P., Ruiz M. E., « Evaluating Topic-Driven Web Crawlers »,
Proceedings of the 24th Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval, 2001, p. 241-249.
Nick Z., Themis P., « Web Search Using a Genetic Algorithm », IEEE Internet Computing,
March-April 2001, p. 18-26.
Salton G., « The SMART retrieval System », In: Experiments in automatic document
processing, Englewood Clifs, NJ., 1971.
Salton G., « Automatic Text Processing: The Transformations, Analysis, and Retrieval of
Information by Computer », Addison-Wesley, 1989.
Savoy J., « Information Retrieval on the Web: A New Paradigm », Upgrade The European
Online Magazine for the IT Professional, (Ricardo Bayeza-Yates, Peter Schäuble eds.),
n° 3, vol. III, June 2002.
Silverstein C., Henzinger M. R., Marais J., Moricz M., « Analysis of a very large AltaVista
query log », ACM SIGIR, n° 33, 1999, p. 6-12.
Widyantoro D.H., Ioerger T.R., Yen J., « Learning User Interest Dynamics with a Three-
Descriptor Representation », Journal of the American Society for Information Science,
52(3):212-225, 2001.
Zhang B., Seo Y., « Personalized Webdocument Filtering using Reinforcement Learning »,

Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier


Applied Artificial Intelligence, n° 15, 2001, p. 665-685.
Document téléchargé depuis www.cairn.info - - - 178.159.97.230 - 08/10/2018 20h44. © Lavoisier

Vous aimerez peut-être aussi