Vous êtes sur la page 1sur 11

Université Saad Dahlab BLIDA 1

Faculté des sciences


Département d’informatique

Reformulation de requêtes par


la méthode de ROCCHIO
« Relevance feedback »
Module: Recherche d’Information 2
1
M2 TAL
Par: Dr. Oukid Lamia

2022-2023
2
Introduction

 Amélioration de l’expression de la requête de l’utilisateur

 Reformulation de requêtes: Apres avoir eu quelques résultats de


recherche, l’utilisateur améliore les résultats en modifiant sa recherche

 Approche local: Retour de Pertinence « Relevance Feedback »


3 Retour de Pertinence « Relevance Feedback »

 l’utilisateur examine les résultats de sa requête en déclarant au système


les documents pertinents et/ou non pertinents.
4 Méthode de ROCCHIO
 Rocchio propose un algorithme d'expansion de requete basé sur le modèle vectoriel.

 But: Rapprocher la requête vers les documents pertinents et de l’éloigner des


documents non pertinents selon le jugement de l’utilisateur.

 Comment?
 Amélioration de la requête par combinaison du vecteur requête et des vecteurs
documents jugés pertinents par l’utilisateur
 Amélioration de la requête par désintégration du vecteur requête les termes présents
dans les documents jugés non pertinents par l’utilisateur
5 Méthode de ROCCHIO
 La formule de Rocchio propose de définir une nouvelle requête a travers
I’utilisation du retour de pertinence « Relevence feedback » de I ’utilisateur.

 L'utilisateur identifie
□ un ensemble R de documents pertinents
□ un ensemble N de documents non pertinents.

 La requête reformule

□ combinaison linéaire des fréquences moyennes des termes dans la requête


d'origine et dans ces deux ensembles (les centroides de R et N).
6
Rappels sur le modèle vectoriel
 Modèle vectoriel « Vector Space Model » Salton (1970)

 Appartient à la famille des modèles algébrique

 Principe: Les documents d'une collection et la requête sont représentés par


des vecteurs dans un espace multidimensionnel ou les dimensions sont les
termes issus de l'indexation de la collection
7
Rappels sur le modèle vectoriel
 Soit R l'espace vectoriel défini par l'ensemble des termes : R < t1 , t2 , ..., tm >
d < wt1 , wt2 , ..., wtm > q < wqt1 , wqt2 , ..., wqtm >
 wti et wqti sont les poids du terme ti dans le document d et dans la requête q
 m représente le nombre de termes dans l'espace.

 Matrice termes*documents Calcul de similarité (d,q) Résultat


- Produit interne - Documents
- Mesure de Cosinus classés par
- Coef de Dice ordre de
- Mesure de Jacard pertinence

8
Algorithme de ROCCHIO
1. Soumission d’une requête initiale Q par l’utilisateur

2. Traitement de la requête initiale par le SRI

3. Sélection par l’utilisateur des pages ou documents pertinents et non pertinents

4. Composition automatique d’une nouvelle requête Q1 a partir de la requête initiale Q et des

informations fournis par les pages pertinentes et non pertinentes sélectionnées.

5. Nouvelle requête reformulée Q1 transmise automatiquement au SRI

6. Génération des pages dépistées avec la nouvelle requête reformulée.

Etape 3 à 6 procédure itérative


Formule de ROCCHIO
9
 A partir de la requête Q calculer une nouvelle requête Q1 comme suit:
10 Exercice
 Soit le corpus de documents suivant:
D1 : « Le professeur parle de la recherche d'information et du modèle vectoriel.»
D2 : « La recherche d'information est un domaine de recherche.»
D3 : « Le modèle vectoriel est un modèle algébrique. »
D4: « la fouille de données textuelle.»
1. Construire la matrice Termes×Documents de ce corpus après élimination de
mots vides, normalisation et pondération des termes par la méthode Tf.
2. Quels sont les résultats retournés pour la requête « recherche d'information
textuelle » en utilisant le produit interne.
3. Supposons que l’utilisateur définis D1et D2 comme pertinents et D4 comme
non pertinents. Utiliser la formule de Rocchio pour reformuler la requête.
Comparer les résultats.
11
Références
J.J Rocchio, Jr Salton, and G. Information Search Optimization and
Iterative Retrieval Techniques. In Fall Joint Computer Conference, pages
293–305, 1965.

Vous aimerez peut-être aussi