Vous êtes sur la page 1sur 26

LES MODÈLES DE RECHERCHE

D’INFORMATION
Enseignante : Rim Mahouachi
RAPPEL : PROCESSUS DE RI

2
PLAN
Les modèles de RI
Exemples de modèles
Modèle Booléen
Modèle Booléen pondéré
Modèle vectoriel

3
MODÈLE DE RI
C’est le modèle noyau d’un SRI.

Il comprend la fonction de décision fondamentale qui permet


d’associer à une requête, l’ensemble des documents pertinents
à restituer.

Il est étroitement lié au modèle de représentation des


documents et requêtes.

4
MODÈLE DE RI
L’appariement requête-documents consiste à calculer un score,
supposé représenter la pertinence du document vis-à-vis de la
requête

Ce score est souvent calculé à partir d’une fonction ou une


probabilité de similarité, en fonction du modèle utilisé, qui tient
compte du poids des termes dans les documents

L’assignation d’un score de pertinence à un document permet


d’ordonner les documents renvoyés à l’utilisateur

5
MODÈLES DE RI

Classification des modèles selon la théorie

6
MODÈLES DE RI
Les modèles de RI se distinguent par le principe
d’appariement (matching) :

Appariement exact
Le résultat est une liste de documents respectant exactement la
requête spécifiée avec des critères précis.
Les documents retournés ne sont pas triés.

Appariement approximatif (approché)


Le résultat est une liste de documents sensés être pertinents pour la
requête.
Les documents retournés sont triés selon leur score de pertinence vis-
à-vis de la requête. 7
MODÈLE BOOLÉEN
PRÉSENTATION
C’est le premier modèle de RI
Introduit en 1983 par Salton et McGill
1er SRI commercial pour 3 décennies (60-90)

Basé sur la théorie des ensembles et l’algèbre de Boole

L’interface d’interrogation de la plupart des moteurs de


recherche est basée sur les principes de ce modèle
Plusieurs SRI l’utilisent encore :
Mail,
catalogues de bibliothèques,
recherche sur ordinateur (Spotlight sur Mac OS X),
.. 8
MODÈLE BOOLÉEN
PRÉSENTATION

Il considère que les termes de l’index sont présents ou


absents d’un document
Les poids des termes dans l’index sont binaires : wi,j = {0, 1}

Un document est soit pertinent soit non pertinent pour une


requête donnée : Pertinence binaire, et jamais partielle.
modèle à appariement exact : le résultat est une liste de
documents respectant exactement la requête spécifiée (les
documents retournés ne sont pas triés).

9
MODÈLE BOOLÉEN
PRINCIPE

Un document di est représenté comme une conjonction


logique de termes non pondérés qui le composent
Exemple :
d1 = t1 ∧ t2 ∧ t5 ou simplement (t1, t2, t5)
d2 = t1 ∧ t3 ∧ t5 ∧ t6
d3 = t1 ∧ t2 ∧ t3 ∧ t4 ∧ t5

Une requête q: expression ou formule booléenne


(ensemble de termes avec des opérateurs booléens AND
(∧), OR (∨), NOT (¬))
Exemple : q = t1 ∧ (t2 ∨ ¬ t3)
10
MODÈLE BOOLÉEN
PRINCIPE

La fonction de correspondance entre une requête q et un


document di , notée RSV(di, q) indique si di est pertinent
ou non à q :
RSV(di, q)=1, pour di pertinent à q
RSV(di, q)=0, pour di non pertinent à q

le document est pertinent si et seulement si son contenu vérifie


l’expression logique de la requête.

o Le poids de chaque terme dans ce modèle est donc


considéré comme étant égal à 1ou à 0.
11
o Ceci revient à considérer la pondération binaire (locale).
MODÈLE BOOLÉEN
PRINCIPE

Exemple :
À la requête :
q = (orange ∧ (ville ∨ cité)) ∧ (¬ (réseau ∨ opérateur ∨ mobile)),

les documents pertinents retournés à l’utilisateur sont ceux


contenant obligatoirement le terme orange et l’un des deux
termes ville ou cité mais qui ne contiennent en aucun cas les termes
réseau, opérateur et mobile.

12
MODÈLE BOOLÉEN
EXEMPLE

? ? ?

13
MODÈLE BOOLÉEN
EXEMPLE

14
MODÈLE BOOLÉEN
EXERCICE

Soit les documents :


o d1 = t1 ∧ t2 ∧ t5
o d2 = t1 ∧ t3 ∧ t5 ∧ t6
o d3 = t1 ∧ t2 ∧ t3 ∧ t4 ∧ t5
Et la requête : q = t1 ∧ (t2 ∨ ¬ t3)

Calculer : RSV( d1,q); RSV(d2,q) et RSV(d3,q).

15
MODÈLE BOOLÉEN
EXERCICE - CORRECTION

Soit les documents :


o d1 = t1 ∧ t2 ∧ t5
o d2 = t1 ∧ t3 ∧ t5 ∧ t6
o d3 = t1 ∧ t2 ∧ t3 ∧ t4 ∧ t5
Et la requête : q = t1 ∧ (t2 ∨ ¬ t3)

t1 t2 ¬ t3 (t2 ∨ ¬ t3) RSV( di,q)


d1 1 1 1 1 1
d2 1 0 0 0 0
d3 1 1 0 1 1
16
MODÈLE BOOLÉEN
REMARQUES

La recherche avec une requête conjonctive constitue une


intersection entre les deux listes d’identifiants des termes de la
requête
Les requêtes formées de deux termes et des opérateurs OU et
SAUF vont correspondre respectivement à une union et une
exclusion sur les listes de documents associées à ces termes.

17
MODÈLE BOOLÉEN
REMARQUES
Une requête combinant deux termes reliés
par un AND retrouvera un ensemble de
documents inférieur ou égal à l’ensemble des
documents restitués par chacun des termes
pris séparément

Une requête combinant deux termes reliés


par un OR retrouvera un ensemble de
documents supérieur ou égal à l’ensemble des
documents restitués par chacun des termes
pris séparément
18
MODÈLE BOOLÉEN
AVANTAGES

Modèle simple à comprendre


un document est retourné s’il répond à une expression logique.

Modèle reconnu pour sa force pour faire une recherche


très restrictive et obtenir, pour un utilisateur expérimenté,
une information exacte et spécifique
Il répond à une formule logique

19
MODÈLE BOOLÉEN
INCONVÉNIENTS

Impossibilité de distinguer l’importance des termes entre eux


au sein d’une requête.
La sélection d’un document est basée sur une décision binaire :
Le système retourne un ensemble de documents non ordonnés : il
n’est pas possible de dire que tel document est plus pertinent que tel
autre (l’utilisateur préfère en général un classement) (cas d’une
disjonction).
Le système retourne soit beaucoup de documents, soit peu de
documents.
Les documents pertinents dont la représentation ne correspond
qu’approximativement à la requête ne sont pas retournés (cas d’une
conjonction).
Formulation de requêtes longues sous forme booléenne
20
difficile et pas toujours évidente pour beaucoup d’utilisateurs.
MODÈLE BOOLÉEN PONDÉRÉ
PRINCIPE

Extension du modèle booléen en intégrant des


pondérations (dénotant la représentativité d’un terme
pour un document)
Modèle de connaissances : T = {ti}, i ∈ [1, .. N]
Termes ti qui indexent les documents
Un document D est représenté par :
Une formule logique D (idem modèle booléen)
Une fonction WD : T → [0,1], qui pour chaque terme de T
donne le poids de ce terme dans D
Le poids vaut 0 pour un terme non présent dans le document
Requête : idem booléen strict.
21
MODÈLE BOOLÉEN PONDÉRÉ
FONCTION DE SIMILARITÉ

Fonction de correspondance non binaire (on se passe des


implications logiques) basée sur une similarité notée Sim
Fonction de Similarité - Version 1: Sim1
Utilisation de la logique floue (avec a et b des termes)
Sim1(D, (a ∧ b)) = min [ WD(a), WD(b) ]
Sim1(D, (a ∨ b)) = max [ WD(a), WD(b) ]
Sim1(D, (¬ a)) = 1 - WD(a)
Requêtes complexes (x et y sont des sous-requêtes):
Sim1(D, (x ∧ y)) = min [ Sim1(D, x) , Sim1(D, y) ]
Limitation : on ne tient pas compte dans la réponse de tous les
termes de la requête
Exemple : min(0.5, min(0.3, 0.5)) = min(1, min(0.3,1))
22
MODÈLE BOOLÉEN PONDÉRÉ
FONCTION DE SIMILARITÉ

Fonction de Similarité - Version 2 : Sim2

Définition d’une mesure de similarité qui tient davantage


compte de chacun des termes de la requête

Limitation : pas de formule pour la négation

23
MODÈLE BOOLÉEN PONDÉRÉ
EXEMPLES

Exemple avec valeurs binaires

?? ?? ?? ??

24
MODÈLE BOOLÉEN PONDÉRÉ
EXEMPLES

Exemple avec valeurs binaires

25
MODÈLE BOOLÉEN PONDÉRÉ
EXEMPLES

Exemple avec valeurs non binaires

?? ?? ?? ??

26

Vous aimerez peut-être aussi