Académique Documents
Professionnel Documents
Culture Documents
Multimédia
Modèles de RI
ISI-KEF
Université de Jandouba
farhatmahran@yahoo.fr
3. Modèles de RI
33
Modèle booléen
– La fonction de correspondance est basée sur l’implication logique en
logique des propositions :
• Un document D répond à une requête Q si et seulement si
D Q
– Utilisation de déduction par
» Axiomes : (a b) a, (a b) b, a (a b), b (a b), …
» modus ponens (MP) : si a et a b alors b
• Exemple : D = t1 t3 et Q = t1 t4
– Déduction :
1. t1 t3 t1 (équivalent à D t1)
2. MP(1) : t1
3. t1 t1 t4 (équivalent à t1 Q )
4. MP(3) : Q
34
Modèle booléen
– Correspondance stricte
– Q = t1 t3 t4
– D1 = t1 t4 ,
D1 Q
– Le document D1 (représenté par D1) n’est pas pertinent pour la
requête Q (représentée par Q) d’après le modèle, alors qu’il contient
une description « proche » de la requête.
35
Modèle booléen
– Pas de distinction entre les documents pertinents
– Q = t1 t4
– D2 = t1 t4 , D3 = t1 t3 t4 t5 t6 t7
D2 Q et D3 Q
– Le document D2 (représenté par D2) est-il plus ou moins pertinent
que D3 (représenté par D3) pour la requête D (représentée par Q) ?
36
Modèle booléen
– Expression de requêtes complexe
– Q = ((t1 t4) t6) ( t8 (t10 t40)) … ???
– Sens du logique (inclusif) différent du « ou » courant (exclusif)
37
Modèle booléen : avantages et
inconvénients
• Avantage :
– Le modèle est transparent et simple à comprendre p
our l'utilisateur :
• Pas de paramètres « cachés »
• Raison de sélection d'un document claire : il répond à une f
ormule logique
– Adapté pour les spécialistes et les vocabulaires contr
aints
• Inconvénients :
– Il est difficile d'exprimer des requêtes longues sous f
Modèle vectoriel
• Modèle de connaissances : T = {ti}, i [1, .. N]
• Tous les documents sont décrits suivant ce
vocabulaire
Di
Dj
Terme 2
Terme 3
40
Modèle vectoriel
• Pondération des termes pour les documents :
– Un document
– « Un violon est issu de bois précieux comme l’érable, palissandre,
l’ébène... »
– Pour indexer, la première idée est de compter les
mots les plus fréquents excepté les termes non
significatifs comme « de », « avec », « comme »…
– « Un violon est composé de bois précieux comme l’érable, le
palissandre, l’ébène... »
42
Modèle vectoriel
• Pondération :
– On tient compte du corpus (base de documents)
entier, un terme qui apparaît beaucoup ne
discrimine pas nécessairement les documents :
Terme fréquent dans le Terme fréquent dans un seul
corpus entier document du corpus
43
Modèle vectoriel
• Pondération :
– Fréquence documentaire d’un terme
44
Modèle vectoriel
• Pondération :
– Combinaison du t et de l’idf pour un vecteur
document:
• Exemple le plus courant
– wi,j = ti,j . idfj
– Utilisation du t pour une requête
45
Modèle vectoriel
• Fonction de correspondance :
– Fonction de l’angle entre le vecteur requête Q et le
vecteur document Di
Terme 1
Di
Requête Q
Terme 2
46
Modèle
vectoriel
(rappel)
• Idée
de
base
:
– Représenter
les
documents
et
les
requêtes
sous
forme
de
vecteurs
dans
l’espace
vectoriel
engendré
par
tous
les
termes
de
la
collec/on
de
documents
:
T
=
{t1,
t2,
ti,
…,
tM}
(un
terme
=
une
dimension)
• Document
:
dj=
(w1j,
w2j,
…,
wMj)
• Requête
:
q=
(w1q,
w2q,
…,
wMq)
Modèle
vectoriel
(rappel)
Exemple:
D1=
2T1+
3T2+
5T3
D2=
3T1+
7T2+
T3
Q
=
0T1+
0T2+
3T3
• Cosinus de l'angle
• Distance euclidienne
47
Modèle vectoriel : avantages et
inconvénients
• Avantages :
– Le langage de requête est plus simple (liste de mot
clés)
– Les performances sont meilleures grâce à la pondéra
tion des
termes
– Le renvoi de documents à pertinence partielle est po
ssible
– La fonction d'appariement permet de trier les docu
ments
• Inconvénients :
– Le modèle considère que tous les termes sont indép
Modèle
probabiliste
• Pourquoi
les
probabilités
?
– La
RI
est
un
processus
incertain
et
imprécis
• Incer/tude
dans
la
représenta/on
des
informa/ons
• Imprécision
dans
l’expression
des
besoins
6
Modèle
probabiliste
• Processus
de
classifica/on
:
– Pour
un
requête
q
Documents pertinents
rel
CORPUS
€
8
Modèle
probabiliste
• Fonc/on
de
correspondance
– Calcul
de
P(d
|
rel)
Hypothèse
d’indépendance
des
termes
N
P(d j | rel) = ∏ P(t i ∈ d j | rel)
i=1
Pour
es/mer
les
probabilités
sur
les
termes,
on
u/lise
des
requêtes
déjà
résolues
(appren/ssage)
et
des
pondéra/ons
€
– Décision
:
document
retourné
si
– P(rel
|
dj
)
/
P(nonrel
|
dj
)
>
1
9
Modèle
probabiliste
:
avantages
et
inconvénients
• Avantages
:
– Appren/ssage
du
besoin
d’informa/on
– La
fonc/on
d'appariement
permet
de
trier
les
documents
• Inconvénients
:
– Le
modèle
considère
que
tous
les
termes
sont
indépendants
(inconvénient
théorique)
– Pas
de
langage
de
requête
!
– Problème
des
probabilités
ini/ales