Chap 5

Indexation et Recherche d’information
Multimédia
Modèles de RI
ISI-KEF
Université de Jandouba
farhatmahran@yahoo.fr
ISI-KEF Université de Jandouba Indexation et Recherche d’information Multimédia

Plan
1. Qu’est ce que la RI ?
2. Petit tour d’horizon

– Du besoin d’information à la requête
– Représentation de l’information
3. Modèles de RI
4. Évaluation des performances

Modèle booléen
–Modèle de connaissances : T = {ti}, i  [1, .. N]
• Termes ti qui indexent les documents
– Le modèle de documents (contenu) est une
expression booléenne dans la logique des
propositions avec les ti considérés comme des
propositions :
• Un document D1 est représenté par une formule D1
D1= t1  t3  t250  t254
• Une requête Q est représentée par une formule logique Q
Q = (t1  t3)  (t25  t1045  t134 )
33
Modèle booléen
– La fonction de correspondance est basée sur l’implication logique en
logique des propositions :
• Un document D répond à une requête Q si et seulement si
D Q
– Utilisation de déduction par
» Axiomes : (a  b)  a, (a  b)  b, a  (a  b), b  (a  b), …
» modus ponens (MP) : si a et a  b alors b
• Exemple : D = t1  t3 et Q = t1  t4
– Déduction :
1. t1  t3  t1 (équivalent à D  t1)
2. MP(1) : t1
3. t1  t1  t4 (équivalent à t1  Q )
4. MP(3) : Q
 Q est donc dérivable à partir de D, donc D  Q : le document répond à la requête.
34
Modèle booléen
– Correspondance stricte
– Q = t1  t3  t4
– D1 = t1  t4 ,
D1  Q
– Le document D1 (représenté par D1) n’est pas pertinent pour la
requête Q (représentée par Q) d’après le modèle, alors qu’il contient
une description « proche » de la requête.
35
Modèle booléen
– Pas de distinction entre les documents pertinents
– Q = t1  t4
– D2 = t1  t4 , D3 = t1  t3  t4  t5  t6  t7
D2  Q et D3  Q
– Le document D2 (représenté par D2) est-il plus ou moins pertinent
que D3 (représenté par D3) pour la requête D (représentée par Q) ?
36
Modèle booléen
– Expression de requêtes complexe
– Q = ((t1  t4)  t6)  ( t8  (t10  t40)) … ???
– Sens du  logique (inclusif) différent du « ou » courant (exclusif)
37
Modèle booléen : avantages et
inconvénients
• Avantage :
– Le modèle est transparent et simple à comprendre p
our l'utilisateur :
• Pas de paramètres « cachés »
• Raison de sélection d'un document claire : il répond à une f
ormule logique
– Adapté pour les spécialistes et les vocabulaires contr
aints
• Inconvénients :
– Il est difficile d'exprimer des requêtes longues sous f
Modèle vectoriel
• Modèle de connaissances : T = {ti}, i  [1, .. N]
• Tous les documents sont décrits suivant ce
vocabulaire
• Un document Di est représenté

I par un vecteur
Di décrit dans l’espace vectoriel RN défini par T :
–Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un
terme pour un document
• Une requête Q est représentée par un vecteur
Q décrit dans l’espace vectoriel RN défini par T :
–Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N)
39
Modèle vectoriel
• Plus les vecteurs représentant les documents
sont « proches », plus les documents sont
similaires :
Terme 1
Di
Dj
Terme 2
Terme 3
40
Modèle vectoriel
• Pondération des termes pour les documents :
– Un document
– « Un violon est issu de bois précieux comme l’érable, palissandre,
l’ébène... »
– Pour indexer, la première idée est de compter les
mots les plus fréquents excepté les termes non
significatifs comme « de », « avec », « comme »…
– « Un violon est composé de bois précieux comme l’érable, le
palissandre, l’ébène... »
Termes retenus et comptés 41

Modèle vectoriel
• Pondération :
– Fréquence d’un terme (term frequency)
• ti,j : la fréquence du terme tj dans le document Di est égale

au nombre d’occurrences de tj dans Di.
• Exemple : si violon apparaît 5 fois dans le document D 3,

avec violon=t23, alors t3,23 = 5
42
Modèle vectoriel
• Pondération :
– On tient compte du corpus (base de documents)
entier, un terme qui apparaît beaucoup ne
discrimine pas nécessairement les documents :
Terme fréquent dans le Terme fréquent dans un seul
corpus entier document du corpus
43
Modèle vectoriel
• Pondération :
– Fréquence documentaire d’un terme
• dfj : la fréquence dans le corpus du terme tj est le nombre

de documents du corpus où tj apparaît
– On utilise l’inverse de la fréquence documentaire,

idfj :
• Définition simple : idfj = 1 / dfj
• Définition la plus utilisée : idfj = log(ND / dfj), avec ND le
nombre de documents du corpus.
44
Modèle vectoriel
• Pondération :
– Combinaison du t et de l’idf pour un vecteur
document:
• Exemple le plus courant
– wi,j = ti,j . idfj
– Utilisation du t pour une requête
45
Modèle vectoriel
• Fonction de correspondance :
– Fonction de l’angle entre le vecteur requête Q et le
vecteur document Di
Terme 1
Di
Requête Q
Terme 2
Plus l’angle est petit et

plus le document
Terme 3 correspond à la requête
46
Modèle vectoriel (rappel)
•  Idée de base :
–  Représenter les documents et les requêtes sous
forme de vecteurs dans l’espace vectoriel
engendré par tous les termes de la collec/on de
documents :
T = {t1, t2, ti, …, tM} (un terme = une dimension)
•  Document : dj= (w1j, w2j, …, wMj)
•  Requête : q= (w1q, w2q, …, wMq)
Modèle vectoriel (rappel)
Exemple:
D1= 2T1+ 3T2+ 5T3
D2= 3T1+ 7T2+ T3
Q = 0T1+ 0T2+ 3T3
La per/nence est traduite en une similarité vectorielle : un document est d’autant

plus per/nent pour une requête que le vecteur associé est similaire à celui de la
requête.
Modèle vectoriel
• Fonction de correspondance :
– Une solution est de calculer le cosinus de l’angle
entre le vecteur requête et le vecteur document.
• Produit scalaire
• Cosinus de l'angle
• Distance euclidienne
47
Modèle vectoriel : avantages et
inconvénients
• Avantages :
– Le langage de requête est plus simple (liste de mot
clés)
– Les performances sont meilleures grâce à la pondéra
tion des
termes
– Le renvoi de documents à pertinence partielle est po
ssible
– La fonction d'appariement permet de trier les docu
ments
• Inconvénients :
– Le modèle considère que tous les termes sont indép
Modèle probabiliste
•  Pourquoi les probabilités ?
–  La RI est un processus incertain et imprécis
•  Incer/tude dans la représenta/on des informa/ons
•  Imprécision dans l’expression des besoins
–  La théorie de la probabilité semble adéquate

pour quan/ﬁer (pour mesurer) l’incer/tude et
l’imprécision
•  Suppose que la recherche se déroule lors d’une
« session de recherche » (plusieurs itéra/ons)
•  Consiste à « es/mer » la per/nence d'un
document en fonc/on de per/nences connues
pour d'autres documents.
•  Ce calcul se fait en es/mant la per/nence de
chaque index pour un document et en u/lisant le
Théorème de Bayes et une règle de décision
6
•  Processus de classiﬁca/on :
–  Pour un requête q
Documents pertinents

rel

CORPUS

Documents non pertinents

avec nonrel

Corpus = rel ∪ nonrel
rel ∩ nonrel = ∅
Probabilité pour que le

 P(pertinenceq | document Dj) document j fasse partie de
notée Prob(rel | Dj) l’ensemble des documents
pertinents pour la requête q
•  Fonc/on de correspondance :
–  On ne sait pas calculer P(rel |d), mais on peut calculer P(d | rel)
–  U/lisa/on du théorème de Bayes
Probabilité d’obtenir dj en connaissant Probabilité d'obtenir un document

les pertinents per/nent en piochant au hasard

P(d j | rel) × P(rel)

P(rel | d j ) =
P(d j )
Probabilité pour que le document i soit
pertinent pour la requête q Probabilité que le document soit
choisi au hasard
€
8
•  Fonc/on de correspondance
–  Calcul de P(d | rel)
 Hypothèse d’indépendance des termes
N
P(d j | rel) = ∏ P(t i ∈ d j | rel)
i=1
 Pour es/mer les probabilités sur les termes, on u/lise des
requêtes déjà résolues (appren/ssage) et des pondéra/ons
€
–  Décision : document retourné si
–  P(rel | dj ) / P(nonrel | dj ) > 1
9
Modèle probabiliste : avantages et
inconvénients
•  Avantages :
–  Appren/ssage du besoin d’informa/on
–  La fonc/on d'appariement permet de trier les documents
•  Inconvénients :
–  Le modèle considère que tous les termes sont indépendants
(inconvénient théorique)
–  Pas de langage de requête !
–  Problème des probabilités ini/ales
 Résultats comparables à ceux du modèle vectoriel

ISI-KEF Université de Jandouba Indexation et Recherche d’information Multimédia

Chap 5

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap 5

Transféré par

Droits d'auteur :

Formats disponibles

Indexation et Recherche d’information

ISI-KEF Université de Jandouba Indexation et Recherche d’information Multimédia

2. Petit tour d’horizon

4. Évaluation des performances

 Q est donc dérivable à partir de D, donc D  Q : le document répond à la requête.

• Un document Di est représenté

Termes retenus et comptés 41

• ti,j : la fréquence du terme tj dans le document Di est égale

• Exemple : si violon apparaît 5 fois dans le document D 3,

• dfj : la fréquence dans le corpus du terme tj est le nombre

– On utilise l’inverse de la fréquence documentaire,

Plus l’angle est petit et

La per/nence est traduite en une similarité vectorielle : un document est d’autant

–  La théorie de la probabilité semble adéquate

Documents non pertinents

Probabilité pour que le

Probabilité d’obtenir dj en connaissant Probabilité d'obtenir un document

P(d j | rel) × P(rel)

 Résultats comparables à ceux du modèle vectoriel

Vous aimerez peut-être aussi

Chap 5

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap 5

Transféré par

Droits d'auteur :

Formats disponibles

Indexation et Recherche d’information

ISI-KEF Université de Jandouba Indexation et Recherche d’information Multimédia

2. Petit tour d’horizon

4. Évaluation des performances

 Q est donc dérivable à partir de D, donc D  Q : le document répond à la requête.

• Un document Di est représenté

Termes retenus et comptés 41

• ti,j : la fréquence du terme tj dans le document Di est égale

• Exemple : si violon apparaît 5 fois dans le document D 3,

• dfj : la fréquence dans le corpus du terme tj est le nombre

– On utilise l’inverse de la fréquence documentaire,

Plus l’angle est petit et

La per/nence est traduite en une similarité vectorielle : un document est d’autant

– La théorie de la probabilité semble adéquate

Documents non pertinents

Probabilité pour que le

Probabilité d’obtenir dj en connaissant Probabilité d'obtenir un document

P(d j | rel) × P(rel)

 Résultats comparables à ceux du modèle vectoriel

Vous aimerez peut-être aussi

–  La théorie de la probabilité semble adéquate