Vous êtes sur la page 1sur 27

Indexation et Recherche d’information

Multimédia
Modèles de RI

ISI-KEF
Université de Jandouba

farhatmahran@yahoo.fr

ISI-KEF Université de Jandouba Indexation et Recherche d’information Multimédia


Plan
1. Qu’est ce que la RI ?

2. Petit tour d’horizon


– Du besoin d’information à la requête
– Représentation de l’information

3. Modèles de RI

4. Évaluation des performances


Modèle booléen
–Modèle de connaissances : T = {ti}, i  [1, .. N]
• Termes ti qui indexent les documents
– Le modèle de documents (contenu) est une
expression booléenne dans la logique des
propositions avec les ti considérés comme des
propositions :
• Un document D1 est représenté par une formule D1
D1= t1  t3  t250  t254
• Une requête Q est représentée par une formule logique Q
Q = (t1  t3)  (t25  t1045  t134 )

33
Modèle booléen
– La fonction de correspondance est basée sur l’implication logique en
logique des propositions :
• Un document D répond à une requête Q si et seulement si
D Q
– Utilisation de déduction par
» Axiomes : (a  b)  a, (a  b)  b, a  (a  b), b  (a  b), …
» modus ponens (MP) : si a et a  b alors b
• Exemple : D = t1  t3 et Q = t1  t4
– Déduction :
1. t1  t3  t1 (équivalent à D  t1)
2. MP(1) : t1
3. t1  t1  t4 (équivalent à t1  Q )
4. MP(3) : Q

 Q est donc dérivable à partir de D, donc D  Q : le document répond à la requête.

34
Modèle booléen
– Correspondance stricte
– Q = t1  t3  t4
– D1 = t1  t4 ,
D1  Q
– Le document D1 (représenté par D1) n’est pas pertinent pour la
requête Q (représentée par Q) d’après le modèle, alors qu’il contient
une description « proche » de la requête.

35
Modèle booléen
– Pas de distinction entre les documents pertinents
– Q = t1  t4
– D2 = t1  t4 , D3 = t1  t3  t4  t5  t6  t7
D2  Q et D3  Q
– Le document D2 (représenté par D2) est-il plus ou moins pertinent
que D3 (représenté par D3) pour la requête D (représentée par Q) ?

36
Modèle booléen
– Expression de requêtes complexe
– Q = ((t1  t4)  t6)  ( t8  (t10  t40)) … ???
– Sens du  logique (inclusif) différent du « ou » courant (exclusif)

37
Modèle booléen : avantages et
inconvénients
• Avantage :
– Le modèle est transparent et simple à comprendre p
our l'utilisateur :
• Pas de paramètres « cachés »
• Raison de sélection d'un document claire : il répond à une f
ormule logique
– Adapté pour les spécialistes et les vocabulaires contr
aints

• Inconvénients :
– Il est difficile d'exprimer des requêtes longues sous f
Modèle vectoriel
• Modèle de connaissances : T = {ti}, i  [1, .. N]
• Tous les documents sont décrits suivant ce
vocabulaire

• Un document Di est représenté


I par un vecteur
Di décrit dans l’espace vectoriel RN défini par T :
–Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un
terme pour un document
• Une requête Q est représentée par un vecteur
Q décrit dans l’espace vectoriel RN défini par T :
–Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N)
39
Modèle vectoriel
• Plus les vecteurs représentant les documents
sont « proches », plus les documents sont
similaires :
Terme 1

Di
Dj

Terme 2

Terme 3
40
Modèle vectoriel
• Pondération des termes pour les documents :
– Un document
– « Un violon est issu de bois précieux comme l’érable, palissandre,
l’ébène... »
– Pour indexer, la première idée est de compter les
mots les plus fréquents excepté les termes non
significatifs comme « de », « avec », « comme »…
– « Un violon est composé de bois précieux comme l’érable, le
palissandre, l’ébène... »

Termes retenus et comptés 41


Modèle vectoriel
• Pondération :
– Fréquence d’un terme (term frequency)

• ti,j : la fréquence du terme tj dans le document Di est égale


au nombre d’occurrences de tj dans Di.

• Exemple : si violon apparaît 5 fois dans le document D 3,


avec violon=t23, alors t3,23 = 5

42
Modèle vectoriel
• Pondération :
– On tient compte du corpus (base de documents)
entier, un terme qui apparaît beaucoup ne
discrimine pas nécessairement les documents :
Terme fréquent dans le Terme fréquent dans un seul
corpus entier document du corpus

43
Modèle vectoriel
• Pondération :
– Fréquence documentaire d’un terme

• dfj : la fréquence dans le corpus du terme tj est le nombre


de documents du corpus où tj apparaît

– On utilise l’inverse de la fréquence documentaire,


idfj :
• Définition simple : idfj = 1 / dfj
• Définition la plus utilisée : idfj = log(ND / dfj), avec ND le
nombre de documents du corpus.

44
Modèle vectoriel
• Pondération :
– Combinaison du t et de l’idf pour un vecteur
document:
• Exemple le plus courant
– wi,j = ti,j . idfj
– Utilisation du t pour une requête

45
Modèle vectoriel
• Fonction de correspondance :
– Fonction de l’angle entre le vecteur requête Q et le
vecteur document Di
Terme 1

Di
Requête Q

Terme 2

Plus l’angle est petit et


plus le document
Terme 3 correspond à la requête

46
Modèle  vectoriel  (rappel)  
•  Idée  de  base  :    
–  Représenter  les  documents  et  les  requêtes  sous  
forme  de  vecteurs  dans  l’espace  vectoriel  
engendré  par  tous  les  termes  de  la  collec/on  de  
documents  :    
   T  =  {t1,  t2,  ti,  …,  tM}  (un  terme  =  une  dimension)  
•  Document  :  dj=  (w1j,  w2j,  …,  wMj)    
•  Requête  :  q=  (w1q,  w2q,  …,  wMq)  
Modèle  vectoriel  (rappel)  
Exemple:    
D1=  2T1+  3T2+  5T3  
D2=  3T1+  7T2+      T3    
Q  =  0T1+  0T2+    3T3    

La   per/nence   est   traduite   en   une   similarité   vectorielle   :   un   document   est   d’autant  


plus  per/nent  pour  une  requête  que  le  vecteur  associé  est  similaire  à  celui  de  la  
requête.  
Modèle vectoriel
• Fonction de correspondance :
– Une solution est de calculer le cosinus de l’angle
entre le vecteur requête et le vecteur document.
• Produit scalaire

• Cosinus de l'angle

• Distance euclidienne

47
Modèle vectoriel : avantages et
inconvénients
• Avantages :
– Le langage de requête est plus simple (liste de mot
clés)
– Les performances sont meilleures grâce à la pondéra
tion des
termes
– Le renvoi de documents à pertinence partielle est po
ssible
– La fonction d'appariement permet de trier les docu
ments
• Inconvénients :
– Le modèle considère que tous les termes sont indép
Modèle  probabiliste  
•  Pourquoi  les  probabilités  ?    
–  La  RI  est  un  processus  incertain  et  imprécis    
•  Incer/tude  dans  la  représenta/on  des  informa/ons    
•  Imprécision  dans  l’expression  des  besoins    

–  La  théorie  de  la  probabilité  semble  adéquate  


pour  quan/fier  (pour  mesurer)  l’incer/tude  et  
l’imprécision  
Modèle  probabiliste  
•  Suppose  que  la  recherche  se  déroule  lors  d’une  
«  session  de  recherche  »  (plusieurs  itéra/ons)  
•  Consiste  à  «  es/mer  »  la  per/nence  d'un  
document  en  fonc/on  de  per/nences  connues  
pour  d'autres  documents.  
•  Ce  calcul  se  fait  en  es/mant  la  per/nence  de  
chaque  index  pour  un  document  et  en  u/lisant  le  
Théorème  de  Bayes  et  une  règle  de  décision  

6
Modèle  probabiliste  
•  Processus  de  classifica/on  :  
–  Pour  un  requête  q  
Documents pertinents

rel

CORPUS

Documents non pertinents



avec nonrel

Corpus = rel ∪ nonrel
rel ∩ nonrel = ∅

Probabilité pour que le


 P(pertinenceq | document Dj) document j fasse partie de
notée Prob(rel | Dj) l’ensemble des documents
pertinents pour la requête q
Modèle  probabiliste  
•  Fonc/on  de  correspondance  :  
–  On  ne  sait  pas  calculer  P(rel  |d),  mais  on  peut  calculer  P(d  |  rel)  
–  U/lisa/on  du  théorème  de  Bayes  

Probabilité  d’obtenir  dj  en  connaissant     Probabilité   d'obtenir   un   document  


les  pertinents per/nent  en  piochant  au  hasard

P(d j | rel) × P(rel)


P(rel | d j ) =
P(d j )
Probabilité pour que le document i soit
pertinent pour la requête q Probabilité que le document soit
choisi au hasard


8
Modèle  probabiliste    
•  Fonc/on  de  correspondance  
–  Calcul  de  P(d  |  rel)  
 Hypothèse  d’indépendance  des  termes  
N
P(d j | rel) = ∏ P(t i ∈ d j | rel)
i=1

 Pour  es/mer  les  probabilités  sur  les  termes,  on  u/lise  des    
requêtes  déjà  résolues  (appren/ssage)  et  des  pondéra/ons  

–  Décision  :  document  retourné  si    
–  P(rel  |  dj  )  /  P(nonrel  |  dj  )  >  1  

9
Modèle  probabiliste  :  avantages  et    
inconvénients  
•  Avantages  :  
–  Appren/ssage  du  besoin  d’informa/on  
–  La  fonc/on  d'appariement  permet  de  trier  les  documents  
•  Inconvénients  :  
–  Le  modèle  considère  que  tous  les  termes  sont  indépendants  
(inconvénient  théorique)    
–  Pas  de  langage  de  requête  !  
–  Problème  des  probabilités  ini/ales        

  Résultats  comparables  à  ceux  du  modèle  vectoriel  


ISI-KEF Université de Jandouba Indexation et Recherche d’information Multimédia

Vous aimerez peut-être aussi