Académique Documents
Professionnel Documents
Culture Documents
Les modèles de
recherche d'information
“
L’objectif de ce chapitre est d’introduire
les principaux modèles (avec algorithmes
associés) utilisés en Recherche
d’Information (RI).
.
Plan
𝑑
▧ Présence/absence :𝑡𝑤 = 1 si w apparaît dans d , 0 sinon
𝑑 = #𝑜𝑐𝑐 𝑤, 𝑑
▧ Nbre d’occurrences : 𝑡𝑤
𝑑 # 𝑜𝑐𝑐(𝑤,𝑑)
▧ Nombre d’occurrences normalisé : 𝑡𝑤 = σ 𝑤 ′ #𝑜𝑐𝑐(𝑤 ′ ,𝑑)
▧ Autres : Le tf*idf
Indexation, Représentation
Exercice :
▧ Chaque document est représenté par un tableau à M
dimensions contenant les poids (coordonnées) des termes
(types, mots) ; écrire un algorithme qui calcule le produit
𝑑 𝑡 𝑑′
scalaire entre 2 documents 𝑠𝑐𝑎𝑙 𝑑, 𝑑′ = σ𝑤 𝑡𝑤 𝑤
▧ Quelle est la complexité d’un algorithme qui calcule le
produit scalaire entre un document et tous les autres
documents de la collection ?
Indexation, Représentation
Le fichier inverse
Possibilité d’accélérer le calcul dans le cas de représentations
creuses, en utilisant un fichier inverse qui fournit, pour chaque
terme, l’ensemble des documents dans lesquels il apparaît :
Le fichier inverse
On procède alors en 2 étapes :
1 Construction de l’ensemble des documents qui contiennent au
moins un terme de la requête
2 Calcul de la similarité/distance entre requête et les documents
de cet ensemble
Remarque : Avantageux (gain de 3 à 5 ordres de grandeur) avec
toute mesure (distance, similarité) qui ne fait pas intervenir les
termes non présents dans un document. Produit scalaire ?, cosinus ?,
distance euclidienne.
Indexation, Représentation
Fichier inverse
d1 d2 d3 ···
programmation 1 1 0 ···
langage 1 1 0 ···
C 1 0 0 ···
··· ··· ··· ···
Indexation, Représentation
Construction du fichier inverse
Dans le cadre d’une collection statique, 3 étapes principales
régissent la construction du fichier inverse :
1. Extraction des paires d’identifiants (terme, doc), passe complète
sur la collection
2. Tri des paires suivant les id. de terme, puis les id. de docs
3. Regroupement des paires pour établir, pour chaque terme, la
liste des docs
Ces étapes ne posent aucun problème dans le cas de petites
collections où tout se fait en mémoire
• n←0
• do
• n←n+1
• block ← ParseBlock()
• BSBI-Invert(block)
• WriteBlockToDisk(block,f
n
)
• MergeBlocks(f , ..., f ;f
1 n merged
)
Indexation, Représentation
Exemple
w1 = "brutus", w2 = "caesar", w3 = "julius", w4 = "kill",
w5 = "noble"
w1 : d1 w2 : d4 w2 : d1
w3 : d10 w1 : d3 w4 : d8
w5 : d5 w2 : d2 w1 : d7
Le Modèle Boolean
▪ Modèle de connaissances : 𝑻 = 𝒕𝒊 , 𝒊 ∈ 𝟏. . 𝑴
• Termes 𝑡𝑖 qui indexent les documents
▪ Le modèle de documents (contenu) est une expression
booléenne dans la logique des propositions avec les 𝑡𝑖
considérés comme des propositions :
• Un document 𝑫𝟏 est représenté par une formule 𝑫𝟏
𝑫𝟏 = 𝒕𝟏 ∩ 𝒕𝟑 ∩ 𝒕𝟐𝟓𝟎 ∩ 𝒕𝟐𝟓𝟒
• Une requête 𝑸 est représentée par une formule logique 𝑸
𝑸 = 𝒕𝟏 ∩ 𝒕𝟑 ∪ 𝒕𝟐𝟓 ∩ 𝒕𝟏𝟎𝟒𝟓 ∩ ¬𝒕𝟏𝟑𝟒
Le Modèle Boolean
▪ Modèle de connaissances : 𝑻 = 𝒕𝒊 , 𝒊 ∈ 𝟏. . 𝑴
• Termes 𝑡𝑖 qui indexent les documents
▪ La fonction de correspondance est basée sur l’implication
logique en logique des propositions :
• Un document 𝐷 répond a une requête 𝑄 si et seulement si
𝐷⊃𝑄
• Utilisation de déduction par
𝐴𝑥𝑖𝑜𝑚𝑒 ∶ 𝑎 ∩ 𝑏 ⊃ 𝑎, 𝑎 ∩ 𝑏 ⊃ 𝑏, 𝑎 ⊃ 𝑎 ∪ 𝑏 ⊃ 𝑏, 𝑏 ⊃ 𝑎 ∪ 𝑏 , …
𝑀𝑜𝑑𝑢𝑠 𝑝𝑜𝑛𝑒𝑛𝑠 𝑀𝑃 : 𝑠𝑖 𝑎 𝑒𝑡 𝑎 ⊃ 𝑏 𝑎𝑙𝑜𝑟𝑠 𝑏
Le Modèle Boolean
▪ Exemple
• 𝐷 = 𝑡𝟏 ∧ 𝑡3 et Q= 𝑡𝟏 ∨ 𝑡4
▪ Déduction
1. 𝑡𝟏 ∧ 𝑡3 ⊃ 𝑡1 (é𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛𝑡 𝑎 𝐷 ⊃ 𝑡1 )
2. 𝑀𝑃 1 ∶ 𝑡1
3. 𝑡1 ⊃ 𝑡1 ∨ 𝑡4 (é𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛𝑡 𝑎 𝑡1 ⊃ 𝑄)
4. MP(3) : Q
▪ Déduction
Q est donc dérivable à partir de D, donc 𝐷 ⊃ 𝑄 : le document
répond à la requête.
Le Modèle Boolean
▪ Correspondance stricte
𝑄 = 𝑡𝟏 ∧ 𝑡3 ∧ 𝑡4
𝐷1 = 𝑡𝟏 ∧ 𝑡4
𝐷1 ⊃ 𝑄
d1 d2 d3 ···
programmation 1 1 0 ···
langage 1 1 0 ···
C 1 0 0 ···
··· ··· ··· ···
Le Modèle Boolean
Avantages et désavantages
▪ + Facile à développer
▪ - Pertinence binaire ne permet pas de tenir compte des
recouvrements thématiques partiels
▪ - Passage d’une besoin d’information à une expression
booléenne
𝑈 = 𝑈𝑥2 + 𝑈𝑦2
Le Modèle Vectoriel
𝑈. 𝑉
cos 𝑈, 𝑉 =
𝑈 𝑉
Le Modèle Vectoriel
Généralisation à n dimensions
Vecteur
▧ Un vecteur est placé dans un espace à n dimensions (n axes)
▧ Un vecteur u est défini par un n-uplet (𝑈1 , 𝑈2 , … . , 𝑈𝑛 )
Vecteur
𝑁
𝑈 = 𝑈𝑖2
𝑖=1
Le Modèle Vectoriel
Généralisation à n dimensions
Produit Scalaire
𝑁
𝑈. 𝑉 = 𝑈𝑖 𝑉𝑖
𝑖=1
Cosinus
𝑈.𝑉
cos(𝑈, 𝑉) = 𝑈 𝑉
Le Modèle Vectoriel
▧ Proposé par Salton dans le système SMART (Salton, G. 1970)
▧ Idée de base :
Représenter les documents et les requêtes sous forme de
vecteurs dans l’espace vectoriel engendré par tous les termes de
la collection de documents :
T<t1,t2, …, tM> (un terme = une dimension)
o Document : dj= (w1j, w2j, …, wMj )
o Requête : q= (w1q, w2q, …, wMq )
wij: poids du terme ti dans le document dj tf*idf
Le Modèle Vectoriel
Représentation des documents dans un espace vectoriel
▧ Un texte comme un sac de mots
▧ Pondération des mots
▧ La représentation vectorielle ne tient pas compte de l’ordre
des mots
✓ « Un garçon manque une pomme » est représenté par le même
vecteur que « une pomme mange un garçon »
✓ c’est ce que l’on appelle « Sac de mots » (Bag of words)
Le Modèle Vectoriel
Représentation des documents dans un espace vectoriel
✓ Une collection de n documents et M termes distincts peut être
représentée sous forme de matrice
Fonction de correspondance :
▧ Une solution est de calculer le cosinus de l’angle entre le
vecteur requête et le vecteur document.
✓ Produit scalaire
✓ Cosinus de l'angle
✓ Distance euclidienne
Le Modèle Vectoriel
Avantages et inconvénients:
▧ Avantages :
✓ Le langage de requête est plus simple (liste de mot clés)
✓ Les performances sont meilleures grâce à la pondération des
termes
✓ Le renvoi de documents à pertinence partielle est possible
✓ La fonction d'appariement permet de trier les documents
▧ Inconvénients :
✓ Le modèle considère que tous les termes sont indép
Le Modèle Probabiliste
▧ Il existe différentes manières de voir une approche probabiliste de
la recherche d’information
✓ Approche classique : probabilité d’avoir l’événement Pertinent
sachant un document et une requête.
✓ Approche par réseaux d’inférence : probabilité que la requête
soit vraie d’après une inférence à partir du contenu du
document.
✓ Approche par modèle de langue : probabilité qu’une requête
posée soit générée à partir d’un document.
Le Modèle Probabiliste