Académique Documents
Professionnel Documents
Culture Documents
Recherche d’Information
Multimédia – RIM -
Lorraine Goeuriot
LIG
Lorraine.goeuriot@imag.fr
http://mrim.imag.fr/User/lorraine.goeuriot/rimtis4/
2
Modalités d'examen
• Note finale = exam * 70% + CC * 30%
• Examen : devoir sur table, avec documents
autorisés
• CC : moyenne des notes de suivi de TP
3
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
4. Systèmes de recherche d’information (SRI)
– Architecture
5. Evaluation de Systèmes de RI (SRI)
6. Conclusion
4
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
4. Systèmes de recherche d’information (SRI)
– Architecture
5. Evaluation de Systèmes de RI (SRI)
6. Conclusion
5
Problématique
Accès par le contenu à des documents satisfaisant un
besoin d’information d’un utilisateur
Besoin pertinence?
d ’information
visualisation
documents
Expression/requête recherche
6
Qu'est-ce que la recherche
d'information ?
7
Qu'est-ce que la recherche
RI dans notre vie quotidienne
d'information ?
La recherche
●les moteurs d'information
de recherche
●la RI
requête
dans de notre
recherche
vie quotidienne
● texte, images, vidéos, ...
● les moteurs de recherche
● la requête de recherche
● texte, images, vidéos, ...
Georgios BALIKAS
Mai 23, 2016
8
Contextes d'utilisation
• Bureautique
• Applications techniques : maintenance de matériel
• Informatique médicale : recherche de dossiers
médicaux similaires, études statistiques,
bibliographie, …
• Recherche scientifique
• etc.
9
Contenu du cours
• Comment exprimer un
besoin d’information ?
• Comment traiter la
requête ?
• Comment chercher
parmi une collection de
documents ?
• Qu’est-ce qu’un bon
résultat ?
10
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
4. Systèmes de recherche d’information (SRI)
– Architecture
5. Evaluation de Systèmes de RI (SRI)
6. Conclusion
11
Eléments centraux
• Documents
• Contenu des documents
• Besoin d’information d’un utilisateur
• Satisfaction
12
Les documents
• Différents médias :Texte, Image, vidéo, documents
structurés
• Différents types d’information par média
– Texte : livre, article, lettre…
– Image : Images par rayons X, Photographies, Graphiques…
• 2 classes d’information
– Méta-Information (information à propos du document)
• Attributs : titre, auteur, date de création, etc.
– Contenu
• Contenu brut : le document initial
• Contenu symbolique : information extraite du contenu brut
13
Les documents
14
Besoin d’information d’un
utilisateur
Exprimé sous la forme de requêtes, pouvant suivre un
langage fixé :
• Contraintes sur les méta informations
– Sur les attributs : Article écrit par Alim-Louis Benabid (type de
document et auteur)
– Sur la structure : Article médical contenant une image de CT-
scan (lien entre texte et image)
• Contraintes sur le contenu
– Contenu brut : Document avec le texte 'hépatomégalie'
– Contenu symbolique : Documents portant sur les effets
secondaires de l'aspirine
15
Besoin d’information d’un
utilisateur
• Types de requêtes :
– Navigation (site de Polytech)
– Service (le livreur de pizza le plus proche)
– Information (combien d’heures par jour dort un chat)
• Complexité :
– Ambiguïté (UGA : Université Grenoble Alpes, Ouganda, club de
foot UGA Décines…)
– Précision (restaurant Grenoble, restaurant Grenoble ouvert
dimanche végétarien pas cher)
– Vocabulaire (changer huile voiture vs vidange)
16
Besoin d’information d’un
utilisateur
Syntaxe des requêtes :
• Les moteurs de recherche actuels supportent tout
type de requête
• Il existe des mots-clés/opérateurs : + @ $ # - " * ..
– Site:
– Related:
– OR
– Info:
– Cache:
https://support.google.com/websearch/answer/2466433?hl=fr&ref_topic=3081620
17
Satisfaction de l'utilisateur
Le système doit
• être simple à utiliser
• fournir les meilleures réponses possibles, et ces
réponses doivent être « pertinentes » pour
l’utilisateur
– Pertinence système versus pertinence utilisateur
• fournir un nombre raisonnable de réponses
• donner des réponses rapides
19
Satisfaction de l'utilisateur
20
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
4. Systèmes de recherche d’information (SRI)
– Architecture
5. Evaluation de Systèmes de RI (SRI)
6. Conclusion
21
Modèles de RI
Requêtes Documents
Système de recherche d’information (SRI)
Base de
Interprétation connaissances Indexation
Modèle de connaissances
22
Modèles de RI
Modèles classiques
23
1
Le modèle booléen strict
• Modèle de connaissances : T = {ti}, i ∈ [1, .. N]
• Termes ti qui indexent les documents
– Le modèle de documents (contenu) est une expression
booléenne dans la logique des propositions avec les ti
considérés comme des propositions
• Documents : termes "positifs" pour ceux dont parle le
document, sinon "négatifs"
– Ex. : document D1 est représenté par une formule D1
D1= t1 ∧ t3 ∧ t250 ∧ t254 (∧j≠1,3,250,254 ¬tj)
• Une requête Q est représentée par une formule logique Q
quelconque :
– Ex . : Q = (t1 ∧ t3) ∨ (t25 ∧ t145 ∧ ¬t134 )
24
1
Le modèle booléen strict
• La fonction de correspondance est basée sur l’implication
logique en logique des propositions :
– Un document D répond à une requête Q si et seulement si
D ⊃Q
• Utilisation de déduction par
– Axiomes : (a ∧ b) ⊃ a, (a ∧ b) ⊃ b, a ⊃ (a ∨ b), b ⊃ (a ∨ b), …
– Exemple : D = t1 ∧ t3 ∧ ¬t2 ∧ ¬t4 et Q = t1 ∨ t4
• Déduction :
1. t1 ∧ t3 ∧ ¬t2 ∧ ¬t4 ⊃ t1 (équivalent à D ⊃ t1)
2. t1 ⊃ t1 ∨ t4 (équivalent à t1 ⊃ Q )
– Q est donc dérivable à partir de D, donc D ⊃ Q , donc le document répond à
la requête.
25
1
Le modèle booléen strict
• Remarques (1)
– Correspondance stricte : Oui/Non
• Q = t1 ∧ t3 ∧ t4
• D1 = t1 ∧ t4 ∧ ¬t2 ∧ ¬t3
D1 ⊃ Q
• Le document D1 (représenté par D1) n’est pas pertinent pour
la requête Q (représentée par Q) d’après le modèle, alors qu’il
contient une description « proche » de la requête.
26
1
Le modèle booléen strict
• Remarques (2)
– Pas de distinction entre les documents pertinents
• Q = t1 ∧ t4
• D2 = t1 ∧ t4 ∧ ¬t2 ∧ ¬ t3 ∧ ¬ t5 ∧ ¬t6 ∧ ¬t7
• D3 = t1 ∧ t3 ∧ t4 ∧ t5 ∧ t6 ∧ t7 ∧ ¬t2
D2 ⊃ Q et D3 ⊃ Q
• Le document D2 (représenté par D2) est-il plus ou moins
pertinent que D3 (représenté par D3) pour la requête Q
(représentée par Q) ?
• Et la fréquence des termes dans les documents ?
27
1
Le modèle booléen strict
• Remarques (3)
– Utilisable pour des experts, mais difficile pour des utilisateurs
"courants"
• Une requête t1 ∧ t4 ∧ t6 peut donner des centaines de réponses, et
la requête t1 ∧ t4 ∧ t6 ∧ t10 peut ne donner aucune réponse …
• Il faut donc savoir jongler avec les ∧ et les ∨ ….
– Expression de requêtes complexe
• Q = ((t1 ∧ t4) ∨ t6) ∧ ( t8 ∨ (¬t10 ∧ t40)) … ???
• Sens du ∨ logique (inclusif) différent du « ou » courant (exclusif)
29
2
Le modèle booléen pondéré
• Fonction de correspondance non binaire (on se passe des
implications logiques)
• basée sur une similarité notée Sim
– Version 1 (Note : Utilisation proche de PubMed)
• Utilisation de logique floue (avec a et b des termes)
– Sim1(D, (a ∧ b)) = min [ WD(a), WD(b) ]
– Sim1(D, (a ∨ b)) = max [WD(a), WD(b) ]
– Sim1(D, (¬ a)) = 1 - WD(a)
• Requêtes complexes (x et y sont des sous-requêtes):
– Sim1(D, (x ∧ y)) = min [Siml(D, x) , Siml(D, y) ]
• Limitation : on ne tient pas compte dans la réponse de tous les termes de
la requête : ex; min(0.5, min(0.3,0.5))=min(1, min(0.3,1))
30
2
Le modèle booléen pondéré
• Version 2
1
0,9
0,8
0,6
0,4
0,2 1
la requête 0,1
0 0,4
0,6
0,8
B
0 0,1 0,2 0,2
0,3 0,4
0,5 0,6 0
(1− W D(a))2 + (1− W D(b))2
0,7 0,8
A 0,9 1
Sim2 (D, a ∧ b) = 1−
2
W D
(a)2 + W D(b)2 1
0,7
0,6
A OR B
0,5
0,3 1
pour la négation…
0,8
0,2
0,6
B
0,1 0,4
0 0,2
0 0,1 0,2 0,3
0,4 0,5 0,6 0
0,7 0,8 0,9
1
A
31
2
Le modèle booléen pondéré
• Exemple avec valeurs binaires
Sim1 Sim2
Documents
a b a∨b a∧b a∨b a∧b
D1 1 1 1 1 1 1
D2 1 0 1 0 1/√2 1- 1/√2
D3 0 1 1 0 1/√2 1- 1/√2
D4 0 0 0 0 0 0
32
2
Le modèle booléen pondéré
• Exemple avec valeurs non-binaires
Sim1 Sim2
Documents
a b a∨b a∧b a∨b a∧b
D1 1 1 1 1 1 1
33
2
Le modèle booléen pondéré
• Traitement de requête (totalement parenthésée) Sim1
– Ex : (((a ∧ b) ∨ c) ∧ ¬ d)
• Etape 1 : génération de l’arbre de requête
– Une parenthèse (on a un opérateur binaire ∧ ou ∨) :
• un nœud non-feuille avec 2 fils, décoré avec l’opérateur
• Fils gauche : sous-arbre avec partie gauche
• Fils droit : sous-arbre avec partie droite
– Un terme : noeud feuille avec le terme
– Un ¬ : un nœud non-feuille unaire avec sous-arbre fils
• Génération des opérations
34
2
Le modèle booléen pondéré
• Ex . (((a ∧ b) ∨ c) ∧ ¬ d)
• Arbre de requête :
∧
∨ ¬
∧ c d
a b
35
2
Le modèle booléen pondéré
• Ex . (((a ∧ b) ∨ c) ∧ ¬ d)
• Génération des opérations :
∧ min
∨ max ¬ 1-
a terme b terme
à Opérations effectuées :
min(max(min(WD(a), WD(b)), WD(c)),1-WD(d))
36
3
Le modèle vectoriel
• Modèle de connaissances : T = {ti}, i ∈ [1, .. N]
• Tous les documents sont décrits suivant ce
vocabulaire
• Un document Di est représenté par un vecteur Di
décrit dans l’espace vectoriel RN défini par T :
– Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un
terme pour un document
• Une requête Q est représentée
I par un vecteur Q
décrit dans l’espace vectoriel RN défini par T :
– Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N)
37
3
Le modèle vectoriel
Plus les vecteurs représentant les documents/requêtes
sont « proches », plus les documents/requêtes sont
similaires :
Terme 1
Terme 3
38
3
Le modèle vectoriel
• Fonction de correspondance : une solution est de
calculer le cosinus de l’angle entre le vecteur
requête et le vecteur document.
N
! ! ∑ (w
k =1
i ,k .wq , k )
Sim( Di , Q ) =
N N
2 2
∑ ( wi ,k ).∑ ( wq ,k )
k =1 k =1
N
∑ (w .wq , k )
i ,k
! !
k =1 Di • Q
= ! ! = ! !
Di . Q Di . Q
39
3
Le modèle vectoriel
• Formule utilisée dans les systèmes :
– On normalise en amont les vecteurs documents et
requêtes
N
! ! ∑ (w .wq,k )
i,k N
wi,k wq,k
Sim( Di , Q) = k=1
! ! = ∑( ! . ! )
Di . Q k=1 Di Q
! !
= D 'i • Q '
40
3
Le modèle vectoriel
• Il existe d'autres fonctions de correspondances
N
– Jaccard
! ! ∑ (w
k =1
i ,k .wq ,k )
SimJaccard ( Di , Q) = N N N
2 2
∑ (w
k =1
i ,k ) + ∑ ( wq ,k ) − ∑ ( wi ,k .wq ,k )
k =1 k =1
– Dice
N
! ! 2 * ∑ ( wi ,k .wq ,k )
k =1
SimDice ( Di , Q) = N N
2 2
∑ (wi,k ) + ∑ (wq,k )
k =1 k =1
42
Comment pondérer les termes ?
• On définit la fréquence d’un terme (term
frequency)
43
Comment pondérer les termes ?
• On tient compte du corpus (base de documents)
entier, un terme qui apparaît beaucoup ne
discrimine pas nécessairement les documents :
44
Comment pondérer les termes ?
• On définit la fréquence documentaire d’un terme
– dfj : la fréquence dans le corpus du terme tj est le
nombre de documents du corpus où tj apparaît
45
Comment pondérer les termes ?
• Combinaison du tf et de l’idf pour un vecteur
document:
– Le poids d’un terme dénote la capacité du terme à
discriminer les documents
– Exemple le plus courant
• wi,j = tfi,j . idfj
• Utilisation du tf ou du tf.idf pour une requête
46
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
4. Systèmes de recherche d’information (SRI)
– Architecture
5. Evaluation de Systèmes de RI (SRI)
6. Conclusion
47
Systèmes de recherche d’information
Un SRI est un système informatique qui instancie un
modèle de recherche d’information
Requêtes Documents
Système de recherche d’information (SRI)
Base de
Interprétation connaissances Indexation
48
L'indexation
• Choix des termes – Généralités
– Une propriété souhaitée d’un bon terme d’indexation
est sa capacité à distinguer les documents d’une
collection les uns des autres
– Comment faire?
49
L'indexation
• Choix des termes – Occurrences
– Objectif : trouver les mots qui représentent le mieux le
contenu d'un document.
– Hypothèse : un mot qui apparaît souvent dans un texte
représente un concept important.
– Première approche :
• Choisir les mots représentants selon leur fréquence
d'occurrence dans le corpus.
• Définir un seuil SMIN sur la fréquence (si la fréquence
d'occurrence d'un mot dépasse ce seuil, alors il est considéré
important pour les document qui le contiennent)
50
L'indexation
51
L'indexation
Choix des termes – Occurrences (3)
• La loi de Zipf
• Si on classe les mots dans l'ordre décroissant de leur fréquence, et on
leur donne un numéro de rang (1, 2, …), alors: Rang * fréquence ≈
constante .
Rang Mot Fréquence Rang* Fréquence
1 the 69 971 69 971
2 of 36 411 72 822
3 and 28 852 86 556
4 to 26 149 104 596
5 a 23 237 116 185
6 in 21 341 128 046
7 that 10 595 76 165
• ER à / continuité continu
continue continu
• ITEà / malade malad
• Sà/ malades malad
maladies malad
• Eà/
53
L'indexation
Fichiers inverses - principe
• Après analyse de documents d’un corpus, on obtient un tableau
document x termes, Génération d’un tableau inverse « terme à
document » (appelé fichier inverse)
D1 D2 D3 … DM
Avantage : rapidité lors du t1
traitement de requête, car
…
…
pas de traitement séquentiel tN …
des documents
D1 D2 D3 … DM
t1 1 0 0 1
…
…
tN 1 0 1 … 0
55
L'indexation
• Fichier inverse avec les modèles pondérés (ex :
booléen pondéré, vectoriel)
D1 D2 D3 … DM
t1 w1,1 w2,1 w3,1 wM,1
…
…
…
…
…
…
tN … tN …
57
L'indexation
• Pour une implantation d'un modèle vectoriel, on
stocke aussi pour chaque terme du vocabulaire son
idf (utilisé pour les requêtes) : utilisation lors de la
définition du vecteur requête.
58
La recherche
• Implantation du modèle booléen par fichier inverse
1. Requête booléenne transformée en un arbre d'analyse
2. Chaque nœud non feuille de l'arbre est associé à un
opérateur logique sur les lignes du fichier inverse et à
une ligne intermédiaire de résultats
3. Eléments à 1 dans la ligne résultante de la racine
dénotent les documents pertinents pour le système
59
La recherche
• Requête booléenne transformée en un arbre d'analyse
• Q = (t1 ∧ t3) ∨ (t25 ∧ t145 ∧ ¬t134 )
– On parenthèse totalement la requête pour avoir des opérateurs
binaires ou unaires:
• Q = ((t1 ∧ t3) ∨ ((t25 ∧ t145 ) ∧ ¬t134 ))
– On en déduit l'arbre d'analyse
∧ ∧
t1 t3 ∧ ¬
∨ D1 D2 D3 … DM
D1 D2 D3 … DM
∧ ∧
D1 D2 D3 … DM
t1 t3 ∧ ¬
D1 D2 D3 … DM
t25 t145 t134
D1 D2 D3 … DM
t1 1 0 0 1
…
tN 1 0 1 … 0
Fichier inverse 61
La recherche
– Nœuds de l'arbres associés à une ligne : remplissage
des nœuds intermédiaires des feuilles vers la racine
• Nœud ∧ , fils_gauche ∧ fils_droit traduit en
– ligne_noeud = ligne(fils_gauche) ETBool_ligne ligne(fils_droit)
• Nœud ∨ , fils_gauche ∨ fils_droit traduit en
– ligne_noeud = ligne(fils_gauche) OUBool_ligne ligne(fils_droit)
res OU ( j) =
fils _ gauche( j) + fils _ droit( j)
2
2 2
(1− fils _ gauche( j)) + (1− fils _ droit( j))
resET ( j) = 1−
2
64
La recherche
• Implantation avancée : normalisation en amont w
=> w' pour les requêtes et le documents
N
! ! ∑ (w
k =1
.wq ,k )
i ,k N wi , k wq ,k
Sim( Di , Q) = ! ! = ∑( ! . ! )
Di . Q k =1 Di Q
N
= ∑ ( w'i ,k .w'q ,k )
k =1
t1
t1 Wq,3 D1 D2 D3 … DM
1 0 0 1
t3 Wq,25
…
Wq,145
tN 1 0 1 … 0
t25 t145
66
La recherche
• Modification de requête avec un modèle booléen
– Idée : utiliser des relations entre les termes (ex. : domaine
médical)
– Relations
• Tirées d’un thésaurus existant
– Par exemple MeSH ou UMLS dans le domaine médical
• Calculées d’après un corpus existant
– Construction d’une matrice de co-occurrences des termes dans les documents
67
La recherche
• Modification de requête avec le modèle
vectoriel
– L'utilisation des relations est effectuée par la
multiplication entre la requête initiale et une
matrice représentant les relations entre les
termes : t t t …
1 2 3
t1 1 1 0 t1 0 a t1
t2 1 1 0 t2
x t2 a = a
t3 0 0 1 t3 0 0 t3
…
…
S Q Q'
• Avec
– DR l’ensemble des documents pertinents marqués
– DN l’ensemble des documents non-pertinents marqués
– α≥β≥γ
– valeurs possibles α =1 β =0.4 γ =0.2, ou même 1 1 0 (ce qui veut dire
qu'en fait on ne tient pas compte des non-pertinents)
70
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
4. Systèmes de recherche d’information (SRI)
– Architecture
5. Evaluation de Systèmes de RI (SRI)
6. Conclusion
71
Evaluation des SRI
• Rappel : Un système de recherche d’information
doit satisfaire un besoin d’information d’un
utilisateur
72
Evaluation des SRI
• Comparer les SRI de manière théorique (via leur
modèle) est un problème non-résolu, on passe
donc par des évaluations de type « boîte noire » en
testant les résultats d’un système par rapport aux
réponses idéales attendues.
73
Mesure des performances
74
Objectif de l'évaluation
Rapprocher pertinence système et utilisateur
75
Objectif de l'évaluation
• Les critères essentiels sont :
– Le rappel : capacité du système à fournir en réponse
tous les documents pertinents
– La précision : capacité du système à ne fournir que des
documents pertinents en réponse.
76
Le rappel
• Le rappel est le rapport du nombre de
documents trouvés par le système et convenant
à l’utilisateur au nombre total de documents
convenant à l’utilisateur
P∩R
C rappel = ∈ [0,1]
R
P∩R P
P
77
La précision
• La précision est le rapport du nombre de
documents trouvés par le système et convenant à
l’utilisateur au nombre de documents retrouvés par
le système
P∩R
précision = ∈ [0,1]
C
R
R
P∩R
P
78
Précision et rappel
• Pour une requête et un système : 2 valeurs réelles
– Exemple : un système retourne 5 documents, parmi
lesquels 3 sont pertinents, sachant qu’il y a 10
documents pertinents dans le corpus :
• Rappel = 3 / 10
• Précision = 3 / 5
• Il faut des analyses plus fines des résultats
– Courbes de rappel/précision
79
Précision et rappel
• Courbes de rappel/précision
– Comparaison de 2 systèmes S1 et S2
Précision
1
S1
0 1
Rappel
80
Précision et rappel
• Courbes de rappel/précision
– Représente l’évolution de la précision et du rappel avec
des résultats triés
– Méthode :
• Pour chaque document retrouvé, on calcule la précision et le
rappel obtenus en considérant seulement le premier
document comme réponse, puis les deux premiers, puis les
trois premiers etc., jusqu'à la réponse totale du système.
– Ceci donne un tableau non normalisé
81
Précision et rappel
• Courbes de rappel/précision
– Exemple de tableau non normalisé (hypothèse : 20
documents pertinents) 1
0,9
0,7
D23 Oui 0.05 1 0,6
précision
D12 Non 0.05 0.5 0,5
0,4
D5 Oui 0.1 0.66 0,3
0,1
D7 Oui 0.15 0.6 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
rappel
82
Précision et rappel
• Courbes de rappel/précision
– Problème, comment faire pour fusionner les
résultats de plusieurs requêtes pour un système? Rap. Préc.
0 1
– On normalise le tableau de chaque requête par
la règle du maximum : 0.1 0.66
• On fixe une valeur de rappel r (0 à 1 par pas de 0.1) 0.2 0
• On garde la valeur de précision max pour les valeurs 0.3 0
de rappels du tableau non normalisé ≥ r 0.4 0
Rap. Préc. 0.5 0
0.05 1 0.6 0
Tableau non normalisé => 0.05 0.5 0.7 0
Tableau normalisé =>
0.1 0.66 0.8 0
0.1 0.5 0.9 0
0.15 0.6 1 0
83
Précision et rappel
• Courbes de rappel/précision
– au niveau graphique
1 1 1
0,9 0.9
0,8 0.8
0,7 0.7
0.66
0,6 0.6
précision
précisio
0,5 0.5
0,4 0.4
0,3
0.3
0,2
0.2
0,1
0.1
0
0 0 0 0 0 0 0 0 0 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
rappel
rappel
84
Précision et rappel
• Courbes de rappel/précision
– Pour traiter l’évaluation sur plusieurs requêtes, on calcule la
moyenne aux points de rappels standards. (moyenne au point 0,
au point 0.1, etc.)
• Précision moyenne à x documents
– Il est également courant de calculer le taux de précision après un
nombre de documents fixés pour une requête, puis de faire la
moyenne sur toutes les requêtes
• Il existe des programmes qui génèrent les tableaux pour
les courbes de rappel/précision et les précision moyennes
à 5, 10, 20, 50 et 100 documents. (trec_eval)
85
Evaluation des SRI
• Exemple de « vraie » courbe de rappel/précision
1 SYMB (0.3253)
0,9 Rep SYMB (0.3437)
0,8 Max SYMB (0.4078)
0,7 HSV (0.2530)
précision
rappel
86
Données permettant l'évaluation
1. Observation des logs (pour les moteurs de recherche
commerciaux)
• Recherches sous formes de session (mono ou multi-requêtes)
• Utilisation de règles (interprétation de la navigation)
• Ne permet pas de calculer la précision et le rappel, puisque la
taille de l'ensemble des documents pertinents pour une
requête n'est pas connue
87
Données permettant l'évaluation
2. Utilisation de corpus d'évaluation
• Collections de test créées manuellement, reproduisant des
recherches
• Composées de : requêtes, documents, et jugement de
pertinence (permettant de lier les requêtes aux documents qui
leur sont pertinents)
• Les requêtes et les jugements de pertinence sont souvent
créés spécifiquement pour une tâche
• Permet de pouvoir comparer les performances de systèmes
sur les mêmes données
88
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
4. Systèmes de recherche d’information (SRI)
– Architecture
5. Evaluation de Systèmes de RI (SRI)
6. Conclusion
89
6. Conclusion
• Nous avons traité la description de modèles de
recherche d’information.
• Nous avons étudié les principes de base des
systèmes basés sur ces modèles
• Nous avons compris comment réaliser une
évaluation d’un système de recherche
d’information.
90