Chapitre4 Evaluation

EVALUATION D’UN SRI
Enseignante : Rim Mahouachi

CRITÈRES D’ÉVALUATION
L’évaluation peut se faire moyennant différents critères

(temps d’exécution, facilité d’utilisation, etc.)
Ici nous nous intéressons principalement à la qualité du résultat
retourné (pertinence système) par un SRI versus la pertinence
utilisateur
Rappelons que la pertinence système n’est qu’une

représentation imprécise de la pertinence utilisateur
un document considéré comme pertinent par le système ne l’est
pas nécessairement par l’utilisateur.
2
L’enjeu de la RI est de rapprocher tant que possible la

pertinence système de la pertinence utilisateur.
3
Un SRI idéal a deux objectifs :

Retourner tous les documents pertinents,
Rejeter tous les documents non pertinents.
La qualité d’un système peut être mesurée en comparant

les réponses du système avec la réponse idéale que
l’utilisateur espère obtenir
Plus la réponse du système correspond à celle que l’utilisateur
espère, mieux est le système.
Pour arriver à une telle évaluation, on peut utiliser un

4
corpus de test
CORPUS DE TEST
Constitué d’un ensemble de documents et d’un ensemble de
requêtes, où à chaque requête est associée la liste des
documents qui lui sont pertinents
Le fait de décider qu’un document est ou non pertinent pour

l’utilisateur par rapport à une requête donnée est une tâche
difficile
C’est une décision binaire réalisée grâce à des experts du domaine
des documents ou bien des documentalistes
Évaluer un SRI en utilisant un corpus de test signifie :

lancer une requête parmi les requêtes du corpus de test
comparer les documents retournés par le SRI avec les documents
pertinents à la requête (définis préalablement) 5
MESURES D’ÉVALUATION DES SRI
RAPPEL
Le taux de rappel : proportion des documents pertinents retournés par rapport à

l’ensemble des documents pertinents du corpus.
Cette mesure calcule la capacité du système à retourner tous les documents pertinents.
PRÉCISION
Le taux de précision : proportion des documents pertinents retournés par

rapport à l’ensemble des documents retournés par le système.
Cette mesure calcule la capacité du système à ne retourner que les documents pertinents.
POURQUOI DEUX FACTEURS
8
POURQUOI DEUX FACTEURS
Facile de faire du rappel : il suffit de sélectionner toute

la collection
Mais la précision sera très faible
La précision calcule le taux d’erreurs du système, alors

que le rappel calcule son taux d’exhaustivité 9
SILENCE
Le taux de silence : proportion des documents pertinents non retournés par

rapport à l’ensemble des documents pertinents du corpus.
Une des cause de l’augmentation du silence est que la requête est trop précise
(réduction du rappel) moyennant, par exemple, l’utilisation de plusieurs mots
clés.
10
BRUIT
Le taux de bruit : proportion des documents non pertinents retournés par

rapport à l’ensemble des documents retournés par le système.
Une des cause de l’augmentation du bruit est que la requête est très générique
(réduction de la précision) moyennant, par exemple, l’utilisation de peu de mots
clés.
11
12
EXERCICE D’APPLICATION
Pour une requête donnée, un système retourne 5
documents, parmi lesquels 3 sont pertinents. Sachant qu’il
y a 10 documents pertinents dans le corpus, calculer le
rappel et la précision.
Réponse :
Rappel = 3/10
Précision = 3/5
13
RAPPEL VS PRÉCISION
Le comportement d’un système peut varier en faveur de
la précision (on parle de système orienté précision) ou en
faveur du rappel (dans ce cas, on parle de système
orienté rappel).
Le but est d’atteindre un compromis entre les deux mesures.
Pour un système, on a une courbe de précision-rappel qui a en
général la forme suivante :
14
RAPPEL VS PRÉCISION
Ces deux métriques ne sont pas indépendantes
Il y a une forte relation entre elles : quand l’une augmente,

l’autre diminue.
Il ne signifie rien de parler de la qualité d’un système en
utilisant seulement une de ces deux métriques sans l’autre : il
faut donc utiliser les deux métriques ensemble.
On peut cependant faire le choix entre un système

orienté rappel ou bien un système orienté précision
15
QUESTIONS / RÉPONSES
Quelle est la valeur optimale pour le couple (rappel, précision) et
quand ceci est réalisée ?
100% de rappel et 100% de précision : cela signifie que le
système retourne tous les documents pertinents, et rien que des
documents pertinents.
En pratique, cette situation est difficile à atteindre.
Est il plus facile d’avoir un taux égal à 1 de rappel ou un taux égal à

1 de précision ?
Il est plus facile d’avoir 100% de rappel : il suffit de donner
toute la base comme réponse à chaque requête. Cependant, la
précision dans ce cas-ci serait très basse.
De même, on peut augmenter la précision en donnant très peu de 16
documents en réponse, mais le rappel sera bas
QUESTIONS / RÉPONSES
Lors de l’indexation, le fait de supprimer les mots trop fréquents
favorise t-il la construction d’un système orienté rappel ou orienté
précision ?
SRI orienté précision
Lors de l’indexation, le fait de normaliser les termes retenus (ex:

Computer, Computing, Computation, etc. versus Comput) favorise t-il la
construction d’un système orienté rappel ou orienté précision ?
SRI orienté rappel
Peut on avoir un cas où le système ne retourne aucun document

pertinent alors que pour l’utilisateur il y a 5 documents pertinents dans
le corpus ?
Oui, si le système ne tient pas compte de la synonymie par exemple dans
le cas ou le langage utilisé est un langage libre c.-à.d. sans thésaurus. 17
COURBE ROC
Ces indicateurs ne permettent pas de qualifier le
classement réalisé par le moteur de recherche
Solution : utilisation de l’indicateur AUC
Aire (AUC pour Area Under the ROC Curve) de la coure ROC
Cette courbe s’intéresse aux n premiers documents retournés
par le moteur de recherche
Pour i ∈ [1 .. n] on a :
En abscisse, le taux de documents non pertinents (bruit)
En ordonné, le taux de documents pertinents (précision)
Plus l’AUC tend vers 1, meilleur est le classement
n réponses
Documents 18
pertinents
COURBE ROC
Exemple
But : déterminer les performances d’un moteur de recherche
sur les 10 premiers documents retournés pour une requête R
Un expert va déterminer si un document est ou non pertinent pour la requête R 19

(attribuer une note de 1 pour pertinent, 0 pour non pertinent)
Sur l’exemple, il y a 6 documents pertinents et 4 documents non pertinents
COURBE ROC
Le 1er doc est pertinent donc :

Les coordonnées du point qui lui est
correspondant sur la courbe :
Abscisse : 0/4 = 0
Ordonné : 1/6 = 0.17
20
COURBE ROC
Le 2ème doc est non pertinent donc :

Abscisse : 1/4 = 0.25
Ordonné : 1/6 = 0.17
21
COURBE ROC
Le 3ème doc est pertinent donc :

Abscisse : 1/4 = 0.25
Ordonné : 2/6 = 0.33
22
COURBE ROC
L’aire de la courbe est l’AUC
23
COURBE ROC
2 autres exemples
24

Chapitre4 Evaluation

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre4 Evaluation

Transféré par

Droits d'auteur :

Formats disponibles

EVALUATION D’UN SRI

Enseignante : Rim Mahouachi

L’évaluation peut se faire moyennant différents critères

Rappelons que la pertinence système n’est qu’une

L’enjeu de la RI est de rapprocher tant que possible la

Un SRI idéal a deux objectifs :

La qualité d’un système peut être mesurée en comparant

Pour arriver à une telle évaluation, on peut utiliser un

Le fait de décider qu’un document est ou non pertinent pour

Évaluer un SRI en utilisant un corpus de test signifie :

Le taux de rappel : proportion des documents pertinents retournés par rapport à

Le taux de précision : proportion des documents pertinents retournés par

Facile de faire du rappel : il suffit de sélectionner toute

La précision calcule le taux d’erreurs du système, alors

Le taux de silence : proportion des documents pertinents non retournés par

Le taux de bruit : proportion des documents non pertinents retournés par

Il y a une forte relation entre elles : quand l’une augmente,

On peut cependant faire le choix entre un système

Est il plus facile d’avoir un taux égal à 1 de rappel ou un taux égal à

Lors de l’indexation, le fait de normaliser les termes retenus (ex:

Peut on avoir un cas où le système ne retourne aucun document

Un expert va déterminer si un document est ou non pertinent pour la requête R 19

Le 1er doc est pertinent donc :

Le 2ème doc est non pertinent donc :

Le 3ème doc est pertinent donc :

Vous aimerez peut-être aussi