Vous êtes sur la page 1sur 24

EVALUATION D’UN SRI

Enseignante : Rim Mahouachi


EVALUATION D’UN SRI
CRITÈRES D’ÉVALUATION

L’évaluation peut se faire moyennant différents critères


(temps d’exécution, facilité d’utilisation, etc.)
Ici nous nous intéressons principalement à la qualité du résultat
retourné (pertinence système) par un SRI versus la pertinence
utilisateur

Rappelons que la pertinence système n’est qu’une


représentation imprécise de la pertinence utilisateur
un document considéré comme pertinent par le système ne l’est
pas nécessairement par l’utilisateur.
2
EVALUATION D’UN SRI
CRITÈRES D’ÉVALUATION

L’enjeu de la RI est de rapprocher tant que possible la


pertinence système de la pertinence utilisateur.

3
EVALUATION D’UN SRI
CRITÈRES D’ÉVALUATION

Un SRI idéal a deux objectifs :


Retourner tous les documents pertinents,
Rejeter tous les documents non pertinents.

La qualité d’un système peut être mesurée en comparant


les réponses du système avec la réponse idéale que
l’utilisateur espère obtenir
Plus la réponse du système correspond à celle que l’utilisateur
espère, mieux est le système.

Pour arriver à une telle évaluation, on peut utiliser un


4
corpus de test
EVALUATION D’UN SRI
CORPUS DE TEST
Constitué d’un ensemble de documents et d’un ensemble de
requêtes, où à chaque requête est associée la liste des
documents qui lui sont pertinents

Le fait de décider qu’un document est ou non pertinent pour


l’utilisateur par rapport à une requête donnée est une tâche
difficile
C’est une décision binaire réalisée grâce à des experts du domaine
des documents ou bien des documentalistes

Évaluer un SRI en utilisant un corpus de test signifie :


lancer une requête parmi les requêtes du corpus de test
comparer les documents retournés par le SRI avec les documents
pertinents à la requête (définis préalablement) 5
MESURES D’ÉVALUATION DES SRI
RAPPEL

Le taux de rappel : proportion des documents pertinents retournés par rapport à


l’ensemble des documents pertinents du corpus.

Cette mesure calcule la capacité du système à retourner tous les documents pertinents.
MESURES D’ÉVALUATION DES SRI
PRÉCISION

Le taux de précision : proportion des documents pertinents retournés par


rapport à l’ensemble des documents retournés par le système.

Cette mesure calcule la capacité du système à ne retourner que les documents pertinents.
MESURES D’ÉVALUATION DES SRI
POURQUOI DEUX FACTEURS

8
MESURES D’ÉVALUATION DES SRI
POURQUOI DEUX FACTEURS

Facile de faire du rappel : il suffit de sélectionner toute


la collection
Mais la précision sera très faible

La précision calcule le taux d’erreurs du système, alors


que le rappel calcule son taux d’exhaustivité 9
MESURES D’ÉVALUATION DES SRI
SILENCE

Le taux de silence : proportion des documents pertinents non retournés par


rapport à l’ensemble des documents pertinents du corpus.

Une des cause de l’augmentation du silence est que la requête est trop précise
(réduction du rappel) moyennant, par exemple, l’utilisation de plusieurs mots
clés.
10
MESURES D’ÉVALUATION DES SRI
BRUIT

Le taux de bruit : proportion des documents non pertinents retournés par


rapport à l’ensemble des documents retournés par le système.

Une des cause de l’augmentation du bruit est que la requête est très générique
(réduction de la précision) moyennant, par exemple, l’utilisation de peu de mots
clés.
11
MESURES D’ÉVALUATION DES SRI

12
EXERCICE D’APPLICATION
Pour une requête donnée, un système retourne 5
documents, parmi lesquels 3 sont pertinents. Sachant qu’il
y a 10 documents pertinents dans le corpus, calculer le
rappel et la précision.

Réponse :
Rappel = 3/10

Précision = 3/5

13
RAPPEL VS PRÉCISION
Le comportement d’un système peut varier en faveur de
la précision (on parle de système orienté précision) ou en
faveur du rappel (dans ce cas, on parle de système
orienté rappel).
Le but est d’atteindre un compromis entre les deux mesures.
Pour un système, on a une courbe de précision-rappel qui a en
général la forme suivante :

14
RAPPEL VS PRÉCISION
Ces deux métriques ne sont pas indépendantes

Il y a une forte relation entre elles : quand l’une augmente,


l’autre diminue.
Il ne signifie rien de parler de la qualité d’un système en
utilisant seulement une de ces deux métriques sans l’autre : il
faut donc utiliser les deux métriques ensemble.

On peut cependant faire le choix entre un système


orienté rappel ou bien un système orienté précision

15
QUESTIONS / RÉPONSES
Quelle est la valeur optimale pour le couple (rappel, précision) et
quand ceci est réalisée ?
100% de rappel et 100% de précision : cela signifie que le
système retourne tous les documents pertinents, et rien que des
documents pertinents.
En pratique, cette situation est difficile à atteindre.

Est il plus facile d’avoir un taux égal à 1 de rappel ou un taux égal à


1 de précision ?
Il est plus facile d’avoir 100% de rappel : il suffit de donner
toute la base comme réponse à chaque requête. Cependant, la
précision dans ce cas-ci serait très basse.
De même, on peut augmenter la précision en donnant très peu de 16
documents en réponse, mais le rappel sera bas
QUESTIONS / RÉPONSES
Lors de l’indexation, le fait de supprimer les mots trop fréquents
favorise t-il la construction d’un système orienté rappel ou orienté
précision ?
SRI orienté précision

Lors de l’indexation, le fait de normaliser les termes retenus (ex:


Computer, Computing, Computation, etc. versus Comput) favorise t-il la
construction d’un système orienté rappel ou orienté précision ?
SRI orienté rappel

Peut on avoir un cas où le système ne retourne aucun document


pertinent alors que pour l’utilisateur il y a 5 documents pertinents dans
le corpus ?
Oui, si le système ne tient pas compte de la synonymie par exemple dans
le cas ou le langage utilisé est un langage libre c.-à.d. sans thésaurus. 17
COURBE ROC
Ces indicateurs ne permettent pas de qualifier le
classement réalisé par le moteur de recherche
Solution : utilisation de l’indicateur AUC
Aire (AUC pour Area Under the ROC Curve) de la coure ROC
Cette courbe s’intéresse aux n premiers documents retournés
par le moteur de recherche
Pour i ∈ [1 .. n] on a :
En abscisse, le taux de documents non pertinents (bruit)
En ordonné, le taux de documents pertinents (précision)
Plus l’AUC tend vers 1, meilleur est le classement

n réponses
Documents 18
pertinents
COURBE ROC
Exemple
But : déterminer les performances d’un moteur de recherche
sur les 10 premiers documents retournés pour une requête R

Un expert va déterminer si un document est ou non pertinent pour la requête R 19


(attribuer une note de 1 pour pertinent, 0 pour non pertinent)
Sur l’exemple, il y a 6 documents pertinents et 4 documents non pertinents
COURBE ROC

Le 1er doc est pertinent donc :


Les coordonnées du point qui lui est
correspondant sur la courbe :
Abscisse : 0/4 = 0
Ordonné : 1/6 = 0.17

20
COURBE ROC

Le 2ème doc est non pertinent donc :


Les coordonnées du point qui lui est
correspondant sur la courbe :
Abscisse : 1/4 = 0.25
Ordonné : 1/6 = 0.17

21
COURBE ROC

Le 3ème doc est pertinent donc :


Les coordonnées du point qui lui est
correspondant sur la courbe :
Abscisse : 1/4 = 0.25
Ordonné : 2/6 = 0.33

22
COURBE ROC
L’aire de la courbe est l’AUC

23
COURBE ROC
2 autres exemples

24

Vous aimerez peut-être aussi