Vous êtes sur la page 1sur 22

Université Internationale de Tunis

Cours : Deep learning

Niveau : 2 ING & 1 Master

Chapitre 5: Evaluation des SRI


présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Plan du chapitre

1) Evaluation des algorithmes d’apprentissage


2) Mesures subjectives d’évaluation
3) Mesures objectives d’évaluation

2
1- Évaluation

3
Qu’est-ce qu’une bonne évaluation ?
• Évaluer un algorithme d’apprentissage sert à :
– Savoir s’il remplit la tâche assignée
– Savoir s’il est meilleur que la concurrence
– Savoir où on peut l’améliorer
• Il faut donc une évaluation :
– Reproductible
• Pour évaluer plusieurs systèmes de la même façon
• Pour estimer les progrès accomplis
– Interprétable
• Pour identifier les zones de progrès possible
– Rapide
• Pour pouvoir évaluer chaque modification du système indépendamment
– Objective

4
2- Mesures subjectives d’évaluation

5
Mesures subjectives

6
Mesures subjectives : difficultés

7
3- Mesures objectives d’évaluation

8
Pré-requis pour l’évaluation
2 points principaux :

• La base de test : ~ 20% de la base totale


– De petite taille (ensemble de documents présélectionnées)
– Les documents serviront pour la requête

• La base d’apprentissage : ~ 80% de la base totale


– De grande taille et appelée vérité terrain (ground truth)
– On connait exactement le contenu de ces images
– Les documents résultats seront pris de la base d’apprentissage.

• Pour chaque document requête de la base de test on sait exactement à l’avance


combien de documents lui sont similaires dans la base d’apprentissage
• Les deux bases sont formés manuellement
• Pour évaluer on compare les résultats du système aux résultats attendus

9
Comment rendre la pertinence objective ?
• Pour rendre la pertinence objective :
– On en simplifie la définition
• Les documents sont traités indépendamment les uns des autres
• La pertinence est transformée en notion binaire (pertinent ou pas).
On ne parle pas de pertinence partielle
• Pour comparer les performances de deux systèmes ou de deux descripteurs,
on utilise :
– La même base d’apprentissage
– La même base de test
– La base de test doit être partagée par tous les chercheurs du domaine et
elle est appelée « Benchmark »
– La taille de la base de test doit être suffisamment grande pour diminuer
la variance des évaluations

10
Pré-recquis

11
Accuracy
Soit un Doc requête qui représente la configuration suivante

12
Accuracy
Les résultats retournés par le moteur de recherche sont comme suit :

13
Accuracy

14
Matrice de cout

valeur donnée par le moteur de recherche


“Retournés” “Non Retournés”
valeur connue à
“Pertinents” TP FN
partir de la base
d’apprentissage “Non
FP TN
Pertinents”

TP désigne les vrais positifs (true positive),: pertinent et retourné par le SRI
TN les vrais négatifs (true negative) : non pertinent et retourné par le SRI
FP désigne les faux positifs (false positive) : non pertinent et retourné par le SRI
FN désigne les faux négatifs (false negative): pertinent et non retourné par le SRI

15
Accuracy

16
Précision/rappel

Tous les
documents
Retrouné

Pertinent

17
Précision/rappel
• Soit I un document requête de la base d’apprentissage
• On sait que pour I il y a 20 documents similaires à la requête I dans la
base de test R=20
• Le SRI a retourné 25 documents de la base de test pour la requête I 
A=25
• Parmi les 25 documents retournés il y a 15 similaires à la requête I 
Ra=15

18
Précision et rappel
• Pourquoi pas juste la précision ?
– La précision évalue la capacité d’un système à renvoyer SURTOUT des
documents pertinents
– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision
 Ce n’est pas compatible avec la satisfaction de l’utilisateur !

• Pourquoi pas juste le rappel ?


– Le rappel évalue la capacité d’un système à renvoyer TOUS les documents
pertinents
– Renvoyer tous les documents de la collection permet d’obtenir 100 % de
rappel
 Ce n’est pas compatible avec la satisfaction de l’utilisateur !

19
Précision/rappel

• Précision : pourcentage de bons résultats parmi les résultats


retournés
• Rappel : pourcentage de bons résultats parmi la totalité de bons
résultats
• Un SRI parfait est caractérisé par une précision et un rappel égaux à
1
– Précision = 1 : le SRI n’a retourné aucun mauvais résultat ( tous
les résultats retournés sont similaires à la requête)
– Rappel = 1 : Le SRI a retourné tous les bons résultats (n’a oublié
aucun document similaire)

20
Autres mesures d’Évaluation : silence et bruit

21
Autres mesures d’Évaluation : F-mesure

• Appelée moyenne harmonique : c’est une mesure qui tient compte à la


fois du rappel et de la précision

2 P. R
F
PR

22

Vous aimerez peut-être aussi