Chap5 Evaluation

Université Internationale de Tunis
Cours : Deep learning
Niveau : 2 ING & 1 Master
Chapitre 5: Evaluation des SRI

présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Plan du chapitre
1) Evaluation des algorithmes d’apprentissage

2) Mesures subjectives d’évaluation
3) Mesures objectives d’évaluation
2
1- Évaluation
3
Qu’est-ce qu’une bonne évaluation ?
• Évaluer un algorithme d’apprentissage sert à :
– Savoir s’il remplit la tâche assignée
– Savoir s’il est meilleur que la concurrence
– Savoir où on peut l’améliorer
• Il faut donc une évaluation :
– Reproductible
• Pour évaluer plusieurs systèmes de la même façon
• Pour estimer les progrès accomplis
– Interprétable
• Pour identifier les zones de progrès possible
– Rapide
• Pour pouvoir évaluer chaque modification du système indépendamment
– Objective
4
2- Mesures subjectives d’évaluation
5
Mesures subjectives
6
Mesures subjectives : difficultés
7
3- Mesures objectives d’évaluation
8
Pré-requis pour l’évaluation
2 points principaux :
• La base de test : ~ 20% de la base totale

– De petite taille (ensemble de documents présélectionnées)
– Les documents serviront pour la requête
• La base d’apprentissage : ~ 80% de la base totale

– De grande taille et appelée vérité terrain (ground truth)
– On connait exactement le contenu de ces images
– Les documents résultats seront pris de la base d’apprentissage.
• Pour chaque document requête de la base de test on sait exactement à l’avance

combien de documents lui sont similaires dans la base d’apprentissage
• Les deux bases sont formés manuellement
• Pour évaluer on compare les résultats du système aux résultats attendus
9
Comment rendre la pertinence objective ?
• Pour rendre la pertinence objective :
– On en simplifie la définition
• Les documents sont traités indépendamment les uns des autres
• La pertinence est transformée en notion binaire (pertinent ou pas).
On ne parle pas de pertinence partielle
• Pour comparer les performances de deux systèmes ou de deux descripteurs,
on utilise :
– La même base d’apprentissage
– La même base de test
– La base de test doit être partagée par tous les chercheurs du domaine et
elle est appelée « Benchmark »
– La taille de la base de test doit être suffisamment grande pour diminuer
la variance des évaluations
10
Pré-recquis
11
Accuracy
Soit un Doc requête qui représente la configuration suivante
12
Accuracy
Les résultats retournés par le moteur de recherche sont comme suit :
13
Accuracy
14
Matrice de cout
valeur donnée par le moteur de recherche

“Retournés” “Non Retournés”
valeur connue à
“Pertinents” TP FN
partir de la base
d’apprentissage “Non
FP TN
Pertinents”
TP désigne les vrais positifs (true positive),: pertinent et retourné par le SRI
TN les vrais négatifs (true negative) : non pertinent et retourné par le SRI
FP désigne les faux positifs (false positive) : non pertinent et retourné par le SRI
FN désigne les faux négatifs (false negative): pertinent et non retourné par le SRI
15
Accuracy
16
Précision/rappel
Tous les
documents
Retrouné
Pertinent
17
Précision/rappel
• Soit I un document requête de la base d’apprentissage
• On sait que pour I il y a 20 documents similaires à la requête I dans la
base de test R=20
• Le SRI a retourné 25 documents de la base de test pour la requête I 
A=25
• Parmi les 25 documents retournés il y a 15 similaires à la requête I 
Ra=15
18
Précision et rappel
• Pourquoi pas juste la précision ?
– La précision évalue la capacité d’un système à renvoyer SURTOUT des
documents pertinents
– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision
 Ce n’est pas compatible avec la satisfaction de l’utilisateur !
• Pourquoi pas juste le rappel ?

– Le rappel évalue la capacité d’un système à renvoyer TOUS les documents
pertinents
– Renvoyer tous les documents de la collection permet d’obtenir 100 % de
rappel
 Ce n’est pas compatible avec la satisfaction de l’utilisateur !
19
Précision/rappel
• Précision : pourcentage de bons résultats parmi les résultats

retournés
• Rappel : pourcentage de bons résultats parmi la totalité de bons
résultats
• Un SRI parfait est caractérisé par une précision et un rappel égaux à
1
– Précision = 1 : le SRI n’a retourné aucun mauvais résultat ( tous
les résultats retournés sont similaires à la requête)
– Rappel = 1 : Le SRI a retourné tous les bons résultats (n’a oublié
aucun document similaire)
20
Autres mesures d’Évaluation : silence et bruit
21
Autres mesures d’Évaluation : F-mesure
• Appelée moyenne harmonique : c’est une mesure qui tient compte à la

fois du rappel et de la précision
2 P. R
F
PR
22

Chap5 Evaluation

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap5 Evaluation

Transféré par

Droits d'auteur :

Formats disponibles

Université Internationale de Tunis

Cours : Deep learning

Niveau : 2 ING & 1 Master

Chapitre 5: Evaluation des SRI

1) Evaluation des algorithmes d’apprentissage

• La base de test : ~ 20% de la base totale

• La base d’apprentissage : ~ 80% de la base totale

• Pour chaque document requête de la base de test on sait exactement à l’avance

valeur donnée par le moteur de recherche

• Pourquoi pas juste le rappel ?

• Précision : pourcentage de bons résultats parmi les résultats

• Appelée moyenne harmonique : c’est une mesure qui tient compte à la

Vous aimerez peut-être aussi