Académique Documents
Professionnel Documents
Culture Documents
2
1- Évaluation
3
Qu’est-ce qu’une bonne évaluation ?
• Évaluer un algorithme d’apprentissage sert à :
– Savoir s’il remplit la tâche assignée
– Savoir s’il est meilleur que la concurrence
– Savoir où on peut l’améliorer
• Il faut donc une évaluation :
– Reproductible
• Pour évaluer plusieurs systèmes de la même façon
• Pour estimer les progrès accomplis
– Interprétable
• Pour identifier les zones de progrès possible
– Rapide
• Pour pouvoir évaluer chaque modification du système indépendamment
– Objective
4
2- Mesures subjectives d’évaluation
5
Mesures subjectives
6
Mesures subjectives : difficultés
7
3- Mesures objectives d’évaluation
8
Pré-requis pour l’évaluation
2 points principaux :
9
Comment rendre la pertinence objective ?
• Pour rendre la pertinence objective :
– On en simplifie la définition
• Les documents sont traités indépendamment les uns des autres
• La pertinence est transformée en notion binaire (pertinent ou pas).
On ne parle pas de pertinence partielle
• Pour comparer les performances de deux systèmes ou de deux descripteurs,
on utilise :
– La même base d’apprentissage
– La même base de test
– La base de test doit être partagée par tous les chercheurs du domaine et
elle est appelée « Benchmark »
– La taille de la base de test doit être suffisamment grande pour diminuer
la variance des évaluations
10
Pré-recquis
11
Accuracy
Soit un Doc requête qui représente la configuration suivante
12
Accuracy
Les résultats retournés par le moteur de recherche sont comme suit :
13
Accuracy
14
Matrice de cout
TP désigne les vrais positifs (true positive),: pertinent et retourné par le SRI
TN les vrais négatifs (true negative) : non pertinent et retourné par le SRI
FP désigne les faux positifs (false positive) : non pertinent et retourné par le SRI
FN désigne les faux négatifs (false negative): pertinent et non retourné par le SRI
15
Accuracy
16
Précision/rappel
Tous les
documents
Retrouné
Pertinent
17
Précision/rappel
• Soit I un document requête de la base d’apprentissage
• On sait que pour I il y a 20 documents similaires à la requête I dans la
base de test R=20
• Le SRI a retourné 25 documents de la base de test pour la requête I
A=25
• Parmi les 25 documents retournés il y a 15 similaires à la requête I
Ra=15
18
Précision et rappel
• Pourquoi pas juste la précision ?
– La précision évalue la capacité d’un système à renvoyer SURTOUT des
documents pertinents
– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision
Ce n’est pas compatible avec la satisfaction de l’utilisateur !
19
Précision/rappel
20
Autres mesures d’Évaluation : silence et bruit
21
Autres mesures d’Évaluation : F-mesure
2 P. R
F
PR
22