Vous êtes sur la page 1sur 39

INTRODUCTION

OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

APPRENTISSAGE SUPERVISE: SÉLECTION DE MODÈLE ET

ÉVALUATION

Ghislain PANDRY
Chercheur, Traitement du signal

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Introduction
Nous avons formalisé au chapitre précédent l'apprentissage
supervisé comme la recherche d'un modèle dont l'erreur empirique
est minimale sur un ensemble donné d'observations. Cependant,
minimiser cette erreur empirique ne garantit pas de minimiser
l'erreur du modèle sur la totalité de l'espace des données. En eet,
dans une situation de sur-apprentissage, l'erreur du modèle sera
sous-estimée. C'est cependant cette erreur, ou, en d'autres mots,
notre capacité à faire des prédictions sur des choses qui ne sont pas
connues, qui nous intéresse.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Introduction (suite)
Ce chapitre présente comment mettre en place un cadre
expérimental qui permette d'évaluer un modèle en évitant le biais
du sur-apprentissage.Dans cette optique, nous veillerons à
distinguer l'évaluation d'un modèle, qui consiste à déterminer sa
performance sur l'espace des données dans sa totalité, de sa
sélection, qui consiste à choisir le meilleur modèle parmi plusieurs.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Concevoir un cadre expérimental dans lequel sélectionner un


modèle d'apprentissage supervisé.
Choisir un ou des critères d'évaluation d'un modèle
d'apprentissage supervisé.
Estimer la performance en généralisation d'un modèle
d'apprentissage supervisé.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Remarque
Le théorème du no free lunch de Wolpert et Macready (1997)
indique qu'aucun algorithme de machine learning ne peut bien
fonctionner pour tous les problèmes d'apprentissage : un algorithme
qui fonctionne bien sur un type particulier de problèmes le
compensera en fonctionnant moins bien sur d'autres types de
problèmes.En d'autres termes, il n'y a pas de  baguette magique
 qui puisse résoudre tous nos problèmes de machine learning, et il
est donc essentiel, pour un problème donné, de tester plusieurs
possibilités an de sélectionner le modèle optimal. Notons au
passage que plusieurs critères peuvent intervenir dans ce choix :
non seulement celui de la qualité des prédictions, qui nous intéresse
dans ce cette partie du cours, mais aussi celui des ressources de
calcul nécessaires, qui peuvent être un facteur limitant en pratique.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

L'erreur empirique mesurée sur les observations qui ont permis de


construire le modèle est un mauvais estimateur de l'erreur du
modèle sur l'ensemble des don-nées possibles, ou erreur de
généralisation : si le modèle sur-apprend, cette erreur empirique
peut être proche de zéro voire nulle, tandis que l'erreur de
généralisation peut être arbitrairement grande. L'erreur de
généralisation est ainsi un autre nom du risque.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Jeu de test
Il est donc indispensable d'utiliser pour évaluer un modèle des
données étiquetées qui n'ont pas servi à le construire. La manière la
plus simple d'y parvenir est de mettre de côté une partie des
observations, réservées à l'évaluation du modèle, et d'utiliser
uniquement le reste des données pour le construire.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Stratication

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Leave-one-out

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Bootstrap
Une autre façon de ré-échantillonner les données an d'estimer
l'erreur de généralisation est connue sous le nom de bootstrap.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Nous avons parlé de choisir entre K modèles de manière très


générale dans le chapitre précédent. En pratique, ces K modèles
sont souvent obtenus à partir d'un seul et même algorithme
d'apprentissage, dont on fait varier un hyperparamètre.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Dénition : Hyperparamètre
On appelle hyperparamètre un paramètre de l'algorithme
d'apprentissage (et non pas du modèle) : là où les paramètres d'un
modèle sont déterminés par l'algorithme d'apprentissage, un
hyperparamètre n'entre pas dans le modèle (bien qu'il ait une
inuence sur les valeurs des paramètres de ce modèle). Il peut par
exemple s'agir du nombre de voisins dans l'algorithme des plus
proches voisins, du coecient de régularisation d'une régression
linéaire régularisée, ou du nombre de couches cachées dans un
réseau de neurones. Pour déterminer la valeur optimale d'un ou
plusieurs hyperparamètres, on procède souvent par validation
croisée comme détaillée ci-dessus. Cela nécessite de déterminer une
liste de K valeurs d'hyperparamètres à évaluer. Pour cela, plusieurs
stratégies sont possibles.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Recherche en grille
On appelle recherche en grille (grid search en anglais) une stratégie
d'optimisation d'hyperparamètres qui consiste à déterminer, pour
chacun des hyperparamètres concernés, une liste de valeurs à tester,
puis à évaluer de manière empirique l'erreur de généralisation de
chacune des combinaisons de valeurs d'hyperparamètres possibles.
Dans le cas où on cherche à optimiser un seul hyperparamètre λ, la
≪ grille ≫ d'hyperparamètres est tout simplement la liste
λ , λ , · · · , λK de valeurs que l'on s'est xée pour λ. Il s'agit alors
1 2

d'évaluer l'erreur de généralisation de K modèles diérents.


Dans le cas où on souhaite optimiser deux hyperparamètres λ et ν ,
on commence par xer une liste λ , λ , · · · , λK de valeurs à tester
1 2

pour λ, puis une liste ν , ν , · · · , νL de valeurs à tester pour ν . On


1 2

obtient ainsi KL paires (λk , νl ) d'hyperparamètres et donc de


modèles à évaluer.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Remarque
Le coût algorithmique d'une recherche d'hyperparamètres en grille
peut augmenter rapidement : si on utilise une validation croisée à
10 folds pour évaluer chacun des modèles appris par un algorithme
pour lequel on considère 10 valeurs possibles pour chacun des deux
hyperparamètres, on doit donc entraîner et évaluer 1 000
modèles.Cependant, ces 1 000 entraînements et évaluations sont
trivialement parallélisables sur un cluster de calcul.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Recherche aléatoire
La recherche en grille est de loin la méthode la plus utilisée pour
l'optimisation des hyperparamètres d'algorithmes d'apprentissage
utilisant un ou deux hyperparamètres. Cependant, elle se révèle
inecace dans les cas où le nombre d'hyperparamètres à déterminer
est plus grand, et donc en particulier pour les réseaux de neurones.
En eet, elle est susceptible de tester de nombreuses combinaisons
d'hyperparamètres sensiblement équivalentes les unes aux autres,
tout en ignorant les zones les plus pertinentes de l'espace des
hyperparamètres, et de gâcher ainsi des ressources qui pourraient
être mieux employées. Cette idée, explorée en détail par Bergstra et
Bengio (2012), est illustrée sur la gure suivante

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Recherche aléatoire
On appelle recherche aléatoire (random search en anglais) une
stratégie d'op-timisation d'hyperparamètres qui consiste à
déterminer, pour chacun des hy-perparamètres concernés, des
fourchettes de valeurs à tester, puis à évaluerde manière empirique
l'erreur de généralisation de K combinaisons de
valeursd'hyperparamètres tirées uniformément dans ces
fourchettes.Un autre avantage de la recherche aléatoire est que la
stratégie peut facilement êtreadaptée à des variations dans les
ressources : si l'on doit interrompre ses calculs pré-maturément,
l'expérience menée consiste quand même en une recherche
aléatoire ; àl'inverse, si plus de ressources sont disponibles, on peut
aisément ajouter des pointsde recherche sans avoir à ajuster une
grille.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Il existe de nombreuses façons d'évaluer la performance prédictive


d'un modèle d'apprentissage supervisé. Cette section présente les
principaux critères utilisés.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Matrice de confusion et critères dérivés


Comme nous l'avons vu, le nombre d'erreurs de classication
permet d'évaluer la qualité d'un modèle prédictif. Notons que l'on
préférera généralement décrire le nombre d'erreurs comme une
fraction du nombre d'exemples : un taux d'erreur de 1% est plus
parlant qu'un nombre absolu d'erreurs.Mais toutes les erreurs ne se
valent pas nécessairement. Prenons l'exemple d'un modèle qui
prédise si oui ou non une radiographie présente une tumeur
inquiétante :une fausse alerte, qui sera ensuite inrmée par des
examens complémentaires, est moins problématique que de ne pas
déceler la tumeur et de ne pas traiter la personne concernée. Les
performances d'un modèle de classication, binaire comme
multi-classe, peuvent être résumée dans une matrice de confusion.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Étant donné un problème de classication, on appelle matrice de


confusion une matrice M contenant autant de lignes que de
colonnes que de classes, et dont l'entrée Mck est le nombre
d'exemples de la classe c pour laquelle l'étiquette k a été
prédite.Dans le cas de la classication binaire, la matrice de
confusion prend la forme suivante :

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Explication des paramètres


On appelle :
vrais positifs (en anglais true positives) les exemples positifs
correctement classiés ;
faux positifs (en anglais false positives) les exemples négatifs
étiquetés positifs par le modèle ;
et réciproquement pour les vrais négatifs (true negatives) et
les faux négatifs ( false negatives).
On note généralement TP le nombre de vrais positifs, FP le
nombre de faux positifs, TN le nombre de vrais négatifs et FN
le nombre de faux négatifs.
Les faux positifs sont aussi appelés fausses alarmes ou erreurs
de type I,par opposition aux erreurs de type II qui sont les faux
négatifs.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Dénition :Rappel
On appelle rappel (recall en anglais), ou sensibilité (sensitivity en
anglais), ou encore taux de vrais positifs (true positive rate,abrégé
TPR,en anglais),le taux de vrais positifs, c'est-à-dire la proportion
d'exemples positifs correctement identiés comme
TP
tels :Recall = .
TP + FN
Il est cependant très facile d'avoir un bon rappel en prédisant que
tous les exemples sont positifs. Ainsi, ce critère ne peut pas être
utilisé seul. On lui adjoint ainsi souvent la précision.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Dénition :Précision
On appelle précision,ou valeur positive prédictive (positive
predictive value, PPV)la proportion de prédictions correctes parmi
les prédictions positives :
TP
Precision = .
TP + FP
De même que l'on peut facilement avoir un très bon rappel au
détriment de la précision, il est aisé d'obtenir une bonne précision
(au détriment du rappel) en faisant très peu de prédictions positives
(ce qui réduit le risque qu'elles soient erronées).

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Remargue
L'anglais distingue precision (la précision ci-dessus) et accuracy, qui
est la pro-portion d'exemples correctement étiquetés, soit le
complémentaire à 1 du taux d'erreur, aussi traduit par précision en
français. On utilisera donc ces termes avec précaution.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Dénition : F-mesure
On appelle F-mesure (F-score ou F1-score en anglais), notée F, la
moyenne harmonique de la précision et du rappel :
Pr cision ∗ Rappel 2TP
F =2 =
Pr cision + Rappel 2TP + FP + FN

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Dénition :Spécicité
On appelle spécicité le taux de vrais négatifs, autrement dit la
proportion d'exemples négatifs correctement identiés comme tels :
TN
Spcificit =
TN + FP
La spécicité est le complémentaire à 1 du taux de faux positifs
(false positive rate,abrégé FPR, en anglais).

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Exemple
Prenons l'exemple d'un test clinique pour illustrer ces diérents
critères. Il ne s'agit pas ici d'un modèle d'apprentissage
automatique, mais d'un frottis de dépistage du cancer du col de
l'utérus : il s'agit d'un examen beaucoup plus simple et moins
invasif qu'un examen histologique, qui doit être interprété par un
expert, et servira de vérité terrain.
Les résultats d'une expérience menée sur 4 000 femmes âgées de 40
ans et plus sont présentés sur le tableau suivant :

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Le rappel est de 95 %, la spécicité de 94,5 %, mais la précision ne


vaut que 47,5 %.En eet, ce test est un bon outil de dépistage : la
probabilité de n'avoir eectivement pas de cancer quand le frottis
est négatif est élevée (3590/3600 ≈ 99,7 %).Cependant, c'est un
mauvais outil diagnostique, au sens où la probabilité de fausse
alarme est très élevée.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Évaluation de méthodes de classication binaire retournant un score


De nombreux algorithmes de classication ne retournent pas
directement une étiquette de classe, mais utilisent une fonction de
décision qui doit ensuite être seuillée pour devenir une étiquette.
Cette fonction de décision peut être un score arbitraire(par
exemple, la proportion d'exemples positifs parmi les k plus proches
voisins du point à étiqueter) ou la probabilité d'appartenir à la
classe positive (comme c'est par exemple le cas pour la régression
logistique).Plusieurs critères permettent d'évaluer la qualité de la
fonction de décision avant seuillage.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT


INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE

Dénition : Courbe ROC


On appelle courbe ROC, de l'anglais Receiver-Operator
Characteristic la courbe décrivant l'évolution de la sensibilité (TPR)
en fonction du complémentaire à 1 de la spécicité, parfois appelé
antispécicité (FPR), lorsque le seuil de décision change.Le terme
vient des télécommunications, où ces courbes servent à étudier si
un système arrive à séparer le signal du bruit de fond.On peut
synthétiser une courbe ROC par l'aire sous cette courbe, souvent
abrégée AUROC pour Area Under the ROC.

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Vous aimerez peut-être aussi