Académique Documents
Professionnel Documents
Culture Documents
Chap 2 Apprentissage Supervisé
Chap 2 Apprentissage Supervisé
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE
ÉVALUATION
Ghislain PANDRY
Chercheur, Traitement du signal
Introduction
Nous avons formalisé au chapitre précédent l'apprentissage
supervisé comme la recherche d'un modèle dont l'erreur empirique
est minimale sur un ensemble donné d'observations. Cependant,
minimiser cette erreur empirique ne garantit pas de minimiser
l'erreur du modèle sur la totalité de l'espace des données. En eet,
dans une situation de sur-apprentissage, l'erreur du modèle sera
sous-estimée. C'est cependant cette erreur, ou, en d'autres mots,
notre capacité à faire des prédictions sur des choses qui ne sont pas
connues, qui nous intéresse.
Introduction (suite)
Ce chapitre présente comment mettre en place un cadre
expérimental qui permette d'évaluer un modèle en évitant le biais
du sur-apprentissage.Dans cette optique, nous veillerons à
distinguer l'évaluation d'un modèle, qui consiste à déterminer sa
performance sur l'espace des données dans sa totalité, de sa
sélection, qui consiste à choisir le meilleur modèle parmi plusieurs.
Remarque
Le théorème du no free lunch de Wolpert et Macready (1997)
indique qu'aucun algorithme de machine learning ne peut bien
fonctionner pour tous les problèmes d'apprentissage : un algorithme
qui fonctionne bien sur un type particulier de problèmes le
compensera en fonctionnant moins bien sur d'autres types de
problèmes.En d'autres termes, il n'y a pas de baguette magique
qui puisse résoudre tous nos problèmes de machine learning, et il
est donc essentiel, pour un problème donné, de tester plusieurs
possibilités an de sélectionner le modèle optimal. Notons au
passage que plusieurs critères peuvent intervenir dans ce choix :
non seulement celui de la qualité des prédictions, qui nous intéresse
dans ce cette partie du cours, mais aussi celui des ressources de
calcul nécessaires, qui peuvent être un facteur limitant en pratique.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE
Jeu de test
Il est donc indispensable d'utiliser pour évaluer un modèle des
données étiquetées qui n'ont pas servi à le construire. La manière la
plus simple d'y parvenir est de mettre de côté une partie des
observations, réservées à l'évaluation du modèle, et d'utiliser
uniquement le reste des données pour le construire.
Stratication
Leave-one-out
Bootstrap
Une autre façon de ré-échantillonner les données an d'estimer
l'erreur de généralisation est connue sous le nom de bootstrap.
Dénition : Hyperparamètre
On appelle hyperparamètre un paramètre de l'algorithme
d'apprentissage (et non pas du modèle) : là où les paramètres d'un
modèle sont déterminés par l'algorithme d'apprentissage, un
hyperparamètre n'entre pas dans le modèle (bien qu'il ait une
inuence sur les valeurs des paramètres de ce modèle). Il peut par
exemple s'agir du nombre de voisins dans l'algorithme des plus
proches voisins, du coecient de régularisation d'une régression
linéaire régularisée, ou du nombre de couches cachées dans un
réseau de neurones. Pour déterminer la valeur optimale d'un ou
plusieurs hyperparamètres, on procède souvent par validation
croisée comme détaillée ci-dessus. Cela nécessite de déterminer une
liste de K valeurs d'hyperparamètres à évaluer. Pour cela, plusieurs
stratégies sont possibles.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE
Recherche en grille
On appelle recherche en grille (grid search en anglais) une stratégie
d'optimisation d'hyperparamètres qui consiste à déterminer, pour
chacun des hyperparamètres concernés, une liste de valeurs à tester,
puis à évaluer de manière empirique l'erreur de généralisation de
chacune des combinaisons de valeurs d'hyperparamètres possibles.
Dans le cas où on cherche à optimiser un seul hyperparamètre λ, la
≪ grille ≫ d'hyperparamètres est tout simplement la liste
λ , λ , · · · , λK de valeurs que l'on s'est xée pour λ. Il s'agit alors
1 2
Remarque
Le coût algorithmique d'une recherche d'hyperparamètres en grille
peut augmenter rapidement : si on utilise une validation croisée à
10 folds pour évaluer chacun des modèles appris par un algorithme
pour lequel on considère 10 valeurs possibles pour chacun des deux
hyperparamètres, on doit donc entraîner et évaluer 1 000
modèles.Cependant, ces 1 000 entraînements et évaluations sont
trivialement parallélisables sur un cluster de calcul.
Recherche aléatoire
La recherche en grille est de loin la méthode la plus utilisée pour
l'optimisation des hyperparamètres d'algorithmes d'apprentissage
utilisant un ou deux hyperparamètres. Cependant, elle se révèle
inecace dans les cas où le nombre d'hyperparamètres à déterminer
est plus grand, et donc en particulier pour les réseaux de neurones.
En eet, elle est susceptible de tester de nombreuses combinaisons
d'hyperparamètres sensiblement équivalentes les unes aux autres,
tout en ignorant les zones les plus pertinentes de l'espace des
hyperparamètres, et de gâcher ainsi des ressources qui pourraient
être mieux employées. Cette idée, explorée en détail par Bergstra et
Bengio (2012), est illustrée sur la gure suivante
Recherche aléatoire
On appelle recherche aléatoire (random search en anglais) une
stratégie d'op-timisation d'hyperparamètres qui consiste à
déterminer, pour chacun des hy-perparamètres concernés, des
fourchettes de valeurs à tester, puis à évaluerde manière empirique
l'erreur de généralisation de K combinaisons de
valeursd'hyperparamètres tirées uniformément dans ces
fourchettes.Un autre avantage de la recherche aléatoire est que la
stratégie peut facilement êtreadaptée à des variations dans les
ressources : si l'on doit interrompre ses calculs pré-maturément,
l'expérience menée consiste quand même en une recherche
aléatoire ; àl'inverse, si plus de ressources sont disponibles, on peut
aisément ajouter des pointsde recherche sans avoir à ajuster une
grille.
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT
INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE
Dénition :Rappel
On appelle rappel (recall en anglais), ou sensibilité (sensitivity en
anglais), ou encore taux de vrais positifs (true positive rate,abrégé
TPR,en anglais),le taux de vrais positifs, c'est-à-dire la proportion
d'exemples positifs correctement identiés comme
TP
tels :Recall = .
TP + FN
Il est cependant très facile d'avoir un bon rappel en prédisant que
tous les exemples sont positifs. Ainsi, ce critère ne peut pas être
utilisé seul. On lui adjoint ainsi souvent la précision.
Dénition :Précision
On appelle précision,ou valeur positive prédictive (positive
predictive value, PPV)la proportion de prédictions correctes parmi
les prédictions positives :
TP
Precision = .
TP + FP
De même que l'on peut facilement avoir un très bon rappel au
détriment de la précision, il est aisé d'obtenir une bonne précision
(au détriment du rappel) en faisant très peu de prédictions positives
(ce qui réduit le risque qu'elles soient erronées).
Remargue
L'anglais distingue precision (la précision ci-dessus) et accuracy, qui
est la pro-portion d'exemples correctement étiquetés, soit le
complémentaire à 1 du taux d'erreur, aussi traduit par précision en
français. On utilisera donc ces termes avec précaution.
Dénition : F-mesure
On appelle F-mesure (F-score ou F1-score en anglais), notée F, la
moyenne harmonique de la précision et du rappel :
Pr cision ∗ Rappel 2TP
F =2 =
Pr cision + Rappel 2TP + FP + FN
Dénition :Spécicité
On appelle spécicité le taux de vrais négatifs, autrement dit la
proportion d'exemples négatifs correctement identiés comme tels :
TN
Spcificit =
TN + FP
La spécicité est le complémentaire à 1 du taux de faux positifs
(false positive rate,abrégé FPR, en anglais).
Exemple
Prenons l'exemple d'un test clinique pour illustrer ces diérents
critères. Il ne s'agit pas ici d'un modèle d'apprentissage
automatique, mais d'un frottis de dépistage du cancer du col de
l'utérus : il s'agit d'un examen beaucoup plus simple et moins
invasif qu'un examen histologique, qui doit être interprété par un
expert, et servira de vérité terrain.
Les résultats d'une expérience menée sur 4 000 femmes âgées de 40
ans et plus sont présentés sur le tableau suivant :