Chap 2 Apprentissage Supervisé

INTRODUCTION
OBJECTIFS
REMARQUE
ESTIMATION EMPIRIQUE DE L'ERREUR DE GÉNÉRALISATION
OPTIMISATION D'HYPERPARAMÈTRES
CRITÈRES DE PERFORMANCE
APPRENTISSAGE SUPERVISE: SÉLECTION DE MODÈLE ET
ÉVALUATION
Ghislain PANDRY
Chercheur, Traitement du signal
Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

INTRODUCTION
OBJECTIFS
REMARQUE
Introduction
Nous avons formalisé au chapitre précédent l'apprentissage
supervisé comme la recherche d'un modèle dont l'erreur empirique
est minimale sur un ensemble donné d'observations. Cependant,
minimiser cette erreur empirique ne garantit pas de minimiser
l'erreur du modèle sur la totalité de l'espace des données. En eet,
dans une situation de sur-apprentissage, l'erreur du modèle sera
sous-estimée. C'est cependant cette erreur, ou, en d'autres mots,
notre capacité à faire des prédictions sur des choses qui ne sont pas
connues, qui nous intéresse.

INTRODUCTION
OBJECTIFS
REMARQUE
Introduction (suite)
Ce chapitre présente comment mettre en place un cadre
expérimental qui permette d'évaluer un modèle en évitant le biais
du sur-apprentissage.Dans cette optique, nous veillerons à
distinguer l'évaluation d'un modèle, qui consiste à déterminer sa
performance sur l'espace des données dans sa totalité, de sa
sélection, qui consiste à choisir le meilleur modèle parmi plusieurs.

INTRODUCTION
OBJECTIFS
REMARQUE
Concevoir un cadre expérimental dans lequel sélectionner un

modèle d'apprentissage supervisé.
Choisir un ou des critères d'évaluation d'un modèle
d'apprentissage supervisé.
Estimer la performance en généralisation d'un modèle
d'apprentissage supervisé.

INTRODUCTION
OBJECTIFS
REMARQUE
Remarque
Le théorème du no free lunch de Wolpert et Macready (1997)
indique qu'aucun algorithme de machine learning ne peut bien
fonctionner pour tous les problèmes d'apprentissage : un algorithme
qui fonctionne bien sur un type particulier de problèmes le
compensera en fonctionnant moins bien sur d'autres types de
problèmes.En d'autres termes, il n'y a pas de baguette magique
qui puisse résoudre tous nos problèmes de machine learning, et il
est donc essentiel, pour un problème donné, de tester plusieurs
possibilités an de sélectionner le modèle optimal. Notons au
passage que plusieurs critères peuvent intervenir dans ce choix :
non seulement celui de la qualité des prédictions, qui nous intéresse
dans ce cette partie du cours, mais aussi celui des ressources de
calcul nécessaires, qui peuvent être un facteur limitant en pratique.
INTRODUCTION
OBJECTIFS
REMARQUE
L'erreur empirique mesurée sur les observations qui ont permis de

construire le modèle est un mauvais estimateur de l'erreur du
modèle sur l'ensemble des don-nées possibles, ou erreur de
généralisation : si le modèle sur-apprend, cette erreur empirique
peut être proche de zéro voire nulle, tandis que l'erreur de
généralisation peut être arbitrairement grande. L'erreur de
généralisation est ainsi un autre nom du risque.

INTRODUCTION
OBJECTIFS
REMARQUE
Jeu de test
Il est donc indispensable d'utiliser pour évaluer un modèle des
données étiquetées qui n'ont pas servi à le construire. La manière la
plus simple d'y parvenir est de mettre de côté une partie des
observations, réservées à l'évaluation du modèle, et d'utiliser
uniquement le reste des données pour le construire.

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE
Stratication

INTRODUCTION
OBJECTIFS
REMARQUE
Leave-one-out

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE
Bootstrap
Une autre façon de ré-échantillonner les données an d'estimer
l'erreur de généralisation est connue sous le nom de bootstrap.

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE
Nous avons parlé de choisir entre K modèles de manière très

générale dans le chapitre précédent. En pratique, ces K modèles
sont souvent obtenus à partir d'un seul et même algorithme
d'apprentissage, dont on fait varier un hyperparamètre.

INTRODUCTION
OBJECTIFS
REMARQUE
Dénition : Hyperparamètre
On appelle hyperparamètre un paramètre de l'algorithme
d'apprentissage (et non pas du modèle) : là où les paramètres d'un
modèle sont déterminés par l'algorithme d'apprentissage, un
hyperparamètre n'entre pas dans le modèle (bien qu'il ait une
inuence sur les valeurs des paramètres de ce modèle). Il peut par
exemple s'agir du nombre de voisins dans l'algorithme des plus
proches voisins, du coecient de régularisation d'une régression
linéaire régularisée, ou du nombre de couches cachées dans un
réseau de neurones. Pour déterminer la valeur optimale d'un ou
plusieurs hyperparamètres, on procède souvent par validation
croisée comme détaillée ci-dessus. Cela nécessite de déterminer une
liste de K valeurs d'hyperparamètres à évaluer. Pour cela, plusieurs
stratégies sont possibles.
INTRODUCTION
OBJECTIFS
REMARQUE
Recherche en grille
On appelle recherche en grille (grid search en anglais) une stratégie
d'optimisation d'hyperparamètres qui consiste à déterminer, pour
chacun des hyperparamètres concernés, une liste de valeurs à tester,
puis à évaluer de manière empirique l'erreur de généralisation de
chacune des combinaisons de valeurs d'hyperparamètres possibles.
Dans le cas où on cherche à optimiser un seul hyperparamètre λ, la
≪ grille ≫ d'hyperparamètres est tout simplement la liste
λ , λ , · · · , λK de valeurs que l'on s'est xée pour λ. Il s'agit alors
1 2
d'évaluer l'erreur de généralisation de K modèles diérents.

Dans le cas où on souhaite optimiser deux hyperparamètres λ et ν ,
on commence par xer une liste λ , λ , · · · , λK de valeurs à tester
1 2
pour λ, puis une liste ν , ν , · · · , νL de valeurs à tester pour ν . On

1 2
obtient ainsi KL paires (λk , νl ) d'hyperparamètres et donc de

modèles à évaluer.
INTRODUCTION
OBJECTIFS
REMARQUE
Remarque
Le coût algorithmique d'une recherche d'hyperparamètres en grille
peut augmenter rapidement : si on utilise une validation croisée à
10 folds pour évaluer chacun des modèles appris par un algorithme
pour lequel on considère 10 valeurs possibles pour chacun des deux
hyperparamètres, on doit donc entraîner et évaluer 1 000
modèles.Cependant, ces 1 000 entraînements et évaluations sont
trivialement parallélisables sur un cluster de calcul.

INTRODUCTION
OBJECTIFS
REMARQUE
Recherche aléatoire
La recherche en grille est de loin la méthode la plus utilisée pour
l'optimisation des hyperparamètres d'algorithmes d'apprentissage
utilisant un ou deux hyperparamètres. Cependant, elle se révèle
inecace dans les cas où le nombre d'hyperparamètres à déterminer
est plus grand, et donc en particulier pour les réseaux de neurones.
En eet, elle est susceptible de tester de nombreuses combinaisons
d'hyperparamètres sensiblement équivalentes les unes aux autres,
tout en ignorant les zones les plus pertinentes de l'espace des
hyperparamètres, et de gâcher ainsi des ressources qui pourraient
être mieux employées. Cette idée, explorée en détail par Bergstra et
Bengio (2012), est illustrée sur la gure suivante

INTRODUCTION
OBJECTIFS
REMARQUE

INTRODUCTION
OBJECTIFS
REMARQUE
Recherche aléatoire
On appelle recherche aléatoire (random search en anglais) une
stratégie d'op-timisation d'hyperparamètres qui consiste à
déterminer, pour chacun des hy-perparamètres concernés, des
fourchettes de valeurs à tester, puis à évaluerde manière empirique
l'erreur de généralisation de K combinaisons de
valeursd'hyperparamètres tirées uniformément dans ces
fourchettes.Un autre avantage de la recherche aléatoire est que la
stratégie peut facilement êtreadaptée à des variations dans les
ressources : si l'on doit interrompre ses calculs pré-maturément,
l'expérience menée consiste quand même en une recherche
aléatoire ; àl'inverse, si plus de ressources sont disponibles, on peut
aisément ajouter des pointsde recherche sans avoir à ajuster une
grille.
INTRODUCTION
OBJECTIFS
REMARQUE
Il existe de nombreuses façons d'évaluer la performance prédictive

d'un modèle d'apprentissage supervisé. Cette section présente les
principaux critères utilisés.

INTRODUCTION
OBJECTIFS
REMARQUE
Matrice de confusion et critères dérivés

Comme nous l'avons vu, le nombre d'erreurs de classication
permet d'évaluer la qualité d'un modèle prédictif. Notons que l'on
préférera généralement décrire le nombre d'erreurs comme une
fraction du nombre d'exemples : un taux d'erreur de 1% est plus
parlant qu'un nombre absolu d'erreurs.Mais toutes les erreurs ne se
valent pas nécessairement. Prenons l'exemple d'un modèle qui
prédise si oui ou non une radiographie présente une tumeur
inquiétante :une fausse alerte, qui sera ensuite inrmée par des
examens complémentaires, est moins problématique que de ne pas
déceler la tumeur et de ne pas traiter la personne concernée. Les
performances d'un modèle de classication, binaire comme
multi-classe, peuvent être résumée dans une matrice de confusion.

INTRODUCTION
OBJECTIFS
REMARQUE
Étant donné un problème de classication, on appelle matrice de

confusion une matrice M contenant autant de lignes que de
colonnes que de classes, et dont l'entrée Mck est le nombre
d'exemples de la classe c pour laquelle l'étiquette k a été
prédite.Dans le cas de la classication binaire, la matrice de
confusion prend la forme suivante :

INTRODUCTION
OBJECTIFS
REMARQUE
Explication des paramètres

On appelle :
vrais positifs (en anglais true positives) les exemples positifs
correctement classiés ;
faux positifs (en anglais false positives) les exemples négatifs
étiquetés positifs par le modèle ;
et réciproquement pour les vrais négatifs (true negatives) et
les faux négatifs ( false negatives).
On note généralement TP le nombre de vrais positifs, FP le
nombre de faux positifs, TN le nombre de vrais négatifs et FN
le nombre de faux négatifs.
Les faux positifs sont aussi appelés fausses alarmes ou erreurs
de type I,par opposition aux erreurs de type II qui sont les faux
négatifs.
INTRODUCTION
OBJECTIFS
REMARQUE
Dénition :Rappel
On appelle rappel (recall en anglais), ou sensibilité (sensitivity en
anglais), ou encore taux de vrais positifs (true positive rate,abrégé
TPR,en anglais),le taux de vrais positifs, c'est-à-dire la proportion
d'exemples positifs correctement identiés comme
TP
tels :Recall = .
TP + FN
Il est cependant très facile d'avoir un bon rappel en prédisant que
tous les exemples sont positifs. Ainsi, ce critère ne peut pas être
utilisé seul. On lui adjoint ainsi souvent la précision.

INTRODUCTION
OBJECTIFS
REMARQUE
Dénition :Précision
On appelle précision,ou valeur positive prédictive (positive
predictive value, PPV)la proportion de prédictions correctes parmi
les prédictions positives :
TP
Precision = .
TP + FP
De même que l'on peut facilement avoir un très bon rappel au
détriment de la précision, il est aisé d'obtenir une bonne précision
(au détriment du rappel) en faisant très peu de prédictions positives
(ce qui réduit le risque qu'elles soient erronées).

INTRODUCTION
OBJECTIFS
REMARQUE
Remargue
L'anglais distingue precision (la précision ci-dessus) et accuracy, qui
est la pro-portion d'exemples correctement étiquetés, soit le
complémentaire à 1 du taux d'erreur, aussi traduit par précision en
français. On utilisera donc ces termes avec précaution.

INTRODUCTION
OBJECTIFS
REMARQUE
Dénition : F-mesure
On appelle F-mesure (F-score ou F1-score en anglais), notée F, la
moyenne harmonique de la précision et du rappel :
Pr cision ∗ Rappel 2TP
F =2 =
Pr cision + Rappel 2TP + FP + FN

INTRODUCTION
OBJECTIFS
REMARQUE
Dénition :Spécicité
On appelle spécicité le taux de vrais négatifs, autrement dit la
proportion d'exemples négatifs correctement identiés comme tels :
TN
Spcificit =
TN + FP
La spécicité est le complémentaire à 1 du taux de faux positifs
(false positive rate,abrégé FPR, en anglais).

INTRODUCTION
OBJECTIFS
REMARQUE
Exemple
Prenons l'exemple d'un test clinique pour illustrer ces diérents
critères. Il ne s'agit pas ici d'un modèle d'apprentissage
automatique, mais d'un frottis de dépistage du cancer du col de
l'utérus : il s'agit d'un examen beaucoup plus simple et moins
invasif qu'un examen histologique, qui doit être interprété par un
expert, et servira de vérité terrain.
Les résultats d'une expérience menée sur 4 000 femmes âgées de 40
ans et plus sont présentés sur le tableau suivant :

INTRODUCTION
OBJECTIFS
REMARQUE
Le rappel est de 95 %, la spécicité de 94,5 %, mais la précision ne

vaut que 47,5 %.En eet, ce test est un bon outil de dépistage : la
probabilité de n'avoir eectivement pas de cancer quand le frottis
est négatif est élevée (3590/3600 ≈ 99,7 %).Cependant, c'est un
mauvais outil diagnostique, au sens où la probabilité de fausse
alarme est très élevée.
INTRODUCTION
OBJECTIFS
REMARQUE
Évaluation de méthodes de classication binaire retournant un score

De nombreux algorithmes de classication ne retournent pas
directement une étiquette de classe, mais utilisent une fonction de
décision qui doit ensuite être seuillée pour devenir une étiquette.
Cette fonction de décision peut être un score arbitraire(par
exemple, la proportion d'exemples positifs parmi les k plus proches
voisins du point à étiqueter) ou la probabilité d'appartenir à la
classe positive (comme c'est par exemple le cas pour la régression
logistique).Plusieurs critères permettent d'évaluer la qualité de la
fonction de décision avant seuillage.

INTRODUCTION
OBJECTIFS
REMARQUE
Dénition : Courbe ROC

On appelle courbe ROC, de l'anglais Receiver-Operator
Characteristic la courbe décrivant l'évolution de la sensibilité (TPR)
en fonction du complémentaire à 1 de la spécicité, parfois appelé
antispécicité (FPR), lorsque le seuil de décision change.Le terme
vient des télécommunications, où ces courbes servent à étudier si
un système arrive à séparer le signal du bruit de fond.On peut
synthétiser une courbe ROC par l'aire sous cette courbe, souvent
abrégée AUROC pour Area Under the ROC.

Chap 2 Apprentissage Supervisé

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap 2 Apprentissage Supervisé

Transféré par

Droits d'auteur :

Formats disponibles

INTRODUCTION

APPRENTISSAGE SUPERVISE: SÉLECTION DE MODÈLE ET

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Concevoir un cadre expérimental dans lequel sélectionner un

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

L'erreur empirique mesurée sur les observations qui ont permis de

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Nous avons parlé de choisir entre K modèles de manière très

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

d'évaluer l'erreur de généralisation de K modèles diérents.

pour λ, puis une liste ν , ν , · · · , νL de valeurs à tester pour ν . On

obtient ainsi KL paires (λk , νl ) d'hyperparamètres et donc de

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Il existe de nombreuses façons d'évaluer la performance prédictive

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Matrice de confusion et critères dérivés

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Étant donné un problème de classication, on appelle matrice de

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Explication des paramètres

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Le rappel est de 95 %, la spécicité de 94,5 %, mais la précision ne

Évaluation de méthodes de classication binaire retournant un score

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Dénition : Courbe ROC

Ghislain PANDRY APPRENTISSAGE SUPERVISE: SÉLECT

Vous aimerez peut-être aussi

d'évaluer l'erreur de généralisation de K modèles diérents.

Étant donné un problème de classication, on appelle matrice de

Le rappel est de 95 %, la spécicité de 94,5 %, mais la précision ne

Évaluation de méthodes de classication binaire retournant un score

Dénition : Courbe ROC