Académique Documents
Professionnel Documents
Culture Documents
Apprentissage Supervisé
Apprentissage Supervisé
APPRENTISSAGE SUPERVISE
Ghislain PANDRY
Chercheur, Traitement du signal
le jeu d'apprentissage.
Dénition : Une-contre-toutes
Étant donné un problème de classication multi-classe à C classes,
on appelle une-contre-toutes,ou one-versus-all, l'approche qui
consiste à entraîner C classieurs binaires. Le c − ime de ces
classieurs utilise tous les exemples de la classe c comme exemples
positifs, et toutes les autres observations comme exemples négatifs,
pour apprendre une fonction de décision gc . Ainsi, chaque classieur
apprend à distinguer une classe de toutes les autres. L'étiquette de
→
−x est donnée par celle des fonctions de décision qui retourne le
score le plus élevé (ou, si plusieurs d'entre elles retournent le même
score maximal, l'une de celles-ci) : f (→
−x ) ∈ argmaxc= ;···;C gc 1
Dénition : Une-contre-une
Étant donné un problème de classication multi-classe à C classes,
on appelle une-contre-une,ou one-versus-one, l'approche qui
consiste à créer C (C − 1) classieurs binaires séparant chacun une
classe d'une autre, en ignorant tous les autres exemples. Soit gck la
fonction de décision du classieur binaire qui sépare la classe c de
la classe k . L'étiquette deP→
x est déterminée selon :
−
f (→
−
x ) ∈ argmaxc=1;···;C ( k̸=c gc )
REMARQUE
REMARQUE
Remarque
Ainsi, évaluer un algorithme de machine learning sur les données sur
lesquelles il a appris ne nous permet absolument pas de savoir
comment il se comportera sur de nouvelles données, en d'autres
mots, sa capacité de généralisation. C'est un point essentiel.
Dénition : Généralisation
On appelle généralisation la capacité d'un modèle à faire des
prédictions correctes sur de nouvelles données, qui n'ont pas été
utilisées pour le construire.
Sur-apprentissage
L'exemple, certes extrême, que nous avons pris plus haut, illustre
que l'on peut facilement mettre au point une procédure
d'apprentissage qui produise un modèle qui fait de bonnes
prédictions sur les données utilisées pour le construire, mais
généralise mal. Au lieu de modéliser la vraie nature des objets qui
nous intéressent, un tel modèle capture aussi (voire surtout) un
bruit qui n'est pas pertinent pour l'application considérée. En eet,
dans tout problème d'apprentissage automatique, les données sont
inévitablement bruitées.
Dénition : Sur-apprentissage
On dit d'un modèle qui, plutôt que de capturer la nature des objets
à étiqueter,modélise aussi le bruit et ne sera pas en mesure de
généraliser qu'il sur-apprend.En anglais, on parle d'overtting. En
d'autres termes, un modèle qui sur-apprend est un modèle dont le
risque est bien plus élevé que son risque empirique sur le jeu de
données d'apprentissage.Un modèle qui sur-apprend est
généralement un modèle trop complexe, qui colle trop aux
données et capture donc aussi leur bruit.À l'inverse, il est aussi
possible de construire un modèle trop simple, dont les performances
ne soient bonnes ni sur les données utilisées pour le construire, ni
en généralisation.
Dénition : Sous-apprentissage
On dit d'un modèle qui est trop simple pour avoir de bonnes
performances même sur les données utilisées pour le construire qu'il
sous-apprend. En anglais, on parle d'undertting.
Régularisation
Plus un modèle est simple, et moins il a de risques de
sur-apprendre. Pour limiter le risque de sur-apprentissage, il est
donc souhaitable de limiter la complexité d'un modèle. C'est ce que
permet de faire la régularisation, une technique que nous verrons
plus en détail plus tard, et qui consiste à ajouter au terme d'erreur
que l'on cherche à minimiser un terme qui mesure la complexité du
problème (par exemple, dans le cas précédent, le degré du
polynôme ou le nombre de coecients du modèle). Ainsi, un
modèle complexe qui a une erreur empirique faible peut être
défavorisé face à une modèle plus simple, même si celui-ci présente
une erreur empirique plus élevée.Un autre point de vue sur la
régularisation consiste à considérer que l'on va biaiser le modèle
tout en réduisant sa variance, de sorte à réduire son risque.
Ghislain PANDRY APPRENTISSAGE SUPERVISE
I-FORMALISATION D'UN PROBLÈME D'APPRENTISSAGE SUPERVISÉ
ESPACE DES HYPOTHÈSES
MINIMISATION DU RISQUE EMPIRIQUE
FONCTIONS DE COÛT
GÉNÉRALISATION ET SUR-APPRENTISSAGE
A RETENIR
Les trois ingrédients d'un algorithme d'apprentissage supervisé
sont :
l'espace des hypothèses,
la fonction de coût,