Académique Documents
Professionnel Documents
Culture Documents
Je suis sûr que vous avez terminé la tâche en un rien de temps. La plupart
des gens le font. Faisons maintenant un ordinateur faire la même chose. Si nous
utilisons une technique de modélisation traditionnelle, nous devrons trouver une
règle ou un algorithme permettant de distinguer les nombres écrits. Pourquoi
n'appliquons-nous pas les règles que vous venez d'utiliser dans votre cerveau pour
identifier les nombres? Assez facile, n'est-ce pas ? Eh bien pas vraiment. En fait,
c'est un problème très difficile. Il fut un temps où les chercheurs pensaient que
c'était un jeu d'enfant pour les ordinateurs, car c'est très facile, même pour un
humain, et les ordinateurs sont capables de calculer beaucoup plus rapidement que
les humains. Eh bien, cela ne leur a pas pris beaucoup de temps jusqu'à ce qu'ils
réalisent leur erreur de jugement !
Figure 1-5. Il faut faire la différence entre les données d’apprentissage (Training Data) et les
données réelles appelées Input Data en anglais (ou de terrain, ou pratiques)
La spécificité des données de formation (appelées aussi données
d’apprentissage) et des données d'entrée est le défi structurel auquel le Machine
Learning doit faire face. Il n’est pas exagéré de dire que chaque problème de
Machine Learning provient de cela. Par exemple, qu’en est-il de l’utilisation des
données de formation, composées de notes manuscrites d’une seule personne ? Le
modèle reconnaîtra-t-il l'écriture d’une autre personne ? La possibilité sera très
faible.
Aucune approche d'apprentissage automatique ne peut atteindre l'objectif
souhaité avec des données de formation erronées. La même idéologie s'applique
à l'apprentissage profond. Par conséquent, il est essentiel que les approches
d’apprentissage automatique obtiennent des données de formation (données
d’apprentissage) non biaisées qui reflètent correctement les caractéristiques des
données de terrain. Le processus utilisé pour assurer la cohérence des
performances du modèle, quelles que soient les données d'apprentissage ou les
données d'entrée, est appelé généralisation. Le succès de l’apprentissage
automatique dépend en grande partie de la qualité de la généralisation.
4. Surinterprétation (Overfiting)
La surinterprétation est l’une des principales causes de détérioration du
processus de généralisation. Oui, un autre nouveau terme. Cependant, il n'y a pas
besoin d'être surpris ! Ce concept est facile à retenir. Ce sera beaucoup plus facile
à comprendre avec une étude de cas qu'avec de simples phrases. Considérons un
problème de classification illustré à la figure 1-6. Nous devons diviser les
données de position (ou de coordonnées) en deux groupes. Les points sur la figure
sont les données d'apprentissage. L'objectif est de déterminer une courbe qui
définit la frontière des deux groupes en utilisant ces données d'apprentissage
illustrées sur figure 1-6.
Figure 1-6. Déterminer une courbe pour diviser deux groupes de données
Bien que nous voyions des valeurs aberrantes s'écartant de l'aire adéquate, la
courbe illustrée à la figure 1-7 semble constituer une frontière raisonnable entre
les groupes.
Figure 1-9. Une nouvelle entrée est placée dans les données prédédentes
Ce modèle (la courbe), sans erreur, identifie les nouvelles données en tant
que classe Δ. Cependant, la tendance générale des données de formation nous
indique que cela est douteux. Le regrouper en classe semble plus raisonnable.
Qu'est-il arrivé au modèle qui a produit une précision de 100% pour les données
d’entraînement ?
Examinons de nouveau les points de données. Certaines valeurs aberrantes
pénètrent dans la zone de l'autre groupe et perturbent la limite. En d'autres termes,
ces données contiennent beaucoup de bruit. Le problème est qu'il n'y a aucun
moyen pour le Machine Learning de faire la distinction. Lorsque le Machine
Learning prend en compte toutes les données, même le bruit, il finit par produire
un modèle incorrect (une courbe dans ce cas). Comme vous le remarquerez peut-
être ici, les données d'entraînement ne sont pas parfaites et peuvent contenir
différentes quantités de bruit. Si vous pensez que chaque élément des données de
formation (autrement dit d’apprentissage) est correct et s’adapte parfaitement au
modèle, vous obtiendrez un modèle moins généralisable. C'est ce qu'on appelle
l'overfitting.
Certes, en raison de sa nature, le Machine Learning devrait tout mettre en
œuvre pour obtenir un excellent modèle à partir des données de formation.
Cependant, un modèle de travail des données d'apprentissage peut ne pas refléter
correctement les données de terrain. Cela ne signifie pas que nous devrions rendre
le modèle moins précis que les données de formation. Cela va saper la stratégie
fondamentale de Machine Learning.