Académique Documents
Professionnel Documents
Culture Documents
(Machine Learning)
Apprentissage supervisé : pour cet apprentissage, nous avons des données en entrée (Features) et
le résultat attendu (Label). Il nous permet de faire des prédictions basées sur un modèle* qui est
obtenu à partir de données d’historique et de l’algorithme choisi.
Régression : « combien ? ».
Apprentissage non-supervisé : avec cet apprentissage, vous avez toujours des features, mais pas
de label, car nous n’essayons pas de prédire quoi que ce soit.
À partir des données historiques que nous avons, nous essayons de voir ce que nous pouvons
apprendre des données, sans oublier de valider les conclusions obtenues avec des experts en la
matière.
Ce type d’apprentissage automatique sert généralement à découvrir des structures et des modèles
dans les données. Il peut également être utilisé pour l’ingénierie des caractéristiques (Feature
engineering) lors du processus de préparation des données pour l’apprentissage supervisé (nous y
reviendrons plus tard).
Apprentissage par renforcement : avec ce type d’apprentissage, vous commencez avec un agent
(algorithme) qui doit choisir parmi une liste d’actions. Ensuite, en fonction de l’action choisie, il recevra
un retour de l’environnement (provenant d’un humain dans certaines situations ou d’un autre
algorithme) : c’est soit une récompense pour un bon choix, soit une pénalité pour une mauvaise
action. L’agent (l’algorithme) apprend quelle stratégie (ou choix d’actions) maximise le cumul de
récompenses.
Ce type d’apprentissage est souvent utilisé dans le cadre de la robotique, de la théorie des jeux et des
véhicules autonomes.
Réconciliation (Data Wrangling) : il s’agit de préparer les données afin de les rendre exploitables
par les algorithmes d’apprentissage automatique.
Nettoyage des données : trouvez les « Null », les valeurs manquantes et les données
dupliquées. Il faut remplacer les « Null » et les valeurs manquantes par d’autres valeurs
(ou les supprimer) et s’assurer de ne pas avoir de doublons.
Décomposition des données : les colonnes de texte contiennent parfois plus d’une
information ; nous devons donc les diviser en autant de colonnes dédiées que
nécessaire. Si certaines colonnes représentent des catégories, convertissez-les en
colonnes de type catégorie.
Mise à l’échelle (Data Scaling) : cela permettra d’obtenir des données à une échelle
commune, si ce n’est déjà le cas. La mise à l’échelle des données ne s’applique pas au
label ou aux colonnes de catégories. Elle est nécessaire lorsqu’il y a une grande
variation dans les plages de features.
Enrichissement des données : parfois, vous devrez enrichir les données existantes par des
données externes afin de donner à l’algorithme plus d’informations avec lesquelles travailler, ce
qui améliore le modèle (par exemple, des données économiques ou météorologiques).
Parfois, vous devrez générer des features supplémentaires à partir de celles qui existent déjà dans
une classification (par exemple, lorsque l’algorithme choisi est incapable de différencier
correctement les classes).
Vous pouvez vous retrouver avec un nombre énorme de colonnes. Dans ce cas, vous devez
choisir les colonnes que vous utiliserez comme features, mais si vous avez des milliers de
colonnes (c’est-à-dire des features potentielles), vous devrez appliquer une réduction
dimensionnelle. Il existe plusieurs techniques pour ce faire, notamment l’analyse en composantes
principales ou ACP (Principal Component Analysis, PCA en anglais). L’ACP est un algorithme
d’apprentissage non-supervisé qui utilise les colonnes existantes pour générer de nouvelles
colonnes, appelées composantes principales, qui peuvent être utilisées ultérieurement par
l’algorithme de classification.
Le choix d’algorithme
À cette étape, on peut commencer à entraîner les algorithmes, mais avant tout :
Utilisez la procédure des hyperparamètres (Grid-Search en Python, par exemple) pour essayer de
nombreuses combinaisons, et trouver celle qui donne le meilleur résultat (n’essayez pas de
combinaisons manuelles).
Dès que vous êtes raisonnablement satisfait d’un modèle, sauvegardez-le même s’il n’est pas
parfait, car vous risquez de ne plus jamais retrouver la combinaison qui vous a permis de l’obtenir.
Continuer les essais après chaque nouveau modèle. Si les résultats ne sont pas satisfaisants,
vous pouvez recommencer :
(*) Modèle : le résultat obtenu en analysant les données avec un algorithme et toute combinaison
donnée de paramètres, en supposant que le modèle est une fonction mathématique y = f(x), où x est
la feature, y est le label et f(x) le modèle.