Vous êtes sur la page 1sur 5

Méthodologie d’un problème de

Machine Learning

Les applications concrètes du Machine Learning sont de plus en plus


nombreuses. Parmi les plus populaires, on trouve par exemple l’analyse
prédictive, le traitement d’images, le traitement de texte (NLP), les systèmes
autonomes, les systèmes conversationnels (dont les chatbots), etc. La liste est
évidemment non exhaustive. Ces usages diffèrent selon les types
d’organisations (Grand groupe, startup, service public, etc.), les domaines
(finance, marketing, RH, etc.), les secteurs et les objectifs.

Mais ils ont tous un point commun : ils partent de la bonne compréhension
du problème ; les données et les algorithmes seront sélectionnés en fonction.
C’est de cette manière, peu importe le domaine, qu’un modèle de Machine
Learning (ML) connaîtra le succès.

1. Compréhension du problème

La première phase de tout projet de Machine Learning consiste à identifier le


problème donné. C’est une évidence, mais répétons-la : vous devez savoir quel
problème vous essayez de résoudre avant de tenter de le résoudre.

- Est-ce un problème d’apprentissage supervisé ?


- Si oui, est-ce une classification ou une régression ?
- Etc ?

2. Objectif mesurable

La définition d’objectifs précis et quantifiables permettra d’avoir un indicateur


mesurable du projet. Des indicateurs naturels du Machine Learning comme
la précision, l’exactitude, le rappel, l’erreur quadratique moyenne, etc, peuvent
être inclus dans les métriques du projet.

Exemple d’objectif : Créer un modèle performant de Machine Learning capable


de prédire si un individu est atteint de la Covid-19.

Dans les problèmes de classification, on rencontre souvent des données ou la


variable cible est déséquilibrée. Dans ces circonstances il nous faut choisir
une mesure de performance autre que l’exactitude (accuracy) par ce qu’elle a
tendance à favoriser la classe majoritaire, en l’occurrence, de bonnes mesures
de performance vont être la précision (precision), le rappel (recall) ou le F1-
score (moyenne harmonique de la précision et du rappel). Ces dernières sont
calculées à partir des éléments d’une matrice de confusion :

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 . 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 2
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 . 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹 − 𝑆𝑐𝑜𝑟𝑒 = ( 1 + 𝛽² )
𝛽² ( 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 )

Rappel : réduit au maximum le taux de Faux Négatifs.

Précision : réduit au maximum le taux de Faux Positifs


Dans notre exemple :

Rappel : Nous éviterons au maximum de laisser des individus atteints de la


Covid-19 se promener dans la nature.

Précision : Nous éviterons au maximum d’envoyer en quarantaine des


individus non atteints par la Covid-19.

3. Compréhension ou Analyse exploratoire des données

Dans cette phase, l’idée est de se mettre à l’aise avec notre base de données,
de comprendre au maximum les différentes variables pour ensuite définir une
bonne stratégie de modélisation.

4. Prétraitement (Preprocessing)

Un modèle de Machine Learning se construit typiquement en apprenant et en


généralisant à partir d’un jeu de données d’entraînement, puis en appliquant
ces enseignements à de nouvelles données pour faire des prévisions.

L’accès aux données ne suffit pas. Elles doivent être nettoyées et de bonne
qualité pour être utiles. Donc dans cette phase, nous allons essayer de
transformer notre base de données pour le mettre dans un format propice au
développement de modèle de Machine Learning.

5. Modélisation

Cette phase nécessite de choisir le bon modèle, de l’entraîner, de régler ses


hyperparamètres, de l’évaluer et tenter de l’améliorer en sélectionnant d’autres
variables, en changeant un tout petit peu ce qu’on a fait dans le prétraitement.

6. Déploiement

Il s’agit de l’étape finale du processus. Elle consiste en une mise en production


pour les utilisateurs finaux des modèles obtenus. Son objectif : mettre la
connaissance obtenue par la modélisation, dans une forme adaptée, et
l’intégrer au processus de prise de décision.

CHECK LIST (Non-Exhaustive)


❖ Analyse Exploratoire des Données

Objectif : comprendre au maximum les données dont on dispose pour définir


une stratégie de modélisation.

▪ Analyse de forme
- Identification de la target
- Vérifier les dimensions du dataset
- Identifier les types de variables
- Identifier les valeurs manquantes
▪ Analyse de fond
- Visualiser la target (Histogramme/Boxplot)
- Compréhension des différentes variables
- Visualiser les relations features-target (Histogramme/Boxplot)
- Identifier les outliers

❖ Prétraitement

Objectif : Transformer le dataset pour le mettre dans un format propice au


Machine Learning.

- Creation du Train/Test set


- Imputation/Suppression des données manquantes
- Encodage
- Suppression des outliers (valeurs abérrantes)
- Feature Selection (selection de variable)
- Feature Engineering (création de variable si nécessaire)
- Feature Scaling (normalisation des variables)
❖ Modélisation

Objectif : Développer un modele de Machine Learning qui répond à l’objectif


final.

- Définir une fonction d’évaluation


- Entrainement de différents modèles
- Optimisation avec GridSearchCV ou RandomizedSearchCV
- Analyse des erreurs et retour au Prétraitement (si nécessaire)

Vous aimerez peut-être aussi