Chapitre 2 - Méthodologie PDF

Méthodologie d’un problème de
Machine Learning
Les applications concrètes du Machine Learning sont de plus en plus

nombreuses. Parmi les plus populaires, on trouve par exemple l’analyse
prédictive, le traitement d’images, le traitement de texte (NLP), les systèmes
autonomes, les systèmes conversationnels (dont les chatbots), etc. La liste est
évidemment non exhaustive. Ces usages diffèrent selon les types
d’organisations (Grand groupe, startup, service public, etc.), les domaines
(finance, marketing, RH, etc.), les secteurs et les objectifs.
Mais ils ont tous un point commun : ils partent de la bonne compréhension
du problème ; les données et les algorithmes seront sélectionnés en fonction.
C’est de cette manière, peu importe le domaine, qu’un modèle de Machine
Learning (ML) connaîtra le succès.
1. Compréhension du problème
La première phase de tout projet de Machine Learning consiste à identifier le

problème donné. C’est une évidence, mais répétons-la : vous devez savoir quel
problème vous essayez de résoudre avant de tenter de le résoudre.
- Est-ce un problème d’apprentissage supervisé ?

- Si oui, est-ce une classification ou une régression ?
- Etc ?
2. Objectif mesurable
La définition d’objectifs précis et quantifiables permettra d’avoir un indicateur

mesurable du projet. Des indicateurs naturels du Machine Learning comme
la précision, l’exactitude, le rappel, l’erreur quadratique moyenne, etc, peuvent
être inclus dans les métriques du projet.
Exemple d’objectif : Créer un modèle performant de Machine Learning capable

de prédire si un individu est atteint de la Covid-19.
Dans les problèmes de classification, on rencontre souvent des données ou la

variable cible est déséquilibrée. Dans ces circonstances il nous faut choisir
une mesure de performance autre que l’exactitude (accuracy) par ce qu’elle a
tendance à favoriser la classe majoritaire, en l’occurrence, de bonnes mesures
de performance vont être la précision (precision), le rappel (recall) ou le F1-
score (moyenne harmonique de la précision et du rappel). Ces dernières sont
calculées à partir des éléments d’une matrice de confusion :
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 . 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 2
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 . 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹 − 𝑆𝑐𝑜𝑟𝑒 = ( 1 + 𝛽² )
𝛽² ( 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 )
Rappel : réduit au maximum le taux de Faux Négatifs.
Précision : réduit au maximum le taux de Faux Positifs

Dans notre exemple :
Rappel : Nous éviterons au maximum de laisser des individus atteints de la

Covid-19 se promener dans la nature.
Précision : Nous éviterons au maximum d’envoyer en quarantaine des

individus non atteints par la Covid-19.
3. Compréhension ou Analyse exploratoire des données
Dans cette phase, l’idée est de se mettre à l’aise avec notre base de données,
de comprendre au maximum les différentes variables pour ensuite définir une
bonne stratégie de modélisation.
4. Prétraitement (Preprocessing)
Un modèle de Machine Learning se construit typiquement en apprenant et en

généralisant à partir d’un jeu de données d’entraînement, puis en appliquant
ces enseignements à de nouvelles données pour faire des prévisions.
L’accès aux données ne suffit pas. Elles doivent être nettoyées et de bonne
qualité pour être utiles. Donc dans cette phase, nous allons essayer de
transformer notre base de données pour le mettre dans un format propice au
développement de modèle de Machine Learning.
5. Modélisation
Cette phase nécessite de choisir le bon modèle, de l’entraîner, de régler ses

hyperparamètres, de l’évaluer et tenter de l’améliorer en sélectionnant d’autres
variables, en changeant un tout petit peu ce qu’on a fait dans le prétraitement.
6. Déploiement
Il s’agit de l’étape finale du processus. Elle consiste en une mise en production

pour les utilisateurs finaux des modèles obtenus. Son objectif : mettre la
connaissance obtenue par la modélisation, dans une forme adaptée, et
l’intégrer au processus de prise de décision.
CHECK LIST (Non-Exhaustive)

❖ Analyse Exploratoire des Données
Objectif : comprendre au maximum les données dont on dispose pour définir

une stratégie de modélisation.
▪ Analyse de forme
- Identification de la target
- Vérifier les dimensions du dataset
- Identifier les types de variables
- Identifier les valeurs manquantes
▪ Analyse de fond
- Visualiser la target (Histogramme/Boxplot)
- Compréhension des différentes variables
- Visualiser les relations features-target (Histogramme/Boxplot)
- Identifier les outliers
❖ Prétraitement
Objectif : Transformer le dataset pour le mettre dans un format propice au

Machine Learning.
- Creation du Train/Test set

- Imputation/Suppression des données manquantes
- Encodage
- Suppression des outliers (valeurs abérrantes)
- Feature Selection (selection de variable)
- Feature Engineering (création de variable si nécessaire)
- Feature Scaling (normalisation des variables)
❖ Modélisation
Objectif : Développer un modele de Machine Learning qui répond à l’objectif

final.
- Définir une fonction d’évaluation

- Entrainement de différents modèles
- Optimisation avec GridSearchCV ou RandomizedSearchCV
- Analyse des erreurs et retour au Prétraitement (si nécessaire)

Chapitre 2 - Méthodologie PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 2 - Méthodologie PDF

Transféré par

Droits d'auteur :

Formats disponibles

Méthodologie d’un problème de

Les applications concrètes du Machine Learning sont de plus en plus

La première phase de tout projet de Machine Learning consiste à identifier le

- Est-ce un problème d’apprentissage supervisé ?

La définition d’objectifs précis et quantifiables permettra d’avoir un indicateur

Exemple d’objectif : Créer un modèle performant de Machine Learning capable

Dans les problèmes de classification, on rencontre souvent des données ou la

Rappel : réduit au maximum le taux de Faux Négatifs.

Précision : réduit au maximum le taux de Faux Positifs

Rappel : Nous éviterons au maximum de laisser des individus atteints de la

Précision : Nous éviterons au maximum d’envoyer en quarantaine des

3. Compréhension ou Analyse exploratoire des données

Un modèle de Machine Learning se construit typiquement en apprenant et en

Cette phase nécessite de choisir le bon modèle, de l’entraîner, de régler ses

Il s’agit de l’étape finale du processus. Elle consiste en une mise en production

CHECK LIST (Non-Exhaustive)

Objectif : comprendre au maximum les données dont on dispose pour définir

Objectif : Transformer le dataset pour le mettre dans un format propice au

- Creation du Train/Test set

Objectif : Développer un modele de Machine Learning qui répond à l’objectif

- Définir une fonction d’évaluation

Vous aimerez peut-être aussi