Vous êtes sur la page 1sur 10

Machine learning process

Comprendre les données


 Connaitre les données :
 Regardez les statistiques et visualisations récapitulatives
 Les corrélations peuvent indiquer des relations solides
 Visualiser les données :
 Nettoyer les données :
 Traiter la valeur manquante. Les données manquantes affectent certains modèles plus que d'autres. Même
pour les modèles qui gèrent des données manquantes, ils peuvent y être sensibles (les données manquantes
pour certaines variables peuvent entraîner de mauvaises prédictions)
 Les données doivent-elles être agrégées
 Accroitre les données :
 L'ingénierie des fonctionnalités consiste à passer des données brutes à des données prêtes à être modélisées
 Rendre les modèles plus faciles à interpréter (par exemple binning)
 Capturez des relations plus complexes (par exemple NN)
Catégoriser le problème
 Avec l’Input :
 Si vous avez étiqueté des données, il s'agit d'un problème d'apprentissage supervisé.
 Si vous avez des données non étiquetées et que vous souhaitez trouver une structure, il s'agit d'un
problème d'apprentissage non supervisé.
 Si vous voulez optimiser une fonction objective en interagissant avec un environnement, c'est un
problème d'apprentissage par renforcement.
 Avec l’Output :
 Si la sortie de votre modèle est un nombre, c'est un problème de régression.
 Si la sortie de votre modèle est une classe, c'est un problème de classification.
 Si la sortie de votre modèle est un ensemble de groupes d'entrée, c'est un problème de clustering.
Comprendre les contraintes
 Quelle est votre capacité de stockage de données? Selon la capacité de stockage de votre système,
il se peut que vous ne puissiez pas stocker des gigaoctets de modèles de classification / régression ou
des gigaoctets de données à regrouper. C'est le cas, par exemple, pour les systèmes embarqués.
 La prédiction doit-elle être rapide? Dans les applications temps réel, il est évidemment très
important d'avoir une prédiction le plus rapidement possible. Par exemple, en conduite autonome, il
est important que la classification des panneaux de signalisation soit aussi rapide que possible pour
éviter les accidents.
 L'apprentissage doit-il être rapide? Dans certaines circonstances, la formation rapide des modèles
est nécessaire: parfois, vous devez rapidement mettre à jour, à la volée, votre modèle avec un
ensemble de données différent
Trouver les algorithmes adequats
 Les facteurs :
 Si le modèle répond aux objectifs commerciaux
 De combien de pré-traitement le modèle a besoin
 La précision du modèle
 À quel point le modèle est-il explicable?
 La vitesse du modèle: combien de temps faut-il pour construire un modèle et combien de temps le
modèle prend-il pour faire des prédictions.
 L'évolutivité du modèle
Trouver les algorithmes adéquats
 les critères affectant le choix de l'algorithme sont la complexité du modèle :
 Il s'appuie sur plus de fonctionnalités pour apprendre et prévoir (par exemple en utilisant deux
fonctionnalités contre dix fonctionnalités pour prédire une cible)
 Il repose sur une ingénierie des fonctionnalités plus complexe (par exemple, en utilisant des
termes polynomiaux, des interactions ou des composants principaux)
 Il a plus de frais de calcul (par exemple, un seul arbre de décision par rapport à une forêt aléatoire
de 100 arbres).

Vous aimerez peut-être aussi