Fiche récap : Initiez-vous au Machine Learning Data Code Python 🐍
X = matrice des prédicteurs
Définitions Formules 💻 y = array de la variable cible
Répartition train / test
Machine Learning from sklearn.model_selection import Entraîner un modèle de permet de résumer la régression d'une variable cible y par train_test_split prédiction sur des données pour rapport aux N prédicteurs X_train, X_test, y_train, y_test = qu'il puisse extrapoler sur des nouvelles données. train_test_split( X, y, train_size=0.8, random_state=808) Variable cible. Instancier le modèle Variable que le modèle apprend à permet d’évaluer la performance d'un modèle de from sklearn.tree import prédire. régression. DecisionTreeClassifier clf = DecisionTreeClassifier() Approche supervisée / Entraîner le modèle Approche non supervisée Rappel = TP / (TP + FN) On a un exemple des valeurs de permet d’évaluer la performance d'un modèle de clf.fit(X_train, y_train) la variable cible / ou non. classification en minimisant les faux négatifs. Prediction sur test y_pred = clf.predict(X_test) Erreur d'estimation Evaluation sur test Différence entre la valeur prédite Précision = TP / (TP + FP) clf.score(y_test, y_pred) par le modèle et la valeur réelle. permet d’évaluer la performance d'un modèle de Matrice de confusion classification en minimisant les faux positifs. from sklearn.metrics import confusion_matrix Régression linéaire confusion_matrix(y_test, y_test_pred) Modèle simple pour la prédiction de valeurs continues.
Régression logistique Bonnes pratiques
Modèle simple pour la prédiction Erreurs classiques de valeurs catégoriques. Connaître le jeu de données avant d'entraîner un modèle. Arbre de décision Ne pas prendre en compte la reproductibilité des expériences Enchaînement de règles de Nettoyer le dataset des données aberrantes, extrêmes ou en oubliant de fixer le random_state. classification établies manquantes. automatiquement à partir des Optimiser le modèle sur une unique répartition train / test ⇒ variables prédictrices. Adapter les valeurs brutes au modèle : mise à l'échelle, validation croisée. numérisation. Régularisation Multiplier le nombre de variables prédictives en appliquant le Contrainte apporté au modèle Détecter rapidement l'overfit ou le biais du modèle one hot encoding aveuglement (curse of dimension / piège des pour l'empêcher d'overfitter. grandes dimensions). Tracer l'histogramme des probabilités des prédictions dans Bagging le cadre d'une classification binaire. Se satisfaire d'un score excellent qui pourrait être le résultat de Technique d'ensemblage de fuite d'information dans les prédicteurs. plusieurs modèles par la Travailler les prédicteurs (feature engineering) en les moyenne de leurs prédictions. transformant ou en ajoutant de nouveaux, apporte souvent ne pas faire de benchmark avec un modèle simple avant des gains de performances. d'entraîner des modèles plus complexes