Vous êtes sur la page 1sur 1

Fiche récap : Initiez-vous au Machine Learning Data Code Python 🐍

X = matrice des prédicteurs


Définitions Formules 💻 y = array de la variable cible

Répartition train / test


Machine Learning from sklearn.model_selection import
Entraîner un modèle de permet de résumer la régression d'une variable cible y par train_test_split
prédiction sur des données pour rapport aux N prédicteurs X_train, X_test, y_train, y_test =
qu'il puisse extrapoler sur des
nouvelles données.
train_test_split( X, y, train_size=0.8,
random_state=808)
Variable cible. Instancier le modèle
Variable que le modèle apprend à permet d’évaluer la performance d'un modèle de from sklearn.tree import
prédire. régression. DecisionTreeClassifier
clf = DecisionTreeClassifier()
Approche supervisée / Entraîner le modèle
Approche non supervisée Rappel = TP / (TP + FN)
On a un exemple des valeurs de permet d’évaluer la performance d'un modèle de
clf.fit(X_train, y_train)
la variable cible / ou non. classification en minimisant les faux négatifs.
Prediction sur test
y_pred = clf.predict(X_test)
Erreur d'estimation Evaluation sur test
Différence entre la valeur prédite Précision = TP / (TP + FP) clf.score(y_test, y_pred)
par le modèle et la valeur réelle. permet d’évaluer la performance d'un modèle de Matrice de confusion
classification en minimisant les faux positifs. from sklearn.metrics import confusion_matrix
Régression linéaire
confusion_matrix(y_test, y_test_pred)
Modèle simple pour la prédiction
de valeurs continues.

Régression logistique Bonnes pratiques


Modèle simple pour la prédiction Erreurs classiques
de valeurs catégoriques.
Connaître le jeu de données avant d'entraîner un modèle.
Arbre de décision Ne pas prendre en compte la reproductibilité des expériences
Enchaînement de règles de Nettoyer le dataset des données aberrantes, extrêmes ou en oubliant de fixer le random_state.
classification établies manquantes.
automatiquement à partir des Optimiser le modèle sur une unique répartition train / test ⇒
variables prédictrices. Adapter les valeurs brutes au modèle : mise à l'échelle, validation croisée.
numérisation.
Régularisation Multiplier le nombre de variables prédictives en appliquant le
Contrainte apporté au modèle Détecter rapidement l'overfit ou le biais du modèle one hot encoding aveuglement (curse of dimension / piège des
pour l'empêcher d'overfitter. grandes dimensions).
Tracer l'histogramme des probabilités des prédictions dans
Bagging le cadre d'une classification binaire. Se satisfaire d'un score excellent qui pourrait être le résultat de
Technique d'ensemblage de fuite d'information dans les prédicteurs.
plusieurs modèles par la Travailler les prédicteurs (feature engineering) en les
moyenne de leurs prédictions. transformant ou en ajoutant de nouveaux, apporte souvent ne pas faire de benchmark avec un modèle simple avant
des gains de performances. d'entraîner des modèles plus complexes

Vous aimerez peut-être aussi