Académique Documents
Professionnel Documents
Culture Documents
Scikit Learn 2
Scikit Learn 2
Apprentissage supervisé
Réalité
RMSE : Mesure de la dispersion/
1 FAUX NÉGATIF VRAI POSITIF confusion_matrice=metrics.
variabilité de la qualité de la prédiction
confusion_matrix(y_true, y_pred)
MAE : Moyenne de toutes les erreurs
n
absolues. 1
RMSE = (yi-yi)²
n n i=1
1
MAE = yi-yi Metrics.mean_squared_error(y_true, y_pred)
Variables pour évaluer les modèles de Accuracy : La proportion d’observations
n i=1 classification : correctement classifiées.
mae_test =
Vrais Positifs VP : Observation classée
metrics.mean_absolute_error(y_true, y_pred)
VP + VN
positive par le modèle qui est effectivement Accuracy =
positive. n
Validation croisée et grille de recherche Vrais Négatifs VN : Observation classée (n : le nombre d’observations)
négative par le modèle et qui est effective- metrics.recall_score(y_true, y_pred,
pos_label='classe à signaler/
ment négative.
Validation croisée : Découpage du jeu de données en k parties tour à tour chacune des positive')
k parties est utilisée comme jeu de test, et le reste pour l’entraînement.
Faux Positifs FP : Observation classée
positive mais qui est en réalité négative Rappel : La proportion d’observations
- L’argument cv correspond au découpage de la base de données
réellement positives qui ont été
- L’argument scoring : métrique utilisée pour la validation
Faux Négatifs FN : Observation classée correctement classifiées positives par
négative et qui est en réalité négative le modèle
cross_validation=model_selection.cross_val_score
(logistic_regression,X,y,cv=10,scoring='accuracy')
Précision : La proportion de vrais positifs VP
Grille de recherche : parmi toutes les prédictions positives du
Rappel =
VP + FN
modèle
- Permet de tester plusieurs hyper paramètres : les paramètres sont croisés et un
metrics.recall_score(y_true, y_pred,
modèle est créé puis évalué pour chaque combinaison possible par validation croisée pos_label = 'classe à signaler/
- On indique les paramètres à faire varier grâce au dictionnaire VP
Précision = positive')
- On définit notre grille de recherche et on la fit VP + FP
- La méthode .best_params_ permet de retourner les paramètres avec le meilleur score
metrics.precision_score(y_true, y_pred, Classification report : Résumé de la
pos_label='classe à signaler/positive')
précision, du rappel, du score F1 pour
parametres = {'C':[0.1,1,10],'kernel':['rbf','linear','poly'],
'gamma':[0.001, 0.1, 0.5]} chaque classe.
metrics.f1_score(y_true, y_pred, pos_label
#clf notre modèle
F1 score : Quantifie l’équilibre entre ='classe à signaler/positive')
grid_clf=model_selection.GridSearchCV(estimator=clf, param_grid=pa- la précision et le rappel : critère fiable
rametres,scoring='accuracy') pour choisir le modèle le plus adapté à
grille=grid_clf.fit(X_train_scaled,y_train) notre problème.
grid_clf.best_params_
metrics.f1_score(y_true, y_pred, pos_label
='classe à signaler/positive')