Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 1

Cheat Sheet Sickit Learn

Apprentissage supervisé

Métriques pour la régression Métriques pour la classification

MSE : Différence quadratique Score R² : Coefficient de détermination Matrice de confusion :


moyenne entre les valeurs estimées
et la valeur vraie. n
i=1 (yi-yi)²
R² = 1 -
n
n
i=1 (yi-y)² Prédictions
1
MSE = (yi-yi)² 0 1
n i=1
model.score(X_test, y_test) VN FP
ConfusionMatrix =
0 VRAI NÉGATIF FAUX POSITIF
metrics.mean_squares_error(y_true, y_pred) FN VP

Réalité
RMSE : Mesure de la dispersion/
1 FAUX NÉGATIF VRAI POSITIF confusion_matrice=metrics.
variabilité de la qualité de la prédiction
confusion_matrix(y_true, y_pred)
MAE : Moyenne de toutes les erreurs
n
absolues. 1
RMSE = (yi-yi)²
n n i=1
1
MAE = yi-yi Metrics.mean_squared_error(y_true, y_pred)
Variables pour évaluer les modèles de Accuracy : La proportion d’observations
n i=1 classification : correctement classifiées.
mae_test =
Vrais Positifs VP : Observation classée
metrics.mean_absolute_error(y_true, y_pred)
VP + VN
positive par le modèle qui est effectivement Accuracy =
positive. n

Validation croisée et grille de recherche Vrais Négatifs VN : Observation classée (n : le nombre d’observations)
négative par le modèle et qui est effective- metrics.recall_score(y_true, y_pred,
pos_label='classe à signaler/
ment négative.
Validation croisée : Découpage du jeu de données en k parties tour à tour chacune des positive')
k parties est utilisée comme jeu de test, et le reste pour l’entraînement.
Faux Positifs FP : Observation classée
positive mais qui est en réalité négative Rappel : La proportion d’observations
- L’argument cv correspond au découpage de la base de données
réellement positives qui ont été
- L’argument scoring : métrique utilisée pour la validation
Faux Négatifs FN : Observation classée correctement classifiées positives par
négative et qui est en réalité négative le modèle
cross_validation=model_selection.cross_val_score
(logistic_regression,X,y,cv=10,scoring='accuracy')
Précision : La proportion de vrais positifs VP
Grille de recherche : parmi toutes les prédictions positives du
Rappel =
VP + FN
modèle
- Permet de tester plusieurs hyper paramètres : les paramètres sont croisés et un
metrics.recall_score(y_true, y_pred,
modèle est créé puis évalué pour chaque combinaison possible par validation croisée pos_label = 'classe à signaler/
- On indique les paramètres à faire varier grâce au dictionnaire VP
Précision = positive')
- On définit notre grille de recherche et on la fit VP + FP
- La méthode .best_params_ permet de retourner les paramètres avec le meilleur score
metrics.precision_score(y_true, y_pred, Classification report : Résumé de la
pos_label='classe à signaler/positive')
précision, du rappel, du score F1 pour
parametres = {'C':[0.1,1,10],'kernel':['rbf','linear','poly'],
'gamma':[0.001, 0.1, 0.5]} chaque classe.
metrics.f1_score(y_true, y_pred, pos_label
#clf notre modèle
F1 score : Quantifie l’équilibre entre ='classe à signaler/positive')
grid_clf=model_selection.GridSearchCV(estimator=clf, param_grid=pa- la précision et le rappel : critère fiable
rametres,scoring='accuracy') pour choisir le modèle le plus adapté à
grille=grid_clf.fit(X_train_scaled,y_train) notre problème.
grid_clf.best_params_
metrics.f1_score(y_true, y_pred, pos_label
='classe à signaler/positive')

Courbe ROC-AUC : Fonctions


roc_curve() qui permet de retourner
un tableau contenant les taux de faux
positifs (antispécificité), un tableau
de taux de vrais positifs (sensiblité)
et un tableau de seuil de classification
allant de 0 à 1
metrics.f1_score(y_true, y_pred, pos_label
='classe à signaler/positive')

Apprentissage non supervisé

Le coefficient de silhouette Le coefficient de Calinski-Harabasz

Coefficient de silhouette d’une observation :


Le coefficient de Calinski-Harabasz
bi - ai
Si = SS B N-k
max(a i ,b i ) S= X
SS W k-1
ai : distance moyenne de l’observation i aux autres observations du cluster
bi : distance minimale de l’observation i aux observations d’un autre cluster k : Nombre de clusters
Pour un cluster, le coefficient silhouette est égal à la moyenne des coeffi- N : Nombre total d’observations (points de
cients des objets du cluster. Il mesure la qualité du clustering. Il est compris données).
entre -1 (pire classification) et 1 (meilleure classification). SSW : Variance globale inter-clusters
from sklearn.metrics import silhouette_score
SSB : variance globale entre les clusters
silhouette_score(df, labels, metrics='sqeuclidean') Cet indice devrait être le plus grand
possible pour le nombre de clusters
optimal.

Vous aimerez peut-être aussi