Vous êtes sur la page 1sur 16

Evaluation de la Performance d’un Modèle de ML

Il existe de nombreux critères d'évaluation pour comparer les performances des


algorithmes d'apprentissage automatique. La catégorisation utilisée peut être subdivisée
en fonction de l'algorithme d'apprentissage automatique.

Evaluer un modèle d'apprentissage supervisé


La matrice de confusion est un tableau montrant les performances d'un modèle
d'apprentissage automatique basé sur des étiquettes réelles et prédites. Supposons,
par exemple, que l'échantillon de 100 données soit disponible. Ces données sont
modélisées individuellement et chaque classe reçoit une sortie. La classe prédite par le
modèle et la classe de données réelle peuvent être affichées dans un tableau. Par
exemple, le tableau 7.7 est une matrice de confusion pour les données contenant n
étiquettes ou classes. Les lignes représentent la classe exacte des échantillons et les
colonnes représentent la classe prédite du modèle.
La matrice de confusion
Matrice de confusion pour plusieurs classes

Cette matrice montre quels exemples sont classés correctement et


lesquels sont classés de manière incorrecte. Les échantillons dans
la diagonale principale de cette matrice sont en fait des échantillons
qui ont la même classe vraie et prédite et sont appelés précision.
Matrice de confusion pour la classe binaire.

Le tableau 7.8 décrit un modèle qui a deux sorties, une positive et une négative. Ces
deux sorties représentent en fait la classe de chaque instance. Puisqu'il n'y a que deux
sorties, le modèle de cette matrice de confusion est appelé un classificateur binaire.
Il y a quatre états dans cette matrice: Vrai positif (TP), Vrai négatif (TN) , Faux positif
et Faux négatifs (FN).
 Vrais positifs(TP) : les valeurs réelles et prédites sont identiques et positives. La
classe réelle est oui et le modèle le prédit oui.
Vrai négatif (TN) : les valeurs réelles et prédites sont identiques et négatives. La
classe réelle est non et le modèle le prédit non.
 Faux positifs (FP): les valeurs réelles et prédites sont différentes. La classe réelle
est non, mais le modèle prédit oui.
 Faux négatif (FN) : les valeurs réelles et prédites sont différentes. La classe réelle
est oui, mais le modèle prédit non.
Ces quatre états (TP, FP, FN et TN) peuvent être définis comme des
critères séparés tels que le taux de faux positifs (False Positive
rate), le taux de vrais positifs (True Positive Rate), etc., ou une
combinaison de critères tels que accuracy, la précision, le recall, le
F1-score, et ainsi de suite. Dans ce qui suit, les deux catégories
seront présentées. Les critères de taux de faux positifs et de taux de
vrais positifs sont les suivants :

L'exactitude et l'erreur sont des critères importants dans l'évaluation


des catégories binaires. Le critère de précision, qui représente une
partie des données correctement classées, est défini comme suit :
Evaluation de la Performance d’un Modèle de ML
En général, l’exactitude(accuracy) signifie dans quelle mesure le
modèle prédit correctement la sortie. En regardant de près, on peut
immédiatement voir si le modèle est correctement entraîné et
comment il fonctionne en général, mais ce critère ne fournit pas
d'informations détaillées sur les performances du modèle. Une erreur
tout aussi expressive fait partie des données qui sont mal classées.
De plus, d'autres critères tels que la précision et le recall peuvent
également être définis. Les définitions de ces deux critères sont les
suivantes :
En fait, lorsque le modèle prédit un résultat positif, dans quelle mesure
le résultat est-il vrai ? Lorsque les faux positifs sont élevés, cette valeur
sera un bon critère. Supposons que nous ayons un modèle pour le
diagnostic du cancer et que ce modèle ait une faible précision. Le
résultat est que ce modèle diagnostique par erreur le cancer de
nombreuses personnes. Le résultat sera beaucoup de stress, beaucoup de
tests et un coût énorme pour le patient.
A l'inverse, lorsque la valeur des faux négatifs est élevée, le critère
recall est un bon critère. Supposons que nous ayons un modèle pour le
diagnostic d'une maladie mortelle d'Ebola. Que se passerait-il si ce
modèle avait un faible rappel ? Ce modèle considère de nombreuses
personnes infectées par cette maladie mortelle en bonne santé et c'est un
désastre.
Afin de combiner les deux critères de précision et de recall, le
critère Fβ est l'un des critères les plus couramment utilisés, et est
obtenu avec précision en attribuant le poids β. Dans la plupart des
cas, la valeur de β = 1 est acceptée comme valeur acceptable,
appelée critère F1. Le critère F1 est au mieux un et au pire zéro.

Le dernier critère le plus adapté pour évaluer les algorithmes


d'apprentissage est l'utilisation de diagrammes ROC. Ce graphique
est très utile pour les domaines qui ont une distribution par lots
inégale ou un coût d'erreur de classification inégal. Le diagramme
ROC montre le taux de vrais positifs par rapport au taux de faux
positifs lorsque le seuil de prédiction est modifié à la limite de ses
valeurs possibles.
La courbe ROC (Receiving Operator Characteristic)

la courbe ROC (Receiving Operator Characteristic) est communément


utilisée pour mesurer la performance d’un classifieur.
Pour tracer une courbe ROC, seuls le taux de vrais positifs (TPR) et le
taux de faux positifs (FPR) sont nécessaires (en tant que fonctions de
certains paramètres de classificateur). Le TPR définit le nombre de
résultats positifs corrects obtenus parmi tous les échantillons positifs
disponibles pendant le test. Le FPR, quant à lui, définit le nombre de
résultats positifs incorrects qui se produisent parmi tous les
échantillons négatifs disponibles pendant le test.
La courbe ROC (Receiving Operator Characteristic)
Un espace ROC est défini par FPR et TPR comme des axes x et y,
respectivement, qui représentent les compromis relatifs entre les vrais
positifs (avantages) et les faux positifs (coûts). Étant donné que la TPR
est équivalente à la sensibilité et que la FPR est égale à 1 − spécificité, le
graphique ROC est parfois appelé le tracé sensibilité vs (1 − spécificité).
Chaque résultat de prédiction ou instance d'une matrice de confusion
représente un point dans l'espace ROC.
La meilleure méthode de prédiction possible donnerait un point dans le
coin supérieur gauche ou la coordonnée (0,1) de l'espace ROC,
représentant une sensibilité de 100 % (pas de faux négatifs) et une
spécificité de 100 % (pas de faux positifs). Le point (0,1) est aussi
La courbe ROC (Receiving Operator Characteristic)

Nous pouvons déterminer si notre courbe ROC est bonne ou non en


examinant l'AUC (Area Under the Curve) et d'autres paramètres égalemen
appelés métriques de confusion.
Validation croisée à K-blocs
(K-Fold Cross-Validation)
Pour éviter le surajustement d'un ensemble de données donné, une
pratique courante consiste à diviser de manière aléatoire l'ensemble
de données entier en un ensemble d'apprentissage et un ensemble
de test. Une fois que le modèle est développé sur l'ensemble
d'apprentissage, le modèle est évalué par rapport à l'ensemble de test.
Lorsqu'il n'y a pas suffisamment de données pour créer des ensembles
d'apprentissage et de test, une technique de validation croisée à K-
blocs peut être utile pour comparer un modèle ajusté à un autre.
Validation croisée à K-blocs (N-Fold Cross-Validation)
Dans la validation croisée à K-blocs, les événements suivants se
produisent :
 L'ensemble de données entier est divisé de manière aléatoire en K
ensembles de données (ou K blocs) de taille approximativement égale.
 Un modèle est entraîné par rapport à K – 1 de ces ensembles de
données et testé par rapport à l'ensemble de données restant. Une
mesure de l'erreur du modèle est obtenue.
 Ce processus est répété un total de K fois sur les différentes
combinaisons de K ensembles de données pris K – 1 à la fois.
 Les K erreurs de modèle observées sont moyennées sur les K blocs.
L'erreur moyenne d'un modèle est comparée à l'erreur moyenne d'un
autre modèle. Cette technique peut également aider à déterminer si
l'ajout de variables à un modèle existant est bénéfique ou peut-être sur-
ajustement des données.
Validation croisée à K-blocs (K-Fold Cross-Validation)
Validation croisée à K-blocs (K-Fold Cross-Validation)
Evaluation du modèle d’Apprentissage non supervisé
Comme mentionné, la partie supervisée est beaucoup plus facile à évaluer
car les catégories sont spécifiques et nous pouvons effectuer l'évaluation
selon que la catégorie spécifiée est correcte pour les données de test. Mais
l'évaluation n'est pas facile pour ceux qui ne sont pas supervisés. Parce que
l'algorithme effectue la classification en fonction des paramètres qu'il
sélectionne. Pour les êtres humains, les mêmes données peuvent être
classées différemment. L'efficacité peut être définie comme un nombre.
Par exemple, nous pouvons déterminer combien nous voulons avoir pour
un ensemble de données donné d'une classe, ou combien nous voulons
faire pour l'ensemble de données des éléments de l'ensemble de données.
De cette façon, nous pouvons créer une relation récursive entre le modèle
d'apprentissage et le modèle d'évaluation pour obtenir la valeur du nombre
donné à notre valeur souhaitée.

Vous aimerez peut-être aussi