Vous êtes sur la page 1sur 45

Traitement de données 2

Classement et Régression

Dr N. F. NGOM

Ecole Polytechnique de Thies


GIT-DIC2-2017/2018

5 mai 2022
Traitement de données 2

Plan
Introduction

Classification supervisé

Evaluation du modèle et critères de performance

Régression linéaire simple

Régression logistique

Régression soft-max ou logistique multinominale

Conclusion
Traitement de données 2
Introduction

Classification et régression
Les tâches d’apprentissage supervisé les plus courantes
sont la régression pour prédire des valeurs et la
classification pour prédire des classes.
Détection de spams
I problème de classification : associer un label spam ou non à
un document.
I problème de régression : associer à un nouveau document
une probabilité qu’il soit un spam.
Démarche
1. Construction du modèle à partir de l’ensemble d’apprentissage.
2. Evaluation de la qualité de la qualité et de la précision du
classifieur ou du predicteur.
3. Utilisation du modèle pour classer un nouveau objet ou
effectuer des prédictions.
Traitement de données 2
Introduction

Aprentissage et évaluation
Objectif : trouver la meilleure hypothèse en fonction des
données disponibles.
I minimiser l’erreur de classification (arbres de décision),
I hypothèse la plus probable (classification bayésienne),
I minimiser une erreur quadratique (réseaux de neurones).
Fonction hypothèse : fonction score.
Evaluation du modèle
I Taux d’erreur : pourcentage de tests incorrectement classés
par le modèle.
I Autres critères de performances obtenues avec la matrice
de confusion (taux de vrais positifs, taux faux positifs...),
I Analyse de courbes de performance : evaluation du
comportement du modèle en faisant varier les seuils de
décision.
Traitement de données 2
Classification supervisé

Classification

Un classeur (classifieur) est une procédure qui, à partir d’un


ensemble fini d’observations de la forme (description,
classe), permet de classer de nouvelles données.
Classification non supervisée (clustering, segmentation)
I déterminer les classes, en même temps qu’une fonction de
classification attribuant une classe à un individu.
I exemples
• regrouper des objets similaires sans aucune information a
priori.
• identifier des profils parmi les étudiants d’une université, les
clients d’une entreprise ou les spectateurs d’une chaı̂ne de
télévision.
Traitement de données 2
Classification supervisé

Classification supervisée
Objectifs
I mettre une étiquette ou un label sur une observation.
I trouver une ligne (boundary decision) séparant les classes.
Types de classification
I Classification binaire : deux classes (étiquettes) possibles et
une observation ne peut être affecté qu’à une seule classe.
I Classification multi-classes : plus de deux classes possible
• Classification multinomiale : une observation ne peut être
affecté qu’à une seule classe.
• Classification multiétiquette : une observation peut être
affecté à plusieurs classes.
Classfication supervisée : les données disponibles sont déjà
classées par un superviseur.
I on dispose au départ d’un échantillon dont le classement
est connu.
I Cet échantillon sera utilisé pour l’apprentissage des règles de
classement.
Traitement de données 2
Classification supervisé
Règle de classement

Règles de classement (stratégies d’apprentissage)

Règle majoritaire
I pour toute nouvelle instance, retourner la classe majoritaire,
I retourner la classe k telle que p(k) maximale.
Règle du maximum de vraisemblance
I retourner pour chaque instance x, la classe y pour laquelle x
est la valeur la plus observée,
I à tout objet X, retourner la classe c telle que p(X/c) est
maximale.
Règle de Bayes (meilleure règle de classification)
I à tout objet X, retourner la classe c telle que p(c/X) est
maximale.
Traitement de données 2
Classification supervisé
Règle de classement

Règle de Baye
A tout objet X, retourner la classe c telle que p(c/X) est
maximale.
Théorème de Bayes

p (c/X ) = p (X /c) .p (c) /p (X )

p (c/X ) posterior probability, p (X /c) vraisemblance et p (X )


prior probability.
Problème : calcul de p (X /c)
I X est un vecteur d’attributs X = (x1 , ...., xn ),
I Hypothèse : les valeurs des attributs sont indépendantes
sachant la classe.
I Conséquence :

p (X /c) = p (x1 /c) p (x2 /c) ....p (xn /c)


Traitement de données 2
Classification supervisé
Règle de classement

Exercice : règle de classification


En fonction des trois règles de classification, dire s’il faut ou non
effectuer un contrôle fiscale pour la nouvelle donnée X ?
Traitement de données 2
Classification supervisé
Règle de classement

Exercice : règle de classification (suite)

Deux classes possibles : classe positive (faire le contrôle) et


classe négative (ne pas faire le contrôle).
Objet à classer :
X = (salaire = 35, impot < 6%, etudiant = oui)
Règles de classification
I Vote majoritaire : classe c telle p(c) maximale,
I Maximum de vraisemblance : classe c telle que p(X/c)
maximale,
I Règle de Bayes : classe c telle que p(c/X) maximale.
Quelle est la décision résultant de chacune des règles de
classification ?
Traitement de données 2
Evaluation du modèle et critères de performance
Indicateurs de performances

Mesure de performance

L’exactitude (nombre d’erreurs) n’est pas en général une


mesure de performance de prédilection pour la validation
croisée dans le cas de jeux de données asymétriques dans
lesquels certaines classes sont bien plus fréquentes que
d’autres.
Toutes les erreurs ne se valent pas.
I La non détection de la maladie grave d’un patient est
dramatique, alors que la détection erronée d’une telle maladie
pour un patient sain est moins problématique.
I Pour un cargo, la non détection d’un autre navire par le radar
peut mener à une collision, alors qu’une fausse alerte provoque
seulement un ralentissement temporaire.
Traitement de données 2
Evaluation du modèle et critères de performance
Indicateurs de performances

Matrice de confusion : (représenter les performances


d’un modèle)

Classe absente(-) Classe présente(+)


Classe non détectée(-) True Negatives False Negatives
(Vrai Negatif) (Faux Negatifs)
Classe détectée (+) False positives True positives
(Faux Positifs) (Vrai positifs)

Deux types d’erreurs : erreurs de type I (faux positifs),


erreur de type II (faux négatifs).
Taux d’erreurs : proportion de mal classé E = FN+FP
N
Matrice de confusion avec Python
confusion_matrix ( y_train_5 , y_train_pred )
Un classificateur parfait n’aurait que des vrais positifs et des
vrais négatifs.
Traitement de données 2
Evaluation du modèle et critères de performance
Indicateurs de performances

Matrice de confusion : Indicateurs de performances


Taux de vrais positifs ou sensibilité,rappel (proportion de
positifs que l’on a correctement identifié)
Vrais Positifs TP TP
rappel = = ; Precision =
Total Positifs TP + FN TP + FP
Précision (proportion de prédictions correctes parmi les
points que l’on prédit positifs)
La F-mesure ou F1-score (compromis entre rappel et
précision) : moyenne harmonique
2 TP
F1 = 1 1
=2×
precision + rappel
2TP + FP + FN
Taux de faux négatifs ou spécificité,
Taux de faux positifs (pourcentage d’observations négatives
qui sont incorrectement classées comme positives). Il est égal
à 1-taux de vrai négatifs.
Traitement de données 2
Evaluation du modèle et critères de performance
Caractérisation de performance à l’aide de courbes

Compromis Precision Rappel

Un bon classifieur doit présenter d’une part un rappel élévé


et d’autre part une précision et une spécifité élévée (et un
taux de faux positifs faible).
Compromis précision rappel
I Accroı̂tre le rappel réduit le rappel (et la spécificité) et
inversement.
I Un classificateur à haute précision n’est pas très utile si son
rappel est bas.
Solution : evaluation du comportement du modèle en
faisant varier les seuils de décision.
Traitement de données 2
Evaluation du modèle et critères de performance
Caractérisation de performance à l’aide de courbes

Probabilité d’affectation

La règle de classification (basé sur le maximum de la


probabilité d’appartenance à une classe) d’un individu ω s’écrit

p̂ (ω) ≥ seuil ⇒ ŷ (ω) = + sinon ŷ (ω) = −

Problème : généralement, on choisit seuil=0.5 optimal


pour une situation bien déterminé.
Faire varier le seuil : évaluer plus largement le
comportement du classifieur en le faisant varier et en
calculant pour chaque configuration la matrice de confusion.
I p̂ (ω) (score(ω)) est une probabilité qui indique le degré
d’appartenance aux positifs d’un individu.
I cibles : les individus qui ont été classés positifs par le modèle.
Traitement de données 2
Evaluation du modèle et critères de performance
Caractérisation de performance à l’aide de courbes

Courbes pour caractérisation les performances


Les courbes destinées à caractériser les performances des
classifieurs s’appuient sur les valeurs successifs (seuils,
matrices de confusion) pour traduire leur comportement.
Courbe ROC (Receiver Operating Charactéristic)
I a pour origine le traitement du signal et est motonotone
croissante entre (0,0) et (1,1).
I croise le taux de faux positifs en abcisse et la sensibilité
(rappel, taux de vrais positifs) en ordonnée.
I plus l’aire sous la courbe (area under curve, AUC) est élévée,
meilleur est le modèle : AUC=1 pour un classifieur parfait et
0.5 pour un qui est purement aléatoire.
Courbe Précision Rappel
I oppose le rappel en abcisse et la précision en ordonnée,
I est globalement décroissante mais pas monotone.
Traitement de données 2
Evaluation du modèle et critères de performance
Caractérisation de performance à l’aide de courbes

Comparaison de classifieurs
Si le classifieur attribue en priorité des scores positifs, la
précision est initialement élévée lorsque la cible est restreinte ;
mais en revanche le rappel est mauvais (peu de psositifs).
Si nous augmentons la taille de la cible, la précision se
dégrade, alors le rappel s’améliore.
Comparaison de classifieurs : si la courbe (ROC, Rappel,
precision) du classifieur A est toujours situé au dessus de celle
de B, alors A sera toujours meilleurs quelque soit la
combinaison de coût de mauvais classement utilisé.
Remarque : il faut préférer la courbe PR si la classe
positive est rare ou si vous attachez davantage d’importance
aux faux positifs qu’aux faux négatifs et la courbe ROC dans
le cas contraire.
Traitement de données 2
Régression linéaire simple

Régression linéaire simple

Un modèle linéaire effectue une prédiction en calculant


une somme pondéré des variables d’entrée en y ajoutant
un terme constant.
La prédiction d’un modèle RL est donnée par

ŷ = θ0 + θ1 x1 + ... + θn xn

où
I ŷ est la valeur prédite,
I n est le nombre de variables,
I xi est la valeur de la ieme variable,
I θj est le jieme parametre du modèle (terme constant,
coefficient de ponderation).
Traitement de données 2
Régression linéaire simple

Régression linéaire : forme vectorielle


La forme vectorielle est de la forme
ŷ = hθ (x) = θT .x

I θ (θ0 et les poids θ1 à θn ) est le vecteur des paramètres du


modèle ;
I θT transposé de θ, matrice n × 1 ;
I x, vecteur des valeurs d’une observation contenant les valeurs
x0 = 1 à xn ;
I θT .x produit matriciel (θT .x = θ0 + θ1 x1 + ... + θn xn ) ;
I hθ fonction hypothèse.
Régression multiple : réalisation simultanément de plusieurs
régressions ŷ = X .θ
I ŷ est le vecteur des prédictions ; son ieme élément
correspond à la prédiction du modèle pour la ieme observation.
I chaque ligne de la matrice X est la transposée d’un vecteur de
valeurs.
Traitement de données 2
Régression linéaire simple

Régression univariée

h
Traitement de données 2
Régression linéaire simple
Entraı̂ner un modèle de régression

Entraı̂ner un modèle de régression


Pour définir les paramètres de telle sorte que le modèle
s’ajuste au mieux au jeu de données d’antraı̂nement, une
mesure de performance est utilisée.
Dans la pratique, une mesure de l’erreur commise par le
modèle sur le jeu d’entraı̂nement appelée fonction coût est
utilisée.
La fonction coût la plus courante pour un modèle de
regression linéaire est la racine carrée de l’erreur
quadratique moyenne (Root Squared Error ou RMSE)
définie par
v
u m
u1 X   2
RMSE (X , h) = t h x (i) − y (i)
m
i=1

où h = hθ est la fonction hypothèse.


Traitement de données 2
Régression linéaire simple
Minimisation de la fonction coût par l’équation normale

Minimisation de la fonction coût : équation normale

Une solution analytique de la valeur de θ qui minimise la


fonction coût est donnée par l’équation normale définie par
 −1
θ̂ = X T .X .X T .y

où
I θ̂ est la valeur de θ qui minimise la fonction de coût,
−1
I X T .X est l’inverse de la matrice X T .X ,
I y est le vecteur des valeurs cibles y (1) à y (n) .
Traitement de données 2
Régression linéaire simple
Minimisation de la fonction coût par l’équation normale

Remarque : équation normale


La résolution de l’équation normale prend beaucoup de temps
lorsque le nombre de variables devient grand ( 100000).
L’équation normale calcule l’inverse d’une matrice de taille
(n + 1) × (n + 1) où n est le nombre de variables.
Or la complexité d’un algorithmed’inversion  de matrice de
taille n × n se situe entre O n2,4 et O n3 selon l’algorithme
d’inversion. Autrement dit, si vous doublez le nombre de
variables, le temps de calcul est multiplié par un facteur
compris entre 22.4 et 23 .
Un avantage de cette approche est que cette équation est
linéaire par rapport aux nombres d’observation m du jeu
d’entraı̂nement (O (m)), ce qui lui permet de traiter
efficacement des jeux de données de grande taille, à condition
que ceci puisse tenir en mémoire.
Traitement de données 2
Régression linéaire simple
Minimisation avec descente de gradient

Minimisation avec descente de gradient


La fonction coût MSE appliquée au modèle de regression
linéaire est convexe.
La descente de gradient s’approchera aussi près que l’on veut du
minimum global pour un temps suffisamment long et un taux
d’apprentissage pas trop élevé.
La dérivée partielle de la fonction coût par rapport à θj est
m
∂ 2 X  T (i) 
(i)
MSE (θ) = θ .x − y (i) xj
∂θj m
i=1

Notation : ∇θ MSE (θ) vecteur gradient composé de toutes les


dérivées partielles de la fonction de coût ; X le jeu de données
d’entraı̂nement.
Traitement de données 2
Régression linéaire simple
Minimisation avec descente de gradient

Descente de gradient
Le vecteur gradient est donnée par
 ∂ 
∂θ0 MSE (θ)
 ∂ MSE (θ)
 ∂θ1 

.
 2
∇θ MSE (θ) =   = X T . (X .θ − y )
 
 .  m
 
 . 

∂θn MSE (θ)

Une fois que l’on a le vecteur gradient qui pointe vers le haut,
il suffit d’aller dans la direction opposée pour descendre. Ce qui
revient à soustraire ∇θ MSE (θ) de θ et multiplier le taux
d’apprentissage η par la vecteur gradient qui permet de déterminer
le pas de progression vers le bas
θ − η∇θ MSE (θ)
Traitement de données 2
Régression linéaire simple
Indicateurs de performances

Indicateurs de performance (regression)


Somme de carrés,
Xm m
X
SStot = (yi − ȳ )2 ; SSres = (yi − f (xi ))2
i=1 i=1
SSt ot Somme des carrés total et SSres Somme des carrés
résiduelle
Coefficient de détermination
SSres
R2 = 1 −
SStot
plus R 2 est proche de 1, plus la quallité de l’approximation est
meilleure. Toutefois la valeur augmente en fonction de la taille du
jeu de données.
Autres : Cp Mallow, R 2 ajusté, AIC, BIC ....
Traitement de données 2
Régression linéaire simple
Indicateurs de performances

Courbes d’apprentissage
Les courbes d’apprentissage sont des diagrammes
représentant les résultats obtenus par le modèle sur le jeu
d’entraı̂nement et sur le jeu de validation en fonction de la
taille du jeu d’entraı̂nement.
Pour générer ces graphiques, il suffit d’entraı̂ner le modèle
plusieurs fois sur des sous ensembles de tailles différentes du jeu
d’entraı̂nement.
Traitement de données 2
Régression linéaire simple
Régression polynomiale

Régression polynomiale
Régression polynomiale : lorsque les données ne peuvent se
modéliser par un modèle linéaire (droite), on peut ajouter des
puissances de chacune des variables comme nouvelles variables.

Le modèle polynomiale de haut degré surajuste


considérablement les données d’entraı̂nement, alors que le
modèle linéaire les sousajuste.

Une solution consiste à entraı̂ner plusieurs fois le modèle


avec des degrés polynomiaux différents jusqu’à trouver le degré
qui produit le meilleur modèle, évalué sur un jeu de données de
validation.

Une autre solution consiste à regarder les courbes


d’apprentissage.
Traitement de données 2
Régression linéaire simple
Modèles linéaires régularisés

Modèles linéaires régularisés

Un bon moyen de réduire le surajustement consiste à


régulariser le modèle (lui imposer des contraintes) : moins il a
de degrés de libertés, plus il est difficile de surajuster les données.
Exemples
I Régulariser un modèle polynomial : réduire le nombre de degré
du polynôme.
I Régulariser un modèle linéaire : imposer des contriantes aux
coefficients de pondérations du modèle.

Méthodes de régularisation linéaire : la régression ridge, la


régression lasso et Elasticnet.
Traitement de données 2
Régression linéaire simple
Modèles linéaires régularisés

Régression ridge(régression de crête ou régularisation de


Tikhonov) : version régularisée de la régression linéaire
Pn 2
Un terme de régularisation égal à α i=1 θi est ajoutée à la
fonction coût
n
αX 2
J (θ) = MSE (θ) + θi
2
i=1

I L’ajout du terme de régularisation force l’algorithme


d’apprentissage non seulement à ajuster les données mais
aussi à maintenir les coefficients de pondération du modèle
aussi petit que possible.
I Le terme de régularisation α contrôle la quantité de régularisation
que vous voulez imposer.
Traitement de données 2
Régression linéaire simple
Modèles linéaires régularisés

Régression Ridge : performance

Une fois le modèle entraı̂né, vous pouvez évaluer les performances


du modèle en utilisant une mesure de performance non régularisée.
I la fonction coût utilisée durant l’entraı̂nement est souvent
différent de la mesure de performance utilisée pour tester.
I une bonne fonction de coût pour l’entraı̂nement doit avoir des
dérivées permettant une bonne optimisation,
I la mesure de performance utilisée pour tester doit vérifier si
l’estimation est proche de l’objectif final.
Traitement de données 2
Régression linéaire simple
Modèles linéaires régularisés

La régression Lasso

La régression Least Absolute Shrinkage and Selection


Operator (Lasso) est une version régularisée de la régression
linéaire : elle ajoute un terme de régularisation qui utilise la norme
L1
Xn
J (θ) = MSE (θ) + α |θi |
i=1

Une caractéristique de la régression Lasso est qu’elle tend à


éliminer complètement les poids des variables les moins
importantes.
Traitement de données 2
Régression linéaire simple
Modèles linéaires régularisés

Régularisation elastic net (filet elastique)


Compromis entre ridge et lasso : le terme de régularisation est
un simple mélange des termes de de régualarisation de la régression
lasso et de la régression ridge
n n
X 1−r X 2
J (θ) = MSE (θ) + nα |θi | + α |θi |
2
i=1 i=1
r le ratio de mélange : r=0 régression ridge, r=1 régression lasso.
Remarque
I Si seules quelques variables sont utiles, vous devez préférer une
régression lasso ou elasticnet car elles tendent à annuler les
coefficients de pondération des variables inutiles.
I Arrêt précoce (arrêt précoce) : une autre manière de régulariser
la DG consiste à stopper l’apprentissage dès que l’erreur de
validation atteint un minimum.
Traitement de données 2
Régression logistique

Régression logistique

La régression logistique est utilisée pour estimer la probabilité pour


qu’une observation appartienne à une classe particulière : c’est un
classificateur binaire.
I Si la probabilité estimée est supérieur à un seuil donné, alors le
modèle prédit que l’observation appartient à cette classe (classe
positive, d’étiquette 1),
I Sinon il prédit qu’elle appartient à l’autre classe (classe négative,
d’étiquette 0).
Traitement de données 2
Régression logistique

Modéle de régression logistique


Un modèle de régression logistique calcule une somme
pondérée des caractéristiques d’entrée, mais au lieu de fournir le
résultat directement comme le fait le modèle de régression linéaire,
il fournit la logistique du résultat.

La probabilité estimée par le modèle de régression logistique


est donnée par  
p̂ = hθ (x) = σ θT .x

où la fonction logistique notée σ est une fonction sigmoı̈de (qui


renvoie des valeurs comprises entre 0 et 1) définie par

1
σ (t) =
1 + exp (−t)
Traitement de données 2
Régression logistique
Prédiction

Prédiction
Une fois que le modèle de régression logistique a estimée la
probabilité p̂ = hθ (x) qu’une observation x appartienne à la classe
positive, il peut alors faire aisément sa prédiction ŷ
(
0 si p̂ ≺ 0.5
ŷ =
1 si p̂ ≥ 0.5

(Or comme
σ (t) ≺ 0.5 si t ≺ 0
et
σ (t) ≥ 0.5 si t ≥ 0.5

(
1 si θT .x ≥ 0
p̂ = hθ (x) = σ θT .x alors ŷ =

0 sinon
Traitement de données 2
Régression logistique
Entraı̂nement

Entraı̂nement
L’objectif de l’entraı̂nement consiste à définir le vecteur de
paramètres θ afin que le modèle estime des probababilités
élevés pour des observations positives (y=1) et des
probabilités basses pour des observations négatives (y=0).
La fonction coût suivante traduit cette idée dans le cas d’une
unique observation d’entraı̂nement x
(
−log (p̂) si y = 1
c (θ) =
−log (1 − p̂) si y = 0

Comme −log (t) est proche de 0 lorsque t est proche de 1, alors


c (θ) est proche de 0 lorsque p̂ est proche de 0 pour une
observation négative ou proche de 1 pour une observation
positive.
Traitement de données 2
Régression logistique
Entraı̂nement

Fonction coût
La fonction coût sur l’ensemble du jeu d’entraı̂nement est le coût
moyen sur l’ensemble de ses observations. Elle peut s’écrire sous la
forme d’une simple équation nommée perte logistique (en anglais,
log loss)
m
1 X h (i)     i
J (θ) = − y log p̂ (i) + 1 − y (i) log 1 − p̂ (i)
m
i=1

Il n’existe pas de solutions analytique connue pour calculer la


valeur de θ qui minimise cette fonction de coût. Toutefois,
comme J (θ) est convexe, l’algorithme de descente de gradient
peut aider à trouver un minimum global. La dérivée partielle de
la fonction coût est
m
∂ 1 X   T (i)  
(i)
J (θ) = σ θ .x − y (i) xj
∂θj m
i=1
Traitement de données 2
Régression soft-max ou logistique multinominale

Régression soft-max ou logistique multinominale


Régression softmax ou régression logistique multinomiale : le
modèle de régression logistique peut être généralisé de manière à
prendre en compte plusieurs classes directement, sans avoir à
entraı̂ner plusieurs classificateurs binaires puis à les combiner.

Etant donné une observation x, le modèle de régression softmax


calcule dabord un score sk (x) pour chaque classe k, puis estime la
probabilité de chaque classe en appliquant aux scores la fonctions
softmax ou exponentielle normalisée. La formule permettant de
calculer le score est la même en régression linéaire.

Le score softmax pour la classe k est donnée par


 T
sk (x) = θk .x
Traitement de données 2
Régression soft-max ou logistique multinominale

Régression softmax
Chaque classe possède son propre vecteur de paramètres θk . Tous
les vecteurs (une fois transposés) constituent les lignes de la
matrice de paramètres Θ.
L’estimation de la probabilité p̂k qu’une observation
appartiennent à la classe k peut être fait en transformant les
scores par la fonction softmax : elle calcule l’exponentielle de
chaque score puis les normalise
exp (sk (x))
p̂k = σ (s (x))k = Pk
j=1 exp (sj (x))
où k le nombre de classes ; s (x) un vecteur contenant les
scores de chaque classe pour l’observation x ; σ (s (x))k la
probabilité estimée que l’observation x appartienne à la
classe k compte tenu des scores de chaque classe pour cette
observation.
Traitement de données 2
Régression soft-max ou logistique multinominale
Prédiction

Prédiction
Le classificateur de régression softmax prédit la classe ayant
la plus forte probabilité estimée ie la classe ayant le plus haut
score.
La prédiction du classificateur de régression softmax peut se
faire à l’aide de l’équation suivante
  
T
k
ŷ = argmaxk σ (s (x))k = argmaxk sk (x) = argmaxk θ −x

argmax renvoie la valeur de k qui maximise la probabilité


estimée σ (s (x))k .
Remarque : le classificateur de régression softmax ne prédit
qu’une classe à la fois (ie multi-classes mais non multi-sorties).
C’est pourquoi, il ne doit être utilisé qu’avec des classes
mutuellement exclusives.
Traitement de données 2
Régression soft-max ou logistique multinominale
Entraı̂nement

Entraı̂nement

L’objectif est d’avoir un modèle qui estime une forte


probabilité pour la classe ciblée et par conséquent de faibles
probabilités pour les autres classes.

Minimiser la fonction entropie croisée devrait aboutir à ce


résultat car le modèle est pénalisé lorsqu’il estime une faible
probabilité pour la classe ciblée.

L’entropie croisée est utilisée pour mesurer l’écart entre


l’ensemble des probabilités prédites (une par classe) et
l’ensemble des probabilités cibles (une par classe).
Traitement de données 2
Régression soft-max ou logistique multinominale
Entraı̂nement

Fonction coût
La fonction coût d’entropie croisée est donnée par
m K
1 XX i
yk log p̂ki

J (Θ) = −
m
i=1 k=1
où
I yki est égal à 1 si la classe cible pour la classe cible pour la ieme
observation est k et 0 sinon.
I lorsqu’il n’y a que deux classes, cette fonction de coût est
équivalente à celle de la régression logistique.

Le vecteur gradient par rapport à θk de cette fonction de


coût se définit comme suit
m
1 X i
p̂k − yki x i

∇θ(k) J (Θ) =
m
i=1
Traitement de données 2
Conclusion

Conclusion
Thèorème du No Free Lunch : il n’existe pas de classificateur
universel qui est performant dans toutes les situations, Il n’ya pas
de choix ou d’ajustement des paramètres complètement
automatique.

La frontière en classification et régression est floue : un


problème peut être vu comme une classification ou comme une
régression.
Bon classifieur
I Un bon classifieur doit présenter d’une part un rappel élevé et
d’autre part une précision et une spécificité élevée.
I Dans la pratique, lorsque l’on essaie d’améliorer le rappel, on
dégrade souvent la précision et la spécificité.
Traitement de données 2
Conclusion

Références

M. Crucianu. Introduction à l’apprentissage supervisé : Note de


cours. CNAM, France, 2017.

Aurélien Géron. Hand on machine learning with scikit-learn and


tensorflow : concepts, tools and techniques to build intelligents
systèmes. 2017 O’Reilly. 760p

Vous aimerez peut-être aussi