Chapitre 2

Traitement de données 2
Classement et Régression
Dr N. F. NGOM
Ecole Polytechnique de Thies

GIT-DIC2-2017/2018
5 mai 2022
Plan
Introduction
Classification supervisé
Evaluation du modèle et critères de performance
Régression linéaire simple
Régression logistique
Régression soft-max ou logistique multinominale
Conclusion
Introduction
Classification et régression
Les tâches d’apprentissage supervisé les plus courantes
sont la régression pour prédire des valeurs et la
classification pour prédire des classes.
Détection de spams
I problème de classification : associer un label spam ou non à
un document.
I problème de régression : associer à un nouveau document
une probabilité qu’il soit un spam.
Démarche
1. Construction du modèle à partir de l’ensemble d’apprentissage.
2. Evaluation de la qualité de la qualité et de la précision du
classifieur ou du predicteur.
3. Utilisation du modèle pour classer un nouveau objet ou
effectuer des prédictions.
Introduction
Aprentissage et évaluation
Objectif : trouver la meilleure hypothèse en fonction des
données disponibles.
I minimiser l’erreur de classification (arbres de décision),
I hypothèse la plus probable (classification bayésienne),
I minimiser une erreur quadratique (réseaux de neurones).
Fonction hypothèse : fonction score.
Evaluation du modèle
I Taux d’erreur : pourcentage de tests incorrectement classés
par le modèle.
I Autres critères de performances obtenues avec la matrice
de confusion (taux de vrais positifs, taux faux positifs...),
I Analyse de courbes de performance : evaluation du
comportement du modèle en faisant varier les seuils de
décision.
Classification
Un classeur (classifieur) est une procédure qui, à partir d’un

ensemble fini d’observations de la forme (description,
classe), permet de classer de nouvelles données.
Classification non supervisée (clustering, segmentation)
I déterminer les classes, en même temps qu’une fonction de
classification attribuant une classe à un individu.
I exemples
• regrouper des objets similaires sans aucune information a
priori.
• identifier des profils parmi les étudiants d’une université, les
clients d’une entreprise ou les spectateurs d’une chaı̂ne de
télévision.
Classification supervisée
Objectifs
I mettre une étiquette ou un label sur une observation.
I trouver une ligne (boundary decision) séparant les classes.
Types de classification
I Classification binaire : deux classes (étiquettes) possibles et
une observation ne peut être affecté qu’à une seule classe.
I Classification multi-classes : plus de deux classes possible
• Classification multinomiale : une observation ne peut être
affecté qu’à une seule classe.
• Classification multiétiquette : une observation peut être
affecté à plusieurs classes.
Classfication supervisée : les données disponibles sont déjà
classées par un superviseur.
I on dispose au départ d’un échantillon dont le classement
est connu.
I Cet échantillon sera utilisé pour l’apprentissage des règles de
classement.
Règle de classement
Règles de classement (stratégies d’apprentissage)
Règle majoritaire
I pour toute nouvelle instance, retourner la classe majoritaire,
I retourner la classe k telle que p(k) maximale.
Règle du maximum de vraisemblance
I retourner pour chaque instance x, la classe y pour laquelle x
est la valeur la plus observée,
I à tout objet X, retourner la classe c telle que p(X/c) est
maximale.
Règle de Bayes (meilleure règle de classification)
I à tout objet X, retourner la classe c telle que p(c/X) est
maximale.
Règle de Baye
A tout objet X, retourner la classe c telle que p(c/X) est
maximale.
Théorème de Bayes
p (c/X ) = p (X /c) .p (c) /p (X )
p (c/X ) posterior probability, p (X /c) vraisemblance et p (X )

prior probability.
Problème : calcul de p (X /c)
I X est un vecteur d’attributs X = (x1 , ...., xn ),
I Hypothèse : les valeurs des attributs sont indépendantes
sachant la classe.
I Conséquence :
p (X /c) = p (x1 /c) p (x2 /c) ....p (xn /c)

Exercice : règle de classification

En fonction des trois règles de classification, dire s’il faut ou non
effectuer un contrôle fiscale pour la nouvelle donnée X ?
Exercice : règle de classification (suite)
Deux classes possibles : classe positive (faire le contrôle) et

classe négative (ne pas faire le contrôle).
Objet à classer :
X = (salaire = 35, impot < 6%, etudiant = oui)
Règles de classification
I Vote majoritaire : classe c telle p(c) maximale,
I Maximum de vraisemblance : classe c telle que p(X/c)
maximale,
I Règle de Bayes : classe c telle que p(c/X) maximale.
Quelle est la décision résultant de chacune des règles de
classification ?
Indicateurs de performances
Mesure de performance
L’exactitude (nombre d’erreurs) n’est pas en général une

mesure de performance de prédilection pour la validation
croisée dans le cas de jeux de données asymétriques dans
lesquels certaines classes sont bien plus fréquentes que
d’autres.
Toutes les erreurs ne se valent pas.
I La non détection de la maladie grave d’un patient est
dramatique, alors que la détection erronée d’une telle maladie
pour un patient sain est moins problématique.
I Pour un cargo, la non détection d’un autre navire par le radar
peut mener à une collision, alors qu’une fausse alerte provoque
seulement un ralentissement temporaire.
Matrice de confusion : (représenter les performances

d’un modèle)
Classe absente(-) Classe présente(+)

Classe non détectée(-) True Negatives False Negatives
(Vrai Negatif) (Faux Negatifs)
Classe détectée (+) False positives True positives
(Faux Positifs) (Vrai positifs)
Deux types d’erreurs : erreurs de type I (faux positifs),

erreur de type II (faux négatifs).
Taux d’erreurs : proportion de mal classé E = FN+FP
N
Matrice de confusion avec Python
confusion_matrix ( y_train_5 , y_train_pred )
Un classificateur parfait n’aurait que des vrais positifs et des
vrais négatifs.
Matrice de confusion : Indicateurs de performances

Taux de vrais positifs ou sensibilité,rappel (proportion de
positifs que l’on a correctement identifié)
Vrais Positifs TP TP
rappel = = ; Precision =
Total Positifs TP + FN TP + FP
Précision (proportion de prédictions correctes parmi les
points que l’on prédit positifs)
La F-mesure ou F1-score (compromis entre rappel et
précision) : moyenne harmonique
2 TP
F1 = 1 1
=2×
precision + rappel
2TP + FP + FN
Taux de faux négatifs ou spécificité,
Taux de faux positifs (pourcentage d’observations négatives
qui sont incorrectement classées comme positives). Il est égal
à 1-taux de vrai négatifs.
Caractérisation de performance à l’aide de courbes
Compromis Precision Rappel
Un bon classifieur doit présenter d’une part un rappel élévé

et d’autre part une précision et une spécifité élévée (et un
taux de faux positifs faible).
Compromis précision rappel
I Accroı̂tre le rappel réduit le rappel (et la spécificité) et
inversement.
I Un classificateur à haute précision n’est pas très utile si son
rappel est bas.
Solution : evaluation du comportement du modèle en
faisant varier les seuils de décision.
Probabilité d’affectation
La règle de classification (basé sur le maximum de la

probabilité d’appartenance à une classe) d’un individu ω s’écrit
p̂ (ω) ≥ seuil ⇒ ŷ (ω) = + sinon ŷ (ω) = −
Problème : généralement, on choisit seuil=0.5 optimal

pour une situation bien déterminé.
Faire varier le seuil : évaluer plus largement le
comportement du classifieur en le faisant varier et en
calculant pour chaque configuration la matrice de confusion.
I p̂ (ω) (score(ω)) est une probabilité qui indique le degré
d’appartenance aux positifs d’un individu.
I cibles : les individus qui ont été classés positifs par le modèle.
Courbes pour caractérisation les performances

Les courbes destinées à caractériser les performances des
classifieurs s’appuient sur les valeurs successifs (seuils,
matrices de confusion) pour traduire leur comportement.
Courbe ROC (Receiver Operating Charactéristic)
I a pour origine le traitement du signal et est motonotone
croissante entre (0,0) et (1,1).
I croise le taux de faux positifs en abcisse et la sensibilité
(rappel, taux de vrais positifs) en ordonnée.
I plus l’aire sous la courbe (area under curve, AUC) est élévée,
meilleur est le modèle : AUC=1 pour un classifieur parfait et
0.5 pour un qui est purement aléatoire.
Courbe Précision Rappel
I oppose le rappel en abcisse et la précision en ordonnée,
I est globalement décroissante mais pas monotone.
Comparaison de classifieurs
Si le classifieur attribue en priorité des scores positifs, la
précision est initialement élévée lorsque la cible est restreinte ;
mais en revanche le rappel est mauvais (peu de psositifs).
Si nous augmentons la taille de la cible, la précision se
dégrade, alors le rappel s’améliore.
Comparaison de classifieurs : si la courbe (ROC, Rappel,
precision) du classifieur A est toujours situé au dessus de celle
de B, alors A sera toujours meilleurs quelque soit la
combinaison de coût de mauvais classement utilisé.
Remarque : il faut préférer la courbe PR si la classe
positive est rare ou si vous attachez davantage d’importance
aux faux positifs qu’aux faux négatifs et la courbe ROC dans
le cas contraire.
Un modèle linéaire effectue une prédiction en calculant

une somme pondéré des variables d’entrée en y ajoutant
un terme constant.
La prédiction d’un modèle RL est donnée par
ŷ = θ0 + θ1 x1 + ... + θn xn
où
I ŷ est la valeur prédite,
I n est le nombre de variables,
I xi est la valeur de la ieme variable,
I θj est le jieme parametre du modèle (terme constant,
coefficient de ponderation).
Régression linéaire : forme vectorielle

La forme vectorielle est de la forme
ŷ = hθ (x) = θT .x
I θ (θ0 et les poids θ1 à θn ) est le vecteur des paramètres du

modèle ;
I θT transposé de θ, matrice n × 1 ;
I x, vecteur des valeurs d’une observation contenant les valeurs
x0 = 1 à xn ;
I θT .x produit matriciel (θT .x = θ0 + θ1 x1 + ... + θn xn ) ;
I hθ fonction hypothèse.
Régression multiple : réalisation simultanément de plusieurs
régressions ŷ = X .θ
I ŷ est le vecteur des prédictions ; son ieme élément
correspond à la prédiction du modèle pour la ieme observation.
I chaque ligne de la matrice X est la transposée d’un vecteur de
valeurs.
Régression univariée
h
Entraı̂ner un modèle de régression
Entraı̂ner un modèle de régression

Pour définir les paramètres de telle sorte que le modèle
s’ajuste au mieux au jeu de données d’antraı̂nement, une
mesure de performance est utilisée.
Dans la pratique, une mesure de l’erreur commise par le
modèle sur le jeu d’entraı̂nement appelée fonction coût est
utilisée.
La fonction coût la plus courante pour un modèle de
regression linéaire est la racine carrée de l’erreur
quadratique moyenne (Root Squared Error ou RMSE)
définie par
v
u m
u1 X 2
RMSE (X , h) = t h x (i) − y (i)
m
i=1
où h = hθ est la fonction hypothèse.

Minimisation de la fonction coût par l’équation normale
Minimisation de la fonction coût : équation normale
Une solution analytique de la valeur de θ qui minimise la

fonction coût est donnée par l’équation normale définie par
−1
θ̂ = X T .X .X T .y
où
I θ̂ est la valeur de θ qui minimise la fonction de coût,
−1
I X T .X est l’inverse de la matrice X T .X ,
I y est le vecteur des valeurs cibles y (1) à y (n) .
Minimisation de la fonction coût par l’équation normale
Remarque : équation normale

La résolution de l’équation normale prend beaucoup de temps
lorsque le nombre de variables devient grand ( 100000).
L’équation normale calcule l’inverse d’une matrice de taille
(n + 1) × (n + 1) où n est le nombre de variables.
Or la complexité d’un algorithmed’inversion de matrice de
taille n × n se situe entre O n2,4 et O n3 selon l’algorithme
d’inversion. Autrement dit, si vous doublez le nombre de
variables, le temps de calcul est multiplié par un facteur
compris entre 22.4 et 23 .
Un avantage de cette approche est que cette équation est
linéaire par rapport aux nombres d’observation m du jeu
d’entraı̂nement (O (m)), ce qui lui permet de traiter
efficacement des jeux de données de grande taille, à condition
que ceci puisse tenir en mémoire.
Minimisation avec descente de gradient

La fonction coût MSE appliquée au modèle de regression
linéaire est convexe.
La descente de gradient s’approchera aussi près que l’on veut du
minimum global pour un temps suffisamment long et un taux
d’apprentissage pas trop élevé.
La dérivée partielle de la fonction coût par rapport à θj est
m
∂ 2 X T (i)
(i)
MSE (θ) = θ .x − y (i) xj
∂θj m
i=1
Notation : ∇θ MSE (θ) vecteur gradient composé de toutes les

dérivées partielles de la fonction de coût ; X le jeu de données
d’entraı̂nement.
Descente de gradient
Le vecteur gradient est donnée par
 ∂ 
∂θ0 MSE (θ)
 ∂ MSE (θ)
 ∂θ1 

.
 2
∇θ MSE (θ) =   = X T . (X .θ − y )
 
 .  m
 
 . 
∂
∂θn MSE (θ)
Une fois que l’on a le vecteur gradient qui pointe vers le haut,
il suffit d’aller dans la direction opposée pour descendre. Ce qui
revient à soustraire ∇θ MSE (θ) de θ et multiplier le taux
d’apprentissage η par la vecteur gradient qui permet de déterminer
le pas de progression vers le bas
θ − η∇θ MSE (θ)
Indicateurs de performance (regression)

Somme de carrés,
Xm m
X
SStot = (yi − ȳ )2 ; SSres = (yi − f (xi ))2
i=1 i=1
SSt ot Somme des carrés total et SSres Somme des carrés
résiduelle
Coefficient de détermination
SSres
R2 = 1 −
SStot
plus R 2 est proche de 1, plus la quallité de l’approximation est
meilleure. Toutefois la valeur augmente en fonction de la taille du
jeu de données.
Autres : Cp Mallow, R 2 ajusté, AIC, BIC ....
Courbes d’apprentissage
Les courbes d’apprentissage sont des diagrammes
représentant les résultats obtenus par le modèle sur le jeu
d’entraı̂nement et sur le jeu de validation en fonction de la
taille du jeu d’entraı̂nement.
Pour générer ces graphiques, il suffit d’entraı̂ner le modèle
plusieurs fois sur des sous ensembles de tailles différentes du jeu
d’entraı̂nement.
Régression polynomiale
Régression polynomiale
Régression polynomiale : lorsque les données ne peuvent se
modéliser par un modèle linéaire (droite), on peut ajouter des
puissances de chacune des variables comme nouvelles variables.
Le modèle polynomiale de haut degré surajuste

considérablement les données d’entraı̂nement, alors que le
modèle linéaire les sousajuste.
Une solution consiste à entraı̂ner plusieurs fois le modèle

avec des degrés polynomiaux différents jusqu’à trouver le degré
qui produit le meilleur modèle, évalué sur un jeu de données de
validation.
Une autre solution consiste à regarder les courbes

d’apprentissage.
Modèles linéaires régularisés
Un bon moyen de réduire le surajustement consiste à

régulariser le modèle (lui imposer des contraintes) : moins il a
de degrés de libertés, plus il est difficile de surajuster les données.
Exemples
I Régulariser un modèle polynomial : réduire le nombre de degré
du polynôme.
I Régulariser un modèle linéaire : imposer des contriantes aux
coefficients de pondérations du modèle.
Méthodes de régularisation linéaire : la régression ridge, la

régression lasso et Elasticnet.
Régression ridge(régression de crête ou régularisation de

Tikhonov) : version régularisée de la régression linéaire
Pn 2
Un terme de régularisation égal à α i=1 θi est ajoutée à la
fonction coût
n
αX 2
J (θ) = MSE (θ) + θi
2
i=1
I L’ajout du terme de régularisation force l’algorithme

d’apprentissage non seulement à ajuster les données mais
aussi à maintenir les coefficients de pondération du modèle
aussi petit que possible.
I Le terme de régularisation α contrôle la quantité de régularisation
que vous voulez imposer.
Régression Ridge : performance
Une fois le modèle entraı̂né, vous pouvez évaluer les performances

du modèle en utilisant une mesure de performance non régularisée.
I la fonction coût utilisée durant l’entraı̂nement est souvent
différent de la mesure de performance utilisée pour tester.
I une bonne fonction de coût pour l’entraı̂nement doit avoir des
dérivées permettant une bonne optimisation,
I la mesure de performance utilisée pour tester doit vérifier si
l’estimation est proche de l’objectif final.
La régression Lasso
La régression Least Absolute Shrinkage and Selection

Operator (Lasso) est une version régularisée de la régression
linéaire : elle ajoute un terme de régularisation qui utilise la norme
L1
Xn
J (θ) = MSE (θ) + α |θi |
i=1
Une caractéristique de la régression Lasso est qu’elle tend à

éliminer complètement les poids des variables les moins
importantes.
Régularisation elastic net (filet elastique)

Compromis entre ridge et lasso : le terme de régularisation est
un simple mélange des termes de de régualarisation de la régression
lasso et de la régression ridge
n n
X 1−r X 2
J (θ) = MSE (θ) + nα |θi | + α |θi |
2
i=1 i=1
r le ratio de mélange : r=0 régression ridge, r=1 régression lasso.
Remarque
I Si seules quelques variables sont utiles, vous devez préférer une
régression lasso ou elasticnet car elles tendent à annuler les
coefficients de pondération des variables inutiles.
I Arrêt précoce (arrêt précoce) : une autre manière de régulariser
la DG consiste à stopper l’apprentissage dès que l’erreur de
validation atteint un minimum.
La régression logistique est utilisée pour estimer la probabilité pour

qu’une observation appartienne à une classe particulière : c’est un
classificateur binaire.
I Si la probabilité estimée est supérieur à un seuil donné, alors le
modèle prédit que l’observation appartient à cette classe (classe
positive, d’étiquette 1),
I Sinon il prédit qu’elle appartient à l’autre classe (classe négative,
d’étiquette 0).
Modéle de régression logistique

Un modèle de régression logistique calcule une somme
pondérée des caractéristiques d’entrée, mais au lieu de fournir le
résultat directement comme le fait le modèle de régression linéaire,
il fournit la logistique du résultat.
La probabilité estimée par le modèle de régression logistique

est donnée par
p̂ = hθ (x) = σ θT .x
où la fonction logistique notée σ est une fonction sigmoı̈de (qui

renvoie des valeurs comprises entre 0 et 1) définie par
1
σ (t) =
1 + exp (−t)
Prédiction
Prédiction
Une fois que le modèle de régression logistique a estimée la
probabilité p̂ = hθ (x) qu’une observation x appartienne à la classe
positive, il peut alors faire aisément sa prédiction ŷ
(
0 si p̂ ≺ 0.5
ŷ =
1 si p̂ ≥ 0.5
(Or comme
σ (t) ≺ 0.5 si t ≺ 0
et
σ (t) ≥ 0.5 si t ≥ 0.5
(
1 si θT .x ≥ 0
p̂ = hθ (x) = σ θT .x alors ŷ =

0 sinon
Entraı̂nement
Entraı̂nement
L’objectif de l’entraı̂nement consiste à définir le vecteur de
paramètres θ afin que le modèle estime des probababilités
élevés pour des observations positives (y=1) et des
probabilités basses pour des observations négatives (y=0).
La fonction coût suivante traduit cette idée dans le cas d’une
unique observation d’entraı̂nement x
(
−log (p̂) si y = 1
c (θ) =
−log (1 − p̂) si y = 0
Comme −log (t) est proche de 0 lorsque t est proche de 1, alors

c (θ) est proche de 0 lorsque p̂ est proche de 0 pour une
observation négative ou proche de 1 pour une observation
positive.
Entraı̂nement
Fonction coût
La fonction coût sur l’ensemble du jeu d’entraı̂nement est le coût
moyen sur l’ensemble de ses observations. Elle peut s’écrire sous la
forme d’une simple équation nommée perte logistique (en anglais,
log loss)
m
1 X h (i) i
J (θ) = − y log p̂ (i) + 1 − y (i) log 1 − p̂ (i)
m
i=1
Il n’existe pas de solutions analytique connue pour calculer la

valeur de θ qui minimise cette fonction de coût. Toutefois,
comme J (θ) est convexe, l’algorithme de descente de gradient
peut aider à trouver un minimum global. La dérivée partielle de
la fonction coût est
m
∂ 1 X T (i)
(i)
J (θ) = σ θ .x − y (i) xj
∂θj m
i=1

Régression softmax ou régression logistique multinomiale : le
modèle de régression logistique peut être généralisé de manière à
prendre en compte plusieurs classes directement, sans avoir à
entraı̂ner plusieurs classificateurs binaires puis à les combiner.
Etant donné une observation x, le modèle de régression softmax

calcule dabord un score sk (x) pour chaque classe k, puis estime la
probabilité de chaque classe en appliquant aux scores la fonctions
softmax ou exponentielle normalisée. La formule permettant de
calculer le score est la même en régression linéaire.
Le score softmax pour la classe k est donnée par

T
sk (x) = θk .x
Régression softmax
Chaque classe possède son propre vecteur de paramètres θk . Tous
les vecteurs (une fois transposés) constituent les lignes de la
matrice de paramètres Θ.
L’estimation de la probabilité p̂k qu’une observation
appartiennent à la classe k peut être fait en transformant les
scores par la fonction softmax : elle calcule l’exponentielle de
chaque score puis les normalise
exp (sk (x))
p̂k = σ (s (x))k = Pk
j=1 exp (sj (x))
où k le nombre de classes ; s (x) un vecteur contenant les
scores de chaque classe pour l’observation x ; σ (s (x))k la
probabilité estimée que l’observation x appartienne à la
classe k compte tenu des scores de chaque classe pour cette
observation.
Prédiction
Prédiction
Le classificateur de régression softmax prédit la classe ayant
la plus forte probabilité estimée ie la classe ayant le plus haut
score.
La prédiction du classificateur de régression softmax peut se
faire à l’aide de l’équation suivante

T
k
ŷ = argmaxk σ (s (x))k = argmaxk sk (x) = argmaxk θ −x
argmax renvoie la valeur de k qui maximise la probabilité

estimée σ (s (x))k .
Remarque : le classificateur de régression softmax ne prédit
qu’une classe à la fois (ie multi-classes mais non multi-sorties).
C’est pourquoi, il ne doit être utilisé qu’avec des classes
mutuellement exclusives.
Entraı̂nement
Entraı̂nement
L’objectif est d’avoir un modèle qui estime une forte

probabilité pour la classe ciblée et par conséquent de faibles
probabilités pour les autres classes.
Minimiser la fonction entropie croisée devrait aboutir à ce

résultat car le modèle est pénalisé lorsqu’il estime une faible
probabilité pour la classe ciblée.
L’entropie croisée est utilisée pour mesurer l’écart entre

l’ensemble des probabilités prédites (une par classe) et
l’ensemble des probabilités cibles (une par classe).
Entraı̂nement
Fonction coût
La fonction coût d’entropie croisée est donnée par
m K
1 XX i
yk log p̂ki

J (Θ) = −
m
i=1 k=1
où
I yki est égal à 1 si la classe cible pour la classe cible pour la ieme
observation est k et 0 sinon.
I lorsqu’il n’y a que deux classes, cette fonction de coût est
équivalente à celle de la régression logistique.
Le vecteur gradient par rapport à θk de cette fonction de

coût se définit comme suit
m
1 X i
p̂k − yki x i

∇θ(k) J (Θ) =
m
i=1
Conclusion
Conclusion
Thèorème du No Free Lunch : il n’existe pas de classificateur
universel qui est performant dans toutes les situations, Il n’ya pas
de choix ou d’ajustement des paramètres complètement
automatique.
La frontière en classification et régression est floue : un

problème peut être vu comme une classification ou comme une
régression.
Bon classifieur
I Un bon classifieur doit présenter d’une part un rappel élevé et
d’autre part une précision et une spécificité élevée.
I Dans la pratique, lorsque l’on essaie d’améliorer le rappel, on
dégrade souvent la précision et la spécificité.
Conclusion
Références
M. Crucianu. Introduction à l’apprentissage supervisé : Note de

cours. CNAM, France, 2017.
Aurélien Géron. Hand on machine learning with scikit-learn and

tensorflow : concepts, tools and techniques to build intelligents
systèmes. 2017 O’Reilly. 760p

Chapitre 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 2

Transféré par

Droits d'auteur :

Formats disponibles

Traitement de données 2

Ecole Polytechnique de Thies

Evaluation du modèle et critères de performance

Régression linéaire simple

Régression soft-max ou logistique multinominale

Un classeur (classifieur) est une procédure qui, à partir d’un

Règles de classement (stratégies d’apprentissage)

p (c/X ) = p (X /c) .p (c) /p (X )

p (c/X ) posterior probability, p (X /c) vraisemblance et p (X )

p (X /c) = p (x1 /c) p (x2 /c) ....p (xn /c)

Exercice : règle de classification

Exercice : règle de classification (suite)

Deux classes possibles : classe positive (faire le contrôle) et

L’exactitude (nombre d’erreurs) n’est pas en général une

Matrice de confusion : (représenter les performances

Classe absente(-) Classe présente(+)

Deux types d’erreurs : erreurs de type I (faux positifs),

Matrice de confusion : Indicateurs de performances

Compromis Precision Rappel

Un bon classifieur doit présenter d’une part un rappel élévé

La règle de classification (basé sur le maximum de la

p̂ (ω) ≥ seuil ⇒ ŷ (ω) = + sinon ŷ (ω) = −

Problème : généralement, on choisit seuil=0.5 optimal

Courbes pour caractérisation les performances

Régression linéaire simple

Un modèle linéaire effectue une prédiction en calculant

Régression linéaire : forme vectorielle

I θ (θ0 et les poids θ1 à θn ) est le vecteur des paramètres du

Entraı̂ner un modèle de régression

où h = hθ est la fonction hypothèse.

Minimisation de la fonction coût : équation normale

Une solution analytique de la valeur de θ qui minimise la

Remarque : équation normale

Minimisation avec descente de gradient

Notation : ∇θ MSE (θ) vecteur gradient composé de toutes les

Indicateurs de performance (regression)

Le modèle polynomiale de haut degré surajuste

Une solution consiste à entraı̂ner plusieurs fois le modèle

Une autre solution consiste à regarder les courbes

Modèles linéaires régularisés

Un bon moyen de réduire le surajustement consiste à

Méthodes de régularisation linéaire : la régression ridge, la

Régression ridge(régression de crête ou régularisation de

I L’ajout du terme de régularisation force l’algorithme

Régression Ridge : performance

Une fois le modèle entraı̂né, vous pouvez évaluer les performances

La régression Least Absolute Shrinkage and Selection

Une caractéristique de la régression Lasso est qu’elle tend à

Régularisation elastic net (filet elastique)

La régression logistique est utilisée pour estimer la probabilité pour

Modéle de régression logistique

La probabilité estimée par le modèle de régression logistique

où la fonction logistique notée σ est une fonction sigmoı̈de (qui

Comme −log (t) est proche de 0 lorsque t est proche de 1, alors

Il n’existe pas de solutions analytique connue pour calculer la

Régression soft-max ou logistique multinominale

Etant donné une observation x, le modèle de régression softmax

Le score softmax pour la classe k est donnée par

argmax renvoie la valeur de k qui maximise la probabilité

L’objectif est d’avoir un modèle qui estime une forte

Minimiser la fonction entropie croisée devrait aboutir à ce

L’entropie croisée est utilisée pour mesurer l’écart entre

Le vecteur gradient par rapport à θk de cette fonction de