Académique Documents
Professionnel Documents
Culture Documents
Classement et Régression
Dr N. F. NGOM
5 mai 2022
Traitement de données 2
Plan
Introduction
Classification supervisé
Régression logistique
Conclusion
Traitement de données 2
Introduction
Classification et régression
Les tâches d’apprentissage supervisé les plus courantes
sont la régression pour prédire des valeurs et la
classification pour prédire des classes.
Détection de spams
I problème de classification : associer un label spam ou non à
un document.
I problème de régression : associer à un nouveau document
une probabilité qu’il soit un spam.
Démarche
1. Construction du modèle à partir de l’ensemble d’apprentissage.
2. Evaluation de la qualité de la qualité et de la précision du
classifieur ou du predicteur.
3. Utilisation du modèle pour classer un nouveau objet ou
effectuer des prédictions.
Traitement de données 2
Introduction
Aprentissage et évaluation
Objectif : trouver la meilleure hypothèse en fonction des
données disponibles.
I minimiser l’erreur de classification (arbres de décision),
I hypothèse la plus probable (classification bayésienne),
I minimiser une erreur quadratique (réseaux de neurones).
Fonction hypothèse : fonction score.
Evaluation du modèle
I Taux d’erreur : pourcentage de tests incorrectement classés
par le modèle.
I Autres critères de performances obtenues avec la matrice
de confusion (taux de vrais positifs, taux faux positifs...),
I Analyse de courbes de performance : evaluation du
comportement du modèle en faisant varier les seuils de
décision.
Traitement de données 2
Classification supervisé
Classification
Classification supervisée
Objectifs
I mettre une étiquette ou un label sur une observation.
I trouver une ligne (boundary decision) séparant les classes.
Types de classification
I Classification binaire : deux classes (étiquettes) possibles et
une observation ne peut être affecté qu’à une seule classe.
I Classification multi-classes : plus de deux classes possible
• Classification multinomiale : une observation ne peut être
affecté qu’à une seule classe.
• Classification multiétiquette : une observation peut être
affecté à plusieurs classes.
Classfication supervisée : les données disponibles sont déjà
classées par un superviseur.
I on dispose au départ d’un échantillon dont le classement
est connu.
I Cet échantillon sera utilisé pour l’apprentissage des règles de
classement.
Traitement de données 2
Classification supervisé
Règle de classement
Règle majoritaire
I pour toute nouvelle instance, retourner la classe majoritaire,
I retourner la classe k telle que p(k) maximale.
Règle du maximum de vraisemblance
I retourner pour chaque instance x, la classe y pour laquelle x
est la valeur la plus observée,
I à tout objet X, retourner la classe c telle que p(X/c) est
maximale.
Règle de Bayes (meilleure règle de classification)
I à tout objet X, retourner la classe c telle que p(c/X) est
maximale.
Traitement de données 2
Classification supervisé
Règle de classement
Règle de Baye
A tout objet X, retourner la classe c telle que p(c/X) est
maximale.
Théorème de Bayes
Mesure de performance
Probabilité d’affectation
Comparaison de classifieurs
Si le classifieur attribue en priorité des scores positifs, la
précision est initialement élévée lorsque la cible est restreinte ;
mais en revanche le rappel est mauvais (peu de psositifs).
Si nous augmentons la taille de la cible, la précision se
dégrade, alors le rappel s’améliore.
Comparaison de classifieurs : si la courbe (ROC, Rappel,
precision) du classifieur A est toujours situé au dessus de celle
de B, alors A sera toujours meilleurs quelque soit la
combinaison de coût de mauvais classement utilisé.
Remarque : il faut préférer la courbe PR si la classe
positive est rare ou si vous attachez davantage d’importance
aux faux positifs qu’aux faux négatifs et la courbe ROC dans
le cas contraire.
Traitement de données 2
Régression linéaire simple
ŷ = θ0 + θ1 x1 + ... + θn xn
où
I ŷ est la valeur prédite,
I n est le nombre de variables,
I xi est la valeur de la ieme variable,
I θj est le jieme parametre du modèle (terme constant,
coefficient de ponderation).
Traitement de données 2
Régression linéaire simple
Régression univariée
h
Traitement de données 2
Régression linéaire simple
Entraı̂ner un modèle de régression
où
I θ̂ est la valeur de θ qui minimise la fonction de coût,
−1
I X T .X est l’inverse de la matrice X T .X ,
I y est le vecteur des valeurs cibles y (1) à y (n) .
Traitement de données 2
Régression linéaire simple
Minimisation de la fonction coût par l’équation normale
Descente de gradient
Le vecteur gradient est donnée par
∂
∂θ0 MSE (θ)
∂ MSE (θ)
∂θ1
.
2
∇θ MSE (θ) = = X T . (X .θ − y )
. m
.
∂
∂θn MSE (θ)
Une fois que l’on a le vecteur gradient qui pointe vers le haut,
il suffit d’aller dans la direction opposée pour descendre. Ce qui
revient à soustraire ∇θ MSE (θ) de θ et multiplier le taux
d’apprentissage η par la vecteur gradient qui permet de déterminer
le pas de progression vers le bas
θ − η∇θ MSE (θ)
Traitement de données 2
Régression linéaire simple
Indicateurs de performances
Courbes d’apprentissage
Les courbes d’apprentissage sont des diagrammes
représentant les résultats obtenus par le modèle sur le jeu
d’entraı̂nement et sur le jeu de validation en fonction de la
taille du jeu d’entraı̂nement.
Pour générer ces graphiques, il suffit d’entraı̂ner le modèle
plusieurs fois sur des sous ensembles de tailles différentes du jeu
d’entraı̂nement.
Traitement de données 2
Régression linéaire simple
Régression polynomiale
Régression polynomiale
Régression polynomiale : lorsque les données ne peuvent se
modéliser par un modèle linéaire (droite), on peut ajouter des
puissances de chacune des variables comme nouvelles variables.
La régression Lasso
Régression logistique
1
σ (t) =
1 + exp (−t)
Traitement de données 2
Régression logistique
Prédiction
Prédiction
Une fois que le modèle de régression logistique a estimée la
probabilité p̂ = hθ (x) qu’une observation x appartienne à la classe
positive, il peut alors faire aisément sa prédiction ŷ
(
0 si p̂ ≺ 0.5
ŷ =
1 si p̂ ≥ 0.5
(Or comme
σ (t) ≺ 0.5 si t ≺ 0
et
σ (t) ≥ 0.5 si t ≥ 0.5
(
1 si θT .x ≥ 0
p̂ = hθ (x) = σ θT .x alors ŷ =
0 sinon
Traitement de données 2
Régression logistique
Entraı̂nement
Entraı̂nement
L’objectif de l’entraı̂nement consiste à définir le vecteur de
paramètres θ afin que le modèle estime des probababilités
élevés pour des observations positives (y=1) et des
probabilités basses pour des observations négatives (y=0).
La fonction coût suivante traduit cette idée dans le cas d’une
unique observation d’entraı̂nement x
(
−log (p̂) si y = 1
c (θ) =
−log (1 − p̂) si y = 0
Fonction coût
La fonction coût sur l’ensemble du jeu d’entraı̂nement est le coût
moyen sur l’ensemble de ses observations. Elle peut s’écrire sous la
forme d’une simple équation nommée perte logistique (en anglais,
log loss)
m
1 X h (i) i
J (θ) = − y log p̂ (i) + 1 − y (i) log 1 − p̂ (i)
m
i=1
Régression softmax
Chaque classe possède son propre vecteur de paramètres θk . Tous
les vecteurs (une fois transposés) constituent les lignes de la
matrice de paramètres Θ.
L’estimation de la probabilité p̂k qu’une observation
appartiennent à la classe k peut être fait en transformant les
scores par la fonction softmax : elle calcule l’exponentielle de
chaque score puis les normalise
exp (sk (x))
p̂k = σ (s (x))k = Pk
j=1 exp (sj (x))
où k le nombre de classes ; s (x) un vecteur contenant les
scores de chaque classe pour l’observation x ; σ (s (x))k la
probabilité estimée que l’observation x appartienne à la
classe k compte tenu des scores de chaque classe pour cette
observation.
Traitement de données 2
Régression soft-max ou logistique multinominale
Prédiction
Prédiction
Le classificateur de régression softmax prédit la classe ayant
la plus forte probabilité estimée ie la classe ayant le plus haut
score.
La prédiction du classificateur de régression softmax peut se
faire à l’aide de l’équation suivante
T
k
ŷ = argmaxk σ (s (x))k = argmaxk sk (x) = argmaxk θ −x
Entraı̂nement
Fonction coût
La fonction coût d’entropie croisée est donnée par
m K
1 XX i
yk log p̂ki
J (Θ) = −
m
i=1 k=1
où
I yki est égal à 1 si la classe cible pour la classe cible pour la ieme
observation est k et 0 sinon.
I lorsqu’il n’y a que deux classes, cette fonction de coût est
équivalente à celle de la régression logistique.
Conclusion
Thèorème du No Free Lunch : il n’existe pas de classificateur
universel qui est performant dans toutes les situations, Il n’ya pas
de choix ou d’ajustement des paramètres complètement
automatique.
Références