Chap2 Regression Logi Class

Systèmes Décisionnels & Data-Mining
Réalisé par : Pr. EN-NAIMANI Zakariae
École Normale Supérieure de l'Enseignement Technique de Mohammedia

Université Hassan II de Casablanca
25 octobre 2023
Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Chapitre 2 : Régression Logistique
Classication

Classication
Email : Spam/Non Spam ?

Transaction en ligne : Frauduleuse (Oui/Non) ?
Tumeur : Maligne/Bénigne ?
0 : "Classe Négative" (tumeur bénigne)
y ∈ {0, 1}
1 : "Classe Positive" (tumeur maligne)

Classication
À la diérence de la régression linéaire, on a besoin d'une hypothèse

h(x) qui place une frontière entre les cas positifs et les cas négatifs
et un seuil de sortie qui passé ce seuil, on donne un critère pour juger
et déclarer le cas positif, sinon nous déclarons le cas négatif.
La question est comment choisir h(x) ?
Une première tentative est d'utiliser la régression linéaire et ajuster
une ligne au travers des points.
La ligne de séparation verticale à h(x) = 0.5 (appelée aussi frontière
de décision) semble classier les points correctement.
Cas bénins se trouvent à la gauche de la ligne de séparation et les cas
malins à sa droite.
Seuil de la sortie du classication hθ (x) à 0.5 :
Si hθ (x) ⪰ 0.5, prédire "y=1"
Si hθ (x) ≺ 0.5, prédire "y=0"
Classication
On imaginons le même jeu de données oui l'on a ajouté un point

décalé vers la droite.
Dans ce cas, la procédure précédente donne des résultats incorrectes.
En eet, deux des points qui étaient correctement classiées aupara-
vant comme des cas malins sont désormais classiés comme des cas
bénins.
Cette sensibilité de la frontière de décision basée sur un modèle de
régression linéaire classique montre qu'il faut repenser ce modèle dans
le cas de la classication.

Classication
Un autre problème avec le modèle précédent est que la valeur de h(x)

prend des valeurs entre plus ou moins l'inni.
Mais on conçoit bien que la fonction h(x), dans le cas de la classica-
tion, doit s'apparenter plus à une probabilité de classier un point du
nuage comme positif ou négatif, ce qui veut dire qu'il faut l'astreindre
à prendre ses valeurs dan l'intervalle [0, 1].
Le modèle qu'on va voir par la suite permet de générer une frontière
de décision stable et d'interpréter l'hypothèse comme une probabilité.
Il s'agit du modèle de régression logistique.

Représentation de l'Hypothèse
L'hypothèse considérée dans ce modèle de régression logistique ap-

plique la fonction sigmoïde, qui prend ses valeurs entre 0 et 1, à une
expression similaire à ce qu'on a vu dans le cas de de la régression
linéaire.
Cette hypothèse s'apparente plus à une probabilité et on va voir com-
ment calculer les paramètres θ pour que la frontière de séparation soit
stable et rend compte, aussi bien des cas observes, que des cas non
encore observés.
Représentation de l'Hypothèse
Interprétation des sorties de l'hypothèse :

hθ (x) = probabilité estimée que y = 1 pour une entrée x
Exemple : Si x=[x0 , x1 ]=[1,taille de la tumeur] et que hθ (x) = 0.7
Prédit qu'il y a 70% de chance que la tumeur soit maligne
hθ (x) = P(y = 1|x; θ) la probabilité que y=1, étant donné x, para-
métrée par θ.
⇒ 1 − hθ (x) = P(y = 0|x; θ)

Frontière de Décision
hθ (x) = g (θT x)
g (z) = 1+e1 −z
π
θT x = log ( 1−π ) est appelée
LOGIT
ou π = P(Y = 1|x) et
1 − π = P(Y = 0|x)
Supposons qu'on prédise
"y=1" si hθ (x) ⪰ 0.5
et "y=0" si hθ (x) ≺ 0.5
Cela signie que
"y=1" si θT x = z ⪰ 0
et "y=0" si θT x = z ≺ 0

Prédire "y=1" si −3 + x1 + x2 ⪰ 0

Prédire "y=1" si −1 + x12 + x22 ⪰ 0

Apprentissage : Fonction Coût
Jeu de données : {(x (1) , y (1) ); (x (2) , y (2) ); ...; (x (m) , y (m) )}
 
x0
 x1 
 .. 
 
 . 
m exemples x ∈ 
 xi  x0 = 1, y ∈ {0, 1}

 .. 
 
 . 
xn
1
hθ (x) =
1+e −θT x
Comment choisir les paramètres θ

Fonction Coût
Régression Linéaire : J(θ) = m1 m 1 (i) (i) 2

P
i=1 2 (hθ (x ) − y )
Coût(hθ (x (i) ), y (i) )= 12 (hθ (x (i) ) − y (i) )2

Fonction Coût : Régression Logistique
Coût(hθ (x), y )=− log(hθ (x)) si y=1

Coût(hθ (x), y )=− log(1 − hθ (x)) si y=0
Coût=0 si hθ (x) = y = 1, mais à raison

que hθ (x) s'éloigne de y, on pénalise la
fonction coût de − log(hθ (x)) qui tend
vers +∞ dans le cas extrême.

Fonction Coût : Régression Logistique
Coût(hθ (x), y )=− log(hθ (x)) si y=1

Coût(hθ (x), y )=− log(1 − hθ (x)) si y=0
Coût=0 si hθ (x) = y = 0, mais à raison

que hθ (x) s'éloigne de y, on pénalise la
fonction coût de − log(h1−θ (x)) qui tend
vers +∞ dans le cas extrême.

Fonction coût pour la régression logistique
1
Coût(hθ (x (i) ), y (i) )
Pm
J(θ) = m i=1
Notons qu'on a toujours : y=0 ou y=1 alors
Coût(hθ (x), y ) = −y log(hθ (x)) − (1 − y ) log(1 − hθ (x))
La fonction coût pour le modèle de régression logistique est une
somme pondérée des coûts individuels tels que dénis précédemment
pour tous les exemples du jeu d'entraînement.
Étant donné que y = 0 ou 1, on peut unier les deux expressions des
coûts individuels en une seule expression.
Chacun peut vérier que si y = 1, alors, 1 - y = 0 et on retrouve
l'expression du coût pour y = 1.
De même si y = 0, alors 1 - y = 1, et on retrouve dans ce cas aussi
l'expression du coût formulée si y = 0.

Fonction coût pour la régression logistique
1
Coût(hθ (x (i) ), y (i) )
Pm
J(θ) = m i=1
J(θ) = − m1 y (i) log(hθ (x (i) )) + (1 − y (i) ) log(1 − hθ (x (i) ))
Pm
i=1
Pour ajuster les paramètres θ, il faut minimiser la fonction coût :
minJ(θ)
θ
Nous obtenons la forme dénitive de la fonction coût. Cette fonction

a de bonnes propriétés de convexité et prête pour la minimisation
par l'algorithme du gradient.
L'ajustement du modèle de régression logistique correspond au θ qui
minimise la fonction coût.

Algorithme du Gradient
J(θ) = − m1 log(hθ (x (i) )) + (1 − y (i) ) log(1 − hθ (x (i) ))

Pm (i)
i=1 y
On veut minJ(θ)
θ
Répéter{
∂
θj = θj − α ∂θ j
J(θ) (mise à jour simultanée de tous les θj )
}

J(θ) = − m1 log(hθ (x (i) )) + (1 − y (i) ) log(1 − hθ (x (i) ))

Pm (i)
i=1 y
On veut minJ(θ)
θ
Répéter{
(i)
(mise à jour simultanée de tous les
Pm (i)
θj = θj − α i=1 (hθ (x ) − y (i) )xj
θj )
}
L'algorithme semble identique à la régression linéaire

Évaluation du modèle : Matrice de confusion
La performance d'un algorithme de Machine Learning dans le cadre

de d'un problème de classication est directement liée à sa capacité
à prédire un résultat.
On cherche à comparer les résultats prédits à la réalité, pour cela, on
utilise une matrice de confusion.
Dans les problèmes de classication, la régression logistique prédit
des résultats que l'on doit comparer à la réalité pour mesurer son
degré de performance. On utilise généralement la matrice de
confusion, appelée aussi tableau de contingence.
Cette matrice met non seulement en valeur les prédictions correctes
et incorrectes mais nous donne surtout un indice sur le type d'erreurs
commises.
Pour calculer une matrice de confusion, on a besoin d'un ensemble
de données de test et un autre de validation qui contient les valeurs
des résultats obtenus.

Matrice de confusion
Dénition :
La matrice matrice de confusion est un tableau de contingence, tel que
chaque colonne contient un classe prédite par le modèle de classication
et les lignes de classes réelles. On classe les résultats en quatre
catégories :
True Positive (TP) : la prédiction et la valeur réelle sont positives.
True Negative (TN) : la prédiction et la valeur réelle sont négatives.
False Positive (FP) : la prédiction est positive alors que la valeur réelle
est négative.
False Negative (FN) : la prédiction est négative alors que la valeur
réelle est négative.

Matrice de confusion
On peut ajouter des lignes et des colonnes à cette matrice dans des
cas plus complexes.

Matrice de confusion : mesures
On retrouve ici les manières les plus communes de tirer des informations
intéressantes de ce genre de tableau, on appelle ces indicateurs des mé-
triques :
Le taux d'erreur est égal au nombre de mauvais classement rapporté
à l'eectif total c.-à-d.
FP + FN
ϵ=
n
Il estime la probabilité de mauvais classement du modèle.
Le taux de succès correspond à la probabilité de bon classement du
modèle, c'est le complémentaire à 1 du taux d'erreur
TP + TN
TS = =1−ϵ
n
La sensibilité (ou le rappel, ou encore le taux de vrais positifs [TVP]
) indique la capacité du modèle à retrouver les positifs
TP
Se = Sensibilit = TVP = rappel =
TP + FN
La précision indique la proportion de vrais positifs parmi les individus
qui ont été classés positifs
TP
precision =
TP + FP
Elle estime la probabilité d'un individu d'être réellement positif
lorsque le modèle le classe comme tel. Dans certains domaines, on
parle de valeur prédictive positive (VPP).
La spécicité, à l'inverse de la sensibilité, indique la proportion de
négatifs détectés
TN
Sp = Spcificit =
FP + TN
Parfois, on utilise le taux de faux positifs (TFP), il correspond à la
proportion de négatifs qui ont été classés positifs c.-à-d.
FP
TFP = = 1 − Sp
FP + TN
La F-Mesure est très utilisée en recherche d'information. Elle

synthétise (moyenne harmonique) le rappel et la précision,
l'importance accordée à l'une ou à l'autre est paramétrable avec
(1 + α2 ) ∗ rappel ∗ precision
Fα =
α2 ∗ precision + rappel
Lorsque
α = 1 est la valeur usuelle, on accorde la même importance au
rappel et à la précision, la F-Mesure devient
2 ∗ rappel ∗ precision
Fα=1 =
precision + rappel
α ≺ 1 on accorde plus d'importance à la précision par rapport au
rappel. Une valeur fréquemment utilisée est
α = 0.5 on accorde deux fois plus d'importance à la précision.
α ≻ 1 on accorde plus d'importance au rappel par rapport à la
précision. Une valeur fréquemment rencontrée est α = 2.

Quelques remarques sur le comportement de ces indicateurs
Un "bon" modèle doit présenter des valeurs faibles de taux d'erreur

et de taux de faux positifs (proche de 0) ; des valeurs élevées de
sensibilité, précision et spécicité (proche de 1).
Le taux d'erreur est un indicateur symétrique, il donne la même
importance aux faux positifs (FP) et aux faux négatifs (FN).
La sensibilité et la précision sont asymétriques, ils accordent un rôle
particulier aux positifs.
Enn, en règle générale, lorsqu'on oriente l'apprentissage de manière
à améliorer la sensibilité, on dégrade souvent la précision et la
spécicité. Un modèle qui serait meilleur que les autres sur ces deux
groupes de critères antinomiques est celui qu'il faut absolument
retenir.

Questions ?

Chap2 Regression Logi Class

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap2 Regression Logi Class

Transféré par

Droits d'auteur :

Formats disponibles

Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae

École Normale Supérieure de l'Enseignement Technique de Mohammedia

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Email : Spam/Non Spam ?

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

À la diérence de la régression linéaire, on a besoin d'une hypothèse

On imaginons le même jeu de données oui l'on a ajouté un point

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Un autre problème avec le modèle précédent est que la valeur de h(x)

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

L'hypothèse considérée dans ce modèle de régression logistique ap-

Interprétation des sorties de l'hypothèse :

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Prédire "y=1" si −1 + x12 + x22 ⪰ 0

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Régression Linéaire : J(θ) = m1 m 1 (i) (i) 2

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Coût(hθ (x), y )=− log(hθ (x)) si y=1

Coût=0 si hθ (x) = y = 1, mais à raison

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Coût(hθ (x), y )=− log(hθ (x)) si y=1

Coût=0 si hθ (x) = y = 0, mais à raison

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Nous obtenons la forme dénitive de la fonction coût. Cette fonction

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

J(θ) = − m1 log(hθ (x (i) )) + (1 − y (i) ) log(1 − hθ (x (i) ))

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

J(θ) = − m1 log(hθ (x (i) )) + (1 − y (i) ) log(1 − hθ (x (i) ))

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

La performance d'un algorithme de Machine Learning dans le cadre

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

La F-Mesure est très utilisée en recherche d'information. Elle

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Un "bon" modèle doit présenter des valeurs faibles de taux d'erreur

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Vous aimerez peut-être aussi

À la diérence de la régression linéaire, on a besoin d'une hypothèse

Nous obtenons la forme dénitive de la fonction coût. Cette fonction