Vous êtes sur la page 1sur 27

Systèmes Décisionnels & Data-Mining

Réalisé par : Pr. EN-NAIMANI Zakariae

École Normale Supérieure de l'Enseignement Technique de Mohammedia


Université Hassan II de Casablanca

25 octobre 2023

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Chapitre 2 : Régression Logistique
Classication

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Classication

Email : Spam/Non Spam ?


Transaction en ligne : Frauduleuse (Oui/Non) ?
Tumeur : Maligne/Bénigne ?
0 : "Classe Négative" (tumeur bénigne)
y ∈ {0, 1}
1 : "Classe Positive" (tumeur maligne)

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Classication

À la diérence de la régression linéaire, on a besoin d'une hypothèse


h(x) qui place une frontière entre les cas positifs et les cas négatifs
et un seuil de sortie qui passé ce seuil, on donne un critère pour juger
et déclarer le cas positif, sinon nous déclarons le cas négatif.
La question est comment choisir h(x) ?
Une première tentative est d'utiliser la régression linéaire et ajuster
une ligne au travers des points.
La ligne de séparation verticale à h(x) = 0.5 (appelée aussi frontière
de décision) semble classier les points correctement.
Cas bénins se trouvent à la gauche de la ligne de séparation et les cas
malins à sa droite.
Seuil de la sortie du classication hθ (x) à 0.5 :
Si hθ (x) ⪰ 0.5, prédire "y=1"
Si hθ (x) ≺ 0.5, prédire "y=0"
Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining
Classication

On imaginons le même jeu de données oui l'on a ajouté un point


décalé vers la droite.
Dans ce cas, la procédure précédente donne des résultats incorrectes.
En eet, deux des points qui étaient correctement classiées aupara-
vant comme des cas malins sont désormais classiés comme des cas
bénins.
Cette sensibilité de la frontière de décision basée sur un modèle de
régression linéaire classique montre qu'il faut repenser ce modèle dans
le cas de la classication.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Classication

Un autre problème avec le modèle précédent est que la valeur de h(x)


prend des valeurs entre plus ou moins l'inni.
Mais on conçoit bien que la fonction h(x), dans le cas de la classica-
tion, doit s'apparenter plus à une probabilité de classier un point du
nuage comme positif ou négatif, ce qui veut dire qu'il faut l'astreindre
à prendre ses valeurs dan l'intervalle [0, 1].
Le modèle qu'on va voir par la suite permet de générer une frontière
de décision stable et d'interpréter l'hypothèse comme une probabilité.
Il s'agit du modèle de régression logistique.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Représentation de l'Hypothèse

L'hypothèse considérée dans ce modèle de régression logistique ap-


plique la fonction sigmoïde, qui prend ses valeurs entre 0 et 1, à une
expression similaire à ce qu'on a vu dans le cas de de la régression
linéaire.
Cette hypothèse s'apparente plus à une probabilité et on va voir com-
ment calculer les paramètres θ pour que la frontière de séparation soit
stable et rend compte, aussi bien des cas observes, que des cas non
encore observés.
Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining
Représentation de l'Hypothèse

Interprétation des sorties de l'hypothèse :


hθ (x) = probabilité estimée que y = 1 pour une entrée x
Exemple : Si x=[x0 , x1 ]=[1,taille de la tumeur] et que hθ (x) = 0.7
Prédit qu'il y a 70% de chance que la tumeur soit maligne
hθ (x) = P(y = 1|x; θ) la probabilité que y=1, étant donné x, para-
métrée par θ.
⇒ 1 − hθ (x) = P(y = 0|x; θ)

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Frontière de Décision

hθ (x) = g (θT x)
g (z) = 1+e1 −z
π
θT x = log ( 1−π ) est appelée
LOGIT
ou π = P(Y = 1|x) et
1 − π = P(Y = 0|x)
Supposons qu'on prédise
"y=1" si hθ (x) ⪰ 0.5
et "y=0" si hθ (x) ≺ 0.5
Cela signie que
"y=1" si θT x = z ⪰ 0
et "y=0" si θT x = z ≺ 0

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Frontière de Décision

Prédire "y=1" si −3 + x1 + x2 ⪰ 0

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Frontière de Décision

Prédire "y=1" si −1 + x12 + x22 ⪰ 0

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Apprentissage : Fonction Coût

Jeu de données : {(x (1) , y (1) ); (x (2) , y (2) ); ...; (x (m) , y (m) )}
 
x0
 x1 
 .. 
 
 . 
m exemples x ∈ 
 xi  x0 = 1, y ∈ {0, 1}

 .. 
 
 . 
xn
1
hθ (x) =
1+e −θT x
Comment choisir les paramètres θ

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Fonction Coût

Régression Linéaire : J(θ) = m1 m 1 (i) (i) 2


P
i=1 2 (hθ (x ) − y )
Coût(hθ (x (i) ), y (i) )= 12 (hθ (x (i) ) − y (i) )2

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Fonction Coût : Régression Logistique

Coût(hθ (x), y )=− log(hθ (x)) si y=1


Coût(hθ (x), y )=− log(1 − hθ (x)) si y=0

Coût=0 si hθ (x) = y = 1, mais à raison


que hθ (x) s'éloigne de y, on pénalise la
fonction coût de − log(hθ (x)) qui tend
vers +∞ dans le cas extrême.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Fonction Coût : Régression Logistique

Coût(hθ (x), y )=− log(hθ (x)) si y=1


Coût(hθ (x), y )=− log(1 − hθ (x)) si y=0

Coût=0 si hθ (x) = y = 0, mais à raison


que hθ (x) s'éloigne de y, on pénalise la
fonction coût de − log(h1−θ (x)) qui tend
vers +∞ dans le cas extrême.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Fonction coût pour la régression logistique

1
Coût(hθ (x (i) ), y (i) )
Pm
J(θ) = m i=1
Notons qu'on a toujours : y=0 ou y=1 alors
Coût(hθ (x), y ) = −y log(hθ (x)) − (1 − y ) log(1 − hθ (x))
La fonction coût pour le modèle de régression logistique est une
somme pondérée des coûts individuels tels que dénis précédemment
pour tous les exemples du jeu d'entraînement.
Étant donné que y = 0 ou 1, on peut unier les deux expressions des
coûts individuels en une seule expression.
Chacun peut vérier que si y = 1, alors, 1 - y = 0 et on retrouve
l'expression du coût pour y = 1.
De même si y = 0, alors 1 - y = 1, et on retrouve dans ce cas aussi
l'expression du coût formulée si y = 0.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Fonction coût pour la régression logistique

1
Coût(hθ (x (i) ), y (i) )
Pm
J(θ) = m i=1
J(θ) = − m1 y (i) log(hθ (x (i) )) + (1 − y (i) ) log(1 − hθ (x (i) ))
Pm
i=1
Pour ajuster les paramètres θ, il faut minimiser la fonction coût :
minJ(θ)
θ

Nous obtenons la forme dénitive de la fonction coût. Cette fonction


a de bonnes propriétés de convexité et prête pour la minimisation
par l'algorithme du gradient.
L'ajustement du modèle de régression logistique correspond au θ qui
minimise la fonction coût.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Algorithme du Gradient

J(θ) = − m1 log(hθ (x (i) )) + (1 − y (i) ) log(1 − hθ (x (i) ))


Pm  (i) 
i=1 y
On veut minJ(θ)
θ

Algorithme du Gradient
Répéter{

θj = θj − α ∂θ j
J(θ) (mise à jour simultanée de tous les θj )
}

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Algorithme du Gradient

J(θ) = − m1 log(hθ (x (i) )) + (1 − y (i) ) log(1 − hθ (x (i) ))


Pm  (i) 
i=1 y
On veut minJ(θ)
θ

Algorithme du Gradient
Répéter{
(i)
(mise à jour simultanée de tous les
Pm (i)
θj = θj − α i=1 (hθ (x ) − y (i) )xj
θj )
}
L'algorithme semble identique à la régression linéaire

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Évaluation du modèle : Matrice de confusion

La performance d'un algorithme de Machine Learning dans le cadre


de d'un problème de classication est directement liée à sa capacité
à prédire un résultat.
On cherche à comparer les résultats prédits à la réalité, pour cela, on
utilise une matrice de confusion.
Dans les problèmes de classication, la régression logistique prédit
des résultats que l'on doit comparer à la réalité pour mesurer son
degré de performance. On utilise généralement la matrice de
confusion, appelée aussi tableau de contingence.
Cette matrice met non seulement en valeur les prédictions correctes
et incorrectes mais nous donne surtout un indice sur le type d'erreurs
commises.
Pour calculer une matrice de confusion, on a besoin d'un ensemble
de données de test et un autre de validation qui contient les valeurs
des résultats obtenus.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Matrice de confusion

Dénition :
La matrice matrice de confusion est un tableau de contingence, tel que
chaque colonne contient un classe prédite par le modèle de classication
et les lignes de classes réelles. On classe les résultats en quatre
catégories :
True Positive (TP) : la prédiction et la valeur réelle sont positives.
True Negative (TN) : la prédiction et la valeur réelle sont négatives.
False Positive (FP) : la prédiction est positive alors que la valeur réelle
est négative.
False Negative (FN) : la prédiction est négative alors que la valeur
réelle est négative.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Matrice de confusion

On peut ajouter des lignes et des colonnes à cette matrice dans des
cas plus complexes.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Matrice de confusion : mesures
On retrouve ici les manières les plus communes de tirer des informations
intéressantes de ce genre de tableau, on appelle ces indicateurs des mé-
triques :
Le taux d'erreur est égal au nombre de mauvais classement rapporté
à l'eectif total c.-à-d.
FP + FN
ϵ=
n
Il estime la probabilité de mauvais classement du modèle.
Le taux de succès correspond à la probabilité de bon classement du
modèle, c'est le complémentaire à 1 du taux d'erreur
TP + TN
TS = =1−ϵ
n
La sensibilité (ou le rappel, ou encore le taux de vrais positifs [TVP]
) indique la capacité du modèle à retrouver les positifs
TP
Se = Sensibilit = TVP = rappel =
TP + FN
Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining
Matrice de confusion : mesures
La précision indique la proportion de vrais positifs parmi les individus
qui ont été classés positifs
TP
precision =
TP + FP
Elle estime la probabilité d'un individu d'être réellement positif
lorsque le modèle le classe comme tel. Dans certains domaines, on
parle de valeur prédictive positive (VPP).
La spécicité, à l'inverse de la sensibilité, indique la proportion de
négatifs détectés
TN
Sp = Spcificit =
FP + TN
Parfois, on utilise le taux de faux positifs (TFP), il correspond à la
proportion de négatifs qui ont été classés positifs c.-à-d.
FP
TFP = = 1 − Sp
FP + TN
Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining
Matrice de confusion : mesures

La F-Mesure est très utilisée en recherche d'information. Elle


synthétise (moyenne harmonique) le rappel et la précision,
l'importance accordée à l'une ou à l'autre est paramétrable avec
(1 + α2 ) ∗ rappel ∗ precision
Fα =
α2 ∗ precision + rappel
Lorsque
α = 1 est la valeur usuelle, on accorde la même importance au
rappel et à la précision, la F-Mesure devient
2 ∗ rappel ∗ precision
Fα=1 =
precision + rappel
α ≺ 1 on accorde plus d'importance à la précision par rapport au
rappel. Une valeur fréquemment utilisée est
α = 0.5 on accorde deux fois plus d'importance à la précision.
α ≻ 1 on accorde plus d'importance au rappel par rapport à la
précision. Une valeur fréquemment rencontrée est α = 2.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Quelques remarques sur le comportement de ces indicateurs

Un "bon" modèle doit présenter des valeurs faibles de taux d'erreur


et de taux de faux positifs (proche de 0) ; des valeurs élevées de
sensibilité, précision et spécicité (proche de 1).
Le taux d'erreur est un indicateur symétrique, il donne la même
importance aux faux positifs (FP) et aux faux négatifs (FN).
La sensibilité et la précision sont asymétriques, ils accordent un rôle
particulier aux positifs.
Enn, en règle générale, lorsqu'on oriente l'apprentissage de manière
à améliorer la sensibilité, on dégrade souvent la précision et la
spécicité. Un modèle qui serait meilleur que les autres sur ces deux
groupes de critères antinomiques est celui qu'il faut absolument
retenir.

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining


Questions ?

Réalisé par : Pr. EN-NAIMANI Zakariae Systèmes Décisionnels & Data-Mining

Vous aimerez peut-être aussi