Académique Documents
Professionnel Documents
Culture Documents
1
Du classificateur de Bayes à la RL
𝑝 𝐱 = 𝑥 𝐶1 𝑝(𝐶1 )
𝑝(𝐶1 |𝐱 = 𝑥) =
𝑝 𝐱 = 𝑥 𝐶1 𝑝 𝐶1 + 𝑝 𝐱 = 𝑥 𝐶2 𝑝(𝐶2 )
1
=
𝑝 𝐱 = 𝑥 𝐶2 𝑝 𝐶2
1+
𝑝 𝐱 = 𝑥 𝐶1 𝑝(𝐶1 )
1
=
𝑝 𝐱 = 𝑥 𝐶1 𝑝 𝐶1
1 + exp −ln − ln
𝑝 𝐱 = 𝑥 𝐶2 𝑝(𝐶2 )
2
Du classificateur de Bayes à la RL
• On a alors:
2
1 𝑥𝑑 − 𝜇𝑘𝑑
𝑝 x𝑑 = 𝑥𝑑 𝐶𝑘 = exp −
𝜎𝑑 2𝜋 2𝜎𝑑 2
3
Du classificateur de Bayes à la RL
• On aura alors: 𝑝(𝐶1 |𝐱 = 𝑥) =
1
𝑝 𝐶1 𝐷 𝜇1𝑑 − 𝜇2𝑑 𝜇2𝑑 2 − 𝜇1𝑑 2
1 + exp −ln − 𝑥𝑑 +
𝑝(𝐶2 ) 𝑑=1 𝜎𝑑 2 2𝜎𝑑 2
• En posant:
𝐷
𝜇1𝑑 − 𝜇2𝑑 𝜇2𝑑 2 − 𝜇1𝑑 2 𝑝 𝐶1
= 𝑤𝑑 et + ln = 𝑤0
𝜎𝑑 2 2𝜎𝑑 2 𝑝(𝐶2 )
𝑑=1
• On obtient:
𝐷
1
= où 𝑓(𝑥) = 𝑤0 + 𝑤𝑑 𝑥𝑑
1 + exp −𝑓(𝑥)
𝑑=1
4
La régression logistique (*)
1
𝑝(𝐶1 |𝐱 = 𝑥) =
1 + exp −𝑓(𝑥)
exp −𝑓(𝑥)
𝑝(𝐶2 |𝐱 = 𝑥) =
1 + exp −𝑓(𝑥)
𝐷
𝑝(𝐶1 |𝐱 = 𝑥) > 0?
ln = 𝑓 𝑥 = 𝑤0 + 𝑤𝑑 𝑥𝑑
𝑝(𝐶2 |𝐱 = 𝑥) < 0?
𝑑=1
6
La régression logistique
𝑥2
𝐶1 : 𝑓 𝑥 > 0
𝐶2 : 𝑓 𝑥 < 0
𝑓 𝑥 =0
𝑥1
7
La fonction sigmoïde
1
• La fonction sigmoïde est définie par: (a)
1 exp(a )
(a )
1 exp −𝑓(𝑥)
𝑝(𝐶1 |𝐱 = 𝑥) = 𝑝(𝐶2 |𝐱 = 𝑥) =
1 + exp −𝑓(𝑥) 1 + exp −𝑓(𝑥)
9
Estimation des paramètres de la RL
1 𝑠𝑖 𝑥 ∈ 𝐶1
𝑦=
0 𝑠𝑖 𝑥 ∈ 𝐶2
𝐰 ∗ = argmax𝐰 (𝐿(𝐰))
10
Estimation des paramètres de la RL
• Le maximum de vraisemblance conditionnel vise à maximiser
le produit des probabilités conditionnelles suivant:
𝑁 (1−𝑦 (𝑖) )
𝑖 𝑦 (𝑖)
𝐿 𝐰 = 𝑝(𝑦 = 1|𝑥 (𝑖) ) 𝑝(𝑦 𝑖
= 0|𝑥 (𝑖) )
𝑖=1
𝓁 𝐰 = 𝑦 (𝑖) ln 𝑝(𝑦 (𝑖) = 1|𝑥 (𝑖) ) + (1 − 𝑦 (𝑖) )ln 𝑝(𝑦 (𝑖) = 0|𝑥 (𝑖) )
𝑖=1
𝑁 (𝑖) (𝑖)
(𝑖)
𝑝(𝑦 = 1|𝑥 ) (𝑖) (𝑖)
= 𝑦 ln + ln 𝑝(𝑦 = 0|𝑥 )
𝑝(𝑦 (𝑖) = 0|𝑥 (𝑖) )
𝑖=1
𝑁
Exemple: D = 1:
~)
(w
w1
w0
12
Estimation des paramètres de la RL
• Puisqu’on ne peut pas utiliser un forme exacte pour isoler la
valeur de 𝐰, on peut utiliser la montée du gradient.
𝑇
𝜕𝓁 𝐰 𝜕𝓁 𝐰 𝜕𝓁 𝐰
𝛻𝓁 𝐰 = , ,⋯,
𝜕𝑤0 𝜕𝑤1 𝜕𝑤𝐷
𝜕𝓁 𝐰 𝑁
= 𝑥𝑑 (𝑖) (𝑦 (𝑖) − 𝑝(𝑦 (𝑖) = 1|𝑥 (𝑖) ))
𝜕𝑤𝑑 𝑖=1
13
Estimation des paramètres de la RL
• Algorithme de descente du gradient
𝑷𝒐𝒊𝒏𝒕 𝒅𝒆 𝒅é𝒑𝒂𝒓𝒕
15
Estimation des paramètres de la RL
• Inconvénients:
– Choix de la valeur initiale de 𝐰 ?
– Sur-apprentissage: Tendance à produire des 𝐰 avec une grande
amplitude (frontière rigide).
16
Régularisation des paramètres de la RL
𝑁
𝜆 𝑇
𝓁 𝐰 = 𝑦 (𝑖) 𝑤0 + 𝐰𝑇𝑥 (𝑖) − ln 1 + exp 𝑤0 + 𝐰𝑇𝑥 (𝑖) − 𝐰 𝐰
2
𝑖=1
𝜕𝓁 𝐰 𝑁
= 𝑥𝑑 (𝑖) 𝑦 (𝑖) − 𝑝 𝑦 (𝑖) = 1 𝑥 (𝑖) − 𝜆𝐰
𝜕𝑤𝑑 𝑖=1
17
Classificateur de Bayes (CB) versus la RL
18
Le CB versus la RL
20
Étude d’une application: analyse de spams
21
Qu’est-ce qu’un email spam?
22
Filtres anti-spams
26
Références
1. M. S. Allili. Techniques d’apprentissage automatique (Cours de 2e cycle).
Université du Québec en Outaouais (UQO), Québec, Canada. Hivers 2015.
2. S. Rogers et M Girolami. A first Course in machine learning, CRC press,
2012.
3. C. Bishop. Pattern Recognition and Machine learning. Springer 2006.
4. R. Duda, P. Storck et D. Hart. Pattern Classification. Prentice Hall, 2002.
27