Vous êtes sur la page 1sur 24

Régression logistique Le perceptron

Classification binaire
Régression logistique Le perceptron

1 Régression logistique

2 Le perceptron
Régression logistique Le perceptron

Un exemple

Un exemple
Données : échantillon de 100 personnes. Deux variables
mesurées :
Age du patient X.
Présence (1) ou absence (0) d’une maladie cardiaque Y.
Objectif de l’étude : savoir si l’âge a un effet sur la présence de
la maladie cardiaque.
Régression logistique Le perceptron

Un exemple
Régression logistique Le perceptron

Un exemple

Commentaires sur le graphique


Deux bandes parallèles de points, où chacun représente l’âge de
l’individu avec la présence (Y = 1) ou l’absence (Y = 0) de la
maladie.
Plus de points rassemblés vers les jeunes pour Y = 0,
regroupement vers les plus âgés pour Y = 1.
Pas suffisant pour en déduire une relation significative entre la
prédisposition à une maladie cardiaque et l’âge.
Régression linéaire : méthode inadaptée!!
Régression logistique Le perceptron

Régression logistique

Le modèle
Y variable à expliquer et X variable explicative.
Hypothèses sur les observations
Observations indépendantes
Données répétées : sous chaque xi , il y a ni réponses yi,j ,
j = 1, · · · , ni observées.
yi = j yi,j : nombre de fois que 1 est réalisé sous la condition xi .
P
Régression logistique Le perceptron

Régression logistique

Le modèle
Hypothèse : distribution conditionnelle de Y = loi de Bernoulli
dont le paramètre p(x), dépend de la valeur x de X.
D’où
P(Y = y|X = x) = p(x)y (1 − p(x))1−y .
Régression logistique Le perceptron

Régression logistique

Le modèle
Classe de fonctions L à laquelle appartient x 7→ p(x)?
Propriétés raisonnables de la fonction p :
valeurs dans l’intervalle [0, 1]
monotonie en x
stabilité par changement d’origine et d’échelle sur la variable
explicative : si p ∈ L, x 7→ p(β0 + β1 x) aussi.
Cas général
p(x) = g( t βx)
β ∈ Rp , g = fonction non linéaire, fonction de lien.
Régression logistique Le perceptron

Régression logistique

Modèle Logit
Régression logistique
exp(t)
g(t) = .
1 + exp(t)
Régression logistique Le perceptron

Régression logistique

La distribution complémentaire log–log


Soit
u
g(u) = 1 − e−e .
Version affine du modèle log–log

p(x) = 1 − exp(− exp(β0 + β1 x)) .

Caractéristiques de g
Loi de fonction de répartition de g non symétrique
Queues de distribution en −∞ et +∞ différents l’un de l’autre.
Régression logistique Le perceptron

Régression logistique

Le modèle
Même forme pour toutes ces fonctions.
Cas du modèle logit, t β = (β0 , β1 ).
Deux paramètres à estimer : β0 = paramètre de position, β1 =
paramètre d’échelle.
Propriétés du modèle logistique
Variation : Si β1 = 0, loi de la variable à expliquer ne dépend pas
de la variable explicative.
Sinon p est strictement monotone
Régression logistique Le perceptron

Régression logistique

Estimation par maximum de vraisemblance


Hypothèse : v.a. Yi indépendantes et de lois de Bernoulli.
Vraisemblance associée à la suite d’observations y = (y1 , · · · , yn )
pour la suite de valeurs explicatives x = (x1 , · · · , xn )
n
Y
Ln (y|x, β) = pβ (xi )yi (1 − pβ (xi ))1−yi .
i=1

Log–vraisemblance
n 
X 
`n (y|x, β) = yi log(pβ (xi )) + (1 − yi ) log(1 − pβ (xi )) .
i=1
Régression logistique Le perceptron

Régression logistique

Estimation par maximum de vraisemblance


Estimateur du maximum de vraisemblance solution des
equations

∂`n (y|x, β) X exp(β0 + β1 xi )


!
= yi − =0.
∂β0 i
1 + exp(β0 + β1 xi )

et
∂`n (y|x, β) X exp(β0 + β1 xi )
!
= xi yi − =0.
∂β1 i
1 + exp(β0 + β1 xi )
Pas de solution explicite ⇒ résolution numérique de ces
équations. Obtention d’un estimateur βn
Régression logistique Le perceptron

Régression logistique

Hypothèse : les xi sont i.i.d. de loi de densité λ non nulle sur un


compact K
Estimation par maximum de vraisemblance
La log–vraisemblance `n est strictement concave
Si la matrice I = K x t x p(x)(1 − p(x))λ(x)dx est inversible et que
R

l’espace des paramètres est compact alors


√ (L)
n(βn − β) → N(0, I −1 ) .
Régression logistique Le perceptron

Régression logistique

Influence de la variable explicative


Hypothèse nulle = pas d’influence de X sur Y

(H0 ) β1 = 0 .

Hypothèse alternative = influence significative de X sur Y

(H1 ) β1 , 0 .

Revient à tester le sous modèle où β = (β0 , 0) contre le modèle


général.
Régression logistique Le perceptron

Régression logistique

Test du rapport de vraisemblances


On considère la différence des log-vraisemblances

Λ(y|x) = 2(`(y|x, b
β) − `(y|x, b
βH0 )) .

Plus Λ(y|x) grand, plus on a tendance à rejeter l’hypothèse nulle.


Sous (H0 ), asymptotiquement Λ(y|x) ∼ χ2 (1) pour n → ∞.
Régression logistique Le perceptron

Le perceptron [Rosenblatt,1958]
Régression logistique Le perceptron

Le perceptron [Rosenblatt,1958]

Fonction de prédiction linéaire de paramètre w = (w0 , w) ∈ R × Rd


hw : Rd → R
x 7→< w, x > +w0
Régression logistique Le perceptron

Le perceptron [Rosenblatt,1958]
Fonction de prédiction linéaire de paramètre w = (w0 , w) ∈ R × Rd

hw : Rd → R
x 7→< w, x > +w0

Question : trouver les paramètres en minimisant la distance entre les


exemples mal classés et la frontière de décision
Régression logistique Le perceptron

Apprentissage des paramètres du perceptron

Mesure de risque : L(y1 , y2 ) = −y1 · y2 1{y1 ,y2 }


Fonction objectif mesurant le risque empirique
X
L=−
b yi (< w, xi > +w0 )
i∈I

avec I ensemble des indices des observations mal classées


Minimisation?
Régression logistique Le perceptron

Apprentissage des paramètres du perceptron

Dérivées partielles de la fonction objectif

∂b
L X
=− yi
∂w0
i∈I
X
L=−
∇wb yi xi
i∈I

Algorithme utilisant le gradient stochastique


! ! !
w0 w0 y
∀(x, y), si y (< w, x > +w0 ) ≤ 0 alors ← +η
w w yx
Régression logistique Le perceptron

Apprentissage des paramètres du perceptron


Régression logistique Le perceptron

Algorithme du perceptron

Training set S = {(xi , yi ), i ∈ {1, · · · , m}}


Initialize the weights w(0) ← 0
t←0
Learning rate η > 0
repeat
Choose randomly an example (x(t) , y(t) ) ∈ S
if y < w(t) , x(t) < 0 then
w0 ← w0 + η × y(t)
w(t+1) ← w(t) + η × y(t) × x(t)
t ←t+1
until t > T

Convergence de l’algorithme?
Régression logistique Le perceptron

Convergence du perceptron

[Novikoff, 1962] a montré que


s’il existe un poids w∗ tel que

∀i ∈ {1, · · · , n}, yi × < w∗ , xi > > 0


<w∗ ,xi >
et si on note ρ = mini yi × kw∗ k
, R = max kxi k
et si on a w(0) = 0, η = 1
on a une borne sur le maximum d’updates `

` ≤ (R/ρ)2