1 ClassifBinaire

Régression logistique Le perceptron
Classification binaire
1 Régression logistique
2 Le perceptron
Un exemple
Un exemple
Données : échantillon de 100 personnes. Deux variables
mesurées :
Age du patient X.
Présence (1) ou absence (0) d’une maladie cardiaque Y.
Objectif de l’étude : savoir si l’âge a un effet sur la présence de
la maladie cardiaque.
Un exemple
Un exemple
Commentaires sur le graphique

Deux bandes parallèles de points, où chacun représente l’âge de
l’individu avec la présence (Y = 1) ou l’absence (Y = 0) de la
maladie.
Plus de points rassemblés vers les jeunes pour Y = 0,
regroupement vers les plus âgés pour Y = 1.
Pas suffisant pour en déduire une relation significative entre la
prédisposition à une maladie cardiaque et l’âge.
Régression linéaire : méthode inadaptée!!
Régression logistique
Le modèle
Y variable à expliquer et X variable explicative.
Hypothèses sur les observations
Observations indépendantes
Données répétées : sous chaque xi , il y a ni réponses yi,j ,
j = 1, · · · , ni observées.
yi = j yi,j : nombre de fois que 1 est réalisé sous la condition xi .
P
Le modèle
Hypothèse : distribution conditionnelle de Y = loi de Bernoulli
dont le paramètre p(x), dépend de la valeur x de X.
D’où
P(Y = y|X = x) = p(x)y (1 − p(x))1−y .
Le modèle
Classe de fonctions L à laquelle appartient x 7→ p(x)?
Propriétés raisonnables de la fonction p :
valeurs dans l’intervalle [0, 1]
monotonie en x
stabilité par changement d’origine et d’échelle sur la variable
explicative : si p ∈ L, x 7→ p(β0 + β1 x) aussi.
Cas général
p(x) = g( t βx)
β ∈ Rp , g = fonction non linéaire, fonction de lien.
Modèle Logit
exp(t)
g(t) = .
1 + exp(t)
La distribution complémentaire log–log

Soit
u
g(u) = 1 − e−e .
Version affine du modèle log–log
p(x) = 1 − exp(− exp(β0 + β1 x)) .
Caractéristiques de g
Loi de fonction de répartition de g non symétrique
Queues de distribution en −∞ et +∞ différents l’un de l’autre.
Le modèle
Même forme pour toutes ces fonctions.
Cas du modèle logit, t β = (β0 , β1 ).
Deux paramètres à estimer : β0 = paramètre de position, β1 =
paramètre d’échelle.
Propriétés du modèle logistique
Variation : Si β1 = 0, loi de la variable à expliquer ne dépend pas
de la variable explicative.
Sinon p est strictement monotone
Estimation par maximum de vraisemblance

Hypothèse : v.a. Yi indépendantes et de lois de Bernoulli.
Vraisemblance associée à la suite d’observations y = (y1 , · · · , yn )
pour la suite de valeurs explicatives x = (x1 , · · · , xn )
n
Y
Ln (y|x, β) = pβ (xi )yi (1 − pβ (xi ))1−yi .
i=1
Log–vraisemblance
n
X
`n (y|x, β) = yi log(pβ (xi )) + (1 − yi ) log(1 − pβ (xi )) .
i=1

Estimateur du maximum de vraisemblance solution des
equations
∂`n (y|x, β) X exp(β0 + β1 xi )

!
= yi − =0.
∂β0 i
1 + exp(β0 + β1 xi )
et
∂`n (y|x, β) X exp(β0 + β1 xi )
!
= xi yi − =0.
∂β1 i
1 + exp(β0 + β1 xi )
Pas de solution explicite ⇒ résolution numérique de ces
équations. Obtention d’un estimateur βn
Hypothèse : les xi sont i.i.d. de loi de densité λ non nulle sur un

compact K
La log–vraisemblance `n est strictement concave
Si la matrice I = K x t x p(x)(1 − p(x))λ(x)dx est inversible et que
R
l’espace des paramètres est compact alors

√ (L)
n(βn − β) → N(0, I −1 ) .
Influence de la variable explicative

Hypothèse nulle = pas d’influence de X sur Y
(H0 ) β1 = 0 .
Hypothèse alternative = influence significative de X sur Y
(H1 ) β1 , 0 .
Revient à tester le sous modèle où β = (β0 , 0) contre le modèle

général.
Test du rapport de vraisemblances

On considère la différence des log-vraisemblances
Λ(y|x) = 2(`(y|x, b
β) − `(y|x, b
βH0 )) .
Plus Λ(y|x) grand, plus on a tendance à rejeter l’hypothèse nulle.

Sous (H0 ), asymptotiquement Λ(y|x) ∼ χ2 (1) pour n → ∞.
Le perceptron [Rosenblatt,1958]
Fonction de prédiction linéaire de paramètre w = (w0 , w) ∈ R × Rd

hw : Rd → R
x 7→< w, x > +w0
Fonction de prédiction linéaire de paramètre w = (w0 , w) ∈ R × Rd
hw : Rd → R
x 7→< w, x > +w0
Question : trouver les paramètres en minimisant la distance entre les

exemples mal classés et la frontière de décision
Apprentissage des paramètres du perceptron
Mesure de risque : L(y1 , y2 ) = −y1 · y2 1{y1 ,y2 }

Fonction objectif mesurant le risque empirique
X
L=−
b yi (< w, xi > +w0 )
i∈I
avec I ensemble des indices des observations mal classées

Minimisation?
Dérivées partielles de la fonction objectif
∂b
L X
=− yi
∂w0
i∈I
X
L=−
∇wb yi xi
i∈I
Algorithme utilisant le gradient stochastique

! ! !
w0 w0 y
∀(x, y), si y (< w, x > +w0 ) ≤ 0 alors ← +η
w w yx

Algorithme du perceptron
Training set S = {(xi , yi ), i ∈ {1, · · · , m}}

Initialize the weights w(0) ← 0
t←0
Learning rate η > 0
repeat
Choose randomly an example (x(t) , y(t) ) ∈ S
if y < w(t) , x(t) < 0 then
w0 ← w0 + η × y(t)
w(t+1) ← w(t) + η × y(t) × x(t)
t ←t+1
until t > T
Convergence de l’algorithme?
Convergence du perceptron
[Novikoff, 1962] a montré que

s’il existe un poids w∗ tel que
∀i ∈ {1, · · · , n}, yi × < w∗ , xi > > 0

<w∗ ,xi >
et si on note ρ = mini yi × kw∗ k
, R = max kxi k
et si on a w(0) = 0, η = 1
on a une borne sur le maximum d’updates `
` ≤ (R/ρ)2

1 ClassifBinaire

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1 ClassifBinaire

Transféré par

Droits d'auteur :

Formats disponibles

Régression logistique Le perceptron

Commentaires sur le graphique

La distribution complémentaire log–log

p(x) = 1 − exp(− exp(β0 + β1 x)) .

Estimation par maximum de vraisemblance

Estimation par maximum de vraisemblance

∂`n (y|x, β) X exp(β0 + β1 xi )

Hypothèse : les xi sont i.i.d. de loi de densité λ non nulle sur un

l’espace des paramètres est compact alors

Influence de la variable explicative

Hypothèse alternative = influence significative de X sur Y

Revient à tester le sous modèle où β = (β0 , 0) contre le modèle

Test du rapport de vraisemblances

Plus Λ(y|x) grand, plus on a tendance à rejeter l’hypothèse nulle.

Fonction de prédiction linéaire de paramètre w = (w0 , w) ∈ R × Rd

Question : trouver les paramètres en minimisant la distance entre les

Apprentissage des paramètres du perceptron

Mesure de risque : L(y1 , y2 ) = −y1 · y2 1{y1 ,y2 }

avec I ensemble des indices des observations mal classées

Apprentissage des paramètres du perceptron

Dérivées partielles de la fonction objectif

Algorithme utilisant le gradient stochastique

Apprentissage des paramètres du perceptron

Training set S = {(xi , yi ), i ∈ {1, · · · , m}}

[Novikoff, 1962] a montré que

∀i ∈ {1, · · · , n}, yi × < w∗ , xi > > 0

Vous aimerez peut-être aussi