TD 7: Méthodes de Classification

TD 7: Méthodes de classification
Exercice 7.1. Soit X une variable aléatoire dans X ⊂ Rp de densité p(x) et Y une variable
aléatoire dans Y = {0; 1}. On suppose connue P(Y = 1|X).
1) On considère la fonction de perte suivante :

6 ỹ
1 si y =
L(y, ỹ) = ≡ 1{y6=ỹ} ,
0 si y = ỹ
On note R(h) l’espérance de la fonction de perte pour le classifieur h, c’est-à-dire R(h) =
E(X,Y ) (L(Y, h(X))).
Déterminer le classifieur h∗ : X → Y qui permet de minimiser R(h).
2) On suppose maintenant que :
p(x|Y = 1) = f1 (x), p(x|Y = 0) = f0 (x), P(Y = 1) = π1 , P(Y = 0) = π0 = 1−π1 .
Exprimer h∗ (x) dans ce cas.
Solution:
1) On cherche à minimiser E(X,Y ) (L(Y, h(X))). Par conditionnement et avec le
théorème de Fubini, nous obtenons:

E(X,Y ) (L(Y, h(X))) = EX EY |X L(Y, h(X)|X)

= EX P(Y = 1|X)Ih(X)6=1 + P(Y = 0|X)Ih(X)6=0
= EX ((1 − h(X))P(Y = 1|X) + h(X)P(Y = 0|X))
Z
= [(1 − h(x))P(Y = 1|X = x) + h(x)P(Y = 0|X = x)] p(x)dx.
X
La minimisation est obtenue en minimisant ponctuellement pour p-presque tout x.

Soit x ∈ X tel que p(x) > 0, nous allons donc chercher α∗ = h∗ (x):
α∗ = arg min [(1 − α)P(Y = 1|X = x) + αP(Y = 0|X = x)] .

{0;1}
= arg min [α (P(Y = 0|X = x) − P(Y = 1|X = x))]

{0;1}
Il s’agit donc de comparer la probabilité conditionnelle au seuil 1/2, et donc

∗ ∗ 1 si P(Y = 1|X = x) > 1/2
h (x) = α =
0 si P(Y = 1|X = x) < 1/2
2. Par la formule de Bayes, nous pouvons exprimer:
p(x|Y = 1)P(Y = 1) π1 f1 (x)

P(Y = 1|X = x) = =
p(x) π0 f0 (x) + π1 f1 (x)
et
π0 f0 (x)
P(Y = 0|X = x) =
π0 f0 (x) + π1 f1 (x)
Finalement, il vient :

∗ 1 si π1 f1 (x) > π0 f0 (x)
h (x) =
0 si π0 f0 (x) > π1 f1 (x)
Dans le cas limite, π0 f0 (x) = π1 f1 (x), on peut prendre 0 ou 1 indifféremment.
Exercice 7.2. Analyse discriminante linéaire et quadratique

Replacons nous dans le cadre de l’exercice 1.
1. Supposons f0 et f1 gaussiennes mais tel que la covariance est homogène entre les deux
classes, et donc que X|Y = 0 ∼ N (µ0 , Σ) et X|Y = 1 ∼ N (µ1 , Σ). On suppose de
plus Σ inversible. Montrer que dans ce cas la frontière de décision du classifieur h∗ est
linéaire. Donner l’équation de l’hyperplan séparateur.
2. Si l’on ne connait pas les différents paramètres, proposer une estimation de ceux-ci à
partir d’un échantillon i.i.d. (xi , yi )1≤i≤n .
3. Si la covariance Σ ne peut être considérée commune aux deux groupes, quel est
l’impact sur la frontière de décision ?
Solution:
1. Nous avons, pour j = 0, 1 :

1 1 > −1
fj (x) = exp − (x − µj ) Σ (x − µj ) .
(2π)p/2 |Σ|1/2 2
La frontière de décision π0 f0 (x) = π1 f1 (x) est donc donnée par:

1 > −1 1 > −1
π1 exp − (x − µ1 ) Σ (x − µ1 ) = π0 exp − (x − µ0 ) Σ (x − µ0 ) ,
2 2
en prenant le logarithme et en simplifiant, il vient :

π1 1 1 > −1
ln + x> Σ−1 (µ1 − µ0 ) − µ> −1
1 Σ µ1 + µ0 Σ µ0 = 0.
π0 2 2
qui correspond bien à une frontière de décision linéaire en x.
2. π1 = P (Y
Pn= 1) est le paramètre d’une loi de Bernoulli, on prend donc: πˆ1 = n1 /n,
avec n1 = i=1 yi et n0 = n − n1 . On a directement πˆ0 = 1 − πˆ1 .
Pour les paramètres des lois normales multivariées, le plus simple est d’utiliser la
méthode des moments, en estimant µˆ0 comme moyenne empirique sur l’ensemble des
xi tels que yi = 0 et µˆ1 comme moyenne empirique sur l’ensemble des xi tels que
yi = 1:
1 X 1 X
µ̂1 = xi et µ̂0 = xi .
n1 i:y =1 n0 i:y =0
i i
Pour la variance, on considère l’ensemble des points centrés (xi − µ̂0 )i:yi =0 et (xi −
µ̂1 )i:yi =1 , et on prend la matrice de covariance empirique qui leur est associée:
!
1 X X
Σ̂ = (xi − µ̂0 )(xi − µ̂0 )> + (xi − µ̂1 )(xi − µ̂1 )> .
n i:y =0 i:y =1
i i
Cet estimateur est biaisée et on lui préférera sa version non-biaisée :

!
1 X
>
X
>
Σ̂ = (xi − µ̂0 )(xi − µ̂0 ) + (xi − µ̂1 )(xi − µ̂1 ) .
n−2 i:yi =0 i:yi =1
Remarque. Il est tout à fait possible d’obtenir ces estimateurs par maximum de
vraisemblance, comme nous le verrons dans un TD à venir sur les modèles de mélange
gaussiens.
3. Dans le cas de matrice de covariances hétérogènes, il vient :

1 1 > −1
f0 (x) = exp − (x − µ0 ) Σ0 (x − µ0 )
(2π)p/2 |Σ0 |1/2 2

1 1 > −1
f1 (x) = exp − (x − µ1 ) Σ1 (x − µ1 )
(2π)p/2 |Σ1 |1/2 2
Les paramètres s’estiment de la même manière que précédemment, pour j = 0, 1 :

1 X 1 X
π̂j = nj /n, µ̂j = xi et Σ̂j = (xi − µ̂j )(xi − µ̂j )> .
nj i:y =j nj − 1 i:y =j
i i
Les termes quadratiques ne se simplifient plus dans l’équation de la frontière de déci-

sion, et donc π1 f1 (x) = π0 f0 (x) est équivalent à:

π1 1 Σ1 1 1
ln − ln − (x − µ1 )> Σ−1 > −1
1 (x − µ1 ) + (x − µ0 ) Σ0 (x − µ0 ) = 0.
π0 2 Σ0 2 2
La frontière de décision est alors quadratique en x.
Exercice 7.3. La régression Logistique

La régression logistique est un modèle de régression qui permet de traiter le cas où la
variable à expliquer est binaire Y .
Soit (X1 , Y1 ), . . . , (Xn Yn ), un échantillon de couples (Xi , Yi ) indépendants avec Yi ∈
{0, 1} et Xi ∈ Rp un vecteur de p variables explicatives. Le modèle de régression logistique
suppose que :

πi
log = β > Xi
1 − πi
où πi = P(Yi = 1|Xi ). La fonction croissante

π
]0, 1[→ R : π → log
1−π
est apppelée fonction logistique
1. Écrire la log-vraisemblance (conditionnelle) de l’échantillon en fonction de β
2. Il n’existe pas de solution analytique pour maximiser la vraisemblance et un algorithme
itératif de type Newton-Raphson est utilisé. Cet algorithme itératif prend la forme générale
suivante :
β (s+1) = β (s) − [H(β (s) )]−1 U(β (s) )
où U(β s ) et H(β s ) sont respectivement le vecteur score et la matrice des dérivées
secondes de la log-vraisemblance.
Donner les expressions de U(β s ) et H(β s ) dans le cadre du modèle logitisque et en
déduire l’équation de récurrence reliant β s+1 à β s .
Solution:
1. Nous allons utiliser l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) pour estimer le vecteur de
paramètre β par la méthode du maximum de vraisemblance. Cette méthode consiste
à chercher β = (β0 , β1 , ..., βp )> qui maximise la vraisemblance définie par :
n
Y n
Y
L(β) = P(Y = yi |Xi ) = πiyi (1 − πi )1−yi
i=1 i=1
On recherche alors β̂ = (βˆ0 , βˆ1 , ..., βˆp )> maximisant la log-vraisemblance :

L(β) = log(L(β)) = ni=1 {yi log(πi ) + (1 − yi )log(1 − πi )}
P
Pn n
πi
o
= i=1 Y i log 1−πi )
+ log(1 − π i )
Pn
Yi Xi> β − log 1 + exp(Xi> β)

= i=1
2. En annulant les dérivées de la log-vraisemblance par rapport au βj , on aboutit au

système d’équations suivant (appelé équation du score):
 ∂L     ∂L(β) Pn
∂β0 0  ∂β0 = i=1 (yi − πi ) = 0

 ..   .. 
U(β) =  .  =  .  ⇐⇒
∂L
0  ∂L(β) = Pn X (j) (y − π ) = 0, j = 1, ..., p

∂βp ∂βj i=1 i i i
qui n’a pas de solution analytique. La recherche des β̂ maximisant la log-vraisemblance
s’effectue usuellement via l’algorithme de Newton-Raphson qui requiert le calcul des
dérivées premières et secondes de la log-vraisemblance.
Posons X la matrice formée d’une première colonne de coordonnées constantes égales
à 1 et des p colonnes correspondant aux variables X (1) , . . . , X (p) observées sur les
n individus. Posons V la matrice diagonale formée des πi (1 − πi ) et π le vecteur
de probabilités tel que le ième élément égal πi , on peut écrire les p + 1 equations du
score sous forme matricielle.
∂L
U(β) = = X> (y − π)
∂β
Notons H, la matrice hessienne des dérivées secondes de la log-vraisemblance dont le

terme général est défini par :
n
X (j) (k) exp(β > Xi ) n
∂ 2L X (j) (k)
[H(β)]jk = =− Xi Xi >
= − Xi Xi πi (1 − πi )
∂βj ∂βk i=1
(1 + exp(β X i ) 2
i=1
Par conséquent,
n
∂ 2L X
H(β) = >
= − Xi Xi> πi (1 − πi ) = −X> VX
∂β∂β i=1
La matrice des dérivées secondes de la log-vraisemblance étant définie négative, on

peut en conclure que la log-vraisemblance est une fonction concave et possède donc
un maximum en annulant le vecteur de score U(β) formée des dérivées premières.
La méthode de Newton-Raphson permet une résolution numérique des équations du

score et permet de construire une suite β (s) convergeant vers l’estimateur du maxi-
mum de vraisemblance. L’équation reliant β (s+1) à β (s) est donnée par :
−1
β (s+1) = β (s) − [H(β (s) )]−1 U(β (s) ) = β (s) + X> V(s) X X> (y − π (s) )
(s) (s)
où V(s) est la matrice diagonale de dimension n × n formée des πi (1 − πi ) avec
>
(s) exp(β (s) Xi )
πi = et π (s) le vecteur de dimension n tel que le ième élément
(s) >
1 + exp(β Xi )
(s)
égal πi .

TD 7: Méthodes de Classification

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TD 7: Méthodes de Classification

Transféré par

Droits d'auteur :

Formats disponibles

TD 7: Méthodes de classification

2) On suppose maintenant que :

p(x|Y = 1) = f1 (x), p(x|Y = 0) = f0 (x), P(Y = 1) = π1 , P(Y = 0) = π0 = 1−π1 .

Exprimer h∗ (x) dans ce cas.

La minimisation est obtenue en minimisant ponctuellement pour p-presque tout x.

α∗ = arg min [(1 − α)P(Y = 1|X = x) + αP(Y = 0|X = x)] .

= arg min [α (P(Y = 0|X = x) − P(Y = 1|X = x))]

Il s’agit donc de comparer la probabilité conditionnelle au seuil 1/2, et donc

p(x|Y = 1)P(Y = 1) π1 f1 (x)

Dans le cas limite, π0 f0 (x) = π1 f1 (x), on peut prendre 0 ou 1 indifféremment.

Exercice 7.2. Analyse discriminante linéaire et quadratique

1. Nous avons, pour j = 0, 1 :

La frontière de décision π0 f0 (x) = π1 f1 (x) est donc donnée par:

en prenant le logarithme et en simplifiant, il vient :

Cet estimateur est biaisée et on lui préférera sa version non-biaisée :

Les paramètres s’estiment de la même manière que précédemment, pour j = 0, 1 :

Les termes quadratiques ne se simplifient plus dans l’équation de la frontière de déci-

La frontière de décision est alors quadratique en x.

Exercice 7.3. La régression Logistique

On recherche alors β̂ = (βˆ0 , βˆ1 , ..., βˆp )> maximisant la log-vraisemblance :

2. En annulant les dérivées de la log-vraisemblance par rapport au βj , on aboutit au

Notons H, la matrice hessienne des dérivées secondes de la log-vraisemblance dont le

La matrice des dérivées secondes de la log-vraisemblance étant définie négative, on

La méthode de Newton-Raphson permet une résolution numérique des équations du

Vous aimerez peut-être aussi