Académique Documents
Professionnel Documents
Culture Documents
Exercice 7.1. Soit X une variable aléatoire dans X ⊂ Rp de densité p(x) et Y une variable
aléatoire dans Y = {0; 1}. On suppose connue P(Y = 1|X).
1) On considère la fonction de perte suivante :
6 ỹ
1 si y =
L(y, ỹ) = ≡ 1{y6=ỹ} ,
0 si y = ỹ
On note R(h) l’espérance de la fonction de perte pour le classifieur h, c’est-à-dire R(h) =
E(X,Y ) (L(Y, h(X))).
Déterminer le classifieur h∗ : X → Y qui permet de minimiser R(h).
Solution:
1) On cherche à minimiser E(X,Y ) (L(Y, h(X))). Par conditionnement et avec le
théorème de Fubini, nous obtenons:
E(X,Y ) (L(Y, h(X))) = EX EY |X L(Y, h(X)|X)
= EX P(Y = 1|X)Ih(X)6=1 + P(Y = 0|X)Ih(X)6=0
= EX ((1 − h(X))P(Y = 1|X) + h(X)P(Y = 0|X))
Z
= [(1 − h(x))P(Y = 1|X = x) + h(x)P(Y = 0|X = x)] p(x)dx.
X
Finalement, il vient :
∗ 1 si π1 f1 (x) > π0 f0 (x)
h (x) =
0 si π0 f0 (x) > π1 f1 (x)
2. Si l’on ne connait pas les différents paramètres, proposer une estimation de ceux-ci à
partir d’un échantillon i.i.d. (xi , yi )1≤i≤n .
3. Si la covariance Σ ne peut être considérée commune aux deux groupes, quel est
l’impact sur la frontière de décision ?
Solution:
1 > −1 1 > −1
π1 exp − (x − µ1 ) Σ (x − µ1 ) = π0 exp − (x − µ0 ) Σ (x − µ0 ) ,
2 2
Pour les paramètres des lois normales multivariées, le plus simple est d’utiliser la
méthode des moments, en estimant µˆ0 comme moyenne empirique sur l’ensemble des
xi tels que yi = 0 et µˆ1 comme moyenne empirique sur l’ensemble des xi tels que
yi = 1:
1 X 1 X
µ̂1 = xi et µ̂0 = xi .
n1 i:y =1 n0 i:y =0
i i
Pour la variance, on considère l’ensemble des points centrés (xi − µ̂0 )i:yi =0 et (xi −
µ̂1 )i:yi =1 , et on prend la matrice de covariance empirique qui leur est associée:
!
1 X X
Σ̂ = (xi − µ̂0 )(xi − µ̂0 )> + (xi − µ̂1 )(xi − µ̂1 )> .
n i:y =0 i:y =1
i i
Remarque. Il est tout à fait possible d’obtenir ces estimateurs par maximum de
vraisemblance, comme nous le verrons dans un TD à venir sur les modèles de mélange
gaussiens.
3. Dans le cas de matrice de covariances hétérogènes, il vient :
1 1 > −1
f0 (x) = exp − (x − µ0 ) Σ0 (x − µ0 )
(2π)p/2 |Σ0 |1/2 2
1 1 > −1
f1 (x) = exp − (x − µ1 ) Σ1 (x − µ1 )
(2π)p/2 |Σ1 |1/2 2
Solution:
1. Nous allons utiliser l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) pour estimer le vecteur de
paramètre β par la méthode du maximum de vraisemblance. Cette méthode consiste
à chercher β = (β0 , β1 , ..., βp )> qui maximise la vraisemblance définie par :
n
Y n
Y
L(β) = P(Y = yi |Xi ) = πiyi (1 − πi )1−yi
i=1 i=1
Pn n
πi
o
= i=1 Y i log 1−πi )
+ log(1 − π i )
Pn
Yi Xi> β − log 1 + exp(Xi> β)
= i=1
Par conséquent,
n
∂ 2L X
H(β) = >
= − Xi Xi> πi (1 − πi ) = −X> VX
∂β∂β i=1
(s) (s)
où V(s) est la matrice diagonale de dimension n × n formée des πi (1 − πi ) avec
>
(s) exp(β (s) Xi )
πi = et π (s) le vecteur de dimension n tel que le ième élément
(s) >
1 + exp(β Xi )
(s)
égal πi .