Vous êtes sur la page 1sur 2

Statistique en grande dimension et Apprentissage A.

Dalalyan
Master MVA, ENS Cachan 2011/2012
EXAMEN
Dure : 2h. Tous les documents sont autoriss. Les trois exercices sont compltement indpendants.
Exercice 1 [7 points]
On considre le problme de classication binaire avec } = 0; 1 et A R
2
. On suppose que
Y
i
= 1l(U
i
> 1) o (X
1
, U
1
), . . . , (X
n
, U
n
) R
2
R sont iid de densit (par rapport la mesure de
Lebesgue) :
f
(X,U)
(x
1
, x
2
, u) = C[x
1
[1l(x
2
1
+ x
2
2
4)e
u[x
1
[
1l(u 0), (x
1
, x
2
, u) R
3
.
Ici, C est une constante de normalisation.
1. Quelle est la densit marginale du vecteur X
i
? Est-ce la densit dune loi usuelle ?
2. Quelle est la densit conditionnelle f
U[X
(u[x) de U
i
sachant X
i
? Reconnaissez-vous la densit
dune loi usuelle ?
3. Exprimer E[Y
i
[X
i
= x] laide de la densit f
U[X
(u[x). En dduire la forme explicite du classieur
de Bayes g

. A t-on besoin de la deuxime coordonne des X


i
pour prvoir Y
i
?
4. Montrer que C = 1/4 et que le risque de classication de g

est donne par la formule :

1
_
ln2
0
(1 e
x
1
)
_
4 x
2
1
dx
1
+
1
_
2
ln2
e
x
1
_
4 x
2
1
dx
1
.
A titre dinformation, un calcul numrique montre que cette expression est gale 0.2943.
Exercice 2 [7 points]
On considre le modle de rgression design xe :
Y
i
= f (x
i
) +
i
, i = 1, . . . , n.
Soit
1
, . . . ,
M
un dictionnaire dans lequel f admet une reprsentation parcimonieuse :
f (x) =
M

m=1

m
(x), avec |

|
0
M.
Dans ce qui suit, on utilise la notation f

(x) =
M
m=1

m

m
(x). Soit

lestimateur Lasso dni par

arg min
R
M
_
1
n
n

i=1
_
Y
i
f

(x
i
)
_
2
+||
1
_
, (1)
o est un paramtre positif.
1. Posons Z
m
=
1
n

n
i=1
Y
i

m
(x
i
). Montrer que si la matrice
=
1

n
_
_
_

1
(x
1
) . . .
M
(x
1
)
.
.
.
.
.
.
.
.
.

1
(x
n
) . . .
M
(x
n
)
_
_
_
est orthogonale (cest--dire

= I
M
), alors lestimateur Lasso vrie

arg min
R
M
M

m=1
_
(Z
m

m
)
2
+[
m
[
_
. (2)
1
2. On suppose que les
i
sont iid desprance 0 et de variance 1. Calculer lesprance de Z
m
et sa
variance (sous la condition

= I
M
).
3. Prouver que si Z 0, alors
arg min
uR
_
(Z u)
2
+[u[
_
=
_
Z

2
, si Z /2,
0, sinon.
Indication : on pourra commencer par vrier que la fonction u (Z u)
2
+ [u[ est dcrois-
sante sur ] ; 0] et en dduire que son minimum est forcment attaint sur [0, +[.
4. Prouver que si

est une solution de (2) alors on a
m 1, . . . , M

m
=
_
[Z
m
[

2
_
+
sign(Z
m
),
cest--dire que Lasso concide avec le seuillage doux.
Exercice 3 [10 points]
Soient X
i
, i = 1, . . . , n des variables iid de densit f sur [0, 1]. On suppose que f L
2
([0, 1]) et dsigne
par g, g
/
le produit scalaire usuel de deux fonctions de L
2
. Soit
k
: k N une base orthonorme
de L
2
([0, 1]).
On note
2
(N) lensemble des suites (u
k
)
kN
de carr sommables. Pour deux suites u, u
/

2
(N), on
utilise le produit scalaire usuel u, u
/
=
kN
u
k
u
/
k
.
1. On pose
k
= f ,
k
pour tout k N. Montrer que lestimation de f quivaut lestimation
de la suite = (
k
)
kN
pourvu que lerreur destimation soit mesure dans les deux cas par
lesprance du carr de la distance entre lestimateur et la vraie valeur.
2. Montrer que

k
=
1
n
n

i=1

k
(X
i
)
est un estimateur sans biais de
k
. Vrier que la variance de

k
est donne par
1
n
_
_
1
0

2
k
(x) f (x) dx
2
k
_
.
En supposant que sup
x[0,1]
f (x) L, montrer que la variance de

k
est borne par L/n.
3. On suppose maintenant que (
k
) vrie
2p
(x)
2
+
2p+1
(x)
2
= 2 pour tout x et pour tout p N.
Montrer que le risque de lestimateur

= (

k
)
kN
est gal +. Quelle est la raison de cette
explosion du risque : le sur-lissage (undertting) ou le sous-lissage (overtting) ?
4. Pour pallier ce dfaut, on utilise un estimateur tronqu (K est un entier positif) :

K
=
_

k
; si k K,
0, sinon.
Montrer que le biais de cet estimateur dcrot avec K alors que sa variance est borne par LK/n.
5. On suppose maintenant que les coefcients
k
de la vraie densit, en plus dtre de carr som-
mables, vrient la proprit dellipsode suivante :

kN
k
2

2
k
L
o et L sont deux constantes positives. Montrer que le biais de lestimateur tronqu vrie :

kN

E[

K
k
]
k
[
2

L
K
2
.
6. En supposant et L connus, proposer un choix de K pour lequel le risque quadratique E[|f

K

f |
2
2
] est major par Cn
2/(2+1)
. Comment cela se compare avec les vitesses des convergences
vues en cours ?
2