Estimation Par Selection de Modeles Estimating by Models Selection

SOMMAIRE
Sommaire Remerciements 1 RAPPELS ET HYPOTHESES DE MAJORATION
1 3 10
1.1 Rappel de quelques denitions et Outils de bases 1.1.1 Denition . . . . . . . . . . . . . . . . . . 1.1.2 Proprits . . . . . . . . . . . . . . . . . . 1.1.3 Quelques exemples de divergences . . 1.2 Relation entre le Hellinger et la distance de L2 . . 1.2.1 Proposition . . . . . . . . . . . . . . . . . 1.3 Quelques cas particuliers . . . . . . . . . . . . . . 1.3.1 Proposition 2 . . . . . . . . . . . . . . . . 2.1 Le risque de Hellinger . 2.1.1 Denition . . . 2.1.2 Theoreme1 . . 2.1.3 Theoreme2 . . 2.1.4 Application . . 2.2 Le risque de L2 . . . . 2.2.1 Theoreme3 . . 2.2.2 Preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
10 10 11 11 11 14 15 17
MAJORATION DU RISQUE
. . . . . . . .
. . . . . . . .
. . . . . . . .
18
19 19 19 20 22 23 23 24
Draft Version 21 mars 2012
MOTIV ATIONS ET HEURISTIQUES
3.1 ILLUSTRATION AVEC DES VARIABLES ALEATOIRES . . . . . 3.1.1 Estimation d'une rpartition apparemment uniforme . . . . 3.1.2 Estimation adaptative dans les espaces de Besov . . . . . . . 3.1.3 Slection de modles en rgression borne support alatoire 3.2 DIFFICULTES LIES A L'ESTIMATEUR . . . . . . . . . . . . . . 3.2.1 l'irregularite du processus de probabilite . . . . . . . . . . . 3.2.2 dicultes lies a la taille de l'espace des parametres . . . . . 4.1 T-ESTIMATEUR . . . . . . . . . . . . . . 4.1.1 Denition . . . . . . . . . . . . . . 4.1.2 Hypotheses de base . . . . . . . . . 4.2 D-MODEL . . . . . . . . . . . . . . . . . . 4.2.1 Denition . . . . . . . . . . . . . . 4.2.2 Proprites elementaires du D-model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
26
26 26 27 28 29 30 30 32 32 33 35 36 36
CONSTRUCTION D'UN T-ESTIMATEUR
32
APPLICATIONS T-ESTIMATEUR BASE SUR UN D-MODEL
5.1 CAS PARTICULIER . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Le processus gaussien . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 la regression gaussienne . . . . . . . . . . . . . . . . . . . . . 5.2 DU CAS GENERAL AU CAS PARTICULIER . . . . . . . . . . . . 5.2.1 Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 regression bornee . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 observations independantes . . . . . . . . . . . . . . . . . . . 5.3 UNE APPLICATION AU MODELE DE DISTRIBUTION UNIFORME
38
38 38 40 41 41 41 42 43
Conclusion Annexe A bibliographie
46 48 51
.1
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
Bibliographie
52
REMERCIEMENTS
C'est bien sr Monsieur Papa NGOM, mon directeur de mmoire ,que je voudrais remercier en premire place . J'ai eu la chance de proter de ses visions profondes,de ses immenses connaissances mathmatiques ,et de ses ides enrichissantes. Il m'a guid dans un domaine mathmatique si intrressant et il a consacr de nombreuses heures discuter avec moi et lire mes textes et corriger des fautes typographiques. Je voudrais lui exprimer tous mes remerciements, pour sa disponibilit, son soutien ,et ses encouragements permanents. Je remercie autant les professeurs Monsieur Djaraf SECK d'avoir accept de presider le jury, Monsieur Abdoulaye SENE qui est le premier m'expliquer des notions d'analyses que j'ai utilis dans ce document, Monsieur Moussa BALDE pour sa disponibilit et ses ides pertinentes, Monsieur Amadou Lamine FALL pour m'avoir aid sur le latex en me donnant sa licence de winedit. Monsieur Gabriel NDIAYE, Monsieur Souleye KANE,Monsieur BARRY, Monsieur Djibril NDIAYE pour leur soutien moral et encouragements. Mention special mes chers amis avec qui j'ai partag des moments de joies et de galeres et qui m'ont donn tout leur soutien. 3
Draft Version 21 mars 2012
Je remercie les membres du jury et toute l'assistance.
Introduction Une mthode classique pour l'stimation d'une densit (inconnue ou de rgression) fonction s de n observations est de construire un modle paramtrique pour s Soit un ensemble S de fonctions dcrites par D paramtres, et de procder l'estimation, comme si s appartenait au modle, qui se traduit par un estimateur Es [ s s 2 ]. Puisque s est inconnu, nous ne disposons gnralement pas susamment d'informations pour construire un bon modle conduisant un estimateur avec un petit risque. Une faon de rsoudre ce problme est de commencer avec une famille nombreuse {Sm , m D} de tels modles et de la famille correspondante des estimateurs , puis d'utiliser les donnes pour slectionner un modle ou un estimateur quivalent de la famille. C'est ce qu'on appelle la slection du modle. Il peut souvent tre considre comme une procdure de slection de variables qui permet de slectionner un petit nombre de fonctions (les variables) partir d'un ensemble de ces fonctions de cardinal voire beaucoup plus grand que le nombre d'observations. Dans ce document, nous tudions un cadre statistique dans lequel on observe n couples alatoires (Xi , Yi ) avec Yi R , Xi appartient un certain espace mesurable (typiquement un sous ensemble de Rk )et
Yi = s(Xi ) + i
avec 1 < i < n O les variables alatoires i sont i.i.d centres et indpendantes Xi et s est une fonction inconnue (paramtre) estimer . On note la distribution commune des Xi et on s'assure que s le paramtre inconnu appartient un sous ensemble de L2 et que la distribution de i est normale et de variance 2 . Tel est le cadre prcis que nous appelons la rgression gaussienne alatoire, en dsignant par 2 et les normes dans L2 et L respectivement. Classiquement lors de l'estimation on utilisait la modication de la distance de L2 comme fonction de perte qui se traduit par une fonction de risque E[(s s)2 ], o E 5
dsigne l'esprance pour s obtenu. La plupart des rsultats concernant ce modle utilisent une hypothse supplmentaire sur les deux paramtres et les estimateurs comme dans Judistsky et Nemirovski(2000), Yang(2002) et Wegkamp(2003). En principe les limites suprieures n'ont pas besoin d'tre connues pour la construction de la procdure de slection, nanmoins d'un point de vue raliste, la borne suprieure sur les estimateurs doit tre bien choisie par le statisticien, il ne peut tre choisi que de faon raisonnable, si une borne inferieure sur les paramtres est connue au moins approximativement. Il y'a deux exceptions notables l'utilisation des bornes suprieures sur l'espace des paramtres qui sont celles de Brown, Cai, Low et Zhang (2002) et Baraud(2002). -Le premier document traite de l'quivalence des expriences pour la rgression support alatoire et le modle de bruit blanc ; mais l'quivalence n'est valable que pour les boules compactes de Hlder ou des espaces de Sobolev de rgularit > 1/2, tandis que nous le montrerons ci-dessous qu'il y'a des problmes lorsque < 1/2. Nous rappelons que le modle du bruit blanc sur [0, 1] correspond l'observation du processus 1 Yt , t [0, 1] o Yt = 0 s(x)dx + W (t)/ n W dsigne le mouvement brownien standard et s L2 ([0, 1], dx) est le paramtre inconnu estimer. Le risque d'un estimateur est encore donn par E[|s s|2 ] . -Le second document est celui de baraud, il vite l'utilisation des limites L 2 parmi les rsultats les plus gnraux sur le choix du modle, il rcupre le n 2+1 taux habituel pour l'estimation dans les espaces de Besov avec l'indice > L o 1/p 1/2 < L < 1/p pour 1 < p < 2 Dans le cas du bruit blanc, un modle provient de ce taux pour > 1/p 1/2 comme dans la litterature de Donoho et Johnstone(1994) utilise par Baraud, Massart Huet. Ainsi,le premier chapitre de notre document traite de l'importance des hypothses de majoration. Dans celui-ci nous allons d'abord montrer la relation qui existe entre le Hellinger et la distance de L2 , puis donner quelques cas particuliers lis au choix. Au deuxime chapitre, nous parlons de la borne suprieure du risque. Pour cela, 6
nous allons d'abord denir le hellinger puis nous utilisons le risque de Hellinger. Le troisime chapitre est divis en deux sections d'introduction qui donnent la fois des motivations et heuristiques pour la construction de notre estimateur. Dans celui-ci, nous illustrons d'abord, travers trois exemples, certaines faiblesses de la mthode du maximum de vraisemblance : il ne fonctionne pas du tout lorsque le processus de vraisemblance se comporte de manire erratique, il n'est pas robuste et il peut tre dup par la grandeur de l'ensemble des paramtres, mme si nous voulons simplement pour estimer la moyenne d'un vecteur gaussien l'identit matrice de covariance sous l'hypothse que cela signie appartient un convexe, compact d'un espace euclidien de grande dimension. Une analyse attentive des performances de l'EMV sur un ensemble ni fournit ensuite des indications sur une solution possible aux problmes mentionns ci-dessus. Dans le chapitre 4, nous allons d'abord expliquer les constructions de T-estimateurs bass sur un ensemble discret S et une famille de tests entre les points de cet ensemble, ensuite, nous nonons les hypothses qui devraient tre satisfaites par S et les tests lorsque S peut tre considr comme un modle unique pour le paramtre inconnu estimer. Puis nous donnons les limites rsultant des risques pour T-estimateurs et montrons que les hypothses requises sont remplies pour le cadre que nous considrons ici : variables indpendantes, des squences de Gauss et rgression borne. Le chapitre 5 est consacr diverses applications. En particulier, nous montrons comment mlanger les modles paramtriques et non paramtriques pour estimation. Dans le cadre des suites gaussiennes, nous montrons que T-estimateurs non seulement permettent de retrouver tous les rsultats de Birg et Massart [3], car ils peuvent traiter de la mme manire des familles arbitraires de modles linaires, mais aussi permettre de mlanger d'autres types de modles avec les prcdentes, peut-tre de dimension innie comme ellipsodes ou de dimension nie, mais non-linaire, comme des modles paramtriques classiques. Quant l'estimation de densit avec une perte de Hellinger, notre analyse montre que tout rsultat sur les T-estimateurs, nous pouvons prouver dans le cadre du bruit blanc a un paralllisme avec l'estimation de la densit, qui est loin d'tre vrai avec les estimateurs de minimum de contraste. En particulier, nous considrons ici le problme de l'estimation adaptative sur les boules de Besov gnral avec une perte de Hellinger, mais tous les autres rsultats de [3] dans le cas du bruit blanc pourraient tre transfrs l'estimation de densit avec une perte de Hellinger de la mme manire.
CHAPITRE 1 RAPPELS ET HYPOTHESES DE MAJORATION
1.1 Rappel de quelques denitions et Outils de bases

1.1.1 Denition
P et Q deux distributions de probabilits dans un espace telles que Q absolument
continue par rapport P

une fonction convexe de R+ R+ telle que (1) = 0 On appelle divergence
entre P et Q la fonction denie par

D (Q, P ) = ( dQ )dP dP
Remarque Si Q est absolument continue par rapport P , on pose D (Q, P ) = +. Si P et Q sont absolument continues par rapport la mesure de Lebesgue de alors leurs densits respectives p et q telles que dP = pd et dQ = qd, la 8
CHAPITRE 1. RAPPELS ET HYPOTHESES DE MAJORATION
divergence s'ecrit D (Q, P ) =
q(x) )p(x)d(x) p(x)
Avec
0 0( 0 ) = 0, a a = a lim0 (), 0( a ) = a lim+ 0 0 ()
1.1.2 Proprits
P, Q, D (Q, P ) 0 P, Q P alors (Q, P ) D (Q, P ) est convexe P, Q P on a generalement D (Q, P ) = D (P, Q)
1.1.3 Quelques exemples de divergences

Kull-Back Leiber : (x) = x ln x on a alors D (Q, P ) = Variation Totale : (x) = |x 1| on a alors D (Q, P ) =
2 divergence : (x) = (x 1)2 on a alors D (Q, P ) =
q p ln( p )
|p q|
(pq)2 q
Distance de Hellinger :(x) = ( x 1)2 on a alors D (Q, P ) =
1 2
( p q)2
1.2 Relation entre le Hellinger et la distance de L2

Notons par
t 0
W (t) s(x)d(x) + , t [0; 1] n
le modele du bruit blanc sur [O; 1]correspondant l'observation du processus Yt avec t [0; 1] o W represente le mouvement brownien standard et s L2 ([0; 1], dx) 9
est le parametre inconnu estimer. On note par Ps la distribution du processus Yt avec t [0; 1], le Hellinger anity entre deux probabilits Pt et Pu est donn par
(Pt , Pu ) = dPt dPu = exp( tu 8 2
2
avec
la norme de L2
1
Dans ce cas [ log (Pt , Pu )] 2 est quivalente a la distance de L2 . Dans le cas de la rgrssion gaussienne conception alatoire, la distribution Ps de (Xi , Yi ) a une densit par rapport o reprsente la mesure de lebesgue donne par
1 (y s(x))2 dPs exp( (x, y) = ) d( ) 2 2 2 Le Helliger anity et la distance de Hellinger sont alors entre les distributions Pt et Pu sont donns par les relations suivantes : (Pt , Pu ) = E[exp( (t u)2 (X) )] = 8 2
1
exp(
0
(t u)2 (x) d(x)) 8 2
et
1
h2 (Pt , Pu ) = 1
0
exp(
(t u)2 (x) )d(x) 8 2
On deduit alors partir de l'inegalit de JENSEN que

(Pt , Pu ) exp( tu 2 ) 8 2
et 10
h2 (Pt , Pu )
tu 8 2
Malheureusement les inegalits inverses ne sont pas veries en general et log n'est pas une distance et ne satisfait pas l'inegalit du genre
log[(Pt , Pu )] A( log[(Pt , Ps )] + log[(Ps , Pu )])
pour une certaine valeur A positive et constante par rapport s, t,u. Pour s'en apercevoir, on peut supposer que les Xi sont uniformement distribues sur [0; 1] et on considere trois fonctions s, t = s + 1[0, 1 ] et u = s 1[ 1 ;1] avec > 0. 2 2 Alors t u = 1[0;1] et (Pt , Pu ) = exp[ 2 ] 8
2
1 2 1 (Pt , Ps ) = (Ps , Pu ) = [1 + exp( 2 )] > 2 8 2
ce qui entraine
log[(Pt , Ps )] + log[(Ps , Pu )] < 2 log 2
or
log[(Pt , Pu )] = 2 2 > 4 2 log 2
Donc
log[(Pt , Pu )] log[(Pt , Ps )] + log[(Ps , Pu )]
tend vers l'inni suivant ce qui prouve que l'inegalit n'est pas verie par
log quelque soit la valeur du rel A. Ceci est li au fait que la dierencet u
peut etre arbitrairement grand et la situation est dierente dans le cas d'une boule de L ().
11
1.2.1 Proposition
Soit S un sous ensemble d'une boule L () de centre s0 et de rayon r ie ss0 r pour tout s S . Alors pour tout t et u dans S
1 exp( r2 ) t u (Pt , Pu ) 1 4r2 2
2
Par consequent, t u 2.03(r e)h(t, u). Preuve La deuxime ingalit est une consquence directe de la premire en posant h2 =
1 ; il sut alors de prouver la premire inegalit. On note que (t u)2 (x)/8 2 < r2 /2 et on utilise le fait que Y est une variable alatoire valeur dans [0; M ] et la
distribution PY alors
1( exp(y)dPY (y)) M 1 (1 eM )E[Y]
Cette dernire ingalit rsulte de la convexit de la fonction x xex ) par intgration de

eY = e(Y /M )M (Y /M )eM + (1 Y /M )e0
Ceci est le cas considr par la plupart des auteurs et c'est l'un des plus simples. En eet, puisqu'il s'agit d'un problme d'estimation de n observations i.i.d. Si cet estimateur appartient la meme boule L (), s s peut etre born par h2 (s, s) multipli par une constante et le carr du risque de L est egalement sous contrle. On detaillera cette methode dans la deuxieme partie du chapitre2.
12
1.3 Quelques cas particuliers

Si t u
n'est pas born, le rapport ( t u )/(h(Pt , Pu )) peut tre arbitrai-
rement grand cela entraine les dicults d'valuation du L2 risque dans ce cas ; et le rsultat obtenu par Baraud(2002) pour le risque minimax dans les boules de Besov des fonctions sur [0; 1] o dsigne la mesure de Lebesgue sur [0; 1] Pour comprendre ce qui se passe, introduisons la fonction t = a convenable si on prenait = 1/p 1 avec 0 < b < 1/2 . On pourra alors calculer le module de continuit (t, x)p de t par
1h
([0,l])
avec a > 0
et l 1/2 et les nombres , p avec 1 p < 2 et 1/p 1/2 < < 1/p 1 Ce serait
(t, x)p = sup[

0
|t(y + h) t(y)|p dy]1/p = a(x l)1/p
Cela montre que la semi norme de besov de t par rapport a l' espace de besov Bp,
est
1
| t | = sup x (t, x)p = a sup{x p 1 p

x>0 x>0
1 x p l
} = al p = alb
En xant u = t,on peut voir que

1
tu exp(
= 4a2 l et d'aprs (2.1) on a
(Pt , Pu ) =
0
4a2 )dx + (1 l) 8 2
2
alors
h2 (Pt , Pu ) = l[1 exp(
tu a2 )] = l[1 exp( 2 2 8l 2
tu 2
)]
a pour des valeurs moderes de ,ceci est de l'ordre de
Posons maintenant l =
1 2n
,a = (2)b avec R > 0 on suppose que n > 10 alors

1 1 n (Ptn , (Pu ) > [1 ]n 2n 2n
h2 (Pt , Pu )
13
et
tu
2
= 4R2 (2n)2b1
. D'une part il rsulte des limites classiques plus bas sur le risque qui remonte la Cam (1973),voir par exemple Donoho Lui (1991) qu'aucun estimateur s bas sur des observations i.id ne satisfait
max{Et [ t s
2
], Eu [ u s
]} cR2 (2n)2b1
pour une certaine constante universelle c > 0. D'autre part la semi-norme de Besov entre t et u est R. Par consquent quelque soit l'estimateur s
max Es [s s]2 cR2 (2n)2b1 = c R2 n1+2( p )
s R p 1
. Nous rappelons que le risque minimax sur les boules de Besov dans le modle du bruit blanc est connu pour tre limit par cR 2+1 n 2+1 Il s'en suit que le risque minimax dans le modele de regression sera considerablement plus grand au moins
1 pour un n grand si 2( p > 1 ) 2+1
2 2
Un calcul elementaire montre que

1 1 ( + )2 1] p 2
1 1 1 [ 2 p 2
1 1 1 1 1 ( + )2 1] < < [ + p 2 2 p 2
1 p
Le membre de gauche est plus petit que membre de droite est inferieur
1 p
1 2
et on peut facilament montrer que le

1 1 ( + )2 1] p 2
c'est dire
1 1 1 1 1 > [ p 2 2 p 2
et
1 1 1 1 > [ + p 2 p 2
1 1 ( + )2 1] p 2
Nous avons alors prouv la proposition suivante 14
1.3.1 Proposition 2
Pour 1 p < 2 on a
1 1 1 1 1 < < L = [ + p 2 2 p 2 1 1 ( + )2 1] p 2
Le taux de convergence par rapport n du risque dans les boules de besov de la forme
s/|s| R est de l'ordre de n1+2(1/p) Pour > L p
15
CHAPITRE 2 MAJORATION DU RISQUE
Comme nous l'avons mentionn dans l'introduction, le problme de rgression support alatoire est un problme d'estimation partir d'un chantillon i.i.d ; la fonction de perte choisie est la distance de Hellinger comme le montre Le Cam(1973, 1975, et 1986) La distorsion qui peut exister entre la distance de L2 et celle du Hellinger lorsqu'il s'agit des fonctions sans limites, entraine des dicults comme indiqu dans la section prcdente. Nanmoins si l'on considre le carr du risque de Hellinger au lieu de celui du L2 , on peut essentiellement rcuprer les taux habituels de convergence si l'on suppose que le vrai paramtre appartient L (). An de prouver cela, nous avons besoin de rappeler quelques rsultats de Lucien Birg propos de la slection de modle par des variables alatoires i.i.d Le travail est le suivant On observe n variables alatoires i.i.d Z1 , Z2 , ..., Zn sur l'espace mesurable Z de distribution inconnue Ps avec s M ; en supposant que l'application s Ps nous permet d'identier M avec un sous ensemble de l'ensemble de toutes les distributions sur Z. Soit h(t, ) = h(Pt , P ) transformant M un espace mtrique et on dsigne par
Bh (t, r) la boule ouverte de Hellinger de centre t et de rayon r dans M.
16
CHAPITRE 2. MAJORATION DU RISQUE
Nous avons galement introduit une famille nie dnombrable Sm , m M de sous ensemble discrets de M.
2.1 Le risque de Hellinger

Revenons maintenant notre probleme d'estimer s L2 () avec n observations partir de la formule de regression. Ici on note par d la distance de L2 et par Bd la boule ouverte correspondante. Nous allons aussi introduire ce qui suit :
2.1.1 Denition
Soit S un sous ensemble d'un espace mtrique (M, d), On dira qu'on a une dimension mtrique euclidienne dlimite par D ( pour la mtrique d) ssi pour tout
> 0, on peut trouver n de Sn pour S c'est--dire un sous ensemble de M tel que d(s, Sn ) pour tout s S Tel que pour tout t M on ait | S B(t, x) | xD
pour tout x 2 il est particulirement facile de verier que si S est K-sous espace vectoriel d'en espace de Hilbert (M, d), sa dimension euclidienne est dlimit par
(log5/log2) K Nous pouvons maintenant prouver le thoreme suivant
2.1.2 Theoreme1
Supposons quelque soit m M, il existe un m > 0 et Dm
2 m nombres m et Dm satisfont m 54 Dn et m M et 1 3
tels que
< +
| Sm Bh (t, xm ) | exp(x2 Dm ) pour tout t M et x 2 Supposons de plus que les

mM
exp( n ) = 27
Alors on peut construire un estimateur s
mM
Sm tel que pour tout s M on ait

1
2 E[h2 (s, s)] C1 inf h2 (s, Sm ) + m + C2 n
o C1 et C2 sont des constantes universelles et h(s, Sm ) = inf h(s, t) Preuve voir Birg 2003 17
2.1.3 Theoreme2
On suppose qu'on a une famille nie ou dnombrable Sm m M de sous ensemble de
L2 () avec des dimensions respectives mtriques euclidiennes dlimites par Dm 1/2 et m m M une famille de poids non ngatifs satisfaisant
m M
exp(m ) =
< + Il existe un estimateur s tel que pour tout s L2 () on ait E[h2 (s, s)] C.inf s d2 (s, Sm ) Dm m [log( ) + 2 n 1] + c n
Preuve Nous voulons appliquer le theoreme1 notre situation en prenant pour M l'ensemble de toutes les distributions Ps de (Xi, Y i) donn par la formule de rgression o
s L () Pour ce faire, on dnit pour chaque m M m = [( 27 )(2Dm n m = (m , j) M, m = jm Alors
2 exp(nm /27) m M j1 2 exp[(j 1)nm /27]
m )]1/2
Nous considerons ensuite les ensembles M = (m , j), m M ; j N Et pour m x
2 exp(nm /27) = mM
m M
exp(m )
j1
exp((j 1))
O nous avons utilis avec

=
e e1
n 2 m 27
2Dm 1 La seconde ingalit est donc satisfaite ej pour tout t et j . Soit
Nous denissons par j N l'operateur j : L2 () L ()

ej ) (ej ) qui entraine j (t)
par j (t) = (t
m = (m , j) M par hypothese, on peut trouver m Tm pour Sm tel que quelque
soit t dans L ()
| Tm Bd (t, x ) | xDm
quelque soit x 2 On pose alors Tm = t Tm telqued(t, j (t)) 4 et Sm =

j (t), t Tm inclus dans L ()
Si Sm = , on le supprime de la collection, il resulte de la consequence de la proposition avec r = ej que si t et appartiennent Sm on a d(t, ) < 2.O3ej h(t, ) 18
Pour x superieur 2, et appartient L2 (), on considere une boule B = Bh (, xm ) et on veut borner | B

Sm | an de verier le theoreme 1. Sm inclu dans Bh (u , 2xm ) Sm
Puisqu'il n'ya rien prouver si cela est vide, on suppose que l'intersection contient au moins un point u et donc d'aprs l'ingalit precedente. B qui est inclu dans Bd (u , 4.06ej xm ) et d(t, t ) < 4m
log | Bd (u , 4.06ej m ) Sm |< log | Bd (u , 4.06ej xm ) TM | Sm
Etant donn que pour tout t dans Sm , On peut trouver t dans Tm avec T = j (t)
et par (3.5) et (3.7) On a

log | B Sm |< Dm log(4.06ej x + 4) jDm x2
D n 2 pour x 2 il s'en suit que nous pouvons prendre Dm = jDm et que m
En
appliquant le theoreme2 on obtient pour tout s L ()

2 E[h2 (s, s) <] < C1 .inf h2 (s, s) + m + C
/n
<
soit maintenant s et m donn et j le plus petit entier positif satisfaisant s

s
<
ej
et d(s, Sm ) < jm si m = (m , j), il existe t Tm avec d(s, t) < 2m Puisque

ej evidemment d(s, j (t)) < d(s, t) d'o d(s, j (t)) < 2d(s, t) < 4m et
d2 (s,Sm ) 8 2 2 < m /2 Par denition de j en
j (t)) Sm
Finalement d(s, Sm ) < 2m et h2 (s, Sm ) < distiguant les cas j = 1 et j > 1 implique que
2 2 2[(m [log( 1
1/2])
( 2 d2 (s, Sm ))]
La substitution dans (3.8) conduit a la borne dsire pour le Hellinger risque Le point important dans ce rsultat est que l'estimateur s est universel en ce sens qu'il ne dpend que de la famille Sm m M et de et non de la borne suprieure sur
s
C'est le cas dans la plupart des documents traits sur ce sujet avec le risque de L2 . 19
Et c'est l'utilisation de la distance de Hellinger qui le rend possible. Nous sommes incapables d'obtenir des rsultats similaires pour le risque de L2 . Notons que, pour certaines fonctions mesurables s0 on pourrait alternativement, puisque les distances ne dpendent que des dirences, baser notre construction sur les fonctions t+s0 avec
t Sm . Cela ne change rien part le fait que le rsultat nal englobera d(s s0 , Sm )
et
s s0 . Cela peut tre utile si on souponnait que le vrai paramtre s est de la
fonction s0 .
2.1.4 Application
Un tel thorme a de nombreuses applications et de nombreux modles ont t considrs dans les prcdents documents des auteurs comme Birg et Massart(1997) ; Baron, Birg et Massart(1999) ou Birg et Massart(2001). En particulier toutes les stratgies considres dans la section6 de Birg et Massart(2001) peuvent tres transfres dans le cadre que nous tudions ici. Nous allons nous contenter d'examiner l'exemple de l'adaptation des boules de besov comme discut dans la section6.4 de Birg et Massart(2001) auquel nous nous referons pour les dtails de la construction. Ici est une mesure de Lebesgue dans [0, 1] et la famille Sm a t dnie dans Birg et Massart(2000). Nous commenons avec une base approprie de L2 ([0, 1]) gnre par ondelettes orthogonales (orthogonal wavelets) On considere un certain
0 regulier (qui peut etre tres grand) et pour chaque D > D0 > 1 (D0 depend de la
base choisie), on construit une famille SD d'un espace lineaire de dimension D avec
|SD| < exp(CD) Nous avons alors prouv que si s B espace de Besov, avec p, p > 0 et 1/p 1/2 < < 0 avec la semi norme de Besov sD SD tel que s
p
on peut trouver un
SD Et
s s0 C2 | s | D o c2 depend de et de p p
DD0
Pour appliquer le theoreme2, nous avons un ensemble Sm m M = construire un estimateur s d'apres le theorem2 et on obtient nalement
Proposition 3
si Sm SD on denit Dm = (log5/log2)D et m = (C1 + 1)D cela nous permet de On peut trouver un estimateur bas sur une ondelette approprie 20
ou une base polynomiale, mais independante de et p tel que si p > 0, 1/p 1/2 <
< 0 et s Bp,
L ([0, 1]) alors |s| 2/(1+2) p Es [h (s, s)] C[( )

2
M ] n
avec M = log( 1 s
1 et C depend de la base de et de p. On peut tirer
des analogies multidimentionnelles de cette borne ou examiner de faon plus generale des classes de fonctions s. Notons que les resultats precedents restent valables en utilisant les familles Sm m M des espaces voisins.
2.2 Le risque de L2
Il est tres utile de se demander ce qui se passerait dans le cas du risque dans L2 Malheureusement nous sommes incapable pour le moment d'obtenir un theoreme analogue au theoreme2 pour le risque de L2 An de l'avoir, nous devons travailler avec des estimateurs s qui sont borns dans
L () comme dans la plupart des documents consults.
2.2.1 Theoreme3
Supposons que nous avons une famille nie ou denombrable Sm de sous ensemble de L2 () avec des dimensions metriques respectivement euclidienne delimit par Dm 1/2 et {m }m M une famille de poids non negatif satisfaisant
exp[m ] 27
m M
Soit J un entier positif donn. Alors, il existe un estimateur s avec s que s L ()

Es [ s s 2 ] CM 2 [d2 (s, sJ ) + inf d2 (sJ , Sm ) + (n1 J 2 )(Dm
eJ tel
m )]
21
Avec M = ( 1 s
eJ et sJ = (s
eJ )(eJ )
2.2.2 Preuve
La preuve de ce theoreme est peut pres similaire celle du theoreme 2, ainsi nous allons omettre certains details. Nous procedons de la meme maniere sauf qu'ici, nous remplacons j par avec
(t) = (t eJ ) (eJ )
et
Tm = t Tm |d(t, (t)) 4m
et
Sm = (t), t Tm L ()
ceci implique que ej est remplac par eJ dans les formules suivantes, mais les valeurs de m et Dm ne changent pas et nous concluons toujours que le resultat est veri. Comme les deux |s| et |s| sont delimits par M , il en resulte que
2 Es [ s s 2 ] c 2 M 2 inf h2 (s, sm ) + m mM
Maintenat, etant donn que m M , on choisit j J minimale tel que

d(sJ ,Sm )
jm
et xons m = (m , j). Par denition de j (en distinguant le cas j = J et

2 m [2 2 d2 (sJ , Sm )] 2 [Jm ]
j > J ) entraine
et les arguments utiliss pour conclure le demonstrations du theoreme avec s remplac

2 par sJ montrent que h2 (sJ , Sm ) m /2 qui permet d'en deduire que
Es [ s s 2 ] c 2 M 2 [h2 (s, sJ ) + inf ( 2 d2 (sJ , Sm ))
2 (Jm )]
La conclusion decoule de notre choix de m et de la majoration du carr de hellinger. Ce qui implique que h2 (s, sJ ) 22
d2 (s,sJ ) 8 2
Si J log( 1 s
alors M = eJ et sJ = s et nous obtenons

m )]
Es [ s s 2 ] CM 2 [inf d2 (s, Sm ) + (n1 log(M ) 2 )(Dm
le choix optimal de J est le plus petit possible, mais un tel choix exige l'avance la connaissance de s
S'il n'est pas connu, le choix de J peut etre inadequat, il
sera tres grand ce qui conduit une valeur inutilement eleve de M , ou trop petit qui implique une grande valeur de d(s, sJ ).
23
CHAPITRE 3 MOTIVATIONS ET HEURISTIQUES
3.1 ILLUSTRATION AVEC DES VARIABLES ALEATOIRES

Nous introduisons cette section avec trois applications spciques tres simples.
3.1.1 Estimation d'une rpartition apparemment uniforme

Notre premire illustration traite du problme d'estimation dans les modles de distribution uniforme sur [0, ], > 0. La dicult vient ici du fait que nos observations X1, ..., Xn, mme s'il sont indpendant, ne suivent pas ncessairement le modle suppos Proposition 1 Soient X1, ..., Xn des variables alatoires indpendantes de distribution arbitraire inconnue P i , 1 < i < n, sur R+ . Soit U la distribution uniforme sur [0, ], > 0 et h la distance de Hellinger entre les probabilits.
24
CHAPITRE 3. MOTIVATIONS ET HEURISTIQUES
Il existe un estimateur (X1, ..Xn) tel que quelque soit P i

E[ sup h2 (P i , U )]
1in
C inf sup h2 (P i , U ) +
>0 1in
max log(1 | log |); 1 n n
O C est une constante universelle et n = 33, 6.105 n1 (4, 5 exp[max n/84; 2] 1). Ces performances devraient tre compares ceux de l'estimateur du maximum de vraisemblance, qui est la plus grande observation X(n). Si le modle est bon, savoir
X1, ..., Xn sont i.i.d. de distribution U0 , alors le risque de EMV est 1/(2n + 1) Pour
notre estimateur le risque est d'ordre 1/n mise part le facteur max log( |log| ); 1 (ce n qui quivaut 1 moins que log(| log 0 |) soit vraiment norme) et (malheureusement) la constante C , est le prix payer pour la robustesse de l'estimateur. D'autre part, si le modle n'est pas correct, du fait que X1, ..., Xn ne soient pas i.i.d de U , mais est lgrement faux dans le sens o sup1in h(P i , U ) 5/(4n) pour un certain 0 > 0, le risque de notre estimateur reste de l'ordre ce chapitre.
1 n
max log(1 | log |); 1 alors que le risque n
de l'EMV peut devenir plus grand que 0,38 comme justi dans la seconde partie de
3.1.2 Estimation adaptative dans les espaces de Besov

Notre deuxieme exemple traite sur l'estimateur de densit dans les boules de besov quand la fonction de perte est une distance de L1 entre les densits Thorme 1 : Soient X1, ..., Xn des variables alatoires de probabilit Ps de densit
s par rapport la mesure de Lebesgue sur [0, 1]k , on peut construire un estimateur
s(X1, ..., Xn) de s tel que si la semi norme de Besov verie |s|Bp, Rpour p > 0 , > k(1/p 1) et R 1/ n alors pour 1 < q < 79
E[ s s q ] C(, p, q, k)Rkq/(2+k) nq/(2+k) 1
Pour autant que nous savons, tous les rsultats sur ce problme d'estimation de densit (sans hypothses supplmentaires born), mme ceux qui traitent avec le 25
risque minimax pour et p connus, sont limites une srie de la forme r > > k/p, avec r un entier positif comme dans Donoho et al. [29]. D'autres tendendre ce resultant mais en utilisant les estimateurs par projection sur une base d'ondelettes et en supposant certaines ingalits de grandes dviations pour les coecients empiriques que nous sommes incapables de vrier sans hypothses supplmentaires. la procdure est galement limite < r pour un r donn, selon le choix de la base. Notre mthode permet de grer la plus grande chelle des espaces de Besov donne par > (k/p k).
3.1.3 Slection de modles en rgression borne support alatoire

Dans cet exemple, on observe un nombre n de couples alatoires (Xi, Y i) 1 i n indpendantes et identiquement distribus avec Xi et Y i [0, 1] La distribution
de Xi sur est inconnue ; .
2
est la norme dans L2 () et on suppose que Y i et Xi
sont lis par la relation Y i = s(Xi) + i pour une certaine fonction s de valeurs dans [0, 1] et E[i|Xi] = 0 Pour donner un estimateur pour le paramtre s, on peut utiliser une famille dnombrable d'un espace linaire de fonctions bornes dans et on obtient le rsultat suivant : Theoreme On se donne les observations (Xi, Y i) , 1 i n ; une famille dnombrable Tm , m M d'un sous espace linaire de dimension nie des fonctions bornes de de dimension Dm et une famille m , m M de poids positifs avec m 1 et
mM
exp(m ) e On peut construire un estimateur s qui est une fonction de
dans [0, 1] vriant quelque soit s

E[ s s 2 ] C inf inf t s 2
mM 2 2
1 max (Dm log n), m n
o C est une constante universelle.
26
3.2 DIFFICULTES LIES A L'ESTIMATEUR

L'EMV est connu pour se comporter de manire optimale pour l'estimation paramtrique sous des hypothses de rgularit et d'avoir la vraie vitesse de convergence dans les cas spciques de situations non paramtriques en vertu des hypothses d'entropie . Il a toutefois t reconnu depuis longtemps qu'il peut aussi se comporter trs mal, quand les hypothses ne sont pas remplies. Beaucoup d'incohrences sur l'optimalit de l'EMV ont t trouvs dans le pass et le lecteur intress devrait se pencher sur celles donnes par Le Cam dans son ouvrage tir the maximum likelihood : an introduction, qui est une publicit relle contre l'utilisation systmatique sans prcaution. Comme Le Cam dit dans l'introduction du prsent document, l'une des mthodes les plus utilises de l'estimation statistique est celle du maximum vraisemblance. . . . Scrupule la validit gnrale des proprits d'optimalit (du maximum de vraisemblance) ont t exprimes l'occasion. Puis une longue liste d'exemples qui suit, montrant que l'EMV peut se comporter d'une terrible manire. Certains se trouvent dans l'article 4 de Rate of convergence for minimum contrast estimator de Lucien Birg et Pascal Massart, et Combinatorial methods in density estimation Section 6.4. Nous allons ajouter trois autres ci-dessous. Tous ces exemples soulignent le fait que l'EMV n'est en aucune faon un estimateur universel. En effet, tous les rsultats positifs sur l'EMV impliquent des hypothses beaucoup plus fortes (comme LAN dans le cas paramtrique, ou de l'entropie avec conditions supplmentaires comme dans Hellinger consistency of certain non parametric maximum likelihood estimates de Van de Geer et Empirical Processes in M-estimation du meme auteur) que ceux que nous voulons utiliser ici. Mme si l'espace de paramtres est compact, ce qui empche l'EMV aller l'inni, on peut avoir des dicults pour deux raisons : soit le processus de vraisemblance ne se comporte pas de faon harmonieuse localement ou bien l'espace est tellement grand (dans un sens informel, voir un exemple ci-dessous) qu'il n'est pas possible d'obtenir un contrle local du 27
supremum du processus de vraisemblance.
3.2.1 l'irregularite du processus de probabilite

Les dicults causes par l'irrgularit de la fonction de vraisemblance pour l'i.i.d, sont faciles dmontrer. Voici quelques-unes des densits f par rapport la mesure de Lebesgue satisfaisant f (x) > 0 pour tout x R et limx0 f (x) = +. Si l'on observe un chantillon X1, ..., Xn d'une translation de densit fs (x) =
f (x s) avec s R, l'estimateur du maximum de vraisemblance n'existe pas puisque
la probabilit est innie chaque observation. Ce phnomne n'est ni en raison de la non-compacit de l'espace des paramtres (il reste vrai si l'on se limite un certain intervalle compact), ni la grandeur de l'espace des paramtres, mais plutt au comportement erratique de la fonction de vraisemblance. Nanmoins, en prenant p =
0
f (t)dt, le correspondant empirique p-quantile
ore tout un bon estimateur de s, ce qui signie que le problme statistique rsoudre n'est pas une tche dicile du tout.
3.2.2 dicultes lies a la taille de l'espace des parametres

Soit X = (X0, ..., Xk) un (k + 1) dimensions vecteur gaussien de distribution
N(s, Ik+1 ), o Ik+1 dsigne la matrice identit de dimension k + 1.
Pour tout vecteur s = (s0, ..., Sk) dans Rk+1 , on note s sa projection sur l'espace linaire de dimension k engendr par les k dernires coordonnes et par s sa norme euclidienne. Proposition 2 Soit k un entier superieur 128 et S = {s Rk+1 , |s0 | k k/4 } et s
k 1/4 |s0 |) 2(1
28
Le risque quadratique de l'EMV s sur S et le risque minimax satisfont respectivement sup Es [ s s 2 ] (3/4) k + 3 et inf s sups Es [ s s 2 ] 5 Ceci demontre que le risque maximal de l'EMV peut etre superieur au risque minimax quand k est tres grand Preuve voir en annexe A ou pour plus de details, voir (birg 2003)
29
CHAPITRE 4 CONSTRUCTION D'UN T-ESTIMATEUR
4.1 T-ESTIMATEUR
Pour construire un T-estimateur, nous devons avoir quelques lments que sont : - un sous ensemble dnombrable S de l'ensemble M de fonctions approchant s -un nombre non ngatif , un poids positif de S dans R+ -Une famille de test.
4.1.1 Denition
Denition1 Soit X un lment aleatoire valeurs dans et deux points distincts t et u dans M . le test entre t et u est une fonctions mesurable denie par (t, u, X) = 1 (u, t, X) valeurs dans 0; 1. C'est dire Accepter t si (t, u, X) = 1 pendant que (u, t, X) = 0 De meme Accepter u si (u, t, X) = 1 pendant que (t, u, X) = 0
30
CHAPITRE 4. CONSTRUCTION D'UN T-ESTIMATEUR
Denition2 Soit S un sous ensemble denombrable de M , une fonction non negative sur S et
0. On se donne (t, u, X) une famille de tests de (t, u) S 2 avec t = u tel que (u, t, X) = 1 (t, u, X)
Soit (., X) une fonction aleatoire de S dans [; +] tel que

(t, X) = (t, X) + 2 (t)
pour tout t S La famille (t, u, X) est appel famille derive de M-test de fonction (., X) et de penalit 2 si
(t, u, X) = 0 si (t, X) < (u, X) ; et (t, u, X) = 1 si (t, X) > (u, X) ; pour
toutt, u dans S avec t = u
4.1.2 Hypotheses de base

An d'tre sr que des essais appropris existent qui justient l'existence de Testimateurs, nous allons toujours travailler sous l'hypothse suivante et choisir S comme un sous-ensemble de MT . Hypothse 1 : Il existe un sous-ensemble MT de M , une fonction de M MT valeurs dans
[0, +] et deux constantes a, B > 0 de telle sorte que, pour tout couple (t, u)?MT MT avec t dierent de u et tout x R, on peut trouver un test (t, u, X) satisfaisant sup
SM |(s,t)d(t,u)
PS [(t, u, X) = 1] B exp[a(d2 (t, u) + x)] PS [(u, t, X) = 1] B exp[a(d2 (t, u) x)]
sup
SM |(s,t)d(t,u)
31
. Hypothse 2. (A) Il existe un sous-ensemble de MT de M , une fonction alatoire (, X) sur MT , une fonction de M MT sur [0, ] et trois constantes , a,b > 0 tel que, pour tous
2 les x R et tout couple (t, u) MT avec t dierent de u
sup
SM |(s,t)d(t,u)
Ps [ (T, X) (U, X) x] B exp[a(d2 (t, u) + x)].
(B) Il existe une constante > 0 tel que, pour tous x R, tout s M et tous les couples
2 (t, u) MT avec t dierent de u
Ps [ (T, X) (U, X) x] B exp[a( d2 (s, t) x)].
Sous l'hypothse 1 (ou 2 (A)), nous avons choisir des valeurs convenables de x pour obtenir une famille bien dnie des tests. Compte tenu de la fonction qui est le poids sur S MT , nous allons toujours bas notre construction de T-estimateurs (ou M-estimateurs), comme expliqu dans les sections prcdentes, sur les essais prvus par ces hypothses avec x = 2 (u) 2 (t). Il s'ensuit que, pour tout s M et t, u S avec t dierent de u
sup
SM |(s,t)d(t,u)
Ps [(t, u, X) = 1] B exp[a(d2 (t, u) 2 (t) 2 (u))]
(4.15) Sous l'hypothse 2 (A), on obtient, pour chaque couple (t, u) S 2 , t dierent de
u, et donne dans la denition un peu plus haut.
sup
SM |(s,t)d(t,u)
Ps [(t, X) (u, X)] B exp[a(d2 (t, u) 2 (t) + 2 (u))]
32
. (4.16) Par consequent, le M-tests provenant de en fonction de la denition2 satisfont galement (4,15). Notez que, dans ce cas, la fonction 2 joue le rle de la pnalit pour pnaliser les estimateurs du maximum de vraisemblance ou des estimateurs de moindres carrs pnaliss. Si, par ailleurs, l'hypothse 2 (B) est vrie, alors
Ps [(t, X) (u, X)] B exp[a( d2 (s, t) + 2 (t) 2 (u))]
pour tout s M . (4,17) On devrait acher comme une fonction de mesure de la robustesse des tests (t, u, X) en ce qui concerne les carts par rapport l'hypothse qui obtient t. Si (s, t) = 0 la probabilit de rejeter t lorsqu'il obtient s est majore par le membre de droite de (4.15) pour tout u dierent de t et cela reste vrai tant que s reste "assez proche" de t dans le sens que (s, t) d(t, u). Si (s, t) est grand, on peut tester t ecacement que par rapport u qui lui est tres eloign. Dans le plus simple cas, et en particulier ceux que nous considrons dans ce document, = d pour un certain > 0, mais l'introduction d'un (dont, en particulier, peut prendre la valeur
) s'avre utile dans certaines situations particulires et ne comporte aucune compli-
cation supplmentaire. Notons galement que tous les (semi-) distances ne rpondent pas necessairement nos besoins : la construction de tests qui satisfont l'hypothse prcdente n'est possible que pour certains trs spciaux (semi-) distances.
4.2 D-MODEL
An de mesurer la massivit de S et, plus prcisment, de borner le nombre de points de S qui sont contenus en boules, nous allons introduire la notion suivante d'un modle D
33
4.2.1 Denition
Soient , D et B des nombres positifs et S un sous ensemble de l'espace semimtrique (M, d). On dit qu'on a un D-model de parametre ,D et B si
|S Bd (t, x)| B exp(x2 D)
pour tout x 2 et t M Ou par equivalence

|S Bd (t, r)| B exp[D[(r/) 2]2 ]
pour tout r > 0 et t M Le nombre 2 n'a pas de sens magique ici et a t choisie pour plus de commodit. Autres nombres feraient de meme et on pourrait paramtrer cette constante, mais cela conduirait des preuves plus complexes et les rsultats sans aucune avantage substantiel. Notons que lorsque la distance d est borne, comme c'est le cas pour Hellinger et les distances variation, D-modles sont des ensembles ncessairement nies. Certaines consquences de cette dnition simple pour tre utilis dans la suite, sont les suivants.
4.2.2 Proprites elementaires du D-model

Lemme 1 Si S est un D-modle avec des paramtres , D et B , alors il est au plus dnombrable et il est aussi un D-modle avec paramtres ,D et B pour tout > 0 et
D = [( /)2 1].
Si, en outre, d est une distance et une fonction de M S sur [0, +] telle que
(s, t) d(s, t) pour un certain positif, il existe un operateur de distance minimale
bien dnie de M dans S satisfaisant (s, (s)) = (s, S ) = inf tS (s, t).
34
En particulier, on peut dnir un operateur de distance minimale de M dans

S satisfaisant d(s, (s)) = d(s, S ) = inf tS d(s, t). An de vrier que S' est un
D-modle, le rsultat suivant sera parfois utile : Lemme 2 : Si d est une distance et
|S Bd (t, x)| B exp[Dx2 /4]
pour tout x 2 et t S alors S est un D-modle avec des paramtres , D et B . Ide de le preuve : Si d est une distance et S dans S
Bd (t, x) n'est pas vide, il contient un u et est inclus Bd (u, 2x) avec u S . Ainsi de la denition du D-modele on tire la formule.
35
CHAPITRE 5 APPLICATIONS T-ESTIMATEUR BASE SUR UN D-MODEL
Pour appliquer les rsultats prcdents en vertu de l'hypothse 1, nous avons juste trouver une solution adquate D-modle S MT avec des paramtres et D satisfaisant 2a/3 D 1/2. L'Hypothse 1 permet eectivement d'avoir plusieurs applications. Nous ne considrons que trois illustrations simples ici, savoir des observations indpendantes, suites gaussiennes et la rgression borne. Le cas de la rgression gaussienne alatoire a t considr un peu plus haut. D'autres exemples sont donns par Lucien Birg dans ces articles les plus rcents.
5.1 CAS PARTICULIER

5.1.1 Le processus gaussien
Ce cas correspond au processus gaussien cadre dans lequel on observe une suite
X = (Xi ) 1 i n de variables indpendantes gaussiennes avec variance connues
et de moyennes respectives si . = RN , Xi N(si, ) pour chaque i et s = (si)i
1 M = L2 (N ). On note < , > et
respectivement le produit scalaire et la norme
dans L2 (N ), par d2 la distance correspondante d2(s, t) = s t et P s la vraie 36
CHAPITRE 5. APPLICATIONS T-ESTIMATEUR BASE SUR UN D-MODEL
distribution des X . Toutes les possible distributions P t pour X , avec t L2(N ), tant mutuellement absolument continues, On peut choisir la distribution centre
P 0 = P0
N
avec P0 = N(0, ) pour la mesure de rfrence,

dPt 1 t 2 (X) = exp[ ( t, X )] dP0 2
(5.1) Bien que le cas de Xi N (si, ) avec une valeur connue de peut tre rduit au cas de Xi/ N(si/, 1), il sera plus instructif de donner nos rsultats dans le premier cas, an de souligner l'inuence de . Le processus est une simple extension de dimension innie du problme classique de l'estimation de la moyenne s d'un vecteur gaussien de matrice de covariance connue dans Rn qui peut tre considr comme un cas particulier de la suite la gaussienne avec si = 0 pour i > n. On retrouve le cas de la regression gaussienne linaire, si nous supposons que s appartient un sous-espace linaire donne de RN . Sinon, le processus gaussien peut tre identi avec le cas classique "cas du bruit blanc", qui correspond l'observation du processus
z
Y (z) =
0
S(x)dx + .W (z)
avec 0 < z < 1 (5.2) o s est une fonction inconnue dans L2([0, 1], dx) et W est un processus de Wiener avec W (0) = 0. En Choisissant une base orthonorme i , i 1 de
L2([0, 1], dx) et de dnir si =
1 0
s(x)(x)dx,Xi =
1 0
i (x)dY (x) conduit la mise
en gaussienne. La fonction s dans (5.2) peut tre identiee avec la suite (si )i1 de ses coecients de Fourier par rapport la base i , i 1 par la formule de Plancherel. De plus cette correspondance est une isomtrie, il nous permet de voir le cas du bruit blanc (5.2) comme une reprsentation alternative de la mise en espace des paramtres de Gauss avec M = L2([0, 1], dx) et la distance d correspondant la norme de L2. Beaucoup plus sur ce se trouve dans les sections 1 et 6 de [Gaussain Model selection de Birg et Massart 2001]. 37
5.1.2 la regression gaussienne

LE CAS ALEATOIRE : On observe un n-chantillon (Xi, Y i), 1 i n, Xi , Y i I d'une distribution inconnue sur I o I est un intervalle compact de R. On peut supposer sans perte de gnralit que I = [0, 1], d'o = ( [0, 1])n . Le problme serait parfaitement simple dans le cas des i.i.d. si le paramtre inconnu estimer est la distribution commune de X et Y , mais ici nous nous concentrons sur l'estimation de la moyenne conditionnelle s de Y sachant X , soit s(x) = E[Y |X = x] [0, 1], en dsignant par la distribution inconnue marginale de X sur . On peut donc rcrire ce cas sous forme de rgression comme Y = s(X) + avec X , Y et s(X) [0, 1] et Es [|X] = 0. (5.3) Il correspond alors la rgression gaussienne alatoire avec des observations limites, qui est classiquement utilis dans les tudes statistique. Ici s est le seul paramtre estimer, mais et la distribution conditionnelle de sachant X sont des paramtres de nuisance inconnues. LE CAS NON ALEATOIRE : Pour le cas de la rgression support x ; on a le mme cas que prcdemment mis part le fait que, au lieu d'tre i.i.d., les variables X1, ..., Xn sont maintenant xes (dterministes), gale x1, ..., xn, de sorte que nous avons d'indpendantes observations Y 1, ..., Y n satisfaisant Y i = s(xi)+i avec Y i et s(xi) [0, 1] et Es [i ] =
0. (5.4) Cette situation se produit en particulier lorsque nous analysons le problme
de conception alatoire conditionnellement aux valeurs de Xi. Nous ne considrons pas ici que toutes les valeurs xi sont distincts de sorte que le cardinal de l'ensemble
= x1, ..., Xn soit infrieur n.
nous allons traiter deux cas de rgression (xes et alatoires) simultanment, en utilisant les conventions suivantes : - Dans le cas de conception alatoire, M est l'ensemble des fonctions mesurables de dans [0, 1] avec L2 () norme .
.
2
et la distance correspondante d = d2. Nous avons galement l'ensemble X =

n i=1 [Y
(Xi, Y i), 1 i n et (t, X =
i t(Xi)]. - Dans le cas de conception xe,
38
M est l'ensemble des fonctions dnies de X = x1, ..., xn de [0, 1], qui peuvent tre
identis l'espace mtrique [0, 1]|| avec la distance d = dn dnie par dn (t, u) =
1 n n i=1
t(xi) u(xi)] et la norme correspondante . = .

n i=1 [Y
avec t u
= dn (t, u).
Alors, X = (xi, Y i), 1 i n et (t, X) =
i t(xi)].
5.2 DU CAS GENERAL AU CAS PARTICULIER

Dans cette partie nous allons simplement enoncer trois propositions selon les cas d'application. Ces propositions seront demontres dans le document annexe.
5.2.1 Proposition
Soit X = Xi ,i 1 dans RN un processus gaussien alatoire de variance 2 et de moyenne vectorielle appartenant L2 (N) Soit Pt la distribution de X lorsque sa moyenne vectorielle vaut t Alors s, t, u L2 (N ) et z R
Ps [log( tu ( tu 4 ts ) dPu ] )(X) z] exp[z/2 dPt 8 2
En particulier x R
sup
sL2 (N )/ st 2 tu /6
Ps [log(
x tu 2+x dPu )(X) ] exp[ ] dPt 12 2 24 2
s L2 (N ) et x R Ps [log( dPu x tu )(X) ] exp[ 2 dPt 12 12 2

2
x ] 24 2
5.2.2 regression bornee

Proposition2 Soit X , M . et (., X) denis comme dans le cas de la regression borne voir (5.2.3) s, t, u M et z R Si y = 4 s t
2
tu 4
alors
39
Ps ( (t, X) (u, X) > nz) exp[ 3n ( t u 100 x R
98(zy) )] 25
(5.5) En particulier
sup
sM ts tu /4
Ps ( (t, X) (u, X) > 25nx/98) exp[
3n ( tu 100
+ x)]
et s M et x R
st Ps ( (t, X) (u, X) > 25nx/98) exp[ 3n ( 392 25 100
2
x)] (5.7)
Remarque Dans le cas o Yi [0, A] au lieu de [0, 1] et M deni egalement par des fonctions valeur dans [0, A] alors les majorations avec 3n/100 deviennent (3n)/(100A)
5.2.3 observations independantes

Pour les cas de l'independance nous utilisons la distance de hellinger Proposition3 Soit P t , P u deux distributions d'un epace mesurable et x R, on choisit d comme une distance de hellinger ou comme une variation de deux probabilits sur on prend = 1 si d est un hellinger, et = 2 si d est une variation de proba. On pourra alors trouver une fonction test dependant de (, t, uetx) deni sur
n par (t, u, X) = 1 (u, t, X) telle que
si X = (X1, ..., Xn) est un ensemble de variables alatoires independantes de distribution P s =

n i=1
Pi alors
40
si sup1in d(P i , P t )
Ps [(t, u, X) = 1]
d(t,u) 4 n(d(t,u)+x) exp( ) 4
(5.8)
si sup1in d(P i , P u )
Ps [(t, u, X) = 1]
d(t,u) 4 n(d(t,u)x) exp( ) 4
(5.9)
Nous allons voir les dmonstrations de ces trois propositions d'applications dans l'annexe A
5.3 UNE APPLICATION AU MODELE DE DISTRIBUTION UNIFORME

Pour illustrer la relation entre l'approche classique et la notre, prenons la cas considr precedemment. On suppose qu'on veut estimer une distribution sur R+ pour X1, ..., Xn via le modele de distribution uniforme U sur [0, ] avec > 0 En eet pour utiliser ce modele on suppose priori que P i de Xi est de distribution U independante de i Par contre on ne suppose pas que P i appartient au modele. Il convient alors de parametrer la distribution uniforme en notant P t avec t R sur [0, et ]
h2 (t, u) = h2 (P t , P u ) = 1 exp( |tu| ) 2
|tu| 2
(5.10)
soit R on a pour D 1/2 x 2 = 16.8D/n; J = sup j N/j < 4.5exp((4D) ()n/84) (5.11) 41
I = [, + J 2 ]etS = + 2 2 (1 + 2j), j N, j < J 1 (5.12)
Ce qui entraine d'apres (5.10) que u I

tS
inf h(P t , P u )
n i=1
par consequant tant que Ps =

2 tS 1<i<n
P i de X alors
tS 1<i<n
inf h (Ps , Pt ) = inf sup h2 (Pi , Pt ) 2[ 2 + inf sup h2 (Pi , P t )]
(5.13) Pour montrer que S est un D-modele, nous appliquons le lemme suivant, sa conclusion nous donne ce dont on a besoin Lemme et s sont denis par (5.11) et (5.12) Alors pour tout P = on a
|S Bh (P, r)| 4.5 exp[D(r/M ) 2] r > 0
n i=1
Qi M
Preuve du Lemme On distinguera deux cas le cas r2 1/5 alors (r/)2 prouver si r inf tS h(P, Pt ) et on peut alors supposer qu'il existe t S tel que
Bh (P, r) Bh (Pt , 2r)
n 84D
et l'inegalit est etablie par (5.11) pour |S| = J Pour le cas r < 1/5 il n'y a rien
si Pu B(Pt , 2r) d'apres (5.10) on a

1 exp( |t u| ) 4r2 2
et et par dnition de S on a
|S Bh (P, r)| |S
|t u| log(1 4r2 ) < 4 2 2 2 1 log(|1 4r|) + 1 (5 log 5)(r/)2 + 1 2
Bh (Pt , 2r)| <
42
sachant que log(14r2 ) (5 log 5)r pour r2 < 1/5 Finaleme,nt l'inegalit prouver s'etablit en passant la limite inferieure D 0.5 Le lemme entraine que S est un D-modele de parametre , D, et 4.5 On peut appliquer alors le corrolaire 2 S avec D = 1/2, 2 = 8.4/n, B = 4.5 et on obtient de part (5.12) la borne superieure du risque
Es [h (s, s)] C[inf sup h2 (P i , U ) + 1/n]
1<i<n 2
avec = [exp ; exp( + 4J 2 )].
43
CONCLUSION
En denitive, ce travail nous a permis de degager la fois deux points fondamentaux D'une part que l'utilisation de la distance de Hellinger la place du L2 -risque permet d'avoir des taux de convergence plus ecaces, ce qui entraine une amelioration de la selection de modele dans sa grande generalit. D'autre part, ce document a permis de prposer une construction alternative partir d'une famille de test entre les boules de l'espace de probabilit muni d'une metrique convenable. Il faut noter que dans un certain nombre de situations, l'estimateur obtenu n'est autre qu'un M-estimateur pnalis dni sur un certain ensemble dnombrable de paramtres. Cette construction doit tre considre davantage comme un outil thorique que pratique, compte-tenu de sa complexit numrique, mais elle nous a permis de rgler la plupart des problmes prcits ds que les tests robustes requis existent, ce qui est le cas dans divers problmes statistiques tels que l'estimation d'une densit partir d'un chantillon ou l'estimation de la moyenne d'une suite de variables gaussiennes 44
indpendantes de mme variance connue. Dans de telles situations, les proprits de robustesse de nos estimateurs ont permis de traiter simultanment les problmes de minimax et de slection de modle dans la mesure o l'valuation du risque minimax revient utiliser notre mthode sur un modle unique, convenablement choisi. Nous obtenons alors des bornes du risque minimax qui ne dpendent que de la structure mtrique de l'espace des paramtres. Comme mentionn dans le document, on peut distinguer deux types de T-estimateurs , les plus simples sont bases sur un modle unique. Toute une construction plus sophistique peut grer simultanment plusieurs modles, par exemple pour obtenir des estimateurs adaptatifs. Dans le cas des observations i.i.d, une approche alternative base sur la procdure de slection fonctionne comme suit. D'abord construire un estimateur sur chaque modle, peut-tre un Testimateur ou un autre du mme genre, et slectionner l'un d'eux pour obtenir l'estimateur nal. Il s'agit d'un cas particulier de l'agrgation d'estimateurs qui est l'objet d'autres etudes.
45
ANNEXE A
Pour prouver les trois propositions cits precedemments dans le document Introduisons un lemme tres important et qui est facile demontrer. Lemme Soient X1 , ..., Xn n variables alatoires sur un espace mesurable auquel on denit les deux probabilits P et Q independantes et soit une fonction mesurable non negative sur tels que pour 1 i n
EP [(Xi )]
et alors pour tout y R

n
EQ [1/(Xi )]
P[
i=1
log (Xi ) ny] exp[n(log y)]

n
et
Q[
log (Xi ) ny] exp[n(log + y)]

i=1
En particulier si les Xi sont i.i.d. de distribution P sous P et Q sous Q alors pour tout x R
n
P[
i=1
log(
n
dQ )(Xi ) nx] exp[n log[(P , Q)] (nx/2)] dP dQ )(Xi ) nx] exp[n log[(P , Q)] + (nx/2)] dP
et
P[
log(
i=1
46
Preuve D'apres les proprits elementaires utilises au debut du chapitre 1 on a directement

P[log Y z] expz E[Y ]
si P[Y 0] = 1 et le fait que les Xi sont independants avec une application

= dQdP
Preuve de la proposition4 D'apres ce lemme nous avons

Ps [log(dPu /dPt ) z] ez/2 Es [exp[(1/2) log(dPu /dPt )(X)]] = ez/2 E0 [ (dPu /dPt )(X)(dPs /dP0 )(X)] = ez/2 E0 [exp[ u 1 ( 2 2
2
t 2
+ s
X, u t + 2s )]].
tant que
u
2
t 2 ut 2 ut u + s 2 X, ut+2s = 2 X, +s + 2 2 2
3 t 2 u, t s, ut + 4 2
on obtient
Ps [log(dPu /dPt ) z] ez/2 E0 [P(ut)/2+s (X)] exp[ 1 u ( 2 2
2
3 t 2 u, t + s, ut + )] 4 2
La conclusion vient du fait que

u
2
3 t
2
4 s, u t + 2 u, t = t u
4 s t, u t
donc
u
3 t
4 s, u t + 2 u, t t u ( t u 4 s t )
Preuve de la proposition5 Soit Zi = [Yi t(Xi )]2 [Yi u(Xi )]2 on a alors la decomposition suivante
Zi = [u(Xi ) t(Xi )][2Yi t(Xi ) u(Xi )] = [u(Xi ) t(Xi )][2(s(Xi ) t(Xi )) + (t(Xi ) u(Xi ) + 2 i )] = [t(Xi ) u(Xi )]2 + 2[u(Xi ) t(Xi )][s(Xi ) t(Xi )] + 2 i [u(Xi ) t(Xi )]
Par consequent, tant que
Es [ i |Xi ] = 0
47
et 2|ab| a2 /4 + 4b2
Es [Zi |Xi ] = [t(Xi ) u(Xi )]2 + 2[u(Xi ) t(Xi )][s(Xi ) t(Xi )] 3/4[t(Xi ) u(Xi )]2 + 4[s(Xi ) t(Xi )]2
et nalement en prenant y = (1/4) tu 2 +4 st 2 n1 Es [ n Zi ] 3/4 t i=1 u 2 + 4 s t 2 = y 1/2 t u 2 Par denition de Zi 1 on a |Zi 2|t(Xi ) u(Xi )|, alors pour tout k 2
n
1/n
i=1
E[|Zi |k ] (2 t u )2 (k!/2)(2 t u )2 32k
Cela montre alors d'apres l'inegalit de Bernstein voir Birg dans Minimal penalities que pour tout x 0
n
Ps [
i=1
(Zi E[Zi ]) nx] exp[
3n x2 2 12 t u
+x
pour x 0 en prenant x = z y + t u 2 /2 on trouve pour z y t u 2 /2 que

n
Ps [
i=1
Zi nz] exp[3n/2
(z + t u 2 /2 y)2 3n[2(z y) + t u 2 ]2 ] = exp[ ] 12 t u 2 + (z + t u 2 /2 y) 4(2(z y) + 25 t u 2 ) 98(z y) ) 25
tant que ce qui implique
[2(z y) + t u 2 ]2 1/25( t u 2(z y) + 25 t u 2
Ps [
i=1
Zi nz] exp[3n/100( t u
98(z y) ) 25
pour tout z y t u 2 /2 pour z < y t u 2 /2 avec y 4 s t
que
98(4 s t 25
2
Ps [ (t, X) (u, X) nz] [3n/100
z)
pour tout z R Si s t t u /4 alors y 0 implique

Ps [ (t, X) (u, X) nz] [3n/100( t u
2
+ 98z/25)]
pour z R 48
BIBLIOGRAPHIE
[1 [2 [3 [4 [5 [6 [7
] :L BIRGE Model Selection For Gaussian Regression With Random Design ] : BIRGE,MASSART- Rates Of Convergence For Minimum Contrast Estimator ] :BIRGE ET MASSART- Gaussian Model Selection ] : DEVROYE- Combinatorial Methos In Density Estimation ] :LE CAM- Maximum Likelihood Estimator : An Introduction ] :S VAN DE GREER Estimating An Regression Fonction ] :S VAN DE GREER Hellinger Consistencybof Certain Non Parametric Maximum Likelihood [8 ] :S VAN DE GREER Empirical Processes In M-Estimation [9 ] : W.H WONG X- Probability Inequalities For Likelihood Ratios Of Convergence Rates Of Sieve
.1 Rfrences
49
BIBLIOGRAPHIE
[1] L. Birg. Model selection for gaussian regression with random design. On estimated a density using hellinger distance and some other strange facts, Ed. :(2004) 1039-1051, [2] A.C Atkinson. Rates of convergence for munimum conrast estimator, Probab theory and relation eld,, B 32 113-150,(1993). [3] L. BIRGE and P. Massart Gaussian model selection. J. Eur. Math. Soc., 203-268 (2001). [4] Combintorial method in density estimation. Springler Verlag, New york (2001) [5] L. Le Cam Maximum likehood : an introduction. Inter. Statist. Rev. 58, 153-171 (1990). [6] X. Shen, W. H. Wong. Convergences rates of sieves estimates, Ann. Statist.22, 580-615(1994). [7] X. Shen, W. H. Wong. Probability inequalities for likelihood ratios and convergences rates of sieve, Ann. Statist.23, 339-362(1995). [8] S. Van De Geer Estimating a regression function. Ann. Statist. 18, 907-924 (1990). [9] S. Van De Geer Hellinger consistency of certain non parametric maximum likelihood estimates. Ann. Statist. 21, 14-44 (1993). [10] S. Van De Geer Empirical processes in M-estimation a regression function. Cambridge University press. Cambridge(2000).
50

Estimation Par Selection de Modeles Estimating by Models Selection

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estimation Par Selection de Modeles Estimating by Models Selection

Transféré par

Droits d'auteur :

Formats disponibles

SOMMAIRE

Sommaire Remerciements 1 RAPPELS ET HYPOTHESES DE MAJORATION

Draft Version  21 mars 2012

MOTIV ATIONS ET HEURISTIQUES

CONSTRUCTION D'UN T-ESTIMATEUR

APPLICATIONS T-ESTIMATEUR BASE SUR UN D-MODEL

Conclusion Annexe A bibliographie

Draft Version  21 mars 2012

Je remercie les membres du jury et toute l'assistance.

CHAPITRE 1 RAPPELS ET HYPOTHESES DE MAJORATION

1.1 Rappel de quelques denitions et Outils de bases

continue par rapport P

entre P et Q la fonction denie par

CHAPITRE 1. RAPPELS ET HYPOTHESES DE MAJORATION

divergence s'ecrit D (Q, P ) =

q(x) )p(x)d(x) p(x)

1.1.3 Quelques exemples de divergences

Distance de Hellinger :(x) = ( x 1)2 on a alors D (Q, P ) =

1.2 Relation entre le Hellinger et la distance de L2

W (t) s(x)d(x) + , t [0; 1] n

CHAPITRE 1. RAPPELS ET HYPOTHESES DE MAJORATION

(t u)2 (x) d(x)) 8 2

(t u)2 (x) )d(x) 8 2

On deduit alors partir de l'inegalit de JENSEN que

CHAPITRE 1. RAPPELS ET HYPOTHESES DE MAJORATION

1 2 1 (Pt , Ps ) = (Ps , Pu ) = [1 + exp( 2 )] > 2 8 2

log[(Pt , Pu )] log[(Pt , Ps )] + log[(Ps , Pu )]

CHAPITRE 1. RAPPELS ET HYPOTHESES DE MAJORATION

Cette dernire ingalit rsulte de la convexit de la fonction x xex ) par intgration de

CHAPITRE 1. RAPPELS ET HYPOTHESES DE MAJORATION

1.3 Quelques cas particuliers

n'est pas born, le rapport ( t u )/(h(Pt , Pu )) peut tre arbitrai-

(t, x)p = sup[

|t(y + h) t(y)|p dy]1/p = a(x l)1/p

| t | = sup x (t, x)p = a sup{x p 1 p

En xant u = t,on peut voir que

= 4a2 l et d'aprs (2.1) on a

a pour des valeurs moderes de ,ceci est de l'ordre de

,a = (2)b avec R > 0 on suppose que n > 10 alors

CHAPITRE 1. RAPPELS ET HYPOTHESES DE MAJORATION

Un calcul elementaire montre que

et on peut facilament montrer que le

Nous avons alors prouv la proposition suivante 14

CHAPITRE 1. RAPPELS ET HYPOTHESES DE MAJORATION

CHAPITRE 2 MAJORATION DU RISQUE

CHAPITRE 2. MAJORATION DU RISQUE

2.1 Le risque de Hellinger

| Sm Bh (t, xm ) | exp(x2 Dm ) pour tout t M et x 2 Supposons de plus que les

Alors on peut construire un estimateur s

Sm tel que pour tout s M on ait

2 E[h2 (s, s)] C1 inf h2 (s, Sm ) + m + C2 n

CHAPITRE 2. MAJORATION DU RISQUE

Nous considerons ensuite les ensembles M = (m , j), m M ; j N Et pour m x

O nous avons utilis avec

2Dm 1 La seconde ingalit est donc satisfaite ej pour tout t et j . Soit

Nous denissons par j N l'operateur j : L2 () L ()

m = (m , j) M par hypothese, on peut trouver m Tm pour Sm tel que quelque

quelque soit x 2 On pose alors Tm = t Tm telqued(t, j (t)) 4 et Sm =

CHAPITRE 2. MAJORATION DU RISQUE

Pour x superieur 2, et appartient L2 (), on considere une boule B = Bh (, xm ) et on veut borner | B

et par (3.5) et (3.7) On a

appliquant le theoreme2 on obtient pour tout s L ()

soit maintenant s et m donn et j le plus petit entier positif satisfaisant s

Draft Version 21 mars 2012

Draft Version 21 mars 2012

1.1 Rappel de quelques denitions et Outils de bases

entre P et Q la fonction denie par

En xant u = t,on peut voir que

Nous considerons ensuite les ensembles M = (m , j), m M ; j N Et pour m x

Nous denissons par j N l'operateur j : L2 () L ()

et xons m = (m , j). Par denition de j (en distinguant le cas j = J et

dans [0, 1] vriant quelque soit s

3.2.2 dicultes lies a la taille de l'espace des parametres

En particulier, on peut dnir un operateur de distance minimale de M dans