Académique Documents
Professionnel Documents
Culture Documents
1 3 10
1.1 Rappel de quelques denitions et Outils de bases 1.1.1 Denition . . . . . . . . . . . . . . . . . . 1.1.2 Proprits . . . . . . . . . . . . . . . . . . 1.1.3 Quelques exemples de divergences . . 1.2 Relation entre le Hellinger et la distance de L2 . . 1.2.1 Proposition . . . . . . . . . . . . . . . . . 1.3 Quelques cas particuliers . . . . . . . . . . . . . . 1.3.1 Proposition 2 . . . . . . . . . . . . . . . . 2.1 Le risque de Hellinger . 2.1.1 Denition . . . 2.1.2 Theoreme1 . . 2.1.3 Theoreme2 . . 2.1.4 Application . . 2.2 Le risque de L2 . . . . 2.2.1 Theoreme3 . . 2.2.2 Preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
10 10 11 11 11 14 15 17
MAJORATION DU RISQUE
. . . . . . . .
. . . . . . . .
. . . . . . . .
18
19 19 19 20 22 23 23 24
3.1 ILLUSTRATION AVEC DES VARIABLES ALEATOIRES . . . . . 3.1.1 Estimation d'une rpartition apparemment uniforme . . . . 3.1.2 Estimation adaptative dans les espaces de Besov . . . . . . . 3.1.3 Slection de modles en rgression borne support alatoire 3.2 DIFFICULTES LIES A L'ESTIMATEUR . . . . . . . . . . . . . . 3.2.1 l'irregularite du processus de probabilite . . . . . . . . . . . 3.2.2 dicultes lies a la taille de l'espace des parametres . . . . . 4.1 T-ESTIMATEUR . . . . . . . . . . . . . . 4.1.1 Denition . . . . . . . . . . . . . . 4.1.2 Hypotheses de base . . . . . . . . . 4.2 D-MODEL . . . . . . . . . . . . . . . . . . 4.2.1 Denition . . . . . . . . . . . . . . 4.2.2 Proprites elementaires du D-model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
26
26 26 27 28 29 30 30 32 32 33 35 36 36
32
5.1 CAS PARTICULIER . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Le processus gaussien . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 la regression gaussienne . . . . . . . . . . . . . . . . . . . . . 5.2 DU CAS GENERAL AU CAS PARTICULIER . . . . . . . . . . . . 5.2.1 Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 regression bornee . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 observations independantes . . . . . . . . . . . . . . . . . . . 5.3 UNE APPLICATION AU MODELE DE DISTRIBUTION UNIFORME
38
38 38 40 41 41 41 42 43
46 48 51
.1
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
Bibliographie
52
REMERCIEMENTS
C'est bien sr Monsieur Papa NGOM, mon directeur de mmoire ,que je voudrais remercier en premire place . J'ai eu la chance de proter de ses visions profondes,de ses immenses connaissances mathmatiques ,et de ses ides enrichissantes. Il m'a guid dans un domaine mathmatique si intrressant et il a consacr de nombreuses heures discuter avec moi et lire mes textes et corriger des fautes typographiques. Je voudrais lui exprimer tous mes remerciements, pour sa disponibilit, son soutien ,et ses encouragements permanents. Je remercie autant les professeurs Monsieur Djaraf SECK d'avoir accept de presider le jury, Monsieur Abdoulaye SENE qui est le premier m'expliquer des notions d'analyses que j'ai utilis dans ce document, Monsieur Moussa BALDE pour sa disponibilit et ses ides pertinentes, Monsieur Amadou Lamine FALL pour m'avoir aid sur le latex en me donnant sa licence de winedit. Monsieur Gabriel NDIAYE, Monsieur Souleye KANE,Monsieur BARRY, Monsieur Djibril NDIAYE pour leur soutien moral et encouragements. Mention special mes chers amis avec qui j'ai partag des moments de joies et de galeres et qui m'ont donn tout leur soutien. 3
Introduction Une mthode classique pour l'stimation d'une densit (inconnue ou de rgression) fonction s de n observations est de construire un modle paramtrique pour s Soit un ensemble S de fonctions dcrites par D paramtres, et de procder l'estimation, comme si s appartenait au modle, qui se traduit par un estimateur Es [ s s 2 ]. Puisque s est inconnu, nous ne disposons gnralement pas susamment d'informations pour construire un bon modle conduisant un estimateur avec un petit risque. Une faon de rsoudre ce problme est de commencer avec une famille nombreuse {Sm , m D} de tels modles et de la famille correspondante des estimateurs , puis d'utiliser les donnes pour slectionner un modle ou un estimateur quivalent de la famille. C'est ce qu'on appelle la slection du modle. Il peut souvent tre considre comme une procdure de slection de variables qui permet de slectionner un petit nombre de fonctions (les variables) partir d'un ensemble de ces fonctions de cardinal voire beaucoup plus grand que le nombre d'observations. Dans ce document, nous tudions un cadre statistique dans lequel on observe n couples alatoires (Xi , Yi ) avec Yi R , Xi appartient un certain espace mesurable (typiquement un sous ensemble de Rk )et
Yi = s(Xi ) + i
avec 1 < i < n O les variables alatoires i sont i.i.d centres et indpendantes Xi et s est une fonction inconnue (paramtre) estimer . On note la distribution commune des Xi et on s'assure que s le paramtre inconnu appartient un sous ensemble de L2 et que la distribution de i est normale et de variance 2 . Tel est le cadre prcis que nous appelons la rgression gaussienne alatoire, en dsignant par 2 et les normes dans L2 et L respectivement. Classiquement lors de l'estimation on utilisait la modication de la distance de L2 comme fonction de perte qui se traduit par une fonction de risque E[(s s)2 ], o E 5
dsigne l'esprance pour s obtenu. La plupart des rsultats concernant ce modle utilisent une hypothse supplmentaire sur les deux paramtres et les estimateurs comme dans Judistsky et Nemirovski(2000), Yang(2002) et Wegkamp(2003). En principe les limites suprieures n'ont pas besoin d'tre connues pour la construction de la procdure de slection, nanmoins d'un point de vue raliste, la borne suprieure sur les estimateurs doit tre bien choisie par le statisticien, il ne peut tre choisi que de faon raisonnable, si une borne inferieure sur les paramtres est connue au moins approximativement. Il y'a deux exceptions notables l'utilisation des bornes suprieures sur l'espace des paramtres qui sont celles de Brown, Cai, Low et Zhang (2002) et Baraud(2002). -Le premier document traite de l'quivalence des expriences pour la rgression support alatoire et le modle de bruit blanc ; mais l'quivalence n'est valable que pour les boules compactes de Hlder ou des espaces de Sobolev de rgularit > 1/2, tandis que nous le montrerons ci-dessous qu'il y'a des problmes lorsque < 1/2. Nous rappelons que le modle du bruit blanc sur [0, 1] correspond l'observation du processus 1 Yt , t [0, 1] o Yt = 0 s(x)dx + W (t)/ n W dsigne le mouvement brownien standard et s L2 ([0, 1], dx) est le paramtre inconnu estimer. Le risque d'un estimateur est encore donn par E[|s s|2 ] . -Le second document est celui de baraud, il vite l'utilisation des limites L 2 parmi les rsultats les plus gnraux sur le choix du modle, il rcupre le n 2+1 taux habituel pour l'estimation dans les espaces de Besov avec l'indice > L o 1/p 1/2 < L < 1/p pour 1 < p < 2 Dans le cas du bruit blanc, un modle provient de ce taux pour > 1/p 1/2 comme dans la litterature de Donoho et Johnstone(1994) utilise par Baraud, Massart Huet. Ainsi,le premier chapitre de notre document traite de l'importance des hypothses de majoration. Dans celui-ci nous allons d'abord montrer la relation qui existe entre le Hellinger et la distance de L2 , puis donner quelques cas particuliers lis au choix. Au deuxime chapitre, nous parlons de la borne suprieure du risque. Pour cela, 6
nous allons d'abord denir le hellinger puis nous utilisons le risque de Hellinger. Le troisime chapitre est divis en deux sections d'introduction qui donnent la fois des motivations et heuristiques pour la construction de notre estimateur. Dans celui-ci, nous illustrons d'abord, travers trois exemples, certaines faiblesses de la mthode du maximum de vraisemblance : il ne fonctionne pas du tout lorsque le processus de vraisemblance se comporte de manire erratique, il n'est pas robuste et il peut tre dup par la grandeur de l'ensemble des paramtres, mme si nous voulons simplement pour estimer la moyenne d'un vecteur gaussien l'identit matrice de covariance sous l'hypothse que cela signie appartient un convexe, compact d'un espace euclidien de grande dimension. Une analyse attentive des performances de l'EMV sur un ensemble ni fournit ensuite des indications sur une solution possible aux problmes mentionns ci-dessus. Dans le chapitre 4, nous allons d'abord expliquer les constructions de T-estimateurs bass sur un ensemble discret S et une famille de tests entre les points de cet ensemble, ensuite, nous nonons les hypothses qui devraient tre satisfaites par S et les tests lorsque S peut tre considr comme un modle unique pour le paramtre inconnu estimer. Puis nous donnons les limites rsultant des risques pour T-estimateurs et montrons que les hypothses requises sont remplies pour le cadre que nous considrons ici : variables indpendantes, des squences de Gauss et rgression borne. Le chapitre 5 est consacr diverses applications. En particulier, nous montrons comment mlanger les modles paramtriques et non paramtriques pour estimation. Dans le cadre des suites gaussiennes, nous montrons que T-estimateurs non seulement permettent de retrouver tous les rsultats de Birg et Massart [3], car ils peuvent traiter de la mme manire des familles arbitraires de modles linaires, mais aussi permettre de mlanger d'autres types de modles avec les prcdentes, peut-tre de dimension innie comme ellipsodes ou de dimension nie, mais non-linaire, comme des modles paramtriques classiques. Quant l'estimation de densit avec une perte de Hellinger, notre analyse montre que tout rsultat sur les T-estimateurs, nous pouvons prouver dans le cadre du bruit blanc a un paralllisme avec l'estimation de la densit, qui est loin d'tre vrai avec les estimateurs de minimum de contraste. En particulier, nous considrons ici le problme de l'estimation adaptative sur les boules de Besov gnral avec une perte de Hellinger, mais tous les autres rsultats de [3] dans le cas du bruit blanc pourraient tre transfrs l'estimation de densit avec une perte de Hellinger de la mme manire.
Remarque Si Q est absolument continue par rapport P , on pose D (Q, P ) = +. Si P et Q sont absolument continues par rapport la mesure de Lebesgue de alors leurs densits respectives p et q telles que dP = pd et dQ = qd, la 8
Avec
0 0( 0 ) = 0, a a = a lim0 (), 0( a ) = a lim+ 0 0 ()
1.1.2 Proprits
P, Q, D (Q, P ) 0 P, Q P alors (Q, P ) D (Q, P ) est convexe P, Q P on a generalement D (Q, P ) = D (P, Q)
|p q|
(pq)2 q
1 2
( p q)2
le modele du bruit blanc sur [O; 1]correspondant l'observation du processus Yt avec t [0; 1] o W represente le mouvement brownien standard et s L2 ([0; 1], dx) 9
est le parametre inconnu estimer. On note par Ps la distribution du processus Yt avec t [0; 1], le Hellinger anity entre deux probabilits Pt et Pu est donn par
(Pt , Pu ) = dPt dPu = exp( tu 8 2
2
avec
la norme de L2
1
Dans ce cas [ log (Pt , Pu )] 2 est quivalente a la distance de L2 . Dans le cas de la rgrssion gaussienne conception alatoire, la distribution Ps de (Xi , Yi ) a une densit par rapport o reprsente la mesure de lebesgue donne par
1 (y s(x))2 dPs exp( (x, y) = ) d( ) 2 2 2 Le Helliger anity et la distance de Hellinger sont alors entre les distributions Pt et Pu sont donns par les relations suivantes : (Pt , Pu ) = E[exp( (t u)2 (X) )] = 8 2
1
exp(
0
et
1
h2 (Pt , Pu ) = 1
0
exp(
et 10
h2 (Pt , Pu )
tu 8 2
Malheureusement les inegalits inverses ne sont pas veries en general et log n'est pas une distance et ne satisfait pas l'inegalit du genre
log[(Pt , Pu )] A( log[(Pt , Ps )] + log[(Ps , Pu )])
pour une certaine valeur A positive et constante par rapport s, t,u. Pour s'en apercevoir, on peut supposer que les Xi sont uniformement distribues sur [0; 1] et on considere trois fonctions s, t = s + 1[0, 1 ] et u = s 1[ 1 ;1] avec > 0. 2 2 Alors t u = 1[0;1] et (Pt , Pu ) = exp[ 2 ] 8
2
ce qui entraine
log[(Pt , Ps )] + log[(Ps , Pu )] < 2 log 2
or
log[(Pt , Pu )] = 2 2 > 4 2 log 2
Donc
tend vers l'inni suivant ce qui prouve que l'inegalit n'est pas verie par
log quelque soit la valeur du rel A. Ceci est li au fait que la dierencet u
peut etre arbitrairement grand et la situation est dierente dans le cas d'une boule de L ().
11
1.2.1 Proposition
Soit S un sous ensemble d'une boule L () de centre s0 et de rayon r ie ss0 r pour tout s S . Alors pour tout t et u dans S
1 exp( r2 ) t u (Pt , Pu ) 1 4r2 2
2
Par consequent, t u 2.03(r e)h(t, u). Preuve La deuxime ingalit est une consquence directe de la premire en posant h2 =
1 ; il sut alors de prouver la premire inegalit. On note que (t u)2 (x)/8 2 < r2 /2 et on utilise le fait que Y est une variable alatoire valeur dans [0; M ] et la
distribution PY alors
1( exp(y)dPY (y)) M 1 (1 eM )E[Y]
Ceci est le cas considr par la plupart des auteurs et c'est l'un des plus simples. En eet, puisqu'il s'agit d'un problme d'estimation de n observations i.i.d. Si cet estimateur appartient la meme boule L (), s s peut etre born par h2 (s, s) multipli par une constante et le carr du risque de L est egalement sous contrle. On detaillera cette methode dans la deuxieme partie du chapitre2.
12
rement grand cela entraine les dicults d'valuation du L2 risque dans ce cas ; et le rsultat obtenu par Baraud(2002) pour le risque minimax dans les boules de Besov des fonctions sur [0; 1] o dsigne la mesure de Lebesgue sur [0; 1] Pour comprendre ce qui se passe, introduisons la fonction t = a convenable si on prenait = 1/p 1 avec 0 < b < 1/2 . On pourra alors calculer le module de continuit (t, x)p de t par
1h
([0,l])
avec a > 0
et l 1/2 et les nombres , p avec 1 p < 2 et 1/p 1/2 < < 1/p 1 Ce serait
Cela montre que la semi norme de besov de t par rapport a l' espace de besov Bp,
est
1
1 x p l
} = al p = alb
tu exp(
(Pt , Pu ) =
0
4a2 )dx + (1 l) 8 2
2
alors
h2 (Pt , Pu ) = l[1 exp(
tu a2 )] = l[1 exp( 2 2 8l 2
tu 2
)]
Posons maintenant l =
1 2n
h2 (Pt , Pu )
13
et
tu
2
= 4R2 (2n)2b1
. D'une part il rsulte des limites classiques plus bas sur le risque qui remonte la Cam (1973),voir par exemple Donoho Lui (1991) qu'aucun estimateur s bas sur des observations i.id ne satisfait
max{Et [ t s
2
], Eu [ u s
]} cR2 (2n)2b1
pour une certaine constante universelle c > 0. D'autre part la semi-norme de Besov entre t et u est R. Par consquent quelque soit l'estimateur s
max Es [s s]2 cR2 (2n)2b1 = c R2 n1+2( p )
s R p 1
. Nous rappelons que le risque minimax sur les boules de Besov dans le modle du bruit blanc est connu pour tre limit par cR 2+1 n 2+1 Il s'en suit que le risque minimax dans le modele de regression sera considerablement plus grand au moins
1 pour un n grand si 2( p > 1 ) 2+1
2 2
1 1 1 [ 2 p 2
1 1 1 1 1 ( + )2 1] < < [ + p 2 2 p 2
1 p
Le membre de gauche est plus petit que membre de droite est inferieur
1 p
1 2
c'est dire
1 1 1 1 1 > [ p 2 2 p 2
et
1 1 1 1 > [ + p 2 p 2
1 1 ( + )2 1] p 2
1.3.1 Proposition 2
Pour 1 p < 2 on a
1 1 1 1 1 < < L = [ + p 2 2 p 2 1 1 ( + )2 1] p 2
Le taux de convergence par rapport n du risque dans les boules de besov de la forme
s/|s| R est de l'ordre de n1+2(1/p) Pour > L p
15
Comme nous l'avons mentionn dans l'introduction, le problme de rgression support alatoire est un problme d'estimation partir d'un chantillon i.i.d ; la fonction de perte choisie est la distance de Hellinger comme le montre Le Cam(1973, 1975, et 1986) La distorsion qui peut exister entre la distance de L2 et celle du Hellinger lorsqu'il s'agit des fonctions sans limites, entraine des dicults comme indiqu dans la section prcdente. Nanmoins si l'on considre le carr du risque de Hellinger au lieu de celui du L2 , on peut essentiellement rcuprer les taux habituels de convergence si l'on suppose que le vrai paramtre appartient L (). An de prouver cela, nous avons besoin de rappeler quelques rsultats de Lucien Birg propos de la slection de modle par des variables alatoires i.i.d Le travail est le suivant On observe n variables alatoires i.i.d Z1 , Z2 , ..., Zn sur l'espace mesurable Z de distribution inconnue Ps avec s M ; en supposant que l'application s Ps nous permet d'identier M avec un sous ensemble de l'ensemble de toutes les distributions sur Z. Soit h(t, ) = h(Pt , P ) transformant M un espace mtrique et on dsigne par
Bh (t, r) la boule ouverte de Hellinger de centre t et de rayon r dans M.
16
Nous avons galement introduit une famille nie dnombrable Sm , m M de sous ensemble discrets de M.
2.1.1 Denition
Soit S un sous ensemble d'un espace mtrique (M, d), On dira qu'on a une dimension mtrique euclidienne dlimite par D ( pour la mtrique d) ssi pour tout
> 0, on peut trouver n de Sn pour S c'est--dire un sous ensemble de M tel que d(s, Sn ) pour tout s S Tel que pour tout t M on ait | S B(t, x) | xD
pour tout x 2 il est particulirement facile de verier que si S est K-sous espace vectoriel d'en espace de Hilbert (M, d), sa dimension euclidienne est dlimit par
(log5/log2) K Nous pouvons maintenant prouver le thoreme suivant
2.1.2 Theoreme1
Supposons quelque soit m M, il existe un m > 0 et Dm
2 m nombres m et Dm satisfont m 54 Dn et m M et 1 3
tels que
< +
exp( n ) = 27
mM
o C1 et C2 sont des constantes universelles et h(s, Sm ) = inf h(s, t) Preuve voir Birg 2003 17
2.1.3 Theoreme2
On suppose qu'on a une famille nie ou dnombrable Sm m M de sous ensemble de
L2 () avec des dimensions respectives mtriques euclidiennes dlimites par Dm 1/2 et m m M une famille de poids non ngatifs satisfaisant
m M
exp(m ) =
< + Il existe un estimateur s tel que pour tout s L2 () on ait E[h2 (s, s)] C.inf s d2 (s, Sm ) Dm m [log( ) + 2 n 1] + c n
Preuve Nous voulons appliquer le theoreme1 notre situation en prenant pour M l'ensemble de toutes les distributions Ps de (Xi, Y i) donn par la formule de rgression o
s L () Pour ce faire, on dnit pour chaque m M m = [( 27 )(2Dm n m = (m , j) M, m = jm Alors
2 exp(nm /27) m M j1 2 exp[(j 1)nm /27]
m )]1/2
2 exp(nm /27) = mM
m M
exp(m )
j1
exp((j 1))
n 2 m 27
par j (t) = (t
soit t dans L ()
| Tm Bd (t, x ) | xDm
Si Sm = , on le supprime de la collection, il resulte de la consequence de la proposition avec r = ej que si t et appartiennent Sm on a d(t, ) < 2.O3ej h(t, ) 18
Puisqu'il n'ya rien prouver si cela est vide, on suppose que l'intersection contient au moins un point u et donc d'aprs l'ingalit precedente. B qui est inclu dans Bd (u , 4.06ej xm ) et d(t, t ) < 4m
log | Bd (u , 4.06ej m ) Sm |< log | Bd (u , 4.06ej xm ) TM | Sm
Etant donn que pour tout t dans Sm , On peut trouver t dans Tm avec T = j (t)
En
/n
<
ej
j (t)) Sm
Finalement d(s, Sm ) < 2m et h2 (s, Sm ) < distiguant les cas j = 1 et j > 1 implique que
2 2 2[(m [log( 1
1/2])
( 2 d2 (s, Sm ))]
La substitution dans (3.8) conduit a la borne dsire pour le Hellinger risque Le point important dans ce rsultat est que l'estimateur s est universel en ce sens qu'il ne dpend que de la famille Sm m M et de et non de la borne suprieure sur
s
C'est le cas dans la plupart des documents traits sur ce sujet avec le risque de L2 . 19
Et c'est l'utilisation de la distance de Hellinger qui le rend possible. Nous sommes incapables d'obtenir des rsultats similaires pour le risque de L2 . Notons que, pour certaines fonctions mesurables s0 on pourrait alternativement, puisque les distances ne dpendent que des dirences, baser notre construction sur les fonctions t+s0 avec
t Sm . Cela ne change rien part le fait que le rsultat nal englobera d(s s0 , Sm )
et
fonction s0 .
2.1.4 Application
Un tel thorme a de nombreuses applications et de nombreux modles ont t considrs dans les prcdents documents des auteurs comme Birg et Massart(1997) ; Baron, Birg et Massart(1999) ou Birg et Massart(2001). En particulier toutes les stratgies considres dans la section6 de Birg et Massart(2001) peuvent tres transfres dans le cadre que nous tudions ici. Nous allons nous contenter d'examiner l'exemple de l'adaptation des boules de besov comme discut dans la section6.4 de Birg et Massart(2001) auquel nous nous referons pour les dtails de la construction. Ici est une mesure de Lebesgue dans [0, 1] et la famille Sm a t dnie dans Birg et Massart(2000). Nous commenons avec une base approprie de L2 ([0, 1]) gnre par ondelettes orthogonales (orthogonal wavelets) On considere un certain
0 regulier (qui peut etre tres grand) et pour chaque D > D0 > 1 (D0 depend de la
base choisie), on construit une famille SD d'un espace lineaire de dimension D avec
|SD| < exp(CD) Nous avons alors prouv que si s B espace de Besov, avec p, p > 0 et 1/p 1/2 < < 0 avec la semi norme de Besov sD SD tel que s
p
on peut trouver un
SD Et
s s0 C2 | s | D o c2 depend de et de p p
DD0
Pour appliquer le theoreme2, nous avons un ensemble Sm m M = construire un estimateur s d'apres le theorem2 et on obtient nalement
Proposition 3
si Sm SD on denit Dm = (log5/log2)D et m = (C1 + 1)D cela nous permet de On peut trouver un estimateur bas sur une ondelette approprie 20
ou une base polynomiale, mais independante de et p tel que si p > 0, 1/p 1/2 <
< 0 et s Bp,
M ] n
avec M = log( 1 s
des analogies multidimentionnelles de cette borne ou examiner de faon plus generale des classes de fonctions s. Notons que les resultats precedents restent valables en utilisant les familles Sm m M des espaces voisins.
2.2 Le risque de L2
Il est tres utile de se demander ce qui se passerait dans le cas du risque dans L2 Malheureusement nous sommes incapable pour le moment d'obtenir un theoreme analogue au theoreme2 pour le risque de L2 An de l'avoir, nous devons travailler avec des estimateurs s qui sont borns dans
L () comme dans la plupart des documents consults.
2.2.1 Theoreme3
Supposons que nous avons une famille nie ou denombrable Sm de sous ensemble de L2 () avec des dimensions metriques respectivement euclidienne delimit par Dm 1/2 et {m }m M une famille de poids non negatif satisfaisant
exp[m ] 27
m M
eJ tel
m )]
21
Avec M = ( 1 s
eJ et sJ = (s
eJ )(eJ )
2.2.2 Preuve
La preuve de ce theoreme est peut pres similaire celle du theoreme 2, ainsi nous allons omettre certains details. Nous procedons de la meme maniere sauf qu'ici, nous remplacons j par avec
(t) = (t eJ ) (eJ )
et
Tm = t Tm |d(t, (t)) 4m
et
Sm = (t), t Tm L ()
ceci implique que ej est remplac par eJ dans les formules suivantes, mais les valeurs de m et Dm ne changent pas et nous concluons toujours que le resultat est veri. Comme les deux |s| et |s| sont delimits par M , il en resulte que
2 Es [ s s 2 ] c 2 M 2 inf h2 (s, sm ) + m mM
jm
j > J ) entraine
2 (Jm )]
La conclusion decoule de notre choix de m et de la majoration du carr de hellinger. Ce qui implique que h2 (s, sJ ) 22
d2 (s,sJ ) 8 2
Si J log( 1 s
le choix optimal de J est le plus petit possible, mais un tel choix exige l'avance la connaissance de s
sera tres grand ce qui conduit une valeur inutilement eleve de M , ou trop petit qui implique une grande valeur de d(s, sJ ).
23
24
C inf sup h2 (P i , U ) +
>0 1in
O C est une constante universelle et n = 33, 6.105 n1 (4, 5 exp[max n/84; 2] 1). Ces performances devraient tre compares ceux de l'estimateur du maximum de vraisemblance, qui est la plus grande observation X(n). Si le modle est bon, savoir
X1, ..., Xn sont i.i.d. de distribution U0 , alors le risque de EMV est 1/(2n + 1) Pour
notre estimateur le risque est d'ordre 1/n mise part le facteur max log( |log| ); 1 (ce n qui quivaut 1 moins que log(| log 0 |) soit vraiment norme) et (malheureusement) la constante C , est le prix payer pour la robustesse de l'estimateur. D'autre part, si le modle n'est pas correct, du fait que X1, ..., Xn ne soient pas i.i.d de U , mais est lgrement faux dans le sens o sup1in h(P i , U ) 5/(4n) pour un certain 0 > 0, le risque de notre estimateur reste de l'ordre ce chapitre.
1 n
de l'EMV peut devenir plus grand que 0,38 comme justi dans la seconde partie de
Pour autant que nous savons, tous les rsultats sur ce problme d'estimation de densit (sans hypothses supplmentaires born), mme ceux qui traitent avec le 25
risque minimax pour et p connus, sont limites une srie de la forme r > > k/p, avec r un entier positif comme dans Donoho et al. [29]. D'autres tendendre ce resultant mais en utilisant les estimateurs par projection sur une base d'ondelettes et en supposant certaines ingalits de grandes dviations pour les coecients empiriques que nous sommes incapables de vrier sans hypothses supplmentaires. la procdure est galement limite < r pour un r donn, selon le choix de la base. Notre mthode permet de grer la plus grande chelle des espaces de Besov donne par > (k/p k).
sont lis par la relation Y i = s(Xi) + i pour une certaine fonction s de valeurs dans [0, 1] et E[i|Xi] = 0 Pour donner un estimateur pour le paramtre s, on peut utiliser une famille dnombrable d'un espace linaire de fonctions bornes dans et on obtient le rsultat suivant : Theoreme On se donne les observations (Xi, Y i) , 1 i n ; une famille dnombrable Tm , m M d'un sous espace linaire de dimension nie des fonctions bornes de de dimension Dm et une famille m , m M de poids positifs avec m 1 et
mM
26
la probabilit est innie chaque observation. Ce phnomne n'est ni en raison de la non-compacit de l'espace des paramtres (il reste vrai si l'on se limite un certain intervalle compact), ni la grandeur de l'espace des paramtres, mais plutt au comportement erratique de la fonction de vraisemblance. Nanmoins, en prenant p =
0
ore tout un bon estimateur de s, ce qui signie que le problme statistique rsoudre n'est pas une tche dicile du tout.
Pour tout vecteur s = (s0, ..., Sk) dans Rk+1 , on note s sa projection sur l'espace linaire de dimension k engendr par les k dernires coordonnes et par s sa norme euclidienne. Proposition 2 Soit k un entier superieur 128 et S = {s Rk+1 , |s0 | k k/4 } et s
k 1/4 |s0 |) 2(1
28
Le risque quadratique de l'EMV s sur S et le risque minimax satisfont respectivement sup Es [ s s 2 ] (3/4) k + 3 et inf s sups Es [ s s 2 ] 5 Ceci demontre que le risque maximal de l'EMV peut etre superieur au risque minimax quand k est tres grand Preuve voir en annexe A ou pour plus de details, voir (birg 2003)
29
4.1 T-ESTIMATEUR
Pour construire un T-estimateur, nous devons avoir quelques lments que sont : - un sous ensemble dnombrable S de l'ensemble M de fonctions approchant s -un nombre non ngatif , un poids positif de S dans R+ -Une famille de test.
4.1.1 Denition
Denition1 Soit X un lment aleatoire valeurs dans et deux points distincts t et u dans M . le test entre t et u est une fonctions mesurable denie par (t, u, X) = 1 (u, t, X) valeurs dans 0; 1. C'est dire Accepter t si (t, u, X) = 1 pendant que (u, t, X) = 0 De meme Accepter u si (u, t, X) = 1 pendant que (t, u, X) = 0
30
Denition2 Soit S un sous ensemble denombrable de M , une fonction non negative sur S et
0. On se donne (t, u, X) une famille de tests de (t, u) S 2 avec t = u tel que (u, t, X) = 1 (t, u, X)
pour tout t S La famille (t, u, X) est appel famille derive de M-test de fonction (., X) et de penalit 2 si
(t, u, X) = 0 si (t, X) < (u, X) ; et (t, u, X) = 1 si (t, X) > (u, X) ; pour
sup
SM |(s,t)d(t,u)
31
. Hypothse 2. (A) Il existe un sous-ensemble de MT de M , une fonction alatoire (, X) sur MT , une fonction de M MT sur [0, ] et trois constantes , a,b > 0 tel que, pour tous
2 les x R et tout couple (t, u) MT avec t dierent de u
sup
SM |(s,t)d(t,u)
(B) Il existe une constante > 0 tel que, pour tous x R, tout s M et tous les couples
2 (t, u) MT avec t dierent de u
Sous l'hypothse 1 (ou 2 (A)), nous avons choisir des valeurs convenables de x pour obtenir une famille bien dnie des tests. Compte tenu de la fonction qui est le poids sur S MT , nous allons toujours bas notre construction de T-estimateurs (ou M-estimateurs), comme expliqu dans les sections prcdentes, sur les essais prvus par ces hypothses avec x = 2 (u) 2 (t). Il s'ensuit que, pour tout s M et t, u S avec t dierent de u
sup
SM |(s,t)d(t,u)
(4.15) Sous l'hypothse 2 (A), on obtient, pour chaque couple (t, u) S 2 , t dierent de
u, et donne dans la denition un peu plus haut.
sup
SM |(s,t)d(t,u)
32
. (4.16) Par consequent, le M-tests provenant de en fonction de la denition2 satisfont galement (4,15). Notez que, dans ce cas, la fonction 2 joue le rle de la pnalit pour pnaliser les estimateurs du maximum de vraisemblance ou des estimateurs de moindres carrs pnaliss. Si, par ailleurs, l'hypothse 2 (B) est vrie, alors
Ps [(t, X) (u, X)] B exp[a( d2 (s, t) + 2 (t) 2 (u))]
pour tout s M . (4,17) On devrait acher comme une fonction de mesure de la robustesse des tests (t, u, X) en ce qui concerne les carts par rapport l'hypothse qui obtient t. Si (s, t) = 0 la probabilit de rejeter t lorsqu'il obtient s est majore par le membre de droite de (4.15) pour tout u dierent de t et cela reste vrai tant que s reste "assez proche" de t dans le sens que (s, t) d(t, u). Si (s, t) est grand, on peut tester t ecacement que par rapport u qui lui est tres eloign. Dans le plus simple cas, et en particulier ceux que nous considrons dans ce document, = d pour un certain > 0, mais l'introduction d'un (dont, en particulier, peut prendre la valeur
) s'avre utile dans certaines situations particulires et ne comporte aucune compli-
cation supplmentaire. Notons galement que tous les (semi-) distances ne rpondent pas necessairement nos besoins : la construction de tests qui satisfont l'hypothse prcdente n'est possible que pour certains trs spciaux (semi-) distances.
4.2 D-MODEL
An de mesurer la massivit de S et, plus prcisment, de borner le nombre de points de S qui sont contenus en boules, nous allons introduire la notion suivante d'un modle D
33
4.2.1 Denition
Soient , D et B des nombres positifs et S un sous ensemble de l'espace semimtrique (M, d). On dit qu'on a un D-model de parametre ,D et B si
|S Bd (t, x)| B exp(x2 D)
pour tout r > 0 et t M Le nombre 2 n'a pas de sens magique ici et a t choisie pour plus de commodit. Autres nombres feraient de meme et on pourrait paramtrer cette constante, mais cela conduirait des preuves plus complexes et les rsultats sans aucune avantage substantiel. Notons que lorsque la distance d est borne, comme c'est le cas pour Hellinger et les distances variation, D-modles sont des ensembles ncessairement nies. Certaines consquences de cette dnition simple pour tre utilis dans la suite, sont les suivants.
Si, en outre, d est une distance et une fonction de M S sur [0, +] telle que
(s, t) d(s, t) pour un certain positif, il existe un operateur de distance minimale
bien dnie de M dans S satisfaisant (s, (s)) = (s, S ) = inf tS (s, t).
34
D-modle, le rsultat suivant sera parfois utile : Lemme 2 : Si d est une distance et
|S Bd (t, x)| B exp[Dx2 /4]
pour tout x 2 et t S alors S est un D-modle avec des paramtres , D et B . Ide de le preuve : Si d est une distance et S dans S
Bd (t, x) n'est pas vide, il contient un u et est inclus Bd (u, 2x) avec u S . Ainsi de la denition du D-modele on tire la formule.
35
Pour appliquer les rsultats prcdents en vertu de l'hypothse 1, nous avons juste trouver une solution adquate D-modle S MT avec des paramtres et D satisfaisant 2a/3 D 1/2. L'Hypothse 1 permet eectivement d'avoir plusieurs applications. Nous ne considrons que trois illustrations simples ici, savoir des observations indpendantes, suites gaussiennes et la rgression borne. Le cas de la rgression gaussienne alatoire a t considr un peu plus haut. D'autres exemples sont donns par Lucien Birg dans ces articles les plus rcents.
distribution des X . Toutes les possible distributions P t pour X , avec t L2(N ), tant mutuellement absolument continues, On peut choisir la distribution centre
P 0 = P0
N
(5.1) Bien que le cas de Xi N (si, ) avec une valeur connue de peut tre rduit au cas de Xi/ N(si/, 1), il sera plus instructif de donner nos rsultats dans le premier cas, an de souligner l'inuence de . Le processus est une simple extension de dimension innie du problme classique de l'estimation de la moyenne s d'un vecteur gaussien de matrice de covariance connue dans Rn qui peut tre considr comme un cas particulier de la suite la gaussienne avec si = 0 pour i > n. On retrouve le cas de la regression gaussienne linaire, si nous supposons que s appartient un sous-espace linaire donne de RN . Sinon, le processus gaussien peut tre identi avec le cas classique "cas du bruit blanc", qui correspond l'observation du processus
z
Y (z) =
0
S(x)dx + .W (z)
avec 0 < z < 1 (5.2) o s est une fonction inconnue dans L2([0, 1], dx) et W est un processus de Wiener avec W (0) = 0. En Choisissant une base orthonorme i , i 1 de
L2([0, 1], dx) et de dnir si =
1 0
s(x)(x)dx,Xi =
1 0
en gaussienne. La fonction s dans (5.2) peut tre identiee avec la suite (si )i1 de ses coecients de Fourier par rapport la base i , i 1 par la formule de Plancherel. De plus cette correspondance est une isomtrie, il nous permet de voir le cas du bruit blanc (5.2) comme une reprsentation alternative de la mise en espace des paramtres de Gauss avec M = L2([0, 1], dx) et la distance d correspondant la norme de L2. Beaucoup plus sur ce se trouve dans les sections 1 et 6 de [Gaussain Model selection de Birg et Massart 2001]. 37
de conception alatoire conditionnellement aux valeurs de Xi. Nous ne considrons pas ici que toutes les valeurs xi sont distincts de sorte que le cardinal de l'ensemble
= x1, ..., Xn soit infrieur n.
nous allons traiter deux cas de rgression (xes et alatoires) simultanment, en utilisant les conventions suivantes : - Dans le cas de conception alatoire, M est l'ensemble des fonctions mesurables de dans [0, 1] avec L2 () norme .
.
2
38
M est l'ensemble des fonctions dnies de X = x1, ..., xn de [0, 1], qui peuvent tre
identis l'espace mtrique [0, 1]|| avec la distance d = dn dnie par dn (t, u) =
1 n n i=1
avec t u
= dn (t, u).
i t(xi)].
5.2.1 Proposition
Soit X = Xi ,i 1 dans RN un processus gaussien alatoire de variance 2 et de moyenne vectorielle appartenant L2 (N) Soit Pt la distribution de X lorsque sa moyenne vectorielle vaut t Alors s, t, u L2 (N ) et z R
Ps [log( tu ( tu 4 ts ) dPu ] )(X) z] exp[z/2 dPt 8 2
En particulier x R
sup
sL2 (N )/ st 2 tu /6
Ps [log(
x ] 24 2
tu 4
alors
39
98(zy) )] 25
(5.5) En particulier
sup
sM ts tu /4
3n ( tu 100
+ x)]
et s M et x R
st Ps ( (t, X) (u, X) > 25nx/98) exp[ 3n ( 392 25 100
2
x)] (5.7)
Remarque Dans le cas o Yi [0, A] au lieu de [0, 1] et M deni egalement par des fonctions valeur dans [0, A] alors les majorations avec 3n/100 deviennent (3n)/(100A)
Pi alors
40
si sup1in d(P i , P t )
Ps [(t, u, X) = 1]
(5.8)
si sup1in d(P i , P u )
Ps [(t, u, X) = 1]
(5.9)
Nous allons voir les dmonstrations de ces trois propositions d'applications dans l'annexe A
(5.10)
soit R on a pour D 1/2 x 2 = 16.8D/n; J = sup j N/j < 4.5exp((4D) ()n/84) (5.11) 41
inf h(P t , P u )
n i=1
P i de X alors
tS 1<i<n
(5.13) Pour montrer que S est un D-modele, nous appliquons le lemme suivant, sa conclusion nous donne ce dont on a besoin Lemme et s sont denis par (5.11) et (5.12) Alors pour tout P = on a
|S Bh (P, r)| 4.5 exp[D(r/M ) 2] r > 0
n i=1
Qi M
Preuve du Lemme On distinguera deux cas le cas r2 1/5 alors (r/)2 prouver si r inf tS h(P, Pt ) et on peut alors supposer qu'il existe t S tel que
Bh (P, r) Bh (Pt , 2r)
n 84D
et l'inegalit est etablie par (5.11) pour |S| = J Pour le cas r < 1/5 il n'y a rien
et et par dnition de S on a
|S Bh (P, r)| |S
42
sachant que log(14r2 ) (5 log 5)r pour r2 < 1/5 Finaleme,nt l'inegalit prouver s'etablit en passant la limite inferieure D 0.5 Le lemme entraine que S est un D-modele de parametre , D, et 4.5 On peut appliquer alors le corrolaire 2 S avec D = 1/2, 2 = 8.4/n, B = 4.5 et on obtient de part (5.12) la borne superieure du risque
Es [h (s, s)] C[inf sup h2 (P i , U ) + 1/n]
1<i<n 2
43
CONCLUSION
En denitive, ce travail nous a permis de degager la fois deux points fondamentaux D'une part que l'utilisation de la distance de Hellinger la place du L2 -risque permet d'avoir des taux de convergence plus ecaces, ce qui entraine une amelioration de la selection de modele dans sa grande generalit. D'autre part, ce document a permis de prposer une construction alternative partir d'une famille de test entre les boules de l'espace de probabilit muni d'une metrique convenable. Il faut noter que dans un certain nombre de situations, l'estimateur obtenu n'est autre qu'un M-estimateur pnalis dni sur un certain ensemble dnombrable de paramtres. Cette construction doit tre considre davantage comme un outil thorique que pratique, compte-tenu de sa complexit numrique, mais elle nous a permis de rgler la plupart des problmes prcits ds que les tests robustes requis existent, ce qui est le cas dans divers problmes statistiques tels que l'estimation d'une densit partir d'un chantillon ou l'estimation de la moyenne d'une suite de variables gaussiennes 44
indpendantes de mme variance connue. Dans de telles situations, les proprits de robustesse de nos estimateurs ont permis de traiter simultanment les problmes de minimax et de slection de modle dans la mesure o l'valuation du risque minimax revient utiliser notre mthode sur un modle unique, convenablement choisi. Nous obtenons alors des bornes du risque minimax qui ne dpendent que de la structure mtrique de l'espace des paramtres. Comme mentionn dans le document, on peut distinguer deux types de T-estimateurs , les plus simples sont bases sur un modle unique. Toute une construction plus sophistique peut grer simultanment plusieurs modles, par exemple pour obtenir des estimateurs adaptatifs. Dans le cas des observations i.i.d, une approche alternative base sur la procdure de slection fonctionne comme suit. D'abord construire un estimateur sur chaque modle, peut-tre un Testimateur ou un autre du mme genre, et slectionner l'un d'eux pour obtenir l'estimateur nal. Il s'agit d'un cas particulier de l'agrgation d'estimateurs qui est l'objet d'autres etudes.
45
ANNEXE A
Pour prouver les trois propositions cits precedemments dans le document Introduisons un lemme tres important et qui est facile demontrer. Lemme Soient X1 , ..., Xn n variables alatoires sur un espace mesurable auquel on denit les deux probabilits P et Q independantes et soit une fonction mesurable non negative sur tels que pour 1 i n
EP [(Xi )]
EQ [1/(Xi )]
P[
i=1
et
Q[
En particulier si les Xi sont i.i.d. de distribution P sous P et Q sous Q alors pour tout x R
n
P[
i=1
log(
n
dQ )(Xi ) nx] exp[n log[(P , Q)] (nx/2)] dP dQ )(Xi ) nx] exp[n log[(P , Q)] + (nx/2)] dP
et
P[
log(
i=1
46
t 2
+ s
X, u t + 2s )]].
tant que
u
2
t 2 ut 2 ut u + s 2 X, ut+2s = 2 X, +s + 2 2 2
3 t 2 u, t s, ut + 4 2
on obtient
Ps [log(dPu /dPt ) z] ez/2 E0 [P(ut)/2+s (X)] exp[ 1 u ( 2 2
2
3 t 2 u, t + s, ut + )] 4 2
3 t
2
4 s, u t + 2 u, t = t u
4 s t, u t
donc
u
3 t
4 s, u t + 2 u, t t u ( t u 4 s t )
Preuve de la proposition5 Soit Zi = [Yi t(Xi )]2 [Yi u(Xi )]2 on a alors la decomposition suivante
Zi = [u(Xi ) t(Xi )][2Yi t(Xi ) u(Xi )] = [u(Xi ) t(Xi )][2(s(Xi ) t(Xi )) + (t(Xi ) u(Xi ) + 2 i )] = [t(Xi ) u(Xi )]2 + 2[u(Xi ) t(Xi )][s(Xi ) t(Xi )] + 2 i [u(Xi ) t(Xi )]
Es [ i |Xi ] = 0
47
et 2|ab| a2 /4 + 4b2
Es [Zi |Xi ] = [t(Xi ) u(Xi )]2 + 2[u(Xi ) t(Xi )][s(Xi ) t(Xi )] 3/4[t(Xi ) u(Xi )]2 + 4[s(Xi ) t(Xi )]2
et nalement en prenant y = (1/4) tu 2 +4 st 2 n1 Es [ n Zi ] 3/4 t i=1 u 2 + 4 s t 2 = y 1/2 t u 2 Par denition de Zi 1 on a |Zi 2|t(Xi ) u(Xi )|, alors pour tout k 2
n
1/n
i=1
Cela montre alors d'apres l'inegalit de Bernstein voir Birg dans Minimal penalities que pour tout x 0
n
Ps [
i=1
3n x2 2 12 t u
+x
Ps [
i=1
Zi nz] exp[3n/2
Ps [
i=1
Zi nz] exp[3n/100( t u
98(z y) ) 25
que
98(4 s t 25
2
z)
+ 98z/25)]
pour z R 48
BIBLIOGRAPHIE
[1 [2 [3 [4 [5 [6 [7
] :L BIRGE Model Selection For Gaussian Regression With Random Design ] : BIRGE,MASSART- Rates Of Convergence For Minimum Contrast Estimator ] :BIRGE ET MASSART- Gaussian Model Selection ] : DEVROYE- Combinatorial Methos In Density Estimation ] :LE CAM- Maximum Likelihood Estimator : An Introduction ] :S VAN DE GREER Estimating An Regression Fonction ] :S VAN DE GREER Hellinger Consistencybof Certain Non Parametric Maximum Likelihood [8 ] :S VAN DE GREER Empirical Processes In M-Estimation [9 ] : W.H WONG X- Probability Inequalities For Likelihood Ratios Of Convergence Rates Of Sieve
.1 Rfrences
49
BIBLIOGRAPHIE
[1] L. Birg. Model selection for gaussian regression with random design. On estimated a density using hellinger distance and some other strange facts, Ed. :(2004) 1039-1051, [2] A.C Atkinson. Rates of convergence for munimum conrast estimator, Probab theory and relation eld,, B 32 113-150,(1993). [3] L. BIRGE and P. Massart Gaussian model selection. J. Eur. Math. Soc., 203-268 (2001). [4] Combintorial method in density estimation. Springler Verlag, New york (2001) [5] L. Le Cam Maximum likehood : an introduction. Inter. Statist. Rev. 58, 153-171 (1990). [6] X. Shen, W. H. Wong. Convergences rates of sieves estimates, Ann. Statist.22, 580-615(1994). [7] X. Shen, W. H. Wong. Probability inequalities for likelihood ratios and convergences rates of sieve, Ann. Statist.23, 339-362(1995). [8] S. Van De Geer Estimating a regression function. Ann. Statist. 18, 907-924 (1990). [9] S. Van De Geer Hellinger consistency of certain non parametric maximum likelihood estimates. Ann. Statist. 21, 14-44 (1993). [10] S. Van De Geer Empirical processes in M-estimation a regression function. Cambridge University press. Cambridge(2000).
50