Vous êtes sur la page 1sur 225

U NIVERSIT PARIS X NANTERRE

U.F.R. SEGMI quipe MODALX No attribu par la bibliothque

THSE
pour lobtention du Diplme de

DOCTEUR DE LUNIVERSIT PARIS X


Discipline : MATHMATIQUES prsente par Nathal GOZLAN

Principe conditionnel de Gibbs pour des contraintes nes approches et Ingalits de Transport

Soutenue publiquement le 28 juin 2005, devant le jury compos de M. M. M. M. M. M. Patrick C ATTIAUX, Universit Paris 10, Directeur de thse Francis C OMETS, Universit Paris 7, Examinateur Fabrice G AMBOA, Universit Toulouse 3, Rapporteur Arnaud G UILLIN, Universit Paris 9, Examinateur Christian L ONARD, Universit Paris 10, Examinateur Cdric V ILLANI, E.N.S. Lyon, Examinateur

au vu des rapports de M. Fabrice G AMBOA et M. Liming W U (Universit Clermont 2 ).

Remerciements
Je tiens tout dabord exprimer ma reconnaissance mon directeur de thse, Patrick Cattiaux, non seulement pour ses conseils aviss sur le plan mathmatique, mais aussi pour ses qualits humaines, lenthousiasme et la curiosit qui laniment, son humour et sa patience. Jai pass grce lui quatre annes de recherche stimulantes dans un climat dtendu et sympathique. Je voudrais remercier galement Sylvie Mlard, qui aprs avoir dirig mon mmoire de DEA, ma encourag faire une thse et ma mis en contact avec Patrick Cattiaux. Jadresse mes remerciements Fabrice Gamboa et Li-Ming Wu qui ont accept dvaluer ce travail de recherche, ainsi qu Francis Comets, Arnaud Guillin, Christian Lonard et Cdric Villani qui me font lhonneur de faire partie de mon jury de thse. Il ma t trs agrable de travailler avec Christian Lonard. Je le remercie pour les nombreuses discussions que nous avons pu avoir tout au long de ces quatre annes ainsi que pour ces passionnantes journes passes ensemble, lors de la prparation de notre article. Je tiens saluer tous les doctorants et ATER que jai crois pendant ces annes passes Nanterre. Ils ont t de bien sympathiques compagnons de route. Mes remerciements vont pour nir ma famille et mes amis qui mont soutenu sans faillir tout au long de ma thse, et Laurence qui partage ma vie.

A la mmoire de ma mre

Table des matires

Introduction Gnrale

11

Principes Conditionnels
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27
29 30 31 31 31 31 32 34 34 34 35 35 36 37 38 47 48 48 49 49

II Entropie relative, thorme de Sanov et projections entropiques II.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . II.2 Entropie relative . . . . . . . . . . . . . . . . . . . . . . . . . II.2.1 Dnition et premires proprits . . . . . . . . . . . II.2.2 Entropie relative et norme en variation . . . . . . . . . Norme en variation . . . . . . . . . . . . . . . . . . . Ingalit de Pinsker . . . . . . . . . . . . . . . . . . II.3 Le thorme de Sanov . . . . . . . . . . . . . . . . . . . . . II.3.1 La version classique . . . . . . . . . . . . . . . . . . II.3.2 Extensions du thorme de Sanov . . . . . . . . . . . II.4 Projections entropiques . . . . . . . . . . . . . . . . . . . . . II.4.1 Dnition et relation de Pythagore . . . . . . . . . . . II.4.2 Projections entropiques gnralises . . . . . . . . . . II.4.3 Critres dexistence dune projection entropique . . . II.4.4 Reprsentation des projections entropiques . . . . . .

III Principe conditionnel de Gibbs pour des contraintes nes approches III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III.1.1 Prsentation du problme . . . . . . . . . . . . . . . . . . . III.1.2 A propos de la littrature . . . . . . . . . . . . . . . . . . . Les contraintes paisses . . . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

Table des matires

Lapproche classique des contraintes nes . . . . . . . . . . . . . Diffrentes extensions du Principe Conditionnel de Gibbs . . . . III.1.3 Survol du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . Contraintes nes approches . . . . . . . . . . . . . . . . . . . . Cadre et notations . . . . . . . . . . . . . . . . . . . . . . . . . Principaux rsultats du chapitre . . . . . . . . . . . . . . . . . . III.2 Rsultats gnraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III.2.1 Convergence en variation . . . . . . . . . . . . . . . . . . . . . . III.2.2 Convergence forte dans L (X , ) . . . . . . . . . . . . . . . . . III.3 Conditionnement par des contraintes de type moment . . . . . . . . . . . III.3.1 Cas dun espace de dimension nie . . . . . . . . . . . . . . . . III.3.2 Cas dun espace de dimension innie . . . . . . . . . . . . . . . Convergence en variation . . . . . . . . . . . . . . . . . . . . . . Convergence forte dans L (X , ) ? . . . . . . . . . . . . . . . . III.4 Contraintes plus gnrales - Contrles par recouvrement. . . . . . . . . . III.4.1 Nombres de recouvrement . . . . . . . . . . . . . . . . . . . . . III.4.2 P (X ) en tant quespace mtrique. . . . . . . . . . . . . . . . . . Les distances de Prokhorov et de Fortet-Mourier. . . . . . . . . . Estimation des nombres de recouvrement de P (X ). . . . . . . . . III.4.3 Le cas compact . . . . . . . . . . . . . . . . . . . . . . . . . . . III.4.4 Extension au cas non-compact . . . . . . . . . . . . . . . . . . . Rsultats gnraux . . . . . . . . . . . . . . . . . . . . . . . . . Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . III.4.5 Applications ltude des ponts de Schrdinger et des processus de Nelson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV A propos dune mthode de calibration en nance IV.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.1.1 Une mthode de calibration . . . . . . . . . . . . . . . . . . . . IV.1.2 Justication heuristique de cette mthode . . . . . . . . . . . . . IV.2 Approximation dune diffusion par un arbre trinomial . . . . . . . . . . . IV.2.1 Approximation dune diffusion par une chane de Markov . . . . IV.2.2 Dnition des arbres trinomiaux . . . . . . . . . . . . . . . . . . IV.2.3 Convergence des arbres trinomiaux . . . . . . . . . . . . . . . . IV.3 Principe conditionnel de Gibbs . . . . . . . . . . . . . . . . . . . . . . . IV.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.3.2 Convexication des arbres trinomiaux et Principe Conditionnel de Gibbs n x . . . . . . . . . . . . . . . . . . . . . . . . . . n . . . . . . . . . . . . . IV.3.3 Etude des I-projections de Qn 0 , b0 sur F Etude n x . . . . . . . . . . . . . . . . . . . . . . . . . . . . Etude asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . IV.3.4 Principe conditionnel de Gibbs (suite et n) . . . . . . . . . . . .

50 51 52 52 53 54 62 62 64 68 69 76 76 78 79 79 80 80 81 83 86 86 89 91 99 100 100 100 102 102 103 104 105 105 107 110 110 113 118

Table des matires

Un premier rsultat de convergence pour les arbres trinomiaux . . 118 Un second rsultat de convergence pour les arbres trinomiaux . . 120 Un rsultat gnral de convergence . . . . . . . . . . . . . . . . 122 V Principes conditionnels de type Gibbs pour des mesures poids alatoires 125 V.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 V.1.1 Mthodes danalyse convexe pour des problmes inverses mal poss126 V.1.2 Une interprtation probabiliste de ces mthodes . . . . . . . . . . 127 V.1.3 Le problme des contraintes nes . . . . . . . . . . . . . . . . . 128 V.2 Minimisation sous contraintes des -divergences et procd M.E.M . . . 129 V.3 Rsultats principaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 V.4 Ingalits de type transport . . . . . . . . . . . . . . . . . . . . . . . . . 135 V.4.1 Rsultats gnraux . . . . . . . . . . . . . . . . . . . . . . . . . 135 V.4.2 Quelques majorations explicites . . . . . . . . . . . . . . . . . . 140 V.5 Principe conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 V.5.1 Majoration de la distance en variation entre lestimateur bayesien et lestimateur M.E.M. . . . . . . . . . . . . . . . . . . . . . . . 142 V.5.2 Convergence des estimateurs bayesiens . . . . . . . . . . . . . . 146

II

Ingalits de transport
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

149
151 152 152 153 156 157 161 164 164 165 167 167 169 170 173 180 180 181

VI Ingalits de transport convexes - Rsultats prliminaires VI.1 Transport de masse . . . . . . . . . . . . . . . . . . . . . . . VI.1.1 Le problme de Monge-Kantorovich . . . . . . . . . . VI.1.2 La dualit de Kantorovich-Rbinstein . . . . . . . . . VI.1.3 Ingalits de Transport . . . . . . . . . . . . . . . . . Bref historique sur les ingalits de transport. . . . . . Survol du chapitre . . . . . . . . . . . . . . . . . . . VI.2 Ingalits de transport convexes . . . . . . . . . . . . . . . . VI.2.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . VI.2.2 Formulation duale des I.T.C . . . . . . . . . . . . . . VI.2.3 Quelques exemples . . . . . . . . . . . . . . . . . . . Ingalit de Pinsker . . . . . . . . . . . . . . . . . . . Un lien gnral entre I.T.C et ingalits de dviations . Ingalit de Pinsker pondre et ingalit de Bernstein VI.2.4 Tensorisation des I.T.C . . . . . . . . . . . . . . . . . VI.3 Applications des I.T.C . . . . . . . . . . . . . . . . . . . . . VI.3.1 Ingalits de concentration . . . . . . . . . . . . . . . VI.3.2 I.T.C et ingalits de dviations . . . . . . . . . . . .

10

Table des matires

VII Mthodes dOrlicz pour certaines ingalits de transport convexes VII.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII.1.1 Cadre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII.1.2 A propos de la littrature. . . . . . . . . . . . . . . . . . . . . . . VII.2 Conditions ncessaires pour une I.T.C. . . . . . . . . . . . . . . . . . . . VII.3 Conditions sufsantes pour une I.T.C. convexe. Critres intgraux. . . . . VII.3.1 Majoration de la transforme de Laplace dune variable alatoire de LE (X , ). . . . . . . . . . . . . . . . . . . . . . . . . . . . VII.3.2 Applications aux I.T.C. . . . . . . . . . . . . . . . . . . . . . . . VII.4 Exemples et estimation des constantes. . . . . . . . . . . . . . . . . . . . VII.4.1 Estimations des normes de jauge. . . . . . . . . . . . . . . . . . VII.4.2 Exemples. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII.5 I.T.C. convexes pour des fonctions de cot non mtriques. . . . . . . . . . A Annexe du chapitre III A.1 Preuve du lemme Propagation du chaos . . . . . . . . . A.2 Contrles non-asymptotiques pour le thorme de Sanov A.2.1 Bornes suprieures exactes : . . . . . . . . . . . A.2.2 Bornes infrieures exactes : . . . . . . . . . . . B Preuve du thorme V.8 Bibliographie

185 186 186 188 189 193 193 197 198 198 199 202 205 205 207 207 209 213 220

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

CHAPITRE I

Introduction Gnrale

Cette thse est consacre deux sujets distincts : ltude des principes conditionnels de type Gibbs et les ingalits de transport. Le matriel constituant ce travail est issu de trois articles : Deviations bounds and Gibbs conditional principle for thin sets, article crit en collaboration avec Patrick Cattiaux. Conditional principles for random weighted measures, paratre dans la revue ESAIM P&S. A large deviation approach to some transportation cost inequalities, article crit en collaboration avec Christian Lonard.

Premire partie : principes conditionnels


La thorie des Grandes Dviations tudie le taux de dcroissance exponentielle des probabilits de certains systmes alatoires. Dune manire informelle, une suite de variables alatoires (Ni )iN valeurs dans un espace suit un Principe de Grandes Dviations (P.G.D) sil existe une fonction I : R+ {+} telle que pour tout ensemble C mesurable, on ait P (Nn C ) en I(C ) , lorsque n +,

en notant I(C ) = inf {I(x), x C }. La fonction I est appele la fonction de taux du P.G.D.

12

I. Introduction Gnrale

La dnition rigoureuse dun P.G.D est nonce ci-dessous : Dnition. Soit (, B ) un espace mesurable muni dune topologie spare. On dit quune suite de variables alatoires (Nn )n valeurs dans suit un Principe de Grandes Dviations de bonne fonction de taux I, si 1. La fonction I : R+ est une fonction inf-compact, ie r 0, {I r} est compact. 2. Pour tout C B , on a lim inf
n 1 log P(Nn C ) inf I( ) : C . n

et lim sup
n

1 log P(Nn C ) inf I( ) : C . n

Dans certaines situations, on veut non seulement estimer les probabilits dvnements rares, mais aussi tre capable de dcrire lvolution la plus probable du systme lorsquun tel vnement se produit. On sintresse alors au comportement asymptotique dobjets de la forme : L (Nn |Nn C ) . (I.1) Un thorme qui prcise le comportement de ce type dobjet est appel dans la littrature Principe conditionnel. Le conditionnement Nn C peut se comprendre de deux manires diffrentes : Ce conditionnent peut reprsenter une volution particulirement indsirable du systme ; connatre sa ralisation la plus probable peut permettre de reparamtrer le systme pour viter des dgts. Ce conditionnement peut galement faire partie intgrante de la modlisation en reprsentant une contrainte matrielle effective. Prenons lexemple de N utilisateurs partageant k ressources : si les ressources taient innies, les ressources utilises par les N utilisateurs seraient modlises par N vecteurs alatoires indpendants et identiquement distribus valeurs dans Nk : X1 , . . . , XN ; ces ressources tant nies la loi relle dun utilisateur typique est
N

L X1
i=1

Xi C

avec C = k i=1 [0, N ri ]. Le nombre dutilisateurs tant suppos trs grand, on cherchera calculer N k 1 Xi [0, ri ] . lim L X1 N + N i=1 i=1 Le calcul de cette limite relve du principe conditionnel de Gibbs que nous allons voir plus loin.

13

Dune manire gnrale, la suite de probabilits (I.1) saccumule exponentiellement rapidement sur lensemble des minimisants de la fonction de taux I sur C , comme le montre la proposition suivante que lon doit D.W. Stroock et O. Zeitouni (voir [64]). Notation : Pour tout ensemble A de , nous noterons I(A) = inf {I( ) : A}.

Proposition. Soit un espace polonais muni de sa tribu borlienne et (Nn )n une suite de variables alatoires valeurs dans qui satisfait un P.G.D. de bonne fonction de taux

I. Si C un ensemble mesurable tel que IC = I(C ) = I(C ), alors P(Nn C ) > 0 pour tout n assez grand, et en posant I := { C : I( ) = IC }, on a pour tout ouvert tel que I , 1 lim sup log P (Nn c |Nn C ) < 0. n n En particulier, si I = { }, alors L (Nn |Nn C ) ,
n+

(I.2)

au sens de la convergence troite sur P () . Dmonstration. Si est un ouvert tel que I , alors 1 1 1 log P (Nn c |Nn C ) = log P (Nn c C ) log P (Nn C ) . n n n Grce au principe de grandes dviations, on en dduit que lim sup
n 1 log P (Nn c |Nn C ) I(c C ) + I(C ). n

On voit facilement que I(c C ) > IC et, par consquent, lim sup
n

1 log P (Nn c |Nn C ) < 0. n

En particulier, si I = { }, alors pour tout ensemble F ferm, on a lim sup P (Nn F |Nn C ) (F ),
n+

ce qui signie que L (Nn |Nn C ) , troitement dans P ().


n+

Le cas o la fonction de taux I est strictement convexe sur son domaine et lensemble C est convexe est particulirement favorable, puisque dans ce cas I contient au plus un point.

14

I. Introduction Gnrale

Quelques principes conditionnels classiques


Voyons les principes conditionnels associs aux principes de grandes dviations classiques. Principe conditionnel pour la moyenne empirique Soit une mesure de probabilit sur un espace de Banach B . Sur le dual topologique B , on dnit la Log-Laplace de par : B , La transforme de Cramr de , cest--dire () = log
B

e ,x d.

de est par dnition la transforme de Fenchel-Legendre (x) = sup { , x ()}.


B

x B,

Le thorme de Cramr afrme que si (Xi )i est une suite de variables alatoires i.i.d de n 1 loi , et si 0 dom , alors la moyenne empirique Mn = Xi suit un principe de n i=1 grandes dviations sur B de bonne fonction de taux . Sous lhypothse supplmentaire t > 0,
B

et

d < +,

on peut montrer que est strictement convexe sur son domaine. Le principe conditionnel associ ce P.G.D, appel le plus souvent loi faible des grands nombres conditionnelle1 , afrme alors que, pour tout ouvert convexe C tel que C dom = , L(Mn |Mn C ) x ,
n+

troitement sur P (X ),

(I.3)

o x est lunique minimisant de sur C . Ce point x est appel point dominant de C . Cette notion a t introduite et tudie en dimension nie par P. Ney dans [52, 53], puis gnralise par U. Einmalhl et J. Kuelbs dans [31] et [40]. Elle permet dobtenir un rafnement des bornes de grandes dviations de la forme :

1 n1/2 en (x ) P(Mn C ) 2 n1/2 en (x ) , les constantes 1 et 2 dpendant, entre autre, de manire subtile de la gomtrie de C au voisinage de x . Dans [41], J. Kuelbs et A. Meda ont utilis cette technologie pour
1

en anglais, Conditional weak law of large numbers.

15

dmontrer des versions plus prcises de (I.3) : ils obtiennent, sous diverses hypothses, des vitesses n explicites telles que P ( Mn x n |Mn C ) 1.
n+

Le principe conditionnel de Gibbs Le principe conditionnel de Gibbs a pour objet le comportement limite de la mesure empirique dune suite de variables alatoires (Xi )i indpendantes et identiquement distribues : n 1 X , Ln = n i=1 i sous la contrainte Ln C . Le clbre thorme de Sanov afrme que si les Xi sont i.i.d de loi et valeurs dans un espace polonais X , alors la suite (Ln )n satisfait un P.G.D de bonne fonction de taux H ( . | ) dnie par H ( | ) = log +
X d d

si , sinon.

ceci pour la topologie de la convergence troite et la tribu borlienne associe (voir le thorme II.21 pour des extensions). La fonction H ( . | ) sappelle distance de Kullback

ou entropie relative. L encore, si C est un ensemble convexe tel que H(C |) = H C , alors L (Ln |Ln C ) , troitement sur P (P (X )) , (I.4)
n+

o est lunique minimisant de H ( . | ) sur C . La probabilit est appele I-projection de sur C . Le chapitre II de cette thse sera consacr cette notion introduite et tudie par I. Csiszr dans [18, 19]. Cest galement I. Csiszr que lon doit la premire dmonstration de (I.4) pour des ensembles C convexes (voir [19]). Cest une question de Mcanique Statistique qui a motiv ltude de L(Ln |Ln C ) : on suppose que les (Xi )i reprsentent des particules, chaque particule ayant une nergie F (Xi ) et on sintresse la loi conditionnelle de (X1 , . . . , Xk ) (k x) sachant que le nuage de particules a une nergie moyenne donne : Ln , F = 1 n
n

F (Xi ) [a, b].


i=1

Le nombre de particules tant trs grand, le problme mathmatique se rsume calculer la limite suivante : lim L(X1 , . . . , Xk |Ln C ), (I.5)
n+

avec C = P (X ) : X F d [a, b] . Comme le montre le lemme suivant, dterminer la limite de (I.5) pour tout k N , revient dterminer la limite de L(Ln |Ln C ), lorsque n +.

16

I. Introduction Gnrale

Lemme (Propagation du chaos). Si X est un espace polonais et si, pour tout n N , n est une probabilit symtrique sur X n (ie n est invariante par permutations des coordonnes), alors les deux propositions suivantes sont quivalentes : 1. La loi de Ln = 2. Pour tout k N et pour toutes fonctions f1 , . . . , fk continues bornes sur X , on a f1 (x1 ) fk (xk ) dn
Xk n+ Xk 1 n n i=1 xi

sous n converge troitement vers .

f1 (x1 ) fk (xk ) dk .

Dmonstration. Voir lannexe A ou la preuve du lemme 3.1 de [65]. En appliquant ce rsultat avec n = k N , 1 IC (Ln ) n , n (Ln C ) on voit que (I.4) quivaut (I.6)

L(X1 , . . . , Xk |Ln C ) k .
n+

De plus, pour un ensemble C de la forme C= P (X ),


X

F d [a, b] ,

nous verrons dans le chapitre II, que la I-projection est en gnral une mesure de Gibbs d = Z 1 exp(F ) d. Ainsi, pour tout k , les variables (X1 , . . . , Xk ) sont conditionnellement asymptotiquement indpendantes et identiquement distribues, avec pour loi limite une mesure de Gibbs. Principe conditionnel pour des mesures poids alatoires Donnons nous une mesure de rfrence R sur un espace polonais X , ainsi quune famille de points (xn i )i=1...n choisis de telle sorte que 1 n
n

xn R, i
i=1 n+

(on peut prendre par exemple les ralisations dune suite i.i.d de loi R) et posons 1 Ln = n
n

Zi xn , i
i=1

(I.7)

avec (Zi )i une suite de variables alatoires valeurs relles i.i.d de loi . Ces mesures poids alatoires ont t introduites en mcanique statistique par Ellis et al. dans [32] et en thorie de lestimation par Gamboa et al. dans [22, 35, 36, 21].

17

Si dom = R, la suite (Ln )n suit un P.G.D sur M(X ) (ensemble des mesures nies sur X ) quip de la topologie de la convergence troite de bonne fonction de taux I (P |R ) =
X

dP dR

dR.

On peut trouver une preuve de ce rsultat dans [26] (thm 7.2.3). Si lhypothse dom = R nest plus vrie, la fonction de taux fait apparatre des termes singuliers (voir [32] et [50]).

Sans surprise, si C est un convexe de M(X ) tel que I (C |R) = I C |R , on a L(Ln |Ln C ) R
n+

(I.8)

la mesure R tant lunique minimisant de I ( . |R ) sur C . Lintrt thorique de ce rsultat est quil donne une interprtation probabiliste de certaines procdures de selection utilises en statistique. Une question frquente en modlisation est la suivante : comment retrouver la loi dun phnomne alatoire partir de certaines observations moyennes de celui-ci ? Ce problme est le plus souvent mal pos et il sagit de slectionner un lment dans lensemble C , gnralement trs grand, de toutes les mesures (de probabilit ou non) conformes aux observations empiriques. Dans certains cas, on dispose dun modle a priori R. Lobjectif est de modier R de telle sorte quil sajuste aux observations. Dans [20], I. Csiszr a pos les axiomes de ce quon est en droit dattendre dune procdure de slection avec a priori. Il ressort de ce travail quune telle procdure est le fruit de la minimisation sous contraintes de deux types de fonctionnelles. Ces deux classes de fonctionnelles sont les distances de Bregman sur lesquelles nous ne reviendrons pas et les -divergences, cest--dire les fonctionnelles de la forme I (P |R ) =
X

dP dR

dR,

la fonction tant convexe et positive. Cette classe de fonctionnelle contient notamment lentropie relative, obtenue pour la fonction (x) = x log x + 1 x. Les fonctions de taux des P.G.D associs aux mesures alatoires Ln (dnies par (I.7)) sont des -divergences. On remarquera, en particulier, que lentropie relative est obtenue en prenant des poids Zi poissonniens de moyenne 1. Le principe conditionnel (I.8) permet ainsi de comprendre de manire plus probabiliste le minimisant de I ( . |R ) sur C . Celui-ci est thoriquement simulable grce une mthode dacceptation-rejet base sur les observations de Ln . Une telle mthode est, bien entendu, irralisable en pratique puisque lvnement Ln C se produit avec une probabilit tendant exponentiellement rapidement vers 0. . .

18

I. Introduction Gnrale

Prsentation des chapitres


Le problme auquel sattache cette thse est celui des contraintes nes. Comment donner un sens L (Nn |Nn C ) lorsque P(Nn C ) = 0 pour une innit dentiers n ? Lide la plus satisfaisante dun point de vue thorique serait de dnir cette probabilit en utilisant une dsintgration exacte de la mesure. Ce point de vue a t dvelopp dans [69, 74, 11] dans le cas particulier de ltude de L(X1 |X1 + + Xn = cn ), (I.9)

o Xi est une suite i.i.d de variables alatoires, et cn une suite de nombres rels. Dans [69], T. Tjur a montr que si cn = nE[X1 ], alors (I.9) converge vers L(X1 ). Dans [74], S. Zabell a tudi la convergence de (I.9) lorsque cn = nE[X ] + dn , dn tant une suite de limite nulle. Il a obtenu des vitesses explicites pour dn garantissant la convergence de (I.9) vers L(X1 ). Enn, dans [11], J. Van Campenhout et T. Cover ont tendu les rsultats prcdents des suites cn de la forme cn = nx + dn , x pouvant tre diffrent de E[X1 ]. Cette approche, fonde sur une dsintgration exacte, semble difcile mener en toute gnralit. Un point de vue plus raisonnable est celui adopt par Stroock et Zeitouni dans [64]. Il consiste grossir la contrainte ne C , en considrant une famille croissante (C ) densembles mesurables et tudier
0 n+

lim lim P (Nn . |Nn C ) .

Quand la famille (C ) est bien choisie, cette limite est celle quon attend, savoir le minimisant de la fonction de taux sur lensemble C . Ce point de vue nest pas toujours satisn 1 faisant. Prenons lexemple du principe conditionnel de Gibbs, ie Ln = n i=1 Xi , supposons que C soit ferm pour la topologie de la convergence troite et tel que H ( C | ) < + (, C ) < }, o d ( . , . ) est une distance mtrisant la et posons C = { P (X ), d convergence troite. A x, L(Ln |Ln C ) converge troitement vers , tant la I-projection de sur C (cela rsulte des premiers rsultats de Csiszr sur le principe conditionnel de Gibbs). Par ailleurs, on voit facilement, en utilisant certains rsultats de Csiszr sur la gomtrie des I-projections, que . Dans ce cas prcis, on voit 0 que la formulation en double limite napporte rien de nouveau. Lobjectif de cette premire partie est dobtenir une formulation en limite simple de certains principes conditionnels. Partant dune contrainte ne convexe C , on cherchera construire explicitement une suite dcroissante Cn de convexes dont lintersection est C

19

et telle que L(Nn |Nn Cn ) converge vers le minimisant de la fonction de taux sur C . Sous cette forme, nous adoptons un point de vue intermdiaire entre celui hypothtique de la dsintgration et celui de la double limite. Dans lexemple prcdent, nous serons en mesure, sous certaines hypothses, de construire explicitement des suites n de limite nulle telles que L(Ln |Ln Cn ) converge quand n + vers . Si, dans le cas dune contrainte convexe C paisse, la convergence de L (Nn |Nn C ) vers le minimisant de la fonction de taux sur C relevait de manire directe du principe de grandes dviations satisfait par Nn , ce nest plus le cas avec notre approche. Celle-ci requiert des bornes exactes, cest--dire non-asymptotiques, pour le contrle des petites probabilits. Cette premire partie comporte quatre chapitres. Le chapitre II est un chapitre prliminaire sur lentropie relative. Les chapitres III et IV sont consacrs au principe conditionnel de Gibbs et le chapitre V au principe conditionnel pour des mesures poids alatoires. Voyons, maintenant plus en dtail le contenu de chacun deux. Rsum du chapitre III 1 X est la mesure empirique dune suite i.i.d de loi Dans ce chapitre, Ln = n i=1 i sur un certain espace polonais X . Lobjectif de chapitre est de donner des conditions sufsantes pour que L (Ln |Ln Cn )
n+ n

avec Cn une suite dcroissante densembles convexes de P (X ) dintersection C et la I-projection de sur C (cest--dire lunique minimisant de H ( . | ) sur C ). En fait, nous tudierons ce problme sous une autre forme (qui est quivalente la prcdente, tant quon ne sintresse qu la convergence troite) : nous chercherons dmontrer que k N , n k . Cn , k := L(X1 , . . . , Xk |Ln Cn )
n+

(I.10)

Ce qui rend cette forme plus agrable est que lon dispose de lingalit suivante
k H n C n , k n

1
n k

log P (Ln Cn ) en H( Cn |) ,

la probabilit n tant la I-projection de sur Cn . Cette ingalit qui est due I. Csiszr, sapplique ds que les Cn sont ferms en un certain sens. Grce ce contrle, nous verrons au thorme III.36 que pour des topologies raisonnables, la condition lim inf
n+

1 log P (Ln Cn ) H ( C | ) . n

(I.11)

20

I. Introduction Gnrale

est sufsante pour avoir (I.10). Cette condition assez naturelle ne relve pas du thorme de Sanov. Cependant, en reprenant sous une forme un peu modie, la technique classique du recentrage exponentiel, on montre la proposition III.46 quune condition sufsante pour (I.11) est lim n (Ln Cn ) = 1. (I.12)
n+

Comme appartient Cn pour tout n, il sagit donc de prciser la loi faible des grands nombres pour Ln sous n . Lorsque C est dni par une contrainte de type moment, cest--dire lorsque C est de la forme C= P (X ) :
X

F d K ,

avec F une fonction mesurable valeurs dans un Banach sparable et K un convexe, une manire naturelle de grossir C est de poser, pour tout > 0 C = P (X ) :
X

F d K

o K est un -voisinage de K . Il sagit ensuite de trouver des suites n telles que Cn := Cn vrie (I.12). Pour cela, nous ferons appel des ingalits de type Bernstein (en dimension nie) ou Yurinskii (en dimension innie) qui garantissent que si Yi est une suite i.i.d de loi ,
n

(Ln Cn ) P

1 n

F (Yi )
i=1 X

F d n

1 enn .

1 Typiquement, nous pourrons donc autoriser des vitesses de rtrcissement n en n a , avec 1 a < 2 . Pour ce type de contraintes, le rsultat le plus intressant de ce chapitre est le thorme III.61 qui traite de la dimension nie. Sous des hypothses trs peu restrictives, nous k obtenons la convergence en entropie de n et pour k = 1 la convergence a Cn , k vers lieu en un sens encore plus fort.

Pour aborder le cas dune contrainte convexe ne C gnrale, nous allons tirer partie de la mtrisabilit de la topologie de la convergence troite et poser pour tout > 0 (, C ) }, C = { P (X ) : d tant une distance mtrisant cette topologie (on considrera les mtriques de Prokhorov d et de Fortet-Mourier ). En utilisant des rsultats de S.J. Kulkarni et O. Zeitouni, nous verrons que si X est compact, on dispose de la borne suivante : en 8 , n (Ln C ) 1 NP (X ) d, 4
2

(I.13)

21

est le nombre minimal de boules de rayon (pour la distance d ) no NP (X ) d, cessaire pour recouvrir lespace compact P (X ). En un mot, pour obtenir (I.13), lide est de recouvrir le complmentaire de C par des boules Bi de rayon /4, dutiliser la majoration classique n (Ln Bi ) en H( Bi | ) suivie de lingalit de Pinsker (, ) 2 H ( | ). Clairement, pour que Cn := C n vrie (I.12), il faut que la d suite n tende vers 0 sufsamment lentement pour permettre au terme de grandes dvia2 tions enn /8 de compenser la croissance du nombre de boules. Des estimations "trac en fonction de NX () existent (voir le lemme III.93). Elles pertables" de NP (X ) d, mettent, chaque fois que lon sait estimer NX (), de calculer des vitesses de rtrcissement n explicites (voir le corollaire III.101 et la proposition III.105). Si lespace X nest plus compact, on peut mettre en place une procdure dapproximation de par des probabilits supports compacts et dduire des rsultats prcdents des conditions sufsantes sur n pour que Cn vrie (I.12). Cest lobjet des propositions III.106 et III.109. Cette fois, un autre facteur entre un jeu : il faut que soit rapidement approche par des probabilits portes par des compacts dont lentropie mtrique nexplose pas trop rapidement. Ceci requiert une bonne connaissance de (typiquement de sa queue de distribution). Nous terminons ce chapitre par une application de ces mthodes dans un cadre physique plus concret : une interprtation statistique des ponts de Schrdinger et des processus de Nelson. On sintresse aux comportements tranges de grands nuages de particules browniennes. Si X1 , . . . , XN sont N particules browniennes indpendantes, le problme est de dterminer lvolution la plus probable du nuage sachant que celui-ci a t trouv avec une distribution approximativement gale t aux instants t I (I tant un sous ensemble de [0, 1]). Posant C (t ) = il sagit destimer
N +

V P (C ([0, 1], Rq )) : t I, Vt = t ,

lim L(LN |LN C (t )).

Ceci reste bien sr formel, puisque la contrainte C (t ) est une contrainte (convexe) ne. Pour de bons ots de marginales (t )tI , le problme de lexistence de la I-projection W de W (mesure de Wiener sur C ([0, 1], Rq )) sur C (t ) a t tudi par diffrents auteurs. Dans le cas o I = {0, 1}, on parle de ponts de Schrdinger et pour I = [0, 1], de processus de Nelson. Dans les deux cas, nous montrons comment construire des suites N explicites telles que
N +

lim L (LN |LN C (t )N ) = W .

22

I. Introduction Gnrale

Rsum du chapitre IV Le chapitre IV donne une interprtation en terme de principe conditionnel de Gibbs dune mthode de calibration destine la nance et propose par M. Avellaneda, C. Friedman, R. Holmes et D. Samperi dans [2]. Le problme est de modliser un actif nancier par un processus de diffusion de loi note Q solution dune quation diffrentielle stochastique : dXt = (t, Xt ) dBt + b0 dt (I.14) et vriant E [F (XT )] = 1 pour une fonction F donne et une date T xe. Ici, le drift b0 est x par labsence darbitrage. Le drift b0 tant x, on ne peut jouer que sur le coefcient de diffusion, ce qui, daprs le thorme de Girsanov, ferme la porte une mthode de calibration fonde sur la minimisation de lentropie relative par rapport une diffusion priori Q0 . Lide dveloppe par Avellaneda et al. dans lintroduction de [2] est de minimiser lentropie relative sur des versions discrtises des processus. Supposons donne, pour tout , une suite Qn de chanes de Markov convergeant vers Q . Certains schmas dapproximation classiques, comme le schma dEuler ou les arbres trinomiaux, vrient 1 n H Qn I( |0 ) = E Q0 n+ n
1 2 q ( 2 (Xt , t), 0 (t, Xt )) dt , 0

(I.15)

o la fonction q dpend du schma dapproximation choisi. Se fondant sur cette proprit, Avellaneda et ses coauteurs proposent de minimiser les fonctionnelles de la forme I( . |0 ) sous la contrainte E [F (XT )] = 1, o E [ . ] dsigne lesprance par rapport la loi Q . Les problmes de minimisation sous contraintes de lentropie relative tant naturellement lis au principe conditionnel de Gibbs, nous chercherons interprter le minimisant Q de I( . |0 ) sous la contrainte E [F (XT )] = 1 comme une limite de la forme Q = lim E Qn mn [Lmn |Lmn Qn ] , n+ ( 0 ) o Lm : C ([0, 1], R)m P (C ([0, 1], R)) : (1 , . . . m )
1 m m i=1 i ,

(I.16)

n Qn est lensemble des Qn vriant la contrainte E [F (XT )]

1,

mn est une suite dentiers prciser. Ce rsultat parat raisonnable, puisqu n x,


m+ n lim E Qn m [Lm |Lm Qn ] Argmin H Q Qn 0 , Q Q ( 0 )

et quau vu de (I.15), on peut esprer que ce dernier ensemble soit proche de Q .

23

Nous ne serons en mesure de dmontrer une convergence du type (I.16) que pour un schma dapproximation donn : les arbres trinomiaux (voir le thorme IV.29). En particulier, pour diverses raisons, notre preuve ne permet pas de traiter le schma dEuler. Nanmoins, grce ce rsultat, la minimisation sous contrainte des fonctionnelles de la forme I( . |0 ) trouve une justication plus rigoureuse. Rsum du chapitre V Dans le chapitre V, nous nous plaons dans le cadre des mesures poids alatoires, ie 1 Ln = n
n

Zi xn , i
i=1 n n i=1 xi

1 o lon rappelle que les Zi sont i.i.d de loi et les xn i tels que n une certaine probabilit de rfrence R sur lespace X considr.

converge vers

Ici, nous chercherons dmontrer des convergences de la forme E[Ln |Ln Cn ] R ,


n+

(I.17)

o C est une contrainte convexe ne et R est le minimisant de I ( . |R ) sur C . En fait, nous ne pourrons considrer que des ensembles C dnis par des contraintes de type moment, cest--dire de la forme S (F, K ) := P M(X ) :
X

F dP K , avec F : X Rk et K convexe de Rk ,

ensemble que nous grossirons en S (F, K ) := P M(X ) : X F dP K . La raison de cette restriction est quici, contrairement au principe conditionnel de Gibbs, la forme algbrique particulire de R est utilise dans la preuve et cette forme nest connue que dans ce cas prcis. Pour dmontrer (I.17), nous chercherons coller au plus prs ce qui a t fait dans le cadre du principe conditionnel de Gibbs. Loutil clef du chapitre III tait lingalit de Csiszr 1 n H( C |) , (I.18) H ( n C | ) log P (Ln C ) e n o n C = L(X1 |Ln C ) = E[Ln |Ln C ] et est la I-projection de sur C . Grce lingalit de Pinsker, on dduisait de (I.18) que
n C

VT

2 log (P (Ln C ) en H( C |) ). n

(I.19)

24

I. Introduction Gnrale

Dans les raisonnements, cest cette dernire ingalit que nous utilisions effectivement, et cest donc une ingalit du mme style que nous voulons obtenir dans le cadre des mesures poids alatoires. Si Rn, := E[Ln |Ln S (F, K )] jouera le rle de n C , celui de sera jou non pas par R , mais par une certaine mesure Rn, appele minimisant de lentropie sur la moyenne. Ces mesures ont t introduites et tudies par Gamboa et al. dans [22, 35, 36, 21]. Lorsque dom = R, lune des manires de les dnir est la n 1 n suivante : en notant Rn = n i=1 xi , la mesure Rn, est le minimisant de la -divergence discrtise I (P |Rn ) :=
X

dP dRn

dRn

sur lensemble S (F, K ). La suite de fonctions I ( . |Rn ) converge en un sens sufsamment fort vers I ( . |R) pour que la suite de ces minimisants sous contrainte converge ga lement vers le minimisant sous contrainte de I ( . |R). Autrement dit, les Rn, convergent vers R (voir le thorme V.8). Lingalit qui gnralise (I.19), et qui est le rsultat principal de ce chapitre, est de la forme suivante :

Rn, Rn,

VT

1 log P(Ln S (F, K ))en I (Rn, |Rn ) n

(I.20)

avec Q une fonction concave dpendant de (voir la proposition V.26). Si n est une suite de limite nulle, la suite Rn, n converge vers R (voir le thorme V.8). Ainsi, pour montrer (I.17), il suft de contrler le membre de droite de (I.20). Cette dernire tape fait intervenir des outils dj utiliss dans le chapitre III : recentrage exacte et bornes la Bernstein. La dmonstration de (I.20) est assez proche de celle de (I.18). Lingrdient nouveau est donn par la proposition V.17 qui dit essentiellement que pour toute mesure de probabilit sur R, on peut construire une fonction Q concave, positive croissante et nulle en 0 telle que P (R),
R

x d
R

x d Q (H ( | )) .

Ce rsultat, qui est largement inspir des travaux de S.G. Bobkov et F. Gtze sur lingalit de transport T1 (voir [4]), est aussi ce qui a orient cette thse vers une tude des ingalits de transport et de leurs liens avec les grandes dviations.

25

Seconde partie : Ingalits de transport


Si et sont deux probabilits sur un espace mesurable X et si c : X R+ est une fonction mesurable, on dnit le cot de transport optimal Tc (, ) de sur de la manire suivante : Tc (, ) = inf c(x, y ) d (x, y ), (I.21)
(, ) X2

o lensemble (, ) est lensemble des mesures de probabilit sur X 2 ayant pour premire marginale et pour seconde. Pour faciliter les critures, nous supposerons toujours que c est symtrique, cest--dire quelle vrie c(x, y ) = c(y, x). De la sorte, Tc (, ) = Tc (, ). Lappellation cot de transport optimal vient de ce quen interprtant d (x, y ) comme une masse prise en x et dpose en y et en considrant quun tel transport lmentaire cote le prix c(x, y ), on peut voir X 2 c(x, y ) d (x, y ) comme le cot total engendr par lopration et Tc (, ) comme le meilleur cot possible. Si le centre dintrt principal en thorie du transport est ltude des plans de transport optimaux, cest--dire des couplages ralisant linmum dans (I.21), un autre sujet a pris ces dernires annes un essor certain, cest celui des ingalits de transport. On dit que vrie une ingalit de transport sil existe une fonction F telle que P (X ), Tc (, ) F (H ( | )) . (I.22) Ces ingalits ont t introduites par K. Marton et M. Talagrand dans [47] et [68]. La raison de ltude de ce genre dingalits est leurs liens avec les ingalits de concentration. Le chapitre VI comportant une introduction assez dtaille sur le sujet, nous nous permettrons de ne pas alourdir celle-ci et de passer la prsentation succincte de nos rsultats. Rsum du chapitre VI Ce chapitre introduit la notion dingalits de transport convexes (I.T.C). Une probabilit sur un espace X satisfait lI.T.C Tc ( , a), o est une fonction convexe appartenant une certaine classe C , si Tc (, ) H ( | ) , (I.23) P (X ), a la fonction tant la conjugue convexe de . Les diverses ingalits de transport dmontres ces dernires annes peuvent toutes se mettre sous cette forme. Le premier objectif de ce chapitre est dtendre au cas gnral un certain nombre de rsultats dmontrs uniquement dans des cas particuliers. Nous obtiendrons, notamment une formulation duale la Bobkov-Gtze ainsi quune formule gnrale de tensorisation la Marton-Talagrand. Le second objectif est dtablir des liens entre ces I.T.C et la thorie des Grandes Dviations : nous montrerons comment certaines techniques de Grandes Dviations permettent dtudier les ingalits de transport et inversement, comment ces ingalits de transport permettent dobtenir des ingalits de dviations.

26

I. Introduction Gnrale

Rsum du chapitre VII Dans ce chapitre nous dmontrons des conditions ncessaires et sufsantes pour quune probabilit vrie (I.23). Notre rsultat principal (le thorme VII.50) dit essentiellement que si se comporte comme x2 au voisinage de 0, alors pour toute fonction de cot c(x, y ) = q (d(x, y )) avec q une fonction convexe positive sur R+ nexplosant pas trop rapidement, lI.T.C (I.23) est quivalente une proprit dintgrabilit de la forme : > 0,
X2

(c(x,y ))

d(x)d(y ) < +.

Ce rsultat gnralise compltement les rsultats de Djellout, Guillin et Wu sur lingalit de transport T1 , ainsi que ceux, plus gnraux, de Bolley et Villani (voir [27] et [5]).

Premire partie Principes Conditionnels

CHAPITRE II

Entropie relative, thorme de Sanov et projections entropiques

Sommaire
II.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 II.2 Entropie relative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 II.2.1 II.2.2 Dnition et premires proprits . . . . . . . . . . . . . . . . 31 Entropie relative et norme en variation . . . . . . . . . . . . . . 31

II.3 Le thorme de Sanov . . . . . . . . . . . . . . . . . . . . . . . . . . 34 II.3.1 II.3.2 La version classique . . . . . . . . . . . . . . . . . . . . . . . 34 Extensions du thorme de Sanov . . . . . . . . . . . . . . . . 34

II.4 Projections entropiques . . . . . . . . . . . . . . . . . . . . . . . . . 35 II.4.1 II.4.2 II.4.3 II.4.4 Dnition et relation de Pythagore . . . . . . . . . . . . . . . . 35 Projections entropiques gnralises . . . . . . . . . . . . . . . 36 Critres dexistence dune projection entropique . . . . . . . . 37 Reprsentation des projections entropiques . . . . . . . . . . . 38

30

II. Entropie relative, thorme de Sanov et projections entropiques

II.1

Introduction

Ce chapitre a pour but de regrouper les diffrents rsultats concernant lentropie relative dont nous aurons besoin dans cette thse. galement appele distance de Kullback, lentropie relative entre deux mesures de probabilit et est dnie par H ( | ) = log +
X d d

si . sinon.

Cette fonction joue un rle fondamentale dans diffrents domaines des mathmatiques : thorie de linformation, thorie des grandes dviations, ingalits fonctionnelles (Ingalits Sobolev-Logarithmiques, Ingalits de transport), concentration de la mesure, calibration de modles. . . Aprs avoir pass en revue dans la section II.2 quelques proprits de bases de lentropie relative et notamment limportante formule de dcomposition (II.4), nous aborderons laspect mtrique de la distance de Kullback, avec lingalit de Pinsker (II.13) et son extension rcente (II.16) qui comparent la convergence au sens de la norme en variation la convergence en entropie. La section II.3 est consacre au thorme de Sanov, qui afrme que pour diverses topologie, H ( . | ) contrle les grandes dviations de la mesure empirique 1 Ln = n
n

Xi
i=1

dune suite de variables (Xi )i indpendantes et identiquement distribues de loi . Grce ce thorme, pour un ensemble A donn, les points A tels que H ( | ) = inf {H ( | ) , A}, apparaissent comme les scnarios les plus probables de la grande dviation Ln A. Lorsque A est convexe, il existe au plus un tel qui sappelle projection entropique de sur A. La section II.4 prsente diffrents rsultats, que lon doit principalement I. Csiszr, concernant les projections entropiques, galement appeles I-projections ou projections de Csiszr. La projection en entropie jouit notamment dune proprit rappelant lingalit de Pythagore de la projection euclidienne (voir (II.26)). Dans le thorme II.41, nous verrons que, sous certaines hypothses, on dispose dune formule explicite pour la projection entropique sur un convexe dni par une contrainte de type moment. Comme nous utiliserons ce thorme de multiples reprises, nous en donnerons une preuve complte reposant sur des rsultats lmentaires danalyse convexe.

II.2. Entropie relative

31

II.2
II.2.1

Entropie relative
Dnition et premires proprits

Dans ce chapitre, (X , B ) est un espace mesurable, M(X ) dsigne lensemble des mesures nies sur (X , B ), et P (X ) celui des mesures de probabilit sur (X , B ). Dnition II.1. Soient , P (X ). Lentropie relative de par rapport , note H ( | ) est dnie par H ( | ) = log +
X d d

si sinon.

Proposition II.2. Pour toute P (X ), H ( . | ) est une fonction convexe positive, ne sannulant quen et strictement convexe sur {H ( . | ) < +}. Nous conviendrons dappeler la formule (II.4) de la proposition suivante Formule de dcomposition de lentropie relative : Proposition II.3. Soient P (X ) et P (X n ), n N . On a, en dsignant par i la ime marginale de ,
n

= H 1 n +
i=1

H i

(II.4)

Dmonstration. Voir, par exemple, la preuve du lemme 7.3.25 de [26].

II.2.2

Entropie relative et norme en variation

Norme en variation On dsignera par B (X ), lensemble des fonctions mesurables bornes sur (X , B ). B (X ) sera muni de la norme . , f

= sup |f (x)|
xX VT

Dnition II.5. Pour toute M(X ), la norme en variation de , note dnie par :
VT

est

= sup
X

f d : f B (X ), f

1 .

(II.6)

Remarque II.7. Clairement M(X ) est inclus dans le dual topologique de B (X ) ; daprs la formule (II.6), la norme en variation de nest autre que sa norme en tant que forme linaire continue sur B (X ).

32

II. Entropie relative, thorme de Sanov et projections entropiques

On dispose dautres formules pour la norme en variation : Proposition II.8. 1. Si est une mesure positive nie, et M(X ) est absolument continue par rapport , alors d VT = d (II.9) X d 2. Si , P (X ),
VT

1 sup{ (A) (A)} 2 AB

(II.10)

Ingalit de Pinsker Lapplication (, ) H ( | ) nest pas une distance, nanmoins on peut lui associer une notion de convergence : Dnition II.11. On dit quune suite (n )nN dlments de P (X ) converge en entropie vers P (X ) si, et seulement si, lim H ( n | ) = 0.
n+

La convergence en entropie est une convergence en un sens assez fort, comme le montrent les propositions suivantes. Commenons par la clbre ingalit de Pinsker : Proposition II.12 (Pinsker, [55]). Pour toutes , P (X ),
VT

2 H ( | )
VT

(II.13) 0.
n+

En particulier, si n converge en entropie vers , alors n On peut aller plus loin grce la proposition

Proposition II.14. Si (n )nN converge en entropie vers , alors pour toute fonction mesurable f : X R telle que X et|f | d < + pour un certain t > 0, on a :
n+

lim

f dn =
X X

f d.

Dmonstration. Voir, par exemple, la preuve du lemme 3.1 de [18].

II.2. Entropie relative

33

Pour nir, citons un rsultat rcent de F. Bolley et C. Villani qui propose une version pondre de lingalit de Pinsker : Proposition II.15 (Bolley-Villani, [5] thm 1). Soit : X R+ une fonction mesurable. Il existe une constante numrique C > 0 indpendante de telle que pour toute P (X ), on ait : P (X ), > 0,
VT

1 + log
X

ef d

H ( | ) + H ( | ) . (II.16)

Remarque II.17. Nous utiliserons (II.13) et (II.16) dans le chapitre suivant consacr au Principe Conditionnel de Gibbs, et nous reviendrons sur ces ingalits dans la seconde partie de cette thse consacre aux Ingalits de Transport. Nous y verrons en particulier une autre preuve de (II.16). A titre documentaire, nous incluons ci-dessous une preuve classique de (II.13).

Dmonstration de la proposition II.12. Si H ( | ) = +, lingalit est vraie. Supposons donc que H ( | ) < + et notons h = Or, pour tout x > 0, =
X

d . d

Daprs (II.9),

VT

|h 1| d

3(x 1)2 (4 + 2x)(x log(x) x + 1). Donc 1 |h 1| 4 + 2h h log h h + 1. 3

(II.18)

Donc, daprs lingalit de Cauchy-Schwarz, 1 4 + 2h d 3 X = 2 H ( | ).


1 2 1 2

VT

h log h h + 1 d
X

34

II. Entropie relative, thorme de Sanov et projections entropiques

II.3
II.3.1

Le thorme de Sanov
La version classique

Le thorme suivant donne la version la plus classique du thorme de Sanov. Ici, X est un espace polonais, lensemble P (X ) des probabilits sur X est muni de la topologie de la convergence troite, ie la moins ne rendant continues les applications P (X ) R :
X

g d,

g Cb (X ),

Cb (X ) tant lensemble des applications continues bornes sur X . On munit P (X ) de sa tribu borlienne. Thorme II.19. Si (Xi )iN est une suite de variables alatoires indpendantes et idenn 1 X suit un principe de grandes tiquement distribues de loi , alors la suite Ln := n i=1 i dviations sur P (X ), muni de la topologie de la convergence troite et de sa tribu borlienne, de bonne fonction de taux H ( . | ) . Autrement dit, pour tout ensemble A mesurable, on a 1 inf H ( | ) , A lim inf log P(Ln A) n n et 1 lim sup log P(Ln A) inf H ( | ) , A . n n

II.3.2

Extensions du thorme de Sanov

Le thorme II.19 a t gnralis par diffrents auteurs pour des topologies plus fortes que la topologie de la convergence troite. Cadre : Nous nous donnerons une classe G, dapplications mesurables sur X et valeurs relles et nous poserons PG (X ) = P (X ) : g G,
X

|g | d < + .

Nous munirons PG (X ) de la G-topologie, ie la moins ne rendant continues les applications PG (X ) R :


X

g d,

gG

la G-tribu, ie la tribu engendre par ces mmes applications.

II.4. Projections entropiques

35

Nous supposerons que G contient B (X ), lensemble des applications mesurables bornes sur X . Sous cette hypothse, on voit facilement que PG (X ) est spar. Nous dirons que PG (X ) vrie lhypothse de Cramr forte, si g G, t > 0,
X

et|g| d < +.

(II.20)

La version suivante du thorme de Sanov est due P. Eichelsbacher et U. Schmock. Thorme II.21 (Eichelsbacher-Schmock, [30], thm. 1.7). Si vrie lhypothse de Cramr forte, alors pour toute suite (Xi )iN de variables alatoires i.i.d de loi , la n 1 X suit un principe de grandes dviations sur PG (X ), muni de la Gsuite Ln := n i=1 i topologie et de la G-tribu, de bonne fonction de taux H ( . | ) . Remarque II.22. Daprs le point 1 de la proposition II.34, sous lhypothse (II.20), H ( | ) < + PG (X ). Le thorme II.21 nest pas la dernire gnralisation du thorme de Sanov : dans [46], C. Lonard et J. Najim ont montr comment on pouvait saffranchir de lhypothse de Cramr forte.

II.4
II.4.1

Projections entropiques
Dnition et relation de Pythagore
: Pour toute partie A de P (X ), nous noterons : H ( A| ) := inf {H ( | ) : A} R+ {+}

Notation

Dnition II.23. Soient P (X ) et C un convexe de P (X ) tel que H ( C | ) < +. On appelle I-projection ou projection entropique de sur C tout lment C tel que : H ( | ) = H ( C | ) Remarque II.24. La fonction H ( . | ) tant strictement convexe sur {H ( . | ) < +}, une mesure de probabilit admet au plus une I-projection sur C . Nous noterons, en gnral, cette I-projection.

36

II. Entropie relative, thorme de Sanov et projections entropiques Le thorme de Sanov permet dinterprter cette notion de I-projection : en crivant schmatiquement que pour tout A mesurable, P(Ln A) en H( A|) , on voit que pour un ensemble convexe C , P(Ln C ) P(Ln ).

La I-projection de sur C apparat donc comme le scnario le plus probable de la grande dviation Ln C . Nous verrons, au chapitre suivant, une autre interprtation des I-projections grce au Principe Conditionnel de Gibbs. Le thorme suivant, que lon doit I. Csiszr, tablit une sorte de relation de Pythagore pour les I-projections : Thorme II.25 (Csiszr, [18], thm. 2.2). Soient P (X ) et C un ensemble convexe de P (X ) tel que H ( C | ) < +. Si possde une I-projection sur C , alors C, H ( | ) H ( | ) + H ( | ) . (II.26)

II.4.2

Projections entropiques gnralises

Thorme II.27 (Csiszr, [18], thm. 2.1 ). Soient P (X ) et C un ensemble convexe de P (X ) tel que H ( C | ) < +. Il existe une unique probabilit appartenant ladhrence de C pour la norme en variation vers laquelle converge en variation toute suite (n )nN dlments de C telle que lim H ( n | ) = H ( C | ).
n+

Dnition II.28. On appelle la probabilit du thorme prcdent la I-projection gnralise, ou la projection entropique gnralise de sur C . Remarque II.29. En gnral, si est la I-projection gnralise de sur C , lingalit H ( | ) H ( C | ) peut tre stricte. Il rsulte du thorme II.27 que possde une I-projection sur tout ensemble convexe C ferm pour la norme en variation tel que H ( C | ) < +. Nous verrons, dans la section suivante, dautres critres topologiques garantissant lexistence dune I-projection.

II.4. Projections entropiques

37

La proposition suivante caractrise les I-projections gnralises par une relation de Pythagore : Proposition II.30 (Topsoe, [70], thm. 8). Soient P (X ) et C un ensemble convexe de P (X ) tel que H ( C | ) < +. Une mesure de probabilit C est la I-projection gnralise de sur C si, et seulement si, C, H ( | ) H ( | ) + H ( C | ) . (II.31)

II.4.3

Critres dexistence dune projection entropique

Nous avons vu au thorme II.27 prcdent quune condition sufsante pour quune mesure admette une I-projection sur un ensemble convexe C tait la fermeture de C pour la norme en variation. Nous allons prsenter dans cette section des critres pour dautres topologies. Plaons nous dans le cadre de la section II.3.2 : Nous dirons que PG (X ) vrie lhypothse de Cramr faible, si g G, t > 0,
X

et|g| d < +.

(II.32)

Rappelons que PG (X ) vrie lhypothse de Cramr forte, si g G, t > 0,


X

et|g| d < +,

(II.33)

La proposition suivante est due P. Eichelsbacher et U. Schmock : Proposition II.34 (Eichelsbacher-Schmock, [30], thm. 1.7). 1. Si PG (X ) vrie lhypothse de Cramr faible, alors pour tout a 0, { P (X ) : H ( | ) a} est inclus dans PG (X ) 2. Si PG (X ) vrie lhypothse de Cramr forte, alors pour tout a 0, { P (X ) : H ( | ) a} est de plus compact et squentiellement compact pour la G-topologie.

38

II. Entropie relative, thorme de Sanov et projections entropiques

On en dduit les corollaires Corollaire II.35. Si vrie lhypothse de Cramr faible (II.32) et si C est un convexe de P (X ) tel que H ( C | ) < +, alors C et CG := C PG (X ) ont la mme projection gnralise. Dmonstration. Tout dabord, grce au point (1) de la proposition II.34, H ( C | ) = H ( CG | ). Ensuite, si n est une suite dlments de C telle que H ( n | ) H ( C | ), alors cest gan+

lement une suite dlments de CG telle que H ( n | ) H ( CG | ). On en dduit,


n+

grce la proposition II.27, que C et CG ont la mme projection gnralise. Corollaire II.36. Si vrie lhypothse Cramr forte (II.20), alors possde une I-projection sur tout ensemble convexe C PG (X ) ferm pour la G-topologie tel que H ( C | ) < +. Dmonstration. Soit (n )nN une suite dlments de C telle que H ( n | ) H ( C | ). Si M est
n+

un majorant de H ( n | ), alors pour tout n N, n C {H ( . | ) M }, et ce dernier ensemble est squentiellement compact pour la G-topologie. Par consquent, on peut extraire de n une sous-suite convergeant vers un certain C . Comme pour tout > 0, n {H ( . | ) H ( C | ) + } pour tout n assez grand, on en dduit que H ( | ) H ( C | ) + ; ceci tant vrai pour tout , on a H ( | ) H ( C | ), et par consquent est la I-projection de sur C .

II.4.4

Reprsentation des projections entropiques

Dans cette sous-section, nous allons donner lexpression de la I-projection (gnralise) dune probabilit sur un ensemble convexe C dni par une contrainte de type moment, ie de la forme C= P (X ) :
X

F (x) d K

o F : X B est une application valeurs dans un espace de Banach B et C est un convexe ferm de B . Le thorme II.41 est d I. Csiszr (voir [18] thm. 3.3 et [19] thm. 2 et 3). La preuve que nous proposons de ce rsultat est diffrente de la preuve de Csiszr et repose sur quelques notions lmentaires danalyse convexe (thorme de Fenchel, sousdiffrentiabilit, etc.). On pourra consulter les articles [43, 45, 44] de C. Lonard pour des rsultats trs gnraux concernant la reprsentation des I-projections (et autres minimisants de fonctionnelles dnergie).

II.4. Projections entropiques

39

Cadre et notations (B, . ) sera un espace de Banach sparable, muni de sa tribu borlienne. Le dual topologique de B , B sera muni de la topologie forte. F : X B sera une application mesurable. Nous dsignerons par F , limage de par lapplication F . La transforme de Laplace de F sera note ZF , elle est dnie par : B , ZF () =
X

e ,F d,

On dsignera par F la Log-Laplace de F dnie par F := log ZF et par F , la transforme de Cramr de F , qui vaut par dnition : F (x) = sup { , x F ()}
B

K sera un convexe ferm de B et nous poserons C= o P (X ) :


X

F d < +

et
X

F d K ,

F d est lintgrale au sens de Bchner.

Nous ferons lhypothse suivante : Hypothse II.37. 1. Il existe t > 0 tel que
X

et

d < +,

2. Le domaine de F , dni par dom F := { B , F () < +}, est ouvert dans B. Remarque II.38. Sous lhypothse (II.37), on voit facilement que F est Gteaux-diffrentiable sur dom F et que B , F () = 1 ZF () F e ,F d
X

Si pour tout t > 0, X et F d < +, on sait daprs le corollaire II.36 (en prenant G = B (X ) { F }), que admet une I-projection sur C (qui est ferm pour la G-topologie), condition bien sr que H ( C | ) < +.

40

II. Entropie relative, thorme de Sanov et projections entropiques

Nous aurons besoin du lemme suivant : Lemme II.39. Sous lhypothse II.37, si la fonction H () = F () inf , y
y K

atteint son minimum, alors H ( C | ) = sup projection sur C qui scrit :


B

y K

inf , y F ()

et admet une I-

e ,F = , ZF ( ) pour tout minimisant H . Dmonstration. On pourra consulter les livres [38], [58] et [59] pour une dnition de la notion de sous-diffrentiabilit utilise ci-dessous. Soit un minimisant de H . Posons K () = inf , y . Pour tout B , et tout t > 0, on a :
y K

K ( + t) K ( ) F ( + t) F ( ) . (II.40) t t La fonction F tant Gteaux-diffrentiable sur son domaine, le second membre de (II.40) a pour limite , F ( ) quand t 0+ . On en dduit, en notant K ( ; ), la drive directionnelle de K selon le vecteur , que B , K ( ; ) , F ( ) . Autrement dit, F ( ) K ( ) (le sous-diffrentiel de K en ). Or K nest autre que la fonction de support de K , et daprs [59] p. 35-36, K ( ) = Par consquent, F ( ) K
,F

z K, , z = inf , y
y K

et

, F ( ) = inf , y .
y K

e , alors X F d = F ( ) K et donc C . ZF ( ) De plus, pour toute C , on a : Posons = H ( | ) =


X

log

d d

d +
X

log F d

d d

= H ( | ) + ,
X

F ( ) F d
X

= H ( | ) + H ( | ) + ,

,
X

F d

II.4. Projections entropiques

41

Or, comme C , on a ,
X

F d

inf , y =
y K

,
X

F d .

Donc H ( | ) H ( | ) + H ( | ), et est la I-projection de sur C . Notations : Nous noterons co A, lenveloppe convexe dun ensemble A. Rappelons quen dimension nie, lintrieur relatif dun ensemble convexe A, not ri A, est lintrieur de A pour la topologie de lespace afne engendr par A. Thorme II.41. Sous lhypothse (II.37), si lune des deux hypothses suivantes est ralise 1. B est de dimension nie, et ri K ri co SF = , SF tant le support de F ,

2. K est dintrieur non vide et K co SF = , alors H ( C | ) = max


B

y K

inf , y F ()

et pour tout o le supremum est atteint,

e ,F est la I-projection de sur C . ZF ( )

Remarque II.42. On a toujours (voir par exemple le lemme 2.4 de [23]) : dom F = co SF . En dimension nie, on a donc ri dom F = ri co SF (voir [38] proposition 2.1.8 p. 36). Lhypothse 1. prcdente est donc quivalente ri K ri dom F = et lhypothse 2. quivaut quant elle K dom F = . La dmonstration du thorme II.41 repose sur le thorme de dualit de Fenchel dont voici une version simple (voir [38] (2.3.2) p. 228 pour le point 1, et [9] thm. I.11 pour le point 2) : Thorme II.43. Soient g1 , g2 : B R {+} deux fonctions convexes s.c.i non identiquement gales + dnies sur un espace vectoriel norm B . On a inf {g1 (x) + g2 (x)} = max{g1 () g2 ()},
xB B

si lune des deux hypothses suivantes est ralise : 1. B est de dimension nie, et ri dom g1 ri dom g2 = , 2. Il existe x0 B tel que g1 (x0 ) < +, g2 (x0 ) < +, et g1 est continue en x0 .

42

II. Entropie relative, thorme de Sanov et projections entropiques

0 si x K . + sinon Dune part K () = sup , y , et dautre part (F ) = F (voir, par exemple, [9] thm. Notons K lindicatrice de K , dnie par K (x) =
y K

Dmonstration du thorme II.41 :

I.10). Daprs la remarque II.42, sous lhypothse 1, on a ri dom K ri dom F = , et sous lhypothse 2, il existe x0 K tel que F (x0 ) < + et K est continue en x0 . Donc, daprs le thorme II.43, on a inf (x) = inf { (x) + K (x)} = max
x B B

x K

y K

inf , y F () ,

En particulier, la fonction H () = F () inf , y atteint son minimum.


y K

On conclut grce au lemme II.39.

Le thorme prcdent nest plus valable si lhypothse ri K ri co SF (resp. K co SF ) 1 0 + 1 P (R) et le nest pas satisfaite. En effet, considrons la probabilit = 2 2 1 convexe C= P (R) :
R

x d 1 .

Clairement, dom = R est ouvert, mais ]1, +[[0, 1] = . Calculons la I-projection de sur C . Tout dabord, 1 C , et H ( 1 | ) = De plus, [0, 1], = (1 )0 + 1 . Comme x d ((1 )0 + 1 ) = 1 = 1,
R

log(2) . 2

on en dduit que 1 est la I-projection de sur C . Clairement 1 nest pas de la forme esx d(x). Z (s) Pour conclure ce chapitre, nous allons montrer que le thorme II.41 est galement mis en dfaut si le domaine de nest pas ouvert. Proposition II.44. Soit P (R) telle que supp = R+ et dom =] , 1]. Poex sons d (x) = d(x) et = R x d . Pour tout a , est la I-projection (1) gnralise de sur le convexe Ca dni par Ca = P (R) :
R

|x| d < +

et
R

x d a .

De plus, pour tout a , on a H ( Ca | ) = a (1).

II.4. Projections entropiques

43

Avant de passer la preuve, commenons par quelques remarques : Remarque II.45. La proposition prcdente sapplique par exemple pour des probabilits de la C forme d(x) = ex 1 IR+ dx, avec b > 1. b (1 + x) Si a > , alors bien que ]a, +[ soit dintersection non vide avec lintrieur de lenveloppe convexe du support de , la probabilit nadmet pas de I-projection sur Ca ( / Ca ). Ceci prouve que le thorme II.41 nest plus valable si dom nest pas ouvert. On a vu que pour tout a , H ( Ca | ) = a (1). En particulier, si a > on a H ( Ca | ) > H ( | ) . Si a1 < a2 , alors Ca2 Ca1 . Les ensembles Ca1 et Ca2 ont la mme projection entropique gnralise . Pourtant H ( Ca1 | ) < H ( Ca2 | ). Dmonstration. Soit a ; pour tout n 1, posons dn = 1 I[0,n] d. [0, n]

Premire tape : Nous allons montrer que pour tout t R+ , la suite n (t) n1 est croissante. En effet, pour tout t 0 x, on peut crire n (t) = (n), o la fonction :]0, +[ R est dnie par u xetx d(x) 0 . (u) = u tx e d(x) 0 Or, (u) = uetu
u tx e 0

d(x) etu
u tx e 0

d(x)

u xetx 0 2

d(x)

etu

u 0

xetx d(x) etu


u tx e 0

d(x)

u xetx 0 2

d(x)

=0

Ainsi, est croissante, et par consquent, n (t)

n1

est aussi croissante.


t+

n. Deuxime tape : Montrons que pour tout n 1, n (t) Pour tout > 0, on a : n (t) n
n 0

|x n|etx d(x) + n tx e d(x) 0

n 0

|x n|etx d(x) n tx e d(x) 0

+ Ainsi, pour tout > 0,

(n )et(n) [0, n ] [0, n ] = + (n )et/2 . t ( n / 2) e [n /2, n] [n /2, n] lim sup n (t) n .


t+

44

II. Entropie relative, thorme de Sanov et projections entropiques

Comme est arbitraire, on en dduit que n (t) n.


t+

Troisime tape : Montrons quil existe une suite dcroissante tn 1 dnie pour tout n [a] + 1 telle que n (tn ) = a. Procdons par rcurrence sur n [a] + 1 : Pour n = n0 := [a] + 1, la suite n (1) tant croissante, on a n0 (1) lim n (1) =
n+ R

x d = a.

Dautre part, lim n0 (t) = n0 > a. Donc, daprs le thorme des valeurs intert+

mdiaires, il existe 1 tn0 tel que n0 (tn0 ) = a. Supposons 1 tn construit. Comme prcdemment, n+1 (1) a. De plus, la suite p (t) tant croissante pour tout t, on a n+1 (tn ) n (tn ) = a. Donc, daprs le thorme des valeurs intermdiaires, il existe 1 tn+1 tn tel que n+1 (tn+1 ) = a. Quatrime tape : Montrons que la suite tn converge vers 1 et que H ( Ca | ) a (1). Posons etn x dn . dn (x) = Zn (tn ) Alors, H ( n | ) =
R

log

dn dn + dn

log
R

dn dn d

=
R ()

(tn x n (tn )) dn (x) log [0, n] (II.46)

= tn a n (tn ) log [0, n],

o () vient de x dn (x) = n (tn ) = a.


R

(II.47)

Lquation (II.47) entrane que n Ca . En particulier, daprs (II.46), on a pour tout n H ( Ca | ) tn a n (tn ) log [0, n] La suite tn tant dcroissante et minore par 1, elle converge vers un certain (II.48) 1. On

II.4. Projections entropiques

45

obtient en utilisant le thorme de Fatou en (II.49), et (II.48) en (II.50) : e x d =


R

R n+ n+

lim inf 1 I[0,n]

etn x d [0, n] (II.49) (II.50)

lim inf n (tn ) lim inf (tn a log [0, n] H ( Ca | ))


n+

= a H ( Ca | ) . On en dduit que dom =] , 1] et comme 1, on a = 1. En passant la limite dans (II.48) grce au thorme de convergence domine, on obtient H ( Ca | ) a (1) (II.51)

Cinquime tape : Finalement montrons que H ( Ca | ) = a (1) et que est la Iprojection gnralise de sur Ca . Pour toute Ca , on a H ( | ) = H ( | ) +
R

log

d d d

= H ( | ) +
R

x (1) d (II.52) (II.53)

H ( | ) + a (1) H ( | ) + H ( Ca | ) .

Dans ce calcul, (II.52) rsulte du fait que Ca , et (II.53) vient de (II.51). De (II.52), on dduit que H ( Ca | ) a (1), ce qui daprs (II.51) entrane que H ( Ca | ) = a (1). Enn, daprs le thorme II.30, lingalit (II.53) prouve que est la I-projection gnralise de sur Ca .

46

II. Entropie relative, thorme de Sanov et projections entropiques

CHAPITRE III

Principe conditionnel de Gibbs pour des contraintes nes approches

Sommaire
III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 III.1.1 Prsentation du problme . . . . . . . . . . . . . . . . . . . . . 48 III.1.2 A propos de la littrature . . . . . . . . . . . . . . . . . . . . . 49 III.1.3 Survol du chapitre . . . . . . . . . . . . . . . . . . . . . . . . 52 III.2 Rsultats gnraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 III.2.1 Convergence en variation . . . . . . . . . . . . . . . . . . . . . 62 III.2.2 Convergence forte dans L (X , ) . . . . . . . . . . . . . . . . 64 III.3 Conditionnement par des contraintes de type moment . . . . . . . . 68 III.3.1 Cas dun espace de dimension nie . . . . . . . . . . . . . . . 69 III.3.2 Cas dun espace de dimension innie . . . . . . . . . . . . . . 76 III.4 Contraintes plus gnrales - Contrles par recouvrement. . . . . . . 79 III.4.1 Nombres de recouvrement . . . . . . . . . . . . . . . . . . . . 79 III.4.2 P (X ) en tant quespace mtrique. . . . . . . . . . . . . . . . . 80 III.4.3 Le cas compact . . . . . . . . . . . . . . . . . . . . . . . . . . 83 III.4.4 Extension au cas non-compact . . . . . . . . . . . . . . . . . . 86 III.4.5 Applications ltude des ponts de Schrdinger et des processus de Nelson . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

48

III. Principe conditionnel de Gibbs pour des contraintes nes approches

III.1
III.1.1

Introduction
Prsentation du problme

Le problme que nous allons aborder dans ce chapitre est issu de la Mcanique Statistique : on considre un grand nombre de particules, modlises par des variables X1 , . . . , Xn indpendantes et identiquement distribues de loi sur X et on cherche dterminer la loi dune particule typique, sous la contrainte que le nuage de particules se trouve un niveau dnergie moyenne donn, cest--dire 1 L X1 n
n

F (Xi ) = a
i=1

o F (Xi ) dsigne lnergie de Xi . Le nombre de particules tant lev, le problme est de dterminer la limite quand n + de la quantit prcdente. Plus gnralement, on cherche calculer lim L (X1 |Ln C ) ,
n+ n 1 o C dsigne un ensemble de probabilits, et Ln = n i=1 Xi , la mesure empirique de lchantillon. Si C est convexe, on montre sous de bonnes hypothses que

n+

lim L (X1 |Ln C ) = ,

o est la I-projection de = L(Xi ) sur lensemble C . Ce rsultat, dmontr pour la premire fois par Imre Csiszr dans [19] avec une grande gnralit, porte le nom de Principe Conditionnel de Gibbs. Lobjet n C := L (X1 |Ln C ) peut, grce lchangeabilit des Xi , se rcrire sous la forme n C = En [Ln |Ln C ]. Sous cette forme, on voit que le Principe Conditionnel de Gibbs dcrit le comportement moyen de la mesure empirique Ln lorsque lon fait un "zoom" sur la grande dviation Ln C . Pour que cette loi conditionnelle soit bien dnie, il faut imposer que C vrie n (Ln C ) > 0, pour tout n assez grand. (III.1)

Lobjet de ce chapitre est de mettre en place des moyens permettant de considrer ce que nous appellerons des contraintes nes, cest dire des ensembles C ne vriant pas lhypothse (III.1).

III.1. Introduction

49

III.1.2

A propos de la littrature

Avant de prsenter nos rsultats concernant les contraintes nes, nous allons rappeler les rsultats classiques de Csiszr, Stroock et Zeitouni sur le Principe Conditionnel de Gibbs. Sauf mention contraire, nous nous placerons dans le cadre suivant : X est un espace mesurable ; lensemble P (X ) des mesures de probabilit sur X est muni de la -topologie, cest--dire la topologie la moins ne rendant continues les applications X f d , avec f mesurable et borne, et de la tribu engendre par ces mmes applications.

Les contraintes paisses On doit le rsultat suivant I. Csiszr. Thorme III.2 (Csiszr, [19] thm. 1). Soient P (X ) et C un ensemble convexe

mesurable de P (X ) ferm pour la -topologie tel que H(C | ) = H ( C | ) < + ; pour toute suite (Xi )i i.i.d de loi et pour tout k N ,
k n C, k := L(X1 , . . . , Xk |Ln C ) P (X )

est bien dnie pour n sufsamment grand et converge en entropie vers k , o est la I-projection de sur C . Remarque III.3.

Daprs le thorme de Sanov, la condition H(C | ) = H ( C | ) < + entrane que 1 log P(Ln C ) H ( C | ) . (III.4) n+ n Par consquent, P(Ln C ) > 0 pour tout n assez grand et n C, k est bien dnie. Le thorme III.2 est en fait valable pour une topologie un peu plus ne que la topologie et pour des ensembles presque compltement convexes (voir la remarque A.6 pour une dnition). La preuve de ce thorme est une consquence immdiate de (III.4) et de la remarquable ingalit
k H n C, k

1 log P(Ln C )en H( C |) , [n/k ]

(III.5)

que nous utiliserons galement de manire intensive dans ce chapitre (voir [19] thm. 1, (2.17) ou lannexe A pour une preuve).

50

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Les conditionnements non convexes sont traits dans le thorme suivant de D.W. Stroock et O. Zeitouni : Thorme III.6 (Stroock-Zeitouni, [64] ). Soient P (X ) et A un ensemble mesurable

de P (X ) tel que H(A| ) = H A < +. Posons H = A : H ( | ) = H ( A| ) .

Pour tout ensemble mesurable tel que H , on a lim sup


n+

1 log n (Ln / |Ln A ) < 0 n

(III.7)

Remarque III.8. Lingalit (III.7), qui est une application assez simple du thorme de Sanov, signie essentiellement que la loi conditionnelle de Ln sachant que Ln A saccumule exponentiellement rapidement sur lensemble H. Grce un argument combinatoire, lingalit (III.7) permet de dmontrer des rsultats sur la convergence de L(X1 , . . . , Xk |Ln A). Dans la proposition suivante, X est un espace polonais et P (X ) est muni de la topologie de convergence troite et de sa tribu borlienne. Proposition III.9 (Stroock-Zeitouni, [64] ). Soient P (X ), et A un ensemble mesu

rable de P (X ) tel que H(A| ) = H A < +. 1. Si H = { }, alors, pour tout k N , L(X1 , . . . , Xk |Ln A) converge troitement vers k dans P (X k ). 2. La suite L(X1 |Ln A) est prcompacte et lensemble de ses valeurs dadhrence est inclus dans co H. On pourra consulter le chapitre 7 de [26] pour une exposition classique de ces rsultats. Lapproche classique des contraintes nes Le cadre suivant a t conu par D.W. Stroock et O. Zeitouni dans [64] pour aborder des conditionnements ns. On se donne une famille croissante (A )>0 densembles mesurables, cest--dire telle que < A A , une famille croissante (F ) densembles ferms telle que > 0, on pose A0 =
>0

A F , F0 =
>0

et

F ,

et on fait lhypothse suivante

III.1. Introduction

51

Hypothse III.10. Il existe A0 tel que H ( | ) = H ( A0 | ) = H ( F0 | ) < +, tel que pour tout > 0, n (Ln A ) 1.
n+

On a alors le thorme suivant Thorme III.11 (Stroock-Zeitouni, [64]). Sous lhypothse III.10, pour tout ensemble mesurable contenant H = { F0 : H ( | ) = H ( A0 | )}, on a lim lim sup 1 log n (Ln / |Ln A ) < 0 n (III.12)

0 n+

De plus, si X est polonais et si H = { }, alors, pour tout k N ,


0 n+

lim lim L(X1 , . . . , Xk |Ln A ) = ,

au sens de la convergence troite sur P (X k ). Diffrentes extensions du Principe Conditionnel de Gibbs Depuis les travaux de Csiszr, Stroock et Zeitouni, le Principe Conditionnel de Gibbs a t gnralis dans trois directions diffrentes et complmentaires : En gnralisant le thorme de Sanov pour des topologies plus fortes que la topologie, P. Eichelsbacher et U. Schmock dans [30] suivis de C. Lonard et J. Najim dans [46], ont permis de considrer de nouveaux types de contraintes. Dans [6], E. Bolthausen et U. Schmock ont obtenu un Principe Conditionnel de Gibbs pour les mesures doccupations de chanes de Markov uniformment ergodiques. A. Dembo et O. Zeitouni se sont intresss dans [25] la convergence dun bloc de taille croissante de marginales. Ils ont montr que pour des ensembles convexes C dnis par des contraintes de type moment, ie C= P (X ) :
X

F d K

avec F : X Rd

et

K convexe,

on pouvait, sous certaines hypothses, trouver une suite kn + dentiers


n+

telle que L(X1 , . . . , Xkn |Ln C ) kn


V T n+

0.

Ils ont obtenu des vitesses explicites pour kn . Cette tude a t reprise par A. Dembo et J. Kuelbs dans [24] pour une fonction F valeurs dans un espace de Banach.

52

III. Principe conditionnel de Gibbs pour des contraintes nes approches

III.1.3

Survol du chapitre

Contraintes nes approches Dans ce chapitre, nous allons tudier un nouveau moyen daborder les conditionnements convexes ns. Nous nous intresserons au comportement limite de L(X1 , . . . , Xk |Ln Cn ), o (Cn )n est une suite dcroissante de convexes. Nous montrerons, sous diverses hypothses, que L(X1 , . . . , Xk |Ln Cn ) k ,
n+

avec la I-projection de sur C =


nN

Cn .

Ici, C doit tre vu comme une contrainte ne, et la suite (Cn )n comme une suite de contraintes paisses convergeant vers C . Concrtement, nous considrerons deux types de grossissement : 1. Si C est dni par une contrainte de type moment, ie C= P (X ) :
X

F d K ,

F tant une application de X dans un espace vectoriel norm (B, . ), nous grossirons C en relaxant la contrainte prs : C =

P (X ) :
X

F d K ,

o K = {x B, x K, x x }. 2. Si C est un ensemble convexe quelconque de P (X ), muni de la topologie de la convergence troite, nous prendrons un -voisinage de C , ie nous considrerons C = { P (X ) : C, (, C ) }, d

( . , . ) est une distance mtrisant la topologie de la convergence troite sur o d P (X ). Dans ces deux situations, nous chercherons dterminer explicitement des vitesses de rtrcissement n telles quen posant Cn = Cn , dans le premier cas et Cn = C n , dans le second, on ait L(X1 , . . . , Xk |Ln Cn ) k ,
n+

au sens de la convergence en variation.

La principale difcult technique que nous rencontrerons est quici, contrairement lapproche classique dveloppe dans le thorme III.11, le conditionnement dpend de n ; les bornes asymptotiques fournies par le thorme de Sanov ne pourront donc pas tre directement appliques.

III.1. Introduction

53

Cadre et notations Avant de passer en revue nos rsultats, prcisons le cadre et les notations de notre tude. Dans tout ce chapitre, X sera un espace polonais. Lensemble des mesures de probabilit sur X sera not P (X ). Comme la section II.3.2, nous nous donnerons G, un sous-espace vectoriel dapplications mesurables sur X et valeurs relles et nous poserons PG (X ) = P (X ) : g G,
X

|g | d < + .

Nous munirons PG (X ) de la G-topologie et de la G-tribu (voir section II.3.2). Nous supposerons toujours que lensemble Cb (X ) des fonctions continues bornes sur X est inclus dans G. Concrtement, G sera dans la suite lun des espaces suivants : Cb (X ) (topologie de la convergence troite), B (X ), ensemble des applications mesurables bornes ( -topologie), L (X , ) = {f : X R, mesurable tq. t > 0, X et|f | d < +}, t|f | d < +}. La (X , ) = {f : X R, mesurable tq. t > 0, X e

Pour tout entier n 1 et tout x X n , nous poserons Lx n 1 = n


n

xi .
i=1

Nous considrerons une probabilit PG (X ) et pour tout ensemble A PG (X ) tel n que {x : Lx (Ln A) > 0, nous dnirons n A} est mesurable et tel que, pour tout n, n k la mesure de probabilit A, k sur X par : B B k , n A, k (B ) = n x X k : (x1 , . . . , xk ) B n (Ln A) et Lx n A ,

B tant la tribu borlienne de X . Si (Xi )i dsigne une suite de variables alatoires i.i.d de loi , n A, k nest autre que L (X1 , . . . , Xk ) LX n A .
n Pour k = 1, nous noterons n A la place de A, 1 . n Remarquons que A PG (X ) et que, pour toute fonction g G, on a, grce lchangeabilit des Xi E LX IA (LX n ,g 1 n) g (x) dn ( x ) = . (III.13) A P(LX X n A)

54

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Principaux rsultats du chapitre Section III.2 : Rsultats Gnraux Dans la section III.2, nous nous placerons dans le cadre abstrait dni ci-dessus. Le rsultat principal de la section est le thorme suivant Thorme III.14. Soit (Cn )n1 une suite dcroissante densembles convexes de PG (X )
+

ferms pour la G-topologie et C =


n=1

Cn .

On suppose que : 1. H ( C | ) < +, 2. admet une I -projection sur C , 3.


n+

lim H ( Cn | ) = H ( C | ), 1 log n (Ln Cn ) H ( C | ). n

4. lim inf
n+

k Alors, pour tout k N , n dans P (X k ). Cn , k converge en variation vers

Ide de la preuve. Ce thorme se dmontre assez facilement partir de lingalit de Csiszr (III.5). En effet, grce (III.5), on obtient, en notant n la I-projection gnralise de sur Cn : k k H n log n (Ln Cn )en H( Cn |) C n , k n n k = log n (Ln Cn )en H( C |) + k [H ( C | ) H ( Cn | )] . n Les conditions 3 et 4 du thorme III.14 entranent que le membre de droite tend vers 0. k Lingalit de Pinsker permet de conclure que n 0. Enn, les Cn , k n VT
n+ k conditions 2 et 3 entranent facilement que k n V T n+

0.

Si vrie la condition de Cramr forte (II.20), alors, daprs le thorme II.21, les grandes dviations de Ln sont contrles par la bonne fonction de taux H ( . | ). Par ailleurs, grce la rgularit de H ( . | ), les conditions 2 et 3 du thorme prcdent sont automatiquement vries. En revanche, mme dans ce cadre rgulier, la vrication de la condition 1 lim inf log n (Ln Cn ) H ( C | ) (III.15) n+ n ne relve pas du thorme de Sanov.

III.1. Introduction

55

Pour obtenir (III.15), nous aurons besoin de bornes infrieures non-asymptotiques (valables pour tout n) pour les probabilits de grandes dviations de Ln . La borne infrieure suivante (voir proposition III.44), due D.W. Stroock et J.D. Deuschel,
c n (Ln Cn ) 1 n n H( |) log (Ln Cn )e H ( | ) n n (Ln Cn ) 1 1 , (III.16) + log n (Ln Cn ) n n ne (Ln Cn )

permet de remplacer la condition (III.15) du thorme III.14 par la condition plus simple
n+

lim n (Ln Cn ) = 1.

(III.17)

Dans la mesure o Cn pour tout n, la condition (III.17) est une condition de type loi des grands nombres. Toujours dans la section III.2, nous essaierons damliorer la convergence de n Cn vers . Dans le cas o G est lespace dOrlicz L (X , ) (voir la page 65 pour des rappels sur les espaces dOrlicz), nous nous intresserons la convergence forte de n Cn vue comme une forme linaire continue sur L (X , ). Nous poserons pour tout L (X , ) (le dual topologique de L (X , )), sup ,f , :=
f L (X ,) f 1

o . est la norme de Luxembourg sur lespace dOrlicz L (X , ). La proposition suivante donne une condition gnrale pour obtenir la convergence de n Cn : vers au sens de la norme .
n Proposition III.18. Sous les hypothses du thorme III.14, notons hn = d , o n est d la I-projection gnralise de sur Cn et supposons que (hn )n soit une suite borne de Lp (X , ) pour un certain p > 1, alors n 0. Cn

n+

Ide de la preuve. En utilisant la gnralisation II.16 de lingalit de Pinsker, on montre que 1 , 2 P (X ), 1 2 Cp 1 + log
X

d2 p d d

H ( 1 | 2 ) + H ( 1 | 2 ) , (III.19)

o P (X ) = PL (X ,) (X ) et Cp est une constante ne dpendant que de p. On obtient le rsultat en reprenant pas pas la preuve du thorme III.14 pour k = 1 mais en en utilisant cette fois lingalit (III.19) (avec 2 = n ) la place de lingalit de Pinsker.

56

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Section III.3 : Conditionnement par des contraintes de type moment Dans cette section, G = L (X , ) et on sintresse au cas particulier important dun conditionnement de la forme C= P (X ) :
X

F d K

avec F une application mesurable valeurs dans un espace de Banach sparable B muni de sa tribu borlienne et K un convexe ferm de B . On supposera que F L (X , ), de sorte que C est ferm. Comme nous lavons expliqu plus haut, nous grossirons C de la manire suivante : Cn = P (X ) :
X

F d K n ,

o K n = {x B : d(x, C ) n } et n est une suite de rels positifs dcroissant lentement vers 0. Dans cette section, ZF , F et F seront respectivement la transforme de Laplace, la Log-Laplace et la transforme de Cramr de F , image de par F . Le rsultat principal de cette section est le thorme suivant, o B est un espace de dimension nie. Thorme III.20. On suppose que B est de dimension nie, dom F := { B : F () < +} est ouvert dans B , Lenveloppe convexe du support de F , co SF est dintrieur non vide.

Si K est un convexe ferm de B tel que K co SF = , alors 1. possde une I-projection sur C = P (X ),
+ X +

F d K ,

2. Il existe c R tel que pour toute suite n R de limite nulle telle que k c, +], la suite n , pour tout lim n2 n ] Cn , k converge en variation vers
n+

k N , o Cn = P (X ),
3. De plus, n Cn n+

F d K n .

0.

k 4. Enn, pour tout k , n . Cn , k converge en entropie vers

III.1. Introduction

57

Ide de la preuve. Tout dabord, on montre, en utilisant les rsultats de la section II.4.4 du chapitre prcdent, que admet sur C (resp. sur Cn ) une I-projection (resp. n ) qui scrit e n ,F e ,F resp. n = , = ZF ( ) ZF ( n) avec , (resp. n ) lunique minimisant de la fonction H () = F () inf , y
y K

resp.

Hn () = F () inf , y
y K
n

De plus, en utilisant des techniques classiques doptimisation convexe, on voit que limn+ n = . Cela entrane facilement que
n+

lim H ( Cn | ) = H ( C | ) .

Daprs les rsultats de la section III.2, la seule chose vrier pour obtenir la converk gence en variation de n est que Cn , k vers n (Ln Cn ) 1.
n+

Or,
n

(Ln Cn ) P

1 n

F (Yi )
i=1 X

F d n ,

avec Yi une suite i.i.d de loi . On voit facilement quil existe > 0 tel que lingalit de Bernstein et conclure que P 1 n
n

d < +. On peut donc appliquer

F (Yi )
i=1 X

F d > n

enn .

+, la convergence en variation est dmontre. Nous verrons quen Ainsi, si n2 n


n+

travaillant plus nement, on peut mme prendre des suites n


Pour montrer que n Cn n+

c . n d n d

0, il suft de sassurer que hn =

est

borne dans Lp (X , ), pour un certain p > 1. Ceci dcoule facilement de d n d


p

d =

ZF (p n) , p ZF ( n)

de la convergence de n vers et du fait que dom ZF est ouvert.

58

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Si B = R, on peut amliorer la vitesse de grossissement n . On montre la proposition III.70, en utilisant lingalit de Berry-Esseen (voir (III.72)), que les conclusions du 1 thorme III.20 restent valables pour n = n a , avec 0 < a < 1. Le reste de la section III.3 est consacre des gnralisations du thorme prcdent pour des fonctions F valeurs dans un espace de Banach de dimension innie. Sous k de bonnes hypothses, la convergence en variation de n est dmontre au Cn , k vers thorme III.76. La preuve est sensiblement la mme que celle esquisse ci-dessus, ceci prs que lingalit de Bernstein est remplace par sa gnralisation inni-dimensionnelle donne par le thorme de Yurinskii (voir thorme III.77). En revanche, la convergence pour la norme . semble pour linstant hors de porte. Section III.4 : Contraintes plus gnrales - Contrles par recouvrement. Dans cette section, nous revenons au cadre classique o G = Cb (X ) et nous mettons en place une mthode permettant de traiter le cas dune contrainte convexe ne C g mtrisant la topologie de la convergence nrale. Nous munirons P (X ) dune distance d troite. Dans tout ce qui suit, d sera ou bien la distance de Fortet-Mourier (voir (III.87)) ou bien la distance de Prokhorov (voir (III.88)). Les grossissements de C considrs dans cette section sont de la forme (, C ) n }; Cn = { P (X ), d lobjectif tant de construire explicitement des suites (n )n de limite nulle telles que n k , Cn , k
n+

au sens de la convergence en variation sur P (X k ). Daprs les rsultat gnraux de la section III.2, la seule chose montrer est que (Ln , ) n ) n (d 1.
n+

(III.21)

Le cas compact. Dans un premier temps, nous supposerons que X est un espace m) trique compact. Un rsultat classique (voir le thorme III.92) entrane que (P (X ), d est lui aussi un espace mtrique compact. Pour montrer (III.21), nous allons utiliser une technique dveloppe par S. Kulkarni et O. Zeitouni dans larticle [42]. Cette technique permet dobtenir des contrles non-asymptotiques faisant intervenir des nombres de recouvrement pour les probabilits de grandes dviations de Ln (voir [42], thorme 1). Rappelons que si K est une partie compacte dun espace mtrique (Y , d), le nombre de recouvrement de niveau , not NY (d, K, ), est par dnition le nombre minimal de boules ouvertes de rayon ncessaires pour recouvrir K . La mthode de [42] permet dobtenir la proposition suivante

III.1. Introduction

59

Proposition III.22. Soit A une partie mesurable de P (X ). Pour tout P (X ), on a > 0, A, )en H( A2 | ) , n (Ln A ) NP (X ) (d, (III.23)

(, A) }. en notant A := { P (X ) : d
En appliquant la borne (III.23) avec A = B ( , )c et = 4 , on obtient

n (Ln B ( , )c ) NP (X ) B ( , )c ,

c n H( B ( , 2 ) | ) . e 4

= NP (X ) d, P (X ), et en utilisant lingalit de Pinsker En notant NP (X ) d, (, ) d on obtient


VT

2 H ( | ),
2

en 8 . n (Ln B ( , )c ) NP (X ) d, 4 Ainsi, la condition (III.21) est vrie pour toute suite (n )n de limite nulle telle que n en NP (X ) d, 4
2 n 8

0
n+

(III.24)

Pour rendre la condition (III.24) plus facilement vriable, nous utiliserons le lemme 1 de [42] qui permet de dmontrer que > 0, ) NP (X ) (d, 4e
NX (d,/2)

(III.25)

Grce la majoration (III.25), nous obtiendrons le Corollaire III.26. Pour toute suite n > 0 de limite nulle telle que n2 n n + log(n )NX d, 8 8 +,
n+

(III.27)

k n dans P (X k ). C n , k converge en variation vers

Nous verrons la proposition III.105 que pour tout espace mtrique compact (X , d), il existe toujours au moins une suite (n )n de limite nulle vriant la condition (III.27). Par ailleurs, la littrature abonde en estimations des nombres de recouvrement NX (d, ) qui permettent via le critre (III.27) de calculer des vitesses de rtrcissement (n )n explicites. Par exemple, si X est une partie compacte de Rq , et d la distance euclidienne, on a la majoration classique NX (d, ) cq pour tout assez petit (voir proposition III.85), on 1 1 en dduit facilement que, dans ce cas, on peut prendre n = n a avec 0 < a < q +2 (voir proposition III.104).

60

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Extension au cas non-compact. Pour tendre les rsultats prcdents au cas o (X , d) nest plus compact, nous allons mettre en oeuvre une technique dapproximation. On 1 IK commence par approcher par la probabilit K := (K ) , o K est un compact de X ; pour cette probabilit K P (K ), on dispose de la borne > 0,
n K (Ln B (K , )) 1

16e

NK (d, 8 )

en 8 .

Un argument technique assez simple permet den dduire la borne suivante : Pour tout > 0,
n

(Ln , C ) + 2 (K ) d
c

(K )

16e

NK (d, 8 )

en 8

(III.28)

La borne (III.28) permet de calculer des vitesses de rtrcissement (n )n , comme le montre la proposition suivante : Proposition III.29. Soient C un convexe ferm de P (X ) tel que H ( C | ) < + et la I-projection de sur C . Sil existe une suite (Kn )n de compacts inclus dans X et une suite n > 0 de limite nulle telles que : (Kn )n 1
n+

et

2 n nn + log(n )NKn d, 8 8

+,
n+

(III.30)

c alors, pour toute suite n de limite nulle telle que n n + 2 (Kn ), la suite n C n , k k k converge en variation vers dans P (X ).

Nous verrons la proposition (III.109) que si d est continue et borne sur X , alors le d critre (III.30) peut tre remplac par la condition plus faible (Kn ) 1
n+

et

2 nn n + log(n )NKn d, 8 8

+.
n+

(III.31)

Les critres (III.30) et (III.31) sont nettement plus difciles vrier que le critre (III.27) du cas compact, le support de la probabilit devant tre bien approxim par une suite de compacts pas trop gros (au sens de lentropie mtrique). Par exemple, si lon se place dans Rq , on doit disposer dinformations prcises sur la queue de distribution de pour tre en mesure de calculer des vitesses de rtrcissement explicites.

III.1. Introduction

61

Proposition III.32. Soient C un convexe ferm de P (Rq ) tel que H ( C | ) < + et la I-projection de sur C . 1. Sil existe a > q tel que x
X 2 k n a . alors pour n = n b , avec b < q +2 , C n , k converge en variation vers En particulier, sil existe u > 0 tel que X eu x d (x) < +, on peut prendre 1 . b < q+2 1 q a

d (x) < +,

(III.33)

2. Sil existe a > 0 tel que (III.33) soit satisfaite et si on suppose en plus que log d d 1 est continue et borne, alors on peut prendre b < q+2 .

La probabilit tant en gnral mal connue, lhypothse (III.33), ou tout autre hypothse dintgrabilit, est difcile vrier. On dispose nanmoins du rsultat lmentaire suivant Proposition III.34. Sil existe a > 0 et > 0 tels que e
X x
a

d < +,

(III.35)

et si P (X ) vrie H ( | ) < +, alors X x a d < +. En particulier, les conclusions de la proposition III.32 restent inchanges si lon remplace lhypothse (III.33) par lhypothse (III.35).

Applications ltude des ponts de Schrdinger et des processus de Nelson. Nous terminerons ce chapitre par une interprtation des ponts de Schrdinger et des processus de Nelson. Ces processus sont les I-projections de la mesure de Wiener sur des convexes ferms de la forme C (t ) = {V P (C ([0, 1], Rq )) : t I, Vt = t } ,

o I est un sous-ensemble de [0, 1] et (t )tI est une famille de probabilits sur Rq . Pour de bons ots de marginales (t )tI , nous dterminerons des suites n explicites telles que
n W := L(X1 , . . . , Xk |Ln C (t )n ) W k , n, k n+

o Xi est une suite i.i.d de loi W .

62

III. Principe conditionnel de Gibbs pour des contraintes nes approches

III.2

Rsultats gnraux

Rappelons que dans cette section, G dsigne un sous-espace vectoriel dapplications mesurables sur lespace polonais (X , d) contenant lensemble Cb (X ) des applications continues sur X . Lensemble PG (X ) de toutes les mesures de probabilits sur X telles que g G, |g |d < + est muni de la G-topologie et de la G-tribu introduites X la section II.3.2. Dans la suite, nous xerons un lment de PG (X ) et nous tudierons le comportement asymptotiques des suites de la forme n Cn , k := L(X1 , . . . , Xk |Ln Cn ) avec (Xi )i une suite i.i.d de loi et Cn une suite dcroissante de convexes de PG (X ).

III.2.1

Convergence en variation

Le thorme suivant a pour but de dgager un lot de conditions sufsantes garantissant k la convergence en variation de n , la probabilit tant la I-projection de Cn , k vers + sur C = n=1 Cn . Thorme III.36. Soit (Cn )n1 une suite dcroissante densembles convexes de PG (X )
+

ferms pour la G-topologie et C =


n=1

Cn .

On suppose que : 1. H ( C | ) < +, 2. admet une I -projection sur C , 3.


n+

lim H ( Cn | ) = H ( C | ),

1 log n (Ln Cn ) H ( C | ). n+ n k Alors, pour tout k N , n dans P (X k ). Cn , k converge en variation vers 4. lim inf La preuve de ce rsultat repose sur le thorme suivant, du I. Csiszr. Thorme III.37. Soit A un ensemble convexe ferm de PG (X ). On suppose que H ( A| ) < + et on note , la I-projection gnralise de sur A. Si n (Ln A) > 0, alors pour tout k {1, . . . , n}, on a
k H n A, k

1 log n (Ln A)en H( A|) . [n/k ]

(III.38)

Dmonstration. Voir lannexe A.

III.2. Rsultats gnraux

63

Dmonstration. On a, en notant n la I -projection gnralise de sur Cn ,


k n Cn , k VT k n Cn , k n VT k + k n VT

(III.39) (III.40) (III.41)

k + 2 H n C n , k n k + 2 H n Cn , k n

k 2 H k n

2k H n

o (III.39) vient de lingalit triangulaire, (III.40) de lingalit de Pinsker (II.13) et (III.41) de la formule de dcomposition de lentropie (II.4). Comme est la I -projection de sur C , appartient C et donc aussi Cn . Par consquent, daprs lingalit de Csiszr (II.26), H ( C | ) = H ( | ) H ( | n ) + H ( Cn | ) . Ainsi, daprs lhypothse (3) du thorme, H ( | n ) tend vers 0.
k Pour prouver la convergence en variation de n , il suft donc, daprs Cn , k vers n k (III.41), de montrer que lim H Cn , k n = 0. Or, daprs lhypothse (4), pour n n+

(III.42)

assez grand, on a n (Ln Cn ) > 0. On peut donc appliquer le thorme III.37 avec A = Cn , ce qui entrane k k log n (Ln Cn )en H( Cn |) H n C n , k n n k = log n (Ln Cn )en H( C |) + k [H ( C | ) H ( Cn | )] . n Daprs lhypothse (3), le dernier terme tend vers 0 et daprs lhypothse (4), 1 lim sup log n (Ln Cn )en H( C |) 0. n n+

Remarque III.43. Notons La (X , ) = g mesurable : s R,


X

es|g| d < + .

Si G La (X , ), alors, daprs la proposition II.36, admet une I-projection sur le convexe ferm C vriant H ( C | ) < +. Par ailleurs, daprs le point 2 de la proposition II.34, H ( . | ) est une bonne fonction de taux sur PG (X ), donc, daprs le point (a) du lemme 4.1.6 de [26], on a H ( Cn | ) H ( C | ). Ainsi, dans ce
n+

cadre rgulier, il suft de vrier les hypothses 1 et 4.

64

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Pour vrier la condition lim inf


n+

1 log n (Ln Cn ) H ( C | ), n

il est indispensable de disposer de bornes infrieures exactes (non-asymptotiques) pour le thorme de Sanov. La proposition suivante, dmontre en exercice dans le livre de J.D. Deuschel et D.W. Stroock, fournie une telle borne : Proposition III.44. Soient A une partie de PG (X ) telle que {x : Lx n A} est mesurable et PG (X ) telle que et n (Ln A) > 0. Alors, n (Ln Ac ) 1 1 log n (Ln A)en H( |) H ( | ) n + log n (Ln A) n (Ln A) n 1 . (III.45) n ne (Ln A) Dmonstration. Voir lannexe A. Le corollaire suivant exploite lingalit (III.45) et permet de remplacer lhypothse 4 du thorme III.36 par une condition de type loi des grands nombres : Corollaire III.46. Sous les hypothses 1,2, et 3 du thorme III.36, n Cn , k converge en k k variation vers dans P (X ), ds que
n+

lim n (Ln Cn ) = 1.

Dmonstration. 1 Il suft de montrer que In := log n (Ln Cn )en H( C |) est major par une suite n de limite nulle. Or, en appliquant la proposition III.44 avec A = Cn et = (qui vrie H ( | ) = H ( C | ) et n (Ln Cn ) > 0 pour n assez grand), on obtient : In H ( C | )
n+ c n (Ln Cn ) 1 1 log n (Ln Cn ) + , n n (Ln Cn ) n ne (Ln Cn )

et comme lim n (Ln Cn ) = 1, le membre de droite tend vers 0.

III.2.2

Convergence forte dans L (X , )

La convergence en variation donne par le thorme III.36 nest pas toujours satisfaisante. En effet, si lon prend C = { PG (X ) : X f d = a}, avec f G non borne, la convergence en variation de n Cn vers nest pas assez forte pour pouvoir afrmer que
n+

lim

f dn Cn =

f d = a.
X

III.2. Rsultats gnraux

65

En fait, la convergence en variation dune suite n vers nest autre que la convergence forte de n vers en tant que formes linaires continues sur B (X ). Si (G, . G ) est un espace vectoriel norm, la bonne notion de convergence serait la convergence pour la norme . G , dnie pour toute forme linaire continue sur G par :
G

= sup
g
G 1

,g .

La proposition III.51 suivante donne une condition sufsante qui garantit la conver gence forte de n Cn vers dans le cas o G est lespace dOrlicz L (X , ). Rappels sur les espaces dOrlicz. Rappelons quune fonction de Young est une fonction : R [0, +] convexe, paire et telle que (0) = 0, (s) +,
s+

s0 > 0,

(s0 ) < +.

Si est une mesure de probabilit sur un espace mesurable (X , B ), on dnit les deux espaces L (X , ) = et La (X , ) = g : X R, mesurable : s > 0,
X

g : X R, mesurable : s > 0,
X

g < + s g < + . s

On note L (X , ) (resp. lensemble des classes dquivalence de fonctions de a L (X , ) (resp. L (X , )) pour la relation dgalit -presque srement. On dnit sur L (X , ) une norme, appele norme de Luxembourg, par g L (X , ), On montre que (L (X , ), . la fonction .
)

La (X , ))

= inf s > 0 :
X

g d 1 . s

est un espace de Banach ; cest lespace dOrlicz associ

Si est une fonction de Young, sa conjugue convexe dnie par (t) = sup{st (s)}
sR

est encore une fonction de Young.

66

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Lingalit de Young s, t R, st (s) + (t) permet de dmontrer que si f L (X , ) et g L (X , ), alors f g L1 (X , ) et


X

|f g | d 2 f

(III.47)

Par suite, un lment de L (X , ) peut tre vu comme une application linaire continue sur L (X , ). En gnral, le dual topologique de L (X , ) est strictement plus gros que L (X , ). En revanche, on a la proposition suivante : Proposition III.48. Si est une fonction de Young partout nie, alors le dual topologique de La (X , ) peut tre identi L (X , ), cest--dire que pour toute forme linaire continue sur La (X , ), il existe une unique fonction g L (X , ) telle que f La (X , ), (g ) =
X

f g d.

Dans ce qui suit, nous considrerons les espaces dOrlicz L (X , ) et La (X , ) associs la fonction (x) = e|x| 1 |x|. Pour tout L (X , ) , nous noterons

= sup{ , g :

g L (X , ), g

1}.

Dans la suite, nous supposerons que G = L (X , ) et nous noterons P (X ) la place de PL (X ,) (X ). Si P (X ) est absolument continue par rapport , alors lapplication L (X , ) R : g
X

g d

est bien dnie et est linaire. Le lemme suivant donne une condition ncessaire et sufsante pour que cette forme soit continue : Lemme III.49. Une probabilit P (X ) absolument continue par rapport est une forme linaire continue sur L (X , ) si, et seulement si, H ( | ) < +.
a Dmonstration. Si L (X , ) , alors la restriction de La (X , ) appartient L (X , ) a et, daprs la proposition III.48, L (X , ) L (X , ), o = x log(x) + 1 x. Il existe donc h L (X , ) telle que

g La (X , ),
X

g d =
X

gh d,

et on en dduit que = h. Comme h appartient L (X , ), il existe t > 0 tel que (th) log(th) + 1 th d = t H ( | ) + 1 t + t log(t) < +,
X

III.2. Rsultats gnraux

67

et donc H ( | ) < +. Rciproquement, si P (X ) est telle que H ( | ) < +, alors h = Daprs lingalit (III.47), on a donc g L (X , ),
X

d d

L (X , ).

g d =
X

gh d 2 g

ce qui prouve que L (X , ) . Remarque III.50. En particulier, n Cn appartient L (X , ) .


La proposition suivante donne une condition sufsante pour que n Cn converge vers au sens de la norme . :
n Proposition III.51. Sous les hypothses du thorme III.36, notons hn = d et suppod sons que (hn )n soit une suite borne de Lp (X , ) pour un certain p > 1, alors 0. n Cn

n+

Dmonstration. Soient 1 et 2 deux lments de P (X ) et g L (X , ) telle que g 1. Tout dabord, g d1


X X

g d2 |g |1 |g |2
VT

Daprs (II.16), pour tout > 0, on a |g |1 |g |2


VT

1 + log
X

e|g| d2

H ( 1 | 2 ) + H ( 1 | 2 ) , (III.52)

o C est une constante numrique.


1/p

Prenons 2 = h, avec
X

hp d
|g |

M , alors, daprs lingalit de Hlder,


1/p

e
X

d2 M
X

p |g |

(III.53)

avec p tel que

1 p

1 p

= 1. Comme g

1, on a
X (i)

e|g| 1 |g | d 1, donc g2 d 2 2 4,

e|g| d 2 +
X (ii) X

|g | d 2 + 2
X

2
X

2+

e|g| 1 |g | d 2 +

68

III. Principe conditionnel de Gibbs pour des contraintes nes approches

(i) venant de lingalit de Cauchy-Schwarz et (ii) de lingalit Ainsi, en prenant = |g |1 |g |2


VT 1 p

x2 2

e|x| 1 |x|.

dans (III.53), on a
X

e|g|/p d2 41/p M et (III.52) donne H (1 |2 ) + H (1 |2 ) . d2 d


p 1/p

p C 1 + log(41/p M )

Par consquent, pour toute 2 P (X ) telle que


X

, on a

1 P (X ), 1 2

p C 1 + log(41/p M )

H ( 1 | 2 ) + H ( 1 | 2 ) . (III.54)

Pour dmontrer la proposition, il suft de reprendre mot mot la preuve du thorme III.36, avec k = 1, en appliquant en (III.40) lingalit (III.54) (avec 1 = n Cn et 2 = n ) la place de lingalit de Pinsker.

III.3

Conditionnement par des contraintes de type moment

Dans cette section, G = L (X , ) et nous nous intresserons un conditionnement dni par une contrainte de type moment, ie lensemble C sera de la forme C= P (X ) :
X

F d K

avec F une application mesurable valeurs dans un espace de Banach sparable (B, . ) telle que F L (X , ) et K un convexe ferm de B . Nous grossirons C de la manire suivante : Cn = P (X ) :
X

F d K n ,

o K n = {x B : d(x, C ) n } et n est une suite de rels positifs dcroissant lentement vers 0. Les thormes III.61 et III.76 donnent des vitesses explicites pour n dans un cadre ni-dimensionnel et inni-dimensionnel. Notations. Nous dsignerons par F limage de par lapplication F . Le support de F sera not SF . La transforme de Laplace de F sera note ZF ; elle est dnie par B , ZF () =
X

e ,F d.

III.3. Conditionnement par des contraintes de type moment

69

Enn, on notera F la Log-Laplace de F dnie par F := log ZF . Pour montrer la condition lim inf
n+

1 log n (Ln Cn ) H ( C | ) , n

(III.55)

nous utiliserons la borne infrieure exacte donne par la proposition suivante. Lemme III.56. Si admet une I-projection sur C de la forme = B , alors pour tout > 0, 1 1 log n (Ln C )en H( |) log P n n avec (Yi )i une suite de variables i.i.d de loi . Dmonstration. Voir lannexe A. Remarque III.58. Pour obtenir (III.55), il suft daprs lingalit (III.57) de montrer que 1 log P n 1 n
n e ,F , ZF ( )

avec

1 n

F (Yi )
i=1 X

F d

. (III.57)

F (Yi )
i=1 X

F d n

0,
n+

(III.59)

Cette dernire condition est strictement plus faible que la condition P du corollaire III.46. 1 n
n

F (Yi )
i=1 X

F d n

1
n+

III.3.1

Cas dun espace de dimension nie

Dans cette section, nous supposerons que B est de dimension nie et nous noterons q sa dimension. Nous travaillerons sous les hypothses suivantes. Hypothse III.60. 1. dom F := { B : F () < +} est ouvert dans B , 2. Lenveloppe convexe du support de F , co SF est dintrieur non vide,

3. K est un convexe ferm de B tel que K co SF = .

70

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Ces hypothses vont nous permettre dutiliser les rsultats de la section II.4.4 sur la reprsentation des projections entropiques. Thorme III.61. Sous les hypothses III.60, 1. possde une I-projection sur C = P (X ) : 2. Il existe c R+ tel que pour toute suite n R de limite nulle telle que k lim n2 c, +], la suite n , pour tout n ] Cn , k converge en variation vers
n+ X +

F d K .

k N , o Cn = P (X ) :
3. De plus, n Cn n+

F d K n .

0.

k . 4. Enn, pour tout k , n Cn , k converge en entropie vers

Pour dmontrer (III.59), nous ferons appel lingalit de Bernstein donne par le theorme suivant : Thorme III.62. Si Y1 , . . . , Yn sont des variables alatoires relles indpendantes centres, telles quil existe M > 0 et v1 , . . . , vn > 0 tels que E [|Yi |m ] alors, pour tout t > 0, 1 t2 P(Y1 + + Yn t) exp 2 v + tM , avec v = v1 + + vn . m! m2 M vi , 2

Dmonstration. Voir par exemple [71], 2.2.11 p.103. Corollaire III.63. Soit Yi une suite de variables alatoires relles indpendantes, de moyenne nulle, alors t 0, P Y1 + + Yn t n E nt2 exp 2M (2M + t)
Yi

(III.64)

avec M = inf 0 : i = 1 . . . n,

1 , o (x) = e|x| 1 |x|.

Dmonstration. Si M = +, lingalit est vraie. Si M < +, alors pour tout i = 1 . . . n, on a pour tout m 2 : E [|Yi |m ] E M m m! et donc E [|Yi |m ] Yi M 1

m! m2 M vi , 2

III.3. Conditionnement par des contraintes de type moment

71

avec vi = 2M 2 . Donc, daprs le thorme III.62, on a P(Y1 + + Yn nt) exp nt2 2M (2M + t) .

Daprs le thorme III.36, nous aurons galement besoin de certaines proprits de continuit des I-projections par rapport au grossissement ; celles-ci sont dmontres dans le lemme ci-dessous. Lemme III.65. Sous les hypothses III.60, 1. F est strictement convexe, e ,F , avec , lunique 2. admet une I-projection sur C , qui scrit = ZF ( ) minimisant de la fonction H () = F () inf , y ,
y K

e n ,F 3. admet une I-projection sur Cn , qui scrit = , avec n , lunique ZF ( ) n minimisant de la fonction Hn () = F () inf , y , n n
y K
n

4. De plus, lim n = et lim H ( Cn | ) = H ( C | ). n+ n+

Dmonstration. 1. Si 1 , 2 dom F , en posant g (t) = F (t1 + (1 t)2 ), pour t [0, 1], on voit faci2

lement que g (t) =

(2 1 )(x)

(2 1 )(y ) d F (y )

dF (x), avec F F .

Par suite, g (t) = 0 si, et seulement si, 2 1 est constante sur co SF . Comme co SF est suppos dintrieur non vide, cela entrane 1 = 2 , et F est donc strictement convexe sur son domaine.

2. Par hypothse, K co SF = , donc ri K co SF = . Daprs le thorme II.41, possde une I-projection sur C= P (X ) :
X

F d < +

et
X

F d K ,

mais, daprs le corollaire II.35, est la I-projection gnralise de sur C . Comme H ( | ) < +, le point 1 de la proposition II.34 entrane que appartient P (X ) et e ,F donc est la I-projection de sur C . De plus, daprs le thorme II.41, = Z , F ( ) avec Argmin H . Comme F est strictement convexe, il en est de mme pour H qui nadmet donc quun seul minimisant.

72

III. Principe conditionnel de Gibbs pour des contraintes nes approches

3. Idem. 4. Clairement, Hn () = H () + n . On en dduit que dom Hn = dom H et que Hn converge simplement vers H sur dom H . Admettons un instant que la suite ( n )n soit borne et considrons une valeur dadhrence de (n )n ainsi quune sous-suite ( nk )k convergeant vers . Pour tout k , Hnk ( nk ) = inf Hnk () Hnk ( ),
B

donc par convergence simple,


lim sup Hnk ( nk ) lim Hnk ( ) = H ( ) k+ k+

(III.66)

De plus, par semi-continuit infrieure de H : ) lim inf Hn ( ). H ( nk k


k+

(III.67)

De (III.66) et (III.67), on dduit que ) H ( ). H ( = . La suite ( )n Comme H nadmet quun seul minimisant, on a ncessairement n est une suite borne admettant pour seule valeur dadhrence ; elle converge donc vers . En particulier, (III.66) et (III.67) sont valables pour nk = k et par consquent, lim inf Hn = inf H . Ceci entrane, daprs le thorme II.41, que H ( Cn | ) converge
n+

vers H ( C | ).
Montrons prsent que la suite ( n )n est borne. Comme co SF = dom F (voir la

remarque II.42), il existe x0 K dom F . Posons H () = F () , x0 . On a clairement H H Hn . Comme Hn+1 Hn , la suite inf Hn est dcroissante. Donc Hn atteint son minimum sur Hn inf H1 + 1 H inf H1 + 1 . Il suft donc de montrer que pour tout k R, H k est born. Or, H k = B : x B, , x k + H (x)
Mais H (x) = F (x + x0 ) et donc 0 dom H . Une fonction convexe tant continue sur

lintrieur de son domaine, on en dduit que si r > 0 est tel que B (0, r) dom H , on a pour tout H k , sup , x k + sup H (x) < +,
x r x r

III.3. Conditionnement par des contraintes de type moment

73

et donc H k est born. Dmonstration du thorme III.61 : 1. Cest le point 2. du lemme III.65. 2. Daprs le thorme III.36, et le point 4. du lemme III.65, il suft de montrer que lim inf
n+

1 log n (Ln Cn ) H ( C | ) n

Daprs la borne infrieure exacte (III.57) du lemme III.56, si (Yi )i est une suite i.i.d de loi ,
lim inf
n+

1 1 log n (Ln Cn )en H( |) lim inf log P n+ n n

1 n

F (Yi )
i=1 X

F d n

Soit (e1 , . . . , eq ) une base de B ; notons f1 , . . . , fq les composantes de F sur cette base. Par quivalence des normes en dimension nie, il existe m1 , m2 > 0 tels que m1 max |xj | x m2 max |xj |.
j =1...q j =1...q

On a donc
P 1 n
n

F (Yi )
i=1 X

F d n

sup
j =1...q

1 n
n

fj (Xi ) E [fj (X1 )]


i=1

1 n m2 .

1 q max P
j =1...q

1 n

fj (Xi ) E [fj (X1 )]


i=1

1 n m2

Comme m1 max |fj | F , pour pouvoir appliquer lingalit de Bernstein (III.64), il


j =1...q

suft de montrer que F L (X , ). Or, daprs la formule de reprsentation du thorme II.41 et lingalit de Hlder, on a pour tout p > 1 et
X F

d =

1 ZF ( )

et
X

,F

d
1 p

1 ZF ( )

e
X

tp F

d
X

p ,F

1 p

(III.68) ,

1 1 avec p tel que p = 1. Comme dom F est ouvert, il existe p > 1 tel que p dom F . +p Pour un tel p, le membre de droite de (III.68) est ni pour tout t assez petit, puisque F L (X , ).

Soit M = max fj
j =1...q X n

fj d
L (X , )

, alors daprs (III.64), on a 1 n m2 n(n /m2 )2 2M (2M + n /m2 )

j =1...q

max P

1 n

fj (Xi ) E[fj (X1 )]


i=1

2 exp

74

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Donc
lim inf
n+

1 1 n(n /m2 )2 log n (Ln Cn )en H( |) lim inf log 1 2q exp n+ n n 2M (2M + n /m2 ) (III.69)
n+

, alors Posons c = (2m2 M )2 log(2q ) et supposons que c := lim n2 n > c c n(n /m2 ) . 2M (2M + n /m2 ) n+ (2m2 M )2 Comme 2qe

c (2m2 M )2

<1, on en dduit que le membre de droite de (III.69) est nul.


d n d

3. Daprs la proposition III.51, il suft de montrer quil existe p > 1 tel que borne dans Lp (X , ). Or,

soit
n

d ZF (p n n) d = . p d ZF ( X n) Comme n converge vers (lemme III.65), ZF (n ) est borne. Par hypothse, dom F est ouvert ; il existe donc p > 1 et r > 0 tels que B (p , r) dom F . Il existe alors n0 tel que pour tout n n0 , p n B (p , r ), et donc ZF (p n) sup
xB (p ,r )

F (x) < +.

4. Montrons enn la convergence en entropie :


k k H n = H n + Cn , k n Cn , k k +k = H n Cn , k

log
X

dk dn Cn , k k d n d log dn Cn dn
X

=H

n Cn , k

+ k H n + k log

d d n . Cn dn

k et H On a vu dans la preuve du thorme III.36 que H n n converCn , k n geaient vers 0. Il suft donc de montrer que d 0. Jn := log d n Cn n+ dn X Or,

Jn =
X

fn d n Cn

avec

fn = n ,F .

Comme

n Cn

0, il suft de montrer que la suite fn est borne dans


n+

L (X , ). Comme pour, n assez grand, 1, on a |fn | n n

F F

et donc fn

< +. La suite (fn )n est donc bien borne dans L (X , ).

III.3. Conditionnement par des contraintes de type moment

75

En dimension 1, on peut amliorer la vitesse de rtrcissement n : Proposition III.70. Si B = R, les conclusions du thorme III.61 restent valables pour 1 n = n a , avec 0 < a < 1. relve du thorme III.61. On supposera donc que a [1/2, 1[. Dmonstration. Le cas a < 1 2 En reprenant les notations prcdentes, il suft de dmontrer que 1 lim inf log P n+ n 1 n
n

Zi n
i=1

= 0,

(III.71)

1 avec Zi = F (Yi ) X F d , Yi i.i.d de loi , et n = n a , a [1/2, 1[. k On voit facilement que E |Z1 | < + pour tout k N. Notons 2 = E [|Z1 |2 ], n 1 Zi . = E [|Z1 |3 ] et Rn la fonction de rpartition de n i=1 Daprs lingalit de Berry-Esseen (voir par exemple le thorme 2.1.30 de [63]), on a en notant la fonction de rpartition de la loi gaussienne centre rduite

sup |Rn (x) (x)| 10


x R

n 3

(III.72)

Donc 1 n
n

Zi n = Rn

i=1

nn

Rn

nn

nn nn 20 3 n n n 2 n 2 = eu /2 du 10 3 n 2 0 2 nn 2 2 enn /2 10 3 := n . n 2

1 On voit facilement que, pour n = n a avec a [1/2, 1[, on a n 1 consquent, lim log(n ) = 0, ce qui prouve (III.71). n+ n

2 n 2 a . 2

Par

76

III. Principe conditionnel de Gibbs pour des contraintes nes approches

III.3.2

Cas dun espace de dimension innie

Convergence en variation Nous travaillerons sous les hypothses suivantes : Hypothse III.73. 1. B est un espace de Banach sparable de type 2, ie il existe a > 0 tel que pour toute suite (Zi )i de variables alatoires indpendantes centres et de carr intgrable, on ait E Z1 + + Zn 2 a E Z 1 2 + + E Z n 2 . (III.74) 2. Le domaine de F est ouvert. 3. K est un convexe ferm de B tel que la fonction H () = F () inf , y
y K

atteigne son minimum. Remarque III.75. Lhypothse 1. nous sera utile pour utiliser le thorme de Yurinskii ; elle est bien sr ralise si B est un espace de Hilbert. Lhypothse 3. est en particulier ralise si K = {x0 }, avec x0 = F (0 ). Daprs le lemme II.39, lhypothse 3. prcdente garantit que admet une Iprojection sur C= qui scrit = P (X ) :
X e ,F , ZF ( )

F d < +

et
X

F d K

pour tout minimisant H .

Daprs le corollaire II.35, est aussi la I-projection de sur C := P (X ) :


X

F d K .

c Thorme III.76. Soit n = , avec c > a Var (F ) o a est la constante de (III.74) n et Cn = P (X ) : X F d K n . Sous les hypothses III.73, n Cn , k converge en k variation vers pour tout k N .

III.3. Conditionnement par des contraintes de type moment

77

Nous utiliserons le thorme suivant d Yurinskii : Thorme III.77 (Yurinskii, [73], thorme 2.1). Soit (Zi )i une suite de variables alatoires indpendantes valeur dans B telle quil existe b et M > 0 tels que, pour tout i N , on ait : k! (III.78) k 2, E Zi k b2 M k2 2
n

Alors, en posant Sn =
i=1

Zi , 1 nt2 8 b2 + tM

t > 0,

P ( Sn E [ Sn ] + nt) exp

(III.79)

Dmonstration du thorme III.76 : Daprs le thorme III.36, il suft de vrier que H ( Cn | ) converge vers H ( C | ) et 1 que lim inf log n (Ln Cn ) H ( C | ). n+ n Montrons que lim H ( Cn | ) = H ( C | ) :
n+

Tout dabord, daprs le lemme II.39, H ( C | ) = inf H . De plus, on voit facilement grce au thorme de Hahn-Banach que X F d co SF . Par consquent, K co SF = , et a fortiori, K n co SF = . Le thorme II.41 entrane donc en particulier que H ( Cn | ) = inf Hn , avec Hn () = F () inf , y . Comme (Hn )n converge
y K
n

simplement en dcroissant vers H sur dom H , on a inf H inf Hn Hn ( ) inf H


n+

et donc lim inf Hn = inf H . n+ 1 Montrons que lim inf log n (Ln Cn ) H ( C | ) : n+ n Daprs le lemme III.56, il suft de montrer que si (Yi )i est une suite i.i.d de loi , 1 lim log P n+ n 1 n
n

F (Yi )
i=1 X

F d n

= 0.

(III.80)

En raisonnant comme dans la preuve du thorme III.61, on voit que F L (X , ). On voit alors facilement que (III.78) est valable pour Zi = Yi X F d , avec M = F X F d L (X , ) et b = 2M . Comme B est suppos tre de type 2, E[ Sn ] E[ Sn 2 ] an , avec = E[ Z1 2 ], de sorte que, daprs (III.79), n 1 a 1 t2 P F (Yi ) F d + t 1 exp n . n i=1 8 2M 2 + tM n X c Ainsi, en prenant n = , avec c > a , (III.80) est vrie. n

78

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Convergence forte dans L (X , ) ? On fera les hypothses suivantes : Hypothse III.81. 1. B est un espace de Banach sparable de type 2,
a 2. G = La (X , ) et F L (X , ), ie t > 0, X

et

d < +,

3. K est un convexe ferm de B tel que la fonction H () = F () inf , y


y K

atteigne son minimum.


4. Il existe une suite ( n )n borne dans B , telle que, pour tout n, n minimise

Hn () = F () inf , y .
y K
n

Thorme III.82. Sous les hypothses prcdentes, les conclusions du thorme III.61 c sont valables pour toute suite n = avec c > a Var (F ) o a est la constante de n (III.74). Dmonstration. Par rapport au thorme III.76, la seule chose nouvelle vrier est que dans Lp (X , ) pour un certain p > 1. Si M > 0 est tel que n N, a pour tout p > 1 d n d
p

d n d

est borne
n

M , alors on

d =

X X

ep n ,F d e
,F

X X

epM eM

F F

d d
p

< +.

Remarque III.83. Nous ne connaissons pas de condition sufsante raisonnable dans un espace de dimension innie garantissant lhypothse 4. prcdente. Lorsque B est de dimension nie, nous avons vu dans la preuve du point 4 du lemme III.65 (page 72) que la bornitude de la suite n tait vraie sous des hypothses assez faibles. Malheureusement, les arguments que nous avons utiliss pour dmontrer cette proprit ne sont plus valables en dimension innie.

III.4. Contraintes plus gnrales - Contrles par recouvrement.

79

III.4

Contraintes plus gnrales - Contrles par recouvrement.

Pour aborder des conditionnements dnis par des contraintes plus gnrales que celles prises en compte dans les sections prcdentes, nous allons dvelopper une mthode base sur les nombres de recouvrement. Dans toute la suite, (X , d) sera un espace polonais. Lensemble P (X ) des mesures de probabilit sur X sera muni de la topologie de la convergence troite, ie G = Cb (X ) (lensemble des fonctions continues bornes sur X ) et de la tribu borlienne associe cette topologie.

III.4.1

Nombres de recouvrement

Dnition III.84. Soit K une partie compacte dun espace mtrique (Y , d). Pour tout > 0, le nombre de recouvrement de K de niveau , not NY (d, K, ), est le nombre minimal de boules ouvertes de rayon ncessaire pour recouvrir K . Autrement dit,
p

NY (d, K, ) = inf

pN :

B1 , . . . Bp , boules de rayon tq K
i=1

Bi

Les propositions suivantes donnent des exemples classiques destimation des nombres de recouvrement : Proposition III.85. Soit B une boule ferme de rayon r > 0 dans Rq muni de la distance euclidienne d, alors r q . > 0, NRq (d, B, ) 1 + 2 En particulier, r q r, NRq (d, B, ) 3q . Dmonstration. Voir par exemple le thorme II.4 du chapitre VII de [75]. Dans la proposition suivante, que nous utiliserons la n de ce chapitre, on sintresse au recouvrement dune boule hlderienne : Proposition III.86. Soit X lensemble des fonctions continues de [0, 1] dans Rq ; posons pour tout R, M > 0 et ]0, 1] K (R, M, ) = alors > 0, NX ( .
, K (R, M, ), )

x X : |x(0)| R

et

sup
s=t

x(s) x(t) M |s t|
q

c1 (, q )

exp c2 (, q )

80

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Dmonstration. Voir le thorme 2.7.1 page 155 de [71].

III.4.2

P (X ) en tant quespace mtrique.

An de calculer des nombres de recouvrement sur P (X ), nous devons quiper cet ensemble dune distance mtrisant la convergence troite. Nous considrerons deux distances classiques sur P (X ) : les distances de Prokhorov et de Fortet-Mourier. Les distances de Prokhorov et de Fortet-Mourier. La distance de Fortet-Mourier, que nous noterons dF M ( . , . ), est dnie de la manire suivante : 1 , 2 P (X ), dF M (1 , 2 ) = sup
BLip(X ,d) BL 1 X

d1
X

d2 ,

(III.87)

o BLip(X , d) est lensemble des fonctions Lipschitziennes bornes sur X , et avec


Lip BL

Lip ,

= sup
x= y

|(x) (y )| d(x, y )

La distance de Prokhorov, que nous noterons dP ( . , . ), est dnie par 1 , 2 P (X ), dP (1 , 2 ) = inf > 0 : sup {1 (A) 2 (A )} , (III.88)
A borlien

o A = {x X : d(x, A) }. La proposition suivante donne un rsultat de comparaison entre dP , dF M et . Proposition III.89. Pour toutes 1 , 2 P (X ), on a en posant (t) = (dP (1 , 2 )) dF M (1 , 2 ) 2dP (1 , 2 ), et dF M (1 , 2 ) 1 2
VT 2t2 2+t

VT.

(III.90)

1 1 2 V T . (III.91) 2 Dmonstration. Pour lingalit (III.90), voir le problme 5 p.312 et le corollaire II.6.5 du chapitre 11 de [29]. Lingalit dF M (1 , 2 ) 1 2 V T est immdiate. 1 1 2 V T . Pour tout > 0, on a Montrons que dP (1 , 2 ) 2 et dP (1 , 2 ) sup {1 (A) 2 (A )} sup {1 (A) 2 (A)} =
A borlien A borlien 1 2

1 1 2 2

VT.

En prenant = rsultat.

1 2

VT,

et en revenant la dnition de dP , on en dduit le

III.4. Contraintes plus gnrales - Contrles par recouvrement.

81

dsignera lune ou lautre des distances prcdemment dNotation : Dans la suite, d nies. Rappelons le rsultat classique suivant : dnie par (III.87) ou (III.88) est Thorme III.92. Si (X , d) est un espace polonais, d ) est un esune distance mtrisant la topologie de la convergence troite et (P (X ), d pace polonais. Si de plus (X , d) est un espace mtrique compact, il en est de mme de ) (P (X ), d Dmonstration. Voir par exemple le chapitre 11 de [29]. Estimation des nombres de recouvrement de P (X ). Notations : Lorsque (X , d) est compact, nous noterons plus simplement NX () la ) la place de NP (X ) (d, P (X ), ) (daprs le thorme place de NX (d, X , ) et NP (X ) (d, ) est compact). III.92, (P (X ), d ) en fonction de NX (), dans le cas o Une question naturelle est destimer NP (X ) (d, (X , d) est compact. Le lemme suivant est du S.R. Kulkarni et O. Zeitouni. Lemme III.93 (Kulkarni-Zeitouni, [42], lemme 1). Si (X , d) est un espace mtrique compact, on a pour tout > 0, NP (X ) (dP , ) 2e
NX ()

(III.94)

) BF M (, ) ; on en dduit immGrce lingalit (III.90), on voit que BP (, 2 diatement le

Lemme III.95. Si (X , d) est un espace mtrique compact, on a pour tout > 0, NP (X ) (dF M , ) Remarque III.96. Daprs les lemmes prcdents, lingalit > 0, ) NP (X ) (d, 4e
NX (/2)

4e

NX (/2)

(III.97)

= dP et d = dF M . Pour viter un traitement spar des deux est valable pour d mtriques, nous utiliserons toujours la majoration (III.97) mme si, dans le cas de la distance de Prokhorov, celle-ci est un peu moins ne que (III.94).

82

III. Principe conditionnel de Gibbs pour des contraintes nes approches

A titre indicatif, nous montrons ci-dessous comment, en sinspirant des techniques de [42], on peut obtenir directement une version un peu moins prcise du lemme III.95. Preuve directe du lemme III.95. Soit > 0. Posons p = NX (), et considrons B1 , . . . , Bp , p boules de rayon recouvrant X . Pour tout i = 1 . . . p, posons Ai = Bi (A1 . . . Ai1 ). Les Ai sont tous non vides (sinon cela contredirait la minimalit de p) et forment une partition de X . On choisit dans chaque Ai un point xi et on note i , la masse de Dirac centre en xi . Pour tout entier n, posons : Yn = P (X ) : = a1 1 + + ap p , ai 1 2 0, , , . . . , 1 n n

p1 On voit facilement que le cardinal de Yn est Cn +p1 . n1 n1 , on dduit pour p 2 et n p : De lingalit n! > e e p1 Cn +p1 =

(n + p 1)p1 (n + p 1) (n + 1) (p 1)! (p 1)! (n + p 1)p1 e


p1 p1 e p1

<

=e 2
p1

p2

n p1 + p p 4en p 4en p
p p

p1

p p1

p1

<e Ainsi :

p2

n 2 p

|Yn |

1 2 Soit P (X ). Pour tout i = 1 . . . p 1, il existe un unique ai 0, n , n , . . . , 1 tel que 1 ai (Ai ) ai + n ; posons ap = 1(a1 + +ap1 ) et dnissons = a1 1 + +ap p .

Si est une fonction 1-Lipschitzienne telle que || 1, on a


p

d
X p X

d =
i=1 Ai

d
Ai

=
i=1 p Ai

[(x) (xi )] d + (xi )[ (Ai ) ai ]


p

i=1 p Ai

|(x) (xi )| d (x) +


i=1 p1

|(xi )| | (Ai ) ai |
p1

2
i=1

(Ai ) +
i=1

[ (Ai ) ai ] + | (Ap ) ap | = 2 + 2
i=1

[ (Ai ) ai ]

2 + 2

p1 n

III.4. Contraintes plus gnrales - Contrles par recouvrement.

83

En prenant pour 1, n = E (p/) > 0, on obtient : dF M (, ) 4 et |Yn | on en dduit NP (X ) (dF M , ) 16e 4e


p

NX (/4)

III.4.3

Le cas compact

Dans cette sous-section, (X , d) est un espace mtrique compact. Pour tout A ensemble mesurable de P (X ), nous noterons pour tout > 0, (, A) .}. A := { P (X ) : d La proposition suivante est dmontre dans [42] : Proposition III.98. Soit A une partie mesurable de P (X ). Pour tout P (X ), on a : > 0, A, )en H( A2 | ) . n (Ln A) NP (X ) (d,

) tant compact, A est une partie totalement borne Dmonstration. Lespace (P (X ), d A, ) et considrons B1 , . . . , Bp des boules de P (X ). Soit > 0 ; posons p = NP (X ) (d, fermes de rayon recouvrant A. On a clairement p n (Ln A)
i=1

n (Ln Bi )

Or, daprs le thorme III.37, pour tout ensemble convexe ferm B , on a n (Ln B ) en H( B | ) . Les boules Bi tant convexes et fermes, on en dduit que pour tout i = 1 . . . p, n (Ln Bi ) en H( Bi | ) , et comme Bi A2 , H ( Bi | ) H ( A2 | ). Corollaire III.99. Soient C un convexe ferm de P (X ), tel que H ( C | ) < +, et la I-projection de sur C . Alors, pour tout n N , en 8 . n (Ln C ) 1 NP (X ) d, 4
2

(III.100)

84

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Dmonstration. En notant B ( , ) la boule ouverte de rayon , on a n (Ln C ) n (Ln B ( , )) = 1 n (Ln B ( , )c ). Daprs la proposition III.98, pour tout > 0, on a n (Ln B ( , )c ) NP (X ) (B ( , )c , )en H( B (
Prenons = 4 , alors
,)c 2

| ) .

B ( , )c , NP (X ) d, NP (X ) d, 4 4
c

et B ( , )c /2 = B ,

, daprs le point 2 de la proposition III.89 et lingalit de Or, pour tout B , 2 Pinsker (II.13), on a

= dF M , si d = dP , si d donc, dans les deux cas,

1 2 1 H ( | ) 2 H ( | )

2 VT 2 VT

2 1 dF M (, )2 , 2 8 2 2dP (, )2 , 2

en 8 . n (Ln B ( , )c ) NP (X ) d, 4
2

Corollaire III.101. Soient C un convexe ferm de P (X ) tel que H ( C | ) < +, et la I-projection de sur C . Pour toute suite (n )n de rels strictement positifs de limite 2 n n en 8 nulle telle que NP (X ) d, 0, on a n n k en variation dans
4 n+ C ,k n+

P (X ). Dmonstration. Daprs le corollaire III.99,


n n en 8 n (Ln C n ) 1 NP (X ) d, , 4 2

et donc n (Ln C n ) 1. On conclut en utilisant le corollaire III.14.


n+

), on obtient sans peine le En utilisant la majoration (III.97) de NP (X ) (d, Corollaire III.102. Si n > 0 est une suite de limite nulle telle que n2 n + log(n )NX 8 n 8 +,
n+

(III.103)

k dans P (X k ). alors n C n , k converge en variation vers

III.4. Contraintes plus gnrales - Contrles par recouvrement.

85

La condition (III.103) est assez simple utiliser pour dterminer des vitesses de rtrcissement explicites : Proposition III.104. Si pour tout assez petit, NX () 1 1 n = n a , pour tout 0 < a < q +2 . Dmonstration. n2 n + log(n )NX 8 n 8 n2 1 n + 8q log(n ) q 8 n 1 8q a log(n)na(q+2)1 = n 1 2a 8
, q

alors on peut prendre

+
n+

Daprs la proposition III.85, le rsultat prcdent sapplique en particulier si X est un compact de Rq . Ds que lon dispose dune estimation explicite des nombres de recouvrement NX () (et la littrature sur le sujet est assez abondante), on peut calculer des vitesses de rtrcissement n explicites. Le point fort du critre (III.103) est quil est toujours applicable, comme le montre le rsultat thorique suivant : Proposition III.105. Pour tout espace mtrique compact (X , d), il existe au moins une suite (n )n dcroissante valeurs dans [0, 1[ telle que n2 n + log(n )NX 8 n 8 +,
n+

Dmonstration. En posant N () = 8NX 8 , il sagit de montrer quil existe une suite n telle que n2 +. n + log(n )N (n ) n+

Considrons la fonction f :]0, 1] R+ :


0

log()N () . 2

Clairement, f est dcroissante et lim f () = +. Soit (un )n une suite dcroissante + valeurs dans ]0, 1] telle que nu2 + ; la suite wn := f (un ) est croissante et tend n n+ vers +. Pour tout n, notons : kn = max k N tel que wk n . Pour n assez grand, kn est bien dni. Premier cas : Supposons que pour tout n assez grand, kn n, et posons : n = ukn pour tout n [kn , kn+pn [, avec pn := inf {p 1 tq kn+p > kn }.

86

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Alors, pour n assez grand, on a dune part :


2 2 n2 +, n = nukn kn ukn n+

et dautre part,
2 n2 n + log(n )N (n ) = nn 1

wkn n

1 n2 n 1 n

+.
n+

Second Cas : Supposons a contrario, quil existe une suite pi strictement croissante telle que kpi pi . Cela revient supposer quil existe une suite pi telle que pour tout i, wpi pi . Pour tout n, soit (n) lunique entier tel que n [p(n) , p(n)+1 [ ; posons n = up(n) , on a alors
2 n2 +, n p(n) up(n) n+

et n2 n + log(n )N (n ) = n2 n wp(n) 1 n n2 n 1

p(n) n 1 p(n) +.
n+

n2 n 1

III.4.4

Extension au cas non-compact

Rsultats gnraux Dans cette section, (X , d) sera un espace polonais quelconque. Pour tendre les rsultats de la section prcdente, notre stratgie est, en un mot, de se ramener au cas compact en invoquant le caractre tendu dune probabilit sur un espace polonais. Proposition III.106. Soient C un convexe ferm de P (X ) tel que H ( C | ) < +, et la I-projection de sur C . Pour tout compact K inclus dans X , on a pour tout > 0,
n

(Ln , C ) + 2 (K c ) d

(K )

16e

NK ( 8 )

en 8

(III.107)

En particulier, sil existe une suite (Kn )n de compacts inclus dans X et une suite n > 0 de limite nulle telles que : (Kn )n 1
n+

et

2 nn + log(n )NKn 8

n 8

+,
n+

(III.108)

c alors, pour toute suite (n )n de limite nulle telle que n n + 2 (Kn ), la suite n C n , k converge en variation vers k dans P (X k ).

III.4. Contraintes plus gnrales - Contrles par recouvrement.

87

Dmonstration. Posons K := On a

1 IK . (K ) =
X

( , ) d K K = 1 (K )

VT

1 IK (K )

1 d

1 (K ) + (K c ) = 2 (K c ),

donc, daprs lingalit triangulaire, P (X ), Par consquent, B ( K , ) et (Ln , C ) + 2 (K c ) n d n (Ln B ( K , )) i = 1 . . . n, xi K (, C ) + 2 (K c ) , P (X ) : d (, ) d (, ) + 2 (K c ). d K

n Ln B ( K , ) et

n = (K )n K (Ln B (K , )) .

Daprs le corollaire III.99 et (III.97), on a :


n K

(Ln

B ( K , ))

1 NP ( K )

/4 en 8 1 d,

16e

NK ( 8 )

en 8 ,

ce qui dmontre (III.107). Si (Kn )n et (n )n vrient (III.108), alors n (Ln C n ) 1, ce qui entrane,
n+ k daprs le corollaire III.14, que n dans P (X k ). C n , k converge en variation vers d , d

Sous des hypothses plus contraignantes sur faibli :

le critre (III.108) peut tre un peu af-

Proposition III.109. Soient C un convexe ferm de P (X ) tel que H ( C | ) < +, et la I-projection de sur C . Si log d est continue et borne sur X , et sil existe une suite d (Kn )n de compact inclus dans X , et une suite n > 0 de limite nulle telles que : (Kn ) 1
n+

et

2 nn + log(n )NKn 8

n 8

+,
n+

(III.110)

c alors pour toute suite n de limite nulle telle que n n + 2 (Kn ), la suite n C n , k converge en variation vers k dans P (X k ).

88

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Dmonstration. Posons h = log d ; pour tout > 0, on a : d n (Ln C ) n (Ln B ( , )) =


Xn

1 IB ( ,) (Ln )en Ln ,h dn 1 IB ( ,) (Ln )en Ln


Xn
,h

= en H( C |)

dn

en H( C |) en() n (Ln B ( , )) , en notant () = Ainsi 1 1 log n (Ln C )en H( C |) () + log n Ln B ( , ) . n n Lapplication


X

sup
B ( ,)

, h .

(III.111)

h d tant continue en , on voit sans peine que () 0. Par


0

consquent, si n est une suite de R+ de limite nulle, on a lim inf

1 1 log n (Ln C n )en H( C |) lim inf log n Ln B ( , n ) . n+ n n+ n (III.112) Or, daprs lingalit (III.107), pour tout compact K et tout > 0, on a : 1 log n Ln B , + 2 (K c ) n log (K )+ 1 log 1 n 16e
NK ( 8 )

en 8

(III.113)

Par consquent, si Kn et n sont deux suites vriant (III.110), on a, daprs (III.112) c et (III.113), pour toute suite n de limite nulle telle que n n + 2 (Kn ): lim inf
n+

1 log n (Ln C n )en H( C |) 0. n

k Daprs le thorme III.36, ceci entrane que n dans C n , k converge en variation vers k P (X ).

III.4. Contraintes plus gnrales - Contrles par recouvrement.

89

Quelques exemples Dans cette section, nous supposerons que X = Rq . La proposition suivante montre comment des renseignements sur la queue de distribution de permettent de trouver des vitesses de rtrcissement : Proposition III.114. Soient C un convexe ferm de P (Rq ) tel que H ( C | ) < + et la I-projection de sur C . 1. Sil existe a > q tel que x
X 2 n k a alors pour n = n . b , avec b < q +2 , la suite C n , k converge en variation vers u x En particulier, sil existe u > 0 tel que X e d (x) < +, on peut prendre 1 b < q+2 . 1 q a

d (x) < +,

(III.115)

2. Sil existe a > 0 tels que (III.115) soit satisfaite et si on suppose en plus que log d d 1 est continue et borne, alors on peut prendre b < q+2 . Dmonstration. 1) En posant M =
Rq

x a d (x), on a pour tout R > 0 et (B (0, R))


n

M ( x > R) a R

M 1 a R

1 En prenant Rn = nc , avec c > a , on a en posant Kn = B (0, Rn ) :

(Kn )n De plus, daprs la proposition III.85, NKn En choisissant n =


1 , nb

M nac

1.
n+

Rn

=M

ncq . q

avec b > 0, on a n 8 n 1 2 b 1 8bM log(n)ncq+b(q+2)1 , . 8

2 nn + log(n )NKn 8

En particulier, si b <

1cq , q +2

alors, daprs la proposition III.106, la suite


c n = n + 2 (Kn )

k est telle que n . en , k converge en variation vers C

90

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Comme ac > 1 et b < 1, n n =


2 nb

1 nb

convient pour tout b <

1cq q +2

et c

2M 2 n b , pour n assez grand. Ainsi, nac q 1 a 1 > a , autrement dit, pour tout b < q+2 .

la suite

1 2) Daprs la proposition III.109, lhypothse c > a est inutile et peut tre remplace par 2 1 c > 0. On en dduit que n = nb , avec b < q+2 convient.

Remarque III.116. On voit dans cette proposition que lhypothse log d continue et borne, d

permet damliorer les vitesses de rtrcissement. Lhypothse (III.115) ou toute autre hypothse dintgrabilit portant sur nest pas facile vrier. En particulier le fait que vrie (III.115) nentrane pas ncessairement quil en soit de mme pour . En toute gnralit, il ne semble pas que lon puisse aller au del du rsultat lmentaire suivant :

Proposition III.117. Sil existe a > 0 et > 0 tels que e


X x
a

d < +,

(III.118)

et si P (X ) vrie H ( | ) < +, alors X x a d < +. En particulier, les conclusions de la proposition III.114 restent inchanges si lon remplace lhypothse (III.115) par lhypothse (III.118).

Dmonstration. x
X a

d =

1 1 =

x
X

a d

()

d
x
a

e
X

1 d +
X

d d d log +1 d d d d

e
X

d 1 + H ( | ) < +.

() venant de lingalit de Young : xy ex 1 + y log(y ) + 1 y .

III.4. Contraintes plus gnrales - Contrles par recouvrement.

91

III.4.5

Applications ltude des ponts de Schrdinger et des processus de Nelson

Dans cette section, Y dsignera ou bien Rq ou bien une varit riemanienne lisse de dimension q connexe et compacte qui sera quipe de sa mesure naturelle dv . Nous poserons X = C ([0, 1], Y ), ensemble des fonctions continues valeurs dans Y . Un lment gnrique de X sera not (x(t))t[0,1] . Lespace X sera muni de la distance d (x, y ) = sups[0,1] d(x(s), x(t)). Ici, W sera la mesure brownienne sur Y (associe loprateur de Laplace-Beltrami) de loi initiale 0 . Le but de cette section est de donner une interprtation statistique des ponts de Schrdinger et des processus de Nelson grce aux techniques dveloppes dans les sections prcdentes. Dans [62], E. Schrdinger a pos la question suivante : "Imaginez que vous observez un systme de particules en diffusion, qui soit en quilibre thermodynamique. Admettons qu linstant donn t0 vous les ayez trouves en rpartition peu prs uniforme et qu t1 > t0 vous ayez trouv un cart spontan et considrable par rapport cette uniformit. On vous demande de quelle manire cet cart sest produit. Quelle en est la manire la plus probable ?" A cette question, la thorie des grandes dviations peut donner des lments de rponse. Si X1 , . . . , XN sont des variables alatoires indpendantes de loi W modlisant les particules (en labsence de contraintes), la loi de probabilit que lon cherche dterminer est formellement P (LN . |LN C (0 , 1 )) , (III.119) o C (0 , 1 ) est lensemble des probabilits sur X ayant pour marginales 0 linstant t0 = 0 et 1 linstant t1 = 1. Le nombre de particules tant lev, on est ramen au calcul de la limite de (III.119), quand N +. Toujours formellement, cette limite est identie par le Principe Conditionnel de Gibbs comme tant la I-projection de W sur le convexe C (0 , 1 ). La contrainte Ln C (0 , 1 ) est trop ne pour pouvoir dnir (III.119) ; il faut donc la relaxer. On trouvera dans le chapitre 1 du livre [1] de R. Aebi une formulation en double limite de ce principe conditionnel. Ici, nous allons grossir C (0 , 1 ) en posant, pour tout > 0 (V0 , 0 ) C (0 , 1 ) = {V P (X ) : d et (V1 , 1 ) }, d

o V0 (resp. V1 ) dsigne la marginale de V linstant t = 0 (resp. t = 1). Nous chercherons, comme prcdemment, des vitesses n telle que
n W := L (X1 , . . . , Xk |Ln C (0 , 1 )n ) W , n, k n+

W tant la I-projection de W sur C (0 , 1 ).

92

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Commenons par rappeler quelques rsultats classiques caractrisant cette I-projection. Soit V appartenant C (0 , 1 ). Dsignons par Vu, v (resp. Wu, v ) la distribution conditionnelle de V (resp. W ) sachant que x(0) = u et x(1) = v . Remarquons que Wu, v nest autre que la loi du pont brownien allant de u v . Notons galement 0, 1 (resp. 0, 1 ) la loi de (x(0), x(1)) sous V (resp. W ). En crivant que H ( V| W ) = H ( 0, 1 | 0, 1 ) + H ( Vu, v | Wu, v ) d0, 1 (u, v ),

il est clair que, si elle existe, la I-projection W scrit : W = avec 0, 1 la I-projection de 0, 1 sur (0 , 1 ) = { P (Y Y ) : 0 = 0 , 1 = 1 }. Notons 0 et 1 les marginales de W aux instants 0 et 1. La probabilit 0, 1 est absolument continue par rapport 0 1 ; sa densit sera note p(u, v ). Le lemme suivant donne la fois une condition sufsante pour que H ( 0, 1 | (0 , 1 )) < + et une formule de reprsentation de 0, 1 : Thorme III.120. Si H ( 0 | 0 ) < +, H ( 1 | 1 ) < + et si log p L1 (0 1 ) alors H ( 0, 1 | (0 , 1 )) < +. De plus, d 0, 1 (u, v ) = f (u)g (v ), d0, 1 pour tout couple (f, g ) de fonctions mesurables vriant le systme dquations
d0 (u) d0 d1 (v ) d1

Wu, v d 0, 1 (u, v ),

= f (u) p(u, v )g (v )d1 (v ) . = g (v ) p(u, v )f (u)d0 (u)

(III.121)

Dmonstration. Voir la proposition 6.3 de [13] et [33] p. 161-164. Au nal, sous les hypothses du thorme prcdent, on a dW = f (x(0))g (x(1)), dW pour tout couple (f, g ) de fonctions vriant le systme (III.121).

III.4. Contraintes plus gnrales - Contrles par recouvrement.

93

n Proposition III.122. Sous les hypothses du thorme III.120, W converge en varian ,k k tion vers W pour toute suite n de limite nulle telle que, pour toute suite (Yi ) i.i.d de loi 0 et toute suite (Zi ) i.i.d de loi 1 , on ait

n+

LY , 0 n = 1 lim P d n LY n 1 = n
n

et
n

n+

LZ , 1 n = 1, lim P d n

en notant :

Yi et
i=1

LZ n

1 = n

Zi .
i=1

Dmonstration. Daprs le corollaire III.14, il suft de montrer que W n (Ln C (0 , 1 )n ) 1,


n+

(III.123)

Or, W
n

(Ln C (0 , 1 )n ) = W
n

1 d n > n

Xi (0) , 0
i=1

1 n et d n
n

Xi (1) , 1
i=1

1W

1 d n

Xi (0) , 0
i=1

1 d n

Xi (1) , 1
i=1

> n

LY , 0 > n P d LZ , 1 > n . =1P d n n Ainsi, (III.123) est vrie ds que


n+

LY , 0 n = 1 lim P d n

et

n+

LZ , 1 n = 1. lim P d n

Corollaire III.124. Sous les hypothses de la proposition prcdente, la convergence en n variation de W vers W k est assure : n, k 1. si Y est compacte, pour toute suite n telle que n2 n n + log(n )NY 8 8 2. si Y = Rq et sil existe a > q tel que i {1, 2},
X

+,
n+

di (x) < +,

pour n =

2 , nb

avec b <

q 1 a . q +2

94

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Dmonstration. 1. Cela vient de (III.100) et de (III.97). 2. Immdiat, daprs la proposition III.114. Remarque III.125. Daprs la proposition III.105, dans le cas compact, il existe toujours une suite n 2 n n vriant n + log(n )NY 8 +. Par exemple, si Y est un compact de Rq , 8
n+

on peut prendre n =

1 , na

pour tout 0 < a <

1 q +2

(daprs la proposition III.104) .

Une gnralisation naturelle de la question de Schrdinger est la suivante : quelle est la distribution la plus probable du nuage de particules, sachant que toutes les marginales t pour t [0, 1] sont xes ? Que ce problme soit connect avec lexistence de processus de diffusion de Nelson (voir [12] et [51]) a t remarqu pour la premire fois par H. Fllmer. Ce point de vue a t approfondi par P. Cattiaux et C. Lonard dans la srie darticles [15, 16, 17]. Dans ce qui suit, nous supposerons Y = Rq et nous nous donnerons une famille (t )t de probabilits sur Rq . Nous poserons C (t ) = {V P (X ) : t [0, 1], Vt = t }, et pour tout > 0, (V , C ((t ))) }. C (t ) = {V P (X ) : d Le thorme suivant est une application des techniques de la section prcdente ; nous en discuterons les hypothses un peu plus loin. Thorme III.126. Supposons que W possde une I-projection W sur le convexe ferm est continue borne. Si, de plus, la loi initiale 0 de C (t ) et que celle-ci vrie : log ddW W W vrie C avec k > 0, R > 0, 0 ( x R) k , R alors, pour toute suite n de la forme n = (log n)r , avec r < en variation vers W k .
1 , 2q n la suite W converge n, k

Dmonstration. Daprs la proposition III.109, il suft de trouver une suite Kn de compacts de X et une suite n de rels strictement positifs et de limite nulle telles que W (Kn ) 1
n+

et

2 nn + log(n )NKn 2

n 8

+.
n+

c Ceci tant fait, toute suite n de limite nulle telle que n n + 2W (Kn ) fera laffaire. dW c c Comme dW est borne par un certain D > 0, on a W (Kn ) DW (Kn ) ; en particulier,

III.4. Contraintes plus gnrales - Contrles par recouvrement.

95

il suft de trouver Kn et n vriant W (Kn ) 1


n+

et

2 nn + log(n )NKn 2

n 8

+,
n+

c ). et de prendre n n + 2DW (Kn 1 La rgularit Hlder dordre < 2 des trajectoires browniennes rend naturelle lintroduction des compacts :

K (R, M, ) :=

x X : |x(0)| R

et

sup
s=t[0,1]

x(s) x(t) M |s t|

o R, M > 0 et < 1 . 2 En appliquant le critre de Kolmogorov (voir, par exemple, le thorme (2.1) du chapitre 1 de [57]), on obtient : W (K (R, M, )c ) 0 ( x R) + C (p, )M p , pour tout p 1. De plus, daprs la proposition III.86, on a NK (R,M,) 8 c1 (, q ) R
q

(III.127)

exp c2 (, q )

En prenant, Kn = K (Rn , Mn , n ), avec Rn = (a log n) qk ,

Mn = (b log n) q ,

et n = (c log n) q ,

on voit, aprs quelques calculs, que la quantit


2 nn + log(n )NKn 2

n 8

est majore par n (log n)


2 q

A1 + A2 log(c log n) (log n)q+

2 q

nc2 (,q)bc1 ,

o A1 et A2 ne dpendent plus de n. Pour tout c x, on peut choisir b tel que c2 (, q )bc1 < 0. Ceci tant fait, la quantit prcdente tend vers + lorsque n +. Enn, grce (III.127), on a
c ) (c log n) q + 2CD(a log n) q + 2DC (p, )(b log n) n + 2DW (Kn
p q

et pour tout < , cette dernire quantit est majore pour n assez grand par n = (log n) q .

96

III. Principe conditionnel de Gibbs pour des contraintes nes approches

Remarque III.128. continue borne est indispensable. Sans cette hypothse, on Lhypothse log ddW W pourrait penser appliquer la proposition III.106, quitte obtenir des vitesses de grossissement moins bonnes. Mais pour tre applique, cette proposition requiert que W (Kn )n 1
n+

et ceci impose
c W (Kn )=o

1 n

En supposant, ce qui est raisonnable que rov nous donne

dW dW

Lr (X , W ), le critre de Kolmogo-

p W (K (Rn , Mn , )c ) 0 ( x Rn ) + C (p, )Mn .

En particulier, on doit prendre Mn en na , a > 0. On se convaincra quun tel choix de Mn nest plus compatible avec lexistence dune suite n vriant
2 nn + log(n )NKn 2

n 8

+.
n+

Cette condition, log ddW continue borne, est difcile vrier. En effet, en gnral, W on sait simplement que cette densit a la forme dune densit de Girsanov : d0 dW G, = dW d0 avec G = exp
0 1 1

B (t, x(t))dx(t)
0

|B (t, x(t))|2 dt

et G nest pas continue en gnral. Pour clore cette section et ce chapitre, nous nous contenterons de donner un exemple simple de ot (t )t pour lequel la I-projection est connue et vrie cette hypothse de continuit. Soit U : Rq R une fonction borne de classe C 3 drives bornes. Lquation diffrentielle stochastique dXt = dBt U (Xt )dt, admet, pour toute variable alatoire X0 donne, une unique solution (forte). Notons V 0 la d0 loi de cette solution, et pour tout t posons t = L(Xt ). On supposera, en outre, log d est 0 continue borne. On a alors la

III.4. Contraintes plus gnrales - Contrles par recouvrement.

97

V Proposition III.129. La probabilit V 0 est la I-projection de W sur C (t ) et log d est dW continue borne sur X . En particulier, les conclusions du thorme III.126 sont valables.

Dmonstration. Le premier point est assez classique et est dmontr par exemple dans [15]. Le second point rsulte de la forme explicite de la densit (voir, par exemple, le lemme 2.2.21 de [61]) : d0 1 dV 0 = exp U (x(0)) U (x(1)) dW d0 2
1

|U |2 U (x(s)) ds .
0

98

III. Principe conditionnel de Gibbs pour des contraintes nes approches

CHAPITRE IV

A propos dune mthode de calibration en nance

Sommaire
IV.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 IV.1.1 Une mthode de calibration . . . . . . . . . . . . . . . . . . . 100 IV.1.2 Justication heuristique de cette mthode . . . . . . . . . . . . 100 IV.2 Approximation dune diffusion par un arbre trinomial . . . . . . . 102 IV.2.1 Approximation dune diffusion par une chane de Markov . . . 102 IV.2.2 Dnition des arbres trinomiaux . . . . . . . . . . . . . . . . . 103 IV.2.3 Convergence des arbres trinomiaux . . . . . . . . . . . . . . . 104 IV.3 Principe conditionnel de Gibbs . . . . . . . . . . . . . . . . . . . . . 105 IV.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 IV.3.2 Convexication des arbres trinomiaux et Principe Conditionnel de Gibbs n x . . . . . . . . . . . . . . . . . . . . . . . . . 107
n IV.3.3 Etude des I-projections de Qn 0 , b0 sur F . . . . . . . . . . . . 110

IV.3.4 Principe conditionnel de Gibbs (suite et n) . . . . . . . . . . . 118

100

IV. A propos dune mthode de calibration en nance

IV.1
IV.1.1

Introduction
Une mthode de calibration

Un problme important en mathmatiques nancires est celui de la calibration : On cherche modliser un actif nancier par un processus de diffusion solution dune quation diffrentielle stochastique : dSt = (t, St ) dBt + b(t, St ) dt. (IV.1)

Pour des raisons dordre conomique, le drift b est x : b(t, x) = b0 R. Il sagit de trouver un coefcient de diffusion tel que E[F (ST )] = 1, (IV.2)

o T ]0, 1[ est un instant x et F une fonction positive. Dans [2], M. Avellaneda, C. Friedman, R. Holmes et D. Samperi ont propos la mthode suivante : on se donne un modle a priori 0 et une fonction q : R2 R+ continue nulle sur la diagonale, on prend comme solution du problme de calibration, la fonction qui minimise la fonctionnelle :
1

I( |0 ) = E
0

2 q ( 2 (Xt , t), 0 (t, Xt )) dt ,

sous la contrainte (IV.2), o (Xt )t[0,1] dsigne le processus canonique, et E [ . ] lesprance par rapport la loi de la solution de (IV.1). Le choix de ces fonctionnelles I( . |0 ) repose sur un raisonnement heuristique, men dans lintroduction de [2], que nous allons retranscrire ci dessous.

IV.1.2

Justication heuristique de cette mthode

Posons , lensemble des fonctions : R [0, 1] R+ continues telles que inf > 0 et sup < +. Pour tout , il y a existence faible et unicit en loi pour lquation diffrentielle stochastique : dSt = (t, St ) dBt + b0 dt. (IV.3)

Nous noterons Q la mesure de probabilit sur P (C [0, 1]) ainsi dnie. Pour tout t [0, 1], on posera : C [0, 1], Xt ( ) := (t).

IV.1. Introduction

101

Pour dterminer une solution au problme de calibration expos plus haut, une premire ide consisterait utiliser la mthode de minimisation de lentropie relative, savoir, xer un modle a priori Q0 , avec 0 , et prendre comme solution la probabilit Q minimisant H ( . | Q0 ) sous la contrainte F (XT ) dQ = 1. Cette approche est totalement inadapte. En effet, daprs le thorme de Girsanov, Q sera solution de dSt = 0 (t, St ) dBt + b dt. (IV.4) avec b = b0 . Ainsi la mthode de minimisation de lentropie relative fournie une rponse au problme "orthogonal" qui est de maintenir xe le coefcient de diffusion et de changer le drift an de garantir (IV.2). Lide propose par Avellaneda et ses coauteurs est de minimiser lentropie relative sur des versions discrtises des processus. Pour tout 0 , 0 tant un certain sous-ensemble de , ils supposent donne une suite (Qn )n de mesures de probabilit sur C [0, 1] telles que : Q , au sens de la convergence troite, 1. Qn
n+
n

2. Qn X k X k1 , . . . , X 1 , X0
n n

= Qn X k X k1
n n

Xt = X k + (nt k ) X k+1 X k , t k+1 3. = 1. n n n n Ils remarquent que certains schmas dapproximation classiques (schma dEuler, arbres trinomiaux...) vrient en outre : n 4. 1 , 2 0 , Qn 1 Q2 , 2 5. Pour tout (0 , ) 0 , Qn 1 n H Qn E Q0 n+ n
1 2 q ( 2 (Xt , t), 0 (t, Xt )) dt := I( |0 ), 0

k n

(IV.5)

o q : R2 R+ est une fonction convexe nulle sur la diagonale, dpendant du schma dapproximation choisi. Se fondant sur (IV.5), ils proposent alors de minimiser sous contraintes I( . |0 ) pour rsoudre le problme de calibration, car il parat naturel de penser que la solution du problme de minimisation sous contraintes de H . Qn 0 va converger quand n tend vers linni vers la solution du problme de minimisation sous contraintes de I( . |0 ). Le but de cette section est dclaircir un certain nombre de points dlicats de ce raisonnement heuristique et de connecter cette approche un principe conditionnel de Gibbs multi-chelles.

102

IV. A propos dune mthode de calibration en nance

Une interprtation en terme de Principe Conditionnel de Gibbs est naturelle. En effet, si lon pose 1 Lm : C [0, 1] P (C [0, 1]) : (1 , . . . , m ) m
m m

i ,
i=1

alors, pour n x, on sattend ce que


m [Lm | Lm , F (XT ) = 1 et EQn 0

Lm proche de {Qn , 0 } ]

converge, lorsque m tend vers +, vers


n Argmin H Qn Q0 , 0

t.q.

Qn , F (XT ) = 1 .

En admettant que
n Argmin H Qn Q0 , 0

t.q.

Qn Q , , F (XT ) = 1
n+

avec = Argmin {I( |0 ), 0 une suite mn telle que


0

t.q.

Q , F (XT ) = 1}, on peut esprer trouver

mn [Lm | Lm , F (XT ) = 1 et Lmn proche de {Qn EQn Q . n n , 0 } ]

n+

Dans la suite, nous choisirons les arbres trinomiaux comme modle dapproximation (voir la section suivante pour leur dnition) et nous verrons quil est, malheureusement, difcile de mener bien notre programme en dehors de ce cadre.

IV.2
IV.2.1

Approximation dune diffusion par un arbre trinomial


Approximation dune diffusion par une chane de Markov

Introduisons quelques notations. On dsignera par lensemble C ([0, 1], R) des applications continues de [0, 1] dans R ; les applications coordonnes sur seront notes Xt , t [0, 1]. En notant lensemble des fonctions : R [0, 1] R+ continues telles que inf > 0 et sup < +, on a le rsultat classique suivant : Thorme IV.6. Soient et b : [0, 1] R R continue, alors lquation diffrentielle stochastique dSt = (t, St ) dBt + b(t, St ) dt, S0 = x 0 (IV.7)

admet au moins une solution faible et il y a, de plus, unicit en loi. Pour tout x0 R, nous noterons Q, b, x0 P () la loi commune de toutes les solutions de (IV.7) issues de x0 .

IV.2. Approximation dune diffusion par un arbre trinomial

103

Le thorme suivant, d D.W. Stroock et S.R.S Varadhan, donne un moyen pour approximer les Q, b, x0 par des chanes de Markov : Thorme IV.8. (Stroock et Varadhan) Pour tout n N et t [0, 1], soit ( n (t, x, . ))x un noyau de transition de R dans R. Si (Qn )n est une suite de mesures de probabilit sur , vriant (1) Qn (X0 = x0 ) = 1, k (2) Qn Xt = X k + (nt k ) X k+1 X k , n t k+1 = 1, , n n n n (3) Qn X k+1 . X k , . . . , X0 = n k , X k , .
n n

et sil existe et b : [0, 1] R R continue borne telles que a. et sup n


nN, xR t[0,1] |y x|1

sup n
nN, xR t[0,1] |y x|1

(y x)2 n (t, x, dy ) < +

(y x) n (t, x, dy ) < +,

b. R > 0,

sup
x[R,R] t[0,1]

n
|y x|1

(y x)2 n (t, x, dy ) 2 (t, x) 0,


n+

c. R > 0, d. > 0,

sup
x[R,R] t[0,1]

n
|y x|1

0, (y x) n (t, x, dy ) b(t, x)
n+

sup
xR, t[0,1]

nn (t, x, R [x , x + ]) 0,
n+

alors Qn converge troitement vers Q, b, x0 . Dans tout ce qui suit, x0 = 0 et nous noterons Q, b, la place de Q, b, 0 .

IV.2.2

Dnition des arbres trinomiaux

Donnons nous deux nombres 0 < min < max et b0 R+ . Posons 0 = { : [0, 1] R ]min , max [, continues} et pour < b0 , B = {b : [0, 1] R ]b0 , b0 + [, continues} . Prcisons que lensemble C ([0, 1] R, R) des applications continues de [0, 1] R dans R sera toujours muni de la topologie de la convergence uniforme sur tout compact.

104

IV. A propos dune mthode de calibration en nance

Nous allons maintenant dnir une classe de processus appels arbres trinomiaux permettant dapproximer les diffusions Q, b , avec 0 et b B . Pour cela, nous xerons deux nombres et s vriant > 0, b0 > s > 0, 0 < min < max < .

et nous poserons, pour tout n N et tout (y, z ) R2 y2 z n m (y, z ) = 22 + 2n 2 . dn (y, z ) = 2y 2z 2 n 2 n y r (y, z ) = 1 2 Il est clair quil existe n0 N ne dpendant que de min , max , b0 et s tel que, pour tout (y, z ) [min , max ] [b0 s, b0 + s], le vecteur [mn (y, z ), rn (y, z ), dn (y, z )] soit un vecteur de probabilit coefcients tous strictement positifs. Dnissons pour tout (, b) 0 Bs , n n0 et (t, x) [0, 1] R,
n n n n , b (t, x, . ) = m (, b)(t, x)x+ n + r (, b)(t, x)x + d (, b)(t, x)x n .

Pour tout t, (n , b (t, x, . ))x est un noyau de transition de R dans R. Pour tout (, b) 0 Bs , on considre la probabilit Qn , b sur (, G ) dnie par : (1) Qn , b (X0 = 0) = 1, k n (2) Q, b Xt = X k + (nt k ) X k+1 X k , n = 1, t k+1 (IV.9) n n n n k (3) Qn X k+1 . X k , . . . , X0 = n , b n , X k , . , b
n n n

n Les processus Qn , b sont appels arbres trinomiaux (issus de 0). Nous noterons E, b [ . ], n lesprance par rapport Qn , b . Le support de Q, b est clairement lensemble n dni par (0) = 0 i+1 i n = : n n n , 0, n , pour i = 0, . . . , n 1 i i+1 afne sur n , n , pour i = 0, . . . , n 1

n est un ensemble ni (de cardinal 3n ).

IV.2.3

Convergence des arbres trinomiaux

Proposition IV.10. Soit (n ) une suite de rels strictement positifs convergeant vers zro, avec n s. Pour toute suite (n )n dlments de 0 convergeant vers 0 uniformment sur tout compact et toute suite bn Bn , la suite Qn n , bn nn0 converge troitement vers Q, b0 .

IV.3. Principe conditionnel de Gibbs

105

Dmonstration. On voit facilement que pour n assez grand n (y x)2 n , b (t, x, dy ) = n


|y x|1

2 n [m ( (t, x), b(t, x)) + dn ( (t, x), b(t, x))] n

= 2 (t, x), n n (y x) n , b (t, x, dy ) = n [m ( (t, x), b(t, x)) d ( (t, x), b(t, x))] n |y x|1 = b(t, x), et n n , b (t, x, R [x , x + ]) = 0. Le rsultat dcoule alors du thorme IV.8.

IV.3
IV.3.1

Principe conditionnel de Gibbs


Introduction

n Introduisons quelques notations supplmentaires. Pour tout > 0, E dsignera le sous-ensemble de P () dni par

n E =

Q P () :

F X [nT ] dQ 1 < ,
n

(IV.11)

n et D , lensemble des probabilits Q sur vriant les proprits suivantes (1) Q(X0 = 0) = 1, k (2) Q Xt = X k + (nt k ) X k+1 X k , n = 1, t k+1 n n n n p (3 ) (, b) 0 B tels que Q X p+1 . X p = n p , b n , X n , . n
n

(IV.12)

Nous poserons
n n n . F = E D

(IV.13)

Enn, pour > 0 et m N , la probabilit Rn , m P () est dnie (quand cela est possible) par Rn , m ( ) = E(Qn =
0 , b0

)m

n [Lm |Lm F ]

m n (Qn {(1 , . . . , m ) n : 1 = , Lm (1 , . . . , m ) F } 0 , b0 ) n , n m n (Q0 , b0 ) {(1 , . . . , m ) n : Lm (1 , . . . , m ) F }

106

IV. A propos dune mthode de calibration en nance

o 1 Lm : (n ) P (n ) : (1 , . . . , m ) Lm (1 , . . . , m ) = m
m

i
i=1

n Nous ferons plus loin des commentaires sur les raisons du choix de lensemble D (voir section IV.3.4). Avant cela, dtaillons le contenu de ce qui va suivre dans les prochaines sections.

Dans la section IV.3.2, nous nous intresserons au comportement asymptotique de n est lorsque et n sont xs et m tend vers +. Pour cela, nous montrerons que D un ouvert convexe de P (n ) (voir proposition IV.15), ce qui nous permettra de conclure dans la proposition IV.18, grce une version du Principe Conditionnel de Gibbs (thorme IV.19), qu > 0 et n xs, Rn , m
Rn Qn , m , m+ n n n o Qn est la I-projection de Q0 , b0 sur F , ie lunique probabilit Q F telle que n n H Q Qn 0 , b0 = H F Q0 , b0 . Dans la section IV.3.3, nous tudierons les probabilits Qn . Nous montrerons dans n la proposition IV.20 que Q est un arbre trinomial. Ensuite nous nous intresserons au comportement asymptotique des Qn n lorsque n tend vers +. Dans la proposition 1 n IV.21, nous montrerons que H Qn , b Q0 , b0 converge, en un sens proche de la n -convergence, vers 1

I( |0 ) = E
0

2 q ( 2 (Xt , t), 0 (t, Xt )) dt ,

avec q (x, y ) = log

x y

x + log 2

2 x 2 y

x . 2

Grce cela, nous montrerons que si, pour une suite (n )n bien choisie, la suite Qn sexprime sous la forme n Qn , b = Qn n

avec

n prcompacte,

(IV.14)

alors ses valeurs dadhrence sont de la forme Q , b0 avec un minimisant de I( . |0 ) sous la contrainte (IV.2) (voir proposition IV.23). A partir des rsultats des sections prcdentes, nous serons en mesure de montrer dans la section IV.3.4, sous lhypothse (IV.14), que toutes les valeurs dadhrences de Rn n , mn , mn tant une suite dentiers tendant vers +, sont galement de la forme Q , b0 (voir

IV.3. Principe conditionnel de Gibbs

107

proposition IV.24). En particulier, si le problme de minimisation de I( . |0 ) possde une unique solution , nous aurons Rn Q , b0 , n , mn
n+

ce qui apportera une interprtation partielle de la mthode dAvellaneda : la probabilit Q , b0 fournie par cette mthode de calibration est la limite dune suite de probabilits conditionnelles dnies partir dune suite de discrtisations de la diffusion de rfrence Q0 , b0 . Dans cette section nous essaierons galement de lever lhypothse (IV.14) qui est difcilement vriable. Pour cela, nous remplacerons 0 par un sous-ensemble compact n 1 bien choisi. Cela aura un prix : la perte de la convexit de D . En faisant lhypothse que I ( . |0 ) admet un unique minimisant, nous tablirons un rsultat de convergence satisfaisant pour Rn n , mn . Nous terminerons cette section par un rsultat de convergence valable pour des schmas dapproximations plus gnraux, mais le cadre dans lequel nous nous placerons sera encore trop restrictif pour accueillir les schmas de type Euler.

IV.3.2

Convexication des arbres trinomiaux et Principe Conditionnel de Gibbs n x

Considrons lensemble Tn dni par Tn = Qn , b , 0 , b B , qui est lensemble des arbres trinomiaux sur n associs des diffusions ayant un drift dans la bande ]b0 , b0 +[. Cet ensemble nest pas convexe, car une combinaison convexe de processus de Markov nest plus un processus de Markov. Nous allons chercher inclure Tn dans un ensemble convexe qui ne soit pas trop gros :
n Proposition IV.15. Lensemble D dni par (IV.12) est un ouvert convexe de P (n ) qui n contient T .

n Dmonstration. Il est clair que D contient Tn . n n Montrons que D est convexe. Soient Q1 et Q2 dans D vriant la proprit (3) de (IV.12) avec (1 , b1 ) et (2 , b2 ). Pour tout u [0, 1], posons

Q1+u = (1 u)Q1 + uQ2 Les proprits (1) et (2) de (IV.12) sont trivialement vries par Q1+u . Montrons que

108

IV. A propos dune mthode de calibration en nance

Q1+u vrie aussi (3) : j k Q1+u X i+1 = X i = n n n n (1 u)n 1 , b1


j i , , k n n n
n

=
k n k n

Q1 X i =
n

+ u n 2 , b2

j i , , k n n n k n

Q2 X i =
n

k n

(1 u)Q1 X i = = 1+u ,b1+u avec


2 1+ u

+ uQ2 X i =
n

i k j , , n n n

i k , n n

(1 u)Q1 X i =
n

k n k n

(1 u)Q1 X i =
n

k n

+ uQ2 X i =
n

2 1

i k , n n i k , n n

+ et b1+u i k , n n =

uQ2 X i =
n

k n k n

(1 u)Q1 X i =
n

k n

+ uQ2 X i =
n

2 2

(1 u)Q1 X i =
n

k n k n

(1 u)Q1 X i =
n

k n

b1

+ uQ2 X i =
n

i k , n n i k , n n

uQ2 X i =
n

k n k n

(1 u)Q1 X i =
n

k n

b2

+ uQ2 X i =
n

On voit facilement sur ces formules que (1+u , b1+u ) 0 B .


n est un ouvert de P (n ). Montrons que D Tout dabord, on voit sans peine quil existe c > 0 ne dpendant que de min , max , b0 , s et n tel que, pour tout Q D et tout |j | k n,

j Q Xk = n n

> c.

Posons, quand cela est possible, pour |j | k n et Q P (n ) : = Q X k+1 n Fk, j (Q) = n


(j +1) , Xk n n

j n

Q X k+1 =
n n

(j 1) , Xk n n

j n

Q Xk =

j n

(IV.16)

IV.3. Principe conditionnel de Gibbs

109

et
2

Gk, j (Q) =

Q X k+1 =
n

(j +1) , Xk n n

j n

+ Q X k+1 =
n n

(j 1) , Xk n n

j n

Q Xk =

j n

(IV.17) Ces applications sont continues sur lensemble ouvert Q P (n ) : |j | k n, et on voit facilement que j > c, k = Q Xn n Fk, j (Q) ]b0 , b0 + [, 2 2 [. , max Gk, j (Q) ]min j Q Xk = n n >c

n |j | k n, Q D

n est ouvert dans P (n ). On en dduit facilement que D

Proposition IV.18. n Soit > 0 ; si F est non vide, alors Rn , m est bien dnie pour m assez grand et converge n n quand m tend vers + vers la I-projection Qn de Q0 , b0 sur F . Cette proposition repose sur la version suivante du Principe Conditionnel de Gibbs : Thorme IV.19. Soient X un ensemble ni et une probabilit sur X chargeant tous les points de X . Si C est un ensemble ouvert convexe non vide de P (X ), alors m C = Em [Lm |Lm C ] est bien dnie pour m assez grand et converge lorsque m tend vers + vers la I-projection de sur C . Dmonstration. Comme charge tous les points de X , on voit facilement que H ( | ) < + pour toute P (X ). Par consquent, H ( C | ) < +. De plus, lapplication H ( | ) est continue sur P (X ), donc H ( C | ) = H C . Daprs la proposition III.9, on en dduit que m . C
m+

Dmonstration de la proposition IV.18. n Lensemble F est un ouvert convexe. De plus, on voit facilement que Qn 0 , b0 charge tous les points de n . Le rsultat dcoule donc directement du thorme IV.19.

110

IV. A propos dune mthode de calibration en nance

IV.3.3

n Etude des I-projections de Qn 0 , b0 sur F

Etude n x
n n est non vide, la I-projection de Qn Comme on vient de le voir, si F 0 , b0 sur F . Nous n n la noterons Q . La proposition suivante tablit que Q est un arbre trinomial issu de 0.

Proposition IV.20. Posons pour tout 0 , b B , s :


n q, b ; 0 , b0 (t, x, y )

dn , b (t, x, . ) (y ) = dn 0 , b0 (t, x, . )

et
n n hn , b ; 0 , b0 (t, x) = H , b (t, x, . ) 0 , b0 (t, x, . ) .

Alors 1.
n1 dQn , b n = q, b ; 0 , b0 dQn 0 , b0 i=0

i , X i , X i+1 n n n

2.
n1

Qn , b

Qn 0 , b0

=
i=0

n En , b h, b ; 0 , b0

i ,Xi n n

3. Si Q vrie la proprit (IV.12) pour des fonctions 0 et b B , alors LQ X i pour tout i = 0, . . . , n 1. En particulier, F X [nT ] dQ =
n

= LQn Xi , , b
n

F X [nT ] dQn , b .
n

4. De plus, on a la formule
n n n H Q Qn 0 , b0 = H Q Q, b + H Q, b Q0 , b0 . n n n 5. La I-projection de Qn , b avec 0 , b0 sur F = , note Q scrit sous la forme Qn n n 0 et b B .

IV.3. Principe conditionnel de Gibbs

111

Dmonstration. (1) et (2) se vrient simplement. (3) Procdons par rcurrence sur i : - cest vrai pour i = 0 : LQ (X0 ) = LQn (X0 ) = 0 . , b - supposons que pour un certain i {0, . . . , n 1}, on ait : LQ X i Alors, pour toute fonction f continue, EQ f X i+1
n n

= LQn Xi , , b
n

= EQ EQ f X i+1
n

Xi

= EQ n , b

i ,Xi ,f n n
n

= EQn n , b , b

i ,Xi ,f n n
n

= EQn EQn f X i+1 , b , b

Xi

= EQn f X i+1 , b En particulier,

F X [nT ] dQ =
n

F X [nT ] dQn , b
n

et
n n Q F Qn , b F .

(4) H Q Qn 0 , b0 = = log log dQ dQn 0 , b0 dQ log dQn , b dQn 0 , b0 dQn , b dQn 0 , b0 dQ dQ

dQ dQ + dQn , b log

= H Q Qn , b + Mais log = EQ
i=0 n1

dQn , b n dQ0 , b0
n1

n1

dQ =
i=0

n log q, b ; 0 , b0

i , X i , X i+1 n n n i , X i , dy n n i ,Xi n n

dQ

n log q, b ; 0 , b0

i ,Xi ,y n n
n1

n , b

=
i=0

EQ Qn , b

hn , b ; 0 , b0 Qn 0 , b0

i ,Xi n n

=
i=0

n En , b h, b ; 0 , b0

=H

112

IV. A propos dune mthode de calibration en nance

Do la formule :
n n n H Q Qn 0 , b0 = H Q Q, b + H Q, b Q0 , b0 .

n n (5) Comme Qn appartient F , il existe un couple (n , bn ) 0 B tel que Q vrie (IV.12). Daprs le point (4), n n n n + H Qn H Qn , b Q , b , b n Q0 , b0 = H Q Qn 0 0 n n n Pour conclure, il suft donc de montrer que Qn , b F . n n n Soit (Qp )p une suite dlments de F convergeant vers Qn . Chaque Qp est associe un couple (p , bp ) 0 B . Or, pour tout |j | k n,

bp et
2 p

k j , n n

= Fk, j (Qp )

k j , n n

= Gk, j (Qp ),

o les fonctions Fk, j et Gk, j sont dnies par (IV.16) et (IV.17). Ces fonctions tant continues, on a, pour tout |j | k n, bp et
2 p

k j , n n

b n
p+

k j , n n

k j , n n

2 (n ) p+

k j , n n

On en dduit aisment que Qn Qn , b . p , bp n n


p+

Daprs le point (3),


n n Qp F Qn p , bp F , n ce qui prouve que Qn , b est adhrent F . n n

IV.3. Principe conditionnel de Gibbs

113

Etude asymptotique Dans cette section on tudie, pour un bon choix de (n )n les valeurs dadhrence de Qn n n . 1 Convergence de H . Qn 0 , b0 . n Pour 0 , on pose :
1

I( |0 ) = E, b
0

2 q ( 2 (t, Xt ), 0 (t, Xt )) dt ,

avec q (x, y ) = log Proposition IV.21. 1. Si (n )n est une suite de rels positifs convergeant vers zro, alors pour toute suite bn Bn , et tout 0 , on a :
n H Qn , bn Q0 , b0 I( |0 ). n+ n

x y

x + log 2

2 x 2 y

x . 2

2. Si (n )n est une suite dlments de 0 convergeant vers 0 uniformment sur tout compact, alors, sous les mmes hypothses lim inf
n+ n H Qn n , bn Q0 , b0 I( |0 ). n

Dmonstration. 1. Montrons quil existe une constante K > 0, ne dpendant que de , min , max , b0 et s, telle que : k K 2 2 hn ,x (IV.22) , b ; 0 , b0 q ( , 0 ) n n
pour tout (k, x) {0, . . . , n 1} Z et (, b) 0 Bs . n En effet, pour tout (, b) 0 Bs :

log

mn (, b) 2 b b0 n m ( , b ) = log + log 1 + log 1 + 2 2 mn (0 , b0 ) 0 n 2 n0 2 b + 22 2 n

114

IV. A propos dune mthode de calibration en nance

log

dn (, b) 2 b b0 n d ( , b ) = log + log 1 2 log 1 2 2 n d (0 , b0 ) 0 n n0 2 b 2 2 2 n 2 2 2 2 0 2 2

rn (, b) log n rn (, b) = log r (0 , b0 )

Or, on voit sans peine, en crivant la formule de Taylor avec reste intgral lordre 2, que pour {1, 1}, y log 1 + nx y 1 + nx 2 y nx
2

sup
2 , 2 ] x[min max y [b0 s,b0 +s]

K , n n

avec K qui ne dpend que de , max , min , b0 et s. On en dduit (IV.22), aprs quelques calculs. Posons 1 = n
n n1

q 2
i=0

i ,Xi n n

2 , 0

i ,Xi n n

et
1

=
0

2 q ( 2 (t, Xt ), 0 (t, Xt )) dt.

2 2 La fonction q est continue borne sur [min , max ]2 . La suite (n )n est une suite de fonctions continues sur , uniformment bornes, convergeant simplement vers , qui est aussi continue borne sur . Montrons que la convergence de n vers est uniforme sur tout compact. La fonction q 2 2 , max ]2 ; nous noterons M une constante telle que est Lipschitzienne sur [min

|q (x, y ) q (x , y )| M (|x x | + |y y |). Nous noterons le module de continuit de 2 , ie (u) =


2 et 0 celui de 0 .

sup
|ts|+|y x|u

| 2 (s, x) 2 (t, y )|,

IV.3. Principe conditionnel de Gibbs

115

Avec ces notations, on a |n | =


i=0 n1
i n i+1 n i n

1 n

n1

q 2
i=0
i+1 n

i ,Xi n n

2 , 0

i ,Xi n n
2 , 0

2 q ( 2 (t, Xt ), 0 (t, Xt )) dt

n1

q 2 2

i ,Xi n n i ,Xi n n

i ,Xi n n

2 q ( 2 (t, Xt ), 0 (t, Xt )) dt

M
i=0

2 2 (t, Xt ) + 0

i ,Xi n n

2 (t, Xt ) dt 0

M M

sup
1 |st| n

2 (s, Xs ) 2 (t, Xt ) + sup


1 |st| n

2 2 0 (s, Xs ) 0 (t, Xt )

sup (|s t| + |Xs Xt |) + sup 0 (|s t| + |Xs Xt |)


1 |st| n 1 |st| n

1 + sup |Xs Xt | n |st| 1


n

+ 0

1 + sup |Xs Xt | n |st| 1


n

Daprs le thorme dAscoli, si A est un compact de , alors 0. sup sup |Xs Xt |


A |ts| 1 n+
n

On en dduit que sup |n ( ) ( )| 0.


A n+

On a, daprs (IV.22) : K 1 n n n H Qn , bn Q0 , b0 E, bn [ ] n n o K ne dpend que de , max , min , b0 et s. On en dduit facilement, en utilisant la convergence uniforme sur tout compact de la suite (n )n et la tension de la suite Qn , bn ( est polonais) que : 1 n H Qn , bn Q0 , b0 = I( |0 ). n n lim

116

IV. A propos dune mthode de calibration en nance

2. dQn n , bn dQn 0 , b0

1 1 n H Qn n , bn Q0 , b0 = n n = = 1 n

log log

dQn n , bn log dQn , bn dQn n , bn dQn 0 , b0 dQn n , bn

dQn 1 n , bn dQn n , bn + n dQ, bn n log

1 1 n H Qn n , bn Q, bn + n n 1 n log dQn , bn dQn 0 , b0 dQn n , bn

dQn , bn dQn 0 , b0

Daprs la proposition IV.20, 1 n en posant k n = log mn (, bn ) mn (n , bn ) + log mn (0 , b0 ) rn (, bn ) rn (n , bn ) rn (0 , b0 ) + log dn (, bn ) dn (n , bn ) dn (0 , b0 ) log dQn , bn dQn 0 , b0 dQn n , bn = En n , bn 1 n
n1

kn
i=0

i ,Xi n n

On voit facilement quil existe une constante K ne dpendant que de , min , max , b0 et s telle que pour tout R > 0, sup
|x|R, t[0,1]

|k n hn , bn ; 0 , b0 |(t, x) K

sup
|x|R, t[0,1]

|n |(t, x).

Comme Qn n , bn converge troitement vers Q, b , cest une suite tendue. On en dduit, en particulier, que pour tout > 0, il existe R > 0 tel que Qn n , bn sup |Xt | R
t[0,1]

1 .

Par suite, comme |k n | et hn , bn ; 0 , b0 sont bornes par M ne dpendant que de , min ,

IV.3. Principe conditionnel de Gibbs

117

max , b0 et s, on a En n , bn En n , bn K On en dduit que En n , bn 1 n


n1

1 n

n1

kn 1 n
i=0 n1

i ,Xi n n

En n , bn

1 n

n1

hn , bn ; 0 , b0
i=0

i ,Xi n n

n hn 1 I[0,R] ( sup |Xt |) + 2M (1 ) , bn ; 0 , b0 k i=0 t[0,1]

sup
|x|R, t[0,1]

|n |(t, x) + 2M (1 ).

kn
i=0

i ,Xi n n

En n , bn

1 n

n1

hn , bn ; 0 , b0
i=0

i ,Xi n n

0
n+

et le mme raisonnement quau point 1. montre que En n , bn 1 n


n1

hn , bn ; 0 , b0
i=0

i ,Xi n n

I( |0 ).
n+

Convergence des I-projections. Notons MF = Argmin I( |0 ), et supposons que MF 0 = . Soit MF 0 , on pose n = min F X [nT ] dQn , b0 1 + 1/n, s .
n

0 ,

F (XT ) dQ, b0 = 1

La suite (n )n est une suite de rels strictement positifs majors par s et convergeant vers zro.
Proposition IV.23. Supposons quil existe une suite (n )n dlments de 0 , prcompacte dans 0 (pour la topologie de la convergence uniforme sur tout compact) et une suite n n n (b , b . Alors les valeurs dadhrence de (Q )n n )n dlments de Bn telles que Qn = Qn n n sont de la forme Q , b0 , avec MF .

118

IV. A propos dune mthode de calibration en nance

Dmonstration.
Grce la prcompacit de la suite n , on voit facilement, daprs la proposition n IV.10, que la suite Qn n est prcompacte et que ses valeurs dadhrence sont de la forme Q , b0 , avec 0 tel que F (XT ) dQ , b0 = 1.

Prenons Q , b0 une valeur (n) . n+ n Comme Qn , b0 Fn , on a

dadhrence et : N N strictement croissante telle que

H Q (n) Q0 , b0 (n)

(n)

(n)

H Q , b0 Q0 , b0 (n)

(n)

(n)

Le membre de droite converge vers I( |0 ) et, daprs la proposition IV.21, H Q (n) Q0 , b0 (n)
(n) (n)

lim inf
n+

I( |0 ).

Donc I( |0 ) I( |0 ) et par consquent MF .

IV.3.4

Principe conditionnel de Gibbs (suite et n)

Un premier rsultat de convergence pour les arbres trinomiaux Nous pouvons prsent dmontrer la Proposition IV.24. Supposons que lensemble MF 0 = et posons n = min F X [nT ] dQn ,b0 1 + 1/n, s ,
n

o est un lment de MF 0 . Supposons de plus quil existe une suite (n )n dlments de 0 , prcompacte dans 0 (pour la topologie de la convergence uniforme sur tout n n compact) et une suite (b n )n dlments de Bn telles que la I-projection Qn de Q0 , b0 sur n scrive Qn = Qn F , b . Sous ces hypothses, il existe au moins une suite (mn )n denn n n n tiers, mn + telle que les valeurs dadhrence de la suite Rn n , mn n soient de

la forme Q , b0 , avec MF .

n+

IV.3. Principe conditionnel de Gibbs

119

Dmonstration. n n n Tout dabord, Qn , b0 Fn . Lensemble Fn tant non vide, Qn est bien dnie. Daprs la proposition IV.18,
Qn Rn n , n , m m+

dans P (n ). On voit facilement, en utilisant un thorme de prolongement des fonctions continues, que la convergence a lieu galement dans P (). Si dF M ( . , . ) dsigne la distance de Fortet-Mourier sur P (), il existe donc mn tel que
n dF M Rn 0. n , mn , Qn n+

n Par consquent Rn n , mn n et Qn n ont les mmes valeurs dadhrence dans P (). Daprs la proposition IV.23, celles-ci sont de la forme Q , b0 , avec MF .

Remarque IV.25. n Lhypothse selon laquelle les I-projections Qn , b , avec n scrivent sous la forme Qn n n une suite prcompacte de 0 est difcilement vriable. Une ide naturelle pour n lensemble 0 viter cette hypothse serait de remplacer dans la dnition de D par un sous-ensemble compact (pour la topologie de la convergence uniforme). Cela n nest plus convexe. En effet, en se reportant la conduit une autre difcult : D n preuve de la proposition IV.15, on voit que la proprit assurant la convexit de D est la suivante :
1 Si 1 , 2 0 et si pour tout t 0, n , . . . , 1 et tout x t, x [0, 1], alors il existe 0 telle que 2 2 2 (t, x) = t, x 1 (t, x) + (1 t, x )2 (t, x), 1 pour tout (t, x) 0, n ,...,1 k , n k , n

k [n, n] ,

(IV.26)

k = n . . . n .

Clairement, (IV.26) ne peut pas tre satisfaite par un sous-ensemble compact de 0 non rduit un point. n Avant de voir dans quelle mesure on peut se passer de la convexit de D , remarquons que celle-ci dcoule de la forme trs particulire des noyaux de transitions utiliss pour dnir les arbres trinomiaux (plus prcisment leur linarit par rapport ( 2 , b)). Si i n par exemple, Qn , b est un schma dEuler, , b n , x, . est une loi gaussienne. Une combinaison convexe de lois gaussiennes ntant plus gaussienne, on voit, en se ren portant la preuve de la proposition IV.15, que D nest plus convexe.

120

IV. A propos dune mthode de calibration en nance

Un second rsultat de convergence pour les arbres trinomiaux Nous ferons lhypothse suivante : MF = { }, avec 0 .

Pour tout 0 , dsignons par n, le module de continuit de sur le compact [0, 1] [ n, n], ie n, () = sup | (t, x) (s, y )| : s, t [0, 1], x, y n, n , |t s| + |x y | et posons 1 = { 0 : n N , n, < 2n, }. Daprs le thorme dAscoli, on voit facilement que 1 est prcompact pour la topologie de la convergence uniforme sur tout compact.
n Lensemble D, 1 est lensemble des probabilits Q sur vriant (1) Q(X0 = 0) = 1, k t k+1 = 1, (2) Q Xt = X k + (nt k ) X k+1 X k , n n n n n p p p = n (3 ) (, b) 1 B tels que Q X p+1 . X n , b n , X n , .
n

(IV.27)

Nous poserons
n n n F, 1 = E D, 1

(IV.28)

et Rn , m = E(Qn On a alors le thorme suivant Thorme IV.29. Si n = min vers Q , b0 .


n n Dmonstration. Lensemble D, 1 est ouvert ; en effet, on voit facilement que D, 1 est n lintersection de louvert D et de lensemble des probabilits Q P (n ) vriant pour tout |j | k n,
0 , b0

) m

n Lm Lm F, 1 .

F X [nT ] dQn , b0 1 + 1/n, s , alors il existe au


n

moins une suite (mn )n dentiers, mn + telle que la suite Rn n , mn


n+

converge

Gk, j (Q)

Gp, q (Q) < 2n,

k p j q + n n n n

IV.3. Principe conditionnel de Gibbs

121

n o les fonctions Gk, j sont dnies par (IV.17). On en dduit facilement que D, 1 est n n ouvert. Lensemble Fn , 1 est donc lui aussi ouvert dans P (n ) et contient Q , b0 . La fonction P (n ) R+ {+} : Q H Q Qn 0 , b0 tant convexe et partout nie n n (Q0 , b0 charge tous les points de n ), elle est continue (P (n ) est un simplexe de R3 ), et on a n n n H F Qn 0 , b0 = H Fn , 1 Q0 , b0 . n , 1

Daprs le point 2 de la proposition III.9, la suite Rn n , m m est bien dnie pour m assez grand et on a n 0, dF M Rn n , m , co MF
m+

Mn F

dsigne
n n n Q F : H Q Qn 0 , b0 = H Fn , 1 Q0 , b0 n , 1

Comme,
n n dF M Rn n , m , Q , b0 dF M Rn , m , co MF +

sup
Q co Mn F

dF M (Q, Q , b0 ) ,

il suft de montrer que sup


Q co Mn F

dF M (Q, Q , b0 ) 0.
n+

Lapplication Q dF M (Q, Q , b0 ) tant convexe et continue, on a sup


Q co Mn F

dF M (Q, Q , b0 ) = sup dF M (Q, Q , b0 ) .


Q Mn F

n Lensemble Mn Mn F tant compact, il existe Q F , tel que

Q Mn F

sup dF M (Q, Q , b0 ) = dF M (Qn , Q , b0 ) .

En raisonnant de la mme manire quau point (5) de la proposition IV.20, on voit quil existe (n , bn ) 1 Bn tel que Qn = Qn , b . n n En raisonnant comme dans la proposition IV.23, on voit que Qn Q , b0 .
n+

122

IV. A propos dune mthode de calibration en nance

Un rsultat gnral de convergence Plaons nous dans un cadre plus gnral et supposons donns un ensemble compact K de (pour la topologie de la convergence uniforme sur tout compact) avec 0 K et pour tout K et b B , une suite Qn , b n de P () vriant les hypothses suivantes : Hypothse IV.30. 1. Pour tout n N, K, b B , t [0, 1], il existe un noyau de transition n , b (t, x, . ) x de R dans R tel que (1) Qn , b (X0 = 0) = 1, k n (2) Q, b Xt = X k + (nt k ) X k+1 X k , n t k+1 = 1, n n n n k (3) Qn X k+1 . X k , . . . , X0 = n k, . , b , b n , X n n n (IV.31) 2. Si (n )n est une suite de rels strictement positifs de limite nulle, alors pour toute suite (n )n dlments de K convergeant vers K uniformment sur tout compact et toute suite bn Bn , la suite Qn n , bn n converge troitement vers Q, b . 3. Pour tout (, b) K B ,
n H Qn , b Q0 , b0 < +.

De plus, il existe une fonction q : R2 R+ continue et nulle sur la diagonale, telle quen posant
1

I( |0 ) = E
0

2 q ( 2 (Xt , t), 0 (t, Xt ))dt ,

on ait, pour toute suite (n )n de limite nulle et toute suite bn Bn , K,


n H Qn , bn Q0 , b0 I( |0 ), n+ n

(IV.32)

et pour toute suite (n )n dlments de K convergeant vers K uniformment sur tout compact, n H Qn n , bn Q0 , b0 lim inf I( |0 ). (IV.33) n+ n n 4. Lensemble D, K est lensemble des probabilits Q sur vriant (1) Q(X0 = 0) = 1, k t k+1 = 1, (2) Q Xt = X k + (nt k ) X k+1 X k , n n n n n p (3 ) (, b) K B tels que Q X p+1 . X p = n p , b n , X n , . n n (IV.34)

IV.3. Principe conditionnel de Gibbs

123

Nous poserons
n n n F, K = E D, K ,

(IV.35)

n dni, comme prcdemment, par (IV.11). avec E Nous supposerons que pour tout n, il existe un compact n de tel que pour tout n n , on ait pour toute Q D, K , Q (n ) = 1. Nous supposerons, de plus, que D, K est un ferm dintrieur non vide de P (n ). 5. Nous supposerons que la fonction I( |0 ) atteint son minimum en un unique point de { K : F (XT ) dQ, b0 = 1}. 1 et nous supposerons 6. Enn, nous poserons n = F X [nT ] dQn ,b0 1 + n n que n H F Qn 0 , b0 = H n, K n F Qn 0 , b0 , n, K

(IV.36)

n n o F dsigne lintrieur de F dans P (n ). n, K n, K

Sous ces hypothses, nous avons le rsultat suivant Thorme IV.37. Il existe au moins une suite (mn )n dentiers, mn + telle que
n+

la suite

Rn n , mn n

converge vers Q

, b0

Dmonstration. n n Notons Mn F lensemble des minimisants de H . Q0 , b0 sur Fn , K . Grce lhypothse (IV.36), on a daprs le point 2. du thorme III.9,
n dF M Rn 0. n , m , co MF m+

On voit, en raisonnant comme dans la preuve du thorme (IV.29), quil suft de montrer que sup dF M (Q, Q , b0 ) 0.
Q Mn F Q Mn F n+ n Soit Qn Mn F tel que sup dF M (Q, Q , b0 ) = dF M (Q , Q , b0 ) ; montrons que

Q On voit de la mme manire quau point (4) de la proposition IV.20 que n pour toute Q F , il existe (, b) K Bn tel que n, K n n n H Q Qn 0 , b0 = H Q Q, b + H Q, b Q0 , b0 et n n Q, b F n, K
et on en dduit, en particulier, quil existe (n , bn ) K Bn tel que Qn = Qn , b . En n n raisonnant comme dans la proposition IV.23, on voit que

n F . n, K

Qn Q , b0 .
n+

124

IV. A propos dune mthode de calibration en nance

CHAPITRE V

Principes conditionnels de type Gibbs pour des mesures poids alatoires

Sommaire
V.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 V.1.1 V.1.2 V.1.3 Mthodes danalyse convexe pour des problmes inverses mal poss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Une interprtation probabiliste de ces mthodes . . . . . . . . . 127 Le problme des contraintes nes . . . . . . . . . . . . . . . . 128

V.2 Minimisation sous contraintes des -divergences et procd M.E.M 129 V.3 Rsultats principaux . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 V.4 Ingalits de type transport . . . . . . . . . . . . . . . . . . . . . . . 135 V.4.1 V.4.2 Rsultats gnraux . . . . . . . . . . . . . . . . . . . . . . . . 135 Quelques majorations explicites . . . . . . . . . . . . . . . . . 140

V.5 Principe conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . 142 V.5.1 V.5.2 Majoration de la distance en variation entre lestimateur bayesien et lestimateur M.E.M. . . . . . . . . . . . . . . . . . . . . 142 Convergence des estimateurs bayesiens . . . . . . . . . . . . . 146

126

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

V.1
V.1.1

Introduction
Mthodes danalyse convexe pour des problmes inverses mal poss

Le problme didentier un modle rgissant un certain phnomne sur la base dobservations partielles se pose dans de trs nombreux domaines, comme la tomographie, lastronomie, ou encore la nance. Nous nous concentrerons dans la suite sur le problme inverse suivant appel Problme des moments : Retrouver une mesure nie P sur un espace mesurable (X , B ) satisfaisant F (x) dP (x) K
X

(V.1)

avec F = (f1 , . . . , fp ) une application mesurable valeurs dans Rk et K un convexe de Rk . Dans de nombreuses situations, on dispose dun modle de rfrence R sur (X , B ) quil sagit de modier pour quil satisfasse (V.1). An de slectionner un lment de S (F, K ) := P M(X ) :
X

F (x) dP (x) K ,

une mthode classique consiste minimiser une fonction de cot I ( . |R) convexe positive et nulle en R. Lune des mthodes les plus populaires est de minimiser lentropie relative par rapport R, ie de prendre I(P |R) = H ( P | R) ( condition que P et R soient des probabilits.). Dans les clbres articles [18, 19], I. Csiszr a donn des rsultats prcis sur la forme algbrique du minimisant (la I-projection de R sur S (F, K )) et dans [20], le mme auteur a fourni une justication axiomatique de cette mthode. Plus rcemment, J.M. Borwein et A.S. Lewis ont tudi dans [7, 8], la minimisation sous contraintes de fonctionnelles I ( . |R ) ayant la forme suivante : I (P |R ) =
X

dPa dR

dR + b Ps+ (X ) a Ps (X )

o R est une probabilit sur X , : R [0, +] est une fonction convexe, Pa est la partie absolument continue de P par rapport R, Ps sa partie singulire et Ps = Ps+ Ps est la dcomposition de Jordan de Ps (voir section V.2 pour la dnition de a et b ). Borwein et Lewis ont obtenu la reprsentation des minimisants de I ( . |R ) sur des ensembles de la forme S (F, K ) (voir [7, 8], [21] thm 2.2 et 2.4, et [43, 44] pour des extensions de ces rsultats). Lintrt des -divergences tient dans la possibilit dimposer, par un bon choix de , des contraintes non-linaires supplmentaires la densit de la solution (voir [21] pour plus dinformations sur le sujet).

V.1. Introduction

127

V.1.2

Une interprtation probabiliste de ces mthodes

La thorie des grandes dviations fournit une belle interprtation de la mthode de minimisation de lentropie relative, via le thorme de Sanov et le principe conditionnel de Gibbs : si Xi est une suite i.i.d de loi R, alors pour de bons ensembles convexes C n 1 de P (X ), la loi conditionnelle X1 sachant que Ln = n i=1 Xi appartient C converge troitement vers la I-projection R de R sur C . Autrement dit : Si lon force la mesure empirique de (X1 , X2 , . . . , Xn ) appartenir C , la loi de X1 est modie de telle manire quelle converge vers la I-projection R de R sur C . Dans [36], F. Gamboa et E. Gassiat ont tabli quune grande classe de -divergences vrient des proprits analogues : elles gouvernent les grandes dviations dune suite de mesures alatoires, et pour ce P.G.D, un principe conditionnel de type Gibbs est valable. Avant dexposer leurs rsultats, introduisons quelques notations : Pour toute mesure de probabilit sur Rq , nous noterons Z , et la transforme de Laplace, la Log-Laplace et la transforme de Cramr de , dnies respectivement par : s Rq , s Rq , t Rq , Z (s) = exp s, x d (x) R+ {+}

(s) = log(Z )(s) R {+} + (t) = sup { s, t (s)} R {+}


s Rn

Rappelons que le domaine dune fonction convexe f : V R {+}, not dom f est lensemble dni par : dom f = {x V : f (x) < +}. Thorme V.2. (Gamboa, Gassiat, [36] thm 3.4) Soient X un espace mtrique compact, R une probabilit sur X dont le support est lesn 1 xn converge pace X tout entier et (xn ) une famille de points de X telle que n i 1i n i=1 i nN troitement vers R. Soit une mesure de probabilit sur R telle que dom Z =] , [, avec , > 0. Si (Zi )i est une suite i.i.d de loi , alors la suite (Ln )n de mesures poids alatoires dnie par n 1 Zi xn Ln = i n i=1 satisfait un principe de grandes dviations sur M(X ), muni de la topologie de la convergence troite, de bonne fonction de taux : I (P |R ) =
X

dPa dR

dR + Ps (X ) + Ps+ (X ).

128

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

(voir galement [26] thm 7.2.3, [32] et [50] pour un rsultat plus gnral.) De plus, en supposant que P(Ln S (F, K )) > 0 pour tout n assez grand et en posant E[Ln 1 IS (F,K ) (Ln )] , P(Ln S (F, K )) ils ont montr, sous certaines hypothses sur lesquelles nous reviendrons plus tard, que Rn convergeait vers R , lunique minimisant de I ( . |R ) sur S (F, K ) (voir [36] et le thorme V.15 pour une formulation plus prcise). Rn = E[Ln |Ln S (F, K )] := Remarque V.3. Ce principe conditionnel de type Gibbs donne un sens bayesien la minimisation de -divergences : R est un modle a priori, ne satisfaisant pas la contrainte X F dR K . On va modier R de la manire suivante : on commence par discrtiser R en se donnant une n 1 n xn converge troitement vers famille (xi )1in de points de X telle que Ln = n i=1 i nN R (xn i est par exemple une suite de ralisations indpendantes de R), puis on reponn 1 dre Ln de manire alatoire : Ln = Zi xn . i n i=1 La suite Rn = E[Ln |Ln S (F, K )], qui est la moyenne de toutes les ralisations de Ln satisfaisant X F dLn K , converge alors vers le minimisant de la -divergence I ( . |R ) sur S (F, K ).

V.1.3

Le problme des contraintes nes

Comme pour le principe conditionnel de Gibbs, se pose le problme de donner un sens Rn = E[Ln |Ln S (F, K )], lorsque P(Ln S (F, K )) = 0 et quand on ne dispose pas dune dsintgration explicite. Pour autoriser ce genre de conditionnement, nous allons reprendre la mme ide que celle dveloppe dans le chapitre III, savoir : relaxer la contrainte en prenant un n -voisinage de K , avec une suite (n )n convergeant sufsamment lentement vers 0 pour garantir que P(Ln S (F, K n )) > 0, pour tout n N . Nous prouverons dans le thorme V.16 que, sous certaines hypothses,
n+

lim E[Ln |Ln S (F, K n )] = R ,

(V.4)

avec n

1 n

V.2. Minimisation sous contraintes des -divergences et procd M.E.M

129

La preuve de ce rsultat est, dans ses grandes lignes, analogue celle du thorme III.61 du chapitre prcdent. La principale nouveaut est la proposition V.26 qui va jouer le rle du thorme III.37 de Csiszr. La preuve de cette proposition sinspire des travaux de Bobkov et Gtze sur lingalit de transport T1 . Nous reviendrons en dtails sur ce sujet dans la seconde partie de cette thse consacre aux ingalits de transport.

V.2

Minimisation sous contraintes des -divergences et procd M.E.M

Cette section est consacre la minimisation sous contraintes des -divergences. Nous prsenterons des rsultats de Borwein et Lewis (thorme V.6) et lapproche de la Minimisation de lEntropie en Moyenne (M.E.M.) (thorme V.8) de Gamboa et Gassiat. Nous ferons les hypothses suivantes : Hypothse V.5. 1. X est un espace mtrique compact ; lensemble M(X ) des mesures de Borel nies sur X est muni de la topologie de la convergence troite, ie la moins ne rendant continues les applications P P, f , f continue sur X , 2. R est une mesure de probabilit sur X dont le support est lespace X tout entier, 3. F = (f1 , . . . , fk ) : X Rk est une application continue sur X ayant des composantes linairement indpendantes, 4. K est un convexe compact de Rk . Rappelons que S (F, K ) = P M(X ) :
X

F dP K

Thorme V.6. (Borwein-Lewis, [8]) Soit : R [0, +] une fonction convexe s.c.i et notons a < b les extrmits de

dom . On suppose que est derivable, strictement convexe sur dom et sannule en un

point de dom . Soit la conjugue convexe de , ie (s) = (s) = sup{st (t)}.


tR

Notons a < 0 < b les extrmits de dom .

130

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

Supposons quil existe S S (F, K ) telle que S

R et

dS dR

]a , b [

R ps.

Sous ces hypothses, la fonctionnelle I ( . |R ), dnie sur M(X ) par I (P |R ) =


X

dPa dR

dR + b Ps+ (X ) a Ps (X )

atteint son minimum sur S (F, K ). De plus, tout minimisant R de I ( . |R ) sur S (F, K ) est de la forme : R = g R + , o g (x) = v , F (x) , v est lunique minimisant de la fonction H (v ) =
X

v, F (x) dR(x) inf v, y ,


y K

est singulire par rapport R. De plus, si v appartient lintrieur de v : X v, F (x) dR(x) < + , alors lunique minimisant de I ( . |R ) sur S (F, K ) est R = g R. Cest en particulier le cas lorsque dom = R. (Pour une preuve, voir [8], ou lappendice A de [21] ; voir CL pour une extension). Le thorme suivant prsente le procd de Minimisation de lEntropie sur la Moyenne (M.E.M) dvelopp dans [22, 34, 35, 36] par D. Dacunha-Castelle, F. Gamboa et E. Gassiat, qui donne un autre point de vue sur la minimisation des -divergences. Nous ferons les hypothses suivantes : Hypothse V.7. 1. est probabilit sur R telle que dom =] , [, avec , R + {+}, 1 2. X est une famille de points de X telle que n ment vers R, (xn n i )1i nN
n

xn converge troitei
i=1

3. Il existe g0 : X ]a , b [ continue, telle que g0 R S (F, K ), o a < b sont les extrmits de lenveloppe convexe ferme du support de , 4. La fonction H , dnie sur Rk par H (v ) =
X

v, F (x) dR(x) inf v, y ,


y K

atteint son minimum en un unique point v appartenant lintrieur de son domaine.

V.2. Minimisation sous contraintes des -divergences et procd M.E.M

131

Nous regroupons dans le thorme suivant diffrents rsultats prouvs dans [35] et [36], avec un petit rafnement aux points 4 et 5 : Thorme V.8. (Gamboa-Gassiat [36], thm. 2.1) 1 Pour tout n N , soit Ln : R M(X ) dnie par Ln (z ) = n
n n

zi xn . i
i=1

Pour tout 0, soit K = {x Rk : y K, d (x, y ) }, o d (x, y ) = max(|xi yi |, i = 1 . . . k ). Pour tout n 1 et 0, soit n (K ) = { P (Rn ) : E [ Ln , F ] K } Alors, sous les hypothses (V.5) et (V.7), on a : 1. Il existe n0 1 tel que pour tout 0, n admet une I-projection n, sur n (K ). 2. Pour n n0 , n, a lexpression suivante :
exp wn, , . ) Zn (wn,

n, =

avec

wn,

n vn, , F (x1 ) . . = . n vn, , F (xn )

k et vn, est un minimisant de la fonction Hn, dnie sur R par

Hn, (v ) = 3. Pour tout n n0 , on a :


Rn,

1 n

v, F (xn i ) inf v, y .
i=1 y K

1 := E [L n ] = n, n

n n vn, . , F (xi ) xn i i=1

4. Pour toute suite n R+ convergeant vers 0, vn, n converge vers v (lunique minimisant de H )

5. Pour toute suite n R+ convergeant vers 0, la suite Rn, n converge troitement vers R , lunique minimisant de I ( . |R ) sur S (F, K ), qui scrit

R = v , F ( . ) R. (On trouvera une preuve de ce thorme dans lannexe B.)

132

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

Remarque V.9. On notera plus simplement n , Rn , vn , etc la place de n, 0 , Rn, 0 , vn, 0 , etc Les Rn, seront appels les estimateurs M.E.M.. Si dom = R, lhypothse (4) de (V.7) est automatiquement satisfaite . Si lhypothse (4) de (V.7) nest pas satisfaite, les estimateurs M.E.M. ne convergent pas en gnral, (voir [36] thm 2.1 pour des rsultats sur les points daccumulation). La proposition suivante permet de mieux comprendre les estimateurs M.E.M :
n 1 n Proposition V.10. On suppose que dom = R, et on pose Rn = n i=1 xi . Soit S un ensemble convexe de P (X ). Les deux propositions suivantes sont quivalentes :

1. La fonction I ( . |Rn ), dnie sur M(X ) par I (P |Rn ) :=


X . atteint son minimum sur S en un point Rn

dP dRn

dRn ,

2. La mesure de probabilit n admet une I-projection n sur le convexe n = { P (Rn ) : E [Ln ] S} .


est unique et on a la relation : Dans ces conditions, Rn = E [L n ]. Rn n

Remarque V.11. En revenant aux notations et aux hypothses du thorme V.8 et en supposant en plus que dom = R, on en dduit en particulier que pour tout > 0, la mesure Rn, est lunique minimisant de la fonction I (P |Rn ) :=
X

dP dRn

dRn ,

sous la contrainte P S (F, K ). Dmonstration. Remarquons, tout dabord, que I (P |Rn ) < + De plus, pour tout z Rn , on a I Ln (z ) Rn 1 = n
n

z R ,

1 P = n

zi xn := Ln (z ) . i
i=1

(zi ) =
i=1

1 n (z ). n

(V.12)

V.2. Minimisation sous contraintes des -divergences et procd M.E.M

133

Comme dom = R, on a lidentit classique suivante


n : P (Rn ) telle que n (z ) = inf H

x d = z ,

(V.13)

et pour tout z dom n , linf est atteint. (Voir, par exemple, le thorme 5.2 de [28] ; on peut aussi appliquer la version II.21 du thorme de Sanov pour une suite i.i.d de loi n , avec G contenant la fonction identit de Rn , et conclure grce au principe de contraction et au corollaire II.36.) n Ainsi, pour tout z dom n , il existe un unique z P (R ) tel que I Ln (z ) Rn = et y dz (y ) = z Rn
1 n

H ( z | n )

Clairement, si z S , alors z n . On en dduit, en particulier, que inf {I (P |Rn ) : P S} 1 H n n . n (V.14)

Montrons que 2. implique 1. : n sur n ; daprs (V.12) et (V.13), on a Soit n la I-projection de I E [Ln ] Rn = n 1 n n y d n (y ) 1 1 n = H n n . H n n n

Rn

Daprs (V.14), on en dduit que I ( . |Rn ) atteint son minimum sur S au point Rn = E [Ln ]. n Montrons que 1. implique 2. : Soit z Rn tel que inf {I (P |Rn ) : P S} = I (Ln (z )|Rn ) = Si n , alors 1 1 H z n I (E [Ln ]|Rn ) H n . n n La probabilit z est donc la I-projection de n sur n et on a Ln (z ) = E [Ln ]. n 1 H z n . n

134

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

V.3

Rsultats principaux

Le rsultat que nous voulons tendre est le suivant : Thorme V.15. (Gamboa-Gassiat, [36] thm 2.3) Sous les hypothses (V.5) et (V.7), si K est dintrieur non vide alors lestimateur bayesien Rn := En [Ln 1 IS (F,K ) (Ln )] n (Ln S (F, K ))

est bien dni pour tout n sufsamment grand et converge troitement vers R , lunique minimisant de I ( . |R ) sur S (F, K ). Notre rsultat principal est le suivant : Thorme V.16. Sous les hypothses (V.5) et (V.7), si n est suite de rels strictement positifs convergeant vers 0 et telle que lim n2 n = +, alors lestimateur bayesien
n+

Rn, n :=

En [Ln 1 IS (F,K n ) (Ln )] n (Ln S (F, K n ))

est bien dni pour tout n assez grand et converge troitement vers R , lunique minimisant de I ( . |R ) sur S (F, K ). Introduisons des notations supplmentaires : Pour tout u dom Z , u est la mesure de probabilit sur R dnie par : du exp ux (x) = , d Z (u)
n et pour tout n 2 et tout u dom Z , n u = u1 un

Q dsigne lensemble des fonctions continues, concaves, croissantes, nulles en 0 et non bornes dnies sur R+ . La preuve du thorme V.16 repose sur la proposition suivante dont la dmonstration est trs proche de celle du thorme de Bobkov et Gtze sur lingalit de transport T1 (voir [4] thm 3.1) : Proposition V.17. Pour tout segment J ] , [ , il existe une fonction QJ Q telle que, pour tout u J et P (R) : x d (x)
R R

x du (x) QJ (H ( | u )).

V.4. Ingalits de type transport

135

Remarque V.18. Si est telle que, pour tout s R, (s) M (par exemple, si a un support compact ou si est une mesure gaussienne ), on peut prendre QJ (x) = 2M x. Dans ce cas, lingalit prcdente nest quun cas particulier de lingalit de transport T1 (voir [4], thorme 3.1). Dautres exemples explicites seront donns dans la section V.4.2. Nous reviendrons plus en dtail sur ce type dingalits dans la seconde partie de cette thse. En utilisant notamment les ingalits de Csiszr (II.4) et (II.26), nous dduirons de ce rsultat une majoration de la norme en variation entre Rn, n et Rn, n de la forme suivante :
Rn, n Rn, n VT

1 n log n ( Ln , F K n )eH( n, n | ) n

(V.19)

o Q Q ne dpend pas de n (voir proposition V.26). Cette ingalit est lanalogue du thorme III.37 de Csiszr. Comme, daprs le thorme V.8, Rn, n converge vers R , il sufra de montrer que le membre de droite de (V.19) tend vers 0, pour montrer que Rn, n converge galement vers R . Le contrle du membre de droite de (V.19) se fera par des moyens analogues ceux mis en oeuvre dans la preuve du thorme III.61 du chapitre III : une borne infrieure exacte de dviation (lemme V.27) et une ingalit de type Bernstein (lemme V.25).

V.4
V.4.1

Ingalits de type transport


Rsultats gnraux

Nous aurons besoin du lemme suivant : Lemme V.20. Si k : [0, r[ R+ , r R + {+} est telle que limt0 k (t) = 0 et limtr k (t) = +, alors la fonction Q dnie par a R+ , appartient Q. Dmonstration. a a - Pour tout a 0, t +k (t) est une fonction positive donc Q(a) = inf + k (t) R+ 0 <t<r t t et Q est bien dnie sur R+ . De plus, Q(0) = inf {k (t)} ; or lim k (t) = 0, donc Q(0) = 0.
0<t<r t0

Q(a) = inf

t]0,r [

a + k (t) t

- Q tant un inmum de fonctions afnes, elle est concave.

136

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

- Si 0 a a < r, alors, pour tout 0 < t < r, on a a a + k (t) + k (t). t t En passant linmum, on obtient Q(a) Q(a ) et on en dduit que Q est croissante. an + k (t) et n+ t donc lim sup Q(an ) k (t). Comme inf k (t) = 0, il sensuit que lim sup Q(an ) = 0 et Q - Soit (an )n telle que an 0 ; pour tout 0 < t < r, on a Q(an )
n+ 0<t<r n+

est donc continue en 0. - Enn soit (an )n telle que an + ; montrons que Q(an ) +. Q tant
n+ n+

an croissante, il suft de prouver que Q(an ) nest pas borne. Pour tout n, t + k (t) est t une fonction admettant + comme limite en 0 et en r, il existe donc tn tel que Q(an ) = Par consquent, lim sup Q(an ) lim sup
n+ n+

an + k (tn ). tn an lim sup k (tn ). tn n+

Si (tn )n est borne, lim sup


n+

an = + tn

et si (tn )n ne lest pas (r = +), lim sup k (tn ) = +.


n+

Dans tous les cas, Q(an ) nest pas borne. Ainsi Q est un lment de Q. Dmonstration de la proposition V.17 : Pour tout u ] , [, Zu (t) =
R

exp(tx)

exp(ux) Z (u + t) d(x) = Z (u) Z (u)

donc dom Zu =] u, u[. Soit t ] u, u[, t


R

x d (x)
R

x du (x) =
R

gt (x) d (x) + log


R

et(x

R
R

y du (y ))

du (x) ,

V.4. Ingalits de type transport

137

en posant gt (x) = t x
R

y du (y ) log
R

et(x

R
R

y du (y ))

du (x) .

Clairement, exp gt du = 1.
R

Or, daprs la formulation variationnelle de lentropie relative, on a H ( | u ) = sup


R

g d :
R

exp g du 1 .

Par consquent, gt d H ( | u ) .
R

De plus, en remarquant que (u) = log


R

y du (y ), on voit facilement que

et(x

R
R

y du (y ))

du (x) = (t + u) (u) t (u) := q (t, u).

Ainsi, pour tout t ]0, u[, x d (x)


R R

x du (x)

H ( | u ) q (t, u) + t t

et, pour t ]0, + u[, x du (x)


R R

x d (x)

H ( | u ) q (t, u) + . t t

La fonction tant convexe, q est positive. Si J = [a, b], posons r = min( + a, b) R + {+} ; alors, pour tout 0 < t < r , on peut crire x d (x)
R R

x du (x)

H ( | u ) q (t, u) + q (t, u) + t2 + . t t

Posons k (t) = Alors, pour tout u J ,

maxuJ (q (t, u) + q (t, u)) + t2 . t H ( | u ) + k (t). t

x d (x)
R R

x du (x)

138

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

En passant linmum pour 0 < t < r, on obtient x d (x)


R R

x du (x) QJ (H ( | u )),

a + k (t) . 0<t<r t Montrons que k vrie les hypothses du lemme 4.1 : QJ (a) = inf Si r = +, k (t) t donc lim k (t) = +.
t+

avec

Si r = + a < +, alors k (t)


t+a

q (t, a) (a t) (a) = + (a). t t


t+a

Comme lim (a t) = +, on a lim k (t) = +. Si r = b < +, on voit de mme que lim k (t) = +.
t b

Donc, dans tous les cas, lim k (t) = +.


tr

Montrons que lim k (t) = 0. t0 Soit 0 < tn < r telle que tn 0 ; pour tout n, il existe un J tel que
n+

k (tn ) =

q (tn , un ) + q (tn , un ) + tn tn

Supposons que pour tout n, k (tn ) > 0. La suite (un )n tant borne, il existe tel que u(n) u0 K . Or, daprs la formule de Taylor-Lagrange, tant positive, on a
n+

q (t(n) , u(n) ) + q (t(n) , u(n) ) t2 (n) sup (u), u [u(n) t(n) , u(n) + t(n) ] Donc k (t(n) ) 0. Contradiction, donc lim k (t) = 0 et QJ Q.
n+ t0

Corollaire V.21. Pour tout segment J inclus dans ] , [ et tout u J n , on a pour toute P (Rn ) 1 n en posant
n u = u 1 u n

x d (x)
Rn Rn

n x d u (x) 1

QJ

n H ( | u ) n

et x
1

=
i=1

|xi |.

V.4. Ingalits de type transport

139

Dmonstration. Nous noterons i , la ime marginale de . On a 1 n x d (x)


Rn Rn n x d u (x) 1

1 = n = 1 n

xi d (x)
i=1 n Rn Rn

n xi d u (x)

x di (x)
i=1 R R

x dui (x) .

Comme pour tout i {1, . . . , n}, ui J , on a, daprs la proposition V.17, x di (x)


R R

x dui (x) QJ (H ( i | ui )).

Donc 1 n x d (x)
Rn Rn n x d u (x) 1

1 n

QJ (H ( i | ui )).
i=1

La fonction QJ tant concave, on a, daprs lingalit de Jensen, 1 n x d (x)


Rn Rn n x d u (x) 1

QJ

n i=1

H ( i | ui ) n

Daprs la formule de dcomposition entropique (II.4),


n n H = H ( | 1 n ) + u i=1

H ( i | ui ) .

En particulier,
n n H ( i | ui ) H . u i=1

La fonction QJ tant croissante, on en dduit que 1 n x d (x)


Rn Rn n x d u (x) 1

QJ

n H ( | u ) n

140

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

V.4.2

Quelques majorations explicites

Nous donnons dans cette section quelques majorations lmentaires de la fonction Q intervenant dans la proposition V.17. Proposition V.22. Si est telle que, pour tout u R, (u) M , alors on a pour toute P (R) et tout u R : x d (x)
R R

x du (x)

2M H ( | u )

Dmonstration. Daprs la formule de Taylor-Lagrange, pour tout u, t R, il existe a tel que 2 q (t, u) = (u + t) (u) t (u) = t2 (a). 2M ; en reprenant la preuve de la proposition V.17, on voit que lon peut Donc q (t, u) t 2 tM prendre k (t) = 2 . Un simple calcul donne alors : Q(x) = 2M x. Exemples : - est support inclus dans [a, b] Le support de u est galement inclus dans [a, b] et (u) = Var(u ) (b a)2 . Dans ce cas, on peut donc prendre Q(x) = (b a) 2x. - = Z 1 eU dx, avec U c > 0 : La probabilit satisfait alors une ingalit de Poincar de constante ment optimale), ie 1 (f )2 (x) d(x). Var (f ) c R
U +ux

1 c

(pas ncessaire-

Or u = e dx et V = U (x) + ux vrie galement V c > 0, donc u vrie ZZ (u) galement une ingalit de Poincar avec la mme constante. En particulier, en prenant f (x) = x, on obtient 1 (u) = Var(u ) = Varu (x) . c Dans ce cas, on peut donc prendre Q(x) =
2x . c

Le lemme suivant va nous permettre, dans certains cas, de majorer la fonction Q par une fonction continue, croissante, positive, nulle en 0, mais non concave en gnral. Lemme V.23. Soit k : [0, +[ R+ une fonction de classe C 2 telle que k (0) = k (0) = 0 et k c > 0. t Posons (t) = 0 uk (u)du = tk (t) k (t). Alors

V.4. Ingalits de type transport

141

1. Pour tout a R+ , Q(a) = inf a k (t) + t t


2a c

= k (1 (a))

2. De plus, pour tout a R+ , Q(a) k Dmonstration. 1) Pour tout a > 0, ga : t

a k (t) + admet + comme limite en 0 et t t + ; ga atteint donc son minimum en un point ta tel que ga (ta ) = 0, cest--dire tel que (ta ) = a. La fonction tant strictement croissante, on a ta = 1 (a) et ceci reste vrai pour a = 0. De plus, Q(a) = 2) a =
ta 0

k (ta ) k (ta )ta k (ta ) k (ta ) a + = + = k (ta ) = k (1 (a)). ta ta ta ta


ta 0
a cudu = c t2 . Donc ta 2

uk (u)du

2a c

et k tant croissante, on a .

Q(a) = k (ta ) k

2a c

Exemples : - est la loi de Poisson de paramtre > 0 On a (u) = (eu 1) et (u + t) + (u t) 2 (u) = 2eu [cosh(t) 1]. Soit M > 0 ; en posant k (t) = 2eM [cosh(t) 1], on a en reprenant la preuve de la proposition V.17, pour tout u [M, M ] et toute P (R) x d (x)
R R k(t) t

x du (x) QM (H ( | u )),

avec QM (a) = inf

De plus k (t) = 2e sinh(t) et k (t) = 2eM cosh(t) 2eM , donc, daprs le lemme prcdent, eM a QM (a) 2eM sinh . Ainsi, pour tout u [M, M ] et toute P (R), x d (x)
R R

a t M

x du (x) 2eM sinh

eM H ( | u )

142

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

- est la loi exponentielle de paramtre En adaptant lgrement la preuve du lemme prcdent, on obtient : Pour tout u b < et toute P (R) telle que H ( | u ) < 1, x d (x)
R R

x du (x)

H ( | u ) 2 b 1 H ( | u )

V.5
V.5.1

Principe conditionnel
Majoration de la distance en variation entre lestimateur bayesien et lestimateur M.E.M.

Daprs le thorme V.8, il existe n0 tel que, pour tout n n0 et tout 0, la probabilit n, est bien dnie et scrit n . n, = wn, Lemme V.24. Pour toute suite n de rels positifs convergeant vers 0, il existe m n0 et un segment J ] , [ tel que n m,
n wn, n J

et

x X ,

v , F (x) J

Dmonstration. Daprs le point (2) du thorme V.8, F (xn 1 ), vn, n . . wn, . . n = n F (xn ), vn, n La fonction F tant continue sur le compact X , il existe N > 0 tel que F (x) N pour tout x X . Pour tout i {1, . . . , n}, on a, daprs lingalit de Cauchy-Schwarz,
n F (xn i ), vn, n F (xi ), v N vn, n v

et donc
xX inf v , F (x) N vn, wn, n v n i sup v , F (x) + N vn, . n v xX

Daprs lhypothse (4) de (V.7), v dom H . On voit facilement que dom H = v Rk : x X , quad v, F (x) ] , [ . Grce la compacit de X , on a < inf v , F (x) sup v , F (x) < .
xX xX Daprs le point (5) du thorme V.8, vn, n converge vers v ; le rsultat en dcoule facilement.

V.5. Principe conditionnel

143

Lemme V.25. Il existe M > 0 et n1 n0 tels que pour tout > 0 et n n1 ,


n ( Ln , F K ) 1 2k exp

n2 2M (2M + )

(o k est la dimension de fonction F = (f1 , . . . , fk ).) Dmonstration. Premire tape : Montrons que pour tout segment J ] , [, il existe M > 0 tel que, pour tout u J et j 2,
j

z
R R

x du (x) du (z ) j !M j .
R

En notant (x) = e|x| 1 |x| et I (u, M ) = facilement que


u J

xdu (x) M

du (z ), on voit

sup(I (u, M )) 0.
M +

Par consquent, il existe M > 0 tel que sup(I (u, M )) 1.


u J

Or,
+

I (u, M ) =
j =2

x du (x) du (z ) , M j j!

donc, pour tout u J et j 2, on a


R

x du (x) du (z ) I (u, M ) 1. M j j!

Deuxime tape : Montrons que pour tout segment J ] , [ et tout N > 0, il existe M > 0 tel que, pour toute suite Z1 , . . . , Zn de variables alatoires indpendantes avec L(Zi ) = ui , ui J et toute suite 1 , . . . n R telle que |i | N , on ait : P Z m > 2 exp
n

n2 2M (2M + )

1 i Zi et m = E Z . n i=1 Daprs la premire tape, il existe M0 > 0 ne dpendant que de J tel que pour tout i, on ait j j 2, E |Zi E [Zi ]|j j !M0 . o Z =

144

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

On en dduit que pour tout i, j 2, E |i (Zi E [Zi ])|j j !(M0 N )j .

En prenant M = M0 N , le rsultat dcoule de lingalit (III.64) du corollaire III.63. Troisime tape : A prsent, montrons le lemme. Soit cn = (cn, 1 , . . . , cn, k ) := E [ Ln , F ] K . n Alors,
n ( L n , F K ) n ( L n , F c n ) = 1 n ( Ln , F c n > ) k

1
p=1

1 z: n

zi fp (xn i ) cn,p >


i=1

Les fonctions fp tant continues sur le compact X , il existe N > 0 tel que |fp (x)| N pour tout p et x X . De plus, daprs le lemme V.24 appliqu la suite n = 0, il existe n1 n0 et un segment J ] , [ tel que, pour tout n n1 , wn J n . Ainsi, daprs la deuxime tape, on peut conclure quil existe M > 0 tel que, pour tout > 0 et tout n n1 , on ait 0,
n ( Ln , F K ) 1 2k exp

n2 . 2M (2M + )

Nous pouvons maintenant prouver la Proposition V.26. Si n est une suite de rels strictement positifs de limite nulle telle que lim n2 n = +, alors
n+ 1. Il existe n2 n0 tel que, pour tout n n2 , Rn, n et Rn, n sont bien dnies.

2. Il existe Q Q telle que, pour tout n n2 ,


Rn, n Rn, n VT

1 n log n ( Ln , F K n )eH( n, n | ) n

Dmonstration. (1) Pour n n0 , n et n, n sont bien dnies. De plus, daprs le lemme V.25, il existe n1 n0 et M > 0 tels que, pour tout n n1 ,
n n ( Ln , F K ) 1 2k exp

n2 n . 2M (2M + n )

V.5. Principe conditionnel

145

n Comme n2 +, il est clair que 1. En particulier, n n ( Ln , F K ) n+ n+ n n il existe m1 n1 tel que, pour tout n m1 , est n ( Ln , F K ) > 0. Comme n n quivalente n , on en dduit que pour tout n m1 , ( Ln , F K ) > 0 et en particulier, Rn, n est bien dnie.

(2) Daprs le lemme V.24, il existe un segment J ] , [ et m2 n0 tels que, n n pour tout n m2 , wn, n J . Soit n, n P (R ) dnie par n, n = 1 IS (F,K n ) (Ln ) . n (Ln S (F, K n )) H n, n n, n n

Daprs le corollaire V.21, on a pour tout n n2 = max(m1 , m2 ), en posant Q = QJ 1 n Mais Rn, n


Rn, n V T

x dn, n (x)
Rn Rn

x d n, n (x)
1

1 = n = 1 n 1 n

zi dn, n (dz )
i=1 n Rn Rn Rn

zi d n, n (dz ) xn i
VT

zi dn, n (dz )
i=1 Rn

zi d n, n (dz ) .
1

x dn, n (x)
Rn Rn

x d n, n (x)

Donc, pour tout n n2 , Rn, n Or, on voit facilement que n, n n (K n ). En appliquant lingalit (II.26) de Csiszr, on a
n . H n, n n H n, n n, n + H n, n Rn, n V T

H n, n n, n n

De plus, un simple calcul montre que H n, n n = log n ( Ln , F K n ) et donc


n n H n, n ( Ln , F K n )eH( n, n | ) . n, n log

La fonction Q tant croissante, on obtient, pour tout n n2 ,


Rn, n Rn, n VT

1 n log n ( Ln , F K n )eH( n, n | ) n

146

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

V.5.2

Convergence des estimateurs bayesiens

Nous aurons besoin du lemme suivant, trs similaire la proposition III.44 :


Lemme V.27. Ds que n ( Ln , F K ) > 0, on a n H ( ) 1 1 n n| log n ( Ln , F K )eH( n | ) 1 n n n ( L n , F K ) 1 1 1 + log [ n ( Ln , F K )] n ne n ( Ln , F K )

Dmonstration. La probabilit n tant quivalente n , on a


n ( Ln , F K ) > 0. n ( Ln , F K ) > 0

On a 1 1 log n ( Ln , F K ) = log 1 IK ( Ln , F ) dn n n Rn dn 1 1 IK ( Ln , F ) d = log n n dn Rn dn 1 I K ( Ln , F ) 1 1 d log [ = log n + n ( Ln , F K )] . n d ( L , F K ) n n n R n n 1 I K ( Ln , F ) , on obtient ) n ( L , F K n n dn 1 I K ( Ln , F ) d . dn n ( Ln , F K ) n

En appliquant lingalit de Jensen avec la probabilit 1 log n dn 1 I K ( Ln , F ) 1 d n n Rn dn n ( Ln , F K ) 1 n log


Rn

log
Rn

De plus, en posant In = In =

dn d n

n(

1 I K ( Ln , F ) d , on a Ln , F K ) n

I ( K )c ( L n , F ) 1 dn dn 1 1 log log d d n nn ( Ln , F K ) Rn dn n Rn dn n ( Ln , F K ) n n 1 I (K )c ( L n , F ) H ( ) 1 d d n | n n = + log dn . ) nn ( Ln , F K ) n Rn dn dn ( L , F K n n

Mais la fonction x x log(x) tant minore par 1 , on a e 1 n log


Rn

d n d n

1 I (K )c ( L n , F ) d n ( L n , F / K ) n n d dn ne n ( Ln , F K ) n ( Ln , F K ) 1 . ne n ( Ln , F K )

V.5. Principe conditionnel

147

Ainsi,
n ) 1 H ( 1 n| log n ( Ln , F K ) + log [ n ( Ln , F K )] n nn ( Ln , F K ) n 1 1 ne n ( Ln , F K )
n H( ) n | n

et on obtient le rsultat en ajoutant

aux deux membres.

Dmonstration du thorme V.16. Il suft de montrer que lim Rn, n Rn, n


n+

VT

= 0.

Daprs le point (2) de la proposition V.26, il existe Q Q et n2 tel que, pour tout n n2 ,
Rn, n Rn, n

VT

1 n log n ( Ln , F K n )eH( n, n | ) n

La fonction Q tant continue, croissante et nulle en 0, il suft de majorer Bn := 1 n log n ( Ln , F K n )eH( n, n | ) n

par une quantit convergeant vers 0. crivons


1 2 Bn = Bn + Bn ,

avec
1 Bn =

1 n log n ( Ln , F K n )eH( n | ) n

et
2 Bn =

1 n n H H n n, n n

Par un simple calcul,


n H 1 n = n n n n n F (xn i ), vn F (xi ), vn F (xi ), vn i=1 n n n F (xn i ), vn, n F (xi ), vn, n F (xi ), vn, n i=1

, .

n, n n

1 = n

148

V. Principes conditionnels de type Gibbs pour des mesures poids alatoires

Grce lhypothse (2) de (V.7), au point (4) du thorme V.8 et au lemme V.24, on voit n n H( H( ) ) n, n | n | et convergent vers la mme limite I , lorsque n facilement que n n tend vers + : 1 I=
X

F (x), v F (x), v dR(x)


X

F (x), v dR(x).

En particulier,
2 Bn 0. n+ 1 Finalement, grce aux lemmes V.25 et V.27, on voit facilement que Bn est major par une quantit convergeant vers 0.

Remarque : I = I (R |R)

Deuxime partie Ingalits de transport

CHAPITRE VI

Ingalits de transport convexes - Rsultats prliminaires

Sommaire
VI.1 Transport de masse . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 VI.1.1 Le problme de Monge-Kantorovich . . . . . . . . . . . . . . . 152 VI.1.2 La dualit de Kantorovich-Rbinstein . . . . . . . . . . . . . . 153 VI.1.3 Ingalits de Transport . . . . . . . . . . . . . . . . . . . . . . 156 VI.2 Ingalits de transport convexes . . . . . . . . . . . . . . . . . . . . 164 VI.2.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 VI.2.2 Formulation duale des I.T.C . . . . . . . . . . . . . . . . . . . 165 VI.2.3 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . 167 VI.2.4 Tensorisation des I.T.C . . . . . . . . . . . . . . . . . . . . . . 173 VI.3 Applications des I.T.C . . . . . . . . . . . . . . . . . . . . . . . . . . 180 VI.3.1 Ingalits de concentration . . . . . . . . . . . . . . . . . . . . 180 VI.3.2 I.T.C et ingalits de dviations . . . . . . . . . . . . . . . . . 181

152

VI. Ingalits de transport convexes - Rsultats prliminaires

VI.1
VI.1.1

Transport de masse
Le problme de Monge-Kantorovich

Le problme de trouver le moyen le plus conomique de boucher un trou avec un tas de sable a t propos vers 1780 par lingnieur Gaspard de Monge. Si sa formulation initiale peut sembler un peu dsute, cette question a pos et pose encore des problmes mathmatiques dune grande difcult et est lorigine de thormes puissants ayant des rpercussions dans des domaines tels que la thorie des probabilits, les quations aux drives partielles, lanalyse fonctionnelle ou lisoprimtrie. Dans la formulation quen a donn Kantorovich, le tas de sable est reprsent par un espace de probabilit (X , ) et le trou, par un espace de probabilit (Y , ). Le cot ncessaire pour acheminer de la masse de X sur Y est reprsent par une fonction c : X Y R+ , appele fonction de cot. Un plan de transfert de sur est une probabilit P (X Y ) ayant pour premire marginale et pour seconde . Le cot de transport associ ce plan de transfert est Ic [ ] :=
X Y

c(x, y ) d (x, y ).

Dans cette dernire intgrale, d (x, y ) reprsente la quantit de masse prise en x et dpose en y et c(x, y ) d (x, y ), le cot engendr par cette opration. La quantit d(x) reprsente la masse totale au point x ; dire que admet pour premire marginale, scrit formellement d(x) = Y d (x, y ), ce qui sinterprte en disant que la totalit de la masse en x a t distribue. De la mme manire, d (y ) reprsente la quantit de masse que peut recevoir y et d (y ) = X d (x, y ) signie que y reoit exactement cette masse. Le cot de transport optimal est Tc (, ) = inf {Ic [ ] : (, )} , o (, ) est lensemble des plans de transfert de sur . Le problme de Monge, dans la formulation de Kantorovich, est donc de trouver des plans de transfert optimaux, ie tels que Ic [ ] = Tc (, ).

VI.1. Transport de masse

153

On pourra consulter les deux ouvrages ([56] et [72]) de rfrence sur le sujet pour des rsultats caractrisant les plans de transferts optimaux pour certaines fonctions de cot. Pour la suite, nous naurons besoin que du rsultat basique suivant (voir [72], thm. 2.18 p. 74) : Thorme VI.1. Soit c une fonction de cot sur R de la forme c(x, y ) = q (x y ) avec q une fonction convexe positive paire. Si , P (R) ont pour fonctions de rpartition F et G, la probabilit P (R2 ) de fonction de rpartition H (x, y ) = min(F (x), G(y )) appartient (, ) et Tc (, ) =
R2

c(x, y ) d .

VI.1.2

La dualit de Kantorovich-Rbinstein

Le thorme suivant, appel thorme de Kantorovich-Rbinstein, donne une formulation duale du cot de transport optimal : Thorme VI.2. Soient X et Y des espaces polonais, P (X ) et P (Y ), et soit c : X Y R+ {+}, une fonction de cot continue. Posons : (, ), lensemble des mesures de probabilit sur X Y , telles que a pour premire marginale et pour seconde , c , lensemble des couples de fonctions (, ), (resp. ) continue borne sur X (resp. Y ), vriant : x, y X , alors
(, )

(x) + (y ) c(x, y ),

inf

c(x, y ) d (x, y )
X Y

sup
(, )c X

d +
Y

d ,

(VI.3)

et linmum dans le membre de gauche de (VI.3) est atteint. De plus, si (X , d) est un espace polonais, alors inf d(x, y ) d (x, y )
X X

(, )

= sup
X

d
X

d : BLip1 (X , d) , (VI.4)

o BLip1 (X , d) est lensemble des fonctions 1-Lipschitziennes, bornes sur X .

154

VI. Ingalits de transport convexes - Rsultats prliminaires

Remarque VI.5. En dsignant par s c lensemble des couples (, ) de fonctions semi-continues suprieurement sur X et Y vriant (x) + (y ) c(x, y ), pour tout (x, y ) X Y , on a aussi Tc (, ) = sup
(, )s c X

d +
Y

d .

Exemple : Dans cet exemple, nous allons nous placer dans une situation qui ne relve pas du thorme prcdent. Soient X un espace mesurable et : X R+ une application mesurable. Dnissons une semi-mtrique d sur X par x, y X , d (x, y ) = ((x) + (y )) 1 I x= y . (VI.6)

On voit facilement que si sannule en au plus un point, d est une vraie distance sur X . La proposition suivante exprime le cot de transport optimal associ d . Proposition VI.7. Si B (X ) dsigne lensemble des fonctions mesurables bornes sur X telles que x X , |(x)| (x), alors , P (X ), En particulier, si Td (, ) = sup
B (X ) X

d
X

d .

d < + et

d < +, alors
VT

Td (, ) =

Dmonstration. (Voir aussi la preuve de la proposition 7.10 de [72] et le lemme 7 page 23 de [49]) Tout dabord, si B (X ), on a clairement (x) (y ) d (x, y ) ; donc, pour tout (, ), on a : d
X X

d =
X2

(x) (y ) d
X2

d (x, y ) d (x, y ).

On en dduit que Td (, )

sup
B (X ) X

d
X

d .

Pour montrer lingalit oppose, considrons la probabilit P (X 2 ), dnie pour toute f mesurable borne sur X 2 par f (x, y ) d (x, y ) =
X2 X

f (x, x) d( )(x) (VI.8) f (x, y ) d( )+ (x) d( ) (y ),


X2

1 +

VI.1. Transport de masse

155

o = ( )+ et = ( )+ (X ) = ( ) (X ). On vrie facilement que (, ). De plus, d (x, y )d =


X2

1 1
X

((x) + (y ))1 Ix=y d( )+ (x) d( ) (y )


X2

((x) + (y )) d( )+ (x) d( ) (y )
X2

= =
X

d( )+ +
X

d( )

d| | d| | =
X

et on voit facilement que Remarque VI.9. Si = 1,

sup
B (X ) X

d
X

d .

Td1 (, ) =

VT

= 2 inf {P(X = Y ) : L(X ) = , L(Y ) = }.

Si on se place dans un cadre discret X = {x1 , . . . , xn , . . .}, est dni par : (x, y ) = min((x), (x)), si x = y ; 1 ( )+ (x)( ) (y ), sinon

et correspond la stratgie qui consiste laisser en place la masse commune (min((x), (x))) et distribuer lexcdent de par rapport (( )+ (x)) aux endroits y o (y ) (y ) proportionnellement au dcit de par rapport 1 ( ( ) (y )). Lemme VI.10. Une fonction est 1-Lipschitzienne pour d si, et seulement si, elle scrit = a + , avec a R et || . Dmonstration. Il est clair que toute fonction = a + , avec a R et || est 1-Lipschitzienne pour d . Rciproquement, si est une fonction 1-Lipschitzienne pour d , alors pour tout (x, y ) X 2 , on a (x) (x) (y ) + (y ), donc a = sup{ (x) (x), x X } < +. Posons = a, alors (x) (x) = (x) (x) sup{ (x) (x), x X } 0.

156

VI. Ingalits de transport convexes - Rsultats prliminaires

Ainsi . De plus, pour tout x, y X , (x) (y ) (x) (y ), donc (x) + (x) (y ) (y ), et par suite (x) + (x) sup{(y ) (y ), y X } = sup{ (y ) (y ), y X } a = 0. Donc . Remarque VI.11. En notant, BLip1 (X , d ) lensemble des fonctions mesurables bornes et 1Lipschitziennes pour d , la proposition VI.7 snonce : Td (, ) = sup
BLip1 (X ,d ) X

d
X

d .

VI.1.3

Ingalits de Transport

Le sujet que nous allons aborder dans ce chapitre et le suivant est celui des Ingalits de Transport. Fixons X un espace mesurable (en gnral, X sera un espace polonais) et une fonction de cot c : X X R+ sur X symtrique, ie telle que x, y X , c(x, y ) = c(y, x).

Sous cette hypothse de symtrie, nous aurons , P (X ), Tc (, ) = Tc (, ).

Nous dirons, provisoirement, quune probabilit vrie une ingalit de transport, sil existe une fonction F telle que P (X ), Tc (, ) F (H ( | )). (VI.12)

Ltude des ingalits de transport est un sujet assez rcent, initi par les travaux de K. Marton et M. Talagrand.

VI.1. Transport de masse

157

Bref historique sur les ingalits de transport. Lingalit de Pinsker (1964). La premire ingalit de transport est lingalit de Pinsker : si X est un espace mesurable, on a , P (X ),
VT

2 H ( | ).

Cest une ingalit de transport dans la mesure o, comme on la vu la proposition VI.7, la norme en variation est le cot de transport optimal associ la fonction de cot c(x, y ) = 21 I{x=y} . Les premiers travaux de K. Marton (1986). Dans larticle [47], K. Marton obtient la gnralisation suivante de lingalit de Pinsker : Thorme VI.13. Soit X = X1 X2 Xn un produit despaces mesurables ; on dnit sur X , la distance de Hamming, note dH ( . , . ), par la formule
n

dH (x, y ) =
i=1

1 I { xi = y i } .

Si pour tout i = 1 . . . n, i P (Xi ), alors en posant = 1 2 n , on a P (X ), TdH (, ) n H ( | ). 2

Remarque VI.14. Remarquons que, pour n = 1, on retrouve bien lingalit de Pinsker. Pour dmontrer ce thorme, K. Marton utilise un argument de couplage astucieux sur lequel nous reviendrons dans la section VI.2.4. Le rsultat prcdent rpond, dans un cas particulier, la question suivante : Si pour tout i = 1 . . . n, i vrie (VI.12) avec une fonction Fi , quelle ingalit de transport vrie 1 2 n ? Nous aborderons en dtail ce problme de la tensorisation des ingalits de transport dans la section VI.2.4. Une consquence intressante du thorme VI.13, est lobtention de rsultats de concentration assez ns pour les mesures produit. Grce un argument dune grande simplicit, appel depuis argument de Marton (voir la proposition VI.81), K. Marton dduit du thorme VI.13 le rsultat suivant :

158

VI. Ingalits de transport convexes - Rsultats prliminaires

Proposition VI.15. Si X est un vecteur alatoire composantes indpendantes valeurs dans X = X1 X2 Xn , alors pour tout ensemble mesurable A, on a t 0, P dH (X, A) t + n log 2 1 P(X A) e
2t2 n

Ce rsultat est trs proche des rsultats de concentration de M. Talagrand (voir les articles [66] et [67]). Dans [48], K. Marton tend les rsultats prcdents au cas Markovien ( (resp. X ) est une probabilit Markovienne (resp. une chane de Markov)). Travaux autour de lingalit T2 . Soit (X , d) un espace polonais ; nous dirons que P (X ) satisfait lingalit de transport T2 (c), si P (X ), Td2 (, ) c H ( | ) . (VI.16)

Lingalit (VI.16) est plus couramment crite sous la forme quivalente suivante : P (X ), o W2 (, ) = Td2 (, ). W2 (, ) c H ( | ), (VI.17)

M. Talagrand est le premier avoir dmontr (VI.16) pour les mesures gaussiennes sur Rn muni de la distance euclidienne standard. Thorme VI.18 (Talagrand, [68]). La loi gaussienne standard sur Rn vrie lingalit T2 (2) sur Rn muni de sa distance euclidienne. Pour dmontrer le thorme prcdent, Talagrand commence par dmontrer, par des moyens assez lmentaires, que la loi gaussienne standard sur R vrie T2 (2) pour d(x, y ) = |x y |. Il constate ensuite que lingalit T2 jouit dune remarquable proprit de tensorisation avec invariance de la constante. En reprenant les techniques de couplage de Marton, il obtient la Proposition VI.19. Si pour tout i = 1 . . . n, i est une probabilit sur R vriant T2 (c), alors la probabilit 1 2 n vrie aussi lingalit T2 (c) sur Rn muni de sa distance euclidienne. Le thorme VI.18 dcoule alors immdiatement du cas n = 1 et de cette proprit de tensorisation. Par ailleurs, grce largument de Marton, le thorme VI.18 lui permet de montrer que pour tout Borlien B , 2 1 1 1 , , (B ) 1 exp 2 log 2 log (B ) 2 (B )

VI.1. Transport de masse

159

o est la loi gaussienne standard sur Rn , et B = {x Rn , d(x, B ) }. Ce rsultat de concentration est quasi optimal. Dans [54], F. Otto et C. Villani ont tudi les liens existant entre lingalit T2 et les ingalits de Sobolev-logarithmiques et de Poincar. Ils ont obtenu le rsultat suivant Thorme VI.20 (Otto-Villani (2000), [54]). Soient une application de Rn dans R telle que e soit intgrable et la mesure de probabilit sur Rn dnie par d = Z 1 e , dx avec Z = e dx. 1. Si vrie une ingalit de Sobolev logarithmique de constante c, cest--dire que pour toute fonction f de classe C 1 , Ent (f 2 ) c |f |2 d,

alors vrie lingalit T2 (c) sur Rn muni de la distance euclidienne. c 2. Si vrie lingalit T2 (c), alors vrie lingalit de Poincar de constante 2 , 1 cest--dire que pour toute fonction f de classe C , c Var (f ) |f |2 d. 2 Ces rsultats ont t redmontrs de manire plus simple par S.G. Bobkov, I. Gentil et M. Ledoux dans [3]. Le problme de savoir si lingalit T2 est quivalente lingalit de Sobolev-Logarithmique ou non, na pas encore t rsolu. On pourra consulter [14] pour des lments de rponse. Travaux autour de lingalit T1 . Soit (X , d) un espace polonais ; on dit que P (X ) vrie lingalit de transport T1 (c), si P (X ), Td (, ) c H ( | ). (VI.21) Cette ingalit de transport est strictement plus faible que lingalit T2 . En effet, grce lingalit de Jensen, il est clair que , P (X ), et par consquent, satisfait T2 (c) satisfait T1 (c). Daprs largument de Marton, T1 est associe un phnomne de concentration gaussienne : grossirement, si satisfait une ingalit T1 , alors pour tout ensemble mesurable 1 A tel que (A) 2 , on a (A ) 1 eC ,
2

Td (, )

Td2 (, ),

pour tout assez grand,

o A = {x X : d(x, A) } (voir la proposition VI.81 pour un nonc prcis).

160

VI. Ingalits de transport convexes - Rsultats prliminaires

Dans [4], S. G. Bobkov et F. Gtze ont obtenu un critre dual pour (VI.21). Ils ont montr le rsultat suivant : Thorme VI.22 (Bobkov-Gtze (1999), [4], thm. 3.1). Une probabilit sur X vrie T1 (c) si, et seulement si, pour toute fonction 1-Lipschitzienne, on a s R,
X

es d exp s
X

d + c

s2 4

(VI.23)

A la diffrence de lingalit T2 , qui est en relation avec dautres ingalits fonctionnelles non triviales, lingalit de transport T1 se rsume une proprit dintgrabilit, comme le montre le thorme suivant, d H. Djellout, A. Guillin et L. Wu. Thorme VI.24 (Djellout-Guillin-Wu,[27], thm. 3.1). Soit une probabilit sur X ; il y a quivalence entre les deux propositions suivantes : 1. Il existe c > 0 tel que vrie T1 (c). 2. Il existe > 0 tel que
X

ed(x,y) d(x)d(y ) < +.

Nous prciserons plus loin le lien qui existe entre c et . Dans [5], F. Boley et C. Villani, ont obtenu des versions pondres de lingalit de Pinsker : Thorme VI.25 (Bolley-Villani, [5], thm. 1). Soit : X R+ , une fonction mesurable. Alors pour toute P (X ), 1 3 + log e2(x) d(x) H ( | ) + H ( | ) ; (i) V T 2 2 X (ii)
VT

1 + log

e(x)2 d(x) 2 H ( | ).

Remarquons que, daprs la proposition VI.7,


VT

= Td (, ),

avec d dnie par (VI.6). Si lingalit (ii) est une ingalit T1 au sens classique, lingalit (i) est une ingalit de transport faisant intervenir la fonction F ( x ) = x + x et non plus la fonction F (x) = x. Grce ces deux gnralisations de lingalit de Pinsker, Bolley et Villani ont pu afner le lien entre les constantes c et du thorme VI.24. Elles leur ont, par ailleurs, permis dobtenir toute une famille dingalits de transport pour des cots de la forme c(x, y ) = dp (x, y ), p > 1.

VI.1. Transport de masse

161

Survol du chapitre Ce chapitre a pour but dintroduire la notion dingalits de transport convexes, notion qui englobe tous les cas particuliers introduits plus haut, dtudier certaines de leurs proprits (on tablira, notamment, une formule gnrale de tensorisation) et de les mettre en relations avec des ingalits de type Grandes Dviations. Si est une fonction convexe appartenant une certaine classe C que nous dnirons plus loin, et si c est une fonction de cot symtrique sur un espace mesurable X , on dira que P (X ) satisfait lingalit de transport convexe Tc ( , a), si P (X ), Tc (, ) a H ( | ) , (VI.26)

la fonction tant la conjugue convexe de la fonction convexe . Par ailleurs, si dsigne une classe de fonctions mesurables bornes sur un espace mesurable X telle que , nous poserons 1 , 2 P (X ), 1 2

= sup
X

d1
X

d2

et nous dirons que P (X ) vrie lingalit T ( , a) si P (X ), a


H ( | ) .

(VI.27)

Les ingalits de la forme (VI.27) ne sont plus, proprement parler, des ingalits de transport. Les semi-normes . sont des gnralisations naturelles des cots de transport optimaux associs des fonctions de cots mtriques. Section VI.2 : Ingalits de transport convexes. Dans la section VI.2.2, nous dmontrerons une gnralisation du critre (VI.23) de Bobkov et Gtze. Si c est continue sur un espace polonais (X , d), nous verrons au thorme VI.38 que satisfait Tc ( , a) si, et seulement si, pour tout couple (, ) c , on a s 0,
X

exp s((x) + , ) d(x) exp (as).

(VI.28)

En particulier, si c = d, satisfait Td ( , a) si, et seulement si, pour toute fonction BLip1 (X , d) , on a s 0,


X

exp s((x) , ) d(x) exp (as).

(VI.29)

162

VI. Ingalits de transport convexes - Rsultats prliminaires

De mme, vrie lingalit T ( , a) si, et seulement si, pour toute fonction , on a exp s((x) , ) d(x) exp (as). (VI.30) s 0,
X

Les critres prcdents nont pas un caractre pratique, mais se rvleront dune grande utilit thorique, notamment pour les questions de tensorisation. La preuve que nous donnons de (VI.28) est trs diffrente de celle de Bobkov et Gtze ; elle utilise des outils classiques en Thorie des Grandes Dviations : thormes de Cramr et Sanov, principe de contraction, etc. On pourra consulter [37] pour plus de dtails sur les liens entre les Ingalits de Transport et les Grandes Dviations. La proposition VI.48, de la section VI.2.3, donne une interprtation probabiliste des ingalits de la forme T ( , a). Nous montrons quil y a quivalence entre P (X ), et t > 0, n N , sup P

H ( | ) .

(X1 ) + + (Xn ) , + t n

en

(t)

avec (Xk )k1 une suite i.i.d de loi . Cette correspondance entre ingalits de type transport et bornes de dviation non asymptotiques permet, par exemple, de retrouver lingalit de Pinsker partir de lingalit de Hoeffding, et lingalit (i) du thorme VI.25 partir dune version de lingalit de Bernstein. Dans la section VI.2.4, nous dmontrons une proprit gnrale de tensorisation des ingalits de transport convexes. Si c1 est une fonction de cot sur X1 et c2 une fonction de cot sur X2 , nous noterons c1 c2 la fonction de cot dnie sur X1 X2 par (x, y ) (X1 X2 )2 , c1 c2 (x, y ) = c1 (x1 , y1 ) + c2 (x2 , y2 ).

Dune faon assez gnrale, nous montrerons que si pour i {1, 2}, i est une probabilit sur Xi vriant lingalit de transport convexe P (Xi ), alors, la probabilit 1 2 vrie P (X1 X2 ), (1 + 2 ) (Tc1 c2 (, 1 2 )) H ( | 1 2 ) .
i (Tci (, i )) H ( | i ) ,

En particulier, si vrie Tc ( , a) sur X , alors n vrie : P (X n ), n Tn c (, n ) na H n , (VI.31)

VI.1. Transport de masse

163

en notant x, y X ,
n

c(x, y ) =
i=1

c(xi , yi ).

Daprs (VI.31), une condition sufsante, pour quil y ait tensorisation avec invariance de la constante est donc que soit linaire (cest bien sr le cas pour T2 ). Nous proposerons deux manires de dmontrer cette proprit de tensorisation : soit de manire directe, en construisant un couplage astucieux de sur 1 2 (le couplage de Marton), soit de manire indirecte, en utilisant le critre dual (VI.28). La premire mthode, due K. Marton, a de loin le plus fort contenu intuitif et thorique. En revanche, elle pose des problmes de mesurabilit assez dlicats. La seconde, due M. Ledoux, est nettement moins intuitive. Elle est, par contre, beaucoup plus rapide mettre en oeuvre et permet dviter ce problme de mesurabilit. Section VI.3 : Applications des I.T.C. Cette section est consacre aux liens entre les ingalits de transport convexes associes un cot mtrique (c = d) les ingalits de concentration et les ingalits de dviations. La proposition VI.81 est une version gnrale de largument de Marton. On montre que si est une probabilit sur un espace polonais (X , d) qui vrie lingalit Td ( , a), 1 , on a alors pour tout ensemble mesurable A X , tel que (A) 2 1 (A ) 1 exp ( r) , a avec r = 1 (a log(2)), et A = {x X : d(x, A) }. La suite de cette section montre comment la proprit de tensorisation des ingalits de transport associes un cot mtrique permet dobtenir des ingalits de dviations pour des fonctions de variables alatoires indpendantes. Le point de dpart est le rsultat lmentaire suivant : Si vrie lingalit Td ( , a), alors pour toute fonction 1-Lipschitzienne, on a t > 0,
t ( , + t) e ( a ) .

(VI.32)

(VI.33)

(Voir la proposition VI.83.) Par tensorisation, on en dduit que si F : X n R est une fonction 1-Lipschitzienne pour la distance n d, alors t > 0,
t P (F (X1 , . . . , Xn ) E[F (X1 , . . . , Xn )] + t) en ( an ) .

(VI.34)

164

VI. Ingalits de transport convexes - Rsultats prliminaires

En particulier, en appliquant VI.34 F (x1 , . . . , xn ) = sup (x1 ) + . . . + (xn ) n


X

d ,

o est un ensemble dnombrable de fonctions 1-Lipschitziennes, on obtient t > 0, n N , P sup Ln , E sup Ln ,


+t

t en ( a ) ,

n 1 en notant Ln = n i=1 Xi . Par cette approche, on peut obtenir des versions (un peu moins prcises) de rsultats comme le thorme de Yurinskii ou des bornes la Talagrand-Ledoux-Massart pour les processus empiriques.

Remarque VI.35. Il va sans dire que les rsultats de ce chapitre nont dintrt que si lon dispose de critres effectifs permettant de dmontrer quune probabilit satisfait une ingalit de transport donne. Le chapitre suivant est consacr ce problme. On y dmontre notamment des conditions ncessaires et sufsantes pour les ingalits de transport convexes associes un cot mtrique.

VI.2
VI.2.1

Ingalits de transport convexes


Dnitions

Nous noterons C , la classe des fonctions : R R+ {+}, convexes, semicontinues infrieurement, (0) = 0, dom = [0, a [, avec a ]0, +]. Remarquons que si C , alors est non borne sur son domaine. Pour C , la fonction convexe conjugue de sera note , elle est dnie par : t R, (t) = sup{st (s)},

est convexe, positive, s.c.i, et on voit facilement que est identiquement nulle sur R . Dans tout ce qui suit, les fonctions de cot sur X seront toujours supposes symtriques, ie x, y X , c(x, y ) = c(y, x). Sous cette hypothse, (, ) P (X )2 , Tc (, ) = Tc (, ).

VI.2. Ingalits de transport convexes

165

Dnition VI.36. Soit C . Nous dirons que P (X ) satisfait lingalit de transport convexe (I.T.C) Tc ( , a), si P (X ), Tc (, ) a H ( | ) . (VI.37)

VI.2.2

Formulation duale des I.T.C

Le thorme suivant gnralise le thorme VI.22 de Bobkov et Gtze. Il permet dobtenir, grce au thorme VI.2, une traduction de (VI.37). Thorme VI.38. Soient (X , d) un espace polonais, C , P (X ) et c une fonction de cot continue sur X . Il y a quivalence entre : 1. satisfait Tc ( , a), 2. Pour tout (, ) c et tout s 0, exp s((x) + , ) d(x) exp (as).
X

En particulier, si c(x, y ) = d(x, y ), il y a quivalence entre : 1. satisfait Td ( , a), 2. Pour tout BLip1 (X , d) et tout s 0, exp s((x) , ) d(x) exp (as).
X

Dmonstration. Daprs la formule de dualit, satisfait Tc ( , a) si, et seulement si, P (X ), 1 sup a (,) c d +
X X

H ( | ) .

La fonction tant continue et croissante, ceci quivaut (, ) c , P (X ), soit, pour tout (, ) c , t R, (t) inf H ( | ) : P (X ),
X n

d + a

H ( | ) ,

d +
X

d = at

1 Soit (Xi )i une suite i.i.d de loi ; posons Ln = X . Daprs le thorme de San i=1 i nov, (Ln )n suit un P.G.D sur P (X ) muni de la -topologie de bonne fonction de taux

166

VI. Ingalits de transport convexes - Rsultats prliminaires

H ( . | ). La fonction tant borne, lapplication : P (X ) R : X d est contin 1 nue. Daprs le principe de contraction, dLn = (Xi ) suit un P.G.D de bonne n i=1 X fonction de taux I(t) = inf H ( | ) : P (X ),
X

d = t .

Or, daprs le thorme de Cramr, dnie par avec

1 n

(Xi ) suit un P.G.D de bonne fonction de taux


i=1

(t) = sup {ts (s)} ,


sR

(s) = log
X

es(x) d(x) .

Par consquent, par unicit de la fonction de taux, I(t) = (t). En particulier, inf H ( | ) : P (X ),
X

d +
X

d = at

= at
X

d .

Ainsi satisfait Tc ( , a) si, et seulement si, pour tout (, ) c , t R, ce qui quivaut s R, soit s R,
X

(t) at
X

d ,

(VI.39)

(as) (s) + s
X

exp s((x) + , ) d(x) exp (as)

et comme (s) = + pour s < 0, on obtient le rsultat. Remarque VI.40. Pour dmontrer le thorme VI.38, il est galement possible de reprendre la preuve originale du thorme 3.1 de [4]. Nous tudierons plus particulirement le cas dun cot mtrique sur un espace polonais, cas pour lequel on dispose de la formule : , P (X ), Td (, ) = sup
BLip1 (X ,d) X

d
X

d .

VI.2. Ingalits de transport convexes

167

Si maintenant dsigne une classe quelconque de fonctions mesurables bornes sur un espace mesurable X quelconque, telle que , alors, en posant

(VI.41)

= sup
X

d
X

d ,

on obtient une classe plus gnrale de fonctionnelles sur P (X )2 englobant en particulier les Td ( . , . ). Une classe de fonction vriant (VI.41) sera dite symtrique. Pour les fonctionnelles .
,

on a la

Proposition VI.42. Soit C , P (X ). Il y a quivalence entre : 1. satisfait T ( , a), ie P (X ), 2. Pour toute et tout s 0, exp s((x) , ) d(x) exp (as).
X

H ( | )

Dmonstration. Idem.

VI.2.3

Quelques exemples

Dans cette sous-section, nous allons voir comment utiliser le critre dual pour retrouver certaines I.T.C bien connues. Ingalit de Pinsker La preuve de lingalit de Pinsker que nous allons donner est issue de [49] . Le lemme suivant porte le nom de lemme dHoeffding : Lemme VI.43. Si X est une variable alatoire valeurs dans [a, b], alors s 0, E esX esE[X ]+
s2 (ba)2 8

(VI.44)

168

VI. Ingalits de transport convexes - Rsultats prliminaires

Dmonstration. Posons (s) = log E esX . Il est clair que, (0) = 0 et (0) = E[X ]. De plus, si dsigne la loi de X , on voit facilement que (s) est la variance de la probabilit s dnie par : ds exp(sx) (x) = . d (s) Or, si Y est une variable alatoire valeurs dans [a, b], on a Y
2

a+b (b a) , donc 2 2 (b a)2 . 4

Var(Y ) = inf E[(Y a) ] E


a

a+b Y 2

Comme s a son support dans [a, b], on en dduit que (s)

(b a)2 . 4

Corollaire VI.45. Si et sont des probabilits sur un espace mesurable X , on a 1 2


2 VT

H ( | )

(VI.46)

Dmonstration. Remarquons que V T = B1 (X ) , avec B1 (X ) lensemble des fonctions mesurables telles que || 1. Or, daprs le lemme VI.43, pour toute B1 (X ), on a pour tout s 0, exp s( , ) d exp
X

s2 , 2

ce qui entrane (VI.46), daprs la proposition VI.42. Remarque VI.47. On voit dans cette preuve que lingalit de Pinsker (VI.46), et lingalit de Hoeffding : Y1 + + Yn 2 P t ent /2 , n valable pour toute suite Yi de variables alatoires indpendantes centres et valeurs dans un segment de longueur 2, reposent toutes deux sur le lemme VI.43. Il y a en fait un lien gnral entre les I.T.C et les bornes de dviations exactes, comme le montre la proposition suivante.

VI.2. Ingalits de transport convexes

169

Un lien gnral entre I.T.C et ingalits de dviations Proposition VI.48. Soit une classe symtrique de fonctions mesurables bornes sur un espace mesurable X . Les trois propositions suivantes sont quivalentes : 1. P (X ), (
X )

H ( | ) ,

2. , s 0,

exp s( , ) d exp (s), P en


(t)

3. , n 1, t 0,

(X1 ) + + (Xn ) , + t n avec (Xk )k1 une suite i.i.d de loi .

Dmonstration. On a dj vu dans la proposition VI.42 que les propositions (1) et (2) taient quivalentes. Montrons lquivalence de (2) et (3). Tout dabord, daprs lingalit de Chernoff classique, on a, pour tout n et tout t 0, P (X1 ) + + (Xn ) , + t n en
(t+

, )

o est la transforme de Cramr de (X ), X de loi . Or (2) entrane immdiatement que t 0, (t) (t + , ). Par consquent, (2) implique (3). Rciproquement, daprs la borne infrieure du thorme de Cramr, (3) entrane que : t 0,

inf { (u), u ] , + t, +[} (t),

donc, si , + t dom , tant croissante sur ] , , +[, on a ( , + t) (t), ingalit qui reste vraie pour tout t 0, cause du caractre s.c.i des deux fonctions. Enn la proprit t 0, (t) ( , + t) entrane facilement (2) par conjugaison convexe. Remarque VI.49. Cette proposition tablit un pont entre les I.T.C et certaines bornes exactes de dviations. La proprit de tensorisation des I.T.C dveloppe dans la section VI.2.4 va nous permettre dtablir des bornes exactes de dviations pour une plus grande classe dobjets. Avant cela, nous allons voir comment la gnralisation de lingalit de Pinsker (VII.10) propose par F. Bolley et C. Villani peut se retrouver partir dune version de lingalit de Bernstein.

170

VI. Ingalits de transport convexes - Rsultats prliminaires

Ingalit de Pinsker pondre et ingalit de Bernstein Dans [5], F. Bolley et C. Villani, ont obtenu, par des moyens purement analytiques, une version pondre de lingalit de Pinsker : Proposition VI.50. Soit une fonction mesurable positive sur un espace de mesurable X . Si , P (X ) sont telles que X d < + et X d < +, alors
VT

3 + log 2

e2 d
X

H ( | ) +

1 H ( | ) 2

(VI.51)

A linstar de lingalit de Pinsker qui tait une traduction de lingalit de Hoeffding, nous allons voir que (VI.51) est une traduction ( un facteur numrique prs) de la version suivante de lingalit de Bernstein. Proposition VI.52. 1. Si X une variable alatoire relle centre et M = inf > 0 : E e alors s R, E e
sX
|X |

2 ,

si s [0, 1[ + sinon (VI.53) 2. En particulier, si X1 , . . . , Xn sont des variables relles indpendantes centres, en |Xi | posant M = inf > 0 : i = 1 . . . n, E e 2 , on a e
1 (M s)

avec

1 (s) =

s2 1 s

t 0,

P(X1 + + Xn nt) e

1+t/M 1

2

(VI.54)

Dmonstration. (1) Par dnition de M , on a 1E e Donc, pour tout k 2, E e


|X | M

1 =
k=1

E |X |k . k !M k

E[|X |k ] 1 M k . Par consquent, pour tout s 0, M , k!


+

sX

=1+
k=2 +

kE

Xk E |X |k 1+ sk k! k! k=2 (sM )2 e1 (sM ) . 1 sM

1+
k=2

sk M k = 1 +

(2) On dduit du premier point que E es(X1 ++Xn ) en1 (sM ) . Le rsultat en dcoule 2 1+t1 si t R+ facilement en calculant : 1 (t) = 0 sinon

VI.2. Ingalits de transport convexes

171

Remarque VI.55. Lingalit (VI.54) nest pas la vritable ingalit de Bernstein. La forme habituelle de cette ingalit est donne dans le thorme suivant Thorme VI.56. Si X1 , . . . , Xn sont des variables alatoires relles indpendantes centres, telles quil existe M > 0 et v1 , . . . , vn > 0 tels que E [|Xi |m ] alors, pour tout t > 0, P(X1 + + Xn t) e 2 v+tM ,
1 t2

m! m2 M vi , 2

(VI.57)

avec

v = v1 + + vn .

(VI.58)

Si les variables Xi ne sont pas bornes, lhypothse (VI.57) nest pas vidente vrier. Une condition sufsante plus tractable est la condition de type Orlicz suivante E e|Yi |/M 1 |Yi | 1 M 2 vi . M 2 (VI.59)

En affaiblissant encore (VI.59), on obtient lingalit de la proposition VI.52, ou aucun terme de variance napparat. Dune manire gnrale, nous ne serons pas en mesure dinclure des termes de variance dans nos ingalits. Introduisons lespace dOrlicz L (X , ) associ la fonction de Young (t) = e|t| 1 et munissons le de sa norme de jauge . (voir p. 65). Proposition VI.60. Soit une classe symtrique de fonctions mesurables bornes sur un = { : , } est une partie borne de espace de probabilit (X , ). Si , M ), avec M = sup , . L (X , ), alors vrie T (1

Autrement dit, P (X ),

2M

H ( | ) +

1 H ( | ) . 2

Dmonstration. Daprs lingalit (VI.53), pour toute on a : s R,


X

exp s( , ) d exp 1 (M s),

donc, daprs la proposition VI.42, P (X ),


1

H ( | )

172

VI. Ingalits de transport convexes - Rsultats prliminaires

1 Comme 1 (x) = 2 x + x, on a de manire quivalente P (X ),


2M

H ( | ) +

1 H ( | ) 2

Corollaire VI.61. Si d( . , . ) est une distance mesurable sur un espace mesurable X et P (X ) telle que > 0,
X2

ed(x,y) d(x) d(y ) < +,

alors, en posant M = d( . , . ) L (X 2 , 2 ) , on a en notant BLip1 (X , d) lensemble fonctions mesurables bornes 1-Lipschitziennes pour d P (X ),
BLip1 (X ,d)

2M

H ( | ) +

1 H ( | ) 2

(VI.62)

Dmonstration. Remarquons que pour tout > 0, on a pour toute BLip1 (X , d)


X

| , |

()

d
X2


X2

() venant de lingalit de Jensen. Ainsi dcoule de la proposition VI.60.

|(x) (y )| d(x) d(y ) d(x, y ) d(x) d(y ), sup ,

M et le rsultat

BLip1 (X ,d)

Remarque VI.63. Nous verrons la section VII.4.1 du prochain chapitre que d( . , . )


(X 2 , 2 )

1+

log

X2

ed(x,y) d(x) d(y ) . log(2)

En particulier, pour d = d , on obtient, sous les hypothses de la proposition VI.50 P (X ),


VT

2 1+

2 log X e d log(2)

H ( | ) +

1 H ( | ) , 2

ingalit qui ne diffre de (VI.51) que par des facteurs numriques.

VI.2. Ingalits de transport convexes

173

VI.2.4

Tensorisation des I.T.C

Dans cette sous-section, nous chercherons rpondre la question suivante : si 1 et 2 sont deux probabilits satisfaisant chacune une I.T.C, quelle I.T.C vrie la mesure produit 1 2 ? Introduisons quelques notations : Si c1 , . . . , cn sont des fonctions de cot dnies sur respectivement sur des espaces X1 , . . . , Xn , nous noterons n i=1 ci ou plus rapidement i ci , la fonction de cot dnie sur X1 Xn par
n 2

(x, y ) (X1 Xn ) ,

n i=1 ci (x, y )

=
i=1

ci (xi , yi ).

Si f1 , . . . , fn sont des fonctions convexes s.c.i dnies sur R, leur inf-convolution est la fonction note f1 2f2 2fn ou encore 2i fi , et dnie pour tout x R par f1 2f2 2fn (x) = inf {f1 (x1 ) + f2 (x2 ) + + fn (xn ) : x = x1 + x2 + + xn } Thorme VI.64. Si pour tout i = 1 . . . n, i est une probabilit sur un espace polonais Xi satisfaisant lI.T.C P (Xi ),
i (Tci (, i )) H ( | i ) ,

avec pour tout i, ci une fonction de cot continue symtrique sur Xi telle que xi Xi , ci (xi , xi ) = 0

et i C , alors 1 n P (X1 Xn ) satisfait lI.T.C P (X1 Xn ),


1 2 2 2 n [Ti ci (, i i )] H ( | i i ) .

(VI.65)

Nous donnerons deux preuves de ce rsultat. La premire, qui utilise un argument de couplage d K. Marton, est la plus satisfaisante dun point de vue thorique, mais elle pose un problme de mesurabilit peu vident sur lequel nous reviendrons. La seconde, qui utilise la version duale des I.T.C donne par le thorme VI.38 gnralise un argument de M. Ledoux.

174

VI. Ingalits de transport convexes - Rsultats prliminaires

Preuve par couplage : Nous nous restreindrons au cas X1 = = Xn = R. Si P (Rn ), nous noterons 1 sa marginale sur Rn1 et y 2 ( . |y ) dsignera un noyau de transition de Rn1 dans R tel que (dx) = 2 (dxn |x1 , . . . , xn1 )1 (dx1 , . . . , dxn1 ). Autrement dit, si X = (X1 , . . . , Xn ) est de loi , alors 1 est la loi de (X1 , . . . , Xn1 ) et 2 ( . |y ) est une version rgulire de la loi conditionnelle de Xn sachant (X1 , . . . , Xn1 ). On a alors les propositions suivantes : Proposition VI.66. Si P (Rn ), 1 P (Rn1 )et2 P (R), alors H ( | 1 2 ) = H ( 1 | 1 ) +
R

H ( 2 ( . |y )| 2 ) d1 (y ).

(VI.67)

Dmonstration. Voir par exemple la preuve du thorme D.13 de [26]. Proposition VI.68. Si c1 est une fonction de cot sur Rn1 et c2 une fonction de cot sur R de la forme c2 (x, y ) = q (x y ), avec q : R R+ une fonction convexe paire, alors, pour toute P (Rn ), 1 P (Rn1 ), 2 P (R), on a Tc1 c2 (, 1 2 ) Tc1 (1 , 1 ) +
R y Dmonstration. Pour tout y Rn1 , soit 2 la probabilit sur R2 ayant pour fonction de rpartition H y (s, t) = min {2 (] , s]), 2 (] , t]|y )} .

Tc2 (2 ( . |y ), 2 ) d1 (y )

(VI.69)

Daprs le thorme VI.1,


y 2 (2 , 2 ( . |y ))

et

Tc2 (2 , 2 ( . |y )) =
R2

y c2 d2 .

Comme pour tout t R, y 2 (] , t]|y ) est mesurable, on en dduit que pour tout (s, t) R2 , la fonction
y y 2 (] , s]] , t])

(= H y (s, t))

est mesurable. Par un argument de classe monotone, on en dduit que pour tout A Borlien de R2 , la fonction y y 2 (A)

VI.2. Ingalits de transport convexes

175

est mesurable. Pour tout 1 (1 , 1 ), on peut donc dnir une probabilit sur Rn Rn = (Rn1 R)2 par f d =
x3 (x2 , x4 ) d1 (x1 , x3 ). f (x1 , x2 , x3 , x4 ) d2

Clairement, (1 2 , ). De plus, c1 c2 d = + = =
x3 (x2 , x4 ) d1 (x1 , x3 ) c1 (x1 , x3 ) d2 x3 (x2 , x4 ) d1 (x1 , x3 ) c2 (x2 , x4 ) d2

c1 d1 + c1 d1 +

Tc2 (2 ( . |x3 ), 2 ) d1 (x1 , x3 ) Tc2 (2 ( . |x3 ), 2 ) d1 (x3 )

On en dduit que pour tout 1 (1 , 1 ), Tc1 c2 (, 1 2 ) do le rsultat en optimisant en 1 . Remarque VI.70. La mme preuve fonctionne sur des espaces plus gnraux sil existe un noyau de y y transition y 2 de X1 Xn1 dans Xn tel que pour tout y , 2 (2 , 2 ( . |y )) y et Tc2 (2 , 2 ( . |y )) = Xn c2 d2 . Cest le cas en particulier, si ci = di , comme nous le verrons la proposition VI.73. Proposition VI.71. Si pour tout i = 1 . . . n, i est une probabilit sur R satisfaisant lI.T.C P (R), i (Tci (, i )) H ( | i ) , avec pour tout i, ci une fonction de cot de la forme ci (x, y ) = qi (x y ) avec qi une fonction convexe positive paire, alors 1 n P (Rn ) satisfait lI.T.C P (Rn ),
1 22 2 n [Ti ci (, i i )] H ( | i i ) .

c1 d1 +

Tc2 (2 ( . |x), 2 ) d1 (x),

(VI.72)

Dmonstration. Par rcurrence sur n. 1 n1 Posons c0 = n , 1 = 1 n1 P (Rn1 ) i=1 ci qui est une fonction de cot sur R et 0 = 1 22 2n1 . Supposons que P (Rn1 ),
0 [Tc0 (, 1 )] H ( | 1 ) .

176

VI. Ingalits de transport convexes - Rsultats prliminaires

Soit P (Rn ) ; dnissons 1 et 2 ( . |y ) comme prcdemment. Daprs lingalit (VI.69), on a Tc0 cn (, 1 n ) Tc0 (1 , 1 ) + Donc
Tc0 (1 , 1 ) + 2 n (Tc0 cn (, 1 n )) 0 2n 0 (ii) 0 (Tc0 (1 , 1 )) + n 0 (Tc0 (1 , 1 )) + (i)

Tcn (2 ( . |x), n ) d1 (x).

Tcn (2 ( . |x), n ) d1 (x) Tcn (2 ( . |x), n ) d1 (x)


n (Tcn (2 ( . |x), n )) d1 (x)

(iii)

(iv )

H ( 1 | 1 ) +
(v )

H ( 2 ( . |x)| n ) d1 (x)

= H ( | 1 n ) ,

, (ii) de la dnition de linf-convolution, (iii) de 2 n o (i) vient de la croissance de 0 lingalit de Jensen, (iv) de lhypothse de rcurrence et de lI.T.C satisfaite par n et (v) de la formule (VI.67).

Comme nous lavons annonc plus haut, la preuve prcdente reste valable pour la tensorisation des cots Td : Proposition VI.73. Si pour tout i = 1 . . . n, i est une probabilit sur un espace mesurable Xi satisfaisant lI.T.C P (R),
i Tdi (, i ) H ( | i ) ,

avec pour tout i, i une fonction mesurable positive et i C , alors la probabilit 1 n P (X1 Xn ) satisfait lI.T.C P (X1 Xn ),
1 2 2 2 n Ti di (, i i ) H ( | i i ) . (VI.74)

Dmonstration. Clairement, il suft de montrer que si (X1 , 1 ), (X2 , 2 ) sont des espaces de probabilit, c1 (., .) est une fonction de cot mesurable sur X1 X1 et : X2 R+ est une fonction mesurable, alors pour toute P (X1 X2 ), avec 1 2 , Tc1 d (, 1 2 ) Tc1 (1 , 1 ) +
X1

Td (2 ( . |x1 ), 2 ) d1 (x1 ),

(VI.75)

avec (dx1 , dx2 ) = h1 (x1 )h2 (x2 |x1 )1 (dx1 )2 (dx2 ) et 1 = h1 .1 , 2 ( . |x1 ) = h2 ( . |x1 ).2 . Or, en se reportant la preuve de la proposition VI.7, on sait que Td (2 ( . |x1 ), 2 ) =
2 X2

x1 d (s, t) d2 (s, t),

VI.2. Ingalits de transport convexes

177

x1 dni par avec 2

x1 (s, t) = f (s, t) d2 X

f (s, s) d(2 2 ( . |x1 ))(s) 1 m(x1 ) f (s, t) d(2 2 ( . |x1 ))+ (s) d(2 2 ( . |x1 )) (t),
2 X2

x1 est un noyau avec m(x1 ) = (2 2 ( . |x1 ))+ (X2 ). On voit alors facilement que x1 2 de transition, ce qui, daprs la remarque VI.70, assure la validit de (VI.75).

Exemple : En prenant 1 = = n = 1 et en utilisant lingalit de Pinsker (VI.46) 1 2 V T H ( | ), on obtient immdiatement la gnralisation suivante de linga2 lit de Pinsker due K. Marton : Proposition VI.76. (Marton [47]) Soient (X1 , 1 ), . . . , (Xn , n ) des espaces de probabilit. Considrons la distance de Hamming sur X1 Xn dnie par
n

dn H (x, y )
x2 , n 2

=
i=1

1 I xi = y i .

Alors 1 n satisfait Tdn H

, ie n H ( | 1 n ). 2

P (X1 Xn ),

Tdn (, 1 n ) H

Tensorisation via le critre dual : Soit c( . , . ) une fonction de cot symtrique, continue sur un espace polonais X telle que c(x, x) = 0, pour tout x X . Remarquons quen posant pour toute fonction semi-continue suprieurement borne (s.c.s.b) sur X , Qc (x) = inf {(y ) + c(x, y )},
y X

Qc est s.c.s.b (x X , inf Qc (x) (x)) et on voit facilement partir du thorme VI.2, que Tc (, ) = sup
s.c.s.b X

Qc d
X

d .

178

VI. Ingalits de transport convexes - Rsultats prliminaires

Le critre du thorme VI.38 peut se reformuler sous la forme : P (X ), (Tc (, )) H ( | ) s.c.s.b sur X , s 0,
X

esQc d e(s)+s ,

Cb (X ), s 0,
X

esQc d e(s)+s ,

Dmonstration du thorme VI.64. Il suft de traiter le cas n = 2. Daprs la remarque prcdente, on a pour i = 1, 2 : s.c.s.b sur Xi , s 0,
Xi = (1 + 2 ) (voir par exemple la thorme 2.3.1 p. 227), il suft 2 2 De plus, comme 1 de montrer que

esQci di ei (s)+s i ,

(VI.77)

Cb (X1 X2 ), Or,

s 0,
X1 X2

esQc1 c2 d1 2 e1 (s)+2 (s)+s 1 2 , . (VI.78)

Qc1 c2 (x1 , x2 ) =

(y,z )X1 X2

inf

{(y, z ) + c1 (x1 , y ) + c2 (x2 , z )}

= inf

y X1

z X2

inf {(y, z ) + c2 (x2 , z )} + c1 (x1 , y )

= Qc1 x2 (x1 ), en posant x2 (y ) = inf {(y, z ) + c2 (x2 , z )} qui est s.c.s.b sur X1 .
z X2

Donc, daprs (VI.77), esQc1 c2 d1 2 =


X1 X2 X2 X1

esQc1 x2 (x1 ) d1 (x1 ) es1 (s)+s


X2 1 ,x2 (.)

d2 (x2 )

Or, 1 , x2 (.) =
X1 z X2

d2 (x2 ).

inf {(x1 , z ) + c2 (x2 , z )} d1 (x1 ) (x1 , z ) d1 (x1 ) + c2 (x2 , z )


X1

inf

z X2

= Qc2 (x2 ),

VI.2. Ingalits de transport convexes

179

avec (z ) = X1 (x1 , z ) d1 (x1 ) qui est continue sur X2 . En appliquant une nouvelle fois (VI.77), on obtient : esQc1 c2 d1 2 e1 (s)
X1 X2

e(x2 ) d (x ) esQc2 2 2

X2 1 (s)+2 (s) s 2 , e

= e1 (s)+2 (s)+s 1 2 , .

Remarque VI.79. Il ny a pas de proprit de tensorisation gnrale des ingalits de la forme T ( , a). Nanmoins, on dispose de la proposition suivante : Proposition VI.80. Soient (Xi , Bi ), i = 1 . . . n des espaces mesurables. Pour tout i = 1 . . . n, di est une mtrique sur Xi et BLip1 (Xi , di ) est lensemble des applications 1-Lipschitziennes pour di et Bi mesurable. Si pour tout i, i est une probabilit sur (Xi , Bi ) vriant lingalit : P (Xi ), i BLip1 (Xi ,di ) H ( | i ) , avec i C , alors 1 n vrie P (X1 Xn ),
1 2 2 n

1 n

BLip1 (Xi ,i di )

H ( | 1 n ) .

Dmonstration. Il suft de montrer la proposition pour n = 2. Daprs la proposition VI.42, il suft de montrer que pour toute BLip1 (X1 X2 , d1 d2 ), on a ess ,1 2 d1 2 e1 (s)+2 (s) .
X1 X2

Or, pour tout s > 0, es(x1 ,x2 ) d2 (x2 )d1 (x1 )


X1 X2 (ii) (i)

exp s
X1

(x1 , x2 ) d2 (x2 ) + 2 (s) d1 (x1 )


X2

exp 1 (s) + 2 (s) + s

(x1 , x2 ) d1 (x1 )d2 (x2 ) X1 X2

o (i) vient du fait que pour tout x1 X1 , la fonction x2 (x1 , x2 ) appartient BLip1 (X2 , d2 ), et (ii) du fait que x1 X2 (x1 , x2 ) d2 (x2 ) appartient BLip1 (X1 , d1 ).

180

VI. Ingalits de transport convexes - Rsultats prliminaires

VI.3

Applications des I.T.C

Dans cette section, nous allons rappeler un certain nombre dapplications bien connues des ingalits de transport pour un cot mtrique.

VI.3.1

Ingalits de concentration

Le procd utilis dans la preuve de la proposition suivante est connu sous le nom dargument de Marton : Proposition VI.81 (Marton, [47]). Soit (X , d) un espace polonais et P (X ). Si satisfait lingalit Td ( , a), alors pour 1 , on a : tout ensemble mesurable A X tel que (A) 2 (A ) 1 exp r a , (VI.82)

avec r = a1 (log(2)) et A = {x X : d(x, A) }.


1 Dmonstration. Pour tout A, B mesurables tels que (A) > 2 , (B ) > 0, notons

A ( . ) =

( . A) (A)

et

B ( . ) =

( . B ) . (B )

Alors, daprs lingalit triangulaire (voir, par exemple, la preuve du thorme 7.3 de [72]) et lingalit de transport satisfaite par , on a : Td (A , B ) Td (A , ) + Td (B , ) a1 H ( A | ) + a1 H ( B | ) = a1 log (A) + a1 log (B ) a1 log(2) + a1 log (B ) Or, si (A , B ), alors (A B ) = 1, car ((A B )c ) (Ac X ) + (X B c ) = A (Ac ) + B (B c ) = 0 En particulier, si B = Ac , on a pour tout (A , Ac ) : d(x, y ) d =
X2 AAc

d(x, y ) d ,

et par consquent Td (A , Ac ) . Ainsi, a1 log(2) + a1 log (B ) , et lingalit (VI.82) sen dduit immdiatement.

VI.3. Applications des I.T.C

181

Proposition VI.83. Soient X un espace mesurable, d une distance mesurable sur X et P (X ) telle que X d(x0 , x) d(x) < + pour au moins un x0 X . Si satisfait TBLip1 (X ,d) ( , a), alors pour toute fonction mesurable 1-Lipschitzienne pour d, on a t 0,
t , + t e ( a )

(VI.84)

Dmonstration. Daprs la proposition VI.42, pour toute BLip1 (X , d), on a s 0,


X

es d e(as)+s , .

(VI.85)

Si maintenant Lip1 (X , d), en posant n = n n, on voit, par convergence domine, que (VI.85) reste vraie pour . On obtient alors (VI.84) grce la majoration de Chebychev : ( , + t) inf
s0

es( , t) d inf e(as)st = e


X s 0

( t ) a

VI.3.2

I.T.C et ingalits de dviations

La proprit de tensorisation des I.T.C associes des cots mtriques permet de dduire des ingalits de dviations pour une classe enrichie dobjets : Proposition VI.86. Soient (X , B ) un espace mesurable, d une distance mesurable sur X et P (X ) vriant lingalit TBLip1 (X ,d) ( , a) et telle que, pour tout x X , d(x, y ) d(y ) < +. Si Xi est une suite de variables alatoires i.i.d de loi , alors X pour toute fonction F : X n R mesurable et 1-Lipschitzienne pour la distance n d dnie par n d(x, y ) = d(x1 , y1 ) + + d(xn , yn ), on a n N , t 0, P(F (X1 , . . . , Xn ) E[F ] + t) en u n ou de manire quivalente, n N , u 0, P F (X1 , . . . , Xn ) E[F ] + an1 eu .
(t/an)

En particulier, 1. si F est une classe dnombrable dapplications mesurables 1-Lipschitziennes pour


F d, alors en notant Zn = sup Ln , F X F F P Zn E Zn + t en
(t/a)

d , on a . (VI.87)

n N ,

t 0,

182

VI. Ingalits de transport convexes - Rsultats prliminaires

2. si (X, . ) est un espace de Banach et d(x, y ) = X1 + + Xn x d, on a Zn = n X n N , t 0,

x y , alors en notant

P ( Zn E [ Zn ] + t) en

(t/a)

Dmonstration. On voit facilement, daprs le thorme VI.64, que 1 n satisfait lingalit de transport Tn d (n , an). On conclut grce la proposition VI.83. Pour le reste, on rappelle quun sup dapplications 1-Lipschitziennes est 1-Lipschitzienne. Exemples : Sil existe > 0 tel que X 2 ed(x,y) d(x)d(y ) < +, alors, daprs le 2 , M ), avec 1 (t) = corollaire VI.61, vrie lingalit TBLip1 (X ,d) (1 1 + t 1 et M = inf > 0 : X 2 e d(x)d(y ) 2 . La proposition VI.86 entrane que, pour toute classe F dapplications mesurables 1-Lipschitzienne pour d, n N , t 0,
F F P Zn E Zn +t e n
d(x,y )

t 1 1+ M

2

Si X est un espace de Banach et d = . , alors, sous les mmes hypothses : n N ,

t 0,

P ( Zn E [ Zn ] + t) e

t 1+ M 1

2

Pour que les bornes de la proposition VI.86 soient utilisables, il faut tre capable F de montrer que le terme desprance E Zn tend vers 0 et destimer la vitesse de cette convergence. Le rsultat suivant permet de conclure lorsque d est la distance euclidienne sur Rq : Thorme VI.88. Soit une mesure de probabilit sur Rq telle que c := x
q +5

d < +.

(VI.89)

Alors, il existe une constante D ne dependant que de c et de q , telle que E [T2 (Ln , )] Dn q+4 , o T2 (, ) = inf { xy
2
2

(VI.90)

d (x, y ) : (, )}.

Dmonstration. Voir le thorme 10.2.1 de [56] (volume II). En notant T1 (, ) = inf { Jensen : x y d (x, y ) : (, )}, on a daprs lingalit de T1 (, ) T2 (, ).

VI.3. Applications des I.T.C

183

Corollaire VI.91. Soit une probabilit sur Rq , vriant (VI.89) et lingalit de transport T1 (, ) P (Rq ), H ( | ) , a alors, pour toute classe F de fonctions 1-Lipschitziennes, on a pour tout u > 0, n D u
q +4

F P Zn u exp n

D u 1 a an q+4

o D est la constante de (VI.90). Dmonstration. Il suft de remarquer que, daprs le thorme VI.88, on a 1 F E [T1 (Ln , )] E [T2 (Ln , )] Dn q+4 , E Zn puis dappliquer (VI.87).

184

VI. Ingalits de transport convexes - Rsultats prliminaires

CHAPITRE VII

Mthodes dOrlicz pour certaines ingalits de transport convexes

Sommaire
VII.1Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 VII.1.1 Cadre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 VII.1.2 A propos de la littrature. . . . . . . . . . . . . . . . . . . . . . 188 VII.2Conditions ncessaires pour une I.T.C. . . . . . . . . . . . . . . . . . 189 VII.3Conditions sufsantes pour une I.T.C. convexe. Critres intgraux. . 193 VII.3.1 Majoration de la transforme de Laplace dune variable alatoire de LE (X , ). . . . . . . . . . . . . . . . . . . . . . . . 193 VII.3.2 Applications aux I.T.C. . . . . . . . . . . . . . . . . . . . . . . 197 VII.4Exemples et estimation des constantes. . . . . . . . . . . . . . . . . . 198 VII.4.1 Estimations des normes de jauge. . . . . . . . . . . . . . . . . 198 VII.4.2 Exemples. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 VII.5I.T.C. convexes pour des fonctions de cot non mtriques. . . . . . . 202

186

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

VII.1
VII.1.1

Introduction
Cadre

Dans ce chapitre, nous nous placerons dans le cadre suivant : X sera un espace mesurable, sera une classe de fonctions mesurables bornes sur X qui sera suppose symtrique ie, . sera une probabilit de rfrence sur X , Pour toute P (X ), nous poserons

= sup
X

d
X

d ,

Enn, C dsignera la classe des fonctions : R R+ {+}, convexes, semicontinues infrieurement, (0) = 0, dom = [0, a [, avec a ]0, +], Pour C , nous dirons que satisfait lingalit de transport convexe T ( , a), si P (X ), a

H ( | ) .

(VII.1)

Lobjectif de ce chapitre est dobtenir une condition ncessaire et sufsante pour que vrie (VII.1). Nous allons voir que (VII.1) est en lien avec des proprits dintgrabilit exponentielle des lments de . Introduisons lespace dOrlicz de type exponentiel suivant : LE (X , ) = mesurable : > 0,
X

exp

||

d < +

qui sera muni de la norme de Luxembourg :


(r ) E

= inf > 0 :
X

exp

||

d r

o r est un nombre rel strictement suprieur 1. Dans ce qui suit, Cquad dsignera lensemble des fonctions C quadratiques lorigine au sens suivant : s > 0, c > 0, s [0, s ], (s) c s2 . (VII.2)

VII.1. Introduction

187

Le rsultat principal de ce chapitre est le thorme suivant : Thorme VII.3. Soit Cquad , il y a quivalence entre 1. Il existe a > 0 tel que satisfait T ( , a), 2. = { , , } est une partie borne de LE (X , ). Plus prcisment, ( satisfait T ( , a)) et , o m = e max
1 (2) 1

(r ) E

r+1 a. r1

(r ) E

M. satisfait T ( , rm M )

(VII.4)

,1 c (1u) u

o u [0, 1[ est tel que :

u3 u s c et 2 1u 1u

La preuve de ce thorme repose sur un rsultat assez ancien de Kozachenko et Ostrowski (thorme VII.25) qui fournit une majoration de la transforme de Laplace dune variable alatoire vriant une condition dOrlicz. En prenant pour la boule des fonctions 1-Lipschitziennes dun espace polonais (X , d), on dduit immdiatement du thorme VII.3 un rsultat concernant lingalit Td ( , a) (voir thorme VII.38). En utilisant une ide de F. Bolley et C. Villani, on obtiendra le thorme suivant qui concerne des I.T.C associes des cots non-mtriques : Thorme VII.5. Soient (X , d) un espace polonais et c( . , . ) une fonction de cot sur X scrivant sous la forme c(x, y ) = q (d(x, y )), avec q : R+ R+ une fonction convexe strictement croissante, satisfaisant la condition 2 , ie K > 0, x R+ , q (2x) Kq (x),

Pour tout Cquad , les deux propositions suivantes sont quivalentes : 1. a > 0, 2. b > 0,
X2

P (X ), exp

Tc (, ) a

H ( | ) ,

c(x, y ) b

d(x)d(y ) < +.

188

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

VII.1.2

A propos de la littrature.

Les liens entre intgrabilit exponentielle et ingalits de transport ont t tudis dans deux articles rcents (voir [27] et [5]). Dans [27], H. Djellout, A. Guillin et L. Wu ont tabli la premire condition ncessaire et sufsante pour une ingalit de transport de la forme : Td (, ) a Ils ont obtenu le Thorme VII.7. (Djellout, Guillin, Wu, [27],thm 3.1 ) Si vrie (VII.6), alors pour tout ]0, 41a [, Si
X2 1/2k

2 H ( | )

(VII.6)

ed(x,y) d(x)d(y ) < +.


X2

d(x,y )2

d(x)d(y ) < + pour un certain > 0, alors satisfait (VII.6) avec

a = sup
k 1

2k k !

X2

d(x, y )2k d(x)d(y ) (2k )!

(VII.8)

et on a la majoration : a 2 sup k 1 (k !)2 (2k !)


1 /2k 1/2k

e
X2

2 d(x,y )2

d(x)d(y )

< +

(VII.9)

Dans [5], F. Bolley et C. Villani ont dmontr une version pondre de lingalit de Csiszar-Pinsker-Kullback : Thorme VII.10. (Bolley, Villani, [5], thm 1 ) Soit : X R+ , une fonction mesurable. Alors pour toute P (X ), 1 3 H ( | ) + H ( | ) ; + log e2(x) d(x) (i) V T 2 2 X (ii)
VT

1 + log

e(x)2 d(x) 2 H ( | ).

En utilisant la majoration (voir [72], prop. 7.10) Tdp (, ) 2p1 d(x0 , . )p d(x0 , . )p ils dduisent du thorme VII.10, les rsultats suivants :
VT,

(VII.11)

VII.2. Conditions ncessaires pour une I.T.C.

189

Corollaire VII.12. (Bolley,Villani, [5] cor. 3 et 4) Pour toute P (X ), on a pour tout p 1 : (i) avec C1 = 2
x0 X , >0

Tdp (, )

1/p

C1 H ( | ) 1

1/p

H ( | ) 2

1/2 p

,
1/p

inf

3 + log 2

e
X

d(x0 ,x)p

d(x)

(ii) avec C2 = 2 inf

Tdp (, ) C2 H ( | )1/2p , 1 2
1/2p

x0 X , >0

1 + log
X

d(x0 ,x)2p

d(x)

En particulier, pour p = 1, la constante C2 gurant au point (ii) du thorme prcdent est nettement meilleure que lestime fournie par (VII.9). Nanmoins, dans la section VII.4, nous montrerons quune majoration plus ne de (VII.8) permet dobtenir, un facteur numrique prs, la constante de Bolley et Villani.

VII.2

Conditions ncessaires pour une I.T.C.

Commenons par une remarque lmentaire rduisant la classe des fonctions admissibles. Si nest constitue que de fonctions -ps constantes, = 0 pour toute probabilit ; nous exclurons donc ce cas dtude triviale dans ce qui suit. On a la Proposition VII.13. Si satisfait T ( , a), alors s > 0, c > 0, s [0, s ], (s) c s2 . (VII.14)

Dmonstration. On peut supposer que a = 1. Soit une fonction non constante ; notons (s) = log X es d. Alors, lim + 1 (s) s , = Var () > 0. 2 s 2 (s), on en dduit que

s0

Comme, daprs la proposition VI.42, (s) s , (s) lim inf > 0, ce qui entrane facilement (VII.14). s0+ s2

190

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

Rappelons quelques notations : On dsignera par Cquad , la classe des fonctions convexes s.c.i. : R R+ {+} telles que + sur ] , 0[, (0) = 0 et vrie (VII.14). Pour , nous noterons = , , et = {, }. Les deux propositions suivantes donnent des conditions ncessaires pour T ( , a) et Td ( , a) : Proposition VII.15. Si satisfait T ( , a), alors est une partie borne de LE (X , ). Plus prcisment, pour tout r > 1, , ,
(r ) E

r+1 a r1

Proposition VII.16. Si (X , d) est un espace polonais et si vrie Td ( , a), alors exp


X2

d(x, y ) 3a

d(x)d(y ) < +

Pour prouver les propositions VII.15 et VII.16, nous aurons besoin des lemmes suivants : Lemme VII.17. Soit X une variable alatoire relle telle que E e|X | < +, pour au moins un > 0. En notant la transforme de Cramer de X , on a [0, 1[, E e
(X )

1+ . 1

Lemme VII.18. Si est une fonction mesurable telle que , = 0 et si a > 0, s R,


X

es d e(a|s|) ,

(VII.19)

alors LE (X , ) et on a, pour tout r > 1,


(r ) E

r+1 a. r1

Dmonstration du lemme VII.17. Le domaine de , dom , est un intervalle dextrmits a < b, a R {}, b R {+}. Pour tout t 0, tant convexe s.c.i, { t} est un intervalle ferm dextrmits a a(t) b(t) b. Donc, pour tout t 0 P( (X ) > t) = P(X < a(t)) + P(X > b(t)) Soit m = E[X ]. Comme (m) = 0, on a a(t) m. Or pour tout u m, il est bien connu que : P(X u) exp( (u)) (VII.20)

VII.2. Conditions ncessaires pour une I.T.C.

191

Si a(t) > a, on voit facilement grce la continuit de sur ]a, b[ que (a(t)) = t ; donc, daprs (VII.20), P(X < a(t)) et . Si a(t) = a, on a : P(X < a) = lim P(X < a 1/n) lim exp( (a 1/n)) = lim 0 = 0
n+ n+ n+ (i) (ii)

(i) venant de (VII.20), et (ii) de a 1/n / dom . Ainsi, dans tous les cas, P(X < a(t)) et , et de mme, P(X > b(t)) et . Do t 0, P( (X ) > t) 2et . Enn, une intgration par partie donne, en utilisant (VII.21) en () : E e
(X ) + 0 +

(VII.21)

e P( (X ) > t/) dt =
+

e dt +
0

et P( (X ) > t/) dt

1+2
0

e(11/)t dt =

1+ . 1

Dmonstration du lemme VII.18. Soit X une variable alatoire de loi . Notons la Log-Laplace de (X ), alors (VII.19) exprime que (s) (a|s|), ce qui entrane, en prenant les conjugues convexes que t R, le lemme VII.17, on a pour tout [0, 1[ :
|t| a

(t). Par consquent, daprs

1+ |(X )| E e ( a ) E e ((X )) . 1 Or, tant convexe, on a pour tout t R : (|t|) (t), et donc
|(X )| 1+ . E e ( a ) 1

Enn

1+ r1 r , 1 r+1
(r 1)|(X )| E e ( (r+1)a ) r,

donc do

(r ) E

r+1 a. r1

192

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

Dmonstration de la proposition VII.15. Soit ; daprs la proposition VI.42, (VII.1) quivaut s 0, es( , ) d (as).
X

log

Comme , on a aussi s 0, es( , ) d (a|s|).


X

log

Ainsi, satisfait (VII.19) et donc, daprs le lemme VII.18, LE (X , ) et pour tout (r ) r+1 r > 1, E r a. 1 Dmonstration de la proposition VII.16. Daprs ce qui prcde, pour toute fonction 1-Lipschitzienne borne, on a pour tout [0, 1[ exp (|(x) , |/a) d(x)
X

1+ . 1

En utilisant la continuit gauche de , un argument dapproximation et le thorme de Fatou, on dduit que cette ingalit reste vraie pour toute fonction 1-Lipschitzienne non borne. En particulier, pour tout x0 X et pour tout [0, 1[ on a : exp (|d(x, x0 ) d( . , x0 ), |/a) d(x) +
X

Or, en notant m = d( . , x0 ), , on a e3
X2 (ii)
(d( . , . )/3a)

d2

(i)

exp 3
X2

d(x, x0 ) m d(y, x0 ) m 2m + + d2 (x, y ) 3a 3a 3a


2
(2m/a)

exp (|d(x, x0 ) m|/a) d(x) e


X

< +

o (i) vient de lingalit triangulaire et de la croissance de et (ii) de la convexit de . Il suft de prendre = 1/3, pour obtenir le rsultat.

VII.3. Conditions sufsantes pour une I.T.C. convexe. Critres intgraux.

193

VII.3

Conditions sufsantes pour une I.T.C. convexe. Critres intgraux.

Dans cette section, nous allons voir que les propositions VII.15 et VII.16 admettent des rciproques partielles dans le cas o Cquad , hypothse que nous ferons dans toute cette section.

VII.3.1

Majoration de la transforme de Laplace dune variable alatoire de LE (X , ).

Les rsultats que nous allons exposer maintenant sont issus du travail de Kozachenko et Ostrovski (voir [39] et [10] p. 63-68). Commenons par une Dnition VII.22. Nous dirons que vrie la proprit Sub (X , ) si, et seulement si, , = 0 et a 0, s R, log
X

es d (a|s|)

(VII.23)

Clairement, une fonction mesurable telle que , = 0 vrie Sub (X , ) si, et seulement si, 1 log X es d 1 < +, () = sup |s| s=0
1 et dans ce cas, on voit facilement que () est le plus petit a pour lequel (VII.23) est vrie. La proposition suivante est immdiate : 1 () a. Proposition VII.24. satisfait T ( , a) si et seulement si pour toute ,

Avec ces nouvelles notations, le lemme VII.18 snonce :


1 () < +

et

, = 0

r1 r+1

(r ) E

1 ().

Loutil principal de cette section est le thorme suivant d Kozachenko et Ostrovski : Thorme VII.25. Il existe une constante m ne dpendant que de la fonction , telle que (r ) 1 LE (X , ) telle que , = 0, () rm E . On peut prendre : m = e max o u [0, 1[ est tel que u s c 1u et u3 2 1u 1 1 (2) 1 c (1 u) u , ,

194

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

Remarque VII.26. 1 est une norme sur On peut montrer (voir [10] thm 4.1) que 0 , = 0}, qui est donc, daprs le thoLE (X , ) = { LE (X , ), (r ) rme VII.25, quivalente la norme de Luxembourg . E . Pour dmontrer le thorme VII.25, nous allons introduire la quantit intermdiaire suivante :
2 () = sup k 2

1 (k ) k

avec

=
X (r ) E .

||k d

1 k

2 Proposition VII.27. Si LE (X , ), alors ()

Cette proposition est immdiate au vu du lemme suivant : Lemme VII.28. Pour toute LE (X , ), on a pour tout k 1 :
k

r1/k k 1 (k )

(r ) E

(VII.29)

Dmonstration du lemme VII.28. Si k 1, alors, pour tout x 0, on a xk e


( x)

= xk e sups0 {sx(s)} = inf xk e(s)sx


s0

sup inf x e
x 0 s 0

k (s)sx

inf e(s) sup xk esx .


s0 x 0

Or, on voit facilement que pour s > 0, sup xk esx =


x 0

k es

. En particulier, en pre-

nant s = 1 (k ), on a xk e Ainsi, x 0, On en dduit, en prenant x = Donc en prenant =


| | ,
( x)

ek

k e1 (k )

k 1 (k )
k

k 1 (k )

( x)

avec > 0 puis en intgrant par rapport que e


X (
||

k 1 (k )

1/k

) d

(r ) E ,

on obtient (VII.29).

VII.3. Conditions sufsantes pour une I.T.C. convexe. Critres intgraux.

195

Dmonstration du thorme VII.25. 1 2 Grce la proposition VII.27, il suft de dmontrer lingalit () m (). Une majoration prliminaire :
+

e d = 1 +
X k=2 +

sk k! 1 k! 1 k!

d 1 +
X k=2 k

|s|k k!

k k k

=1+
k=2 +

|s|k 1 (k ) |s|k 1 (k )

1 (k ) k k
2 ()k

1+
k=2

Comme

kk 2 () ek , on a, en posant m = e k!
+

es d 1 +
X k=2

m|s|k 1 (k )

(VII.30)

Majoration pour les petites valeurs de s : Dans toute la suite de la dmonstration, u dsignera un nombre rel appartenant [0, 1[ tel que : u3 u s c et 2. (VII.31) 1u 1u u1 (2) . Pour |s| s1 , on a, daprs (VII.30) Posons s1 = m
+

es d 1 +
X k=2

m|s| 1 (2)

=1+

m|s| 1 (2)

1
2

m|s| 1 (2)

1+

m|s| 1 (2)

1u

= 1 + c

m|s| 1 (2) c (1 u)

Or

m|s|

1 (2) c (1 u) 1 (2) c (1 u) c (1 u) () venant de (VII.31). m Donc, en posant c1 = , on a pour |s| s1 1 (2) c (1 u) es d 1 + (c1 |s|) exp (c1 |s|).
X

ms1

( )

s ,

(VII.32)

196

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

Majoration pour |s| s1 : Pour tout |s| s1 , soit ks lunique entier 2, tel que : m|s| 1 (k Posons
ks s)

et

1 (k

m|s| <u s + 1)

(VII.33)

A1 (s) =
k=2

m|s| 1 (k )

et

A2 (s) =
k=ks +1

m|s| 1 (k )

. 1 1. k

m|s| m|s| , donc pour tout 2 k ks , u u Par consquent, 1 tant concave et croissante, on a pour tout 2 k ks k km|s| k (m|s|) 1 ((m|s|)) = . 1 (k ) 1 |s | |s | |s | mu mu mu Tout dabord, daprs (VII.33), ks On en dduit que pour tout 2 k ks ,
|s | mu m|s| . 1 (k ) k

Do
ks

A1 (s)
k=2

m|s| u

k ks

kk

k=2

m|s| u

k!

(VII.34)

Par ailleurs,
(i) +

A2 (s)
k=ks +1

uk =

(iii) uk+1 u3 (ii) 2 ks 1u 1u

m|s| u

(VII.35)

o (i) et (iii) dcoulent de (VII.33) et (ii) de (VII.31). Finalement, daprs (VII.30), (VII.34) et (VII.35), on a
ks

es d 1 + A1 (s) + A2 (s) 1 +
X ks k=2

m|s| u

k!

m|s| u

=
k=0

m|s| u

k!

exp

m|s| u

VII.3. Conditions sufsantes pour une I.T.C. convexe. Critres intgraux.

197

Ainsi, daprs (VII.32), pour tout s R, es d exp (c2 |s|),


X

avec
2 () max c2 = e 1 2 ce qui entrane () m ().

1 1 (2)

1 c (1 u) u ,

VII.3.2

Applications aux I.T.C.

Grce au thorme VII.25 et la proposition VII.24, on dduit sans peine le Thorme VII.36. Soit Cquad , il y a quivalence entre 1. Il existe a > 0 tel que satisfait T ( , a) 2. = { , , } est une partie borne de LE (X , ). Plus prcisment, satisfait T ( , a) et , ,
(r ) E

(r ) E

r+1 a. r1

M. satisfait T ( ,

rm M )

(VII.37)

o m est la constante dnie la proposition VII.25. De mme, dans le cas dun cot mtrique, on a le Thorme VII.38. Soient (X , d) un espace polonais et Cquad . Il y a quivalence entre 1. Il existe a > 0 tel que satisfait Td ( , a). 2. Il existe b > 0 tel que Plus prcisment, satisfait Td ( , a)
X2 X2

exp

d(x,y ) b

d(x)d(y ) < +.

exp

d(x, y ) 3a

d(x)d(y ) < +

et 2. satisfait Td ( , avec M := d(., .)


(r ) LE (X 2 ,2 )

rm M )

(VII.39)

198

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

Dmonstration. Il suft de montrer que pour toute 1-Lipschitzienne pour d(., .), on a , Or, pour tout > 0, on a e
( | ( x)

(r ) E

d(., .)

(r ) LE (X 2 ,2 ) .

, |/)

(i)

d(x)
X2 (ii)

(|(x)(y )|/)

d(x)d(y )

X2

(d(x,y )/)

d(x)d(y )

On obtient (i) grce lingalit de Jensen applique la fonction convexe U (x) = exp( (|x|)) et (ii) vient du caractre 1-Lipschitzien de .

VII.4
VII.4.1

Exemples et estimation des constantes.


Estimations des normes de jauge.

Le lemme suivant donne une majoration lmentaire des normes de Luxembourg intervenant dans les rsultats prcdents. Lemme VII.40. Soit Cquad , et r > 1. 1. Si dom = R, alors pour toute LE (X , ), > 0,
(r ) E

max

1 log ,

exp( ( ||))d log(r)

2. Si dom est major, alors LE (X , ) = L (X , ) et a 1

(r ) E

1 r

avec a la borne suprieure de dom et r = sup{x : (x) log(r)}. Dmonstration. (1) Posons =
(r ) .

Si

1 ou si
X

exp ( ||) d = +, il ny a rien montrer.


X

1 Supposons donc que et que On a alors r


(i)

exp ( ||) d < +.

exp
X

||

(ii)

exp

||

(iii)

d
X

exp ( ||) d

VII.4. Exemples et estimation des constantes.

199

o (i) vient de la dnition de la norme de jauge, (ii) de lingalit de Jensen, et (iii) de lingalit (|x|/M ) (|x|)/M , pour tout M 1. (2) Tout dabord, e
X
(||/)

d < +

(|| a
(r ) E ,

p.s.) on a

Ainsi, LE (X , ) L (X , ), et en prenant = ailleurs, e


X
(||/)

(r ) E .

Par

d e

/)

Donc en prenant = , le membre de droite est major par r et on en dduit que r L (X , ) LE (X , ) et


(r ) E

. r

Remarque VII.41. Il est facile de voir que si Cquad , dom est born si, et seulement (s) si, dom = R et lim = a < +. s+ s

VII.4.2

Exemples.
s2 2

+ et donner, dans ce cas particulier, un contrle plus appropri des constantes. t2 si t R+ 2 (t) = Un calcul immdiat donne 2 . Dans un premier temps nous al0 sinon lons voir comment rafner lapproche de Djellout, Guillin et Wu pour obtenir les bornes de Bolley et Villani, un facteur numrique prs. Nous aurons besoin de la proposition suivante : Proposition VII.42. Soit X une variable alatoire centre telle que E[eX ] < + pour un certain > 0. Alors, pour tout s 0, 2scM , E esX exp 2 avec c = si X est symtrique, , et M = inf 0 : E exp 3.1 sinon. De plus, on a la majoration > 0, M 1 1 + log E e
2 X 2 2 2

Nous allons tudier les I.T.C. associes la fonction : 2 (s) =

si s R+ sinon

1 4

X2 22

e .

(VII.43)

200

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

Dmonstration. Tout dabord, il est dmontr dans [10], page 7, que pour tout s 0, on a + (sc)2k E X 2k sX E e , (2k )! k=0 c valant 1 dans le cas o la variable X est symtrique, et 4 3.1 dans le cas contraire. En posant (X ) = sup
k 1
2k

2k .k !E[X 2k ] , on a clairement (2k )! E esX exp 2 (sc (X )) .

Montrons que (X )

2M : 2k e
k

En utilisant lingalit x

2k

e 2 , on en dduit
2k

x2

E X (en particulier, E[X 2 ]

2k e

M 2k

2M ). Par consquent, pour tout k 1,

2k .k !E X 2k 22k .k !.k k 2k e. M . (2k )! (2k )!ek En utilisant la formule de Stirling, ie p 1, on trouve facilement |p | 1 , 12p p! =
1

2p.pp .ep+p ,

2k .k !E X 2k e1+ 8k M 2k , (2k )! 2 2k .k !E [X 2k ] e 64 1 M 2M. (2k )! 28 M 1 + log E e


X2 2 17

puis pour k 2,
2k

Montrons lingalit . (VII.44)

Si M 1 est vraie. Supposons M > 1 ; on a e


X2

M2

=E e

X2 2M 2

M2

E e

X2 2

Donc M 2 log E e 2 1 + log E e (VII.44) la variable alatoire X .

X2 2

. On obtient, ensuite (VII.43) en appliquant

VII.4. Exemples et estimation des constantes.

201

On en dduit le Corollaire VII.45.


(X , ), 1. Si est une partie de LE2

P (X ), o M = sup ,

(e) , E2

4 2 3.1M

2 H ( | )

(VII.46)

2. Si (X , d) est un espace polonais et sil existe > 0 tel que ed


X2
2 (x,y )

d(x)d(y ) < +,

alors, P (X ), De plus, d( . , . )
(e) LE (X 2 ,2 )
2

Td (, )

2 d( . , . )

(e) LE (X 2 ,2 )
2

2 H ( | )

(VII.47)

1 + log
X2

e2 d(x,y)2 d(x)d(y ).

Pour terminer cette section, nous allons voir comment obtenir directement les bornes de Bolley et Villani sans passer par lestimation des normes de jauge. Nous aurons besoin du lemme suivant : Proposition VII.48. Si X une variable alatoire symtrique et centre telle que 2 E[eX ] < +, alors s 0, avec M = 1 + 2 log E [eX 2 /2 ]. E esX exp (sM )2 2 ,

Dmonstration. Pour s 1, on a
+

E e

sX

1+
k=1

(ii) s2k E X 2k (i) s 2k E X 2k 2 s2 X 2 /2 1+ = E e E eX /2 k (2k )! 2 .k ! k=1

s2

en utilisant lingalit (2k )! 2k .k ! en (i), et lingalit de Jensen en (ii). Pour s 1, E e


sX

E e

s2 /2+X 2 /2

s 2 /2

E e

X 2 /2

s2

202

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

Ainsi, pour tout s 0, on a E esX es avec M = 1 + 2 log E [eX 2 /2 ].


2 /2

E eX

2 /2

s2

= exp

(sM )2 2

On en dduit facilement le corollaire suivant. Corollaire VII.49. Soit : X R+ , une fonction mesurable. Alors, pour toute P (X ), 1 + 4 log
X

VT

e(x)2 d(x) 2 H ( | ).

VII.5

I.T.C. convexes pour des fonctions de cot non mtriques.

Dans cette section, nous allons utiliser les rsultats des sections VII.2 et VII.3 pour tudier les I.T.C. associes des cots de transport de la forme c(x, y ) = q (d(x, y )). Dans toute la suite, q : R+ R+ sera une fonction convexe strictement croissante, et (X , d) un espace polonais. Nous poserons c(x, y ) = q (d(x, y )) et nous noterons Tc le cot de transport optimal associ c. Le rsultat principal de cette section est le thorme suivant : Thorme VII.50. Si Cquad et si q satisfait la condition 2 , ie K > 0, x R+ , q (2x) Kq (x),

alors les deux propositions suivantes sont quivalentes : Tc (, ) 1. a > 0, P (X ), H ( | ) , a c(x, y ) 2. b > 0, exp d(x)d(y ) < +. b X2 Pour dmontrer le thorme VII.50, nous allons gnraliser lapproche dveloppe dans [5], en commenant par tendre lingalit (VII.11) dautres transformations convexes q que les fonctions puissances :
1 Proposition VII.51. Soit x0 X , et posons pour tout x X , (x) = 2 q (2d(x, x0 )), alors P (X ), q (Td (, )) Tc (, ) V T . (VII.52)

VII.5. I.T.C. convexes pour des fonctions de cot non mtriques.

203

Dmonstration. Tout dabord, pour tout (, ), on a, daprs lingalit de Jensen, q


X2

d(x, y ) d (x, y )

X2

q (d(x, y )) d (x, y ) ; on en dduit immdiatement

la premire ingalit. Pour tout x, y X , on a en utilisant lingalit triangulaire et la convexit de q c(x, y ) = q (d(x, y )) q (d(x, x0 ) + d(y, y0 )) 1 [q (2d(x, x0 )) + q (2d(y, x0 ))] 2 = (x) + (y ). Donc, c(x, y ) d (x, y ), et par consquent, Tc (, ) Td (, ) = (daprs la proposition VI.7).
VT,

Dmonstration du thorme VII.50. Montrons que (1) entrane (2). Daprs lingalit VII.52, (1) implique que pour toute P (X ), on a q (Td (, )) H ( | ) . a Comme x tel que
q (x) a

est convexe s.c.i, le thorme VII.16 entrane quil existe a >0

q (d(x, y )/a ) d2 (x, y ) < +. Soit n un entier naturel tel que a 2 X 2n a ; on a alors, en utilisant la condition 2 x x x x R+ , q (x) = q a q 2n K nq . a a a Par consquent, exp exp
X2

c(x, y ) d(x)d(y ) K na

exp
X2

q (d(x, y )/a ) d(x)d(y ) < +. a

Montrons que (2) implique (1). Daprs le thorme VII.38 appliqu d , il suft de montrer quil existe x0 X et u > 0 tels que exp
X2

d ( . , . ) d2 u

exp
X2

q (2d( . , x0 )) + q (2d( . , x0 )) d2 < +. 2u

Or, en utilisant une nouvelle fois la condition 2 et la convexit de q , on voit sans peine 2 K que la dernire intgrale est majore par exp c( . , x0 ) d . Mais, par hyu X c(x, y ) pothse, exp d(x)d(y ) < +, donc en particulier, pour presque b X2 1 tout x0 X , exp c( . , x0 ) d < +, do le rsultat, en prenant u = Kb. b X

204

VII. Mthodes dOrlicz pour certaines ingalits de transport convexes

ANNEXE A

Annexe du chapitre III

A.1

Preuve du lemme Propagation du chaos

Montrons le lemme suivant que nous avons utilis dans lintroduction : Lemme (Propagation du chaos). Soit X un espace polonais, et pour tout n N , soit n une probabilit sur X n . On suppose que chaque n est symtrique, ie pour toute permu1 tation de {1, . . . , n}, n f = n , en notant f : (x1 , . . . , xn ) (x(1) , . . . , x(n) ). Il y a quivalence entre les propositions suivantes : 1. La loi de Ln = 2. Pour tout k N et pour toutes fonctions f1 , . . . , fk continues bornes sur X , on a f1 (x1 ) fk (xk ) dn
Xk n+ Xk 1 n n i=1 xi

sous n converge troitement vers .

f1 (x1 ) fk (xk ) dk .

Dmonstration. Montrons que 1 implique 2 : Soit f1 , . . . , fk Cb (X ), f1 (x1 ) fk (xk ) dn


Xk Xk k

f1 (x1 ) fk (xk ) dk
Xk k

f1 (x1 ) fk (xk ) dn
Xn i=1

Ln , fi dn

+
X n i=1

Ln , fi dn
Xk

f1 (x1 ) fk (xk ) dk

206

A. Annexe du chapitre III

Le deuxime terme tend vers 0 par hypothse ; reste voir quil en est de mme du premier. Or, celui ci peut scrire : I=
Xk

1 f1 (x(1) ) fk (x(k) ) n ! S i=1


n

1 n

xj , fi
j =1

dn ,

o Sn dsigne lensemble des permutations de {1, . . . , n}. Soit M un majorant des fi , on a en notant F(k, n) lensemble des applications de {1, . . . , k } dans {1, . . . , n} : I=
F(k,n) injectives

1 1 f1 (x(1) ) fk (x(k) ) k n ! S n
n

f1 (x(1) ) fk (x(k) )
F(k,n)

(n k )! 1 k n! n

f1 (x(1) ) fk (x(k) ) +

1 nk

f1 (x(1) ) fk (x(k) )
F(k,n) non injectives

Mk

(n k )! 1 k n! n

n! 1 + k (n k )! n

nk

n! (n k )!

= 2M k 1

nk (n

n! k )!

qui tend vers 0 quand n . Montrons que 2 implique 1 : Notons Qn = Ln (Ln ). Pour montrer que Qn converge troitement vers , il faut montrer que pour tout ouvert O de P (X ), on a lim inf Qn (O) (O).
n+

Cela revient dmontrer que pour tout ouvert O contenant , on a Qn (O) 1.


n+

(A.1)

Par dnition de la topologie de la convergence troite, il suft de montrer que (A.1) est vraie pour O de la forme
p

P (X ) :
i=1 X

fi d
X

fi d < i ,

avec i R+ et fi Cb (X ). Comme (A.1) est stable par intersection nie, il suft de traiter le cas p = 1. Or, si f Cb (X ), alors L n , f
Xn 2

dn =

1 n2

f (xi )f (xj ) dn
i, j Xn

2 ,f n

f (xi ) dn + , f
i Xn 2

1 n

f (x1 )2 dn +
Xn

n1 n

f (x1 )f (x2 ) dn 2 , f
Xn Xn

f (xi ) dn + , f

A.2. Contrles non-asymptotiques pour le thorme de Sanov

207

qui tend vers 0, daprs 2. Grce lingalit de Markov, on en dduit que Qn :


X

f d
X

f d <

= n
X

f dLn
X

f d <

1.
n+

A.2
A.2.1

Contrles non-asymptotiques pour le thorme de Sanov


Bornes suprieures exactes :

Le premier thorme de cette annexe est d I. Csiszr. Thorme A.2 (Csiszr, [19] thm. 1). Soit A un ensemble convexe ferm de PG (X ). On suppose que H ( A| ) < + et on note la I-projection gnralise de sur A. Si n (Ln A) > 0, alors pour tout k {1, . . . , n}, on a
k H n A, k

1 log n (Ln A)en H( A|) . [n/k ]

(A.3)

On en dduit immdiatement le corollaire suivant dont nous nous servirons dans la section III.4 : Corollaire A.4. Si A est un convexe ferm, tel que H ( A| ) < + alors pour tout n 1, n (Ln A) en H( A|) . Dmonstration. Tout dabord, dn 1 IA (Ln ) A, n = n n d (Ln A) et on calcule facilement
n = log n (Ln A). H n A, n n De plus, les marginales unidimensionnelles de n A, n tant toutes gales A , on a, daprs la proposition II.4 n n n H n = H n + n H ( n A, n A, n (A ) A | ) ,

(A.5)

et dautre part,
n n n H n = H n + n H ( n A, n A, n (A ) A| ) .

208

A. Annexe du chapitre III

On en dduit que
n n n + n [H ( n = H n H n A | ) H ( A | )] . A, n A, n

Admettons un instant que n A A ; alors, daprs la proposition II.26 , on a


n H ( n A | ) H ( A | ) H ( A| )

et donc
n n + n H ( A| ) . H n H n A, n A, n

Soit
n log n (Ln A)en H( A|) H n . A, n

En appliquant encore une fois la proposition II.4 , on voit facilement que


n k H n [n/k ] H n . A, n A, k

Do le rsultat. Pour nir, montrons que n A appartient A. Pour cela, posons MG (X ) = M(X ) : g G,
X

|g | d| | < + .

Lensemble MG (X ) sera muni de la G-topologie, ie la moins ne rendant continues les applications X g d , avec g G. Pour cette topologie, MG (X ) est un espace vectoriel topologique localement convexe qui a pour dual topologique : MG (X ) = { , g : g G}. Par hypothse, G contient lensemble Cb (X ) des applications continues bornes ; on en dduit facilement que PG (X ) est ferm, et que MG (X ) est spar. Si n A ntait pas dans A (qui est ferm dans MG (X )), il existerait, daprs le thorme de Hahn-Banach, une fonction g G telle que : n A , g < inf { , g : A} := . Or, n A, g = - contradiction. E[ LX IA (LX E[1 IA (LX n ,g 1 n )] n )] = X X P(Ln A) P(Ln A)

A.2. Contrles non-asymptotiques pour le thorme de Sanov

209

Remarque A.6. Dans [19], I. Csiszr, a tabli lingalit (III.38), sans hypothse topologique sur A, mais pour des ensembles A presque compltement convexes : Un ensemble A est dit compltement convexe si pour tout espace de probabilit, (, A, P ) et tout noyau de transition N : A, la mesure de probabilit N.P P (X ) dnie par N.P (B ) = N (, B ) dP ( ), appartient A. Un ensemble A est dit presque compltement convexe sil existe une suite croissante An de sous-ensemble compltement convexes de A telle que A Pf (X )
n

An ,

o Pf (X ) dsigne les mesures de probabilit ne chargeant quun nombre ni de points.

A.2.2

Bornes infrieures exactes :

La proposition suivante, dmontre en exercice dans le livre de J.D. Deuschel et D.W. Stroock, donne une borne infrieure non-asymptotique pour le thorme de Sanov. Proposition A.7. Soient A une partie de PG (X ) telle que {x : Lx n A} est mesurable, PG (X ), avec et n (Ln A) > 0. Alors, n (Ln Ac ) 1 1 log n (Ln A)en H( |) H ( | ) n + log n (Ln A) n (Ln A) n 1 (A.8) n ne (Ln A) Dmonstration. d n n Posons h = d : Lx n , et A = {x X n A Alors, n (Ln A) n (A) =
e A

et

h(x) > 0}.


e A

) h(x) d n (x) = n (A

e log h(x) d n (x) n (A)

Donc, daprs lingalit de Jensen, log


n

(Ln A) log

(A)

e A

log h(x) d n . ) n (A

Comme H ( n | n ) =

log h(x) d n , on en dduit que H ( n | n ) n (A) +


ec A

log n (Ln A) log n (A)

log h(x)h(x) dn n (A)

(A.9)

210

A. Annexe du chapitre III

Or, pour tout x > 0, x log x 1 , donc e


ec A

log h(x)h(x) dn n (A)

n (A) e n (A)

1 e n (A)

(A.10)

Enn, en reportant (A.10) dans (A.9) et en utilisant les relations suivantes : H n n = n H on obtient facilement (A.8). Considrons prsent le cas particulier dun convexe C dni par des contraintes de type moment ie, C est de la forme C= P (X ) :
X

et

n (A) = n (Ln A),

F d < +

et
X

F d K ,

avec F : X B une application mesurable valeurs dans un espace de Banach sparable muni de sa tribu borlienne et K un convexe ferm de B . Pour tout > 0, nous poserons C = P (X ) :
X

F d < +

et
X

F d K ,

o K = {x B : d(x, K ) }. Nous noterons ZF la transforme de Laplace de F , image de par F , et F , sa LogLaplace. Lemme A.11. Si admet une I-projection sur C scrivant = B , alors pour tout > 0, 1 1 log n (Ln C )en H( |) log P n n 1 n
n e ,F , ZF ( )

avec

F (Yi )
i=1 X

F d + . (A.12)

avec (Yi )i une suite de variables i.i.d de loi . Dmonstration. n (Ln C ) = d d ( x ) (xn ) dn (x) 1 d d d = 1 IC (Lx ) exp n L , log dn (x) n n d d = en H( |) 1 IC (Lx ) exp n L , log n n d 1 IC (Lx n)

dn (x)

A.2. Contrles non-asymptotiques pour le thorme de Sanov

211

Or, log d = , F F ( ), et donc d d Ln , log d

1 , n

F (xi )
i=1 X

F d

Posons C = P (X ) :
X

F d < +

et
X

F d
X

F d

C ,

on voit que n (Ln C )en H(


| )

x n 1 IC e (Ln )e

1 , n

Pn
i=1

F ( xi )

R
X

F d

dn (x)

en =e

x n 1 IC (x) e (Ln ) d

1 n

F (Yi )
i=1 X

F d

212

A. Annexe du chapitre III

ANNEXE B

Preuve du thorme V.8

La preuve du thorme V.8 est contenue en plusieurs morceaux dans les articles de F. Gamboa et E. Gassiat ([34, 22, 35, 36]). Par soucis de clart, nous donnons ci-dessous une preuve complte de ce thorme. Nous aurons besoin du lemme suivant qui donne la convergence des solutions dune suite de problmes de minimisation de fonctions convexes (voir [60] pour des rsultats plus gnraux).

Lemme B.1. Soit (Hn )n une suite de fonctions convexes dnies sur Rk valeurs dans R {+} et H une fonction convexe sur Rk valeurs dans R {+}. Supposons que

pour tout n, =dom H dom Hn , pour tout n sufsamment grand, lensemble Argmin Hn de tous les minimisants de Hn soit non vide, H admet un unique minimisant v appartenant dom H ,

la suite (Hn )n converge simplement vers H sur dom H , alors, pour tout > 0, il existe N N tel que pour tout n N , Argmin Hn B (v , )

214

B. Preuve du thorme V.8

Dmonstration. Raisonnons par labsurde, et supposons quil existe r > 0 tel que
v | > r. Argmin Hn et |vn )n telle que, pour tout n, vn B (v , r) dom H et une suite (vn

Premire tape : r Soit v n B v , 3 telle que Hn ( vn ) = min Hn (v ) : v B v , r 3

n+

La suite ( vn )n est borne ; soit v une valeur dadhrence de cette suite, et telle que lim v (n) = v . (Hn )n est une suite de fonction convexes convergeant simplement vers

H sur dom H , la convergence est donc uniforme sur tout compact inclus dans dom H (voir par exemple [38], Thm 3.1.4 p.105). En particulier, H(n) ( v(n) ) H ( v(n) ) H(n) H 0

, B (v , r 3 ) n+

De plus, par continuit de H , H ( v(n) ) H ( v ), donc H(n) ( v(n) ) H ( v ).


n+ n+

Or, H(n) ( v(n) ) H(n) (v ), donc en passant la limite, H ( v ) H (v ). La fonction H natteignant son minimum quau point v , on en dduit v = v . Par consquent ( vn )n converge vers v . Deuxime tape : )), est croissante. + t( vn vn Pour tout n N, la fonction hn : [0, 1] R : t Hn (vn 2r vn vn ) v | r . Soit tn [0, 1] tel que 3 |vn + tn ( Posons zn = vn + tn ( vn vn ), alors pour tout n, Hn (zn ) Hn ( vn ) 2r |zn v | r 3

et

(B.2)

Quitte extraire une sous-suite, on peut supposer que (zn )n converge vers z vriant 2r |z v | r. La suite (Hn )n convergeant uniformment vers H sur B (v , r), on 3 conclut facilement que lim Hn (zn ) = H (z ) et, en passant la limite dans lingalit
n+

(B.2), que H (z ) H (v ), ce qui entrane que z = v - absurde.

215

Dmonstration du thorme V.8. Preuve des points 1. et 2. Pour toute P (Rn ), E [ Ln , F ] = E 1 = n 1 n


n

zi f1 (xn i ), . . . ,

... . . . . E [Z ] . ... . n fk (xn 1 ) . . . fk (xn )

i=1 f1 (xn 1)

1 n

zi fk (xn i)
i=1

f1 (xn n)

= An E [Z ], donc n (K ) = { P (Rn ) : An E [Z ] K } . Notons Sn , le support de n , et admettons un instant que n0 , n n0 ,


1 A n (K ) co Sn = .

(B.3)

Nous prouverons (B.3) plus loin. Remarquons que lon a aussi, pour tout 0, n n0 ,
1 A n (K ) co Sn =

(B.4)

dom Zn =] , [n tant ouvert, on peut appliquer le thorme II.41 et conclure que n admet une I-projection n, sur n (K ), ce qui prouve le point 1., n, vrie d exp At n, n un, , . = , dn Zn (At n un, )
k o u n, R est un minimisant de

Gn, (u) = n (At n u) inf u, c .


y K

Mais, pour tout x ] , [n n (x) = (x1 ) + + (xn ) et pour tout u Rk , u F (xn ) , 1 n . . u = At . n u F (xn ) , n n

216

B. Preuve du thorme V.8

Par consquent, Gn, (u) = n 1 n


n

F (xn i ),
i=1

u u inf ,y y K n n

= nHn,

u n
u

donc u si, n, n, minimise Gn, si, et seulement n F (xn 1 ), vn, un, . . En posant vn, . = n et wn, = n F (xn ), vn,

minimise Hn, . , on obtient le point 2.

Preuve du point 3.
Rn,

1 = E [Ln ] = n, n

zi d , n, (dz )xn i
i=1 R

mais, pour tout w ] , [, x dw = (w),


R

donc, pour tout i zi d n, (z ) =


R R n n vn, , F (xi ) xn i i=1 n ) = ((w z d(wn, n, )i ) = vn, , F (xi ) i

et
Rn,

1 = n

Preuve de (B.3). Montrons quil existe n0 tel que pour tout n n0 ,


1 A n (K ) co Sn = n Soit J lenveloppe convexe (ferme) du support de . On voit facilement que co Sn = J .

Montrons donc, que pour tout n assez grand, il existe z n (J )n tel que An z n K .

Notons C (X ) lensemble des fonctions continues sur X et valeurs dans J . Pour toute g C (X ), nous poserons :
n n z n (g ) = (g (xn 1 ), . . . , g (xn )) (J )

217

Remarquons que pour toute g C (X ), 1 An z (g ) = n


n n n g (xn i )f1 (xi ), . . . , i=1

1 n

n n g (xn i )fk (xi ) i=1

On en dduit, daprs lhypothse (2) de (V.7), que pour toute g C (X ), An z n (g )


n+ X

g (x)F (x) dR(x).

Or, daprs lhypothse (5) de (V.7), il existe g0 C (X ) telle que c0 :=


X

g0 (x)F (x) dR(x) K.

Raisonnons par labsurde et supposons quil existe une suite strictement croissante dentiers (np )p telle que pour tout p et toute g C (X ), Anp znp (g ) = c0 . Pour tout p, {Anp znp (g ) : g C (X )} Rk est convexe et ne contient pas c0 . Daprs le thorme de Hahn-Banach, il existe unp Rk tel que unp = 1 et unp , c0 sup
g C ( X )

unp , Anp znp (g ) .

Par compacit, on peut supposer que unp converge vers u. Pour tout g C (X ), unp , c0 unp , Anp znp (g ) donc, en passant la limite dans cette ingalit, on obtient u, c0 Par suite pour toute g C (X ), u,
X

u,
X

g (x)F (x) dR(x) .

(g g0 )(x)F (x) dR(x)

0.

Soit B la boule unit de C (X ) (ensemble des fonctions continues sur X ). Alors pour r > 0 assez petit, g0 + rB C (X ). On en dduit que pour toute g rB , u,
X

g (x)F (x) dR(x)

0 ce qui entrane par symtrie et homognit que, pour

toute g C (X ), g (x) u, F (x) dR(x) = 0.


X

On en dduit que R ( u, F (x) = 0) = 1

218

B. Preuve du thorme V.8

et ceci entrane, daprs lhypothse (1) de (V.7), que u, F (x) = 0 pour tout x X , ce qui contredit lhypothse (3) de (V.7). Preuve du point (4). La fonction H( . ) =
X

. , F (x) dR(x) inf . , y


y K

vrie et on a clairement

dom H = v Rk : x U,

v, F (x) ] , [

dom H dom Hn, n , o Hn, n est la fonction convexe donne par 1 Hn, n (v ) = n
n

v, F (xn v, y . i ) inf
i=1 y K
n

Pour tout v dom H , la fonction v, F ( . ) est borne, donc daprs lhypothse (2)

de (V.7), (Hn, n )n converge simplement vers H sur dom H . De plus, daprs lhypothse (6), la fonction H atteint son minimum en un unique point v dom H . On peut donc conclure, en utilisant le lemme B.1, que vn, n converge vers v . Preuve du point (5). Pour toute g C (X ), on a
Rn, n , g =

1 n

n n n vn, n , F (xi ) g (xi ). i=1

Le lemme V.24 entrane quil existe un segment J inclus dans ] , [ et m tel que pour tout n m, n m,
x J n vn, n , F (xi ) J

et

x X ,

v , F (x) J.

Si M = sup (x), on a donc, daprs lingalit des accroissements nis, 1 n


n n v , F (xn 0. i ) g (xi ) M sup |g |. sup F . v vn, n i=1 n+

Rn, n , g

219

Enn, 1 n
n

v
i=1

, F (xn i)

g (xn i)

1 n

xn , v , F ( . ) g ( . ) i
i=1

et comme v , F ( . ) g ( . ) C (X ), on a daprs lhypothse (2) de (V.7)


Rn, n , g n+

v , F (x) g (x) dR(x),


X

ceci pour toute g C (X ).

Bibliographie

[1] R. Aebi. Schrdinger diffusion processes. Birkhuser, Basel-Berlin-Boston, 1996. [2] M. Avellaneda, C. Friedman, R. Holmes, and D. Samperi. Calibrating volatility surfaces via relative-entropy minimization. Applied Mathematical Finance, 4(1) :37 64, 1997. [3] S. G. Bobkov, I. Gentil, and M. Ledoux. Hypercontractivity of Hamilton-Jacobi equations. Journal de Mathmatiques Pures et Aplliques, 80(7) :669696, 2001. [4] S.G. Bobkov and F. Gotze. Exponential integrability and transportation cost related to logarithmic Sobolev inequalities. Journal of Functional Analysis., 163 :128, 1999. [5] F. Bolley and C. Villani. Weighted Csiszr-Kullback-Pinsker inequalities and applications to transportation inequalities. paratre aux Annales de la Facult des Sciences de Toulouse, 2005. [6] E. Bolthausen and U. Schmock. On the maximum entropy principle for uniformly ergodic Markov chains. Stochastic Processes and their applications, 33 :127, 1989. [7] J.M. Borwein and A.S. Lewis. Duality relationships for entropy-like minimization problems. SIAM Journal of Control and Optimization, 29 :325338, 1991. [8] J.M. Borwein and A.S. Lewis. Partially-nite programming in L1 and the exitence of maximum entropy estimates. SIAM Journal of Optimization, 3 :248267, May 1993. [9] H. Brezis. Analyse Fonctionnelle. Masson, 1983. [10] V. V. Buldygin and Yu.V. Kozachenko. Metric characterization of random variables and random processes. American Mathematical Society, 2000. [11] J. Van Campenhout and T. Cover. Maximum entropy and conditional probability. IEEE Transactions on Information Theory, 27(4) :483489, 1981.

222

Bibliographie

[12] E. Carlen. Conservative diffusions. Communications in Mathematical Physic, 94 :293316, 1984. [13] P. Cattiaux and F. Gamboa. Large deviations and variational theorems for marginal problems. Bernoulli, 5 :81108, 1999. [14] P. Cattiaux and A. Guillin. Talagrands like quadratic transportation cost inequalities. preprint, 2004. [15] P. Cattiaux and C. Lonard. Minimization of the Kullback information of diffusion processes. Annales de lInstitut Henri Poincar, 30(1) :83132, 1994. and correction in Ann. Inst. Henri Poincar vol.31, p.705-707, 1995. [16] P. Cattiaux and C. Lonard. Large deviations and Nelson processes. Formum Mathematicum, 7 :95115, 1995. [17] P. Cattiaux and C. Lonard. Minimization of the Kullback information for general Markov processes. Sminaire de Probas XXX. Lectures Notes in Maths, 1626 :283 311, 1996. [18] I. Csiszr. I-divergence geometry of probability distributions and minimization problems. Annals of Probability, 3 :146158, 1975. [19] I. Csiszr. Sanov property, generalized I-projection and a conditional limit theorem. Annals of Probability, 12 :768793, 1984. [20] I. Csiszr. Why least squares and maximum entropy ? An axiomatic approach to inference for linear inverse problems. The Annals of Statistics, 19 :20322066, 1991. [21] I. Csiszr, F. Gamboa, and E. Gassiat. MEM pixel correlated solutions for generalized moment and interpolation problems. IEEE Transactions on Information Theory, 45(7) :22532270, 1999. [22] D. Dacunha-Castelle and F. Gamboa. Maximum dentropie et problmes des moments. Annales de lInstitut Henri Poincar, 26 :567596, 1990. [23] A. de Acosta. On large deviations of sums of independent random variables. In Lecture Notes in Math. 1153, 1985. Springer-Verlag. [24] A. Dembo and J. Kuelbs. Rened Gibbs conditioning principle for certain innite dimensional statistics. Studia Scientiarum Mathematicarum Hungarica, 34 :107 126, 1998. [25] A. Dembo and O. Zeitouni. Renements of the Gibbs conditioning principle. Probability Theory and Related Fields, 104 :114, 1996. [26] A. Dembo and O. Zeitouni. Large deviations techniques and applications. Second edition. Springer Verlag, 1998. [27] H. Djellout, A. Guillin, and L. Wu. Transportation cost-information inequalities for random dynamical systems and diffusions. Annals of Probability, 32(3B) :2702 2732, 2004.

Bibliographie

223

[28] M.D. Donsker and S.R.S. Varadhan. Asymptotic evaluation of certain Markov process expectations for large time, III. Comm. Pure Appl. Math., 36 :389461, 1976. [29] R.M. Dudley. Real analysis and probability. Wadsworth & Brooks/Cole, 1989. [30] P. Eichelsbacher and U. Schmock. Large deviations of U-empirical measures in strong topologies and applications. Annales de lInstitut Henri Poincar, 38(5) :779 797, 2002. [31] U. Einmahl and J. Kuelbs. Dominating points and large deviations for random vectors. Probability Theory and Related Fields, 105 :529543, 1996. [32] R.S. Ellis, J. Gough, and J.V. Pul. The large deviation principle for measures with random weights. Reviews in Mathematical Physics, 5 :659692, 1993. [33] H. Fllmer. Random elds and diffusion processes, Ecole dt de Saint-Flour. Lectures Notes in Maths, 1362 :101204, 1988. [34] F. Gamboa. Mthode du maximum dentropie sur la moyenne et applications. Thse Orsay, 1989. [35] F. Gamboa and E. Gassiat. Maximum dentropie et problmes des moments : Cas multidimensionnel. Probability and Mathematical Statistics, 12 :6783, 1991. [36] F. Gamboa and E. Gassiat. Bayesian methods and maximum entropy for ill-posed inverse problems. The Annals of Statistics, 25 :328350, 1997. [37] N. Gozlan and C. Lonard. A large deviation approach to some transportation cost inequalities. preprint, 2005. [38] J.B. Hirriart-Urruty and C. Lemarchal. Fundamentals of convex analysis. Springer Verlag, 2001. [39] Yu.V. Kozachenko and E.I. Ostrovskii. Banach spaces of random variables of subgaussian type. Theor. Probability and Math. Statist., 3. :4556, 1986. [40] J. Kuelbs. Large deviation probabilities and dominating points in open convex sets : non-logarithmic behavior. The Annals of Probability, 28(3) :12591279, 2000. [41] J. Kuelbs and A. Meda. Rates of convergence for the Nummelin conditional weak law of large numbers. Stochastic Processes and their Applications, 98(2) :229252, 2002. [42] S. Kulkarni and O. Zeitouni. A general classication rule for probability measures. The Annals of Statistics, 23(4) :13931407, 1995. [43] C. Lonard. Minimizer of energy functionals. 93(4) :281325, 2001. Acta Mathematica Hungarica,

[44] C. Lonard. A convex optimization problem arising from probabilistic questions. Prpublications de lUniversit Paris 10 - Nanterre, 2004. [45] C. Lonard. Dominating points and entropic projections. Prpublications de lUniversit Paris 10 - Nanterre, 2004.

224

Bibliographie

[46] C. Lonard and J. Najim. An extension of Sanovs theorem : application to the Gibbs conditioning principle. Bernoulli, 8(6) :721743, 2002. [47] K. Marton. A simple proof of the blowing-up lemma. IEEE Transactions on Information Theory, 32 :445446, 1986. -distance by informational divergence : a way to prove mea[48] K. Marton. Bounding d sure concentration. Annals of Probability, 24 :857866, 1996. [49] P. Massart. Saint-Flour Lecture Notes. 2003. [50] J. Najim. A Cramer type theorem for weighted random variables. Electronic Journal of Probability, 7, 2002. [51] E. Nelson. Stochastic mechanics and random elds, Ecole dt de Saint-Flour. Lectures Notes in Maths, 1362 :429450, 1988. [52] P. Ney. Dominating points and the asymptotics of large deviations for random walks on Rd . The Annals of Probability, 11 :158167, 1983. [53] P. Ney. Convexity and large deviations. The Annals of Probability, 12 :903906, 1984. [54] F. Otto and C. Villani. Generalization of an inequality by Talagrand and links with the logarithmic Sobolev inequality. Journal of Functional Analysis, 173 :361400, 2000. [55] M. S. Pinsker. Information and information stability of random variables and processes. Holden-Day, San Francisco, 1964. [56] S. Rachev and L. Rschendorf. Mass Transportation Problems. Vol I : Theory, Vol. II : Applications. Probability and its applications. Springer Verlag, New York, 1998. [57] D. Revuz and M. Yor. Continuous martingales and brownian motion. Springer, third edition, 1998. [58] R.T. Rockafellar. Convex Analysis. Princeton University Press, Princeton, 1970. [59] R.T. Rockafellar. Conjugate Duality and Optimization. Society for Industrial and Applied Mathematics, 1974. [60] R.T. Rockafellar and R. Wets. Variational Analysis. Springer Verlag, 1997. [61] G. Royer. Une initiation aux ingalits de Sobolev logarithmiques. SMF, 1999. [62] E. Schrdinger. Sur la thorie relativiste de llectron et linterprtation de la mcanique quantique. Annales de lInstitut Henri Poincar, 2 :269310, 1932. [63] D.W. Stroock. Probability theory : an analytic view. Cambridge University Press, 1993. revised version. [64] D.W. Stroock and O. Zeitouni. Microcanonical distributions, Gibbs states and the equivalence of ensembles. In R. Durret and H. Kesten editors, Festschrift in honour of F. Spitzer. p.399-424, 1991. Birkhuser.

Bibliographie

225

[65] A.S. Sznitman. Equations de type de Boltzmann spatialement homognes. Zeitschrift fr Wahrscheinlichkeitstheorie und verwandte Gebiete, 66 :559592, 1984. [66] M. Talagrand. Concentration of measure and isoperimetric inequalities in product spaces. Publications Mathmatiques de lI.H.E.S., 81 :73203, 1995. [67] M. Talagrand. New concentration inequalities for product spaces. Inventionnes Mathematicae, 126 :505563, 1996. [68] M. Talagrand. Transportation cost for gaussian and other product measures. Geometric and Functional Analysis, 6 :587600, 1996. [69] T. Tjur. Conditional Probability Distributions. PhD thesis, Univ. Copenhagen, 1974. [70] F. Topsoe. Information theoretical optimization techniques. Kybernetika, 15 :827, 1979. [71] A. Van Der Vaart and J. Wellner. Weak convergence and empirical processes. Springer Series in Statistics. Springer, 1995. [72] C. Villani. Topics in Optimal Transportation. American Mathematical Society, 2003. [73] V.V. Yurinskii. Exponential inequalities for sums of random vectors. Journal of multivariate analysis, 6 :473499, 1976. [74] S.L. Zabell. Rates of convergence for conditional expectations. Annals of Probability, 8 :928941, 1980. [75] C. Zuily and H. Quefflec. Agrgation de Mathmatiques - Elments danalyse. Dunod.