Académique Documents
Professionnel Documents
Culture Documents
Thierry Bodineau
thierry.bodineau@polytechnique.edu
Novembre 2013
2
Table des matires
I Chanes de Markov 9
2 Matrice de transition 17
2.1 Proprit de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Exemples de chanes de Markov . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 quation de Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1 Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Processus dcal en temps . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Temps darrt et proprit de Markov forte . . . . . . . . . . . . . . . . . . 22
2.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.1 quation de la chaleur ? . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.2 Ruine du joueur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.3 Mthode de Monte-Carlo pour un problme de Dirichlet . . . . . . 29
3 Mesures Invariantes 33
3.1 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Irrductibilit et unicit des mesures invariantes . . . . . . . . . . . . . . . 36
3.2.1 Irrductibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Unicit des mesures invariantes . . . . . . . . . . . . . . . . . . . . 37
3.2.3 Construction de la mesure invariante . . . . . . . . . . . . . . . . . 38
3.3 Rversibilit et Thorme H . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.1 Rversibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.2 Thorme H pour les chanes de Markov . . . . . . . . . . . . . . . 43
3.3.3 Application : modle dEhrenfest . . . . . . . . . . . . . . . . . . . . 44
3
4 TABLE DES MATIRES
5 Ergodicit et convergence 67
5.1 Ergodicit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.1 Thorme ergodique . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.2 Application : algorithme PageRank de Google . . . . . . . . . . . . 71
5.2 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.1 Apriodicit et convergence . . . . . . . . . . . . . . . . . . . . . . . 73
5.2.2 Distance en variation et couplage . . . . . . . . . . . . . . . . . . . . 77
5.2.3 Vitesses de convergence . . . . . . . . . . . . . . . . . . . . . . . . . 83
II Martingales 109
En 1913, A. Markov posait les fondements dune thorie qui a permis dtendre les
lois des probabilits des variables alatoires indpendantes un cadre plus gnral sus-
ceptible de prendre en compte des corrlations. La premire partie de ce cours dcrit la
thorie des chanes de Markov et certaines de leurs applications. Le parti pris de ce cours
est de considrer le cadre mathmatique le plus simple possible en se focalisant sur des
espaces dtats finis, voire dnombrables, pour viter le recours la thorie de la mesure.
Le comportement asymptotique des chanes de Markov peut tre classifi et prdit.
Nous verrons que la structure de ces processus alatoires corrls est encode dans une
mesure invariante qui permet de rendre compte des proprits ergodiques, gnralisant
ainsi les suites de variables alatoires indpendantes. La convergence des chanes de Mar-
kov vers leurs mesures invariantes constitue un aspect fondamental de la thorie des
probabilits, mais elle joue aussi un rle clef dans les applications.
Plusieurs exemples seront dcrits pour illustrer le rle majeur des chanes de Markov
dans diffrents domaines de lingnierie comme les problmes numriques (mthodes
de Dirichlet, optimisation), la reconnaissance de formes ou lalgorithme PageRank de
Google. Des exemples issus de la physique statistique (irrversibilit en thorie cintique
des gaz, transitions de phases) ou de la dynamique des populations (arbres de Galton
Watson) permettront aussi clairer certains aspects des chanes de Markov. Dautres ap-
plications des chanes de Markov sont prsentes dans le livre de M. Benaim et N. El Ka-
roui [4] et dans celui de J.F. Delmas et B. Jourdain [8]. Louvrage de J. Norris [18] constitue
aussi une excellente rfrence sur la thorie des chanes de Markov.
La seconde partie de ce cours porte sur la thorie des martingales qui permet dtu-
dier dautres structures de dpendance que celles dfinies par les chanes de Markov.
Les martingales sont communment associes aux jeux de hasard et nous verrons com-
ment des stratgies optimales peuvent tre dfinies laide de martingales et de temps
darrt. Les martingales forment une classe de processus alatoires aux proprits trs
7
8 TABLE DES MATIRES
Des complments sur la thorie de la mesure et des probabilits crits par Nizar Touzi
[20] figurent en annexe. Ces deux chapitres dveloppent dans un cadre thorique les
concepts abords dans le cours de premire anne [16]. Ils permettront dapprofondir
certaines notions fondamentales de la thorie des probabilits et pourront servir de rf-
rence. Sur la page web du cours de MAP 432 figurent des programmes en scilab raliss
par Florent Benaych-Georges pour illustrer certaines applications.
Chanes de Markov
9
Chapitre 1
La loi des grands nombres et le thorme central limite sont deux thormes clef de
la thorie des probabilits. Ils montrent que la limite dune somme de variables ala-
toires indpendantes obit des lois simples qui permettent de prdire le comportement
asymptotique. Prenons lexemple classique dune marche alatoire symtrique (cf. figure
1.1)
n
X0 = 0 et pour n > 1, Xn = i (1.1)
i =1
i > 1, P( i = 1) = P( i = 1) = 1/2.
1
lim Xn = E( 1 ) = 0 p.s. (1.2)
n n
et le thorme central limite assure la convergence en loi vers une gaussienne de moyenne
nulle et de variance 1 que lon notera
1 (loi )
Xn . (1.3)
n n
Pour de nombreuses applications, il est ncessaire dajouter des corrlations entre ces
variables et denrichir ce formalisme au cas de processus alatoires qui ne sont pas une
simple somme de variables indpendantes. Par exemple, on voudrait dcrire un mobile
soumis une force alatoire et une force de rappel qui le maintient prs de lorigine
(comme un atome qui vibre autour de sa position dquilibre dans un cristal ou le prix
dune matire premire soumise la loi de loffre et de la demande) et reprsenter sa
position au cours du temps par Yn . Une faon simple de prendre en compte une force de
rappel est de construire rcursivement une suite alatoire
11
12 CHAPITRE 1. DE LA MARCHE ALATOIRE AUX JEUX DE CARTES
20
15
50
10
2000 4000 6000 8000 10 000 2000 4000 6000 8000 10 000
-5
-10
-50
-15
1 n
y Z, lim
n n
1{Yk =y} = (y) p.s.
k =1
Cette convergence peut sinterprter comme un analogue de la loi des grands nombres.
Ceci pose plusieurs questions auxquelles nous essayerons de rpondre dans ce cours
Peut on dcrire la mesure ?
Quel est le temps ncessaire pour que n soit proche de ?
Le processus {Yn }n > 0 en (1.4) a t obtenu par une rcurrence alatoire Yn+1 = f (Yn , n+1 )
pour une fonction f bien choisie. Sous cette forme, la structure additive de la marche ala-
toire Xn a disparu et on peut ainsi envisager de construire des processus valeurs dans
un espace gnral. Par exemple, on peut dfinir une marche alatoire sur le graphe G de
13
20 10 000
8000
10
6000
-10 2000
F IGURE 1.2 gauche, une ralisation de la trajectoire n Yn est reprsente aprs 100000 pas.
droite, lhistogramme correspondant au nombre de passages par chaque site pour la trajectoire.
la figure 1.3 : le marcheur part dun site donn et volue chaque pas de temps en sautant
uniformment sur un des voisins du site occup.
Remarque 1.1. Pour simuler une variable alatoire Z prenant uniformment les valeurs {1, 2, . . . , k },
on subdivise [0, 1] en intervalles de longueur 1/k numrots de 1 k. On choisit ensuite au hasard
une variable U uniformment sur [0, 1] et on attribue Z le numro de lintervalle contenant U.
Si la variable Z nest pas uniformment distribue P( Z = i ) = pi , il suffit de subdiviser [0, 1]
en k intervalles de longueurs { pi }i 6 k pour retrouver le biais dans les probabilits par la mme
procdure.
Le modle peut encore tre enrichi en orientant les artes du graphe (cf. figure 1.5) et
en autorisant seulement les transitions selon les artes orientes. La probabilit de chaque
saut peut aussi tre pondre selon les voisins, par exemple sur le graphe de la figure 1.5 :
la marche peut passer du site 1 au site 2 avec la probabilit P(1, 2) = 1/2, au site 3 avec
la probabilit P(1, 3) = 1/4 et rester sur place avec la probabilit P(1, 1) = 1/4. La seule
contrainte tant dajuster la somme des probabilits 1.
1/2
1/4 1 2 3/4
1/4
1
1/4
3
Lessentiel des exemples concrets que nous allons rencontrer dans ce cours peuvent
se formaliser comme une marche alatoire sur un graphe orient avec des probabilits de
transition associes chaque lien. Parmi les exemples de marche alatoire sur un graphe
traits dans ce cours, nous voquerons les robots dindexation qui parcourent le World
Wide Web pour collecter les donnes et indexer des pages Web. Certains graphes peuvent
tre compliqus et il est important de dvelopper une thorie gnrale pour apprhender
cette complexit.
Terminons ce tour dhorizon sur les chanes de Markov par le mlange de cartes.
On reprsente un jeu de 52 cartes en numrotant leurs positions dans le paquet de 1
K = 52. Mlanger les cartes revient appliquer des permutations successives sur leurs
positions. Mathmatiquement, cette procdure nest rien dautre quune marche alatoire
sur le groupe symtrique SK des permutations sur {1, 2, . . . , K }. Initialement les cartes
sont ranges dans lordre et ltat de dpart est la permutation identit Id = {1, 2, . . . , K }.
tant donn une mesure de rfrence, on choisit au hasard une permutation 1 sous
et le jeu de carte est rordonn en 1 = 1 Id. Pour battre les cartes, on itre plusieurs
15
Les modles dcrits prcdemment sont tous des chanes de Markov et peuvent tre
traits dans un formalisme unifi qui sera dcrit dans les chapitres suivants.
16 CHAPITRE 1. DE LA MARCHE ALATOIRE AUX JEUX DE CARTES
Chapitre 2
Matrice de transition
Dans ce chapitre, nous allons dfinir les chanes de Markov et prsenter leurs pre-
mires proprits.
Dfinition 2.1 (Proprit de Markov). Soit { Xn }n > 0 un processus alatoire discret sur un es-
pace dtats dnombrable E. Le processus satisfait la proprit de Markov si pour toute collection
dtats { x0 , x1 , . . . , xn , y} de E
P X n + 1 = y X0 = x 0 , X1 = x 1 , . . . , X n = x n = P X n + 1 = y X n = x n
(2.1)
ds que les deux probabilits conditionnelles ci-dessus sont bien dfinies. Le processus { Xn }n > 0
sera alors appel une chane de Markov. Si le membre de droite de (2.1) ne dpend pas de n, on
dira que la chane de Markov est homogne.
P( x, y) = P Xn+1 = y Xn = x
x, y E, (2.2)
et elle satisfait
x, y E, P( x, y) > 0 et x E, P(x, y) = 1.
y E
17
18 CHAPITRE 2. MATRICE DE TRANSITION
Comme la chane est homogne les transitions ne dpendent pas du temps et la relation
(2.2) est valable pour tout n.
Thorme 2.2 (Rcurrence alatoire). Soit { n }n > 1 une suite de variables alatoires indpen-
dantes et identiquement distribues sur un espace F. Soit E un espace dtats dnombrable et f
une fonction de E F dans E. On considre aussi X0 une variable alatoire valeurs dans E
indpendante de la suite { n }n > 1 .
La rcurrence alatoire { Xn }n > 0
n > 1, X n +1 = f ( X n , n +1 )
P ( f ( Xn , n+1 ) = y, X0 = x0 , . . . , Xn = xn )
P X n + 1 = y X0 = x 0 , . . . , X n = x n =
P ( X0 = x 0 , . . . , X n = x n )
P ( f ( xn , n+1 ) = y, X0 = x0 , X1 = x1 , . . . , Xn = xn )
= .
P ( X0 = x 0 , X1 = x 1 , . . . , X n = x n )
P X n + 1 = y X0 = x 0 , . . . , X n = x n = P ( f ( x n , n + 1 ) = y ) = P X n + 1 = y X n = x n .
x, y E, P( x, y) = P ( f ( x, 1 ) = y) .
1/2
1/4 1 2 3/4
1/4
1
1/4
3
Marche alatoire.
Une marche alatoire sur Z de probabilits de saut p, q = 1 p sur les plus proches
voisins aura pour matrice de transition
p,
si y = x + 1
x, y Z, P( x, y) = q, si y = x 1
0, sinon
La matrice de transition est cette fois indexe par Z Z (mais la majorit de ses coeffi-
cients sont nuls).
On peut aussi considrer la marche alatoire dans un domaine fini {1, . . . , L} par
exemple en supposant que le domaine est priodique. Dans ce cas si la marche alatoire
est en L, elle sautera en 1 avec probabilit p et rciproquement elle sautera de 1 L avec
probabilit q. La matrice de transition P sera une matrice L L
0 p 0 ... 0 0 q
q 0 p ... 0 0 0
P=
.. .. .. .. .. .. .. . (2.4)
. . . . . . .
0 0 0 ... q 0 p
p 0 0 ... 0 q 0
20 CHAPITRE 2. MATRICE DE TRANSITION
File dattente.
Les files dattente interviennent dans des contextes varis : au Magnan, pour grer des
avions au dcollage, pour le stockage de requtes informatiques avant leur traitement,
etc. Le modle le plus simple consister supposer que n clients arrivent dans la file au
temps n. On choisit les variables n indpendantes et identiquement distribues valeurs
dans N. Le serveur sert exactement 1 client chaque pas de temps si la file nest pas vide.
Le nombre de clients Xn dans la file au temps n vrifie donc
X n = ( X n 1 1 ) + + n .
Le processus { Xn }n > 0 est une rcurrence alatoire sur N et donc une chane de Markov.
Sa matrice de transition est donne pour tous x, y dans N par
P( x, y) = P 1 = y ( x 1)+ .
2.3.1 Chapman-Kolmogorov
Soit h une fonction de E dans R. On dfinit
Si E est fini, il sagit du produit gauche P entre un vecteur transpos et une ma-
trice. Par convention, on omet le symbole transpos dans (2.6). Pour n > 1, le produit
matriciel Pn scrit
avec la convention P1 = P.
Thorme 2.3. Soit { Xn }n > 0 une chane de Markov sur E de matrice de transition P dont la
donne initiale X0 est distribue selon la loi 0 . Alors
P X0 = x 0 , X1 = x 1 , . . . , X n = x n = 0 ( x 0 ) P ( x 0 , x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , x n ) .
(2.8)
2.3. QUATION DE CHAPMAN-KOLMOGOROV 21
x E, n ( x ) = n 1 P ( x ) = 0 P n ( x ). (2.9)
On a aussi
P Xn = y X0 = x = Pn ( x, y).
x, y E, (2.10)
Pour toute fonction borne h de E dans R, lesprance de h( Xn ) scrit
E h ( X n ) X0 = x = P n h ( x ) .
(2.11)
y E, n (y) = 0 ( x 0 ) P ( x 0 , x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , y ).
{ x0 ,x1 ,...,xn1 } En
P X0 = x 0 , . . . , X n = x n
= P X0 = x 0 , . . . , X n 1 = x n 1 P X n = x n X0 = x 0 , . . . , X n 1 = x n 1
= P X0 = x 0 , . . . , X n 1 = x n 1 P ( x n 1 , x n ) = 0 ( x 0 ) P ( x 0 , x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , x n ) .
o la dernire relation sobtient par rcurrence. Lidentit (2.10) nest quun cas particulier
de lquation de Chapman-Kolmogorov (2.9) pour une mesure initiale 0 = x concentre
en x. Finalement lesprance de h( Xn ) peut se dcomposer laide de (2.10)
E h( Xn ) X0 = x0 = h(y)P Xn = y X0 = x = Pn ( x, y)h(y) = Pn h( x ).
y y
Exercice 2.4. Soit { Xn }n > 0 une chane de Markov valeurs dans E de matrice de transition P.
Montrer que Yn = X3n est une chane de Markov de matrice de transition P3 .
Notation.
On utilisera labrviation suivante pour dcrire lesprance dune chane de Markov
partant dun site x de E
E x h ( X n ) = E h ( X n ) X0 = x : = h ( y ) P X n = y X0 = x .
y E
(2.12)
Ceci sinterprte en disant que conditionnellement { Xn = xn }, le processus dcal en
temps { Xn+k }k > 0 est une chane de Markov de matrice de transition P partant de xn au
temps 0 et indpendante du pass. On prouve le rsultat en utilisant le thorme 2.3
P X n + 1 = y 1 , . . . , X n + K = y K X0 = x 0 , . . . , X n = x n
P ( X0 = x 0 , . . . , X n = x n , X n + 1 = y 1 , . . . , X n + K = y K )
=
P ( X0 = x 0 , . . . , X n = x n )
= P ( x n , y 1 ) P ( y 1 , y 2 ) . . . P ( y K 1 , y K )
= P X1 = y 1 , . . . , X K = y K X0 = x n
On a alors
1{TA =n} = 1{X0 6 A,..., Xn1 6 A, Xn A} .
Un temps darrt permet de stopper un processus { Xn }n > 0 un temps n unique-
ment en fonction du pass et du prsent, il ne doit pas contenir dinformation sur ce qui
se passe au-del du temps n. Par exemple, on peut chercher le meilleur moment pour
convertir une devise sur le march des changes. Le moment optimal sera choisi par rap-
port la connaissance du pass et du prsent, mais, moins de dlit diniti, la dcision
ne pourra pas tre influence par le futur. Les temps darrt jouent un rle privilgi dans
la thorie des processus alatoires et nous les retrouverons tout au long de ce cours. En
particulier, nous en donnerons une dfinition plus formelle page 118.
Exercice 2.5. Si T est un temps darrt, T + 1 et sup{ T 1, 0} sont-ils des temps darrt ?
XT
F IGURE 2.2 La trajectoire dune marche alatoire partant de lorigine est reprsente. La marche
atteint la frontire de la boule B pour la premire fois au temps T. Conditionnellement au point
dimpact XT , la seconde partie de la trajectoire est indpendante de la premire.
= P0 { X` = x0 , X`+1 = x1 , . . . , X`+k = xk } B { T = `} { X` = x }
= Px { X0 = x0 , X1 = x1 , . . . , Xk = xk } P0 B { T = `} { X` = x }
24 CHAPITRE 2. MATRICE DE TRANSITION
P0 { X T = x 0 , X T +1 = x 1 , . . . , X T + k = x k } B { X T = x } { T < }
= P x { X0 = x 0 , X1 = x 1 , . . . , X k = x k } P 0 B { X T = x } { T < } .
P0 { X T = x 0 , X T +1 = x 1 , . . . , X T + k = x k } B { X T = x } { T < }
= P x { X0 = x 0 , X1 = x 1 , . . . , X k = x k } P 0 B { X T = x } { T < } .
La proprit de Markov forte sera utilise plusieurs reprises dans la suite du cours.
2.5 Applications
Cette section regroupe trois applications de la proprit de Markov. La premire met
en vidence les liens entre la densit dune marche alatoire et lquation de la chaleur
en utilisant simplement lquation de Chapman-Kolmogorov. Limportance des temps
darrt est ensuite illustre dans les deux applications suivantes.
(cette dernire condition sert juste assurer que la probabilit 0 ne prend pas des valeurs
ngatives). Si tous les ak , bk sont nuls, la donne initiale est uniformment distribue sur
2.5. APPLICATIONS 25
on voit que
K n !
1 2 2 2
n ( x ) =
L
1+ cos
L
k ak cos
L
kx + bk sin
L
kx (2.16)
k =1
Nous allons appliquer ce rsultat pour tudier le comportement dune particule mar-
que dans une solution. Le marquage de particules est souvent utilis pour suivre les
dplacements de matires dans une raction chimique. Pour modliser le dplacement
dun marqueur plac dans une solution, nous allons supposer que le marqueur est dis-
tribu initialement dans une bote [0, 1]d (de 1cm de cot) avec une loi de densit 0 (r ).
Subdivisons la bote [0, 1]d en Ld petits cubes de cot 1/L avec L trs grand (disons que
1/L est de lordre de 106 cm soit quelques centaines dngstrms). Le comportement
microscopique prcis du marqueur est trs compliqu dcrire mais on peut se conten-
ter dune approximation en identifiant simplement le cube o le marqueur se trouve. La
solution tant lquilibre, le marqueur se dplace uniformment au gr des collisions
microscopiques et on suppose quil peut passer dun cube un de ses voisins avec pro-
1
babilit 2d (pour simplifier on exclut les voisins qui nont pas de face commune). Pour
dcrire lvolution temporelle de ce marqueur, nous allons seulement considrer le d-
placement selon un axe et supposer que la bote est priodique (le cas gnral se traiterait
de la mme faon). Dans ce cadre simplifi, le marqueur a un comportement statistique
proche de celui dune marche alatoire dans le domaine {1, . . . , L} pour L extrmement
grand. On va donc analyser lasymptotique de (2.16) quand L tend vers linfini.
1.4
1.2
1/L 1.0
0.8
0.6
0.4
0.2
x
10 20 30 40 50
F IGURE 2.3 Sur le schma de droite, la bote [0, 1]2 a t subdivise en carrs de ct 1/L et
la position du marqueur est identifie par le carr dans lequel il se trouve. Le graphe de droite
reprsente la discrtisation de la densit 0 (r ) = 1 + sin(2 r )/2 en subdivisant lintervalle [0, 1]
avec L = 50.
26 CHAPITRE 2. MATRICE DE TRANSITION
1 x
x {1, . . . , L}, 0 ( x ) = 0
L L
et satisfait donc (2.14). Lvolution de la mesure n a t dtermine en (2.16). Soit r
[0, 1] une position macroscopique et t > 0 un temps macroscopique, on leur associe les
suites dentiers
x L = d rL e {1, . . . , L}, n L = d tL2 e N
o de est la partie entire. Il faut interprter x L comme la position microscopique corres-
pondant r et n L comme un temps microscopique
xL nL
lim = r, lim = t.
L L L L2
Pour tout k 6 K, on a
n L
2 2 2
lim cos k ak cos kx L + bk sin kx L
L L L L
= exp 2 2 k2 t [ ak cos (2kr ) + bk sin (2kr )]
1 2
t (t, r ) = (t, r ).
2 r
Dans la pratique comme L est trs grand, le comportement macroscopique du marqueur
est bien dcrit par lquation de la chaleur. Le passage de modles microscopiques o le
2.5. APPLICATIONS 27
comportement est alatoire des descriptions macroscopiques plus rgulires (comme ici
lquation de la chaleur) est un problme trs tudi en physique et en mathmatiques.
De nombreuses thories ont t dveloppes pour comprendre comment des structures
rgulires peuvent merger dans la limite macroscopique, mais des problmes ouverts
demeurent et il sagit dun domaine de recherche actuellement trs actif en mathma-
tiques.
On remarquera que le passage des coordonnes microscopiques x L , n L aux coordon-
nes macroscopiques r, t sest fait en changeant lchelle spatiale dun facteur L et le
temps dun facteur L2 . Ce changement dchelle est li au thorme central limite, en
effet le marqueur
effectue une marche alatoire et il ne peut explorer que des distances
de lordre n en un temps n. Pour que le marcheur puisse se dplacer dune distance de
lordre de L, il faut donc attendre des temps proportionnels L2 . Lanalogie entre la limite
Gaussienne de la marche alatoire et lquation de la chaleur va au-del des changements
dchelle. Dautres applications sont dcrites dans le cours Transport et diffusion [3].
P( i = 1) = p et P( i = 1) = 1 p .
u( a) = Pa X atteint 0 avant a + b
u( a) = Pa T0 < Ta+b .
2 4 6 8
= P X0 = i, X1 = i + 1 P { X atteint 0 avant a + b} X0 = i + 1 .
La chane dcale en temps ayant la mme loi que { Xn }n > 0 , lidentit se rcrit
En utilisant (2.18), on a
Jeu quilibr.
Quand p = 1/2, les deux racines du polynme valent 1 et on trouve
i
u (i ) = 1 .
a+b
b
pour un jeu biais et u( a) = a+b dans le cas dun jeu quilibr.
On dfinit T = inf{ T0 , Ta+b } le temps o le jeu sarrte. Une mthode analogue per-
met de calculer lesprance Ei ( T ). En utilisant la chane de Markov dcale en temps
Xn = Xn+1 , on obtient pour tout i dans {1, . . . , a + b 1}
Ei ( T ) = 1 + p Ei + 1 ( T ) + ( 1 p ) Ei 1 ( T ) .
v ( i ) = 1 + p v ( i + 1) + (1 p ) v ( i 1)
avec les conditions aux bords v(0) = v( a + b) = 0. Dans le cas dun jeu quilibr (p =
1/2), on trouve pour tout i de {0, . . . , a + b}
Ei ( T ) = i ( a + b i ) . (2.20)
o 2k est la drive seconde par rapport la kime coordonne. Cette quation modlise
par exemple la variation de temprature dans une plaque de mtal en contact avec diff-
rentes sources de chaleur sur son bord. La plaque de mtal est reprsente par le domaine
D, la temprature au point r D par f (r ) et les tempratures au bord de la plaque sont
gales .
Il existe diffrentes mthodes pour rsoudre numriquement lquation (2.21). Nous
allons dcrire une approche probabiliste dite mthode de Monte-Carlo. La premire tape
30 CHAPITRE 2. MATRICE DE TRANSITION
T2 T1 DL
D
T4
T3
F IGURE 2.5 Un domaine D R2 avec diffrentes tempratures imposes sur son bord D. Le
maillage de D induit une frontire discrte DL reprsente par les sites gris.
Pour simplifier les notations, supposons que la dimension d soit gale 2 et consid-
rons f une fonction C3 sur D. La formule de Taylor implique que
i +1 j i j 1 i j 1 2 i j
f , f , =
L 1 f , +
L L 2L2 1 f , + O(1/L3 )
L L L L L L
i 1 j i j i j i j
f
L , L f L, L = L1 1 f L, L + 2L1 2 21 f L, L + O(1/L3 )
i1 j
2 i j 2 i+1 j i j
1 f , =L f , +f , 2f , + O(1/L).
L L L L L L L L
o la notation y x signifie quon somme sur les voisins y de x, cest dire les sites de
DL DL distance 1/L de x. En particulier si x est proche du bord, les valeurs de F sur
la frontire DL interviennent. Les calculs prcdents justifient cette dfinition car pour
des fonctions f rgulires, le Laplacien discret est une bonne approximation du Laplacien
f ( x ) + O(1/L). Le problme de Dirichlet continu (2.21) peut tre approch
f ( x ) = L2
par le problme de Dirichlet discret
x DL , (x) = 0
F et y DL , F (y) = L (y) (2.22)
2.5. APPLICATIONS 31
Il reste vrifier que F est bien solution du problme de Dirichlet discret (2.22). On
remarque que le cas de la dimension 1 a dj t trait avec la ruine du joueur en (2.19)
pour des conditions aux bords 0 et 1. tant donn X0 = x dans DL , le pas suivant sera
X1 = y pour y x
F ( x ) = Ex L ( XTDL ) 1 X1 =y .
y x
alors (y) = ( x0 ) pour tous les voisins de y de x0 . En itrant cette procdure, on peut
trouver un chemin de sites x0 , x1 , x2 , . . . , x` avec x` DL tels que xi xi+1 pour tout
32 CHAPITRE 2. MATRICE DE TRANSITION
x, y E, P( x, y) > 0 et x E, P(x, y) = 1 .
y E
x E \ A, (Id P) F ( x ) = 0 et y A, F ( x ) = (y)
Mesures Invariantes
Dans le chapitre prcdent, nous avons vu au thorme 2.3 que la distribution dune
chane de Markov de matrice de transition P volue chaque pas de temps selon les
quations de Chapman-Kolmogorov n+1 = n P. Nous allons, dans ce chapitre, tudier
les mesures invariantes par ces quations cest dire les mesures satisfaisant = P.
Ces mesures joueront par la suite un rle clef dans le comportement asymptotique des
chanes de Markov.
Dans ce chapitre nous ne considrerons que des chanes de Markov sur des espaces
dtats E finis. On notera | E| le cardinal de E. Le cas des espaces dtats dnombrables
sera abord au chapitre 4.
Dfinition 3.1. La mesure sur E est une mesure invariante pour la chane de Markov { Xn }n > 0
si = P, cest dire
y E, (y) = ( x ) P( x, y) .
xE
Si la chane est distribue initialement selon une mesure invariante (on note 0 = )
alors la distribution tout temps n reste n = . Une mesure invariante dcrit donc
un systme dans un tat stationnaire. On peut imaginer par exemple un gaz lquilibre
dans une pice (confine) dont la position des atomes est alatoire mais uniformment
rpartie dans la pice tout temps. Par contre si on ouvre un flacon de parfum au centre
de cette pice, le parfum se rpand et la distribution des molcules nest pas stationnaire
au cours du temps. En anticipant un peu sur les prochains chapitres, on imagine cepen-
dant quau bout dun temps trs long le parfum se sera rpandu dans toute la pice et que
ses molcules seront distribues uniformment dans toute la pice, le systme aura donc
converg vers la mesure invariante. Nous reviendrons sur linterprtation dune mesure
invariante en utilisant lanalogie avec un gaz section 3.3.3.
Considrons un graphe G = (S , E ) fini et sans boucles (un site nest jamais reli
lui mme). On notera S lensemble des sites dans le graphe et E lensemble des artes
33
34 CHAPITRE 3. MESURES INVARIANTES
entre les sites. On dfinit une marche alatoire { Xn }n > 0 sur S dont les probabilits de
transition dun site vers ses voisins sont uniformes
1
x, y S , P( x, y) = 1{ xy} (3.1)
deg( x )
deg(x) = 2|E | .
x S
En effet, chaque arte du graphe est compte deux fois dans la somme. On vrifie que
pour tout y dans S
deg( x ) 1 1
(x) P(x, y) = 2|E | deg( x )
1{ x y} =
2|E | 1{ x y} = ( y ) .
x S x S x y
Le rsultat prcdent implique que pour la marche alatoire symtrique sur {1, . . . , L}
avec conditions priodiques (cf. figure 3.1 et (2.4)) la mesure uniforme est invariante
1
x {1, . . . , L}, (x) = .
L
Exercice 3.2. Vrifier que pour la marche alatoire sur {1, . . . , L} avec conditions priodiques et
probabilits de sauts
P( x, x + 1) = p, P( x, x 1) = 1 p
1
la mesure uniforme ( x ) = L est encore invariante pour tout p [0, 1].
Pour une chane de Markov deux tats {1, 2} (cf. figure 3.1) dont la matrice de tran-
sition est donne par
1 p p
P= (3.3)
q 1q
avec p, q ]0, 1[. Une mesure invariante est donne par
q p
(1) = , (2) = .
p+q p+q
Ceci se vrifie en calculant
q p
P(1) = (1) P(1, 1) + (2) P(2, 1) = (1 p ) + q = (1).
p+q p+q
1 6
p
2 5
1p 1 2 1q
3 4
F IGURE 3.1 gauche, le graphe des transitions associ la marche alatoire symtrique sur
le domaine priodique {1, . . . , 6}. Le graphe des transitions pour la chane deux tats est repr-
sent droite.
Lemme 3.3. Si est une mesure invariante alors = Pn pour tout n > 1.
Ce lemme traduit le fait quune mesure invariante est prserve pour tout temps
( x ) = P ( Xn = x ). Ceci explique le rle clef jou par les mesures invariantes dans
le comportement asymptotique des chanes de Markov (cf. chapitre 5).
Dmonstration. Comme est invariante (y) = zE (z) P(z, y). On en dduit en rem-
plaant (z) par P(z) que
" #
(y) = (x) P(x, z) P(z, y) = (x) P(x, z) P(z, y) = (x) P2 (x, y).
z E x E xE z E xE
Dans le cas dun espace E fini, la mesure invariante peut tre interprte comme un
vecteur valeurs dans [0, 1]|E| qui est un espace compact. Un argument de compacit va
donc nous permettre de justifier lexistence dau moins une mesure invariante .
Thorme 3.4. Pour toute chane de Markov sur un espace dtats fini E, il existe une mesure
invariante.
1 n
n k
n = Pk .
=1
36 CHAPITRE 3. MESURES INVARIANTES
Les vecteurs (n ( x )) xE prennent leurs valeurs dans lensemble compact [0, 1]|E| . Il existe
donc une suite extraite nk qui converge vers une mesure dans E
x E, lim nk ( x ) = ( x ).
k
Nous allons vrifier que est une mesure invariante. Par construction
1 n 1 n +1
n k
k +1
n P = P = n + P .
=1
n
x E, P( x ) ( x ) = lim nk P( x ) nk ( x ) = 0.
k
3.2.1 Irrductibilit
Soit X = { Xn }n > 0 une chane de Markov sur E de matrice de transition P.
Px ( Xn = y) = P( Xn = y| X0 = x ) > 0.
Dfinition 3.6.
(i) Une classe E0 E est dite irrductible si x y pour tous x, y E0 . La chane de Markov
X est dite irrductible si lespace dtats E est irrductible.
(ii) Une classe irrductible E0 E est dite ferme si pour tous x, y E
x E0 et xy alors y E0 .
Ces dfinitions sont illustres figure 3.2. La restriction de la chane de Markov une
classe ferme E0 est ainsi une chane de Markov despace dtats E0 . Enfin si E0 = { x0 }
est ferme, alors ltat x0 est dit absorbant car une fois que la chane de Markov la atteint,
elle reste bloque dans cet tat pour toujours.
F IGURE 3.2 Dans ce graphe de transition, les sites gris reprsentent la classe irrductible ferme.
Aucun des sites gris ne communique avec les sites blancs.
Thorme 3.7. Pour toute chane de Markov irrductible sur un espace dtats fini E, il existe
une unique mesure de probabilit invariante telle que ( x ) > 0 pour tout x E.
Dmonstration. Soit une mesure invariante (son existence est assure par le thorme
3.4). Nous allons dabord vrifier que ( x ) > 0 pour tout x E. Comme yE (y) = 1,
il existe x0 de E tel que ( x0 ) > 0. La chane tant irrductible, x0 communique avec
tout y de E et pour chaque y, il existe un entier n tel que Pn ( x0 , y) > 0. La mesure est
invariante = Pn et on en dduit
Pour montrer lunicit, nous allons dabord tablir un rsultat prliminaire et prouver
que toute fonction h de E dans R vrifiant
est ncessairement constante. Une fonction h satisfaisant (3.4) est dite harmonique. Nous
avons dj rencontr des fonctions harmoniques section 2.5.3. Comme E est fini, il existe
un tat x0 o la fonction atteint son minimum h( x0 ) = minyE h(y). Sil existait z de E tel
38 CHAPITRE 3. MESURES INVARIANTES
que P( x0 , z) > 0 et h(z) > h( x0 ), on obtiendrait une contradiction en utilisant le fait que
yE P( x, y) = 1
Ceci tant impossible, la fonction h est gale h( x0 ) pous les tats y connects x0 , i.e. tels
que P( x0 , y) > 0. Comme la chane est irrductible, on dduit en itrant cette procdure
que h est constante sur E.
On remarque quune fonction harmonique h est un vecteur propre droite pour P car
h = Ph tandis quune mesure invariante est un vecteur propre gauche car = P.
Le rsultat prcdent sur les fonctions harmoniques implique que la matrice P Id a un
noyau de dimension 1 (les vecteurs de la forme (1, . . . , 1)). La valeur propre 0 tant de
multiplicit 1, elle est aussi valeur propre de multiplicit 1 pour la transpose P Id.
Par consquent sil existe 2 mesures invariantes 1 , 2 (que lon peut interprter comme
des vecteurs) telles que 1 = 1 P et 2 = 2 P alors les deux vecteurs 1 , 2 sont dans le
noyau de P Id. Le noyau tant de dimension 1, il existe une constante c telle que 1 =
c 2 . Comme les deux mesures sont normalises par 1, on en dduit que 1 = 2 .
Exercice 3.8. On propose une preuve alternative de lunicit des mesures invariantes du thorme
3.7. Supposons que 1 , 2 soient deux mesures invariantes strictement positives sur E. Montrer
que
1 ( y )
x, y E, Q( x, y) = P(y, x )
1 ( x )
(x)
est une matrice de transition irrductible. Vrifier que f ( x ) = 2 (x) est harmonique pour Q, i.e.
1
f = Q f . En utilisant le rsultat sur lunicit des fonctions harmoniques, en dduire que 1 = 2 .
On dfinit aussi
Tx+ = min n > 1;
Xn = x .
Ces deux temps darrt concident sauf si le site initial est x car dans ce cas Tx = 0 et Tx+
est le premier temps de retour en x.
Une proprit importante des temps de retour dans le cas des espaces finis est la
suivante :
Lemme 3.9. Pour une chane de Markov irrductible sur un espace dtats E fini
x, y E, Ex ( Ty+ ) < .
3.2. IRRDUCTIBILIT ET UNICIT DES MESURES INVARIANTES 39
Dmonstration. La chane tant irrductible et E fini, il existe > 0 et un entier n tels que
pour tous x, y dans E
j 6 n, P j ( x, y) > .
La valeur j peut varier selon les couples x, y mais reste borne par n. La probabilit dat-
teindre y en partant de nimporte quel point avant le temps n est au moins . Lingalit
suivante est donc vraie uniformment en x, y
Px Ty+ > n 6 1 .
Nous allons itrer ce rsultat en conditionnant le processus par le pass jusquau temps
( k 1) n
n
Px Ty+ > kn = Px {Ty+ > (k 1)n} {X(k1)n = z}
\
{ X ( k 1) n + i 6 = y }
z E i =1
z6=y
o z reprsente toutes les valeurs possibles pouvant tre prises par X(k1)n . Par la pro-
prit de Markov applique au temps (k 1)n, on en dduit que le conditionnement ne
dpend que de la valeur de X(k1)n
Px Ty+ > kn
n
\
= Px { Ty+ > (k 1)n} { X(k1)n = z} P { X ( k 1) n + i 6 = y } X ( k 1) n = z
z E i =1
z6=y
Le dernier terme peut sexprimer par la proprit de Markov comme lvnement { Ty+ >
n} pour la chane dcale en temps
n
\ n
\
P { X ( k 1) n + i 6 = y } X ( k 1) n = z = P { Xi 6= y} X0 = z = Pz Ty+ > n .
i =1 i =1
En itrant on obtient
Px Ty+ > kn 6 (1 )k .
E( Z ) = P( Z > `).
`>1
40 CHAPITRE 3. MESURES INVARIANTES
On obtient donc
Thorme 3.10. Pour une chane de Markov irrductible { Xn }n > 0 sur un espace dtats E fini,
lunique mesure de probabilit invariante est donne par
1
x E, (x) = .
Ex ( Tx+ )
Le lemme 3.9 implique que la mesure est bien dfinie pour tout y car
(y) 6 Px Tx+ > n = Ex ( Tx+ ) < .
n>0
Par contre nest pas une mesure de probabilit car elle nest pas normalise.
Pour montrer que est stationnaire, nous calculons
( z ) P ( z, y ) = P x X n = z, Tx
+
> n P(z, y).
z E z E n > 0
Le point clef de la preuve est de constater que lvnement { Tx+ > n} = { Tx+ > n + 1}
ne dpend que de { X0 , . . . , Xn } (on sait juste que la marche nest pas revenue en x avant
le temps n). Par consquent, on peut appliquer la proprit de Markov et crire
Px Xn = z, Tx+ > n + 1, Xn+1 = y = Px Xn = z, Tx+ > n P Xn+1 = y Xn = z, Tx+ > n
= Px Xn = z, Tx+ > n P(z, y).
( x ) 1
(x) = + = .
Ex ( Tx ) Ex ( Tx+ )
Le site x qui servait de site de rfrence pour indexer les excursions de la chane a t
choisi arbitrairement. Lidentit ci-dessus est donc vrifie pour tout x car la mesure de
probabilit invariante est unique pour une chane de Markov irrductible.
x, y E, ( x ) P( x, y) = (y) P(y, x ) .
P X0 = x 0 , X1 = x 1 , . . . , X n = x n = P X0 = x n , X1 = x n 1 , . . . , X n = x 0 .
42 CHAPITRE 3. MESURES INVARIANTES
P X0 = x 0 , X1 = x 1 , . . . , X n = x n = ( x 0 ) P ( x 0 , x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , X n ) .
P X0 = x 0 , X1 = x 1 , . . . , X n = x n = P ( x 1 , x 0 ) ( x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , x n )
= P ( x 1 , x 0 ) P ( x 2 , x 1 ) ( x 2 ) . . . P ( x n1 , x n )
= ( x n ) P ( X n , X n 1 ) P ( X n 1 , X n 2 ) . . . P ( x 1 , x 0 ).
Exemples.
Daprs lexercice 3.2, la marche alatoire sur {1, . . . , L} avec conditions priodiques et
probabilits de sauts
P( x, x + 1) = p, P( x, x 1) = 1 p
a pour mesure invariante la mesure uniforme ( x ) = L1 pour tout p [0, 1]. Cette chane
de Markov nest rversible que pour p = 21 car pour p 6= 21
( x ) P( x, x + 1) 6= ( x + 1) P( x + 1, x ).
qp
(1) P(1, 2) = = (2) P(2, 1).
p+q
Dans la pratique, la rversibilit permet de vrifier facilement quune mesure est in-
variante.
Thorme 3.12. Si une chane de Markov de matrice de transition P est rversible par rapport
la mesure , alors est une mesure invariante.
On peut interprter lentropie relative comme une distance entre et car H est positive
et ne sannule que si = . Pour le vrifier, il suffit de remarquer que (u) = u log(u) est
strictement convexe et par lingalit de Jensen
!
( x ) ( x )
H = ( x ) >
( x ) = 0.
xE
( x ) xE
( x )
( x )
Lingalit est stricte ds quil existe un x pour lequel ( x )
6= 1.
H P H .
(y) P(y,x )
En remarquant que y (x)
est une mesure de probabilit sur E
H P 6 H .
44 CHAPITRE 3. MESURES INVARIANTES
t f (t, x, v) + v x f (t, x, v) = Q( f , f )
ZZ
[ f (v0 ) f (v10 ) f (v) f (v1 )] (v v1 )
Q( f , f )(v) = +
dv1 d
S 2 R3
o est un vecteur intgr sur la sphre unit S2 et les vitesses aprs collisions scrivent
v 0 = v + ( v1 v ) , v10 = v1 (v1 v) .
Une proprit fondamentale de cette quation connue comme le Thorme H, est la crois-
sance de lentropie au cours du temps
ZZ
H (t) = dx dv f (t, x, v) log f (t, x, v) 6 0 .
(La convention en physique est oppose celle des mathmaticiens qui considrent plu-
tt la dcroissance de H (t), cf. section 3.3.2). Cette croissance traduit lirrversibilit du
systme : si on perce un ballon rempli de gaz, le gaz schappe et le ballon se dgonfle.
Ce mcanisme est irrversible, en effet il est trs rare dobserver un ballon se regonflant
spontanment.
Lquation de Boltzmann a pourtant suscit de nombreuses controverses car lirrver-
sibilit des solutions de cette quation semble incompatible avec la rversibilit de la dy-
namique microscopique. La dynamique microscopique est un immense billard avec 1023
boules rebondissant les unes sur les autres. Si on observe lvolution de cette dynamique
jusquau temps t et qu linstant t toutes les vitesses sont renverses (v v) alors le
systme microscopique revient en arrire en suivant exactement lvolution inverse. En
1876, Loschmidt objectait que lquation de Boltzmann ne pouvait pas rendre compte du
systme microscopique qui lui tait rversible. Un second paradoxe est signal par Zer-
melo en 1896 car le thorme de Poincar assure que cette dynamique microscopique va
repasser au cours du temps arbitrairement prs de sa condition initiale et ce pour presque
3.3. RVERSIBILIT ET THORME H 45
toutes les conditions initiales. Ceci pose encore la question de lirrversibilit de lqua-
tion de Boltzmann. Le modle des poux Ehrenfest a permis de comprendre ces deux
paradoxes.
On considre un rcipient isol coup en deux par une paroi, la partie gauche est rem-
plie dun gaz et celle de droite est vide (cf. figure 3.3). linstant initial, un trou minus-
cule est perc dans la paroi pour permettre au gaz de passer dun compartiment lautre.
Pour simplifier le modle, on imagine qu chaque pas de temps, un atome est choisi au
hasard et transfr dun compartiment lautre. On note Xn le nombre datomes dans la
partie gauche au temps n et on suppose quinitialement le rcipient contient K atomes,
i.e. X0 = K. Cette chane de Markov a pour espace dtats {0, . . . , K } et les probabilits
de transition sont donnes par
` K`
P X n +1 = ` 1 X n = ` = , P X n +1 = ` + 1 X n = ` =
.
K K
Quand le systme est lquilibre, les molcules sont rparties uniformment et la me-
sure invariante devrait intuitivement tre une loi binomiale (`) = 21K (K` ) (on choisit `
molcules parmi K et on les place dans la partie gauche, les K ` seront alors dans la
partie droite). Pour le vrifier, il suffit de remarquer que cette chane de Markov est r-
versible pour la mesure invariante
1 K! K`
(`) P(`, ` + 1) = = (` + 1) P(` + 1, `).
2K `!(K `)! K
La distribution de est reprsente figure 3.3. La rversibilit stochastique peut tre vue
comme lanalogue de la rversibilit des quations du mouvement pour la dynamique
microscopique du gaz de sphres dures.
0.08
0.06
0.04
0.02
20 40 60 80
F IGURE 3.3 Sur le schma de gauche, le modle dEhrenfest est reprsent : le compartiment
de gauche est rempli de molcules, celui de droite est presque vide. Un passage est ouvert entre
les deux compartiments pour permettre le transfert des molcules. Le graphe de droite reprsente
la distribution de pour K = 80. Cette distribution est symtrique autour de sa moyenne et elle
dcrit ltat dquilibre du gaz.
Lirrductibilit de chane de Markov implique par le lemme 3.9 que la chane va re-
venir en chacun des points presque srement. Si initialement le compartiment de gauche
est rempli de gaz et celui de droite est vide, les molcules vont dabord se rpartir assez
rapidement dans tout le rcipient mais si on attend assez longtemps toutes les molcules
46 CHAPITRE 3. MESURES INVARIANTES
finiront par retourner dans le compartiment de gauche. Cette proprit est lanalogue du
thorme de rcurrence de Poincar pour les systmes dynamiques que Zermelo oppo-
sait Boltzmann. Dans le cas de la chane dEhrenfest, le thorme 3.10 permet de calculer
lesprance du temps de retour
1 `!(K `)!
E` ( T`+ ) = = 2K .
(`) K!
Par consquent, le temps de retour en K/2 (qui est la valeur dquilibre) sera infiniment
moins long que le temps de retour en K. Ce dernier est tellement grand quil peut tre
suprieur la dure de vie de lunivers. Il faudra donc sarmer de patience avant de voir
un ballon perc se regonfler spontanment. Les temps de rcurrence dvnements rares
tant extrmement longs, il ny a donc pas de contradiction avec la validit de lquation
de Boltzman sur des chelles de temps plus courtes.
Chapitre 4
Ce chapitre est consacr aux chanes de Markov sur des espaces dtats infinis (mais
dnombrables) pour lesquelles des phnomnes nouveaux apparaissent concernant la
frquence des visites dun tat. On verra aussi que pour des espaces dtats infinis, lir-
rductibilit ne suffit pas garantir lexistence dune unique mesure de probabilit inva-
riante.
1
x, y Zd , P( x, y) = 1 .
2d {k xyk =1}
La marche saute de faon quiprobable dun site vers ses voisins. Elle est irrductible car
elle peut rejoindre nimporte quel point de Zd . Dans le cas des espaces dtats finis, le
lemme 3.9 assure que, pour toute chane de Markov irrductible, le temps datteinte dun
tat y de E
Ty+ = inf n > 1;
Xn = y
en partant dun tat x est toujours intgrable Ex ( Ty+ ) < . En particulier, toute trajectoire
de la chane de Markov issue de x finira par toucher presque srement nimporte quel
tat y de E. Pour des chanes de Markov sur des espaces dtats infinis, cette proprit
nest plus vraie en gnral et il convient donc de distinguer plusieurs cas.
Dfinition 4.1. Soit { Xn }n > 0 une chane de Markov sur un espace dtats E dnombrable. Un
tat x de E est dit
transitoire si Px ( Tx+ < ) < 1.
rcurrent si Px ( Tx+ < ) = 1.
Les tats rcurrents peuvent tre de deux types :
Les tats rcurrents nuls si Ex ( Tx+ ) = .
Les tats rcurrents positifs si Ex ( Tx+ ) < .
47
48 CHAPITRE 4. ESPACES DTATS DNOMBRABLES
Nous allons montrer quune chane de Markov repasse presque srement une infinit
de fois par un tat rcurrent alors quelle ne passera quun nombre fini de fois par un
tat transitoire. Si lespace dtats est fini, le lemme 3.9 implique que tous les tats sont
rcurrents positifs.
Tx(2)
Tx(0) Tx(1) Tx(3)
F IGURE 4.1 Les excursions dune marche alatoire dans Z sont reprsentes en utilisant comme
tat de rfrence x = 0.
Le nombre de visites dun tat x par la chane de Markov { Xn }n > 0 est donn par
Nx = 1 { Xn = x } .
n>0
Si un tat x est transitoire, le nombre de visites N x dune chane de Markov issue de x suit
une loi gomtrique sur N de paramtre Px ( Tx+ < ) < 1. En particulier
1
Ex N x = Px N x < = 1.
Px ( Tx+ = )
Dmonstration. Le point crucial de la preuve consiste remarquer que pour k > 2, si on
( k 1) (k)
conditionne par lvnement { Tx < }, alors la longueur de lexcursion Sx est ind-
( k 1) ( k 1)
pendante de la trajectoire de la chane avant linstant Tx , cest dire de { Xn ; n 6 Tx }
et ( k 1)
(k) (1)
` N, P Sx = ` Tx < = Px Tx = ` .
(4.1)
4.1. CHANES DE MARKOV RCURRENTES ET TRANSITOIRES 49
( k 1) (k) (1)
Conditionnellement lvnement { Tx < }, la longueur Sx a la mme loi que Tx .
On en dduit donc (4.1) par la proprit de Markov forte.
Comme X0 = x, on remarque que N x > 1. Pour tout k > 1, on obtient
(k) ( k 1) (k)
Px N x > k + 1 = Px Tx < = Px Tx < et Sx <
( k 1) (k) ( k 1)
= Px Tx < Px Sx < Tx < .
(1)
Dans la dernire galit, on a identifi Tx = Tx+ . Si x est rcurrent, alors Px N x > k = 1
Si x est transitoire alors Px ( Tx+ < ) < 1. Le nombre de visites N x dune chane de Mar-
kov issue de x suit une loi gomtrique sur N de paramtre Px ( Tx+ < ) et lesprance
du nombre de retours est finie.
Pn ( x, y) = Px Xn = y
x, y E,
o Pn est la puissance nime de la matrice P. Le thorme 4.2 peut tre reformul laide
dun critre plus simple utiliser.
Le thorme 4.2 suffit donc prouver lalternative entre les deux possibilits.
Soit x un tat rcurrent communiquant avec y. Supposons que y ne communique pas
avec x, cest dire que Pk (y, x ) = 0 pour tout k alors
Dans ce cas x ne pourrait pas tre rcurrent car la chane a une probabilit non nulle de
passer dans ltat y et ainsi de ne plus revenir en x
Par consquent si x y et x est rcurrent alors y x. Il existe donc deux entiers `, k > 1
tels que P` ( x, y) > 0 et Pk (y, x ) > 0. On peut dcomposer les trajectoires partant de y
o c > 0 est une constante. On en dduit que y doit aussi tre rcurrent.
Si la chane de Markov est irrductible, tous les tats communiquent et il suffit que
lun soit rcurrent pour que les autres le soient.
1
x, y Zd , P( x, y) = 1
2d {k xyk =1}
dpend de la dimension d. Le thorme suivant a t prouv par Polya en 1921.
Thorme 4.4. La marche alatoire symtrique sur Z ou Z2 est rcurrente. Pour d > 3, la
marche symtrique sur Zd est transitoire.
Dmonstration. La chane tant irrductible tous les tats sont de la mme nature. Daprs
le thorme 4.3, il suffit donc de dterminer si la srie n > 0 Pn (0, 0) est divergente ou
convergente. Ltude se fait pour chaque dimension.
4.2. APPLICATION : MARCHES ALATOIRES 51
d = 1.
Une marche alatoire ne peut revenir en 0 quaprs un nombre pair de pas. Pour
revenir en 0 au temps 2n, il faut quil y ait eu exactement n accroissements gaux 1 et n
accroissements gaux 1. On a donc
1 2n 1
2n
P (0, 0) = 2n ' , P2n+1 (0, 0) = 0
2 n n
o lasymptotique a t obtenue en utilisant la formule de Stirling n! ' 2n(n/e)n . Par
consquent, la srie n > 0 Pn (0, 0) est divergente et 0 est un tat rcurrent.
d = 2.
En inclinant la tte de 45 degrs (cf. figure 4.2), on voit quune marche alatoire Xn
+ +
sur Z2 se rcrit Xn = ( Xn +2 Xn , Xn 2 Xn ) en fonction de Xn+ , Xn , deux marches alatoires
indpendantes sur Z partant initialement de 0.
+
XN
XN
XN
F IGURE 4.2 Les marches alatoires Xn+ et Xn sont les projections de Xn sur les axes du rseau
45 degrs.
1
P2n (0, 0) = P0 ( X2n = 0) = P0 ( X2n
+
= 0)P0 ( X2n = 0) '
n
-50
40
-100
20
-150
-200
-80 -60 -40 -20 20
-20 -250
F IGURE 4.3 Deux ralisations de la marche alatoire dans Z2 pour 104 et 105 pas.
52 CHAPITRE 4. ESPACES DTATS DNOMBRABLES
d = 3.
Pour calculer P2n (0, 0), on dcompose les trajectoires de longueur 2n en 2i, 2j, 2k sauts
selon chacun des axes
2n 2n
n 2 1 2n
(2n)! 1 2n 1
P (0, 0) =
2n
2 = ijk
i,j,k>0 i! j! k! 6 n 2 i,j,k >0 3
i + j+k=n i + j+k=n
o (i nj k) = i! n!
j! k! est le nombre de faons de ranger n boules dans 3 botes en mettant i
boules dans la premire, j dans la seconde et k dans la troisime. On rappelle
n
n 1 3n 3n
i j k 3 = 1 et i j k 6 n n n .
i,j,k>0
i + j+k=n
+
U ( x, y, s) = Ex s Ty 1{Ty+ <} = sn Px Ty+ = n).
n>1
Thorme 4.5.
Si p 6= 1/2, la marche alatoire est transitoire car P0 T0+ < = 1 |1 2p| < 1.
Pour aller de 2 0, la marche doit dabord passer par 1. Le temps ncessaire pour at-
teindre 0 se dcompose donc sous la forme T0+ = T1+ + T10 o T10 est le premier
temps datteinte de 0 aprs avoir touch 1. La proprit de Markov forte applique aprs
le temps darrt T1+ permet dcrire
+
U (2, 0, s) = E2 s T1 1{T + <} s T10 1{T10 <} = E1 s T10 1{T10 <} U (2, 1, s)
1
Par symtrie U (2, 0, s) = U (1, 0, s)2 . Ces relations rcrire les quations (4.2) et dob-
tenir
p
2
1 1 4pqs2
U (1, 0, s) = s pU (1, 0, s) + q U (1, 0, s) =
2ps
p
1 1 4pqs2
U (1, 0, s) = s p + qU (1, 0, s)2
U (1, 0, s) =
2qs
Si p = q = 1/2, le thorme de Polya 4.4 implique que la marche est rcurrente. Pour
tout s < 1, on peut driver U
+
1 1
s U (0, 0, s) = E0 T0+ s T0
1T + < = .
0
1 s2
Comme la limite diverge quand s tend vers 1, on en dduit que E0 T0+ 1T + < = . La
0
marche est donc rcurrente nulle : elle revient infiniment souvent en 0 mais lesprance
du temps de retour est infinie.
54 CHAPITRE 4. ESPACES DTATS DNOMBRABLES
Thorme 4.6. Pour toute chane de Markov irrductible sur un espace dtats E dnombrable,
les deux assertions suivantes sont quivalentes :
(i) La chane est rcurrente positive.
(ii) Il existe une mesure de probabilit invariante.
De plus sil existe une mesure de probabilit invariante alors elle est unique et est donne par
1
x E, (x) = .
Ex ( Tx+ )
Dmonstration ?. Limplication (i) donne (ii) est une consquence directe de la preuve du
thorme 3.10 dans le cas des espaces dtats finis.
Considrons maintenant limplication inverse et supposons que (ii) soit vrifie. La
preuve se dcompose en trois tapes.
tape 1. Montrons que tous les tats sont rcurrents.
La chane tant irrductible, les tats sont tous transitoires ou tous rcurrents. Suppo-
sons quils soient tous transitoires alors pour tous x et y de E
lim Pn ( x, y) = 0
n
Ex (Ny ) = Pn ( x, y) < .
n>0
Sil existe une mesure de probabilit invariante , elle vrifie pour tout temps n les rela-
tions
y E, (y) = ( x ) Pn ( x, y).
xE
y E, (y) = lim
n
(x) Pn (x, y) = (x) nlim
Pn ( x, y) = 0.
xE xE
Ce qui contredit lexistence de la mesure . Par consquent, la chane de Markov doit tre
rcurrente.
tape 2. Montrons que la chane est rcurrente positive.
4.3. MESURES INVARIANTES 55
Soit x un tat de rfrence fix. Comme dans le thorme 3.10 pour les espaces dtats
finis, nous allons montrer que la mesure dfinie par les excursions issues de x
y E, (y) = Px Xn = y, Tx+ > n (4.3)
n>0
est invariante. Nous navons pas encore tabli que la chane est rcurrente positive, par
consquent il faut vrifier que la mesure est bien dfinie. Par lhypothse (ii), il existe
une mesure invariante qui vrifie
(y) = ( x ) P( x, y) + ( z2 ) P ( z2 , z1 ) P ( z1 , y )
z1 6 = x z2 E
= ( x ) P( x, y) + ( x ) P( x, z1 ) P(z1 , y) + ( z2 ) P ( z2 , z1 ) P ( z1 , y ).
z1 6 = x z1 6 = x z2 6 = x
`1
> (x) Px Xn = y, Tx+ > n
n =1
La chane tant irrductible, la mesure est strictement positive pour tout x (cf. thorme
3.7). La mesure est donc bien dfinie et
1
Ex Tx+ = (y) 6 (x) (y) < .
y E y E
Ltat x est donc rcurrent positif. En rptant la preuve pour dautres tats de rfrence,
on en dduit que tous les tats de E sont rcurrents positifs, i.e. que la chane de Markov
est rcurrente positive.
tape 3. Reprsentation de la mesure invariante.
Un calcul identique celui du thorme 3.10 montre que (dfinie en (4.3)) est une
mesure invariante. On rappelle que x est ltat de rfrence pour construire et que
56 CHAPITRE 4. ESPACES DTATS DNOMBRABLES
Corollaire 4.7. Les tats dune chane de Markov irrductible et rcurrente sont tous rcurrents
positifs ou tous rcurrents nuls.
Dmonstration. Sil existe un tat rcurrent positif, on peut construire une mesure de pro-
babilit invariante (4.3) et on en dduit par le thorme 4.6 que tous les tats sont rcur-
rents positifs.
P( x, x + 1) = p, P(0, 0) = 1 p et P( x, x 1) = 1 p si x > 1.
Exercice 4.9. Montrer quun processus de naissance et de mort de matrice de transition gnrale
P( x, x + 1) = p x > 0, P(0, 0) = 1 p0 et P( x, x 1) = 1 p x si x > 1
admet une mesure de probabilit invariante si et seulement si
n
p x 1
1 px < .
n > 0 x =1
Les processus de branchement que nous allons considrer modlisent le nombre din-
dividus au cours du temps dune population en fonction de rgles de reproduction. Le
modle t propos par Sir Francis Galton en 1873 pour dcrire lvolution des noms
de famille en Angleterre. lpoque les noms de famille tant transmis exclusivement
par les hommes, il suffisait de suivre le nombre de descendants masculins dans chaque
famille. Cette hypothse permet de considrer un seul type dindividus et de supposer
qu chaque gnration les individus se reproduisent selon la mme loi de probabilit.
On sintressera la taille de la population chaque gnration. Ce modle peut aussi
dcrire la fission des neutrons dans une raction nuclaire. Si cette fission sopre trop ra-
pidement cela peut conduire une explosion. La mutation de gnes dans une population
peut tre modlise par ces processus de branchement. Dautres applications des proces-
sus de branchement en cologie et dans les modles dvolution sont dtailles dans le
cours Modles alatoires en cologie et volution [15].
Les arbres alatoires de Galton-Watson sont des processus de branchement dfinis par
rcurrence. On se donne une loi = { pk }k > 0 sur N. On considre une suite ( 2 indices)
de variables alatoires indpendantes et identiquement distribues { it }i > 1,t > 1 de loi
k > 0, P( it = k ) = pk .
Sil ny a plus de descendants partir dun temps t alors la population restera teinte
jamais.
temps initial
Z0
P(n, k ) = P Z1 = k Z0 = n = P `1 = k Z0 = n
`=1
n
=P `1 = k
= p i1 p i2 . . . p i n .
`=1 i1 ,...,in N
i1 ++in =k
Si la population disparat au temps t alors Zs = 0 pour tous les temps suivants s > t.
Ltat 0 est donc absorbant pour cette chane de Markov. On remarque quaucun autre
tat ne peut tre rcurrent car tous les tats communiquent avec 0. En effet, la population
peut disparatre en un seul pas de temps
P Z1 = 0 | Z0 = n = p0n > 0.
n > 1,
o on a utilis que la loi de reproduction est identique pour tous les individus. On dis-
tingue donc trois rgimes
Le rgime sous-critique < 1 : le nombre moyen denfants tend vers 0 exponentiel-
lement vite et la population va disparatre presque srement. Pour le dmontrer, il
suffit de remarquer que
P( Zt > 1) 6 E( Zt ) 6 t
et dutiliser le thorme de Borel-Cantelli.
Le rgime sur-critique > 1 : le nombre moyen denfants tend vers linfini exponen-
tiellement vite et nous allons montrer que la taille de la population diverge avec
une probabilit positive.
Le rgime critique = 1 : le nombre moyen denfants est constant et ceci ne suffit
pas dcrire le comportement trs fluctuant de la population. Celle-ci va steindre
avec probabilit proche de 1 ou diverger avec faible probabilit.
60 CHAPITRE 4. ESPACES DTATS DNOMBRABLES
Pour prciser ces comportements, nous allons tudier le premier temps dextinction,
i.e. le temps datteinte de 0 par la chane de Markov
T0 = inf t > 1; Zt = 0 .
t
u [0, 1], (u) = E u 1 = un pn .
n>0
P T0 < = 1.
P T0 < =
o est lunique point fixe dans ]0, 1[ de () = . Par consquent la taille de la population
diverge avec probabilit 1 > 0.
t (u) = E u Zt = un P Zt = n .
u [0, 1],
n>0
t +1
avec la convention 0`=1 E u ` = 1 pour n = 0. En identifiant la fonction gnratrice
de la loi de reproduction, on obtient la relation de rcurrence
t +1 ( u ) = (u)n P Zt = n = t (u) .
n =0
On en dduit
t +1 ( u ) = ( u ).
| {z }
t+1 fois
1.0 1.0
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0
x t +1 = ( x t ) avec x0 = 0.
On sait que
{ T0 < } =
[
{ Zt = 0}
t =0
qui est une runion croissante dvnements car { Zt = 0} { Zt+1 = 0}. On en dduit
donc que
(
1, si 6 1
P T0 < = lim P Zt = 0 =
t , si > 1
avec probabilit 1 .
Le comportement asymptotique des arbres peut tre tudi plus prcisment. Nous
reviendrons sur le comportement asymptotique du cas sur-critique au chapitre 11.
62 CHAPITRE 4. ESPACES DTATS DNOMBRABLES
F IGURE 4.6 Toutes les parties connexes dun graphe alatoire dErds-Rnyi sont reprsen-
tes : au dessus la partie connexe principale et en dessous les plus petites composantes connexes
(certaines sont rduites un seul site).
Nous allons tudier la structure des connections dans les graphes dErds-Rnyi en
fonction des valeurs de . tant donne une ralisation du graphe, on note C ? le cardinal
de la plus grande de ses composantes connexes (il se peut quil y ait plusieurs compo-
santes connexes de taille C ? ). La figure 4.7 reprsente une simulation numrique de la
densit de la composante connexe maximale E(C ? )/N pour diffrentes valeurs de
N. Pour obtenir une approximation de lesprance ( tant fix), on simule un grand
nombre K de ralisations de graphes et on prend la moyenne des tailles {Ci? }i 6 K des
composantes maximales de chacun de ces graphes
K
1
E( C ? ) '
K Ci? .
i =1
La loi des grands nombres permet daffirmer que lapproximation est correcte quand K
tend vers linfini. Les simulations de la figure 4.7 ont t faites pour K = 1000 et des
fluctuations persistent.
On remarque que pour < 1 cette densit semble tendre vers 0 quand N augmente.
Ceci veut dire quaucune composante connexe ne recouvre une fraction macroscopique
des sites. Nous allons montrer que pour < 1, les composantes connexes typiques dun
graphe dErds-Rnyi sont de taille finie mme quand N tend vers linfini. Dans ce cas, le
graphe nest quune collection de petits sous graphes disjoints voire mme de sites isols.
Pour > 1, le comportement change radicalement et la plus grande composante
contient une densit positive de sites. On dit quil y a une transition de phase au point
critique c = 1. La figure 4.6 reprsente une ralisation dun graphe pour > 1. On
remarque quil existe une composante connexe principale qui relie une grande partie des
sites et que les autres composantes connexes sont beaucoup plus petites. Il existe un lien
entre les composantes connexes et les arbres de Galton-Watson, en particulier on peut
observer que la composante principale du graphe ressemble un arbre au voisinage de
chaque site, mme si plus grande chelle on observe des boucles.
0.8
0.6
0.4
0.2
F IGURE 4.7 Densit moyenne de la composante connexe maximale dun graphe alatoire
dErdsRnyi pour trois valeurs de N = 50, 100, 200 et variant entre 0 et 3.
Thorme 4.11. Pour < 1, la composante connexe associe au site 1 a une taille moyenne
borne uniformment en N
1
E |C(1)| 6
1
64 CHAPITRE 4. ESPACES DTATS DNOMBRABLES
Ses voisins eux-mmes seront relis environ voisins et ainsi de suite. Cette structure
ressemble celle dun arbre de Galton-Watson et elle permet de prdire lexistence de
comportements diffrents selon que est plus grand ou plus petit que 1. Cependant
la topologie des graphes est plus complexe que celle des arbres car il peut exister des
boucles et il faut une preuve spcifique pour prciser cette analogie.
Nous allons explorer la composante connexe C(1) la manire dun arbre. Au temps
initial t = 0, on pose A0 = {1}, I0 = {2, 3, . . . , N } et R0 = . Les trois ensembles vont
voluer au cours du temps selon la rgle suivante (cf. figure 4.8)
R t +1 = R
t At
At+1 = xAt y It ; (4.8)
S
x,y = 1
I t +1 = I t \ A t +1
Lensemble At reprsente les sites actifs au temps t, ceux ci vont sapparier avec les sites
inactifs de It qui sont lis At dans le graphe dErds-Rnyi. Ces nouveaux sites de-
viennent actifs au temps t + 1 et les sites de At viennent grossir lensemble Rt+1 . Ainsi
la composante connexe C(1) est explore entirement au cours de ce processus qui se
termine au temps 6 N quand A = et C(1) = R .
At
Rt
It
F IGURE 4.8 La composante connexe C(1) est explore en dcouvrant les sites voisins chaque
tape. Les sites actifs At sont reprsents distance 2 et ils sont connects aux sites de It marqus
en blanc. On remarque que cette exploration peut conduire dcouvrir le mme site sil est reli
plusieurs sites de At . Contrairement aux arbres, les composantes connexes du graphe peuvent
avoir des boucles.
x > 1 et y {1, . . . , N }. Ces variables sont identiquement distribues selon une loi de
4.4. APPLICATION : BRANCHEMENT ET GRAPHES ALATOIRES 65
Bernoulli
P x,y
t
= 1 = 1 P x,y
t
=0 = .
N
On dfinit U0 = 1 et on construit larbre de Galton-Watson dont la population au
temps t + 1 est donne par
N +Ut |At | N
Ut+1 = x,y + t
x,y + x,y
t
(4.9)
x At , yIt x At , yItc x = N +1 y =1
o |At | dsigne le cardinal de At . Le second terme ajoute des descendants fictifs dans
{1, . . . , N } \ It pour compenser la rduction du cardinal de It chaque pas. Ces des-
cendants fictifs ont ensuite eux mme une descendance qui est prise en compte dans le
troisime terme de (4.9). Par consquent {Ut } est un processus de branchement dont la
loi de reproduction est une loi binomiale de paramtres ( N, N ), i.e. que la distribution des
N
enfants de chaque site a la mme loi que i=1 i o les i sont des variables de Bernoulli
indpendantes de paramtre /N. Il est important de remarquer que quand N tend vers
linfini la loi de reproduction converge vers une loi de Poisson de paramtre .
N k
!
N
k k
N N
P i = k = 1 exp() .
i =1
k N N k!
On sattend donc ce que de trs grands systmes (N ) convergent vers une struc-
ture limite et soient bien dcrits par des arbres de Galton-Watson de loi de reproduction
donne par cette loi de Poisson. La moyenne de la loi de reproduction est . Si < 1, le
thorme 4.10 implique que les arbres seront finis presque srement.
Comme le processus {Ut } est construit en ajoutant des sites fictifs (4.9) par rapport
ceux existants dans la composante C(1) du graphe, son cardinal domine toujours le
cardinal de C(1). On en dduit que
1
E |C(1)| = E(|At |) 6 E(Ut ) = t = 1
(4.10)
t =0 t =0 t =0
Pour > 1, la comparaison avec un arbre permet de montrer quil existe une compo-
sante connexe contenant une proportion de sites proportionnelle N. Le nombre moyen
denfants tant gal , la population de larbre a une probabilit positive de diverger
ce qui indique que la composante connexe C(1) doit tre trs grande. La preuve est dli-
cate car la comparaison entre un arbre et le processus dexploration de C(1) (dcrit dans
la preuve du thorme 4.11) nest plus valable quand la composante connexe explore
Rt est trop grande : les boucles ne peuvent plus tre ngliges et lajout des sites fictifs
devient trop important. La preuve complte est faite dans le livre de R. Durrett [10].
5.1 Ergodicit
Soient {Yn }n > 0 des variables alatoires indpendantes et identiquement distribues
valeurs dans R telles que lesprance E(| f (Y0 )|) soit finie pour une fonction f donne.
Le thorme de la loi des grands nombres implique la convergence presque sre
n 1
1 n
n f (Yi ) E( f (Y0 )). (5.1)
i =0
Si F ( x, y) est une fonction de E E dans R telle que x,yE ( x ) P( x, y)| F ( x, y)| est finie alors
n
1 n
F ( Xi 1 , Xi ) E F ( X0 , X1 ) =
( x ) P( x, y) F ( x, y). (5.3)
n i =1 x,y E
67
68 CHAPITRE 5. ERGODICIT ET CONVERGENCE
Dmonstration. Supposons que la chane parte initialement dun tat x de E fix, i.e. que
= x . Cet tat x va servir dtat de rfrence pour reprsenter lunique mesure inva-
riante associe cette chane de Markov rcurrente positive
+
Tx 1
n > 0 Px Xn = y, Tx+ > n Ex n= 0 1 Xn = y
y E, (y) = = . (5.4)
Ex Tx+ Ex Tx+
Contrairement lexpression (4.3), le facteur 1/Ex Tx+ sert normaliser la mesure. La
probabilit (y) dcrit la statistique des passages dans ltat y pendant une excursion de
la chane de Markov. Par ailleurs, les diffrentes excursions (cf. figure 5.1) sont indpen-
dantes par la proprit de Markov forte. Nous allons donc dcomposer les trajectoires de
la chane de Markov en excursions pour tablir la correspondance avec .
Tx(2)
Tx(0) Tx(1) Tx(3) N
F IGURE 5.1 Dcomposition de la trajectoire dune chane de Markov en trois excursions entre
les passages en x. Le dernier segment jusquau temps N nest pas une excursion complte.
Rappelons les notations sur les temps de retour. Pour tout entier k > 1, on dfinit le
kime temps de retour en x par
(k) ( k 1)
Xn = x N { }
Tx = inf n > Tx + 1;
(0) (1)
o Tx = 0 et Tx concide avec Tx+ . Par hypothse, la chane est rcurrente et tous les
temps darrt sont finis presque srement. On dfinit les variables alatoires {Yk }k > 0
associes la contribution de chaque excursion
( k +1)
Tx 1
Yk = F ( X` ).
(k)
`= Tx
Par la proprit de Markov forte dmontre au thorme 2.6, les variables {Yk } sont ind-
pendantes et identiquement distribues. Leur esprance scrit en fonction de la mesure
invariante
+
Tx 1
! + Tx 1
! + !
Tx 1
E(Y1 ) = Ex F ( X` ) = Ex F ( y ) 1 X` = y = F ( y )E x 1 X` = y
`=0 `=0 y E y E `=0
= Ex Tx+ F (y) (y) = Ex Tx+ E ( F )
y E
5.1. ERGODICIT 69
La chane tant rcurrente Nn diverge quand n tend vers linfini. On peut dcomposer
F en une partie positive et ngative F = F + F et traiter chaque terme sparment.
Supposons donc que F soit positive, alors
(Nn ) (Nn +1)
(Nn ) Tx 1 n 1 (Nn +1) Tx 1
Tx 1 1 Tx 1
(Nn +1) (Nn ) F ( X` ) 6
n F ( X` ) 6 (Nn ) (Nn +1) F ( X` ),
Tx Tx `=0 `=0 Tx Tx `=0
o on a utilis
(Nn ) (N ) (Nn +1) (Nn +1)
Tx Tx n Tx Tx
(Nn +1)
6 et 6 (Nn )
.
Tx n n Tx
La convergence de (5.5) implique que presque srement
(Nn )
Tx n
(N +1)
1.
Tx n
Il suffit donc dappliquer (5.6) pour conclure que pour une donne initiale X0 = x
n 1
1 n
n F ( X` ) E ( F ).
`=0
Pour une chane de Markov rcurrente positive, le thorme ergodique (5.2) appli-
qu la fonction F (y) = 1y= x permet dinterprter la mesure invariante comme la
frquence de visites des tats par la chane de Markov
n 1
1 n 1
n 1 X` = x ( x ) =
Ex Tx+
presque srement.
`=0
Dmonstration. Si la chane de Markov est transitoire alors elle ne repassera quun nombre
fini de fois par un tat par consquent `=0 1 X` = x est fini presque srement et (5.7) est
vrifi.
On rappelle que pour une fonction f positive, la loi des grands nombres (5.1) reste
vraie mme si E( f (Y0 )) =
1 n n
n i
f (Yi ) .
=0
Pour le dmontrer, il suffit dappliquer la loi des grands nombres la fonction tronque
inf{ f , K } puis de faire tendre K vers linfini.
Si la chane de Markov est rcurrente nulle, on peut appliquer la preuve du thorme
5.1 pour obtenir par (5.5) la convergence presque sre
( k +1)
Tx k
.
k
(Nn )
En utilisant les notations du thorme 5.1 et le fait que Tx 6 n, on peut crire
n
1 Nn Nn n
n 1 X` = x =
n
6 (N ) 0
`=0 Tx n
car la chane de Markov est rcurrente et Nn converge presque srement vers linfini.
5.1. ERGODICIT 71
1
(i ) = deg( j) ( j) ,
j i
calcule en (3.2). Pour valuer , une possibilit est dindexer de faon systmatique tous
les liens, mais le graphe du web est compliqu et il volue sans cesse. Loption retenue
par lalgorithme PageRank consiste laisser faire le hasard en suivant des marches ala-
toires qui voluent de pages en pages selon les liens et en indexant le contenu chaque
fois. Le thorme ergodique 5.1 permet ensuite de retrouver la mesure invariante , i.e.
les indices de popularit, en moyennant sur les trajectoires des marcheurs.
La vitesse de convergence dun algorithme est fondamentale dans les applications in-
dustrielles. Pour cette raison, Brin et Page ont introduit la matrice de transition de Google
G de composantes
1 1
G (i, j) = 1 i j + (1 ) pour tous i, j S , (5.8)
deg(i ) N
o N est le cardinal de S et un paramtre dans ]0, 1[ appel facteur damortissement.
Avec probabilit 1 , les marches alatoires sont relances sur un site choisi au hasard
parmi les N sites de S . Cette modification de la matrice de transition rappelle le com-
portement de linternaute qui suit quelques liens puis au bout dun moment (avec une
probabilit 1 ) se dirige vers un de ses liens favoris que lon suppose distribus uni-
formment sur lensemble des pages. Le choix de la valeur du paramtre est dlicat. Le
souci de rapidit de la convergence de lalgorithme nous pousse choisir proche de 0,
mais ceci conduirait une mesure invariante qui ne reflterait plus la vraie structure du
web (toutes les pages auraient la mme probabilit 1/N). La valeur exacte du paramtre
est un secret gard de Google, mais il semble quelle se situe autour de 0, 85.
5.2 Convergence
Reprenons lexemple de la chane de Markov deux tats {1, 2} (cf. figure 3.1 et qua-
tion (3.3)) dont la matrice de transition et la mesure invariante sont donnes par
1 p p q p
P= , (1) = , (2) =
q 1q p+q p+q
avec p, q ]0, 1[. Cette matrice de transition se diagonalise facilement
1 (2) 1 0 (1) (2)
P=
1 (1) 0 1 pq 1 1
et peut tre multiplie n fois
n 1 (2) 1 0 (1) (2) n (1) (2)
P = .
1 (1) 0 (1 p q ) n 1 1 (1) (2)
Quand le temps tend vers linfini, les probabilits de transition convergent exponentiel-
lement vite vers la mesure invariante
x, y {1, 2}, lim Px ( Xn = y) = (y).
n
Ceci ne suffit pas impliquer que limn Px Xn = y = (y). Pour sen convaincre,
Un autre exemple est la marche alatoire sur le domaine priodique {1, . . . , 2L} avec un
nombre pair de sites (cf. figure 5.3). Si la marche part de 1 au temps 0, elle ne pourra
atteindre un site pair qu des temps impairs.
15
10
20 40 60 80 100
-5
-10
-15
F IGURE 5.2 La marche alatoire sur lintervalle priodique {1, . . . , 2L} reste sur les sites noirs
au temps pairs si elle est partie dun site noir. Le schma de droite reprsente 3 ralisations dune
mme chane de Markov. Sous les hypothses du thorme 5.5, la mesure invariante peut sobtenir
en moyennant les valeurs de plusieurs trajectoires un temps donn.
Dfinition 5.3. Une chane de Markov irrductible surE est apriodique si pour tous x, y de E
il existe n( x, y) N tel que la probabilit Px Xn = y = Pn ( x, y) est strictement positive ds
que n > n( x, y).
Cette dfinition permet dviter les pathologies dcrites prcdemment car une chane
de Markov apriodique a une probabilit positive de connecter 2 tats ds que le temps
est assez grand. On peut facilement se ramener des chanes de Markov apriodiques en
transformant la matrice de transition. La matrice Q = ( I + P)/2 est associe la version
"fainante" de la chane de Markov : avec probabilit 1/2 la chane reste sur place et avec
probabilit 1/2 elle fait un saut selon la matrice P.
74 CHAPITRE 5. ERGODICIT ET CONVERGENCE
Lemme 5.4. Si la chane de Markov sur E est irrductible et si un seul site x est apriodique,
cest dire quil vrifie
La dfinition 5.3 nest pas la seule caractrisation des chanes apriodiques et nous
reviendrons par la suite sur cette notion. Pour le moment, nous allons montrer une cons-
quence importante de lapriodicit.
Thorme 5.5. Soit { Xn }n > 0 une chane de Markov irrductible et apriodique de mesure in-
variante sur un espace dtats E dnombrable. Pour toute distribution initiale sur E, la dis-
tribution de { Xn }n > 0 converge vers quand n tend vers linfini
lim P Xn = x = ( x ).
n
(k)
o { Xn }n > 0 sont des ralisations indpendantes de la chane de Markov. Il y a donc
deux approches complmentaires pour estimer ( x ) : on moyenne la frquence de pas-
sages en x le long dune trajectoire (cest le thorme ergodique 5.1 ) ou on fixe un temps
n et on construit un histogramme partir de plusieurs simulations indpendantes (cf.
figure 5.2).
ds que n est assez grand. Lapriodicit de la chane est essentielle pour prouver lirr-
ductibilit, en effet si { Xn }n > 0 et {Yn }n > 0 taient deux ralisations dune marche ala-
toire sur {1, . . . , 2L} (cf. figure 5.2) lune partant dun nombre pair et lautre dun nombre
impair, alors le couple form par Wn ne pourra jamais atteindre tous les sites {1, ..., 2L}2
et en particulier les trajectoires { Xn }n > 0 et {Yn }n > 0 ne se rencontreront jamais.
Comme Xn et Yn ont pour mesure invariante , il est facile de vrifier que {Wn }n > 0
a pour mesure invariante la mesure produit
( x, y) E E, ( x, y) = ( x ) (y).
Par le thorme 4.6, la chane {Wn }n > 0 est donc rcurrente positive.
T
x
F IGURE 5.3 Le schma reprsente un couplage entre 2 trajectoires issues des tats x et y. Leur
partie commune aprs le temps T est dessine en pointills.
Nous allons vrifier que { Zn }n > 0 est une chane de Markov et a la mme distribution
que { Xn }n > 0 . Par la proprit de Markov forte dmontre au thorme 2.6, la chane
de Markov dcale en temps {WT +n }n > 0 est indpendante de {( X0 , Y0 ), . . . , ( XT , YT )}
conditionnellement ( XT , YT ). Comme leurs donnes initiales concident les chanes de
76 CHAPITRE 5. ERGODICIT ET CONVERGENCE
Markov { XT +n }n > 0 et {YT +n }n > 0 ont la mme loi et il est donc quivalent de suivre la
trajectoire associe YT +n plutot que celle de XT +n . Par consquent { Zn }n > 0 est bien une
chane de Markov de mme loi que { Xn }n > 0 .
tape 3 : Convergence.
Les donnes initiales sont X0 = x et la mesure invariante pour Y0 , on peut donc
crire pour tout tat y de E
Px Xn = y (y) = Px Xn = y P Yn = y .
Px Xn = y = Px Zn = y = P b Xn = y, T > n + P
b Yn = y, T 6 n ,
o P
b fait rfrence la mesure jointe des trajectoires { Xn } et {Yn }. On en dduit que
P x Xn = y ( y ) = P Xn = y, T > n P b Yn = y, T > n 6 P
b b T>n .
Daprs la premire tape, la chane {Wn }n > 0 est rcurrente positive. Par consquent le
temps darrt T est fini presque srement et P T > n tend vers 0 quand n tend vers
La dfinition 5.3 de lapriodicit est particulirement bien adapte pour les preuves
cependant il existe un autre point de vue qui justifie le choix du mot apriodique. Nous
prsentons maintenant cet aspect complmentaire. Cette partie peut tre omise en pre-
mire lecture.
Pour tout tat x E, on dfinit
Proposition 5.6. Soit { Xn }n > 0 une chane de Markov irrductible sur lespace dtats E. Alors
la fonction x p( x ) est constante sur E et on notera p X cette constante.
Dmonstration. Soient x, y E deux tats qui communiquent, cest dire quil existe i, j
tels que
Pi ( x, y) > 0 et P j (y, x ) > 0.
Une application directe de lgalit de Chapman-Kolmogorov montre que pour tout r
I (y)
Pi+ j ( x, x ) > 0 et Pi+ j+r ( x, x ) > 0.
Ainsi p( x ) divise i + j et i + j + r et donc la diffrence r de ces deux entiers. Comme r est
arbitraire dans I (y), on dduit que p( x ) divise p(y). En inversant les rles de x et y, on
montre lgalit p( x ) = p(y).
Pour la marche alatoire de la figure 5.3, la priode est gale 2. Nous donnons main-
tenant une seconde dfinition de lapriodicit quivalente la dfinition 5.3
5.2. CONVERGENCE 77
Dfinition 5.7. Soit { Xn }n > 0 une chane de Markov irrductible. On dit que X est apriodique
si p X = 1.
Le lemme qui suit permet de faire le lien entre les deux dfinitions.
Lemme 5.8. Pour tout x dans E, les deux assertions suivantes sont quivalentes :
(i) p( x ) = 1,
(ii) il existe n( x ) > 1 tel que Pn ( x, x ) > 0 pour tout n n( x ).
Dmonstration. Limplication (ii) = (i) est triviale. Pour limplication inverse, on consi-
dre des entiers n1 , . . . , nk I ( x ) avec PGCD[n1 , . . . , nk ] = 1. Le thorme de Bezout
assure lexistence de q1 , . . . , qk Z tels que
k k k
qi ni = 1 = a ( x ) b ( x ) o a( x ) = qi+ ni et b( x ) = qi ni .
i =1 i =1 i =1
Posons
n( x ) = b( x )2 1 = (b( x ) 1)b( x ) + b( x ) 1.
n = db( x ) + r avec dr et 0 r b( x ) 1
k k
= (d r )b( x ) + ra( x ) = (d r ) qi+ ni + r qi ni .
i =1 i =1
Lgalit de Chapman-Kolmogorov montre que toute combinaison linaire des (ni )1ik ,
coefficients dans N, est dans I ( x ). En particulier, la dcomposition prcdente implique
que n appartient I ( x ).
Dfinition 5.9. Soient et deux mesures sur un espace dnombrable E. On dfinit la distance
en variation totale entre ces deux mesures par
1
k kVT = ( x ) ( x ) .
2 xE
Cette distance sinterprte comme la moiti de laire des rgions 1 et 2 sur la figure
5.4. Le point clef de la preuve de convergence du thorme 5.5 rsidait dans la construc-
tion dun couplage entre les trajectoires. Nous allons maintenant revenir sur la notion de
couplage et montrer quelle est intimement lie la distance en variation totale.
78 CHAPITRE 5. ERGODICIT ET CONVERGENCE
1 2
3
A Ac
F IGURE 5.4 Les densits des mesures et sont reprsentes. Leur partie commune est dessi-
ne en gris et la distance en variation est proportionnelle laire des zones blanches 1 et 2. Si les
2 mesures taient identiques les zones 1 et 2 nexisteraient pas et leur distance en variation serait
nulle. Inversement, si les supports des mesures sont disjoints leur distance est maximale.
Un couplage entre les deux mesures de probabilit et est une paire de variables
alatoires ( X, Y ) telles que X ait pour distribution et Y pour distribution
P( X = x ) = Pb (X = x, Y = y) = (x) (5.9)
y E
P (Y = y ) = Pb (X = x, Y = y) = (y) (5.10)
xE
o P
b est la probabilit jointe des deux variables X et Y. Il existe de multiples faons de
coupler deux mesures. Supposons par exemple que = = 21 (0 + 1 ). Un couplage
possible est de choisir X et Y indpendamment
x, y {0, 1}, b ( X = x, Y = y) = 1
P b ( X 6= Y ) = 1 .
P
4 2
Un autre couplage consiste corrler fortement les 2 variables en choisissant X selon une
loi de Bernoulli de paramtre 1/2 puis en posant Y = X
o linfimum est pris sur tous les couplages possibles de et . Les couplages qui ralisent lgalit
sont dits optimaux.
5.2. CONVERGENCE 79
( B) ( B) 6 ( B A) ( B A) 6 ( A) ( A)
et aussi
( B ) ( B ) 6 ( A c ) ( A c ).
On en dduit que
max ( B) ( B) = ( A) ( A) = k kVT . (5.13)
B E
Soit B un sous-ensemble de E
( B ) ( B ) = P ( X B ) P (Y B )
=Pb ( X B, Y 6 B) + P
b ( X B, Y B) P(Y B)
6Pb ( X B, Y 6 B) 6 P
b ( X 6= Y ) .
Par symtrie
( B) ( B) 6 P
b ( X 6= Y ) .
Il suffit dutiliser lidentit (5.11) pour en dduire lingalit (5.14).
p = ( x ) + ( x ) = 1 + ( x ) ( x ) = 1 ( A) ( A)
xE xE xE
( x ) 6 ( x ) ( x )>( x ) ( x )>( x )
= 1 k kVT .
80 CHAPITRE 5. ERGODICIT ET CONVERGENCE
P( B = 0) = p, P( B = 1) = 1 p
1
m3 ( x ) = inf{( x ), ( x )}
p
La relation (5.13) permet de vrifier que les 2 mesures sont normalises par 1.
Cette procdure construit bien un couplage car X et Y ont les bonnes lois marginales
Les mesures 1 et 2 ont des supports disjoints (associs aux rgions 1 et 2 de la figure
5.4). Par consquent X 6= Y si et seulement si B = 1. Lgalit dans (5.12) est donc bien
vrifie car
P
b ( X 6= Y ) = P( B = 1) = 1 p = k kVT .
Le Lemme 5.10 va nous permettre de renforcer le thorme 5.5 sous une hypothse
introduite par Doeblin.
Thorme 5.11. Soit { Xn }n > 0 une chane de Markov irrductible, apriodique sur un espace E
dnombrable. On suppose que sa matrice de transition vrifie la condition de Doeblin, i.e quil
existe r > 1, > 0 et une mesure de probabilit sur E tels que
Alors la chane de Markov admet une mesure de probabilit invariante vers laquelle la distribu-
tion de la chane de Markov converge exponentiellement vite (uniformment par rapport aux tats
initiaux)
1
sup
Pn ( x, )
VT = sup Pn (x, y) (y) 6 (1 )dn/re
xE 2 xE y E
5.2. CONVERGENCE 81
Si lespace dtats E est fini, une chane de Markov irrductible et apriodique satisfait
toujours la condition de Doeblin. En effet, il existe r > 1 tel que pour tout couple x, y de
E, on ait Pr ( x, y) > 0. Il suffit de choisir
1
= min Pr ( x, y) > 0
xE
et (y) = min Pr ( x, y).
xE
(5.17)
y E
Xn+1 = Yn+1 = z.
1
P
b Xn+1 = xn+1 Xn = xn , Bn+1 = 1 = ( P( xn , xn+1 ) ( xn+1 ))
1
1
P
b Yn+1 = yn+1 Yn = yn , Bn+1 =1 = ( P(yn , yn+1 ) (yn+1 ))
1
On remarque que la matrice modifie est bien une matrice de transition car ses
termes sont positifs et
1
z1 E, 1
( P(z1 , z2 ) (z2 )) = 1.
z2 E
De plus les processus { Xn }n > 0 et {Yn }n > 0 sont chacun des chanes de Markov de
matrice de transition P car
P X n +1 = x n +1 X n = x n
= P Xn+1 = xn+1 Xn = xn , Bn+1 = 0
+ (1 )P Xn+1 = xn+1 Xn = xn , Bn+1 = 1
Le couplage tant construit, il ne reste plus qu estimer le temps darrt T quand les
marches se rejoignent (cf. figure 5.3)
n o
T = inf n > 0; Xn = Yn .
Il est important de remarquer que cette borne est uniforme pour tous les tats de dpart
x et y de E. Pour estimer lcart entre les distributions au temps n, il ne reste plus qu
utiliser le lemme 5.10 en choisissant le couplage que nous venons de construire
P ( x, ) Pn (y, )
6 P
n b ( T > n) 6 1 n .
b ( Xn 6= Yn ) = P
(5.18)
VT
5.2. CONVERGENCE 83
Si la chane de Markov {Yn }n > 0 tait issue de la mesure invariante alors sa distribution
tout temps serait gale
P x ( Xn = y ) = P` (x, z)Pz
Xk = y .
z E
Marche alatoire.
Considrons une marche alatoire fainante symtrique sur le domaine priodique
E = {1, . . . , L} de matrice de transition P donne par
E
b ( T ) = ( x y) L ( x y) .
L2
k Pn ( x, ) Pn (y, )kVT 6 .
4n
Ceci montre que pour une taille L assez grande, la chane de Markov sera proche
de lquilibre ds que le temps est de lordre de L2 . Cet ordre de grandeur est optimal
comme lindique le thorme central limite : une marche alatoire au temps n visite des
rgions de taille n, par consquent pour recouvrir le domaine {1, . . . , L}, il faudra au
moins attendre des temps de lordre L2 .
Comparons maintenant ce rsultat avec celui donn par le thorme 5.11. La condi-
tion de Doeblin (5.15) suppose de trouver un paramtre r tel que tous les tats puissent
tre connects en r sauts. Il faut au minimum choisir r > L/2. Pour r = L/2, la constante
1
est alors de lordre 4L/2 . Pour ces valeurs, le thorme 5.11 implique
d n
L/2 e
1 n
sup
Pn ( x, )
VT 6
1 ' exp c L
xE 4 L/2 2 L
o la dernire galit est un quivalent pour L grand et c est une constante. Dans cet
exemple la condition de Doeblin assure seulement la convergence pour des temps de
lordre 2 L L et dun point de vue pratique, elle nest pas pertinente car elle ne prdit pas
lordre L2 .
Considrons maintenant une marche modifie qui au lieu de rester sur place avec
probabilit 1/2 peut sauter uniformment sur tous les sites selon la probabilit de transi-
tion
1
i E, P(i, i + 1) = P(i, i 1) = 1/4, P(i, j) = j {1, . . . , L}
2L
o on identifie L + 1 1 et 0 L. Dans ce cas la condition de Doeblin sapplique avec
r = 1, = 1/2 et (y) = 1/L. Par le thorme 5.11, on obtient
1
sup
Pn ( x, )
VT 6 n .
xE 2
5.2. CONVERGENCE 85
Cette fois la convergence est beaucoup plus rapide, elle ne dpend plus de L et la condi-
tion de Doeblin fournit une information prcise. Cette modification des probabilits de
transition est en fait identique celle introduite dans la matrice de transition de Google
(5.8) afin dacclrer la vitesse de convergence.
86 CHAPITRE 5. ERGODICIT ET CONVERGENCE
Chapitre 6
6.1 Optimisation
Dans de nombreuses applications, on souhaite minimiser une fonction V : RK R
dont la structure est souvent complexe et dpend dun grand nombre de paramtres
K 1 selon le problme modliser. Cette fonction sert par exemple quantifier un
cot en conomie ou un rendement dans une raction chimique, optimiser des changes
dans un rseau informatique ou dterminer des estimateurs en statistique (maximum
de vraisemblance). On cherche aussi identifier les valeurs o cette fonction prend son
minimum
Argmin V = x RK ;
V ( x ) = inf V (y) .
y
Ce problme doptimisation est purement dterministe et il peut tre rsolu par des
mthodes analytiques. En particulier, les mthodes de programmation linaire sont opti-
males pour rsoudre des problmes linaires. Dans le cas dune fonction V convexe, une
mthode de descente de gradient [5] permet de converger vers un point x ? o la fonction
atteint son minimum
t > 0, xt = V 0 ( xt ) alors lim xt = x ? .
t
Par contre si la fonction V possde de nombreux minima locaux une telle mthode ne
permettra pas de dterminer le minimum global facilement car la limite de xt dpendra
de ltat initial x0 (cf. figure 6.1).
De nombreux problmes doptimisation ncessitent dtudier des fonctions V particu-
lirement complexes, dpendantes de multiples paramtres. Pour fixer les ides, consi-
drons le cas dcole du problme du voyageur de commerce. Un voyageur de commerce
doit visiter K clients dans K villes diffrentes et revenir son point de dpart en ne vi-
sitant chaque ville quune seule fois. tant donnes les distances entre toutes les villes
{d(i, j)} 1 6 i 6 K , lobjectif est de minimiser le trajet parcourir, cest dire
16j6K
K
d
min V () avec V () = ( i ), ( i + 1) (6.1)
SK
i =1
87
88 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES
V (x)
F IGURE 6.1 Le schma reprsente un potentiel V ( x ) avec plusieurs minima locaux qui rendent
la mthode de descente de gradient inefficace. Les algorithmes stochastiques permettent de fran-
chir les barrires de potentiel (cf. la flche en pointills) pour atteindre le minimum global. Quand
T est petit la mesure T va se concentrer principalement autour des valeurs les plus basses de V
par exemple sur le schma sur les points situs sous la droite en pointills.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0 1 2 3 4 5
F IGURE 6.2 On considre lespace E = {1, . . . , 5} et la fonction V (1) = 87, V (2) = 4, V (3) =
55, V (4) = 99, V (5) = 25. La distribution de la probabilit T est reprsente par des cercles pour
T = 104 et des carrs pour T = 2. Quand T est trs grand la mesure est presque distribue unifor-
mment, par contre pour T plus petit les valeurs les plus basses de V deviennent prpondrantes
(cf. Lemme 6.1).
et une fonction croissante h :]0, []0, 1] vrifiant h(u) = uh(1/u). Par exemple on peut
choisir
u
h(u) = inf{1, u} ou h(u) = .
1+u
Pour x 6= y, on pose
( (y)Q(y,x)
h (x)Q(x,y) si Q( x, y) 6= 0
R( x, y) = (6.3)
0 sinon
tape 0. Initialiser X0
tape n + 1.
Choisir y selon la loi Q( Xn , y)
Choisir Un+1 uniformment dans [0, 1] (et indpendamment du pass)
Si Un+1 < R( Xn , y) poser Xn+1 = y, sinon poser Xn+1 = Xn
Thorme 6.2. La matrice de transition P dfinie en (6.4) est irrductible et rversible pour la
mesure qui est donc son unique mesure invariante. Si de plus h < 1 alors P est apriodique.
Le thorme 3.12 permet den dduire que est bien la mesure invariante.
Si h < 1, alors P( x, x ) > 0 pour tout x de E et la matrice P est bien apriodique. On
peut aussi vrifier facilement que si Q est apriodique alors P le sera mme si h 6 1.
et la normalisation ZT na plus besoin dtre calcule. Comme h est une fonction crois-
sante, la matrice de transition P pondre les probabilits de transition et favorise les sauts
de x vers y si V ( x ) > V (y) cest dire si le potentiel V dcrot aprs le saut. Considrons
le potentiel reprsent figure 6.1 index par E = {1, . . . , L} et supposons que la matrice Q
corresponde la marche alatoire symtrique sur E. Si T est trs faible, la chane de Mar-
kov aura tendance voluer vers les minima de V. Cependant, lvolution tant alatoire
certaines transitions (assez rares) peuvent aller lencontre de cette tendance et viter la
chane de Markov de rester bloque dans un minimum local. Contrairement lapproche
dterministe de la descente de gradient, les fluctuations alatoires permettent dexplorer
le paysage de potentiel. Nous reviendrons sur le choix optimal du paramtre T section
6.4.
F IGURE 6.3 Deux ralisations du modle dIsing (obtenues par lalgorithme de Metropolis-
Hastings) pour diffrentes tempratures sur le domaine = {1, . . . , 40}2 . La simulation de droite
correspond une temprature trs haute, par contre sur la simulation de gauche les spins sont
plus ordonns car la temprature est plus basse.
Le modle dIsing offre un cadre thorique trs simple pour dcrire les transitions
de phase de laimantation dun mtal ferromagntique. chaque site i du rseau =
{1, . . . , L}d , on associe un spin si prenant les valeurs 1 et on note S = {si }i une
configuration de spins. Les spins interagissent avec leurs plus proches voisins et une
nergie est attribue chaque configuration S
V ( S ) = si s j
i,j
i j
92 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES
o i j signifie que les sites i et j sont distance 1 sur le rseau . Un systme physique
a tendance minimiser son nergie ce qui permet de distinguer deux configurations pri-
vilgies (les tats fondamentaux) : les spins sont tous gaux 1 ou tous gaux 1. Pour
tenir compte des fluctuations thermiques, on dfinit la mesure de Gibbs qui attribue la
configuration S la probabilit
1 1
T ( S ) = exp V (S )
ZT T
o la fonction de partition ZT sert normaliser la mesure de Gibbs. Le paramtre T sinter-
prte comme une temprature : quand T est grand les fluctuations thermiques dominent
et le systme est dsordonn, par contre pour T proche de 0 les configurations de basse
nergie sont privilgies et les spins ont tendance saligner (cf. figure 6.3).
Ce modle trs simple de spins en interaction permet de mettre en vidence lexis-
tence dune transition de phase quand la taille du domaine L tend vers linfini. Les tran-
sitions de phase constituent une source de questions fascinantes dont certaines seront
voques au chapitre 7. Pour le moment, contentons nous dimplmenter lalgorithme de
Metropolis-Hasting afin de simuler le modle dIsing.
tape n + 1.
Choisir i uniformment dans
Choisir Un+1 uniformment dans [0, 1] (et indpendamment du pass)
(i )
Si Un+1 < h exp( T1 H (i, Xn )) poser Xn+1 = Xn , sinon poser Xn+1 = Xn
6.3. SIMULATION PARFAITE : ALGORITHME DE PROPP-WILSON 93
sup
Pn ( x, )
VT 6 .
n > n ,
xE
Il nest pas toujours possible dobtenir une estimation thorique qui fournit des bornes
suffisamment prcises. Ainsi dans la pratique, la dure de simulation est souvent dter-
mine par lintuition ou calibre partir dexprimentations.
F IGURE 6.5 Le schma reprsente un couplage entre des trajectoires issues de diffrents tats
initiaux. Au-del de la ligne en pointills, toutes les trajectoires ont fusionn.
Nous allons dcrire maintenant lalgorithme de Propp-Wilson [19] qui permet de si-
muler de faon exacte la mesure invariante par une mthode de couplage par le pass.
94 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES
Avant cela, revenons sur la preuve du thorme 5.5 o la convergence tait estime en
fonction du temps de couplage entre diffrentes trajectoires (cf. figure 6.5). Dans le cas
dune rcurrence alatoire (dfinie au thorme 2.2) le couplage se construit de la faon
suivante. On rappelle que la chane de Markov { Xn }n > 0 valeurs dans E est obtenue
par rcurrence
n > 1, X n +1 = f ( X n , n +1 )
en fonction dune suite { n }n > 1 de variables alatoires indpendantes et identiquement
distribues sur un espace F et dune fonction f de E F dans E. Afin de coupler les
Card( E) trajectoires, on dfinit = { (x) } xE une collection de Card( E) variables ala-
toires indpendantes et de mme loi que 0 et on note
x E, F ( x ) = f ( x, (x) ).
Ceci permet de construire le couplage aprs un pas de temps simultanment pour toutes
les donnes initiales dans E. Pour itrer, il suffit de choisir une suite {n }n > 1 de variables
indpendantes et la chane de Markov partant de x sobtient en composant les applica-
tions
n ( x ) = Fn Fn1 F1 ( x ). (6.5)
Le couplage seffectue au premier temps (alatoire) T o T est constante, i.e. que T ne
dpend plus de ltat initial dans E. Comme toutes les trajectoires ont fusionn au temps
T, la chane de Markov a perdu toute la mmoire du pass et il est tentant de croire que
la position de chane linstant T (i.e T ) est distribue selon la mesure invariante. Ce
nest pas le cas comme le montre lexemple de la figure 6.6, nanmoins une modification
simple mais astucieuse permet de rendre cette ide rigoureuse.
1/2 1/2
1/2 1 2 3
1/2 1
F IGURE 6.6 Pour ce graphe de transition, lquilibre ne peut pas correspondre au moment o
les diffrentes trajectoires fusionnent. En effet, ltat 3 ne peut tre atteint quen venant de ltat 2
et il nest donc pas possible que les trajectoires se touchent pour la premire fois ltat 3.
Le point de vue Propp et Wilson consiste coupler non pas vers le futur mais vers le
pass en remontant le temps et en inversant lordre dans (6.5)
Gn ( x ) = F1 Fn1 Fn ( x ).
GT
T N
F IGURE 6.7 Sur le schma, les diffrentes trajectoires partant au temps N nont pas coalesc
au temps 0. En remontant le temps jusqu T les trajectoires issues des diffrents tats de E
ont coalesc et ltat G T obtenu au temps 0 est distribu exactement selon la mesure invariante.
mesure que lalgorithme remonte dans le temps, la simulation doit conserver la mmoire des
trajectoires dj utilises.
Thorme 6.3. On considre une chane de Markov irrductible, apriodique de mesure inva-
riante . Si le temps de coalescence T dfini en (6.6) est fini presque srement, alors ltat G T est
distribu selon la mesure invariante .
Dmonstration. Une fois que les trajectoires ont coalesc, ltat de la chane en 0 ne va plus
varier
n > T, Gn = G T .
Comme on a suppos que le temps T est fini presque srement, on a par le thorme de
convergence domine
lim P Gn ( x ) = y = P G T ( x ) = y .
x, y E,
n
o la dernire galit est obtenue par le thorme 5.5. On conclut ainsi la preuve de ce
thorme
P G T ( x ) = y = ( y ).
x, y E,
tape 0. Initialiser X0
tape n + 1.
Choisir y selon la loi Q( Xn , y)
Choisir Un+1 uniformment
dans [0, 1] (et indpendamment du pass)
1
Q(y,Xn )
Si Un+1 < Q( Xn , y) h exp Tn V ( Xn ) V (y) Q( Xn ,y)
poser Xn+1 = y
Sinon poser Xn+1 = Xn
lim P( Xn M) = 1.
n
La preuve de ce thorme pourra tre trouve dans le livre [9] et nous nous conten-
terons de justifier le choix de la dcroissance en log1 n par un exemple. Soit E = {1, 2, 3}
et V (1) = 0, V (2) = 1, V (3) = 1. Le minimum est atteint ltat 3 et ltat 1 consti-
tue un minimum local (cf. figure 6.8). On pose h(u) = min{u, 1} et Q suit le graphe des
transitions de la figure 6.8.
On suppose que ltat initial X0 = 1 et on veut calculer la probabilit que la chane de
Markov soit dans ltat 3 un temps n donn. Pour cela il faut que la chane soit passe
6.4. ALGORITHME DE RECUIT SIMUL ? 97
V
2
1 1/2
1
3 1 2 3
1/2 1
F IGURE 6.8 Le potentiel V de lexemple avec 3 sites est trac gauche. Le graphe de transition
de la matrice Q est reprsent droite.
Il est facile de voir que si c est une constante suffisamment petite et Tk 6 logc k alors
P( Xn = 3) < 1. Cette majoration savre indpendante du temps n choisi. Par consquent
si la temprature tend trop vite vers 0, la chane de Markov restera indfiniment pige
au point 1 avec une probabilit positive.
La dcroissance de la temprature en log1 n savre trop lente pour implmenter des al-
gorithmes performants. On prfre donc souvent utiliser des dcroissances polynomiales
de la forme n1 qui ne sont pas justifies dun point de vue thorique mais qui donnent
quand mme de trs bons rsultats ....
F IGURE 6.9 Les simulations ci-dessus reprsentent des tapes de lalgorithme de recuit simul
pour rsoudre le problme du voyageur de commerce. Les positions de 35 villes sont choisies
au hasard ainsi que le circuit initial trac gauche. Aprs 2000 itrations, la longueur du par-
cours sest rduite (figure du centre) et le chemin tend converger aprs 10000 itrations vers une
solution (presque) optimale (figure de droite).
V ( S ) = si s j + si i )2
i,j i
i j
o , > 0 sont deux constantes. Si = 0 et > 0, le minimum est donn par limage
initiale. Inversement si > 0 et = 0, on retrouve lnergie du modle dIsing et le
minimum est atteint pour les 2 configurations extrmes o tous les pixels valent 1 ou 1.
Il faut donc ajuster les paramtres et pour raliser un compromis entre deux effets :
limage restaure doit rester fidle limage initiale mais les contours doivent tre le plus
net possible et les fluctuations dues au bruit doivent tre limines.
Le recuit simul est une mthode adapte pour minimiser la fonction V qui est com-
pose de nombreux minima locaux et indexe par L2 variables. Ltat initial est donn
par limage et on utilise ensuite la dynamique de Metropolis-Hastings en abaissant
progressivement la temprature (cf. figure 6.10).
Cette application du recuit simul au traitement dimages avait simplement pour but
dillustrer les possibilits offertes par cette mthode. Pour traiter des problmes concrets,
une thorie plus sophistique est ncessaire et ses fondements sont dcrits dans [23]. La
6.4. ALGORITHME DE RECUIT SIMUL ? 99
F IGURE 6.10 Limage de gauche correspond limage observe avec le bruit. Aprs traitement
de limage, une zone centrale a pu tre identifie (image du centre). Limage non perturbe tait
le carr reprsent droite. Ces simulations sont extraites du livre [23].
segmentation dimages, i.e. lidentification de composantes dans des images, est particu-
lirement utilise en imagerie mdicale ou en cartographie.
100 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES
Chapitre 7
Un exemple de modlisation en
physique : la percolation ?
Les chanes de Markov fournissent un cadre thorique trs dvelopp pour tudier
les comportements asymptotiques de variables alatoires corrles. La dpendance des
chanes de Markov est indexe par la variable de temps. Ce chapitre constitue une in-
troduction aux systmes o lindexation des variables alatoires nest plus linaire et o
la gomtrie joue un rle. Nous dcrirons le modle de percolation et montrerons que
la structure spatiale induit des proprits trs intressantes qui font de la percolation un
modle clef en physique statistique. Le cours de W. Werner [21] est une excellente rf-
rence sur la thorie de la percolation (en particulier on pourra y retrouver les rsultats
prsents dans ce chapitre).
Ce chapitre peut tre omis dans le cadre du cours de MAP432, il sert simplement
prsenter des dveloppements actuels en thorie des probabilits.
E = (i, j) i, j Zd , ki jk2 = 1 .
(7.1)
Pour simplifier les notations, une arte typique sera souvent note b = (i, j) E .
chaque arte b, on associe une variable alatoire de Bernoulli b de paramtre p [0, 1]
indpendamment des autres artes
P b = 1 = 1 P b = 1 = p .
b E , (7.2)
Par analogie avec la pierre poreuse, on dira quune arte b est ouverte si b = 1 (leau
peut passer travers larte) et ferme sinon (cf. figure 7.1). Un chemin de k ` dans Zd
est une suite {i0 = k, i1 , . . . , in = `} de sites distincts tels que (i j1 , i j ) soit dans E . On dit
101
102 CHAPITRE 7. APPLICATION : LA PERCOLATION ?
que deux sites k et ` sont relis dans le modle de percolation par un chemin ouvert sil
existe un chemin {i0 = k, i1 , . . . , in = `} tel que (i j1 ,i j ) = 1 pour tout j 6 n. On notera
{k `} lvnement que k soit reli ` par un chemin ouvert et {O } lvnement
quil existe un chemin infini dartes ouvertes partant de lorigine.
F IGURE 7.1 Exemple dune configuration de percolation dans un sous ensemble de Z2 . Les
artes ouvertes sont reprsentes en gras.
On peut interprter lexistence dun chemin infini en disant que le centre de la pierre
sera mouill. Si p = 1, lorigine est toujours connecte linfini par un chemin dartes
ouvertes et inversement si p = 0, lorigine est toujours dconnecte de linfini. Le pro-
blme est donc de dterminer pour quelles valeurs de p (0, 1) un tel chemin existe avec
probabilit positive.
F IGURE 7.2 Dans ces simulations, les sites de Z2 sont coloris en noir avec probabilit p et en
blanc avec probabilit 1 p. La question de la percolation peut donc se reformuler en terme de
chemins de sites noirs adjacents. Chaque grille a 80 80 sites et lintensit de p est successivement
p = 0, 3, p = 0, 59 et p = 0, 7. Existe-t-il, dans limage du milieu, un chemin noir reliant lorigine
(situe au centre) au bord du carr ?
Thorme 7.1. Pour d > 2, il existe un point critique pc ]0, 1[ tel que
Pour tout p < 1, on voit que le membre de droite de lquation tend vers 0 quand n tend
vers linfini. Par consquent pc = 1 si d = 1.
F IGURE 7.3 Graphe de p ( p) pour d > 2. La continuit de la courbe au point critique est
voque section 7.2.3.
Ceci implique quil y a une probabilit positive pour que le cardinal de C(O) soit infini et
donc que lorigine soit connecte linfini.
Une simplification importante du cas d = 2 est la notion de dualit. On dfinit le
rseau dual dont les artes sont E ? = {(u + 12 , v + 21 ), (u, v) Z2 }. Chaque arte b
de E est associe larte b? de E ? qui lintersecte. A toute ralisation alatoire {b }bE ,
on peut faire correspondre une configuration de percolation dans le rseau dual {b?? =
1 b }bE (cf. figure 7.4). Une arte ouverte dans E est associe une arte ferme dans le
rseau dual et inversement. La percolation associe au rseau dual a donc pour paramtre
1 p.
Si la composante C(O) est finie, alors elle est ncessairement entoure par un chemin
ouvert dans le dual (cf. figure 7.4). On notera ?n lensemble des chemins ? de longueur
n dans le dual entourant lorigine. On remarque que pour entourer lorigine il faut au
moins 4 artes duales.
P Card(C(O)) < = P { un chemin dual ouvert entourant lorigine} ,
[
6 P {? est un chemin dual ouvert} ,
n>4 ? ?n
6 P {? est un chemin dual ouvert} .
n > 4 ? ?n
7.2. TRANSITION DE PHASE 105
F IGURE 7.4 La composante connexe C(0) des liens ouverts contenant lorigine est entoure par
un contour ouvert dans le rseau dual (reprsent en pointills). Pour ne pas alourdir le dessin,
seuls les points du rseau dual autour de lorigine sont reprsents, mais il faut imaginer une
configuration duale plus tendue avec toutes les artes {b?? }b? E ? .
La probabilit quun chemin dual de longueur n soit ouvert est (1 p)n , on a donc
P Card(C(O)) < 6 Card(?n )(1 p)n .
n>4
7.2.4 Dimension 2
On remarquera que la preuve du thorme 7.1 tablit lexistence de pc sans en dter-
miner la valeur. En gnral, cette valeur nest pas connue mais dans certains cas particu-
liers des symtries permettent de la deviner.
En dimension 2, on peut dmontrer que pc = 1/2. La preuve est dlicate (cf. [21])
et on se contentera de justifier lintuition du rsultat. La dualit implique lalternative
suivante pour tout domaine de la forme n = {n, . . . , n}2 :
ou n est travers par un chemin ouvert reliant le bord droit au bord gauche
ou il existe un chemin dual ouvert reliant le haut et le bas de n (de ?n si on veut
tre prcis).
Ces deux vnements ne peuvent pas arriver simultanment (cf. figure 7.5).
F IGURE 7.5 Un chemin ouvert reliant le bord droit au bord gauche de la boite n . Ce che-
min coupe la boite en 2 morceaux et empche tout chemin dual (reprsent en pointills) de la
traverser du haut vers le bas.
On peut dmontrer que p > pc si la probabilit quun chemin ouvert relie les bords
gauche et droit de n tend vers 1 quand n tend vers linfini. Par consquent si p > pc la
percolation dans E va empcher la percolation dans le rseau dual E ? . Mais les deux types
de percolation ont par symtrie un comportement identique. Labsence de percolation
dans le rseau dual implique donc 1 p < pc . Ceci conduit la relation pc = 1 pc
et justifie heuristiquement pc = 1/2. On peut aussi dmontrer la continuit au point
critique (1/2) = 0.
La percolation au point critique est trs tudie en physique. Par exemple, on conjec-
ture un comportement universel de ( p) proche de pc pour une grande classe de modles
7.2. TRANSITION DE PHASE 107
bidimensionnels
p > 1/2, ( p) ' ( p 1/2)5/36 .
Lexposant 5/36 ne devrait pas dpendre de la structure microscopique du rseau. Pour
le moment cette relation a t tablie "uniquement" pour le rseau triangulaire par S.
Smirnov et W. Werner. Le cas de Z2 considr dans ces notes reste un problme ouvert.
F IGURE 7.6 On considre la percolation sur le rseau hexagonal. Les sites du bord droit sont
coloris en bleu et ceux du bord gauche en jaune, les autres couleurs sont choisies alatoirement
avec la probabilit pc . On construit un chemin en partant du bas de limage et en explorant lin-
terface entre le bleu et le jaune. Les conditions aux bords forcent le chemin traverser le domaine
du bas vers le haut. Quand la taille du domaine augmente la trajectoire revient sur elle mme et
forme des boucles. Les simulations ci-dessus ont t ralises par V. Beffara.
108 CHAPITRE 7. APPLICATION : LA PERCOLATION ?
Deuxime partie
Martingales
109
Chapitre 8
Esprance conditionnelle
loccasion dun sondage, des gens sont interrogs et ils doivent attribuer une note
de 1 100 pour le nouveau produit quils viennent de tester. On peut modliser len-
semble des rponses par une variable alatoire X valeurs dans E = {1, . . . , 100}. Le
rsultat du sondage sera la moyenne des rponses et il donnera une bonne estimation de
E( X ). Pour affiner le sondage, on voudrait classer les rponses en fonction de la personne
sonde selon son genre, son ge ou la couleur de ses cheveux. Par exemple si Y corres-
pond lge de la personne sonde, la probabilit conditionnelle permet de dterminer la
probabilit quune personne dge y attribue la note x
P( X = x, Y = y)
P ( X = x |Y = y ) = . (8.1)
P (Y = y )
Cette expression na un sens que si P(Y = y) > 0. On a ainsi dfini une nouvelle mesure
de probabilit sur E appele probabilit conditionnelle
P ( X = x |Y = y ) = 1
xE
E ( X |Y = y ) = xP( X = x |Y = y).
xE
111
112 CHAPITRE 8. ESPRANCE CONDITIONNELLE
Si Y prend ses valeurs dans lespace discret E0 , on peut retrouver E( X ) en intgrant sur
Y
E E ( X |Y ) = P (Y = y ) E ( X |Y = y ) = x P (Y = y ) P ( X = x |Y = y )
y E0 xE y E0
= x P( X = x, Y = y) = xP( X = x ) = E( X ). (8.2)
xE y E0 xE
La distance quadratique est minimise par le projet orthogonal de X sur lespace des
variables H = { h(Y ); h : E0 R} (cf. figure 8.1). Pour dterminer cette projection,
reprenons le calcul (8.2)
E h (Y ) E ( X |Y ) = P (Y = y ) h ( y ) E ( X |Y = y )
y E0
= xh(y)P( X = x, Y = y) = E(h(Y ) X ).
x E y E0
On se restreint aux fonctions E(h(Y )2 ) < pour que les esprances ci-dessus soient bien
dfinies. Ceci prouve la relation dorthogonalit pour toute fonction h de E0 dans R
E h (Y ) X E ( X |Y ) = 0
P( X = x |Y = y) = lim P X [ x , x + ] Y [y , y + ]
0
en gnral il nest pas facile de donner un sens ces expressions et nous allons renoncer
cette approche intuitive pour utiliser le point de vue de lapproximation quadratique
illustr dans le cas discret.
Dfinition 8.1 (-algbre). Une -algbre F sur un espace est une famille dvnements
satisfaisant les trois proprits suivantes :
appartient F
Si A est dans F alors Ac est dans F .
Toute runion dnombrable dvnements de F appartient F .
Si C est une collection dvnements on notera (C) la plus petite -algbre contenant
C . On dira que (C) est la -algbre engendre par C . Dans R, la -algbre engendre par
les intervalles de la forme ] , a] est la -algbre borlienne et sera note BR . Les en-
sembles de la forme { X 6 a} avec a dans R engendrent aussi une -algbre qui sera note
( X ) et qui contient aussi tous les vnements de la forme { X B} pour B appartenant
BR .
Une -algbre constitue le bon cadre thorique pour dfinir une mesure de probabilit
(cf. thorme A.6). On appelle alors espace probabilis le triplet (, A, P) o A est une -
algbre sur et P : A [0, 1] est une mesure de probabilit. Si A est une -algbre sur
, on dira que la variable X : R est mesurable par rapport A (on abrge souvent
par A-mesurable), si tous les vnements { X B} pour B BR appartiennent A, i.e.
( X ) A. On peut ainsi mesurer P({ X B}).
tant donne une variable alatoire X valeurs dans R, les variables Y mesurables
par rapport ( X ) sont toutes de la forme Y = f ( X ) o f est une fonction borlienne f :
R R (dfinie section A.2.1). En effet, ( X ) ne permet de mesurer que des vnements
de la forme { X B} construits partir de X et toute fonction borlienne se dcompose
laide dindicatrices 1 B avec B dans BR . Cette caractrisation sera trs importante pour
la suite. Elle est dmontre dans le lemme B.2.
114 CHAPITRE 8. ESPRANCE CONDITIONNELLE
y
X
E(X|Y ) x
0 1/2 1
Un calcul identique celui fait en (8.3) dans le cas discret montre que E( X |Y ) est la
meilleure prdiction possible de X (au sens L2 ) par la variable Y
2
inf E X h(Y ) = E X 2 E E ( X |Y ) 2 .
hH
Par ailleurs toutes les variables mesurables par rapport (Y ) scrivent sous la forme
h(Y ) ; la variable E( X |Y ) est donc aussi (Y )-mesurable.
h L (BR ), E X h (Y ) = E E ( X |Y ) h (Y )
(8.5)
f (X,Y ) ( x, y) f (X,Y ) ( x, y)
f X |Y = y ( x ) = = R
f Y (y) f (X,Y ) ( x 0 , y)dx 0
que lon interprte comme lanalogue de (8.1) dans ce contexte. Il est clair que pour tout
y fix, la fonction f X |Y =y ( x ) dfinit une densit sur R et on peut lui associer
Z
E [ X |Y = y ] = x f X |Y =y ( x )dx.
Comme dans le cas discret, E[ X |Y ] = (Y ) est une fonction de Y et elle dfinit une va-
riable alatoire E[ X |Y ] appele esprance conditionnelle de X sachant Y. La condition
116 CHAPITRE 8. ESPRANCE CONDITIONNELLE
dorthogonalit (c) du thorme 8.2 se vrifie aussi par un calcul direct : pour toute fonc-
tion h : R R borne
Z Z
E [E[ X |Y ] h(Y )] = dy f Y (y) h(y) x f X |Y =y ( x )dx
ZZ
= x h(y) f (X,Y ) ( x, y)dxdy = E[ X h(Y )]
x, y [0, 1]2 ,
f X,Y ( x, y) = 2 1{ x 6 1/2, y > 1/2} + 1{ x>1/2, y 6 1/2} (8.6)
reprsente figure 8.1. Le calcul des marginales permet de voir que les variables consid-
res sparment sont uniformment distribues sur [0, 1]
Par contre, la probabilit conditionnelle de X sachant Y est ou bien uniforme sur [0, 1/2]
ou bien sur [1/2, 1]
f X |Y =y ( x ) = 2 1{ x 6 1/2, y > 1/2} + 1{ x>1/2, y 6 1/2} .
La preuve de lingalit de Jensen (thorme B.6) stend aussi aux esprances condi-
tionnelles
Proposition 8.5. Soit X dans L1 (A, P) et g : Rn R {} une fonction convexe telle que
E[| g( X )|] < . Alors E[ g( X )|F ] > g (E[ X |F ]).
E[ XY |F ] = YE[ X |F ].
Pour illustrer cette proposition, supposons que X mesure le rendement dune raction
chimique qui dpend de nombreux paramtres cods par la -algbre A : la temprature
T, la pression P, lhabilet des exprimentateurs, etc. Dans (i), si les paramtres T et P sont
connus le rsultat moyen sachant G = ( T, P) est E( X |G). Si seul T est dtermin, il faut
intgrer sur toutes les valeurs possibles de la pression P pour obtenir E( X |F ) lesprance
conditionnelle sachant F = ( T ). La relation (ii) dit que rajouter une information G qui
na rien voir avec cette exprience ne permet pas damliorer la prdiction E[ X |F ]. Le
dernier point (iii) est lanalogue du (iii) dans la proposition 8.3. Si Y = h( T ) ne dpend
que de T, la meilleure prdiction de Y sachant F = ( T ) est Y.
Dfinition 8.7. (Filtration) Une filtration de A est une suite croissante F = {Fn }n > 0 de
sous--algbres de A. On dit que (, A, F, P) un espace probabilis filtr.
En particulier, si X = { Xn }n > 0 est un processus alatoire de (, A) dans ( E, E ). Alors la
suite
FnX = ( Xi , i 6 n ), n > 0,
Dfinition 8.8. Soient X = { Xn }n > 0 un processus alatoire et F = {Fn }n > 0 une filtration
de A. On dit que
(i) X est F-adapt si Xn est Fn -mesurable pour tout n > 0,
(ii) X est F-prvisible si Xn est Fn1 -mesurable pour tout n > 0 o par convention F1 =
{, }.
Section 2.4, nous avons dj dfini la notion de temps darrt qui joue un rle central
dans lanalyse des processus alatoires. Les prises de dcision en prsence dune structure
dinformation ne peuvent sappuyer que sur linformation disponible la date courante
et les seuls temps alatoires qui sont perceptibles par un agent sont les temps darrt. En
utilisant le formalisme des filtrations, on peut redfinir
Dfinition 8.9. Un temps darrt T est une variable alatoire valeurs dans N {} telle que
1 { T = n } = n ( X0 , . . . , X n )
TA = inf {n 0; Xn A }
9.1 Martingales
Dans le domaine des jeux de hasard, on trouve la dfinition suivante : une martingale
est une technique permettant daugmenter les chances de gain. Toutefois, en moyenne, un joueur
utilisant une martingale ne gagnera pas plus quun autre ; la martingale permet de perdre moins
souvent, mais le montant des pertes potentielles est plus important. Ce concept a un ct mys-
trieux li des histoires colportes sur lutilisation par certains joueurs dune martingale
dont ils dtiennent jalousement le secret. Bien sr, tout ceci relve plutt du mythe que
de la ralit. En effet, lanalyse prcise des stratgies dites de martingale rvle des carac-
tristiques de moyenne de gain et de risque qui ne justifient pas les bienfaits prtendus.
La notion de filtration permet de donner une dfinition mathmatique prcise de cette
notion.
est une martingale pour la filtration Fn = ( i , i 6 n). Les variables alatoires { n }n > 1
peuvent reprsenter le gain (ou la perte) la nime partie dun joueur pratiquant un jeu au
119
120 CHAPTER 9. MARTINGALES EN TEMPS DISCRET
Chanes de Markov.
Nous allons maintenant construire une martingale partir dune chane de Markov
{ Xn }n > 0 de matrice de transition P sur un espace dtats E dnombrable. Rappelons la
dfinition (3.4) dune fonction harmonique h pour P
x E, h( x ) = P(x, y)h(y).
y E
Si E(|h( Xn )|) est fini pour tout n, alors { h( Xn )}n > 0 est une martingale pour la filtration
Fn = ( X1 , , Xn ). En effet
E h ( X n +1 ) F n = E h ( X n +1 ) X n = P ( X n , y ) h ( y ) = h ( X n ).
y E
De la mme faon
si h est surharmonique, i.e. h > Ph, alors { f ( Xn )}n > 0 est une surmartingale
si h est sous-harmonique, i.e. h 6 Ph, alors { f ( Xn )}n > 0 est une sous-martingale
Ingalit de Jensen.
Soient { Xn }n > 0 une martingale et g : R R une application convexe telle que
E[| g( Xn )|] < , alors le processus alatoire { g( Xn )}n > 0 est une sous-martingale. Il sagit
dune consquence de lingalit de Jensen (thorme 8.5)
E g ( X n +1 ) F n > g E X n +1 F n = g ( X n ).
Ce rsultat appliqu la marche alatoire S (9.1) montre que {Sn2 }n > 0 est une sous-
martingale et son esprance augmente au cours du temps (en supposant que E( 12 ) < ).
Cette croissance peut tre compense et le processus
n > 0, Mn = Sn2 nE( 12 ) (9.2)
est alors une martingale. Pour le voir, dcomposons lesprance conditionnelle en utili-
sant la linarit
E Mn+1 Fn = E Sn2 + 2 n+1 Sn + n2 +1 Fn (n + 1)E( 12 )
En utilisant que Sn est mesurable par rapport Fn et que n+1 est indpendant de Fn on
obtient
comme une martingale et un processus croissant. On verra section 9.4 quune telle d-
composition des sous-martingales existe dans un contexte trs gnral (cf. remarque 9.8).
= Xn + n+1 E Mn+1 Mn Fn = Xn
o on a utilis dans la dernire galit que E Mn+1 Mn Fn = 0 car M est une martin-
gale.
122 CHAPTER 9. MARTINGALES EN TEMPS DISCRET
Cette proposition montre que si { Mn }n > 0 est une martingale, il nexiste aucune stra-
tgie (dont les mises restent majores) qui puisse transformer un jeu quitable en un
jeu profitable. Quelle que soit la stratgie {n }n > 1 adopte, la moyenne du gain est
constante E( Xn ) = E( X0 ).
Supposons maintenant que le joueur dcide de miser chaque fois 1 euro jusqu un
temps darrt T aprs lequel il sarrte dfinitivement de jouer. Si le terme Mk Mk1
sinterprte comme le gain de la kime partie, la fortune du joueur est
n
X0 = 0 et Xn = 1 { T > k } ( Mk Mk 1 ) , n > 1.
k =1
Comme le temps darrt est mesurable par rapport la -algbre Fn (cf. dfinition 8.9)
le processus n = 1{T > n} est prvisible. En effet, lvnement { T > n} est mesurable
par rapport Fn1 car il se dcompose uniquement en fonction dvnements Fn1 -
mesurables
1
n\
{ T > n} = { T 6 = k }.
i =k
La proposition 9.2 implique que { Xn }n > 0 est donc une martingale. Il sagit de la martin-
gale M arrte au temps T que lon notera M T = { MnT }n > 0
(
Mn , si n 6 T
Xn = MnT =
MT , si n > T
alors
E [ X T ] = E [ X0 ] (resp. E [ XT ] 6 E [ X0 ]).
Dmonstration. Nous montrons le rsultat pour les martingales car le cas des surmartin-
gales se traite de manire identique.
Par la proposition 9.3, le processus arrt X T est une martingale et on a pour tout n
E [ X T n ] = E [ X0 ] .
XnT XT .
n
Comme X est born, la suite de variables { XnT }n > 0 lest aussi et le thorme de
convergence domine permet de conclure.
(iii) Sous lhypothse | Xn ( ) Xn1 ( )| 6 c, on peut majorer XnT par
n T
| Xn T | 6 |Xk Xk1 | 6 cT.
k =1
Par consquent la suite de variables { XnT }n est domine par une variable int-
grable et elle converge presque srement vers XT . Le thorme de convergence
domine permet une nouvelle fois de conclure.
Le thorme prcdent est valable sous des hypothses moins restrictives que les trois
conditions mentionnes, cependant le contre-exemple ci-dessous montre que le rsultat
ne peut pas tre gnralis systmatiquement. Considrons S la marche alatoire sym-
trique (9.1)
n
1
Sn = i avec P( i = 1) =
k =1
2
et T1 le premier temps datteinte de 1 pour cette marche. Comme S est une martingale, le
processus arrt S T1 est aussi une martingale par la proposition 9.3. On a donc
En effet, le processus {SnT1 }n > 0 a de rares fluctuations trs ngatives qui suffisent pour
prserver la moyenne E(SnT1 ) = 0.
124 CHAPTER 9. MARTINGALES EN TEMPS DISCRET
= n1 A + (n + 1)1 Ac .
Comme X = { Xn }n > 0 est une chane de Markov sur un espace dtats fini, le lemme 3.9
implique quelle finira toujours par atteindre 0 ou a + b. Le temps darrt est donc fini
presque srement.
La marche alatoire X tant une martingale, le processus arrt X sera aussi une
martingale
E Xn = E( X0 ) = a.
Comme est fini presque srement et Xn est dans lintervalle [0, a + b], le thorme de
convergence domine permet de passer la limite et dobtenir
car le processus arrt ne peut prendre que les valeurs 0 et a + b. On retrouve donc le
rsultat de la section 2.5.2.
b
u( a) = Pa T0 < Ta+b =
.
a+b
9.3. INGALITS DE MARTINGALES 125
Pour calculer E( ), nous allons utiliser la martingale M = {( Xn a)2 n}n > 0 dfinie
en (9.2). Comme E( Mn ) = 0, on a donc
E ( X n a )2 = E n .
b a
E = E a2 1{T0 <Ta+b } + E b2 1{T0 >Ta+b } = a2 + b2
= ab.
a+b a+b
Ceci permet de retrouver le rsultat (2.20).
(ii) Soit p > 1. Supposons que la sous-martingale M soit positive et que Mn L p pour tout
n > 0, i.e. E(| Mn | p ) < , alors Mn L p et
p
k Mn k p 6 k Mn k p pour tout n N.
p1
Dmonstration.
(i) Soit Tc = inf{k > 0; Mk > c} le premier temps o la martingale passe au dessus du
niveau c (cf. figure 9.1). Il est facile de vrifier que Tc est un temps darrt. On dcompose
la trajectoire en fonction Tc
h i h i n h i
E Mn 1{ Mn > c} = E Mn 1{Tc 6 n} = E M 1
n { Tc =k }
k =1
n h i h i
= E ( Mn Mk ) 1{Tc =k} + E Mk 1{Tc =k} .
k =1
126 CHAPTER 9. MARTINGALES EN TEMPS DISCRET
MTc
25 Mn
20 c
15
10
F IGURE 9.1 gauche, une ralisation dune marche alatoire pour n = 500. Le schma de
droite reprsente la dcomposition dune trajectoire en fonction du premier temps de passage au
dessus du niveau c.
o la dernire ingalit vient du fait que M est une martingale. Par consquent la partie
au-del du temps Tc ne contribue pas. La martingale passe au dessus du niveau c en Tc ,
on a donc Mk 1{Tc =k} > c1{Tc =k} . Ceci conclut la premire partie du thorme
h i h i h i
E Mn 1{ Mn > c} > cE 1{Tc 6 n} = cP Mn > c .
p
(ii) On note q = p 1 . On dduit de lingalit du (i) que
Z Z
pc p1 P[ Mn > c]dc 6 R = pc p2 E Mn 1{ Mn > c} dc.
L=
0 0
et
Z M
n
p 2
R = E Mn pc dc
0
h i
= qE Mn ( Mn ) p1 6 qk Mn k p k( Mn ) p1 kq = qk Mn k p E [( Mn ) p ]1/q
E [( Mn ) p ] 6 qk Mn k p E [( Mn ) p ]1/q
Dmonstration. Pour lunicit, on considre une autre dcomposition avec { Mn0 }n > 0 , {Vn0 }n > 0 ,
alors Mn Mn0 = Vn0 Vn est prvisible. Par consquent pour tout n > 1
Vn = E[Xn |Fn1 ].
avec N0 = [ X ]0 = 0. Dans cette dcomposition { Nn }n > 0 est une martingale nulle en zro et
{[ X ]n }n > 0 est un processus F-adapt croissant intgrable appel variation quadratique de la
martingale X.
n > 1, Mn = Mn Mn1
Ainsi la suite de rels E[ Mn2 ] n > 0 est croissante. Comme elle est borne, cette suite
converge vers une valeur positive finie. Cette remarque est la clef du thorme suivant.
129
130 CHAPITRE 10. CONVERGENCE DES MARTINGALES
Thorme 10.1. Soit { Mn }n > 0 une martingale borne dans L2 , i.e. telle que
Dmonstration. (i) Comme la martingale est borne dans L2 , la relation (10.2) montre que
la suite {E[ Mn2 ]}n > 0 est convergente dans R. Daprs lorthogonalit des accroissements
dans L2 , on voit que pour n, p > 0
n+ p
E ( Mn + p Mn ) 2
E (Mi )2 E (Mi )2
= 6
i = n +1 i > n +1
h i
E Mn2 + p E Mn2 0
=
n
o la convergence vers 0 est une consquence de la convergence de la suite {E[ Mn2 ]}n > 0 .
Ainsi, { Mn }n > 0 forme une suite de Cauchy dans lespace de Hilbert L2 et on en dduit
par le thorme B.12 lexistence dune variable alatoire limite M dans L2 .
(ii) Utilisons la caractrisation de la convergence presque sre du thorme B.17 et fixons
> 0. En appliquant lingalit de Chebychev, on obtient
" #
h i 1
P sup | Mk M | > 6 2 E sup | Mk M | 2
k>n k>n
" #!
2
6 2 E | Mn M | + E sup | Mk Mn |
2 2
.
k>n
Lapplication x | x | est convexe et lingalit de Jensen dcrite page 120 montre que le
processus {| Mk Mn |}k > n est une sous-martingale positive. Il ne reste plus qu appli-
quer lingalit maximale de Doob tablie dans le thorme 9.6 pour obtenir
" #
E sup | Mk Mn | 6 lim 4 E | M N Mn |2 = 4 E | M Mn |2 .
2
k>n N
1
E |Mn |2 < .
2
(10.3)
n>1
n
Alors
1
lim Mn = 0 presque srement.
n n
n n
1 1 2
E( Xn2 ) 6 E (Mk M` ) = 2 E (Mk )2 + E Mk E M` Fk .
k,`=1
k` k =1
k k <`
k`
Par lhypothse (10.3) le premier terme est born uniformment en n tandis que le se-
cond est nul par la proprit de martingale. Daprs le thorme 10.1, il existe donc une
variable alatoire X appartenant L2 telle que Xn converge vers X presque srement.
Pour conclure, il suffit de reproduire largument classique du lemme de Kronecker
pour les suites dterministes
!
1 1 n 1 n n n
Le rsultat suivant utilise le thorme prcdent pour montrer la version la plus forte
de la loi des grands nombres.
1 n
n i
Xi E[ X1 ] presque srement.
n
=1
132 CHAPITRE 10. CONVERGENCE DES MARTINGALES
Les accroissements tant tronqus des chelles de plus en plus grandes, on sattend ce
que le comportement asymptotique de Mn reste proche de celui de in=1 Xi quand n tend
vers linfini.
Il reste prouver que les trop grandes valeurs de Xi ne contribuent pas la moyenne
quand n tend vers linfini. Les variables tant intgrables, on remarque que
Ceci se rcrit
!
E 1{|Xi | > i} < et donc 1{|Xi | > i} < presque srement.
i>1 i>1
(On aurait pu aussi utiliser directement le lemme B.36 de Borel-Cantelli pour obtenir ce
rsultat). On en dduit que presque srement, il existe un entier N ( ) tel que pour tout
k > N ( ), | Xk ( )| 6 i. Ceci implique la convergence
1 n
n i
lim Xi ( ) 1{|Xi ( )| > i} = 0
n
=1
Xn X presque srement.
n
Una,b = max j;
j 6 n (10.4)
0 1 1
F IGURE 10.1 Les traverses montantes de lintervalle [ a, b] correspondent aux tats marqus
par des cercles pendant les intervalles de temps [i , i ].
est de probabilit nulle car il correspond aux trajectoires qui oscillent un nombre infini de
fois de part et dautre de lintervalle [ a, b]. En prenant lunion sur les rationnels, on voit
que
[n o
N = lim inf Xn < lim sup Xn = N a,b ; a, b Q, a < b
n n
10.3. C ONVERGENCE DES SOUS - MARTINGALES 135
est ngligeable, comme union dnombrable densembles ngligeables. Ceci montre bien
que X = limn Xn existe presque srement.
Pour montrer que X appartient L1 , il suffit dutiliser le lemme de Fatou et la borne
uniforme dans L1
h i
E X = E lim inf Xn 6 lim inf E Xn 6 sup E Xn < .
n n n>0
Dmonstration du corollaire 10.5. Si { Xn }n > 0 est une martingale positive alors pour tout n
E(| Xn |) = E( Xn ) = E( X0 ) <
En particulier, si la sous-martingale est borne suprieurement on a bien supn > 0 E[ Xn+ ] <
.
Si { Xn }n > 0 est une surmartingale borne infrieurement, il suffit dappliquer le tho-
rme la sous-martingale { Xn }n > 0 .
Remarque 10.7. Bien que la limite X dans le thorme 10.4 soit dans L1 , la convergence na
pas toujours lieu dans L1 . Pour le voir, considrons S = {Sn }n > 0 la marche alatoire symtrique
dfinie en (9.1)
n
1
S0 = 1, n > 1, Sn = 1 + i avec P( i = 1) =
2
k =1
et T0 est le premier temps datteinte de 0 pour cette marche. Comme S est une martingale, le
processus arrt S T0 est aussi une martingale par la proposition 9.3. Il sagit dune martingale
positive et donc elle converge presque srement par le corollaire 10.5. De plus
Daprs le thorme 4.4 de Polya, la marche alatoire en dimension 1 est rcurrente et T0 est
fini presque srement. On en dduit que n T0 converge vers T0 quand n tend vers linfini.
Cependant, on ne peut pas passer la limite dans lesprance
Quand n est grand, une trajectoire atteint 0 avant le temps n avec grande probabilit, cependant
avec une faible probabilit certaines trajectoires ne vont pas toucher 0 et vont prendre de trs
grandes valeurs au temps n. Ces rares fluctuations de la marche alatoire suffisent expliquer la
diffrence entre les 2 expressions dans (10.5).
136 CHAPITRE 10. CONVERGENCE DES MARTINGALES
Xn N k
k
N Xn
P ( X n +1 = k X n ) =
1 .
k N N
On suppose quinitialement X0 est fix dans {0, . . . , N }. tant donn Xn , on dfinit
i,n = 1{Ui,n 6 Xn
}
N
o les Ui,n sont des variables alatoires indpendantes et distribues uniformment sur
[0, 1]. On peut ainsi rcrire
N
Xn
i,n avec P i,n = 1 Xn = = 1 P i,n = 0 Xn
X n +1 = (10.6)
i =1
N
Les variables i,n prennent la valeur 1 si lallle du parent est A et 0 sinon. On pose Fn =
( Xi , i 6 n). Le processus { Xn }n > 0 est une martingale car
N
Xn
E Xn+1 |Fn = E[ k,n Xn ] = N N
= Xn .
k =1
Les variables Xn sont bornes uniformment. Elles convergent donc, par le thorme 10.1,
dans L2 et presque srement vers une limite X .
Pour dterminer cette limite, nous dfinissons une nouvelle martingale
n
N
n > 0, Mn = Xn ( N Xn ).
N1
La proprit de martingale se vrifie facilement en utilisant la dcomposition (10.6)
N 1 n +1
E[ Mn+1 |Fn ] = E[ Xn+1 ( N Xn+1 )|Fn ] = NE[ Xn+1 |Fn ] E[ Xn2 +1 |Fn ]
N
N
= NXn E[ i,n j,n Xn ] E[ i,n Xn ]
i6= j i =1
2
Xn
= NXn N ( N 1) Xn
N
N1 N1 n
= Xn ( N Xn ) = Mn .
N N
10.4. APPLICATION : MODLE DE WRIGHT-FISHER 137
On en dduit que
n n n
N1 N1 N1
E Xn ( N Xn ) = E [ Mn ] = E[ M0 ] =
X0 ( N X0 ) .
N N N
0 6 E X ( N X ) = lim E Xn ( N Xn )
n
N1 n
= lim X0 ( N X0 ) = 0.
n N
= inf{n > 0; Xn = 0 ou Xn = N }
au-del duquel Xn = 0 ou Xn = N pour tout n > . Ceci montre que presque srement
un des allles disparat.
X0
P X = 0 = 1
.
N
La martingale { Xn }n > 0 est borne et est fini presque srement, par consquent ce
rsultat sobtient en appliquant le thorme 9.4 darrt de Doob (cas (ii))
X0 = E [ X ] = E [ 1 X = 0 X ] + E [ 1 X = N X ] = N 1 P X = 0
.
P n tel que
k > n, Xk ( N Xk ) = 0 = 1
et donc
P n tel que
k > n, Mk = 0 = 1.
Cela signifie que Mn converge vers 0 presque srement. Cependant si X0 6 {0, N }, alors
Mn ne peut pas converger vers 0 dans L1 car
E[| Mn M |] = E[ Mn ] = M0 6= 0
o M0 = X0 ( N X0 ) 6= 0.
138 CHAPITRE 10. CONVERGENCE DES MARTINGALES
Le rsultat suivant
caractrise la convergence des martingales dans L1 . On notera
F = n > 0 Fn la -algbre limite.
Thorme 10.10. Soit M = { Mn }n > 0 une martingale. Les deux assertions suivantes sont
quivalentes :
(i) M est ferme, i.e. il existe M dans L1 , mesurable pour F , telle que pour tout n > 0
Mn = E[ M |Fn ]
1 loi
Mn
n n
o est une gaussienne centre de variance 1. Dans cet nonc, { Mn }n > 0 est une mar-
tingale dont les accroissements sont indpendants. Le rsultat suivant gnralise le tho-
rme central limite aux martingales (dont les accroissements ne sont plus indpendants
mais restent contrls).
Thorme 10.11. Soit { Mn }n > 0 une martingale dont les accroissements Mn = Mn Mn1
vrifient
1 n p.s.
E (Mk )2 | Fk1 2 sup |Mn | 6 K
et (10.9)
n k =1 n n>1
Il nest pas ncessaire de supposer que les accroissements sont uniformment borns
(cf. [6]), mais lhypothse (10.9) permet de simplifier la preuve du thorme.
et le fait que les accroissements sont borns par K, on obtient pour n suffisamment grand
2 3
h
E ei n Mj F j1 1 i u E M j |F j1 u E (M j )2 |F j1 6 u K3 .
u
i
n 2n n3/2
2 u3 3
h i
i
E e nu M j
i u h
E M 2
F 1 ( ) F 6 K .
j 1 j j 1
2n n3/2
10.6. T HORME C ENTRAL L IMITE 141
On note
u i M
h u i
Aj = log E e n j F j1 .
n
Il existe > 0 tel que
z C, |z| < , | log(1 + z) z| 6 |z|2 .
Par consquent pour n suffisamment grand
u2
u
= E (M j )2 |F j1 + (n)
Aj
n 2n
c
o le reste (n) est uniformment born par n3/2 avec c > 0 une constante. Lhypothse
(10.9) implique donc la convergence presque sre
n
u2
u p.s.
j n n
A
2 .
2
(10.10)
j =1
Thorme 10.12 (Ingalit de Hoeffding). Soit { Mn }n > 0 une martingale telle que M0 = 0
et dont les accroissements Mn = Mn Mn1 sont majors par une suite {Kn }n > 1
n > 1, |Mn | 6 Kn .
2x2
P | Mn | > x 6 2 exp n
. (10.11)
i=1 Ki2
2u2
P Sn > u 6 2 exp
u > 0, .
n
Cette borne suprieure rappelle lasymptotique du thorme central limite, mais elle est
cette fois valable pour tout n. Ceci est intressant en pratique car le nombre de donnes
disponibles est parfois faible et cette borne thorique permet de quantifier les carts dus
aux fluctuations.
(0) = 0
E Z eZ
0
() = , 0 (0) = 0
E (eZ )
E 2 eZ E eZ E Z eZ 2
Z
00 () = 2
= VarP ( Z )
(E (eZ ))
o la mesure P est dfinie par
P eZ
P () =
E (eZ )
Un dveloppement de Taylor en 0 lordre deux implique
Z Z
( ) = (0) + 0 (0) + ( s) 00 (s) ds = ( s) 00 (s) ds
0 0
Z
= ( s) VarPs ( Z ) ds.
0
Par consquent, il suffit de choisir m = a+2 b pour obtenir une borne suprieure sur la
variance " #
a+b 2 ( b a )2
VarP ( Z ) 6 EP Z 6
2 4
Cette borne uniforme sur la variance permet dobtenir lingalit cherche
( b a )2 ( b a )2 2
Z
() 6 ( s) ds 6 .
0 4 8
1
2 xE y
n
n > 0, sup P ( x, y) f (y) (y) f (y) 6 exp(cn) k f k
E
10.6. T HORME C ENTRAL L IMITE 145
et la convergence de la srie
x E, u( x ) = Pk f ( x )
k =0
avec la notation P0 f ( x ) = f ( x ). La fonction u est borne car lespace dtats E est fini. On
remarque que
Pu( x ) = P k +1 f ( x ) = u ( x ) f ( x ).
k =0
Par consquent f satisfait
x E, f ( x ) = u( x ) Pu( x ).
La somme se dcompose donc sous la forme
" #
n n
f (Xj ) = u(X0 ) + u(Xj ) Pu(Xj1 ) Pu( Xn ).
j =0 j =1
Par consquent Mn = nj=1 Zj est une martingale et nous avons prouv la dcomposition
n
f (Xj ) = u(X0 ) Pu(Xn ) + Mn .
j =0
Les termes u et Pu sont borns et ils ne contribuent pas la limite nj=0 f ( X j )/ n. Il suffit
donc de vrifier la convergence en loi de Mn / n.
Le thorme central limite peut tre gnralis au cas des espaces dtats dnom-
brables (cf. le livre [6]). En gnral, il nest pas facile destimer la variance 2 et il faut
utiliser les donnes de plusieurs trajectoires pour obtenir une estimation pertinente.
Chapitre 11
147
148 CHAPITRE 11. APPLICATIONS DES MARTINGALES
0.8
0.6
0.4
0.2
F IGURE 11.1 La proportion Xn de boules vertes est reprsente dans trois ralisations de lurne
de Polya avec 1000 tirages au sort. Les fluctuations initiales sont importantes, mais la proportion
se stabilise trs vite et reste ensuite asymptotiquement constante.
Pour des donnes initiales gnrales, X suit une loi beta sur [0, 1] de paramtres
(v, r ) dont la densit scrit
( v + r 1) !
f X ( x ) = (1 x ) r 1 x v 1 . (11.1)
( v 1) ! (r 1) !
interprts comme des graphes alatoires dont les structures ont de nombreuses simi-
larits. Les interconnections dans ces graphes sont trs diffrentes du modle dErds-
Rnyi voqu section 4.4.2. En particulier, il existe des sites avec un trs grand nombre de
connections et la statistique des degrs de ces graphes est souvent rgie par des lois de
puissance. Ces graphes se sont constitus au fil du temps sans suivre un dessein prtabli.
De nombreux modles ont t proposs pour essayer de dcrire cette "auto-organisation"
et les lois correspondantes. Barabsi et Albert ont propos dans leur article [1] un mca-
nisme de renforcement, que nous allons prsenter ci-dessous, pour construire dynami-
quement des graphes dont les degrs ont des proprits statistiques similaires celles
observes en pratique.
1 3
5 2 4
Au temps initial n = 1, le graphe G1 est constitu par un unique site reli lui mme.
chaque pas de temps, un site est ajout et on notera Gn le graphe correspondant. La
rgle est la suivante : au temps n, le nouveau site n est connect un site dans le graphe
Gn1 choisi proportionnellement son degr (cf. figure 11.2). Ce graphe est construit dy-
namiquement par analogie au world wide web o les sites les plus importants ont tendance
attirer le plus grand nombre de liens, les nouveaux sites se connectant de faon privi-
lgie aux serveurs principaux. Un exemple de graphe alatoire de Barabsi-Albert est
reprsent figure 11.3.
La construction du graphe peut sinterprter laide dune urne de Polya. Initiale-
ment en n = 1, on considre une urne contenant 2 boules avec le label 1. Supposons
quau temps n, il existe 2n boules dans lurne chacune tant associe un label entre 1 et
n. Au temps n + 1, on choisit une boule au hasard et on note k {1, . . . , n} son label. On
replace alors dans lurne deux boules de label k et une nouvelle de label n + 1. Retraduit
en terme de graphe, ceci correspond ajouter le site n + 1 et le relier au site k par une
arte. Le nombre de boules avec le label k crot exactement comme le degr du site k, i.e.
le nombre dartes du site k.
Pour comprendre lvolution du nombre dartes du site k, on considre lurne au
temps k et on colorie les 2k 1 boules de label strictement infrieur k en rouge et la boule
k en vert. On continue les tirages au sort. Au temps n > k, si on choisit une boule de label
strictement suprieur k on ignore ce tirage car il correspond la cration dune arte
sur un site qui nest pas dans {1, . . . , k }. Si une boule de label j < k est tire, cela revient
150 CHAPITRE 11. APPLICATIONS DES MARTINGALES
F IGURE 11.3 Le graphe de Barabsi-Albert avec 100 sites reprsent ci-dessus est construit en
ajoutant deux sites chaque tape. On remarquera que le site central est fortement connect.
ajouter une boule rouge et si une boule de label k est choisie cela correspond lajout
dune boule verte. Par consquent la distribution relative des boules vertes et rouges suit
celle dune urne de Polya de donne initiale r = 2k 1 et v = 1 et le comportement
asymptotique est donn par la loi (11.1) qui vaut f X ( x ) = r (1 x )r1 .
Au lieu de suivre le degr dun site fix, on peut aussi chercher une information plus
globale et dterminer lesprance N (d, n) du nombre de sites de degr d au temps n.
Comme pour les chanes de Markov, on obtient en conditionnant par rapport au pass
1 d d 1
2n N ( d, n ) + 2n N ( d 1, n), si k>1
N (d, n + 1) = d
1
2n N ( d, n ) + 1, si d=1
En effet, un nouveau site de degr d > 1 ne peut tre cr que si une arte a t ajoute
un site de degr d 1 et inversement un site de degr d disparat si on lui ajoute une
arte. Un calcul (simple mais douloureux) permet de montrer que pour d > 1
1 4
lim N (d, n) = .
n n d(d + 1)(d + 2)
Pour de trs grands graphes, la probabilit quun site choisi au hasard ait le degr d
dcrot comme 1/d3 quand d diverge. La rpartition des degrs selon une loi de puissance
se retrouve dans de nombreux rseaux dont la structure nest pas dicte par le degr
moyen mais est caractrise par quelques noeuds fortement connects. La construction
de Barabsi-Albert conduit une structure de graphes trs stable, insensible aux erreurs
alatoires, par contre ces graphes sont trs vulnrables aux attaques des sites fortement
connects. Une tude approfondie des graphes alatoires pourra tre trouve dans le livre
de R. Durrett [10].
11.2. LALGORITHME DE ROBBINS-MONRO 151
sintresse un cas o la fonction f ne peut pas tre calcule explicitement, mais simple-
ment estime par des observations de la forme { F ( Xi , )}i . Par exemple, reprsente le
dosage dun mdicament que lon souhaite calibrer pour produire un effet gal a. Pour
un patient Xi , leffet mesur F ( Xi , ) est alatoire et la fonction f reprsente leffet moyen.
On cherche donc estimer en testant seulement un petit nombre de patients.
Au chapitre 6, nous avons tudi des mthodes pour dterminer le minimum (ou le
maximum) dune fonction V ( ). Cette question est trs proche du problme prc-
dent car elle se ramne identifier les valeurs de telles que V ( ) = 0. En statistiques,
on cherche souvent estimer un paramtre partir dobservations par une mthode
de maximum de vraisemblance (voir par exemple le cours [13]). Nous allons dcrire
ci-dessous lalgorithme de Robbins-Monro qui est une mthode rcursive pour estimer le
paramtre en ajustant les dcisions en fonction des nouvelles observations. La variante
de cet algorithme pour estimer les solutions de V ( ) = 0 porte le nom dalgorithme de
Kiefer-Wolfowitz, mais nous ne la dtaillerons pas dans ce cours.
Pour fixer les ides, considrons dabord le cadre dterministe dune fonction f : R
R continue qui admet une unique solution ? lquation f ( ? ) = a pour un niveau a
donn. On suppose que f vrifie la condition pour tout dans R
f ( ) a ? < 0
(11.2)
et que k f k 6 K. Pour dterminer ? , la procdure la plus simple consiste suivre le flot
de lquation
t > 0, t t = f (t ) a
pour une donne initiale 0 fixe. Sous les hypothses considres, la fonction t t
converge vers ? . Pour limplmentation, il est prfrable de considrer des pas de temps
discrets
n + 1 = n + n f ( n ) a (11.3)
o les incrments n > 0 sont choisis tels que
lim n = 0
n
et n = .
n
Ces conditions suffisent pour montrer que n converge vers ? quand n tend vers linfini.
Pour le comprendre, considrons le cas particulier f ( ) = c avec a = 0 et ? = 0. La
rcurrence (11.3) scrit
n
n+1 = 1 + cn n = 1 + ck 0
k =0
La condition (11.2) est fondamentale pour que la suite n se contracte vers le point fixe
? . Elle impose c < 0 ce qui est une condition ncessaire pour que le produit ci-dessus
converge quand n tend vers linfini. On obtient
n n
log 1 + ck + log 0 ' log 0 + c k n
.
log n+1 =
k =0 k =1
152 CHAPITRE 11. APPLICATIONS DES MARTINGALES
lim n = 0,
n
n = et que la srie n n converge.
n n
Alors la suite
n + 1 = n + n f ( n ) a + n (11.4)
converge vers ? quelle que soit la donne initiale 0 .
La preuve de ce lemme est reporte la fin de cette section et nous montrons mainte-
nant comment une version stochastique de cet algorithme permet de traiter les fonctions
de la forme f ( ) = E F ( X, ) . Dans la pratique, on ne connait pas la fonction f , mais on
F IGURE 11.4 Lalgorithme de Robbins-Monro est utilis dans ces 2 simulations pour rsoudre
la rcurrence alatoire n+1 = n + n arctan n + Xn o Xn sont des variables alatoires
uniformment distribues sur [0, 1]. La simulation reprsente gauche est ralise avec n = n10.7
pour 150 pas de temps. La srie n sapproche de la solution ? = 0 en oscillant. La convergence
est amliore sur la simulation de droite ralise avec n = n1 pour 600 pas de temps.
lim n = 0,
n
n = et n2 < .
n n
11.2. R OBBINS -M ONRO 153
Alors le processus {n }n > 0 converge presque srement, quelle que soit la donne initiale 0 , vers
? la solution de f ( ? ) = E F ( X, ? ) = a.
o on a utilis le fait que F est borne par K et que n n2 < . Le thorme 10.1 implique
la convergence presque sre de Mn et donc de la srie n n n . Les hypothses du lemme
11.1 tant satisfaites, il suffit de lappliquer pour conclure la dmonstration du thorme.
t1 1 t2 2
F IGURE 11.5 La suite {n }n > 0 est reprsente et les intervalles de temps [t1 , 1 ], [t2 , 2 ] corres-
pondent au dernier passage au dessus du niveau avant datteindre le niveau .
Comme n et n n tendent vers 0, on peut choisir n assez grand tel que juste avant de
franchir le niveau > 0 on ait tk > 0.
Si n > 0 alors la condition (11.2) implique
n + 1 = n + n f ( n ) + n 6 n + n n .
La suite oscille infiniment souvent entre et , par consquent on peut choisir tk arbitrai-
rement grand et nk=tk n n tend vers 0 car la srie converge. Ceci conduit une contra-
diction. On peut traiter de faon identique le cas < 0 et ainsi exclure dventuelles
oscillations entre deux valeurs > .
On se ramne donc au cas o la suite {n }n > 0 admet une limite (ventuellement
infinie).
Cas 2. Supposons que limn n = > 0. Alors il existe n0 et > 0 tel que
n > n0 , |n | 6 et f (n ) <
Cette martingale tant positive, elle converge presque srement, par le corollaire 10.5,
vers une variable alatoire limite M que nous allons caractriser.
Si 6 1 nous avons montr au thorme 4.10 que la population steint presque
srement, i.e. que Zt = 0 partir dun certain temps (alatoire). Par consquent M = 0
presque srement. La convergence de Mt vers M ne peut donc pas avoir lieu dans L1
car
t > 0, E( Mt ) = E( M0 ) = 1 6= 0 = E( M ).
2
E( M ) = 1, E ( M
2
) E ( M ) 2 = et P( M = 0) =
2
Dmonstration. Commenons par montrer que la martingale { Mt }t > 0 est borne dans
L2 . On calcule
2 2
E[ Mt2 ] = E E[ Mt2 |Ft1 ] = E[ Mt21 ] + 2t E[ Zt1 ] = E[ Mt21 ] + t+1
t +1
1 t
E[ Mt2 ] = 1 + 2 k = 1 + 2
2
. (11.7)
k =2
On en dduit que la martingale { Mt }t > 0 est borne dans L2 et le thorme 10.1 per-
met daffirmer quelle converge dans L2 et presque srement vers M . Par consquent
2
E( M ) = 1 = lim E( Mt ) et E ( M
2
) E ( M ) 2 = = lim E( Mt2 ) E( Mt )2 .
t 2 t
Ceci permet didentifier la probabilit qui a t dfinie au thorme 4.10 comme lunique
solution de = ().
Chapitre 12
157
158 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE
yn
xn
N
F IGURE 12.1 Pour dterminer le maximum dune suite de rels { xn }n 6 N , on construit r-
cursivement une suite majorante en partant de y N = x N et en remontant ensuite le temps
yn = max{ xn , yn+1 }. La suite {yn }n 6 N , reprsente en pointills, est dcroissante et y0 =
max{ xn , n 6 N }. Lenveloppe de Snell (12.2) est lanalogue de cette construction dans un cas
stochastique.
La figure 12.1 illustre cette construction. Le processus Y est appel enveloppe de Snell du
processus X et il sinterprte de la faon suivante. Si le problme darrt optimal se pose
au temps N, le seul choix possible de temps darrt est = N ce qui justifie la dfinition
YN = X N . la date N 1, on choisit la stratgie darrt en comparant le gain X N 1
obtenu en sarrtant N 1 et le gain espr si on continuait E[YN |F N 1 ] = E[ X N |F N 1 ].
Ceci explique la dfinition de YN 1 . En procdant de manire rtrograde date par date,
on comprend la logique derrire lenveloppe de Snell.
Le rsultat suivant montre que lenveloppe de Snell permet de rsoudre le problme
darrt optimal V N et de dterminer un temps darrt optimal.
Proposition 12.1. Supposons que X soit intgrable. Alors lenveloppe de Snell Y est la plus petite
surmartingale majorant le processus X. De plus
la variable alatoire
n o
= inf n {0, . . . , N }; Yn = Xn
Y0 = sup E [ X ] = E [ X ] .
T N
Dmonstration.
tape 1. Construction de la surmartingale Y.
Vrifions dabord par une rcurrence rtrograde que le processus Y est bien int-
grable. la date finale, on a YN = X N L1 . Si on suppose que Yn appartient L1 ,
alors
E|Yn1 | 6 E| Xn1 | + E|E{Yn |Fn1 }| 6 E| Xn1 | + E|Yn |.
Ainsi Y est intgrable.
12.1. ARRT OPTIMAL 159
Par dfinition Y est une surmartingale majorant X. Soit Y une autre surmartingale
majorant X. Montrons par rcurrence rtrograde que presque srement
On en dduit que
Yn+1 Yn = (Yn+1 E [Yn+1 |Fn ])1{ > n+1} .
Par ailleurs, pour tout temps darrt dans T N , le processus arrt Y est une surmar-
tingale. Daprs le thorme darrt de Doob, il satisfait donc
1
XN = jp j1 (1 p) = 1 p .
j 1
o le cot infini pour n = 1 signifie que vous ne pouvez occuper la place aucun
cot fini.
Le problme darrt optimal consiste chercher le temps darrt qui minimise le cot de
leffort de lagent, ou en inversant les signes
sup E[ X ].
T N
o f : {0, . . . , N } R est une fonction que nous allons dterminer. Comme Y est une
surmatingale, lesprance n E[Yn ] dcrot et par consquent n f ( N n) est d-
croissante (cf. figure 12.2). Le premier temps o Yn = Xn revient dterminer le premier
n < N tel que
n = 0 et ( N n) > f ( N n). (12.4)
Soit r > 0 le premier point tel que ( N r ) > f ( N r ) (cf. figure 12.2). Si une place
est disponible avant r alors lingalit de la relation (12.4) ne sera pas satisfaite, par
consquent il suffit de choisir la premire place disponible aprs r .
r? N
= inf n > N r ;
n = 0 (12.5)
2pr+1 1
`(r ) = r + 1 + , r 6 N.
1 p
Pour maximiser `(r ), on remarque que la fonction r 7 `(r + 1) `(r ) = 1 + 2pr+1 est
dcroissante en r. Par consquent
n o
r +1
r = inf r 0; 1 + 2p 0 .
162 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE
titre dexemple, on peut voir que pour p 6 0.5, il faut chercher se garer en arrivant
destination et que pour p = 0.9, il faut chercher la premire place disponible ds quon
arrive 6 places de la destination.
Modlisation.
On peut classer les N candidats selon un ordre dcroissant {(1), . . . , ( N )} o est
une permutation uniforme de {1, . . . , N }. Le candidat i a donc le rang (i ) et on cherche
dterminer le meilleur candidat, cest dire le candidat j tel que ( j) = 1. Lenjeu est
doptimiser le gain P( ( ) = 1) o est un temps darrt reprsentant le candidat choisi.
La premire difficult est que le processus {1(k)=1 }k 6 N que lon cherche optimi-
ser nest pas mesurable par rapport la -algbre engendre par les observations jus-
qu linstant k. En effet savoir que (k ) = 1 suppose de connatre le classement des
N candidats. Les variables mesures naturellement sont les rangs relatifs { n }1n N .
Prcisment, n dsigne le rang du nime candidat auditionn parmi les n candidats
auditionns. Par exemple si N = 5 et que le classement des candidats est donn par
= {3, 2, 5, 1, 4}, alors les ordres relatifs seront
1 = 1, 2 = 1, 3 = 3, 4 = 1, 5 = 4.
1
P n = k = .
k {1, . . . , n},
n
Xn = E 1{(n)=1} Fn .
n {1, . . . , N },
12.1. ARRT OPTIMAL 163
N
P ( ) = 1 = E
1{ =n} 1{(n)=1}
n =1
N
E 1{ =n} E 1{(n)=1} Fn
=
n =1
N
E 1 { = n } Xn = E( X ).
=
n =1
Par consquent, pour dterminer le temps darrt optimal, il est donc quivalent de tra-
vailler avec le processus mesurable { Xn }n 6 N qui est mesurable par rapport aux obser-
vations contrairement {1(n)=1 }n 6 N . De plus le processus { Xn }n 6 N peut se rcrire
sous la forme
n
Xn = 1 .
N { n =1}
En effet lvnement {(n) = 1} correspond { n = 1, n+1 6= 1, . . . , N 6= 1} et en
utilisant lindpendance des variables i , on retrouve
n n+1 N1 n
= 1 { n =1} = 1 .
n+1 n+2 N N { n =1}
r1 N 1
=
N n =r n 1
avec `(0) = 1/N. On remarque que
N
1 1 1
`(r + 1) `(r ) =
N
+
N n1
.
n =r +1
pour obtenir lordre de grandeur r Ne1 .37 N. Ainsi, la stratgie optimale consiste
rejeter systmatiquement les premiers candidats et, partir de 37% des candidats audi-
tionns, slectionner celui qui sera class premier parmi tous ses prdcesseurs.
Les applications du contrle sont multiples et la fonction de cot (12.8) peut sinter-
prter de diffrentes faons. Par exemple Xn peut reprsenter la population dune espce
de poissons au dbut de lanne n et le paramtre un les quotas de pche qui permettent
de contrler lvolution de cette population sous la forme Xn+1 = F ( Xn , un ). On cherche
ajuster les quotas de pche durant N annes afin de garantir un certain niveau dex-
ploitation c( Xn , un ) chaque anne mais aussi la prservation de la ressource naturelle en
imposant une contrainte W ( X N ) au temps final. Dautres questions lies aux politiques
de dveloppement durable (exploitation des forts, dtermination des quotas dmission
de CO2) sont dtailles dans le livre [7] ainsi que la forme explicite des fonctions de cot
associes.
De nombreuses applications sont lies lconomie, citons notamment la gestion dun
stock de marchandises [8]. Le paramtre Xn reprsente alors la quantit du stock au jour n
et le paramtre un permet dajuster ce stock au cours du temps en passant commande aux
fournisseurs. chaque priode de temps, c( Xn , un ) prend en compte le gain obtenu en
vendant cette marchandise, les frais de stockage, etc. Les invendus au temps N induisent
la pnalisation W ( X N ). La thorie du contrle est aussi trs utilise en mathmatiques
financires.
Pour prciser la modlisation, on peut aussi tenir compte dventuels alas et modifier
les rgles dvolution
n > 0, X n +1 = F ( X n , u n , n ) (12.9)
o { n }n 6 N est une suite de variables alatoires indpendantes et identiquement dis-
tribues. Par exemple, la reproduction dune espce animale peut tre affecte par des
facteurs climatiques quon modlise par les n . La thorie du contrle stochastique consiste
identifier un contrle optimal qui minimise le cot moyen dfini en (12.13).
Nous allons dabord dcrire la mthode de programmation dynamique qui permet
de dterminer le contrle optimal dans le cas dterministe puis nous gnraliserons cette
stratgie aux volutions alatoires.
Le principe qui sous-tend ces quations est que la trajectoire optimale entre 2 points sera
aussi optimale entre 2 points intermdiaires. Par consquent, si on connait le contrle
optimal entre k + 1 et N, il est facile den dduire le contrle optimal entre k et N.
Ces quations peuvent tre rsolues de faon rtrograde. La valeur de a o le mini-
mum est atteint correspond au contrle optimal et on la notera un ( x ) (si valeur nest pas
unique, on en choisit une). En remontant jusquau temps k = 0, on tablit le cot optimal
pour nimporte quelle donne initiale X0 = x dans E
C ( x ) = min C0 ( x, u).
uU N
En utilisant les diffrentes valeurs {un ( x )}n 6 N,xE dtermines au cours de cette proc-
dure, une trajectoire optimale { Xn }n 6 N peut tre reconstruite pour toute donne initiale
x dans E par
X0 = x et Xn+1 = F Xn , un ( Xn ) pour n 6 N 1.
o lesprance Ek,x porte sur les trajectoires partant de x au temps k et le minimum (dont
on suppose lexistence) est choisi pour les contrles de la forme
U = {uk ( xk ), . . . , u N 1 ( x N 1 )}.
12.2. CONTRLE STOCHASTIQUE 167
Dans le cas alatoire, les quations de la programmation dynamique scrivent pour tout
x de E
Cb ( x ) = W ( x ),
N
x E, n o
C ( x ) = infaU c( x, a) + E Cb F ( x, , a)
b
k k +1 pour k 6 N 1.
(12.15)
On construit ainsi le contrle optimal par tapes, en dfinissantuk ( x )
comme la valeur
qui minimise la relation (12.15) chaque pas de temps et pour chaque tat x dans E.
168 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE
Annexe A
A B et AB := ( A B) \ ( A B) A pour tous A, B A0 ,
et quune algbre est stable par intersection dnombrable. P () est la plus grande
algbre sur . Il savre cependant que, si nest pas dnombrable, cette algbre
est souvent trop grande pour quon puisse y dvelopper les outils mathmatiques nces-
saires.
En dehors des cas trs simples, il est souvent impossible de lister les lments dune
algbre ou dune algbre. Il est alors commode de les caractriser par une classe de
sous-ensembles. Ainsi, on dfinit pour tout C P () la algbre (C) engendre par
C . Cest la plus petite algbre sur contenant C , dfinie comme intersection de toutes
les algbres sur contenant C .
Exemple A.2. Si est un espace topologique, la algbre Borelienne , note par B , est la
algbre engendre par les ouverts de . Pour la droite relle, on peut mme simplifier
la comprhension de BR :
BR = ( (R)) o (R) := {] , x ] : x R}
169
170 ANNEXE A. THORIE DE LA MESURE
(Exercice !)
Lexemple prcdent se gnralise par la notion suivante :
Dfinition A.3. Soit I P (). On dit que I est un systme sil est stable par intersection
finie.
Ainsi lensemble (R) de lexemple ci-dessus est un systme. Limportance de
cette notion apparatra dans la proposition A.5 ci-dessous ainsi que dans le thorme des
classes monotones A.18 de la section A.2.
A.1.2 Mesures
Dfinition A.4. Soit A0 une algbre sur , et 0 : A0 R+ une fonction positive.
(i) 0 est dite additive si 0 () = 0 et pour tous A, B A0 :
0 ( A B) = 0 ( A) + 0 ( B) ds que A B = .
A = n0 An A0 et les An disjoints = 0 ( A) = 0 ( A n ).
n 0
est une algbre telle que B]0,1] = (A0 ). Pour tout A A0 de la forme (A.1), on dfinit
n
0 ( A ) := ( bi a i ) .
i =1
A.1. M ESURES 171
(in Ai ) = (1)k1 ( A i1 . . . A i k ).
kn i1 <...<ik n
Si la mesure est finie, le rsultat suivant montre que lingalit inverse dans le lemme
de Fatou pour les ensembles a lieu en changeant lim inf et lim sup. Nous verrons plus
tard que la situation est plus complique pour les fonctions...
Lemme A.13. (inverse Fatou pour les ensembles) Soit (, A, ) un espace mesur fini, et ( An )n
une suite dans A. Alors
[lim sup An ] lim sup [ An ].
Dmonstration. Par dfinition, nous avons Cn := kn Ak C := lim sup An . La pro-
position A.11 (ii), qui requiert que la mesure soit finie, donne [C ] = lim [Cn ]. Pour
conclure, il suffit de remarquer que Cn Ak pour tout k n, et par suite [Cn ]
infkn [ Ak ], impliquant que lim [Cn ] lim sup [ An ].
Enfin, nous nonons le rsultat suivant qui sera utilis plusieur reprises. Notons
que cet nonc sera complt dans la suite quand nous aurons abord les notions dind-
pendance.
Lemme A.14. (Premier lemme de Borel-Cantelli) Soit (, A, ) un espace mesur, et ( An )n
A. Alors
La mesurabilit est conserve par les oprations usuelles pour les fonctions.
La preuve est simple et est laisse en exercice. Avant daborder lobjet central de ce
chapitre, savoir la construction de lintgrale de Lebesgue, nous reportons une ver-
sion simple du thorme des classes monotones, qui ne sera utilis que plus tard dans la
construction despaces mesurs produits.
174 ANNEXE A. THORIE DE LA MESURE
Thorme A.18. (classes monotones) Soit H une classes de fonctions relles bornes sur vri-
fiant les conditions suivantes :
(H1) H est un espace vectoriel contenant la fonction constante 1,
(H2) pour toute suite croissante ( f n )n H de fonctions positives dont la limite f := lim f n
est borne, on a f H.
Soit I un systme tel que {1 A : A I} H. Alors L ((I)) H.
La dmonstration est reporte titre de complment dans lannexe de ce chapitre.
Il est clair que ( g) est bien dfini, i.e. deux reprsentations diffrentes (A.2) dun lment
f S + donnent la mme valeur. Nous tendons prsent la dfinition de lensemble
L0+ (A) des fonctions Amesurables positives.
Dfinition A.19. Pour f L0+ (A), lintgrale de f par rapport est dfinie par
( f ) := sup ( g) : g S + et g f .
(lim f n ) = lim ( f n ).
Remarque A.22. Par le mme argument que ltape 2 ci-dessus (approximation par les
fonctions simples (A.4) et utilisation du thorme de convergence monotone), on montre
facilement que :
(i) Pour f 1 , f 2 L0+ (A) telles que f 1 = f 2 p.p., on a ( f 1 ) = ( f 2 ).
(ii) Pour f 1 , f 2 L0+ (A), on a ( f 1 + f 2 ) = ( f 1 ) + ( f 2 ).
( f ) : = ( f + ) ( f ).
On voit immdiatement que L1 (A, ) est un espace vectoriel dont on donnera dautres
proprits topologiques dans la suite.
Avant de continuer, levons tout de suite une source dambiguit concernant lintgra-
tion dune fonction f L1 (A, ) sur une partie A A. En effet celle-ci peut se faire soit
en intgrant la fonction intgrable f 1 A , soit en intgrant la restriction f | A par rapport
la restriction A de lespace mesurable ( A, A A ), o A A est la algbre dfinie par
A A : = P ( A ) A.
Dmonstration. Tout dabord, cette proprit est vraie pour les fonctions f = 1 B , B
A, puisque dans ce cas (1 B 1 A ) = ( A B) = A (1 B | A ). Par linarit, cette galit
reste vraie pour les fonctions simples, puis par convergence monotone pour les fonctions
mesurables positives. Enfin, pour f L1 (A, ), on dcompose f = f + f , et on obtient
le rsultat voulu en appliquant lgalit f + et f .
Voici un rsultat qui rappelle une proprit classique sur les intgrales de Riemann
ventuellement impropres.
Lemme A.26. Soit f L1 (A, ) et > 0. Alors, il existe > 0 tel que pour tout A A
vrifiant ( A) < , on a (| f |1 A ) < .
A.2. I NTGRALE DE L EBESGUE 177
Le rsultat suivant donne une condition ncessaire et suffisante pour quune suite
convergente p.p. soit convergente dans L1 (A).
Lemme A.28. (Scheff) Soit ( f n )n L1 (A, ) telle que f n f p.p. pour une certaine
fonction f L1 (A, ). Alors :
f n f dans L1 (A, ) ssi (| f n |) (| f |).
Dmonstration. Limplication = est triviale. Pour lingalit inverse, on procde en
deux tapes.
Etape 1 Supposons que f n , f 0, p.p. Alors ( f n f ) f L1 (A), et on dduit
du thorme de convergence domine que (( f n f ) ) 0. Pour conclure, on crit
que (| f n f |) = ( f n ) ( f ) + 2 (( f n f ) ) 0.
Etape 2 Pour f n et f de signe quelconque, on utilise le lemme de Fatou pour obtenir
(| f |) = lim{( f n+ ) + ( f n )} ( f + ) + ( f ) = (| f |) et par suite toutes les ingalits
sont des galit, i.e. lim ( f n+ ) = ( f + ) et lim ( f n ) = ( f ). On est alors ramen au
contexte de ltape 1, qui permet dobtenir f n+ f + et f n f dans L1 (A), et
on conclut en crivant | f n f | | f n+ f + | + | f n f | et en utilisant la monotonie de
lintgrale.
Exercice A.29. Soient (, A, ) un espace mesur, I un intervalle ouvert de R, et f : I
R une fonction telle que f ( x, .) L0 (A) pour tout x I.
1. On suppose quil existe une fonction g L1+ (A, ) telle que | f ( x, .)| g, p.p. Montrer
alors que, si f (., ) est continue en un point x0 I, p.p., la fonction : I R
dfinie par
Z
( x ) := f ( x, )d( ); x I,
(a) Lintgrale de Riemann est construite sur un intervalle [ a, b] compact de R. Il y a bien une
extension par les intgrales impropres, mais cel conduit un cadre assez restrictif.
(b) Lintgrale de Riemann est construite en approximant la fonction par des fonctions en es-
calier, i.e. constantes sur des sous-intervalles de [ a, b] de longueur petite. Sur un dessin,
il sagit dune approximation verticale. Par contre, lintgrale de Lebesgue est construite en
dcoupant lintervalle image et en approximant f sur les images rciproques de ces intervalles. Il
sagit dans ce cas dune approximation horizontale de la fonction intgrer.
(c) Les fonctions Riemann intgrables sont Lebesgue intgrables. Montrons ceci dans [0, 1].
Soit f une fonction Riemann integrable borne sur = [0, 1] dintgrale (au sens de Rie-
R1 R1
mann) 0 f ( x )dx. Alors f est Lebesgue intgrable dintgrale ( f ) = 0 f ( x )dx. Si f est
une fonction en escalier, ce rsultat est trivial. Pour une fonction Rieman intgrable f ar-
bitraire, on peut trouver deux suites de fonctions en escalier ( gn )n et (hn )n respectivement
croissante et dcroissante telles que gn f hn et
Z 1 Z 1
inf ( gn hn )( x )dx = lim ( gn hn )( x )dx = 0.
n 0 n 0
La rciproque nest pas vraie. Par exemple, la fonction f = 1Q[0,1] est Lebesgue-intgrable,
mais nest pas Riemann-intgrable.
(d) Le thorme de convergence domine na pas son quivalent dans le cadre de lintgrale de
Riemann, et permet dobtenir un espace de fonctions intgrables complet (on verra ce
A.3. TRANSFORMES DE MESURES 179
rsultat plus tard). Par contre, on peut construire des exemples de suites de Cauchy de
fonctions Riemann intgrables dont la limite nest pas Riemann intgrable.
(e) Pour les fonctions dfinies par des intgrales, les rsultats de continuit et de drivabilit
sont simplement obtenus grce au thorme de convergence domine. Leur analogue dans
le cadre des intgrales de Riemann conduit des rsultats assez restrictifs.
(f) Lintgrale de Lebesgue se dfinit naturellement dans Rn , comme on le verra dans la sec-
tion A.5. En particulier, le thorme de Fubini est dune grande simplicit dans le cadre
de lintgrale de Lebesgue. La situation est un peu plus complique pour lintgrale de
Riemann.
Dmonstration. On commence par vrifier la formule de transfert (A.6) pour les fonctions
positives. La formule est vraie pour les fonctions 1 A2 , A2 A2 , puis, par linarit, pour
les fonctions simples positives, et on conclut par le biais du thorme de convergence
monotone. Pour h de signe arbitraire intgrable, on applique le rsultat prcdent h+
et h . Enfin, la formule de transfert montre que h L1 (A2 , 2 ) ssi h+ f et h f
L1 (A1 , 1 ), et lquivalence dcoule du fait que h+ f = (h f )+ et h f = (h f ) .
Dfinition A.33. (i) La mesure est appele mesure de densit f par rapport , et on note
= f .
(ii) Soient 1 , 2 deux mesures sur un espace mesurable (, A). On dit que 2 est absoluement continue
par rapport 1 , et on note 2 1 , si pour tout A A :
2 ( A) = 0 = 1 ( A) = 0.
2. Montrer que
4. Montrer que
A1 A2 := (A1 A2 ) .
Une question importante est de relier cette quantit aux intgrales doubles
Z Z Z Z
f d1 d2 et f d2 d1 ,
2 1 1 2
f 11 L (A2 ) et f 22 L (A1 ).
f
(b) Supposons de plus que 1 et 2 soient finies. Alors Ii L1 (Ai , i ) pour i = 1, 2 et
Z Z
f f
I1 d1 = I2 d2 .
1 2
Grce au dernier rsultat, nous pouvons maintenant dfinir un candidat pour la me-
sure sur lespace produit 1 2 par :
Z Z Z Z
( A) := 1 A d1 d2 = 1 A d2 d1 pour tout A A1 A2 .
Dmonstration. On vrifie que 1 2 est une mesure grce aux proprits lmentaires
de lintgrale de Lebesgue. Lunicit est une consquence immdiate de la proposition
A.5. Les galits (A.10) ont dj t tablies dans le lemme A.39 (b) pour f borne et des
mesures finies. Pour gnraliser des fonctions f mesurables positives, on introduit des
approximations croissantes, et on utilise le thorme de convergence monotone. Enfin,
pour des fonctions f L1 (A1 A2 , 1 2 ), on applique le rsultat prcdent f + et
f .
Remarque A.41. (i) La construction de ce paragraphe, ainsi que les rsultats dintgra-
tion ci-dessous, stendent sans difficult pour la construction du produit de n espaces
mesurs au prix de notations plus encombrantes.
(ii) Soit maintenant (i , Ai )i1 une famille dnombrable despaces mesurs, et :=
i1 i . Pour tout sous-ensemble fini I N, et pour tous Ai Ai , i I, on dfinit le
cylindre
C( Ai , i I ) := { : i Ai pour i I } .
g : 1 2 o 1 , 2 ouverts de Rn .
Thorme A.42. Soit 1 une mesure sur (1 , B1 ) de densit par rapport la mesure de Le-
besgue f 1 L0+ (B1 ), i.e. 1 (dx ) = 11 f 1 ( x ) dx. Si g est un C1 diffomorphisme, la mesure
image 2 := g1 est absoluement continue par rapport la mesure de Lebesgue de densit
Z Z
f 2 (y) = 12 (y) f g1 |det[ Dg1 (y)]| et h g( x ) f 1 ( x )dx = h(y) f 2 (y)dy
1 2
Proposition A.5 Soient I un systme, et , deux mesures finies sur lespace mesurable
(, (I)). Si = sur I alors = sur (I).
qui est le plus petit dsystme contenant C . Linclusion d(C) (C) est vidente.
Lemme A.45. Pour un systme I , on a d(I) = (I).
Dmonstration. Daprs le lemme A.44, il suffit de montrer que d(I) est un systme,
i.e. que d(I) est stable par intersection finie. On dfinit lensemble D 0 := { A d(I) :
A B d(I) pour tout B d(I)}, et on va montrer que D 0 = d(I) ce qui termine la
dmonstration.
1- On commence par montrer que lensemble D0 := { B d(I) : B C d(I) pour tout C
Ic} est un dsystme. En effet :
- D;
- soient A, B D0 tels que A B, et C I ; comme A, B D0 , on a ( A C )
et ( B C ) d(I), et du fait que d(I) est un dsystme, on voit que ( B \ A) C =
( B C ) \ ( A C ) d(I) ;
- enfin, si D0 3 An A et C I , on a An C d(I) et donc lim ( An C ) =
A C d(I) du fait que d(I) est un dsystme ;
2- par dfinition D0 d(I), et comme on vient de montrer que cest un dsystme conte-
nant I , on voit quon a en fait D0 = d(I) ; on vrifie maintenant que ceci implique que
I D0 ;
3- enfin, en procdant comme dans les tapes prcdentes, on voit que D 0 est un dsystme.
( A B) + ( Ac B) = ( B) pour tout B A0 ,
Ce lemme, dont la dmonstration (facile) est reporte pour la fin du paragraphe, per-
met de montrer le rsultat suivant :
Lemme A.49. (Carathodory) Soit une mesure extrieure sur (, A0 ). Alors A0 est une
algbre, et la restriction de A0 est additive, et par suite est une mesure sur (, A0 ).
Dmonstration. En vue du lemme A.48, il reste montrer que pour une suite densembles
disjoints ( An )n A0 , on a
n An A00 () et (n An ) = ( An ). (A.11)
n
( B) = ( Acn B) + ( An B) ( Ac B) + ( An B) = ( Ac B) + ( Ai B).
i n
On dduit que toutes les ingalits sont des galits, prouvant que A A0 , et pour
B = A on obtient la proprit de sous-additivit de , finissant la preuve de (A.11).
Nous avons maintenant tous les ingrdients pour montrer le thorme dextension de
Carathodory.
Etape 1 Montrons que est une mesure extrieure sur (, P ), ce qui implique par le
lemme A.49 que
Il est clair que () = 0, et que est croissante, il reste donc vrifier que est sous-
additive. Soit une suite ( An )n P telle que ( An ) < pour tout n, et soit A := n An .
Pour tout > 0 et n 1, on considre une suite optimale ( Bin, )i A0 du problme de
minimisation ( An ), i.e. Bin, Bn,
j = ,
A0 A0 et = 0 sur A0 , (A.13)
0 ( A) = 0 (n ( A Bn )) = 0 ( A Bn ) 0 ( Bn ) = ( A).
n n
( A) + 0 ( Bn ) = 0 ( A0 Bn ) + 0 ( A0c Bn )
n n n
(( A0 A) + (( A0c A)
( A ),
Preuve du lemme A.48 1- Commenons par montrer que A0 est une algbre. Il est clair
que A0 et que A0 est stable par passage au complmentaire. Il reste montrer que
A = A1 A2 A0 () pour tous A1 , A2 A0 (). En utilisant successivement le fait que
A2 A0 et que A2 Ac = A1c A2 , A2c Ac = A2c , on calcule directement :
( Ac B) = ( A2 B) ( A B) + ( A2c B) = ( B) ( A B).
Thorme A.18 Soit H une classes de fonctions relles bornes sur vrifiant les conditions
suivantes :
(H1) H est un espace vectoriel contenant la fonction constante 1,
(H2) pour toute suite croissante ( f n )n H de fonctions positives telle que f := lim f n est
borne, on a f H.
Soit I un systme tel que {1 A : A I} H. Alors L ((I)) H.
Dans ce chapitre, on spcialise lanalyse aux cas dune mesure de probabilit, i.e. une
mesure P : A R+ telle que P[] = 1. On dit alors que (, A, P) est un espace probabilis.
Bien videmment, tous les rsultats du chapitre prcdent sont valables dans le cas
prsent. En plus de ces rsultats, nous allons exploiter lintuition probabiliste pour intro-
duire de nouveaux concepts et obtenir de nouveaux rsultats.
Ainsi, lensemble sinterprte comme lensemble de tous les vnements lmen-
taires, et tout point est un vnement lmentaire. La algbre A est lensemble
de tous les vnements ralisables.
On remplacera systmatiquement la terminologie Pp.p. par Ppresque surement,
note Pp.s. ou plus simplement p.s. sil ny a pas de risque de confusion.
Les fonctions Pmesurables sont appeles variables alatoires (on crira v.a.), et sont
le plus souvent notes avec des lettres majuscules, typiquement X. La loi image PX 1
est appele distribution de la v.a. X, et sera note PX sil ny a pas besoin de rappeler la
probabilit P.
189
190 ANNEXE B. THORIE DES PROBABILITS
Lemme B.2. Soient X et Y deux v.a. sur (, A, P) prenant leurs valeurs respectivement dans
R et dans Rn . Alors X est (Y )mesurable si et seulement si il existe une fonction borlienne
f : Rn R telle que X = f (Y ).
Dmonstration. Seule la condition ncessaire est non triviale. Par ailleurs quitte trans-
former X par une fonction bijective borne, on peut se limiter au cas o X est borne. On
dfinit
Dmonstration. (i) est triviale. Pour (ii), une premire approche consiste construire une
loi L en suivant le schmas de construction de la mesure de Lebesgue dans lexemple
A.7 qui utilise le thorme dextension de Carathodory ; on prend alors (, A, P) =
(R, BR , L) et X ( ) = . La remarque suivante donne une approche alternative.
Remarque B.4. Etant donne une fonction de rpartition, ou une loi, voici une construc-
tion explicite dune v.a. lui correspondant. Cette construction est utile, par exemple, pour
la simulation de v.a. Sur lespace de probabilit (, A, P) := ([0, 1], B[0,1] , ), tant la
mesure de Lebesgue, on dfinit
F (c) X ( ) c, (B.3)
Pour une v.a. positive, E[ X ] [0, ] est toujours bien dfinie. Bien sr, toutes les propri-
ts du chapitre A sont valides. Nous allons en obtenir dautres comme consquence de
P[] = 1.
PX ( B) = P[ X B] pour tout B BR .
Dfinition B.5. On dit que X a une densit de probabilit f X si PX est absolument continue par
rapport la mesure de Lebesgue sur R et :
Z
P[ X B ] = f X ( x )dx pour tout B BR .
B
qui exprime que f X est la drive de FX aux points de continuit de f . Enfin, pour une
v.a. X densit f X , on peut reformuler (B.4) sous la forme :
Z
g( X ) L (, A, P) ssi
1
| g( x )| f X ( x )dx <
R
E[ gn ( X )] gn (E[ X ]) ,
Dn := { x Rd : | g( x )| n} et Xn := X1 Dn ( X ) + n1 Dnc ( X ).
E[ g( Xn )] g (E[ Xn ]) .
Les proprits suivantes des fonctions caractristiques peuvent tre dmontres facile-
ment grce au thorme de convergence domine.
Lemme B.8. Soit X la fonction caractristique dune v.a. X. Alors X (0) = 1, et X est
continue borne (par 1) sur Rd .
Thorme B.10. Pour une v.a. relle, la fonction X caractrise la loi PX . Plus prcisment
eiua eiub
Z T
1 X 1 1
P ({ a}) + PX ({b}) + PX (] a, b[) = lim X (u) du
2 2 2 T T iu
pour tous a < b. De plus, si X est intgrable, PX est absolument continue par rapport la
mesure de Lebesgue, de densit
1
Z
f X (x) = eiux X (u)du, x R.
2 R
Dmonstration. Pour a < b, on vrifie sans peine que la condition dapplication du tho-
rme de Fubini est satisfaite, et on calcule que :
Z T iua
eiub
Z T iua
eiub
Z
1 e 1 e
X (u)du = iuv X
e dP (v)dv du
2 T iu 2 T iu R
Z T iu(v a)
!
1 e eiu(vb)
Z
= du dPX (v).
2 R T iu
k X + Y k2 k X k2 + kY k2 pour tous X, Y L2 .
V[ X ] := E[( X EX )2 ] = E[ X 2 ] E[ X ]2
et
Si X est valeurs dans Rd , ces notions sont tendues de manire naturelle. Dans ce cadre
V[ X ] est une matrice symtrique positive de taille d.
Enfin, la corrlation entre les v.a. X et Y est dfinie par
Cov[ X, Y ] h X, Y i2
Cor [ X, Y ] := = ,
k X k 2 kY k 2 k X k 2 kY k 2
i.e. le cosinus de langle form par les vecteurs X et Y. Lingalit de Schwarz garantit
que la corrlation est un rel dans lintervalle [1, 1]. Le thorme de Pythagore scrit
Attention,la variance nest pas un oprateur linaire, la formule ci-dessus est uniquement
valable si Cov[ X, Y ] = 0. Enfin, la loi du paralllogramme scrit
B.3.2 Espaces L p et L p
Pour p [1, [, on note par L p := L p (A, P) lespace vectoriel des variables alatoires
X telles que E[| X | p ] < . On note k X k p := (E[| X | p ])1/p . Remarquons que k X k p = 0
implique seulement que X = 0 p.s. donc k.k p ne dfinit pas une norme sur L p .
Dfinition B.11. Lespace L p est lensemble des classes dquivalence de L p pour la relation
dfinie par lgalit p.s.
196 ANNEXE B. THORIE DES PROBABILITS
Ainsi lespace L p identifie les variables alatoires gales p.s. et k.k dfinit bien une
norme sur L p .
Nous continuerons tout de mme travailler sur lespace L p et nous ne passerons
L que si ncessaire.
p
Dmonstration. Si ( Xn )n est une suite de Cauchy, on peut trouver une suite croissante
(k n )n N, k n , telle que
et que E[n | Xkn+1 Xkn |] < . Alors la srie n ( Xkn+1 Xkn ) est absolument conver-
gente p.s. Comme il sagit dune srie tlescopique, ceci montre que :
B.3.3 Espaces L0 et L0
On note L0 := L0 (A) lespace vectoriel des variables alatoires Amesurables sur
lespace probabilis (, A, P), et on introduit lespace quotient L0 constitu des classes
dquivalence de L0 pour la relation dfinie par lgalit p.s.
Dfinition B.13. (Convergence en probabilit) Soient ( Xn )n et X des v.a. dans L0 . On dit que
( Xn )n converge en probabilit vers X si
Cette notion de convergence est plus faible que la convergence p.s. et que la conver-
gence dans L p dans le sens suivant.
Lemme B.14. (i) La convergence p.s. implique la convergence en probabilit.
(ii) Soit p 1. La convergence en norme dans L p implique la convergence en probabilit.
B.3. E SPACES L p 197
On vrifie imdiatement que D est une distance sur L0 , mais ne lest pas sur L0 , pour les
mmes raisons que celles du paragraphe prcdent.
Lemme B.15. La convergence en probabilit est quivalente la convergence au sens de la dis-
tance D.
Dmonstration. Soit ( Xn )n une suite de Cauchy pour D. Alors cest une suite de Cauchy
pour la convergence en probabilit daprs le lemme B.15, et on peut construire une suite
(nk )k telle que
h i
P | Xnk+1 Xnk | 2k 2k pour tout k 1,
A.14) implique alors que P n mn {| Xnk+1 Xnk | 2k } = 1 et, par suite, pour presque
tout , ( Xnk ( ))n est une suite de Cauchy dans R. Ainsi, la v.a. X := lim supk Xnk
vrifie Xnk X p.s. donc en probabilit, et on termine comme dans la dmonstration
du thorme B.12.
C := { Xn X } = k n mn {| Xm X | k1 } = lim n Akn ,
k
Preuve du thorme B.20 Supposons dabord que les conditions (a) et (b) sont satis-
faites. La fonction c ( x ) := c x c, x R est lipschitzienne, et vrifie | c ( x ) x |
| x |1|x|c . On dduit alors
- de lU.I. de ( Xn )n et lintgrabilit de X que, quand c :
c ( Xn ) c ( X ) en probabilit.
Par ailleurs, daprs le lemme A.26, il existe > 0 tel que pour tout A A :
Nous allons utiliser cette ingalit avec les ensembles An := {| Xn | > c} qui vrifient bien
o nous avons utilis lingalit de Markov, exercice A.7, ainsi que la bornitude dans L1
de la suite ( Xn )n du fait de sa convergence dans L1 . Ainsi, on dduit de (B.10) et (B.11)
200 ANNEXE B. THORIE DES PROBABILITS
que
( )
sup E | Xn |1{|Xn |>c} = max sup E[| Xn |1{|Xn |>c} ] , sup E[| Xn |1{|Xn |>c} ]
n n N n> N
( )
max , sup E[| Xn |1{|Xn |>c} ]
n> N
( )
max , sup E[| X |1{|Xn |>c} ]+ E[| X Xn |1{|Xn |>c} ]
n> N
( )
max , sup E[| X |1 An + E[| X Xn |] < 2,
n> N
B.4.1 Dfinitions
Soient et n (R), n N. On dit que (n )n converge faiblement, ou troitement,
vers si
Soient X et Xn , n N des v.a. dans L0 (A). On dit que ( Xn )n converge en loi vers X si
(PXn )n converge faiblement vers PX , i.e.
Dans la dernire dfinition, il nest pas ncessaire que les v.a. X, Xn , n N soient dfinies
sur le mme espace probabilis. Montrons maintenant que les convergences introduites
dans les chapitres prcdents sont plus fortes que la convergence en loi.
Proposition B.22. La convergence en probabilit implique la convergence en loi.
vrifier que toute sous-suite convergente (unk )k converge vers E[ g( X )]. Pour cel, il suffit
dutiliser le lemme B.17 et le thorme de convergence domine.
Lp = L
w
1
w
p.s. = P = Loi
Pour tout x R, F ( x ) = F ( x ) = Fn ( x ) F ( x ).
Fn ( x ) n ( g1 ), ( g1 ) F ( x + ), et Fn ( x ) n ( g2 ), ( g2 ) F ( x )
qui ont pour fonction de rpartition F et Fn . Par dfinition de X, pour tout x > X ( ) on
a F ( x ) > . Si x est un point de continuit de F, ceci implique que Fn ( x ) > pour n
assez grand et, par suite, x X n ( ). Comme F est croissante, lensemble de ses points
de discontinuit est au plus dnombrable. On peut donc faire tendre x vers X ( ) le long
de points de continuit de F, et on tire lingalit X ( ) X n ( ) pour n assez grand. On
obtient le rsultat symtrique en raisonnant sur X et X n . Do :
quand k . De mme la suite Fn1 (q2 ) est borne, donc converge le long dune
k n
j
sous-suite Fn2 (q2 ) G (q2 ) quand k , etc... Alors, en posant k j := n j , on obtient
k
Il est clair que G est croissante sur Q et valeurs dans [0, 1]. On dfinit alors la fonction F
par
Dfinition B.26. Une suite ( Fn )n1 de fonctions de rpartition sur R est dite tendue si pour tout
> 0, il existe K > 0 tel que
Soit > 0. Daprs la continuit de en 0, il existe > 0 tel que |1 | < sur [, ]. Il
R 2 n (u) n (u) R+ et que cette proprit est hrite par la limite.
est clair que
Alors 0 0 [2 (u) (u)]du 2, et on dduit de la convergence de n vers et
du thorme de convergence domine qu partir dun certain rang n N :
1
Z
4 [2 n (u) n (u)]du
0
1
Z Z
= 1 eiut dFn (t)du
R
Z
1 sin (t)
Z Z
iut
= 1e dudFn (t) = 2 1 dFn (t)
R R t
par le thorme de Fubini. Comme sin x x pour tout x R, on dduit alors que pour
tout > 0, il existe > 0 :
sin (t)
Z Z
4 2 1 dFn (t) dFn (t),
|t|21 t |t|21
prouvant (B.12).
2- Comme ( Fn )n est tendue, on dduit du lemme B.27 que Fnk F en loi le long dune
204 ANNEXE B. THORIE DES PROBABILITS
Comme ( Fnk )k est tendue daprs ltape 1, on a Fnk j F en loi le long dune sous-suite
(nk j ) j , o F est une foncion de rpartition. Raisonnant comme dans ltape prcdente, on
voit que nk j F = = F , et on dduit que F = F par injectivit. Ainsi Fnk j F
en loi, contredisant (B.13).
B.5 Indpendance
B.5.1 algbres indpendantes
Soient (, A, P) un espace probabilis, et (An )n A une suite de algbres. On dit
que les (An )n sont indpendantes (sous P) si pour tous entiers n 1 et 1 i1 < . . . < in :
n
P [nk=1 Aik ] = P [ Ai ] k
pour tous Aik Aik , 1 k n. (B.14)
k =1
Remarquons que le thorme de convergence monotone permet daffirmer que (B.14) est
aussi valide pour n = , i.e.
P [k1 Aik ] = P [ Ai ] k
pour tous Aik Aik , k 1. (B.15)
k 1
A partir de cette dfinition gnrale pour les algbres, on tend lindpendance des
sous-familles arbitraires de A et aux v.a.
Dfinition B.29. On dit que les vnements ( An )n A sont indpendants si (( An ))n sont
indpendantes.
Dans la dfinition prcdente, il est inutile de vrifier (B.14) pour tous les choix pos-
sibles dans les algbres ( An ) = {, , An , Acn }. En effet, il suffit de vrifier que
n
P [nk=1 Aik ] = P [ Ai ] k
pour n 1 et 1 i1 < . . . < in .
k =1
Remarque B.34. Si X, Y sont deux v.a. rlles indpendantes, la proposition B.32 implique
que la fonction caractristique du couple se factorise comme :
Remarque B.35. Soient X, Y deux v.a. rlles indpendantes intgrables, alors daprs la
proposition B.32, on a
Si les ( Xn )n sont des v.a. indpendantes densit, alors on dduit de lassertion (a)
ci-dessus que le vecteur alatoire ( Xi1 , . . . , Xin ) est absolument continu par rapport la
mesure de Lebesgue sur Rn de densit
f ( Xi
1
,...,Xin ) ( x1 , . . . , xn ) := f Xi 1 ( x 1 ) . . . f Xi n ( x n ) . (B.16)
Rciproquement si le vecteur alatoire ( Xi1 , . . . , Xin ) est absolument continu par rapport
la mesure de Lebesgue sur Rn de densit sparable, comme dans (B.16) f (Xi ,...,Xin ) ( x1 , . . . , xn ) =
1
1 ( x1 ) . . . n ( xn ) alors, les v.a. Xik sont indpendantes densit f Xi = k .
k
206 ANNEXE B. THORIE DES PROBABILITS
Le rsultat suivant est assez frappant, et est une consquence du Lemme de Borel-
Cantelli.
Thorme B.37. (Loi du zro-un) Soient ( Xn )n1 une suite de v.a. indpendantes, et T :=
n ( Xm , m > n) la algbre de queue associe. Alors T est triviale, cest dire :
(i) Pour tout vnement A T , on a P[ A]P[ Ac ] = 0,
(ii) Toute v.a. T mesurable est dterministe p.s.
Dmonstration. (i) De indpendance des ( Xn )n , on dduit que pour tout n 1, les algbres
An := ( X1 , . . . , Xn ) et Tn := ( Xm , m > n) sont indpendantes. Comme T Tn , on voit
que An et T sont indpendantes, et par suite n An et T sont indpendantes. En obser-
vant que n An est un systme, on dduit du lemme B.30 que A := (n An ) et T
sont indpendants.
Or, T A , donc lindpendance entre T et A implique que T est indpendant de
lui mme, et pour tout A T , P[ A] = P[ A A] = P[ A]2 .
(ii) Soit une v.a. T mesurable. Pour tout x R, lvnement P[ x ] {0, 1} daprs
(i). Soit c := sup{ x : P[ x ] = 0}. Si c = , ou c = +, on voit immdiatement
que = c (dterministe), p.s. Si |c| < , la dfinition de c implique que P[ c ] =
P[ > c + ] = 0 pour tout > 0. Alors 1 E[1]c,c+] ( )] = P[c < c + ] = 1,
i.e. 1]c,c+] ( ) = 1 p.s. et on termine la preuve en envoyant vers 0.
Thorme B.38. (Loi forte des grands nombres) Soit ( Xn )n une suite de v.a. iid intgrables.
Alors
1 n
n i
Xi E[ X1 ] p.s.
=1
Pour lnonc suivant, on rappelle que lesprance dune v.a. positive est toujours
dfinie dans [0, ].
Corollaire B.39. Soit ( Xn )n une suite de v.a. iid valeurs dans [0, ]. Alors
1 n
n i
Xi E[ X1 ] p.s.
=1
1 n 1 n
n i (Xi K) E[X1 K] pour tout K p.s.
lim inf X i lim
n n n
=1 i =1
Enfin, si les v.a. iid sont de carr intgrable, le thorme central limite donne une in-
formation prcise sur le taux de convergence de la moyenne empirique vers lesprance,
ou la moyenne thorique.
Thorme B.40. Soit ( Xn )n une suite de v.a. iid de carr intgrable. Alors
!
1 n
n i
n X i E [ X1 ] N (0, V[ X1 ]) en loi,
=1
Dmonstration. On note Xi = Xi E[ X1 ] et Gn := n n1 in=1 Xi . En utilisant les proprits
de la fonction caractristique du lemme B.8, lindpendance des Xi , la remarque B.34 et
lidentit des distributions des Xi , on obtient :
n n
u
Gn (u) = n Xi (u) = Xi (u) = Xi .
i =1 n n n
i =1
Ceci est en effet rendu possible grce la structure despace de Hilbert de lespace quo-
tient L2 muni de la norme k.k2 .
Lemme B.41. Loprateur de projection orthogonale PF est bien dfini sur L2 (A, P), et vrifie
E[ X1 F ] = E[ PF ( X )1 F ] pour tout F F et X L2 (A, P).
De plus, on a les proprits suivantes :
(i) X 0 p.s. = PF ( X ) 0 p.s.
(ii) E [ PF ( X )] = E[ X ].
Dmonstration. On travaille avec lespace quotient L2 (A, P) identifiant ainsi les v.a. gales
p.s. La projection orthogonale PF est bien dfinie car le.v. L2 (A, P) et le s.e.v. L2 (F , P)
sont complets. Alors, on sait que pour tout X, il existe une (unique) v.a. Z := PF ( X )
L2 (F , P) vrifiant les conditions dorthogonalit
E[( X Z )Y ] = 0 pour tout Y L2 (F , P).
En particulier, pour tout F F , la v.a. Y = 1 F L2 (F , P) induit la condition dorthogo-
nalit E[ X1 F ] = E[ Z1 F ].
Supposons maintenant que X 0 p.s., notons Z := PF ( X ), et prenons F := { Z 0}
F . Alors 0 E[ X1 F ] = E[ Z1 F ] = E[ Z ] 0, et Z = 0 p.s. montrant la proprit (i).
Pour la proprit (ii), il suffit de remarquer que F = F du fait que F est une
algbre. Alors (i) donne le rsultat voulu.
B.6. ESPRANCE CONDITIONNELLE 209
Thorme B.42. Pour toute variable alatoire X L1 (A, P), il existe une variable alatoire Z
telle que
(a) Z est F mesurable,
(b) E[| Z |] < ,
(c) Pour tout vnement F F , on a E[ X1 F ] = E[ Z1 F ].
De plus, si Z est une autre variable alatoire vrifiant (a,b,c), alors Z = Z p.s.
Dfinition B.43. Une v.a. vrifiant les proprits (a)-(b)-(c) est appele version de lesprance conditionnelle
de X sachant F , note E[ X |F ], et est unique lgalit p.s. prs.
Z := lim n Zn .
La proprit suivante est trs utile, et est une consquence de la proprit des projec-
tions itres en algbre linaire.
Proposition B.45. (Projections itres) Pour X L1 (A, P) et F , G des sous-algbre de A :
F G = E E{ X |G}|F = E[ X |F ].
E[ XY |F ] = YE[ X |F ].
Les deux dernires proprits donnent des rsultats utiles sur lsprance condition-
nelle en prsence dindpendance.
Proposition B.47. Soient X L1 (A, P) et F , G des sous-algbres de A telles que G est
indpendante de (( X ), F ). Alors
E[ X |(F , G)] = E[ X |F ].
B.6. ESPRANCE CONDITIONNELLE 211
E[ g( X, Y )| X ] = G ( X ) o G ( x ) := E[ g( x, Y )] pour tout x Rn .
213
214 SUBJECT INDEX
[17] J. N EVEU Martingales temps discret, Masson et Cie, diteurs, Paris, 1972.
[18] J. R. N ORRIS Markov chains, Cambridge Series in Statistical and Probabilistic Ma-
thematics, vol. 2, Cambridge University Press, Cambridge, 1998, Reprint of 1997
original.
[19] J. G. P ROPP et D. B. W ILSON Exact sampling with coupled markov chains and
applications to statistical mechanics , Random structures and Algorithms 9 (1996),
no. 1-2, p. 223252.
[20] N. T OUZI Chanes de markov et martingales en temps discret, Cours de lcole Poly-
technique, 2012.
[21] W. W ERNER Percolation et modle dIsing, Cours Spcialiss [Specialized Courses],
vol. 16, Socit Mathmatique de France, Paris, 2009.
[22] D. W ILLIAMS Probability with martingales, Cambridge Mathematical Textbooks,
Cambridge University Press, Cambridge, 1991.
[23] G. W INKLER Image analysis, random fields and markov chain monte carlo methods : a
mathematical introduction, vol. 27, Springer Verlag, 2003.
Index
215
216 INDEX
Percolation, 99
Probabilit conditionnelle, 109, 113
Problme de Dirichlet, 27
Processus
adapt, 116
alatoire, 15, 115
arrt, 120
prvisible, 116, 119
Processus de branchement, 55
Programmation dynamique, 164, 165
Proprit de Markov, 15
Proprit de Markov forte, 21
Rcurrence alatoire, 16
Rcurrent
tat, 45, 47
nul, 45
positif, 45, 52
Rversibilit, 39
Ruine du joueur, 25