Vous êtes sur la page 1sur 216

PROMENADE ALATOIRE :

Chanes de Markov et martingales

Thierry Bodineau

cole Polytechnique Paris


Dpartement de Mathmatiques Appliques

thierry.bodineau@polytechnique.edu

Novembre 2013
2
Table des matires

I Chanes de Markov 9

1 De la marche alatoire aux jeux de cartes 11

2 Matrice de transition 17
2.1 Proprit de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Exemples de chanes de Markov . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 quation de Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1 Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Processus dcal en temps . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Temps darrt et proprit de Markov forte . . . . . . . . . . . . . . . . . . 22
2.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.1 quation de la chaleur ? . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.2 Ruine du joueur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.3 Mthode de Monte-Carlo pour un problme de Dirichlet . . . . . . 29

3 Mesures Invariantes 33
3.1 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Irrductibilit et unicit des mesures invariantes . . . . . . . . . . . . . . . 36
3.2.1 Irrductibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Unicit des mesures invariantes . . . . . . . . . . . . . . . . . . . . 37
3.2.3 Construction de la mesure invariante . . . . . . . . . . . . . . . . . 38
3.3 Rversibilit et Thorme H . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.1 Rversibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.2 Thorme H pour les chanes de Markov . . . . . . . . . . . . . . . 43
3.3.3 Application : modle dEhrenfest . . . . . . . . . . . . . . . . . . . . 44

4 Espaces dtats dnombrables 47


4.1 Chanes de Markov rcurrentes et transitoires . . . . . . . . . . . . . . . . . 47
4.2 Application : marches alatoires . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1 Marches alatoires symtriques sur Zd . . . . . . . . . . . . . . . . 50
4.2.2 Un critre analytique . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4 Application : branchement et graphes alatoires . . . . . . . . . . . . . . . 57
4.4.1 Arbres alatoires de Galton-Watson . . . . . . . . . . . . . . . . . . 58
4.4.2 Graphes alatoires dErds-Rnyi . . . . . . . . . . . . . . . . . . . 62

3
4 TABLE DES MATIRES

5 Ergodicit et convergence 67
5.1 Ergodicit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.1 Thorme ergodique . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.2 Application : algorithme PageRank de Google . . . . . . . . . . . . 71
5.2 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.1 Apriodicit et convergence . . . . . . . . . . . . . . . . . . . . . . . 73
5.2.2 Distance en variation et couplage . . . . . . . . . . . . . . . . . . . . 77
5.2.3 Vitesses de convergence . . . . . . . . . . . . . . . . . . . . . . . . . 83

6 Application aux algorithmes stochastiques 87


6.1 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2 Algorithmes stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.2.1 Algorithme de Metropolis-Hastings . . . . . . . . . . . . . . . . . . 89
6.2.2 Modle dIsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.3 Simulation parfaite : algorithme de Propp-Wilson . . . . . . . . . . . . . . 93
6.4 Algorithme de recuit simul ? . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.4.1 Problme du voyageur de commerce . . . . . . . . . . . . . . . . . 97
6.4.2 Traitement dimages . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

7 Application : la percolation ? 101


7.1 Description du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.2 Transition de phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.2.1 Absence de percolation pour p petit . . . . . . . . . . . . . . . . . . 103
7.2.2 Percolation pour p proche de 1 . . . . . . . . . . . . . . . . . . . . . 104
7.2.3 Point critique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2.4 Dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

II Martingales 109

8 Esprance conditionnelle 111


8.1 Esprance conditionnelle sur un espace dtats discret . . . . . . . . . . . . 111
8.2 Dfinition de lesprance conditionnelle . . . . . . . . . . . . . . . . . . . . 113
8.3 Proprits de lesprance conditionnelle . . . . . . . . . . . . . . . . . . . . 116
8.4 Processus alatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

9 Martingales en temps discret 119


9.1 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.2 Thorme darrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.3 Ingalits de martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
9.4 Dcomposition des surmartingales . . . . . . . . . . . . . . . . . . . . . . . 127

10 Convergence des martingales 129


10.1 Convergence des martingales dans L2 . . . . . . . . . . . . . . . . . . . . . 129
10.2 Application : loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . 131
10.3 Convergence des sous-martingales . . . . . . . . . . . . . . . . . . . . . . . 133
10.4 Application : modle de Wright-Fisher . . . . . . . . . . . . . . . . . . . . . 136
TABLE DES MATIRES 5

10.5 Martingales fermes ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138


10.6 Thorme central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.6.1 Thorme central limite pour les martingales . . . . . . . . . . . . . 140
10.6.2 Ingalit de Hoeffding . . . . . . . . . . . . . . . . . . . . . . . . . . 142
10.6.3 Thorme central limite pour les chanes de Markov . . . . . . . . 144

11 Applications des martingales 147


11.1 Mcanismes de renforcement . . . . . . . . . . . . . . . . . . . . . . . . . . 147
11.1.1 Urne de Polya . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
11.1.2 Graphes alatoires de Barabsi-Albert . . . . . . . . . . . . . . . . . 148
11.2 Lalgorithme de Robbins-Monro . . . . . . . . . . . . . . . . . . . . . . . . 151
11.3 Processus de Galton-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

12 Arrt optimal et contrle stochastique 157


12.1 Arrt optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
12.1.1 Enveloppe de Snell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
12.1.2 Le problme du parking . . . . . . . . . . . . . . . . . . . . . . . . . 160
12.1.3 Problme des secrtaires . . . . . . . . . . . . . . . . . . . . . . . . . 162
12.2 Contrle stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
12.2.1 quation de la programmation dynamique . . . . . . . . . . . . . . 165
12.2.2 Contrle des chanes de Markov . . . . . . . . . . . . . . . . . . . . 166

A Thorie de la mesure 169


A.1 Espaces mesurables et mesures . . . . . . . . . . . . . . . . . . . . . . . . . 169
A.1.1 Algbres, algbres . . . . . . . . . . . . . . . . . . . . . . . . . . 169
A.1.2 Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
A.1.3 Proprits lmentaires des mesures . . . . . . . . . . . . . . . . . . 171
A.2 Lintgrale de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
A.2.1 Fonction mesurable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
A.2.2 Intgration des fonctions positives . . . . . . . . . . . . . . . . . . . 174
A.2.3 Intgration des fonctions relles . . . . . . . . . . . . . . . . . . . . 176
A.2.4 De la convergence p.p. la convergence L1 . . . . . . . . . . . . . . 177
A.2.5 Intgrale de Lebesgue et intgrale de Riemann . . . . . . . . . . . . 178
A.3 Transformes de mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
A.3.1 Mesure image . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
A.3.2 Mesures dfinies par des densits . . . . . . . . . . . . . . . . . . . 179
A.4 Ingalits remarquables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
A.5 Espaces produits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
A.5.1 Construction et intgration . . . . . . . . . . . . . . . . . . . . . . . 181
A.5.2 Mesure image et changement de variable . . . . . . . . . . . . . . . 183
A.6 Complments au chapitre A . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
A.6.1 systme, dsystme et unicit des mesures . . . . . . . . . . . . 184
A.6.2 Mesure extrieure et extension des mesures . . . . . . . . . . . . . . 185
A.6.3 Dmonstration du thorme des classes monotones . . . . . . . . . 187
6 TABLE DES MATIRES

B Thorie des probabilits 189


B.1 Variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
B.1.1 algbre engendre par une v.a. . . . . . . . . . . . . . . . . . . . 189
B.1.2 Distribution dune variable alatoire . . . . . . . . . . . . . . . . . . 190
B.2 Esprance de variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . 191
B.2.1 Variables alatoires densit . . . . . . . . . . . . . . . . . . . . . . 191
B.2.2 Ingalit de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
B.2.3 Fonction caractristique . . . . . . . . . . . . . . . . . . . . . . . . . 193
B.3 Espaces L p et convergences
fonctionnelles des variables alatoires . . . . . . . . . . . . . . . . . . . . . 194
B.3.1 Gomtrie de lespace L2 . . . . . . . . . . . . . . . . . . . . . . . . 194
B.3.2 Espaces L p et L p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
B.3.3 Espaces L0 et L0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
B.3.4 Lien entre les convergences L p , en proba et p.s. . . . . . . . . . . . 197
B.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
B.4.1 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
B.4.2 Caractrisation de la convergence en loi par les fonctions de rpar-
tition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
B.4.3 Convergence des fonctions de rpartition . . . . . . . . . . . . . . . 202
B.4.4 Convergence en loi et fonctions caractristiques . . . . . . . . . . . 203
B.5 Indpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
B.5.1 algbres indpendantes . . . . . . . . . . . . . . . . . . . . . . . 204
B.5.2 Variables alatoires indpendantes . . . . . . . . . . . . . . . . . . . 205
B.5.3 Asymptotique des suites dvnements indpendants . . . . . . . . 206
B.5.4 Moyennes de variables indpendantes . . . . . . . . . . . . . . . . . 207
B.6 Esprance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
B.6.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
B.6.2 Proprits de lesprance conditionnelle . . . . . . . . . . . . . . . . 209
Lala joue un rle dterminant dans des contextes varis et il est souvent ncessaire
de le prendre en compte dans de multiples aspects des sciences de lingnieur, citons
notamment les tlcommunications, la reconnaissance de formes ou ladministration des
rseaux. Plus gnralement, lala intervient aussi en conomie (gestion du risque), en
mdecine (propagation dune pidmie), en biologie (volution dune population) ou en
physique statistique (thorie des transitions de phases). Dans les applications, les don-
nes observes au cours du temps sont souvent modlises par des variables alatoires
corrles dont on aimerait prdire le comportement. Lobjet de ce cours est de formaliser
ces notions en tudiant deux types de processus alatoires fondamentaux en thorie des
probabilits : les chanes de Markov et les martingales. Ces notes sont inspires du cours
de Nizar Touzi [20] qui a assur cet enseignement entre 2008 et 2012.

En 1913, A. Markov posait les fondements dune thorie qui a permis dtendre les
lois des probabilits des variables alatoires indpendantes un cadre plus gnral sus-
ceptible de prendre en compte des corrlations. La premire partie de ce cours dcrit la
thorie des chanes de Markov et certaines de leurs applications. Le parti pris de ce cours
est de considrer le cadre mathmatique le plus simple possible en se focalisant sur des
espaces dtats finis, voire dnombrables, pour viter le recours la thorie de la mesure.
Le comportement asymptotique des chanes de Markov peut tre classifi et prdit.
Nous verrons que la structure de ces processus alatoires corrls est encode dans une
mesure invariante qui permet de rendre compte des proprits ergodiques, gnralisant
ainsi les suites de variables alatoires indpendantes. La convergence des chanes de Mar-
kov vers leurs mesures invariantes constitue un aspect fondamental de la thorie des
probabilits, mais elle joue aussi un rle clef dans les applications.
Plusieurs exemples seront dcrits pour illustrer le rle majeur des chanes de Markov
dans diffrents domaines de lingnierie comme les problmes numriques (mthodes
de Dirichlet, optimisation), la reconnaissance de formes ou lalgorithme PageRank de
Google. Des exemples issus de la physique statistique (irrversibilit en thorie cintique
des gaz, transitions de phases) ou de la dynamique des populations (arbres de Galton
Watson) permettront aussi clairer certains aspects des chanes de Markov. Dautres ap-
plications des chanes de Markov sont prsentes dans le livre de M. Benaim et N. El Ka-
roui [4] et dans celui de J.F. Delmas et B. Jourdain [8]. Louvrage de J. Norris [18] constitue
aussi une excellente rfrence sur la thorie des chanes de Markov.

La seconde partie de ce cours porte sur la thorie des martingales qui permet dtu-
dier dautres structures de dpendance que celles dfinies par les chanes de Markov.
Les martingales sont communment associes aux jeux de hasard et nous verrons com-
ment des stratgies optimales peuvent tre dfinies laide de martingales et de temps
darrt. Les martingales forment une classe de processus alatoires aux proprits trs

7
8 TABLE DES MATIRES

intressantes. En particulier, les fluctuations de ces processus peuvent tre contrles et


leur convergence facilement analyse. Les martingales permettent aussi dtudier des
mcanismes de renforcement pour mieux comprendre des comportements collectifs, des
algorithmes stochastiques ou des phnomnes issus de lcologie comme la drive gn-
tique.
Dautres aspects de la thorie des martingales figurent dans les livres de J. Neveu [17]
et D. Williams [22]. Louvrage de M. Duflo [9] propose de nombreux dveloppements sur
les applications des martingales aux algorithmes stochastiques.

Des complments sur la thorie de la mesure et des probabilits crits par Nizar Touzi
[20] figurent en annexe. Ces deux chapitres dveloppent dans un cadre thorique les
concepts abords dans le cours de premire anne [16]. Ils permettront dapprofondir
certaines notions fondamentales de la thorie des probabilits et pourront servir de rf-
rence. Sur la page web du cours de MAP 432 figurent des programmes en scilab raliss
par Florent Benaych-Georges pour illustrer certaines applications.

Je souhaite exprimer toute ma reconnaissance Nizar Touzi pour mavoir permis


de reprendre des lments de son cours [20] et en particulier lannexe. Je tiens aussi
remercier chaleureusement Stphanie Allassonnire, Djalil Chafai, Jean-Franois Delmas,
Laurent Denis, Lucas Grin, Arnaud Guillin, Carl Graham et Marc Hoffmann qui mont
aid dans la rdaction de ce cours par leurs prcieux conseils et leur relecture attentive.
Premire partie

Chanes de Markov

9
Chapitre 1

De la marche alatoire aux jeux de


cartes

La loi des grands nombres et le thorme central limite sont deux thormes clef de
la thorie des probabilits. Ils montrent que la limite dune somme de variables ala-
toires indpendantes obit des lois simples qui permettent de prdire le comportement
asymptotique. Prenons lexemple classique dune marche alatoire symtrique (cf. figure
1.1)
n
X0 = 0 et pour n > 1, Xn = i (1.1)
i =1

o les { i }i > 1 sont des variables indpendantes et identiquement distribues

i > 1, P( i = 1) = P( i = 1) = 1/2.

La loi des grands nombres implique la convergence presque sre

1
lim Xn = E( 1 ) = 0 p.s. (1.2)
n n
et le thorme central limite assure la convergence en loi vers une gaussienne de moyenne
nulle et de variance 1 que lon notera

1 (loi )
Xn . (1.3)
n n

Pour de nombreuses applications, il est ncessaire dajouter des corrlations entre ces
variables et denrichir ce formalisme au cas de processus alatoires qui ne sont pas une
simple somme de variables indpendantes. Par exemple, on voudrait dcrire un mobile
soumis une force alatoire et une force de rappel qui le maintient prs de lorigine
(comme un atome qui vibre autour de sa position dquilibre dans un cristal ou le prix
dune matire premire soumise la loi de loffre et de la demande) et reprsenter sa
position au cours du temps par Yn . Une faon simple de prendre en compte une force de
rappel est de construire rcursivement une suite alatoire

Y0 = 0 et n > 1, Yn = Yn1 + signe(Yn1 ) n , (1.4)

11
12 CHAPITRE 1. DE LA MARCHE ALATOIRE AUX JEUX DE CARTES

20

15
50
10

2000 4000 6000 8000 10 000 2000 4000 6000 8000 10 000

-5

-10
-50

-15

F IGURE 1.1 gauche, une ralisation de la marche alatoire symtrique n Xn reprsente


aprs 10000 pas. droite, une ralisation de la trajectoire n Yn reprsente aprs 10000 pas
pour p = 0.45.

o les { i }i > 1 sont maintenant des variables indpendantes de Bernoulli de paramtre


p [0, 1/2]
i > 1, P( i = 1) = P( i = 1) = p .
Dans (1.4), le signe de y est not signe(y) {1} et pour viter toute ambigut, le signe
de 0 sera pris gal 1. Si p = 1/2, Yn est gal en loi Xn . Par contre si p < 1/2, le biais
alatoire dpend du signe de Yn et il a tendance ramener Yn vers 0 car E( 1 ) < 0. On
voit sur la figure 1.1 que lamplitude et la structure des processus { Xn } et {Yn } est trs
diffrente. Mme pour un biais petit p = 0.45, la trajectoire n Yn reste localise autour
de 0. Un des enjeux de ce cours sera de dcrire le comportement asymptotique de Yn .
Pour le moment, essayons de deviner ce comportement limite. La figure 1.2 montre une
trajectoire de Yn dix fois plus longue que celle de la figure 1.1 et on constate que lampli-
tude de cette trajectoire reste sensiblement
inchange. Ceci contraste avec lamplitude de
la marche alatoire qui crot comme n par le thorme central limite. Lhistogramme de
la figure 1.2 reprsente la frquence des passages de la trajectoire en un site, i.e. la mesure
n dfinie par
1 n
y Z, n (y) = 1{Yk =y} .
n k =1
On montrera que n converge vers une mesure limite qui encode le comportement
asymptotique de Yn

1 n
y Z, lim
n n
1{Yk =y} = (y) p.s.
k =1

Cette convergence peut sinterprter comme un analogue de la loi des grands nombres.
Ceci pose plusieurs questions auxquelles nous essayerons de rpondre dans ce cours
Peut on dcrire la mesure ?
Quel est le temps ncessaire pour que n soit proche de ?

Le processus {Yn }n > 0 en (1.4) a t obtenu par une rcurrence alatoire Yn+1 = f (Yn , n+1 )
pour une fonction f bien choisie. Sous cette forme, la structure additive de la marche ala-
toire Xn a disparu et on peut ainsi envisager de construire des processus valeurs dans
un espace gnral. Par exemple, on peut dfinir une marche alatoire sur le graphe G de
13

20 10 000

8000
10

6000

20 000 40 000 60 000 80 000 100 000


4000

-10 2000

-30 -20 -10 0 10 20 30 40

F IGURE 1.2 gauche, une ralisation de la trajectoire n Yn est reprsente aprs 100000 pas.
droite, lhistogramme correspondant au nombre de passages par chaque site pour la trajectoire.

la figure 1.3 : le marcheur part dun site donn et volue chaque pas de temps en sautant
uniformment sur un des voisins du site occup.

F IGURE 1.3 Un graphe alatoire (de Barabsi-Albert) avec 50 sites.

Pour construire la rcurrence alatoire correspondante, on note V ( x ) lensemble des


voisins dun site x de G , i.e. les sites relis x par une arte. On dcrit maintenant une
procdure pour choisir uniformment un des voisins laide dune variable alatoire
uniforme sur [0, 1]. On note deg( x ) le degr de x, i.e. le cardinal de lensemble V ( x ) (qui
peut varier en fonction du site x). On numrote (une fois pour toute) par un indice entre
0 et deg( x ) 1 chaque arte entre x et ses voisins. Pour tout x G et u [0, 1], on
dfinit f ( x, u) comme le voisin de x dont larte a le numro ddeg( x )ue, o de repr-
sente la partie entire (cette procdure est identique celle dcrite dans la remarque 1.1).
On a ainsi une construction explicite dune marche alatoire {Yn }n > 0 sur le graphe G
en gnrant lala partir dune suite { n }n > 1 de variables alatoires indpendantes et
uniformment distribues sur [0, 1]

Y0 = 0 et n > 1, Yn+1 = f (Yn , n+1 ) .

La marche tant construite, on voudrait comprendre son comportement asymptotique :


aprs un temps trs long, quelle est la probabilit que la marche soit sur un site donn ?
On verra entre autres que cette probabilit est proportionnelle au degr de chaque site.
14 CHAPITRE 1. DE LA MARCHE ALATOIRE AUX JEUX DE CARTES

Remarque 1.1. Pour simuler une variable alatoire Z prenant uniformment les valeurs {1, 2, . . . , k },
on subdivise [0, 1] en intervalles de longueur 1/k numrots de 1 k. On choisit ensuite au hasard
une variable U uniformment sur [0, 1] et on attribue Z le numro de lintervalle contenant U.
Si la variable Z nest pas uniformment distribue P( Z = i ) = pi , il suffit de subdiviser [0, 1]
en k intervalles de longueurs { pi }i 6 k pour retrouver le biais dans les probabilits par la mme
procdure.

1/4 1/4 1/4 1/4 p1 p2 p3 p4

F IGURE 1.4 Deux subdivisions de lintervalle [0, 1].

Le modle peut encore tre enrichi en orientant les artes du graphe (cf. figure 1.5) et
en autorisant seulement les transitions selon les artes orientes. La probabilit de chaque
saut peut aussi tre pondre selon les voisins, par exemple sur le graphe de la figure 1.5 :
la marche peut passer du site 1 au site 2 avec la probabilit P(1, 2) = 1/2, au site 3 avec
la probabilit P(1, 3) = 1/4 et rester sur place avec la probabilit P(1, 1) = 1/4. La seule
contrainte tant dajuster la somme des probabilits 1.

1/2

1/4 1 2 3/4
1/4

1
1/4
3

F IGURE 1.5 Un graphe orient avec 3 sites.

Lessentiel des exemples concrets que nous allons rencontrer dans ce cours peuvent
se formaliser comme une marche alatoire sur un graphe orient avec des probabilits de
transition associes chaque lien. Parmi les exemples de marche alatoire sur un graphe
traits dans ce cours, nous voquerons les robots dindexation qui parcourent le World
Wide Web pour collecter les donnes et indexer des pages Web. Certains graphes peuvent
tre compliqus et il est important de dvelopper une thorie gnrale pour apprhender
cette complexit.
Terminons ce tour dhorizon sur les chanes de Markov par le mlange de cartes.
On reprsente un jeu de 52 cartes en numrotant leurs positions dans le paquet de 1
K = 52. Mlanger les cartes revient appliquer des permutations successives sur leurs
positions. Mathmatiquement, cette procdure nest rien dautre quune marche alatoire
sur le groupe symtrique SK des permutations sur {1, 2, . . . , K }. Initialement les cartes
sont ranges dans lordre et ltat de dpart est la permutation identit Id = {1, 2, . . . , K }.
tant donn une mesure de rfrence, on choisit au hasard une permutation 1 sous
et le jeu de carte est rordonn en 1 = 1 Id. Pour battre les cartes, on itre plusieurs
15

fois cette opration en tirant au hasard des permutations 1 , 2 , . . . , n et en les composant


n 2 1 . On peut imaginer diffrentes rgles pour mlanger le cartes et choisir les
permutation k . Par exemple, permuter chaque fois deux cartes choisies alatoirement
ou pour un modle plus raliste (mais mathmatiquement plus compliqu) couper le jeu
en 2 paquets et insrer lun dans lautre (riffle shuffle). On a ainsi construit une rcurrence
alatoire sur le groupe symtrique SK .
Si on mlange suffisamment longtemps le paquet, on sattend ce que les positions
des cartes soient rparties uniformment parmi les 52! choix possibles. Pour le joueur de
poker, le comportement asymptotique ne sert rien. La vritable question est de savoir
combien de fois il faut mlanger le jeu de cartes ? En termes mathmatiques, on veut va-
luer la vitesse de convergence vers un tat dquilibre. Cette question est dterminante
pour de nombreuses applications. Si on souhaite raliser une simulation numrique par
un algorithme stochastique, il faut pouvoir prdire quel moment la simulation peut
tre arrte. Dans ce cours, des critres thoriques sur les vitesses de convergence seront
prsents.

Les modles dcrits prcdemment sont tous des chanes de Markov et peuvent tre
traits dans un formalisme unifi qui sera dcrit dans les chapitres suivants.
16 CHAPITRE 1. DE LA MARCHE ALATOIRE AUX JEUX DE CARTES
Chapitre 2

Matrice de transition

Dans ce chapitre, nous allons dfinir les chanes de Markov et prsenter leurs pre-
mires proprits.

2.1 Proprit de Markov


Une suite de variables alatoires { Xn }n > 0 prenant ses valeurs dans un ensemble E est
appele un processus alatoire discret avec espace dtats E. Dans ce cours, on ne considrera
que des espaces dtats E finis ou dnombrables.
Le point commun des exemples de processus alatoires discrets prsents au chapitre
1 est la proprit de Markov : la dpendance du processus au temps n + 1 par rapport
son pass se rsume la connaissance de ltat Xn . On peut le formaliser ainsi

Dfinition 2.1 (Proprit de Markov). Soit { Xn }n > 0 un processus alatoire discret sur un es-
pace dtats dnombrable E. Le processus satisfait la proprit de Markov si pour toute collection
dtats { x0 , x1 , . . . , xn , y} de E

P X n + 1 = y X0 = x 0 , X1 = x 1 , . . . , X n = x n = P X n + 1 = y X n = x n
 
(2.1)

ds que les deux probabilits conditionnelles ci-dessus sont bien dfinies. Le processus { Xn }n > 0
sera alors appel une chane de Markov. Si le membre de droite de (2.1) ne dpend pas de n, on
dira que la chane de Markov est homogne.

Les conditionnements dans (2.1) sinterprtent comme des probabilits condition-


P( A B )
nelles dvnements P( A | B) = P( B) . Dans ce cours, on ne considrera que des chanes
de Markov homognes. La distribution dune chane de Markov homogne peut donc
tre encode simplement par une matrice de transition P = { P( x, y)} x,yE . La matrice de
transition dcrit la probabilit de passer de x y

P( x, y) = P Xn+1 = y Xn = x

x, y E, (2.2)

et elle satisfait

x, y E, P( x, y) > 0 et x E, P(x, y) = 1.
y E

17
18 CHAPITRE 2. MATRICE DE TRANSITION

Comme la chane est homogne les transitions ne dpendent pas du temps et la relation
(2.2) est valable pour tout n.

Montrons maintenant que les processus dfinis au chapitre 1 vrifient la proprit de


Markov.

Thorme 2.2 (Rcurrence alatoire). Soit { n }n > 1 une suite de variables alatoires indpen-
dantes et identiquement distribues sur un espace F. Soit E un espace dtats dnombrable et f
une fonction de E F dans E. On considre aussi X0 une variable alatoire valeurs dans E
indpendante de la suite { n }n > 1 .
La rcurrence alatoire { Xn }n > 0

n > 1, X n +1 = f ( X n , n +1 )

est une chane de Markov.

Dmonstration. Nous allons tablir la proprit de Markov (2.1)

P ( f ( Xn , n+1 ) = y, X0 = x0 , . . . , Xn = xn )
P X n + 1 = y X0 = x 0 , . . . , X n = x n =

P ( X0 = x 0 , . . . , X n = x n )
P ( f ( xn , n+1 ) = y, X0 = x0 , X1 = x1 , . . . , Xn = xn )
= .
P ( X0 = x 0 , X1 = x 1 , . . . , X n = x n )

Lvnement { X0 = x0 , X1 = x1 . . . , Xn = xn } ne dpend que des variables { X0 , 1 , . . . , n }


qui sont indpendantes de lvnement { f ( xn , n+1 ) = y}. Par consquent le numrateur
est le produit de la probabilit de ces deux vnements indpendants et on a

P X n + 1 = y X0 = x 0 , . . . , X n = x n = P ( f ( x n , n + 1 ) = y ) = P X n + 1 = y X n = x n .
 

On en dduit aussi que la matrice de transition scrit

x, y E, P( x, y) = P ( f ( x, 1 ) = y) .

Inversement toute matrice de transition P indexe par N, on peut associer une


chane de Markov en construisant une rcurrence alatoire. tant donn un tat Xn = x
de N, on choisit au hasard une variable alatoire n+1 uniforme sur [0, 1] et on attribue
Xn+1 la valeur
y 1 y
X n +1 = y si n+1 [ P( x, k ), P( x, k )]
k =0 k =0

avec la convention P( x, 1) = 0. La mme procdure sapplique pour une matrice de


transition sur un espace E dnombrable.
2.2. EXEMPLES DE CHANES DE MARKOV 19

2.2 Exemples de chanes de Markov


Chane de Markov 3 tats.
On considre une chane de Markov 3 tats, nots E = {1, 2, 3}, dont le graphe de
transition est reprsent figure 2.1. Sa matrice de transition P = { P(i, j)} est donne par

1/4 1/2 1/4
P = 1/4 3/4 0 . (2.3)
0 1 0

1/2

1/4 1 2 3/4
1/4

1
1/4
3

F IGURE 2.1 Un graphe de transitions 3 tats.

Marche alatoire.
Une marche alatoire sur Z de probabilits de saut p, q = 1 p sur les plus proches
voisins aura pour matrice de transition

p,
si y = x + 1
x, y Z, P( x, y) = q, si y = x 1

0, sinon

La matrice de transition est cette fois indexe par Z Z (mais la majorit de ses coeffi-
cients sont nuls).
On peut aussi considrer la marche alatoire dans un domaine fini {1, . . . , L} par
exemple en supposant que le domaine est priodique. Dans ce cas si la marche alatoire
est en L, elle sautera en 1 avec probabilit p et rciproquement elle sautera de 1 L avec
probabilit q. La matrice de transition P sera une matrice L L

0 p 0 ... 0 0 q

q 0 p ... 0 0 0
P=
.. .. .. .. .. .. .. . (2.4)
. . . . . . .
0 0 0 ... q 0 p
p 0 0 ... 0 q 0
20 CHAPITRE 2. MATRICE DE TRANSITION

File dattente.
Les files dattente interviennent dans des contextes varis : au Magnan, pour grer des
avions au dcollage, pour le stockage de requtes informatiques avant leur traitement,
etc. Le modle le plus simple consister supposer que n clients arrivent dans la file au
temps n. On choisit les variables n indpendantes et identiquement distribues valeurs
dans N. Le serveur sert exactement 1 client chaque pas de temps si la file nest pas vide.
Le nombre de clients Xn dans la file au temps n vrifie donc

X n = ( X n 1 1 ) + + n .

Le processus { Xn }n > 0 est une rcurrence alatoire sur N et donc une chane de Markov.
Sa matrice de transition est donne pour tous x, y dans N par

P( x, y) = P 1 = y ( x 1)+ .


2.3 quation de Chapman-Kolmogorov


Soit { Xn }n > 0 une chane de Markov homogne sur E dont la donne initiale X0 est
choisie alatoirement sur E selon la mesure 0 qui attribue les probabilits {0 ( x )} xE
aux lments de E. Aprs n pas de temps, Xn sera distribue selon une mesure que lon
notera n . Lquation de Chapman-Kolmogorov dcrit lvolution de la distribution n
au cours du temps laide de la matrice de transition P.

2.3.1 Chapman-Kolmogorov
Soit h une fonction de E dans R. On dfinit

x E, Ph( x ) = P(x, y)h(y). (2.5)


y E

Si E est fini, il sagit simplement du produit droite P h entre la matrice P et h =


{h( x )} xE vu comme un vecteur dont les coordonnes sont dans R. Soit = {( x )} xE
une mesure de probabilit sur E, on dfinit le produit

y E, P(y) = (x) P(x, y). (2.6)


xE

Si E est fini, il sagit du produit gauche P entre un vecteur transpos et une ma-
trice. Par convention, on omet le symbole transpos dans (2.6). Pour n > 1, le produit
matriciel Pn scrit

x, y E, Pn+1 ( x, y) = P Pn ( x, y) = P(x, z) Pn (z, y) = Pn (x, z) P(z, y) (2.7)


z E z E

avec la convention P1 = P.

Thorme 2.3. Soit { Xn }n > 0 une chane de Markov sur E de matrice de transition P dont la
donne initiale X0 est distribue selon la loi 0 . Alors

P X0 = x 0 , X1 = x 1 , . . . , X n = x n = 0 ( x 0 ) P ( x 0 , x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , x n ) .

(2.8)
2.3. QUATION DE CHAPMAN-KOLMOGOROV 21

La loi n de Xn est dtermine par lquation de Chapman-Kolmogorov

x E, n ( x ) = n 1 P ( x ) = 0 P n ( x ). (2.9)

On a aussi
P Xn = y X0 = x = Pn ( x, y).

x, y E, (2.10)
Pour toute fonction borne h de E dans R, lesprance de h( Xn ) scrit

E h ( X n ) X0 = x = P n h ( x ) .

(2.11)

On interprte lquation de Chapman-Kolmogorov en disant que la probabilit dob-


server Xn en y est la somme des probabilits de toutes les trajectoires possibles de la
chane de Markov partant de x0 et arrivant en y au temps n

y E, n (y) = 0 ( x 0 ) P ( x 0 , x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , y ).
{ x0 ,x1 ,...,xn1 } En

Dmonstration. Pour prouver (2.8), on procde par des conditionnements successifs et on


applique la proprit de Markov (2.1) chaque tape pour retrouver les probabilits de
transition (2.2)

P X0 = x 0 , . . . , X n = x n


= P X0 = x 0 , . . . , X n 1 = x n 1 P X n = x n X0 = x 0 , . . . , X n 1 = x n 1
 

= P X0 = x 0 , . . . , X n 1 = x n 1 P ( x n 1 , x n ) = 0 ( x 0 ) P ( x 0 , x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , x n ) .


la dernire tape, nous avons utilis que X0 est distribue selon 0 .


Pour obtenir la loi de Xn , on crit que Xn1 peut prendre toutes les valeurs possibles

n (y) = P Xn = y = P Xn1 = x, Xn = y = P Xn1 = x P Xn = y Xn1 = x


   
xE xE
= n1 (x) P(x, y) = n1 P(y) = 0 P n
(y)
xE

o la dernire relation sobtient par rcurrence. Lidentit (2.10) nest quun cas particulier
de lquation de Chapman-Kolmogorov (2.9) pour une mesure initiale 0 = x concentre
en x. Finalement lesprance de h( Xn ) peut se dcomposer laide de (2.10)

E h( Xn ) X0 = x0 = h(y)P Xn = y X0 = x = Pn ( x, y)h(y) = Pn h( x ).
 
y y

Reprenons lexemple de la chane 3 tats dont la matrice de transition est donne


par (2.3). Les probabilits de transition aprs 2 pas de temps sont obtenues par produit
matriciel P( X2 = y| X0 = x ) = P2 ( x, y)

1/16 1/4 1/16
P2 = 1/16 9/16 0 .
0 1 0
22 CHAPITRE 2. MATRICE DE TRANSITION

Exercice 2.4. Soit { Xn }n > 0 une chane de Markov valeurs dans E de matrice de transition P.
Montrer que Yn = X3n est une chane de Markov de matrice de transition P3 .

Notation.
On utilisera labrviation suivante pour dcrire lesprance dune chane de Markov
partant dun site x de E
E x h ( X n ) = E h ( X n ) X0 = x : = h ( y ) P X n = y X0 = x .
  
y E

Si X0 est initialement distribu sous une mesure 0 , on notera


E0 h ( Xn ) = 0 P n h =

0 ( x 0 ) P ( x 0 , x 1 ) . . . P ( x n 1 , x n ) h ( x n ).
{ x0 ,x1 ,...,xn } En+1

2.3.2 Processus dcal en temps


La proprit de Markov se gnralise pour toute collection dtats { x0 , . . . , xn , y1 , . . . , yK }
de E
P X n + 1 = y 1 , . . . , X n + K = y K X0 = x 0 , . . . , X n = x n = P X1 = y 1 , . . . , X K = y K X0 = x n .
 

(2.12)
Ceci sinterprte en disant que conditionnellement { Xn = xn }, le processus dcal en
temps { Xn+k }k > 0 est une chane de Markov de matrice de transition P partant de xn au
temps 0 et indpendante du pass. On prouve le rsultat en utilisant le thorme 2.3
P X n + 1 = y 1 , . . . , X n + K = y K X0 = x 0 , . . . , X n = x n


P ( X0 = x 0 , . . . , X n = x n , X n + 1 = y 1 , . . . , X n + K = y K )
=
P ( X0 = x 0 , . . . , X n = x n )
= P ( x n , y 1 ) P ( y 1 , y 2 ) . . . P ( y K 1 , y K )
= P X1 = y 1 , . . . , X K = y K X0 = x n


o on a utilis la relation (2.8) pour obtenir la troisime galit.


La proprit de Markov forte, tablie dans la section suivante, gnralise ce rsultat.

2.4 Temps darrt et proprit de Markov forte


Un temps darrt T associ un processus alatoire discret { Xn }n > 0 est une variable
alatoire valeurs dans N {} telle que pour tout n > 0, lvnement { T = n} est
entirement dtermin par les variables { X0 , . . . , Xn }, cest dire que pour tout n il existe
une fonction n : En+1 R telle que
1 { T = n } = n ( X0 , . . . , X n ) .
Un temps darrt trs souvent utilis est le premier temps datteinte dun sous en-
semble A E par le processus { Xn }n > 0

TA = inf n > 0; Xn A .
2.4. TEMPS DARRT ET PROPRIT DE MARKOV FORTE 23

On a alors
1{TA =n} = 1{X0 6 A,..., Xn1 6 A, Xn A} .
Un temps darrt permet de stopper un processus { Xn }n > 0 un temps n unique-
ment en fonction du pass et du prsent, il ne doit pas contenir dinformation sur ce qui
se passe au-del du temps n. Par exemple, on peut chercher le meilleur moment pour
convertir une devise sur le march des changes. Le moment optimal sera choisi par rap-
port la connaissance du pass et du prsent, mais, moins de dlit diniti, la dcision
ne pourra pas tre influence par le futur. Les temps darrt jouent un rle privilgi dans
la thorie des processus alatoires et nous les retrouverons tout au long de ce cours. En
particulier, nous en donnerons une dfinition plus formelle page 118.

Exercice 2.5. Si T est un temps darrt, T + 1 et sup{ T 1, 0} sont-ils des temps darrt ?

Une consquence importante de la proprit de Markov est que le processus dcal


en temps { Xn+k }k > 0 demeure, conditionnellement { Xn = x }, une chane de Markov
de matrice de transition P partant de x au temps 0. Cette proprit reste valable pour des
dcalages en temps par des temps darrt.

XT

F IGURE 2.2 La trajectoire dune marche alatoire partant de lorigine est reprsente. La marche
atteint la frontire de la boule B pour la premire fois au temps T. Conditionnellement au point
dimpact XT , la seconde partie de la trajectoire est indpendante de la premire.

La proprit de Markov forte snonce ainsi


Thorme 2.6 (Proprit de Markov forte). Soit { Xn }n > 0 une chane de Markov de matrice
de transition P et de loi initiale 0 . On considre T un temps darrt pour cette chane de Markov.
Conditionnellement { T < } et XT = x, alors le processus dcal en temps { XT +k }k > 0 est
une chane de Markov de matrice de transition P partant initialement de x et elle est indpendante
de { X0 , X1 , . . . , XT }.
Dmonstration. Soit B un vnement dpendant uniquement de { X0 , X1 , . . . , XT }. Alors
pour tout entier `, lvnement B { T = `} est dtermin par { X0 , X1 , . . . , X` }. On peut
donc crire pour tout k > 0
P0 { XT = x0 , XT +1 = x1 , . . . , XT +k = xk } B { T = `} { XT = x }


= P0 { X` = x0 , X`+1 = x1 , . . . , X`+k = xk } B { T = `} { X` = x }


= Px { X0 = x0 , X1 = x1 , . . . , Xk = xk } P0 B { T = `} { X` = x }
 
24 CHAPITRE 2. MATRICE DE TRANSITION

o la dernire galit est une consquence de la proprit de Markov (2.12) au temps `. Il


suffit de sommer ces quations pour toutes les valeurs de ` et on obtient

P0 { X T = x 0 , X T +1 = x 1 , . . . , X T + k = x k } B { X T = x } { T < }


= P x { X0 = x 0 , X1 = x 1 , . . . , X k = x k } P 0 B { X T = x } { T < } .
 

Ce qui conclut le thorme

P0 { X T = x 0 , X T +1 = x 1 , . . . , X T + k = x k } B { X T = x } { T < }


= P x { X0 = x 0 , X1 = x 1 , . . . , X k = x k } P 0 B { X T = x } { T < } .
 

La proprit de Markov forte sera utilise plusieurs reprises dans la suite du cours.

2.5 Applications
Cette section regroupe trois applications de la proprit de Markov. La premire met
en vidence les liens entre la densit dune marche alatoire et lquation de la chaleur
en utilisant simplement lquation de Chapman-Kolmogorov. Limportance des temps
darrt est ensuite illustre dans les deux applications suivantes.

2.5.1 quation de la chaleur ?


On considre la marche alatoire symtrique { Xn }n > 0 sur lintervalle {1, . . . , L} avec
conditions priodiques dont la matrice de transition a t dfinie en (2.4) (en choisissant
p = q = 1/2). Lquation de Chapman-Kolmogorov de la distribution au temps n + 1
scrit

x {1, . . . , L}, (2.13)


1 1
n+1 ( x ) = N ( x + 1) P( x + 1, x ) + N ( x 1) P( x 1, x ) = N ( x + 1) + N ( x 1)
2 2
o on identifie L + 1 avec le site 1 et 0 avec le site L. Cette quation dit simplement que
pour tre en x au temps n + 1, la marche devait se trouver en x 1 ou x + 1 au temps
prcdent. On peut ainsi dterminer compltement n au cours du temps. Pour ceci, nous
allons tudier des donnes initiales de la forme
K    !
1 2 2
x {1, . . . , L}, 0 ( x ) = 1 + ak cos kx + bk sin kx (2.14)
L k =1
L L

avec K {1, . . . , L} et o les coefficients ak , bk vrifient


( )
K
inf
r [0,1]
ak cos (2kr) + bk sin (2kr) > 1 (2.15)
k =1

(cette dernire condition sert juste assurer que la probabilit 0 ne prend pas des valeurs
ngatives). Si tous les ak , bk sont nuls, la donne initiale est uniformment distribue sur
2.5. APPLICATIONS 25

{1, . . . , L}. Les coefficients ak , bk sont simplement les coefficients de la transforme de


Fourier (discrte) de 0 et par consquent toute mesure initiale peut tre dcompose
sous la forme (2.14).
En utilisant les identits

cos( a + b) + cos( a b) = 2 cos(b) cos( a) et sin( a + b) + sin( a b) = 2 cos(b) sin( a)

on voit que

K  n     !
1 2 2 2
n ( x ) =
L
1+ cos
L
k ak cos
L
kx + bk sin
L
kx (2.16)
k =1

est bien la solution de la rcurrence (2.14) avec donne initiale 0 .

Nous allons appliquer ce rsultat pour tudier le comportement dune particule mar-
que dans une solution. Le marquage de particules est souvent utilis pour suivre les
dplacements de matires dans une raction chimique. Pour modliser le dplacement
dun marqueur plac dans une solution, nous allons supposer que le marqueur est dis-
tribu initialement dans une bote [0, 1]d (de 1cm de cot) avec une loi de densit 0 (r ).
Subdivisons la bote [0, 1]d en Ld petits cubes de cot 1/L avec L trs grand (disons que
1/L est de lordre de 106 cm soit quelques centaines dngstrms). Le comportement
microscopique prcis du marqueur est trs compliqu dcrire mais on peut se conten-
ter dune approximation en identifiant simplement le cube o le marqueur se trouve. La
solution tant lquilibre, le marqueur se dplace uniformment au gr des collisions
microscopiques et on suppose quil peut passer dun cube un de ses voisins avec pro-
1
babilit 2d (pour simplifier on exclut les voisins qui nont pas de face commune). Pour
dcrire lvolution temporelle de ce marqueur, nous allons seulement considrer le d-
placement selon un axe et supposer que la bote est priodique (le cas gnral se traiterait
de la mme faon). Dans ce cadre simplifi, le marqueur a un comportement statistique
proche de celui dune marche alatoire dans le domaine {1, . . . , L} pour L extrmement
grand. On va donc analyser lasymptotique de (2.16) quand L tend vers linfini.

1.4

1.2

1/L 1.0

0.8

0.6

0.4

0.2

x
10 20 30 40 50

F IGURE 2.3 Sur le schma de droite, la bote [0, 1]2 a t subdivise en carrs de ct 1/L et
la position du marqueur est identifie par le carr dans lequel il se trouve. Le graphe de droite
reprsente la discrtisation de la densit 0 (r ) = 1 + sin(2 r )/2 en subdivisant lintervalle [0, 1]
avec L = 50.
26 CHAPITRE 2. MATRICE DE TRANSITION

La premire tape est de dcrire la donne initiale. lchelle macroscopique, le mar-


queur est distribu dans la bote [0, 1] selon la densit 0 (r ) qui sera choisie de la forme
K
0 (r ) = 1 + ak cos (2kr) + bk sin (2kr)
k =1

o K est un entier fix et les ak , bk vrifient (2.15). On dfinit aussi


K
exp 2 2 k2 t [ ak cos (2kr ) + bk sin (2kr )] .

t > 0, (t, r ) = 1 + (2.17)
k =1

La rpartition microscopique initiale sobtient par discrtisation (cf. figure 2.3)

1 x
x {1, . . . , L}, 0 ( x ) = 0
L L
et satisfait donc (2.14). Lvolution de la mesure n a t dtermine en (2.16). Soit r
[0, 1] une position macroscopique et t > 0 un temps macroscopique, on leur associe les
suites dentiers
x L = d rL e {1, . . . , L}, n L = d tL2 e N
o de est la partie entire. Il faut interprter x L comme la position microscopique corres-
pondant r et n L comme un temps microscopique
xL nL
lim = r, lim = t.
L L L L2

Pour tout k 6 K, on a
 n L     
2 2 2
lim cos k ak cos kx L + bk sin kx L
L L L L
= exp 2 2 k2 t [ ak cos (2kr ) + bk sin (2kr )]


ceci sobtient en utilisant le dveloppement limit du cosinus lorigine


 !n L
2 n L 1 2 2 2 2 k2
      
1 1
cos k = 1 k +o 3
= exp 2 n L + o
L 2 L L L L
exp 2 2 k2 t .


On en dduit que la densit microscopique n L converge vers la densit macroscopique


(t, r ) dfinie en (2.17)
lim L n L ( x L ) = (t, r ).
L

On vrifie facilement que (t, r ) satisfait lquation de la chaleur

1 2
t (t, r ) = (t, r ).
2 r
Dans la pratique comme L est trs grand, le comportement macroscopique du marqueur
est bien dcrit par lquation de la chaleur. Le passage de modles microscopiques o le
2.5. APPLICATIONS 27

comportement est alatoire des descriptions macroscopiques plus rgulires (comme ici
lquation de la chaleur) est un problme trs tudi en physique et en mathmatiques.
De nombreuses thories ont t dveloppes pour comprendre comment des structures
rgulires peuvent merger dans la limite macroscopique, mais des problmes ouverts
demeurent et il sagit dun domaine de recherche actuellement trs actif en mathma-
tiques.
On remarquera que le passage des coordonnes microscopiques x L , n L aux coordon-
nes macroscopiques r, t sest fait en changeant lchelle spatiale dun facteur L et le
temps dun facteur L2 . Ce changement dchelle est li au thorme central limite, en
effet le marqueur
effectue une marche alatoire et il ne peut explorer que des distances
de lordre n en un temps n. Pour que le marcheur puisse se dplacer dune distance de
lordre de L, il faut donc attendre des temps proportionnels L2 . Lanalogie entre la limite
Gaussienne de la marche alatoire et lquation de la chaleur va au-del des changements
dchelle. Dautres applications sont dcrites dans le cours Transport et diffusion [3].

2.5.2 Ruine du joueur


Imaginons 2 joueurs A et B qui dcident de miser leurs fortunes respectives a et b au
jeu. la fin de chaque partie, la fortune du gagnant augmente de 1 et celle du perdant
diminue de 1. Le jeu sarrte quand lun deux joueurs est ruin. Retraduit en termes
probabilistes, on se donne p [0, 1] et une suite de variables alatoires indpendantes et
identiquement distribues

P( i = 1) = p et P( i = 1) = 1 p .

On notera Xn = X0 + in=1 i la fortune de A au temps n et X0 = a sa fortune initiale. La


fortune de B est alors donne par a + b Xn . Si p = 1/2 le jeu est quilibr, sinon il est
biais et un des joueurs a plus de chance de gagner que lautre. On cherche dterminer
la probabilit que le joueur A soit ruin avant B cest dire la probabilit avec laquelle sa
fortune X = { Xn }n > 0 va atteindre 0 avant a + b (cf. figure 2.4)

u( a) = Pa X atteint 0 avant a + b


On peut rcrire cette probabilit laide des temps darrt

T0 = inf{n > 0; Xn = 0} et Ta+b = inf{n > 0; Xn = a + b }.

On admet que pour presque toute trajectoire la chane { Xn }n > 0 atteindra 0 ou a + b au


bout dun temps fini (ce rsultat sera prouv au Lemme 3.9). Par consquent inf{ T0 , Ta+b }
est fini presque srement et on peut rcrire

u( a) = Pa T0 < Ta+b .


Au lieu de chercher uniquement calculer u( a), nous allons gnraliser la ques-


tion et supposer que la chane de Markov puisse prendre toutes les valeurs initiales
i {1, . . . , a + b 1}
u(i ) = Pi T0 < Ta+b .

28 CHAPITRE 2. MATRICE DE TRANSITION

2 4 6 8

F IGURE 2.4 Premier temps datteinte de 7 = a + b ou de 0 pour la marche alatoire symtrique


Xn partant de a = 3. Dans cette ralisation T7 = 9 < T0 .

On dfinit la chane de Markov dcale en temps Xn = Xn+1 pour n > 1. Si X0 appartient


{1, . . . , a + b 1} alors les vnements { X atteint 0 avant a + b} et { X atteint 0 avant a + b}
sont identiques. Par lidentit (2.12), X0 et { Xn }n > 0 sont indpendants sachant X1 . On
obtient donc pour i {1, . . . , a + b 1}

P { X atteint 0 avant a + b}, X0 = i, X1 = i + 1




= P { X atteint 0 avant a + b}, X0 = i, X1 = i + 1




= P X0 = i, X1 = i + 1 P { X atteint 0 avant a + b} X0 = i + 1 .
 

La chane dcale en temps ayant la mme loi que { Xn }n > 0 , lidentit se rcrit

P { T0 < Ta+b }, X0 = i, X1 = i + 1 = P X0 = i p u(i + 1).


 
(2.18)

tant donn X0 = i, le pas suivant sera X1 = i 1

u(i ) = Pi { T0 < Ta+b }, X1 = i + 1 + Pi { T0 < Ta+b }, X1 = i 1 .


 

En utilisant (2.18), on a

i {1, . . . , a + b 1}, u(i ) = pu(i + 1) + (1 p)u(i 1) (2.19)

avec u(0) = 1 et u( a + b) = 0. On peut ensuite rsoudre explicitement les solutions


de cette rcurrence linaire en remarquant que les racines du polynme caractristique
associ py2 y + (1 p) sont 1 et (1 p)/p. On distingue deux cas.
Jeu biais.
Quand p 6= 1/2, les racines du polynme sont distinctes et la solution de (2.19) scrit
1 p i
 
sous la forme u(i ) = c1 + c2 p . Il suffit ensuite dajuster les constantes c1 et c2 en
fonction des conditions aux bords pour conclure
 ( a+b)  i
1 p 1 p
p p
u (i ) =  ( a+b) .
1 p
p 1
2.5. APPLICATIONS 29

Jeu quilibr.
Quand p = 1/2, les deux racines du polynme valent 1 et on trouve
i
u (i ) = 1 .
a+b

Ces rsultats permettent de retrouver la valeur u( a) cherche qui vaut


 ( a+b)  a
1 p 1 p
p p
u( a) =  ( a+b) .
1 p
p 1

b
pour un jeu biais et u( a) = a+b dans le cas dun jeu quilibr.

On dfinit T = inf{ T0 , Ta+b } le temps o le jeu sarrte. Une mthode analogue per-
met de calculer lesprance Ei ( T ). En utilisant la chane de Markov dcale en temps
Xn = Xn+1 , on obtient pour tout i dans {1, . . . , a + b 1}

Ei ( T ) = 1 + p Ei + 1 ( T ) + ( 1 p ) Ei 1 ( T ) .

Il suffit donc de rsoudre le systme linaire satisfait par v(i ) = Ei ( T )

v ( i ) = 1 + p v ( i + 1) + (1 p ) v ( i 1)

avec les conditions aux bords v(0) = v( a + b) = 0. Dans le cas dun jeu quilibr (p =
1/2), on trouve pour tout i de {0, . . . , a + b}

Ei ( T ) = i ( a + b i ) . (2.20)

2.5.3 Mthode de Monte-Carlo pour un problme de Dirichlet


Lquation de Laplace intervient dans de nombreux domaines de la physique (mca-
nique des fluides, lectromagntisme ...) et elle joue un rle clef en analyse (cf le cours
Optimisation et analyse numrique MAP 431 [2]). Le problme de Dirichlet associ se for-
mule de la faon suivante. On considre un domaine D fini, connexe et rgulier de Rd .
Son bord sera not D. tant donne une fonction dfinie sur D, on cherche dter-
miner f : D R telle que
d
f (r ) = 2k f (r) = 0 et r D, f (r ) = (r ) (2.21)
k =1

o 2k est la drive seconde par rapport la kime coordonne. Cette quation modlise
par exemple la variation de temprature dans une plaque de mtal en contact avec diff-
rentes sources de chaleur sur son bord. La plaque de mtal est reprsente par le domaine
D, la temprature au point r D par f (r ) et les tempratures au bord de la plaque sont
gales .
Il existe diffrentes mthodes pour rsoudre numriquement lquation (2.21). Nous
allons dcrire une approche probabiliste dite mthode de Monte-Carlo. La premire tape
30 CHAPITRE 2. MATRICE DE TRANSITION

consiste discrtiser le domaine D avec un maillage de taille 1/L, on notera DL le rseau


discret correspondant
  
i j \ 1
DL = , D avec 1 6 i 6 L, 1 6 j 6 L = D Zd .
L L L

L Z distance 1/L de D (cf. figure


T 1 d
Le bord discret DL est constitu des sites de D c
2.5).

T2 T1 DL
D

T4
T3

F IGURE 2.5 Un domaine D R2 avec diffrentes tempratures imposes sur son bord D. Le
maillage de D induit une frontire discrte DL reprsente par les sites gris.

Pour simplifier les notations, supposons que la dimension d soit gale 2 et consid-
rons f une fonction C3 sur D. La formule de Taylor implique que
       
i +1 j i j 1 i j 1 2 i j
f , f , =
L 1 f , +
L L  2L2 1 f , + O(1/L3 )
 L L   L L   L L 

i 1 j i j i j i j
f
L , L f L, L = L1 1 f L, L + 2L1 2 21 f L, L + O(1/L3 )

En sommant ces deux quations, on obtient une approximation de la drive seconde 21


quand le pas du maillage tend vers 0

i1 j
        
2 i j 2 i+1 j i j
1 f , =L f , +f , 2f , + O(1/L).
L L L L L L L L

Pour toute fonction F de DL DL dans R, on dfinit le Laplacien discret en tout point x


de DL
( x ) = F (y) F ( x )
F
y D L D L ,
y x

o la notation y x signifie quon somme sur les voisins y de x, cest dire les sites de
DL DL distance 1/L de x. En particulier si x est proche du bord, les valeurs de F sur
la frontire DL interviennent. Les calculs prcdents justifient cette dfinition car pour
des fonctions f rgulires, le Laplacien discret est une bonne approximation du Laplacien
f ( x ) + O(1/L). Le problme de Dirichlet continu (2.21) peut tre approch
f ( x ) = L2
par le problme de Dirichlet discret

x DL , (x) = 0
F et y DL , F (y) = L (y) (2.22)
2.5. APPLICATIONS 31

o la contrainte de Dirichlet sur D a t discrtise en une fonction L sur DL .


La solution du problme de Dirichlet discret peut scrire laide dune marche ala-
toire { Xn }n > 0 sur L1 Zd qui saute uniformment dun site chacun de ses voisins avec
1
probabilit 2d . On note TDL le premier temps datteinte du bord DL par cette marche
et XTDL le site de DL o la marche est sortie. On admet (provisoirement) que TDL est
fini presque srement, cest dire quune marche alatoire finit toujours par sortir du
domaine (ceci sera vrifi au Lemme 3.9). On dfinit
 
x DL , F ( x ) = Ex L ( XTDL ) . (2.23)

Pour chaque site x de DL , la valeur de F ( x ) se calcule en valuant lesprance de la fonc-


tion L au point o la marche alatoire partant de x DL a touch DL pour la pre-
mire fois. Concrtement pour calculer F ( x ), il suffit de construire K ralisations de la
(i )
marche alatoire { Xn }i 6 K partant de x DL et de prendre la moyenne sur les diffrents
(i )
points de sortie XTD du domaine DL . Les K marches tant indpendantes, les variables
L
(i )
L ( XTD ) sont indpendantes et la loi des grands nombres fournit une approximation de
L
F quand K tend vers linfini
K
1  
L TD
(i )
lim ( X ) = E x L ( X TDL ) p.s. (2.24)
K K L
i =1

Le temps ncessaire pour raliser ces simulations sera proportionnel K Ex ( TDL ).

Il reste vrifier que F est bien solution du problme de Dirichlet discret (2.22). On
remarque que le cas de la dimension 1 a dj t trait avec la ruine du joueur en (2.19)
pour des conditions aux bords 0 et 1. tant donn X0 = x dans DL , le pas suivant sera
X1 = y pour y x
F ( x ) = Ex L ( XTDL ) 1 X1 =y .

y x

En considrant, comme dans la ruine du joueur, la marche dcale en temps Xn = Xn+1 ,


on voit que F est la solution de lquation de Laplace discrte
1
2d y
F(x) = F (y) (x) = 0 .
F
x

De plus si x appartient au bord DL alors XTDL = x. La fonction F satisfait bien la


contrainte de Dirichlet sur le bord. Par consquent (2.23) fournit une reprsentation ex-
plicite de la solution du problme de Dirichlet discret (2.22).
On peut facilement vrifier que la solution de (2.22) est unique. En effet, si F1 et F2 sont
deux solutions alors = F2 F1 satisfait = 0 et vaut 0 sur le bord DL . Supposons
que atteigne son maximum en x0 DL . Comme
1
2d y
( x0 ) = (y) et ( y ) 6 ( x0 )
x0

alors (y) = ( x0 ) pour tous les voisins de y de x0 . En itrant cette procdure, on peut
trouver un chemin de sites x0 , x1 , x2 , . . . , x` avec x` DL tels que xi xi+1 pour tout
32 CHAPITRE 2. MATRICE DE TRANSITION

i > 1 et ( xi ) = ( x0 ). Comme x` DL , on en dduit que 0 = ( x0 ). Le maximum


de tant pris en x0 , ceci implique que 6 0. Par symtrie > 0 et on a donc prouv
lunicit de la solution du problme de Dirichlet discret (2.22).

La mthode de Monte Carlo permet dvaluer la formulation probabiliste (2.22) du


problme de Dirichlet discret. Dans la pratique plusieurs questions se posent pour mettre
en oeuvre cette mthode de Monte Carlo. Quel pas de maillage 1/L doit-on prendre pour
que le problme de Dirichlet discret (2.22) approche correctement le problme continu.
La valeur de L tant choisie, combien de marches indpendantes en chaque site doit-on
lancer pour que la moyenne empirique (2.24) dcrive correctement la fonction F.
Lintrt de la mthode de Monte Carlo est dtre facile implmenter et dtre per-
formante quand la dimension d devient grande. On peut aussi gnraliser cette mthode
pour rsoudre des quations aux drives partielles de la forme

(r ) f + b(r ) f = 0 et r D, f (r ) = (r )

o et b sont des champs de vecteurs sur D.


Plus gnralement, on peut considrer une matrice de transition P sur un ensemble E

x, y E, P( x, y) > 0 et x E, P(x, y) = 1 .
y E

Si A est un sous ensemble de E, alors on construit le problme de Dirichlet

x E \ A, (Id P) F ( x ) = 0 et y A, F ( x ) = (y)

o est la condition aux bords et Id est la matrice identit. { F ( x )} xE est un vecteur


inconnu index par E que lon cherche dterminer. En utilisant la chane de Markov
associe P, on peut construire une solution du problme de Dirichlet en fonction de TA
le temps datteinte de A

x E \ A, F ( x ) = Ex ( XTA ) 1{TA <} ).

Pour obtenir lunicit du problme de Dirichlet, il faut prciser la structure de la matrice


P et sassurer que TA reste fini presque srement.
Chapitre 3

Mesures Invariantes

Dans le chapitre prcdent, nous avons vu au thorme 2.3 que la distribution dune
chane de Markov de matrice de transition P volue chaque pas de temps selon les
quations de Chapman-Kolmogorov n+1 = n P. Nous allons, dans ce chapitre, tudier
les mesures invariantes par ces quations cest dire les mesures satisfaisant = P.
Ces mesures joueront par la suite un rle clef dans le comportement asymptotique des
chanes de Markov.
Dans ce chapitre nous ne considrerons que des chanes de Markov sur des espaces
dtats E finis. On notera | E| le cardinal de E. Le cas des espaces dtats dnombrables
sera abord au chapitre 4.

3.1 Mesures invariantes


Soit { Xn }n > 0 une chane de Markov sur un espace E fini de matrice de transition P.

Dfinition 3.1. La mesure sur E est une mesure invariante pour la chane de Markov { Xn }n > 0
si = P, cest dire
y E, (y) = ( x ) P( x, y) .
xE

Si la chane est distribue initialement selon une mesure invariante (on note 0 = )
alors la distribution tout temps n reste n = . Une mesure invariante dcrit donc
un systme dans un tat stationnaire. On peut imaginer par exemple un gaz lquilibre
dans une pice (confine) dont la position des atomes est alatoire mais uniformment
rpartie dans la pice tout temps. Par contre si on ouvre un flacon de parfum au centre
de cette pice, le parfum se rpand et la distribution des molcules nest pas stationnaire
au cours du temps. En anticipant un peu sur les prochains chapitres, on imagine cepen-
dant quau bout dun temps trs long le parfum se sera rpandu dans toute la pice et que
ses molcules seront distribues uniformment dans toute la pice, le systme aura donc
converg vers la mesure invariante. Nous reviendrons sur linterprtation dune mesure
invariante en utilisant lanalogie avec un gaz section 3.3.3.

Considrons un graphe G = (S , E ) fini et sans boucles (un site nest jamais reli
lui mme). On notera S lensemble des sites dans le graphe et E lensemble des artes

33
34 CHAPITRE 3. MESURES INVARIANTES

entre les sites. On dfinit une marche alatoire { Xn }n > 0 sur S dont les probabilits de
transition dun site vers ses voisins sont uniformes
1
x, y S , P( x, y) = 1{ xy} (3.1)
deg( x )

o la notation x y signifie que x et y sont relis par une arte du graphe (( x, y) E ) et


deg( x ) est le nombre de voisins de x, i.e. le degr de x. On dfinit la probabilit sur S
par
deg( x )
x S , (x) = (3.2)
2|E |
o |E | est le cardinal du nombre dartes. Le graphe ne contenant pas de boucles, on voit
facilement que est bien normalise car

deg(x) = 2|E | .
x S

En effet, chaque arte du graphe est compte deux fois dans la somme. On vrifie que
pour tout y dans S

deg( x ) 1 1
(x) P(x, y) = 2|E | deg( x )
1{ x y} =
2|E | 1{ x y} = ( y ) .
x S x S x y

Le rsultat prcdent implique que pour la marche alatoire symtrique sur {1, . . . , L}
avec conditions priodiques (cf. figure 3.1 et (2.4)) la mesure uniforme est invariante
1
x {1, . . . , L}, (x) = .
L
Exercice 3.2. Vrifier que pour la marche alatoire sur {1, . . . , L} avec conditions priodiques et
probabilits de sauts
P( x, x + 1) = p, P( x, x 1) = 1 p
1
la mesure uniforme ( x ) = L est encore invariante pour tout p [0, 1].

Pour une chane de Markov deux tats {1, 2} (cf. figure 3.1) dont la matrice de tran-
sition est donne par  
1 p p
P= (3.3)
q 1q
avec p, q ]0, 1[. Une mesure invariante est donne par
q p
(1) = , (2) = .
p+q p+q
Ceci se vrifie en calculant
q p
P(1) = (1) P(1, 1) + (2) P(2, 1) = (1 p ) + q = (1).
p+q p+q

On a de mme P(2) = (2). Si p ou q sont diffrents de 0, on peut vrifier que est


lunique mesure de probabilit invariante. La distribution reflte le comportement de
3.1. MESURES INVARIANTES 35

1 6

p
2 5

1p 1 2 1q

3 4

F IGURE 3.1 gauche, le graphe des transitions associ la marche alatoire symtrique sur
le domaine priodique {1, . . . , 6}. Le graphe des transitions pour la chane deux tats est repr-
sent droite.

la chane de Markov. En effet, si p est proche de 0 et q proche de 1, alors la chane de


Markov va avoir tendance sauter de 2 vers 1 et rester sur place une fois quelle est au
site 1. On remarque que (1) est effectivement proche de 1 et (2) proche de 0.

Lemme 3.3. Si est une mesure invariante alors = Pn pour tout n > 1.

Ce lemme traduit le fait quune mesure invariante est prserve pour tout temps
( x ) = P ( Xn = x ). Ceci explique le rle clef jou par les mesures invariantes dans
le comportement asymptotique des chanes de Markov (cf. chapitre 5).

Dmonstration. Comme est invariante (y) = zE (z) P(z, y). On en dduit en rem-
plaant (z) par P(z) que
" #
(y) = (x) P(x, z) P(z, y) = (x) P(x, z) P(z, y) = (x) P2 (x, y).
z E x E xE z E xE

Il suffit ensuite ditrer cette relation pour conclure.

Dans le cas dun espace E fini, la mesure invariante peut tre interprte comme un
vecteur valeurs dans [0, 1]|E| qui est un espace compact. Un argument de compacit va
donc nous permettre de justifier lexistence dau moins une mesure invariante .

Thorme 3.4. Pour toute chane de Markov sur un espace dtats fini E, il existe une mesure
invariante.

Notons que ce thorme ne dit rien sur lunicit de la mesure invariante.

Dmonstration. une mesure donne sur E, on associe la suite de mesures sur E

1 n
n k
n = Pk .
=1
36 CHAPITRE 3. MESURES INVARIANTES

Les vecteurs (n ( x )) xE prennent leurs valeurs dans lensemble compact [0, 1]|E| . Il existe
donc une suite extraite nk qui converge vers une mesure dans E

x E, lim nk ( x ) = ( x ).
k

Nous allons vrifier que est une mesure invariante. Par construction

1 n 1  n +1 
n k
k +1
n P = P = n + P .
=1
n

Pour chaque x de E, la suite {n P( x ) n ( x )}n > 1 converge donc vers 0. En passant la


limite, on en dduit que est invariante car

x E, P( x ) ( x ) = lim nk P( x ) nk ( x ) = 0.
k

3.2 Irrductibilit et unicit des mesures invariantes


La structure des mesures invariantes dpend de la matrice de transition P. Reprenons
lexemple de la chane sur deux sites dont la matrice de transition est dfinie en (3.3) dans
le cas particulier o il nexiste aucune transition entre les tats 1 et 2, i.e. p = q = 0. Les
deux mesures
1 ( x ) = 1 { x =1} et 2 ( x ) = 1 { x =2}
sont invariantes car si la chane part dun tat, elle y restera tout le temps. On peut v-
rifier que toute combinaison linaire 1 + (1 )2 (avec [0, 1]) est une mesure
invariante. Cet exemple trs simple montre quil peut exister une infinit de mesures in-
variantes. Considrons maintenant le cas o il nexiste pas de transition de 1 vers 2, i.e.
p = 0 et q 6= 0. Alors lunique mesure invariante est 1 ( x ) = 1{ x=1} et elle nattribue
aucun poids au site 2 (ce qui nest pas le cas si p > 0). Par consquent, le support des
mesures invariantes dpend de la structure de P.
Avant danalyser lunicit des mesures invariantes, nous allons introduire la notion
dirrductibilit qui est quivalente la connexit du graphe des transitions associ la
matrice P.

3.2.1 Irrductibilit
Soit X = { Xn }n > 0 une chane de Markov sur E de matrice de transition P.

Dfinition 3.5. Soient x, y deux tats de E. On dit que


x communique avec y, on note x y, sil existe un entier n > 0 et des tats x0 =
x, x1 , . . . , xn = y E tels que P( x0 , x1 ) P( xn1 , xn ) > 0, i.e. si

Px ( Xn = y) = P( Xn = y| X0 = x ) > 0.

x et y communiquent, on note x y, si x communique avec y et y communique avec x.


3.2. IRRDUCTIBILIT ET UNICIT DES MESURES INVARIANTES 37

Dfinition 3.6.
(i) Une classe E0 E est dite irrductible si x y pour tous x, y E0 . La chane de Markov
X est dite irrductible si lespace dtats E est irrductible.
(ii) Une classe irrductible E0 E est dite ferme si pour tous x, y E

x E0 et xy alors y E0 .

Ces dfinitions sont illustres figure 3.2. La restriction de la chane de Markov une
classe ferme E0 est ainsi une chane de Markov despace dtats E0 . Enfin si E0 = { x0 }
est ferme, alors ltat x0 est dit absorbant car une fois que la chane de Markov la atteint,
elle reste bloque dans cet tat pour toujours.

F IGURE 3.2 Dans ce graphe de transition, les sites gris reprsentent la classe irrductible ferme.
Aucun des sites gris ne communique avec les sites blancs.

3.2.2 Unicit des mesures invariantes


Pour E fini, lexistence dune mesure invariante a t prouve au thorme 3.4. Lhy-
pothse dirrductibilit de la chane permet de renforcer ce rsultat.

Thorme 3.7. Pour toute chane de Markov irrductible sur un espace dtats fini E, il existe
une unique mesure de probabilit invariante telle que ( x ) > 0 pour tout x E.

Dmonstration. Soit une mesure invariante (son existence est assure par le thorme
3.4). Nous allons dabord vrifier que ( x ) > 0 pour tout x E. Comme yE (y) = 1,
il existe x0 de E tel que ( x0 ) > 0. La chane tant irrductible, x0 communique avec
tout y de E et pour chaque y, il existe un entier n tel que Pn ( x0 , y) > 0. La mesure est
invariante = Pn et on en dduit

(y) = (z) Pn (z, y) > (x0 ) Pn (x0 , y) > 0.


z E

Pour montrer lunicit, nous allons dabord tablir un rsultat prliminaire et prouver
que toute fonction h de E dans R vrifiant

x E, h( x ) = P(x, y)h(y) (3.4)


y E

est ncessairement constante. Une fonction h satisfaisant (3.4) est dite harmonique. Nous
avons dj rencontr des fonctions harmoniques section 2.5.3. Comme E est fini, il existe
un tat x0 o la fonction atteint son minimum h( x0 ) = minyE h(y). Sil existait z de E tel
38 CHAPITRE 3. MESURES INVARIANTES

que P( x0 , z) > 0 et h(z) > h( x0 ), on obtiendrait une contradiction en utilisant le fait que
yE P( x, y) = 1

h ( x0 ) = P(x, y)h(y) > P(x0 , z)h(x0 ) + P(x, y)h(y) > h(x0 ) .


y E y6=z

Ceci tant impossible, la fonction h est gale h( x0 ) pous les tats y connects x0 , i.e. tels
que P( x0 , y) > 0. Comme la chane est irrductible, on dduit en itrant cette procdure
que h est constante sur E.
On remarque quune fonction harmonique h est un vecteur propre droite pour P car
h = Ph tandis quune mesure invariante est un vecteur propre gauche car = P.
Le rsultat prcdent sur les fonctions harmoniques implique que la matrice P Id a un
noyau de dimension 1 (les vecteurs de la forme (1, . . . , 1)). La valeur propre 0 tant de
multiplicit 1, elle est aussi valeur propre de multiplicit 1 pour la transpose P Id.
Par consquent sil existe 2 mesures invariantes 1 , 2 (que lon peut interprter comme
des vecteurs) telles que 1 = 1 P et 2 = 2 P alors les deux vecteurs 1 , 2 sont dans le
noyau de P Id. Le noyau tant de dimension 1, il existe une constante c telle que 1 =
c 2 . Comme les deux mesures sont normalises par 1, on en dduit que 1 = 2 .

Exercice 3.8. On propose une preuve alternative de lunicit des mesures invariantes du thorme
3.7. Supposons que 1 , 2 soient deux mesures invariantes strictement positives sur E. Montrer
que
1 ( y )
x, y E, Q( x, y) = P(y, x )
1 ( x )
(x)
est une matrice de transition irrductible. Vrifier que f ( x ) = 2 (x) est harmonique pour Q, i.e.
1
f = Q f . En utilisant le rsultat sur lunicit des fonctions harmoniques, en dduire que 1 = 2 .

3.2.3 Construction de la mesure invariante


Le thorme 3.4 a permis dobtenir lexistence dune mesure invariante de faon im-
plicite. Dans cette section, nous allons construire la mesure invariante et en donner une
expression explicite qui pourra se gnraliser facilement aux espaces dtats dnom-
brables.
On rappelle la dfinition du premier temps datteinte Tx dun lment x de E

Tx = min n > 0; Xn = x .

On dfinit aussi
Tx+ = min n > 1;

Xn = x .
Ces deux temps darrt concident sauf si le site initial est x car dans ce cas Tx = 0 et Tx+
est le premier temps de retour en x.
Une proprit importante des temps de retour dans le cas des espaces finis est la
suivante :
Lemme 3.9. Pour une chane de Markov irrductible sur un espace dtats E fini

x, y E, Ex ( Ty+ ) < .
3.2. IRRDUCTIBILIT ET UNICIT DES MESURES INVARIANTES 39

Dmonstration. La chane tant irrductible et E fini, il existe > 0 et un entier n tels que
pour tous x, y dans E
j 6 n, P j ( x, y) > .
La valeur j peut varier selon les couples x, y mais reste borne par n. La probabilit dat-
teindre y en partant de nimporte quel point avant le temps n est au moins . Lingalit
suivante est donc vraie uniformment en x, y

Px Ty+ > n 6 1 .


Nous allons itrer ce rsultat en conditionnant le processus par le pass jusquau temps
( k 1) n
n
Px Ty+ > kn = Px {Ty+ > (k 1)n} {X(k1)n = z}
 \ 
{ X ( k 1) n + i 6 = y }
z E i =1
z6=y

Px { Ty+ > (k 1)n} { X(k1)n = z}



=
z E
z6=y
n
\ 
P { X(k1)n+i 6= y} { Ty+ > (k 1)n} { X(k1)n = z}

i =1

o z reprsente toutes les valeurs possibles pouvant tre prises par X(k1)n . Par la pro-
prit de Markov applique au temps (k 1)n, on en dduit que le conditionnement ne
dpend que de la valeur de X(k1)n

Px Ty+ > kn


  n
\ 
= Px { Ty+ > (k 1)n} { X(k1)n = z} P { X ( k 1) n + i 6 = y } X ( k 1) n = z

z E i =1
z6=y

Le dernier terme peut sexprimer par la proprit de Markov comme lvnement { Ty+ >
n} pour la chane dcale en temps
n
\  n
\   
P { X ( k 1) n + i 6 = y } X ( k 1) n = z = P { Xi 6= y} X0 = z = Pz Ty+ > n .

i =1 i =1

Conditionnellement { X(k1)n = z}, on peut le borner uniformment en z (avec z 6= y)


par 1 pour obtenir
 
Px Ty+ > kn 6 (1 )Px Ty+ > (k 1)n .


En itrant on obtient
Px Ty+ > kn 6 (1 )k .


Pour toute variable alatoire Z valeurs dans N, on rappelle lidentit classique

E( Z ) = P( Z > `).
`>1
40 CHAPITRE 3. MESURES INVARIANTES

On obtient donc

Ex Ty+ = Px Ty+ > ` 6 n Px Ty+ > kn 6 n (1 )k < .


  
`>1 k>0 k>0

Ce qui permet de conclure le lemme.

Le thorme suivant permet dexprimer la mesure invariante en fonction de la fr-


quence laquelle la chane de Markov visite les sites de E.

Thorme 3.10. Pour une chane de Markov irrductible { Xn }n > 0 sur un espace dtats E fini,
lunique mesure de probabilit invariante est donne par

1
x E, (x) = .
Ex ( Tx+ )

Dmonstration. Pour tout x de E, nous dfinissons la mesure comme la moyenne du


temps pass en chaque site par la chane de Markov entre deux passages par x
 
y E, (y) = Ex nombre de visites en y avant de retourner en x
 
= Px Xn = y, Tx+ > n .
n>0

Le lemme 3.9 implique que la mesure est bien dfinie pour tout y car
 
(y) 6 Px Tx+ > n = Ex ( Tx+ ) < .
n>0

Par contre nest pas une mesure de probabilit car elle nest pas normalise.
Pour montrer que est stationnaire, nous calculons
 
( z ) P ( z, y ) = P x X n = z, Tx
+
> n P(z, y).
z E z E n > 0

Le point clef de la preuve est de constater que lvnement { Tx+ > n} = { Tx+ > n + 1}
ne dpend que de { X0 , . . . , Xn } (on sait juste que la marche nest pas revenue en x avant
le temps n). Par consquent, on peut appliquer la proprit de Markov et crire
     
Px Xn = z, Tx+ > n + 1, Xn+1 = y = Px Xn = z, Tx+ > n P Xn+1 = y Xn = z, Tx+ > n

 
= Px Xn = z, Tx+ > n P(z, y).

On dduit de cette relation que


 
(z) P(z, y) = Px Xn = z, Tx+ > n + 1, Xn+1 = y
z E z E n > 0
   
= Px Tx+ > n + 1, Xn+1 = y = Px Tx+ > n, Xn = y .
n>0 n>1
3.3. RVERSIBILIT ET THORME H 41

Cette expression est trs proche de la dfinition de


 
Px Tx > n, Xn = y
+
n>1
     
= Px Xn = y, Tx+ > n Px Tx+ > 0, X0 = y + Px Tx+ = n, Xn = y
n>0 n>1
= (y) Px X0 = y + Px XTx+ = y .
 

Il suffit maintenant de considrer les deux cas :


Si y = x alors Px ( X0 = y) = Px ( XTx+ = y) = 1.
Si y 6= x alors Px ( X0 = y) = Px ( XTx+ = y) = 0.
On a donc prouv que la mesure est invariante, i.e. zE (z) P(z, y) = (y). Pour
obtenir une mesure de probabilit, il suffit de la normaliser. Comme zE (z) = Ex ( Tx+ ),
la mesure de probabilit
(z)
y E, (y) =
Ex ( Tx+ )
est lunique mesure de probabilit invariante (cf. thorme 3.7). En particulier, elle vrifie

( x ) 1
(x) = + = .
Ex ( Tx ) Ex ( Tx+ )
Le site x qui servait de site de rfrence pour indexer les excursions de la chane a t
choisi arbitrairement. Lidentit ci-dessus est donc vrifie pour tout x car la mesure de
probabilit invariante est unique pour une chane de Markov irrductible.

3.3 Rversibilit et Thorme H


3.3.1 Rversibilit
Les mesures invariantes sont caractrises par le systme dquations linaires

y E, (y) = (x) P(x, y)


xE

dont le nombre dinconnues est proportionnel au cardinal de E. Dans la pratique, ce car-


dinal est trs grand (parfois infini) et il est souvent difficile de dterminer analytique-
ment. La rversibilit est une condition suffisante et facile vrifier qui assure lexistence
dune mesure invariante.
Dfinition 3.11. Une chane de Markov de matrice de transition P sur E est dite rversible par
rapport la mesure si elle satisfait

x, y E, ( x ) P( x, y) = (y) P(y, x ) .

La rversibilit caractrise les systmes lquilibre. Sous la mesure initiale , si on


observe une trajectoire x0 , x1 , . . . , xn alors la trajectoire inverse aura la mme probabilit

P X0 = x 0 , X1 = x 1 , . . . , X n = x n = P X0 = x n , X1 = x n 1 , . . . , X n = x 0 .
 
42 CHAPITRE 3. MESURES INVARIANTES

Pour prouver cette relation, on crit la proprit de Markov

P X0 = x 0 , X1 = x 1 , . . . , X n = x n = ( x 0 ) P ( x 0 , x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , X n ) .


En itrant de proche en proche la relation de rversibilit, on obtient

P X0 = x 0 , X1 = x 1 , . . . , X n = x n = P ( x 1 , x 0 ) ( x 1 ) P ( x 1 , x 2 ) . . . P ( x n 1 , x n )


= P ( x 1 , x 0 ) P ( x 2 , x 1 ) ( x 2 ) . . . P ( x n1 , x n )
= ( x n ) P ( X n , X n 1 ) P ( X n 1 , X n 2 ) . . . P ( x 1 , x 0 ).

Exemples.
Daprs lexercice 3.2, la marche alatoire sur {1, . . . , L} avec conditions priodiques et
probabilits de sauts

P( x, x + 1) = p, P( x, x 1) = 1 p

a pour mesure invariante la mesure uniforme ( x ) = L1 pour tout p [0, 1]. Cette chane
de Markov nest rversible que pour p = 21 car pour p 6= 21

( x ) P( x, x + 1) 6= ( x + 1) P( x + 1, x ).

En effet, si p 6= 12 la marche va tourner systmatiquement dans le mme sens et la proba-


bilit de la voir tourner en sens inverse sera trs faible. Si p = 12 , la marche est symtrique
et toute fluctuation dans un sens sera aussi probable quune fluctuation en sens inverse.
La chane de Markov deux tats de matrice de transition P donne par (3.3) est aussi
q p
rversible pour la mesure (1) = p+q , (2) = p+q car

qp
(1) P(1, 2) = = (2) P(2, 1).
p+q

Dans la pratique, la rversibilit permet de vrifier facilement quune mesure est in-
variante.

Thorme 3.12. Si une chane de Markov de matrice de transition P est rversible par rapport
la mesure , alors est une mesure invariante.

Dmonstration. Pour tout y dans E, on obtient en utilisant la rversibilit et xE P(y, x ) =


1
(x) P(x, y) = (y) P(y, x) = (y).
xE xE

Par consquent, est bien une mesure invariante.


3.3. RVERSIBILIT ET THORME H 43

3.3.2 Thorme H pour les chanes de Markov


Soient et deux mesures de probabilit sur un espace E. On note H lentropie
relative de par rapport
 
( x ) ( x )
H =

ln ( x ) .
xE
( x ) ( x )

On peut interprter lentropie relative comme une distance entre et car H est positive
et ne sannule que si = . Pour le vrifier, il suffit de remarquer que (u) = u log(u) est
strictement convexe et par lingalit de Jensen
  !
( x ) ( x )
H = ( x ) >

( x ) = 0.
xE
( x ) xE
( x )

( x )
Lingalit est stricte ds quil existe un x pour lequel ( x )
6= 1.

Thorme 3.13. On considre une chane de Markov irrductible de matrice de transition P et


de mesure invariante . Alors pour toute probabilit , on a

H P H .
 

Par consquent, lentropie relative n H Pn dcrot avec le temps.




Ce rsultat fait cho au Thorme H pour lquation de Boltzmann, nanmoins les


physiciens utilisent la convention oppose pour lentropie et considrent plutt la crois-
sance de H. Nous verrons au chapitre 5 que les mesures Pn relaxent vers la mesure
dquilibre . La dcroissance de lentropie relative permet dj dentrevoir cette relaxa-
tion car la distance entre Pn et se rduit au cours du temps.

Dmonstration. En utilisant la fonction (u) = u log(u), on a


! !
1 ( y ) ( y ) P ( y, x )
H P =
( x ) y
(y) P(y, x ) ( x ) =

(x)
xE E xE y E
(y) (x)

(y) P(y,x )
En remarquant que y (x)
est une mesure de probabilit sur E

(y) P(y, x ) 1 (x)


( x )
=
( x ) (y) P(y, x) = (x) = 1
y E y E

on obtient par lingalit de Jensen


   
(y) P(y, x ) (y) (y)
H P 6 (x) (x) (y) P(y, x)

= .
xE y E
(y) y E x E
(y)

La mesure tant invariante, i.e. xE (y) P(y, x ) = (y), on conclut que

H P 6 H .
 
44 CHAPITRE 3. MESURES INVARIANTES

3.3.3 Application : modle dEhrenfest


Nous allons illustrer les concepts de rversibilit et de dcroissance de lentropie avec
une chane de Markov propose par Paul et Tatiana Ehrenfest en 1907. Ce modle a jou
un rle important pour tablir les fondements de la mcanique statistique et comprendre
le paradoxe de lirrversibilit en thorie cintique des gaz.
Commenons par un rappel historique pour expliquer les motivations qui ont conduit
introduire ce modle. En 1872, Boltzmann propose une quation pour dcrire lvolu-
tion dun gaz peu dense hors quilibre. Cette quation deviendra llment fondateur de
la thorie cintique des gaz. Le point de dpart est de reprsenter les molcules dans un
gaz comme un ensemble de sphres dures qui avancent en ligne droite des vitesses
diffrentes et qui rebondissent la manire de boules de billard quand elles se touchent.
Pour dcrire le comportement dun tel gaz, il nest pas possible (ni souhaitable) de rendre
compte de lvolution de tous les atomes (lordre de grandeur de leur nombre tant 1023 ),
par contre une quantit plus globale comme la densit f (t, x, v) de particules au temps
t avec la position x et la vitesse v suffit dcrire le transport de matire. Lquation de
Boltzmann rgit lvolution de la densit de particules

t f (t, x, v) + v x f (t, x, v) = Q( f , f )
ZZ
[ f (v0 ) f (v10 ) f (v) f (v1 )] (v v1 )

Q( f , f )(v) = +
dv1 d
S 2 R3

o est un vecteur intgr sur la sphre unit S2 et les vitesses aprs collisions scrivent

v 0 = v + ( v1 v ) , v10 = v1 (v1 v) .

Une proprit fondamentale de cette quation connue comme le Thorme H, est la crois-
sance de lentropie au cours du temps
ZZ
H (t) = dx dv f (t, x, v) log f (t, x, v) 6 0 .

(La convention en physique est oppose celle des mathmaticiens qui considrent plu-
tt la dcroissance de H (t), cf. section 3.3.2). Cette croissance traduit lirrversibilit du
systme : si on perce un ballon rempli de gaz, le gaz schappe et le ballon se dgonfle.
Ce mcanisme est irrversible, en effet il est trs rare dobserver un ballon se regonflant
spontanment.
Lquation de Boltzmann a pourtant suscit de nombreuses controverses car lirrver-
sibilit des solutions de cette quation semble incompatible avec la rversibilit de la dy-
namique microscopique. La dynamique microscopique est un immense billard avec 1023
boules rebondissant les unes sur les autres. Si on observe lvolution de cette dynamique
jusquau temps t et qu linstant t toutes les vitesses sont renverses (v v) alors le
systme microscopique revient en arrire en suivant exactement lvolution inverse. En
1876, Loschmidt objectait que lquation de Boltzmann ne pouvait pas rendre compte du
systme microscopique qui lui tait rversible. Un second paradoxe est signal par Zer-
melo en 1896 car le thorme de Poincar assure que cette dynamique microscopique va
repasser au cours du temps arbitrairement prs de sa condition initiale et ce pour presque
3.3. RVERSIBILIT ET THORME H 45

toutes les conditions initiales. Ceci pose encore la question de lirrversibilit de lqua-
tion de Boltzmann. Le modle des poux Ehrenfest a permis de comprendre ces deux
paradoxes.

On considre un rcipient isol coup en deux par une paroi, la partie gauche est rem-
plie dun gaz et celle de droite est vide (cf. figure 3.3). linstant initial, un trou minus-
cule est perc dans la paroi pour permettre au gaz de passer dun compartiment lautre.
Pour simplifier le modle, on imagine qu chaque pas de temps, un atome est choisi au
hasard et transfr dun compartiment lautre. On note Xn le nombre datomes dans la
partie gauche au temps n et on suppose quinitialement le rcipient contient K atomes,
i.e. X0 = K. Cette chane de Markov a pour espace dtats {0, . . . , K } et les probabilits
de transition sont donnes par

` K`
P X n +1 = ` 1 X n = ` = , P X n +1 = ` + 1 X n = ` =
 
.
K K
Quand le systme est lquilibre, les molcules sont rparties uniformment et la me-
sure invariante devrait intuitivement tre une loi binomiale (`) = 21K (K` ) (on choisit `
molcules parmi K et on les place dans la partie gauche, les K ` seront alors dans la
partie droite). Pour le vrifier, il suffit de remarquer que cette chane de Markov est r-
versible pour la mesure invariante

1 K! K`
(`) P(`, ` + 1) = = (` + 1) P(` + 1, `).
2K `!(K `)! K

La distribution de est reprsente figure 3.3. La rversibilit stochastique peut tre vue
comme lanalogue de la rversibilit des quations du mouvement pour la dynamique
microscopique du gaz de sphres dures.

0.08

0.06

0.04

0.02

20 40 60 80

F IGURE 3.3 Sur le schma de gauche, le modle dEhrenfest est reprsent : le compartiment
de gauche est rempli de molcules, celui de droite est presque vide. Un passage est ouvert entre
les deux compartiments pour permettre le transfert des molcules. Le graphe de droite reprsente
la distribution de pour K = 80. Cette distribution est symtrique autour de sa moyenne et elle
dcrit ltat dquilibre du gaz.

Lirrductibilit de chane de Markov implique par le lemme 3.9 que la chane va re-
venir en chacun des points presque srement. Si initialement le compartiment de gauche
est rempli de gaz et celui de droite est vide, les molcules vont dabord se rpartir assez
rapidement dans tout le rcipient mais si on attend assez longtemps toutes les molcules
46 CHAPITRE 3. MESURES INVARIANTES

finiront par retourner dans le compartiment de gauche. Cette proprit est lanalogue du
thorme de rcurrence de Poincar pour les systmes dynamiques que Zermelo oppo-
sait Boltzmann. Dans le cas de la chane dEhrenfest, le thorme 3.10 permet de calculer
lesprance du temps de retour

1 `!(K `)!
E` ( T`+ ) = = 2K .
(`) K!

On remarque que pour K trs grand, par exemple de lordre de 1023



EK ( TK+ ) = 2K et EK/2 ( TK/2
+
) ' 2K .

Par consquent, le temps de retour en K/2 (qui est la valeur dquilibre) sera infiniment
moins long que le temps de retour en K. Ce dernier est tellement grand quil peut tre
suprieur la dure de vie de lunivers. Il faudra donc sarmer de patience avant de voir
un ballon perc se regonfler spontanment. Les temps de rcurrence dvnements rares
tant extrmement longs, il ny a donc pas de contradiction avec la validit de lquation
de Boltzman sur des chelles de temps plus courtes.
Chapitre 4

Espaces dtats dnombrables

Ce chapitre est consacr aux chanes de Markov sur des espaces dtats infinis (mais
dnombrables) pour lesquelles des phnomnes nouveaux apparaissent concernant la
frquence des visites dun tat. On verra aussi que pour des espaces dtats infinis, lir-
rductibilit ne suffit pas garantir lexistence dune unique mesure de probabilit inva-
riante.

4.1 Chanes de Markov rcurrentes et transitoires


Un exemple simple de chane de Markov sur un espace dtats infini est la marche
alatoire symtrique sur Zd avec d > 1 et de matrice de transition

1
x, y Zd , P( x, y) = 1 .
2d {k xyk =1}

La marche saute de faon quiprobable dun site vers ses voisins. Elle est irrductible car
elle peut rejoindre nimporte quel point de Zd . Dans le cas des espaces dtats finis, le
lemme 3.9 assure que, pour toute chane de Markov irrductible, le temps datteinte dun
tat y de E
Ty+ = inf n > 1;

Xn = y

en partant dun tat x est toujours intgrable Ex ( Ty+ ) < . En particulier, toute trajectoire
de la chane de Markov issue de x finira par toucher presque srement nimporte quel
tat y de E. Pour des chanes de Markov sur des espaces dtats infinis, cette proprit
nest plus vraie en gnral et il convient donc de distinguer plusieurs cas.

Dfinition 4.1. Soit { Xn }n > 0 une chane de Markov sur un espace dtats E dnombrable. Un
tat x de E est dit
transitoire si Px ( Tx+ < ) < 1.
rcurrent si Px ( Tx+ < ) = 1.
Les tats rcurrents peuvent tre de deux types :
Les tats rcurrents nuls si Ex ( Tx+ ) = .
Les tats rcurrents positifs si Ex ( Tx+ ) < .

47
48 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

Nous allons montrer quune chane de Markov repasse presque srement une infinit
de fois par un tat rcurrent alors quelle ne passera quun nombre fini de fois par un
tat transitoire. Si lespace dtats est fini, le lemme 3.9 implique que tous les tats sont
rcurrents positifs.

Tx(2)
Tx(0) Tx(1) Tx(3)

Sx(1) Sx(2) Sx(3)

F IGURE 4.1 Les excursions dune marche alatoire dans Z sont reprsentes en utilisant comme
tat de rfrence x = 0.

Pour tout entier k, on dfinit le kime temps de retour en x par


( k +1) (k)
Xn = x N { }

Tx = inf n > Tx + 1;
(0) (1)
o Tx = 0 et Tx concide avec Tx+ . Si la chane ne passe que k fois en x alors tous les
(`)
temps Tx avec ` > k + 1 seront infinis. La chane de Markov fait des excursions entre
deux passages en x (cf. figure 4.1) dont les longueurs sont donnes par
( k 1) ( k 1)
(
(k)
(k) Tx Tx , si Tx <
Sx =
0, sinon

Le nombre de visites dun tat x par la chane de Markov { Xn }n > 0 est donn par

Nx = 1 { Xn = x } .
n>0

Thorme 4.2. On distingue deux comportements diffrents :


Si un tat x est rcurrent, alors une chane de Markov issue de x repasse infiniment souvent
en x
Px N x = = 1.


Si un tat x est transitoire, le nombre de visites N x dune chane de Markov issue de x suit
une loi gomtrique sur N de paramtre Px ( Tx+ < ) < 1. En particulier
1
Ex N x = Px N x < = 1.
 

Px ( Tx+ = )
Dmonstration. Le point crucial de la preuve consiste remarquer que pour k > 2, si on
( k 1) (k)
conditionne par lvnement { Tx < }, alors la longueur de lexcursion Sx est ind-
( k 1) ( k 1)
pendante de la trajectoire de la chane avant linstant Tx , cest dire de { Xn ; n 6 Tx }
et ( k 1)
(k) (1)
` N, P Sx = ` Tx < = Px Tx = ` .
 
(4.1)
4.1. CHANES DE MARKOV RCURRENTES ET TRANSITOIRES 49

Intuitivement le rsultat est vident : quand la chane de Markov repart de x, il ny a plus


besoin de connatre son pass pour dterminer son futur. En particulier, les excursions
reprsentes figure 4.1 ont toutes la mme loi et sont indpendantes. Pour le dmon-
trer, il suffit dappliquer la proprit de Markov forte tablie au thorme 2.6. Au temps
( k 1)
darrt Tx la chane de Markov est dans ltat x et la chane de Markov dcale en
temps { XT (k1) +n }n > 0 a la mme loi que la chane { Xn }n > 0 partant de x. La longueur de
x
lexcursion peut scrire comme un temps de retour
n o
(k)
Sx = inf n > 1, X T ( k 1) + n = x .
x

( k 1) (k) (1)
Conditionnellement lvnement { Tx < }, la longueur Sx a la mme loi que Tx .
On en dduit donc (4.1) par la proprit de Markov forte.
Comme X0 = x, on remarque que N x > 1. Pour tout k > 1, on obtient
(k) ( k 1) (k)
Px N x > k + 1 = Px Tx < = Px Tx < et Sx <
  

( k 1) (k) ( k 1)
= Px Tx < Px Sx < Tx < .
 

En utilisant (4.1) et en itrant, on conclut que


( k 1) (1) k
Px N x > k + 1 = Px Tx < Px Tx < = Px Tx+ < .
  

(1)
Dans la dernire galit, on a identifi Tx = Tx+ . Si x est rcurrent, alors Px N x > k = 1


pour tout k. Comme lvnement {N x = } est la limite (dcroissante) des vnements


{N x > k}, on en dduit que Px N x = = 1.
Un calcul similaire au prcdent permet de montrer que pour k > 1
 k 1  
Px N x = k = Px Tx+ < 1 Px Tx+ < .


Si x est transitoire alors Px ( Tx+ < ) < 1. Le nombre de visites N x dune chane de Mar-
kov issue de x suit une loi gomtrique sur N de paramtre Px ( Tx+ < ) et lesprance
du nombre de retours est finie.

La proprit de Chapman-Kolmogorov permet dcrire pour tout n > 1

Pn ( x, y) = Px Xn = y

x, y E,

o Pn est la puissance nime de la matrice P. Le thorme 4.2 peut tre reformul laide
dun critre plus simple utiliser.

Thorme 4.3. Pour tout tat x de E, il nexiste que deux possibilits :


x est transitoire si et seulement si n > 0 Pn ( x, x ) < .
x est rcurrent si et seulement si n > 0 Pn ( x, x ) = .
Si x communique avec y, i.e. x y, et x est un tat rcurrent alors y est un tat rcurrent.
Par consquent, si la chane est irrductible alors les tats sont tous transitoires ou tous rcurrents.
50 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

Dmonstration. Lesprance du nombre de visites peut se rcrire en utilisant le thorme


de Fubini (pour permuter lesprance et la somme)
!
Ex N x = Ex 1 Xn = x = Ex 1 Xn = x = Pn ( x, x ).
 
n>0 n>0 n>0

Le thorme 4.2 suffit donc prouver lalternative entre les deux possibilits.
Soit x un tat rcurrent communiquant avec y. Supposons que y ne communique pas
avec x, cest dire que Pk (y, x ) = 0 pour tout k alors

Py Tx+ < 6 Py Xk = x = Pk (y, x ) = 0.


 
k>1 k>1

Dans ce cas x ne pourrait pas tre rcurrent car la chane a une probabilit non nulle de
passer dans ltat y et ainsi de ne plus revenir en x

Px Tx+ = > Pn ( x, y) > 0.




Par consquent si x y et x est rcurrent alors y x. Il existe donc deux entiers `, k > 1
tels que P` ( x, y) > 0 et Pk (y, x ) > 0. On peut dcomposer les trajectoires partant de y

Pn (y, y) > Pk (y, x ) Pn ( x, x ) P` ( x, y) = c Pn ( x, x ) =


n>0 n>0 n>0

o c > 0 est une constante. On en dduit que y doit aussi tre rcurrent.
Si la chane de Markov est irrductible, tous les tats communiquent et il suffit que
lun soit rcurrent pour que les autres le soient.

4.2 Application : marches alatoires


Les tats rcurrents et transitoires peuvent tre illustrs dans le cadre des marches
alatoires sur Zd .

4.2.1 Marches alatoires symtriques sur Zd


Le comportement de la marche alatoire symtrique sur Zd de matrice de transition

1
x, y Zd , P( x, y) = 1
2d {k xyk =1}
dpend de la dimension d. Le thorme suivant a t prouv par Polya en 1921.

Thorme 4.4. La marche alatoire symtrique sur Z ou Z2 est rcurrente. Pour d > 3, la
marche symtrique sur Zd est transitoire.

Dmonstration. La chane tant irrductible tous les tats sont de la mme nature. Daprs
le thorme 4.3, il suffit donc de dterminer si la srie n > 0 Pn (0, 0) est divergente ou
convergente. Ltude se fait pour chaque dimension.
4.2. APPLICATION : MARCHES ALATOIRES 51

d = 1.
Une marche alatoire ne peut revenir en 0 quaprs un nombre pair de pas. Pour
revenir en 0 au temps 2n, il faut quil y ait eu exactement n accroissements gaux 1 et n
accroissements gaux 1. On a donc
 
1 2n 1
2n
P (0, 0) = 2n ' , P2n+1 (0, 0) = 0
2 n n

o lasymptotique a t obtenue en utilisant la formule de Stirling n! ' 2n(n/e)n . Par
consquent, la srie n > 0 Pn (0, 0) est divergente et 0 est un tat rcurrent.
d = 2.
En inclinant la tte de 45 degrs (cf. figure 4.2), on voit quune marche alatoire Xn
+ +
sur Z2 se rcrit Xn = ( Xn +2 Xn , Xn 2 Xn ) en fonction de Xn+ , Xn , deux marches alatoires
indpendantes sur Z partant initialement de 0.

+
XN

XN


XN

F IGURE 4.2 Les marches alatoires Xn+ et Xn sont les projections de Xn sur les axes du rseau
45 degrs.

Par lindpendance des marches Xn+ et Xn , on dduit du cas unidimensionnel que

1
P2n (0, 0) = P0 ( X2n = 0) = P0 ( X2n
+
= 0)P0 ( X2n = 0) '
n

o 0 reprsente (par abus de notation) lorigine de Z et de Z2 . La srie n > 0 Pn (0, 0) de


terme principal 1/n est divergente et 0 est un tat rcurrent.

50 100 150 200 250


60

-50

40
-100

20
-150

-200
-80 -60 -40 -20 20

-20 -250

F IGURE 4.3 Deux ralisations de la marche alatoire dans Z2 pour 104 et 105 pas.
52 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

d = 3.
Pour calculer P2n (0, 0), on dcompose les trajectoires de longueur 2n en 2i, 2j, 2k sauts
selon chacun des axes
 2n    2n
n 2 1 2n
   
(2n)! 1 2n 1
P (0, 0) =
2n
2 = ijk
i,j,k>0 i! j! k! 6 n 2 i,j,k >0 3
i + j+k=n i + j+k=n

o (i nj k) = i! n!
j! k! est le nombre de faons de ranger n boules dans 3 botes en mettant i
boules dans la premire, j dans la seconde et k dans la troisime. On rappelle
   n    
n 1 3n 3n
i j k 3 = 1 et i j k 6 n n n .
i,j,k>0
i + j+k=n

Commenons par considrer le cas n = 3`. Par les identits prcdentes, on a


   2n    n    n
2n 1 3` 1 n 1
P2n (0, 0) 6
n 2 ``` 3 ijk 3
i,j,k >0
i + j+k=n
  n    3/2
2n 1 n 1 6
= '
n 12 ``` 2(2 )3/2 n

o lexpression asymptotique pour n grand est une consquence de la formule de Stirling.


Les autres valeurs de n peuvent tre bornes par comparaison
 2  4
2(3`) 1 1
P (0, 0) > P2(3`1) (0, 0) et P 2(3`)
(0, 0) > P2(3`2) (0, 0).
6 6
1
La srie n P2n (0, 0) converge car son terme principal tend vers 0 comme n3/2
. La marche
alatoire en dimension 3 est donc transitoire.
Une approche combinatoire similaire pour les dimensions d > 4 montre que P2n (0, 0)
1
est asymptotiquement quivalent nd/2 . Par consquent la marche alatoire symtrique
est transitoire ds que d > 3.

On remarquera que la mesure ( x ) = 1 pour tout x de Zd est une mesure invariante


pour la marche alatoire. Par contre, il nexiste pas de mesure de probabilit invariante,
i.e. de mesure normalise par 1. Ce comportement spcifique des espaces dtats infinis
sera expliqu section 4.3.

4.2.2 Un critre analytique


Il est parfois plus facile dtudier la srie gnratrice des temps de retours dune
chane de Markov. Pour x, y dans E et s dans [0, 1], on pose


+
U ( x, y, s) = Ex s Ty 1{Ty+ <} = sn Px Ty+ = n).

n>1

On remarque que U ( x, x, 1) = Px Tx+ < .



4.2. APPLICATION : MARCHES ALATOIRES 53

Nous allons illustrer lutilisation de U en tudiant la marche alatoire dans Z de pro-


babilit de transition
P( x, x + 1) = p, P( x, x 1) = q
o p + q = 1.

Thorme 4.5.
Si p 6= 1/2, la marche alatoire est transitoire car P0 T0+ < = 1 |1 2p| < 1.


Si p = 1/2, la marche alatoire est rcurrente nulle car E0 ( T0+ ) = .

Dmonstration. En utilisant la proprit de Markov aprs un pas de temps, on obtient


 
U (1, 0, s) = s pU (2, 0, s) + q et U (1, 0, s) = s p + qU (2, 0, s) . (4.2)

Pour aller de 2 0, la marche doit dabord passer par 1. Le temps ncessaire pour at-
teindre 0 se dcompose donc sous la forme T0+ = T1+ + T10 o T10 est le premier
temps datteinte de 0 aprs avoir touch 1. La proprit de Markov forte applique aprs
le temps darrt T1+ permet dcrire
+
U (2, 0, s) = E2 s T1 1{T + <} s T10 1{T10 <} = E1 s T10 1{T10 <} U (2, 1, s)
 
1

= U (1, 0, s)U (2, 1, s) = U (1, 0, s)2 .

Par symtrie U (2, 0, s) = U (1, 0, s)2 . Ces relations rcrire les quations (4.2) et dob-
tenir
p
2
 1 1 4pqs2
U (1, 0, s) = s pU (1, 0, s) + q U (1, 0, s) =
2ps
p
1 1 4pqs2
U (1, 0, s) = s p + qU (1, 0, s)2

U (1, 0, s) =
2qs

En appliquant une nouvelle fois la proprit de Markov, on en dduit


 q
U (0, 0, s) = s pU (1, 0, s) + qU (1, 0, s) = 1 1 4pqs2 .

Si p 6= q, U (0, 0, s) admet une limite quand s tend vers 1

P0 T0 < = U (0, 0, 1) = 1 1 4pq = 1 |1 2p|.


 p

Si p = q = 1/2, le thorme de Polya 4.4 implique que la marche est rcurrente. Pour
tout s < 1, on peut driver U

+
1 1
s U (0, 0, s) = E0 T0+ s T0

1T + < = .
0
1 s2

Comme la limite diverge quand s tend vers 1, on en dduit que E0 T0+ 1T + < = . La

0
marche est donc rcurrente nulle : elle revient infiniment souvent en 0 mais lesprance
du temps de retour est infinie.
54 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

4.3 Mesures invariantes


Le thorme 3.10 sur les mesures invariantes dans le cas des espaces dtats finis
stend au cas dnombrable pour les chanes rcurrentes positives.

Thorme 4.6. Pour toute chane de Markov irrductible sur un espace dtats E dnombrable,
les deux assertions suivantes sont quivalentes :
(i) La chane est rcurrente positive.
(ii) Il existe une mesure de probabilit invariante.
De plus sil existe une mesure de probabilit invariante alors elle est unique et est donne par

1
x E, (x) = .
Ex ( Tx+ )

On rappelle que pour la marche alatoire dans Zd la mesure ( x ) = 1 est invariante


(que la chane soit rcurrente nulle ou transitoire). Par contre cette mesure ne peut pas
tre normalise en une probabilit.

Dmonstration ?. Limplication (i) donne (ii) est une consquence directe de la preuve du
thorme 3.10 dans le cas des espaces dtats finis.
Considrons maintenant limplication inverse et supposons que (ii) soit vrifie. La
preuve se dcompose en trois tapes.
tape 1. Montrons que tous les tats sont rcurrents.
La chane tant irrductible, les tats sont tous transitoires ou tous rcurrents. Suppo-
sons quils soient tous transitoires alors pour tous x et y de E

lim Pn ( x, y) = 0
n

car le nombre de visites en y est fini

Ex (Ny ) = Pn ( x, y) < .
n>0

Sil existe une mesure de probabilit invariante , elle vrifie pour tout temps n les rela-
tions
y E, (y) = ( x ) Pn ( x, y).
xE

Comme xE ( x ) = 1, on en dduit (par exemple en utilisant le thorme de conver-


gence domine) que

y E, (y) = lim
n
(x) Pn (x, y) = (x) nlim

Pn ( x, y) = 0.
xE xE

Ce qui contredit lexistence de la mesure . Par consquent, la chane de Markov doit tre
rcurrente.
tape 2. Montrons que la chane est rcurrente positive.
4.3. MESURES INVARIANTES 55

Soit x un tat de rfrence fix. Comme dans le thorme 3.10 pour les espaces dtats
finis, nous allons montrer que la mesure dfinie par les excursions issues de x
 
y E, (y) = Px Xn = y, Tx+ > n (4.3)
n>0

est invariante. Nous navons pas encore tabli que la chane est rcurrente positive, par
consquent il faut vrifier que la mesure est bien dfinie. Par lhypothse (ii), il existe
une mesure invariante qui vrifie

(y) = (z1 ) P(z1 , y) = ( x ) P( x, y) + ( z1 ) P ( z1 , y ).


z1 E z1 6 = x

En appliquant la proprit dinvariance aux tats z1 6= x

(y) = ( x ) P( x, y) + ( z2 ) P ( z2 , z1 ) P ( z1 , y )
z1 6 = x z2 E

= ( x ) P( x, y) + ( x ) P( x, z1 ) P(z1 , y) + ( z2 ) P ( z2 , z1 ) P ( z1 , y ).
z1 6 = x z1 6 = x z2 6 = x

On itre ` fois cette procdure



`1
(y) = ( x ) P( x, y) + P( x, zk ) . . . P(z1 , y)

k =1 z1 6= x,z2 6= x,
...zk 6= x

+ (z` ) P(z` , z`1 ) . . . P(z1 , y)


z1 6= x,z2 6= x,
...z` 6= x

`1  
> (x) Px Xn = y, Tx+ > n
n =1

o la dernire ingalit a t obtenue en identifiant le terme entre crochets par lesprance


du nombre de passages en y avant de revenir en x et en ngligeant le second terme qui
est positif. Quand ` tend vers linfini, ceci implique que pour tout y de E

(y) > ( x ) (y). (4.4)

La chane tant irrductible, la mesure est strictement positive pour tout x (cf. thorme
3.7). La mesure est donc bien dfinie et
1
Ex Tx+ = (y) 6 (x) (y) < .

y E y E

Ltat x est donc rcurrent positif. En rptant la preuve pour dautres tats de rfrence,
on en dduit que tous les tats de E sont rcurrents positifs, i.e. que la chane de Markov
est rcurrente positive.
tape 3. Reprsentation de la mesure invariante.
Un calcul identique celui du thorme 3.10 montre que (dfinie en (4.3)) est une
mesure invariante. On rappelle que x est ltat de rfrence pour construire et que
56 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

( x ) = 1. Supposons que ( x ) = 1 (quitte multiplier tous les coefficients par le facteur


1/ ( x )) alors largument utilis au thorme 3.7 permet de conclure lunicit = . En
effet la mesure = { (y) (y)}yE a tous ses termes positifs ou nuls daprs lingalit
(4.4). De plus est invariante car et le sont. Comme atteint son minimum en x car
( x ) = ( x ) ( x ) = 0, il suffit de suivre la preuve du thorme 3.7 pour montrer
= . On a donc identifi lunique mesure invariante telle que ( x ) = 1. Pour obtenir
une mesure de probabilit, il suffit maintenant de la normaliser et on retrouve
1
x E, (x) = .
Ex ( Tx+ )

Corollaire 4.7. Les tats dune chane de Markov irrductible et rcurrente sont tous rcurrents
positifs ou tous rcurrents nuls.
Dmonstration. Sil existe un tat rcurrent positif, on peut construire une mesure de pro-
babilit invariante (4.3) et on en dduit par le thorme 4.6 que tous les tats sont rcur-
rents positifs.

Le processus de naissance et de mort est un exemple classique de chane de Markov


valeurs dans N. Au temps n, on note Xn le nombre dindividus dans une population
ou de clients dans une file dattente et on suppose que ce processus volue comme une
chane de Markov de matrice de transition

P( x, x + 1) = p, P(0, 0) = 1 p et P( x, x 1) = 1 p si x > 1.

Le processus de naissance et de mort sinterprte comme une marche alatoire sur N


rflchie quand elle touche 0. Si p < 1/2 la chane de Markov aura tendance revenir
vers 0. Quel que soit ltat de initial, on sattend donc ce que la chane atteigne un
rgime stationnaire dcrit par une mesure invariante localise autour de 0. Si p > 1/2 la
chane de Markov va crotre en moyenne et elle va diverger vers linfini.
Thorme 4.8. On distingue deux comportements :
Si p 6 1/2, la chane est rcurrente.
Si p > 1/2, la chane est transitoire.
La chane de Markov admet des mesures invariantes de la forme
 x
p
x > 1, ( x ) = (0)
1 p

et elle est rcurrente positive si et seulement si p < 1/2.


Dmonstration. Tant que la chane na pas touch 0, elle se comporte comme une marche
alatoire sur Z avec probabilits de transition ( p, 1 p). On peut donc reprendre les
notations et largument de la preuve du thorme 4.5 pour obtenir
p
+ 1 1 4p(1 p)s2
U (1, 0, s) = E1 s T0 1{T + <} =

.
0 2ps
4.4. APPLICATION : BRANCHEMENT ET GRAPHES ALATOIRES 57

Au point 0, les nouvelles probabilits de transition sappliquent


p
 1 1 4p(1 p)s2
U (0, 0, s) = s (1 p) + pU (1, 0, s) = s(1 p) + .
2
Finalement, on obtient
p
1 1 4p(1 p) 1 1
P0 ( T0+ < ) = U (0, 0, 1) = (1 p) + = (1 p ) + | p | .
2 2 2
Ceci conclut la premire partie du thorme
(
1, si p 6 1/2
P0 ( T0 < ) =
+
2 2p, si p > 1/2

Une mesure invariante satisfait les relations


x > 1, ( x ) = p ( x 1) + (1 p) ( x + 1) et (0) = (1 p ) (0) + (1 p ) (1)
 
p
qui se rcrivent (1) = 1 p (0) et
   x
p  p 
i > 1, ( x + 1) ( x ) = ( x ) ( x 1) = (1) (0) .
1 p 1 p
La famille des mesures invariantes est donc indexe par un paramtre (0)
 x
p
x > 1, ( x ) = (0) .
1 p
Ces mesures ne peuvent tre normalises que pour p < 1/2 et dans ce cas la chane de
Markov est rcurrente positive. On remarque que la chane de Markov est rversible pour
ces mesures invariantes
P( x, x + 1) ( x ) = P( x + 1, x ) ( x + 1).

Exercice 4.9. Montrer quun processus de naissance et de mort de matrice de transition gnrale
P( x, x + 1) = p x > 0, P(0, 0) = 1 p0 et P( x, x 1) = 1 p x si x > 1
admet une mesure de probabilit invariante si et seulement si
n
p x 1
1 px < .
n > 0 x =1

4.4 Application : processus de branchement et graphes alatoires


Les processus de branchement ont de nombreuses applications allant de la dmo-
graphie, aux arbres phylogntiques en passant par la fission nuclaire. Nous allons d-
crire un exemple de processus de branchement, les arbres alatoires de Galton-Watson,
et montrer comment ces arbres permettent dtudier des graphes alatoires.
58 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

4.4.1 Arbres alatoires de Galton-Watson

Les processus de branchement que nous allons considrer modlisent le nombre din-
dividus au cours du temps dune population en fonction de rgles de reproduction. Le
modle t propos par Sir Francis Galton en 1873 pour dcrire lvolution des noms
de famille en Angleterre. lpoque les noms de famille tant transmis exclusivement
par les hommes, il suffisait de suivre le nombre de descendants masculins dans chaque
famille. Cette hypothse permet de considrer un seul type dindividus et de supposer
qu chaque gnration les individus se reproduisent selon la mme loi de probabilit.
On sintressera la taille de la population chaque gnration. Ce modle peut aussi
dcrire la fission des neutrons dans une raction nuclaire. Si cette fission sopre trop ra-
pidement cela peut conduire une explosion. La mutation de gnes dans une population
peut tre modlise par ces processus de branchement. Dautres applications des proces-
sus de branchement en cologie et dans les modles dvolution sont dtailles dans le
cours Modles alatoires en cologie et volution [15].

Les arbres alatoires de Galton-Watson sont des processus de branchement dfinis par
rcurrence. On se donne une loi = { pk }k > 0 sur N. On considre une suite ( 2 indices)
de variables alatoires indpendantes et identiquement distribues { it }i > 1,t > 1 de loi

k > 0, P( it = k ) = pk .

On notera le nombre dindividus au temps t par Zt . Au temps t = 0, on pose Z0 = 1. Au


temps t = 1, cet individu a Z1 = 11 enfants. Chaque enfant a lui mme un nombre de
descendants selon la loi . On dfinit ainsi par rcurrence
(
1t+1 + + Zt+t 1 , si Zt > 0
Zt+1 = (4.5)
0, si Zt = 0

Sil ny a plus de descendants partir dun temps t alors la population restera teinte
jamais.

F IGURE 4.4 Un exemple darbre alatoire aprs 7 gnrations.

La connaissance de la population au temps t + 1 ne dpend que de Zt et des variables


{ it+1 }i > 1
qui sont indpendantes du pass. Le processus { Zt }t > 0 est donc une chane
de Markov. Pour calculer sa matrice de transition, on suppose quil existe n individus au
4.4. APPLICATION : BRANCHEMENT ET GRAPHES ALATOIRES 59

temps initial
Z0
P(n, k ) = P Z1 = k Z0 = n = P `1 = k Z0 = n
 
`=1
n
=P `1 = k

= p i1 p i2 . . . p i n .
`=1 i1 ,...,in N
i1 ++in =k

On exclut les lois de reproduction pathologiques telles que


p1 = 1 : la taille de population reste constante
p0 + p1 = 1 et p0 > 0 : il y a au maximum un seul individu qui finit forcment par
mourir.
p0 = 0 et p1 < 1 : la population ne fait que crotre.

Si la population disparat au temps t alors Zs = 0 pour tous les temps suivants s > t.
Ltat 0 est donc absorbant pour cette chane de Markov. On remarque quaucun autre
tat ne peut tre rcurrent car tous les tats communiquent avec 0. En effet, la population
peut disparatre en un seul pas de temps

P Z1 = 0 | Z0 = n = p0n > 0.

n > 1,

Par consquent, il nexiste que deux comportements possibles : la population disparat


ou sa taille tend vers linfini.

Le comportement asymptotique du processus de branchement est dtermin par le


nombre moyen denfants par individu = E( 11 ). Pour sen convaincre, il suffit dana-
lyser E( Zt ) la taille moyenne de la population au temps t. En utilisant la proprit de
Markov et en conditionnant par la gnration prcdente, on a

E Zt+1 = E Zt+1 Zt = n P Zt = n = E 1t+1 + + nt+1 P Zt = n
    
n =0 n =0

= E 1t+1 ) nP Zt = n = E Zt = t+1 E Z0 = t+1
  
(4.6)
n =0

o on a utilis que la loi de reproduction est identique pour tous les individus. On dis-
tingue donc trois rgimes
Le rgime sous-critique < 1 : le nombre moyen denfants tend vers 0 exponentiel-
lement vite et la population va disparatre presque srement. Pour le dmontrer, il
suffit de remarquer que
P( Zt > 1) 6 E( Zt ) 6 t
et dutiliser le thorme de Borel-Cantelli.
Le rgime sur-critique > 1 : le nombre moyen denfants tend vers linfini exponen-
tiellement vite et nous allons montrer que la taille de la population diverge avec
une probabilit positive.
Le rgime critique = 1 : le nombre moyen denfants est constant et ceci ne suffit
pas dcrire le comportement trs fluctuant de la population. Celle-ci va steindre
avec probabilit proche de 1 ou diverger avec faible probabilit.
60 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

Pour prciser ces comportements, nous allons tudier le premier temps dextinction,
i.e. le temps datteinte de 0 par la chane de Markov

T0 = inf t > 1; Zt = 0 .

On dfinit la fonction gnratrice de la loi de reproduction


t
u [0, 1], (u) = E u 1 = un pn .
n>0

Le thorme suivant confirme lheuristique tablie par le calcul de la taille moyenne


de la population

Thorme 4.10. Si 6 1, la population steint presque srement

P T0 < = 1.


Si > 1, la population steint avec probabilit ]0, 1[

P T0 < =


o est lunique point fixe dans ]0, 1[ de () = . Par consquent la taille de la population
diverge avec probabilit 1 > 0.

Dmonstration. Commenons par calculer la fonction gnratrice de Zt

t (u) = E u Zt = un P Zt = n .
 
u [0, 1],
n>0

La proprit de Markov et lindpendance des variables { it+1 }i > 0 permettent dcrire



E E
t +1
++ nt+1
t +1 ( u ) = u Zt+1 Zt = n P Zt = n = P Zt = n
   
u 1
n =0 n =0
n
E
t +1
P Zt = n .
 
= u `
n=0 `=1

t +1 
avec la convention 0`=1 E u ` = 1 pour n = 0. En identifiant la fonction gnratrice
de la loi de reproduction, on obtient la relation de rcurrence

t +1 ( u ) = (u)n P Zt = n = t (u) .
 
n =0

On en dduit
t +1 ( u ) = ( u ).
| {z }
t+1 fois

Ceci peut aussi scrire


t +1 ( u ) = t u

.
4.4. APPLICATION : BRANCHEMENT ET GRAPHES ALATOIRES 61

1.0 1.0

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0

F IGURE 4.5 Graphes de la fonction gnratrice et de x x. Dans le cas sous-critique < 1,


reprsent gauche, lunique point fixe ( x ) = x est x = 1. Dans le cas sur-critique > 1,
reprsent droite, il existe un point fixe x < 1.

On note xt = P( Zt = 0) la probabilit que la population ait disparu au temps t. On


remarque que xt = t 0 , par consquent elle satisfait la rcurrence

x t +1 = ( x t ) avec x0 = 0.

Lasymptotique de xt quand t tend vers linfini dpend des points fixes de ( x ) = x. On


vrifie que
(1) = 1 et 0 (u) = nun1 pn > 0.
n>0

La fonction est donc strictement croissante et elle va intersecter la droite x x uni-


quement en 1 si 0 (1) 6 1 et en un autre point < 1 si 0 (1) > 1 (cf. figure 4.5). Comme
0 (1) = n > 0 n pn = , on a identifi les deux comportements
(
1, si 6 1
lim xt =
t , si > 1

On sait que

{ T0 < } =
[
{ Zt = 0}
t =0

qui est une runion croissante dvnements car { Zt = 0} { Zt+1 = 0}. On en dduit
donc que
(
1, si 6 1
P T0 < = lim P Zt = 0 =
 
t , si > 1

Inversement si > 1, la probabilit que la population ne steigne jamais est P T0 =


= 1 et comme les tats non nuls sont transitoires la taille de la population diverge


avec probabilit 1 .

Le comportement asymptotique des arbres peut tre tudi plus prcisment. Nous
reviendrons sur le comportement asymptotique du cas sur-critique au chapitre 11.
62 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

4.4.2 Graphes alatoires dErds-Rnyi


Les graphes alatoires interviennent dans des contextes varis pour modliser par
exemple des rseaux sociaux, le rseau internet ou des rseaux neuronaux. Selon les ap-
plications, les dtails de chaque graphe alatoire diffrent mais il est intressant de clas-
sifier ces graphes en fonction de structures invariantes et de proprits communes. Dans
cette section, nous allons considrer un modle spcifique de graphes alatoires qui a t
invent par Erds et Rnyi et montrer que la connectivit de ces graphes peut sanalyser
laide dun processus de branchement.

F IGURE 4.6 Toutes les parties connexes dun graphe alatoire dErds-Rnyi sont reprsen-
tes : au dessus la partie connexe principale et en dessous les plus petites composantes connexes
(certaines sont rduites un seul site).

Pour N un entier donn, on considre S = {1, . . . , N } un ensemble de sites relis


alatoirement selon la procdure suivante. Soit > 0, on dfinit N ( N 1)/2 variables
alatoires de Bernoulli indpendantes indexes par les couples ( x, y) S 2 avec x 6= y

P x,y = 1 = 1 P x,y = 0 =
 
. (4.7)
N
On supposera que N est trs grand et donc que < N. On ne distingue pas lorientation
des artes ( x, y) et on pose x,y = y,x . tant donne une ralisation {x,y }(x,y)S 2 , on
construit un graphe G = (S , E ) dont les artes relient uniquement les sites x et y de S tels
que x,y = 1. Ce procd permet de gnrer un graphe alatoire dErds-Rnyi N sites
(cf. figure 4.6).
Deux sites x et y sont connects dans G sil existe une suite dartes allant de x y,
cest dire k sites de S (avec k 6 N) tels que x,x1 = x1 ,x2 = = xk1 ,xk = xk ,y = 1. Un
tel chemin sil existe nest pas ncessairement unique, mais on dfinit la distance de x
y, note dist( x, y), comme le nombre minimal dartes pour connecter les sites x, y. Si les
sites ne sont pas connects on posera dist( x, y) = . Pour tout x dans S , on dfinit C( x )
la composante connexe de x comme lensemble des sites y connects x.
4.4. APPLICATION : BRANCHEMENT ET GRAPHES ALATOIRES 63

Nous allons tudier la structure des connections dans les graphes dErds-Rnyi en
fonction des valeurs de . tant donne une ralisation du graphe, on note C ? le cardinal
de la plus grande de ses composantes connexes (il se peut quil y ait plusieurs compo-
santes connexes de taille C ? ). La figure 4.7 reprsente une simulation numrique de la
densit de la composante connexe maximale E(C ? )/N pour diffrentes valeurs de
N. Pour obtenir une approximation de lesprance ( tant fix), on simule un grand
nombre K de ralisations de graphes et on prend la moyenne des tailles {Ci? }i 6 K des
composantes maximales de chacun de ces graphes
K
1
E( C ? ) '
K Ci? .
i =1

La loi des grands nombres permet daffirmer que lapproximation est correcte quand K
tend vers linfini. Les simulations de la figure 4.7 ont t faites pour K = 1000 et des
fluctuations persistent.
On remarque que pour < 1 cette densit semble tendre vers 0 quand N augmente.
Ceci veut dire quaucune composante connexe ne recouvre une fraction macroscopique
des sites. Nous allons montrer que pour < 1, les composantes connexes typiques dun
graphe dErds-Rnyi sont de taille finie mme quand N tend vers linfini. Dans ce cas, le
graphe nest quune collection de petits sous graphes disjoints voire mme de sites isols.
Pour > 1, le comportement change radicalement et la plus grande composante
contient une densit positive de sites. On dit quil y a une transition de phase au point
critique c = 1. La figure 4.6 reprsente une ralisation dun graphe pour > 1. On
remarque quil existe une composante connexe principale qui relie une grande partie des
sites et que les autres composantes connexes sont beaucoup plus petites. Il existe un lien
entre les composantes connexes et les arbres de Galton-Watson, en particulier on peut
observer que la composante principale du graphe ressemble un arbre au voisinage de
chaque site, mme si plus grande chelle on observe des boucles.

0.8

0.6

0.4

0.2

0.5 1.0 1.5 2.0 2.5 3.0

F IGURE 4.7 Densit moyenne de la composante connexe maximale dun graphe alatoire
dErdsRnyi pour trois valeurs de N = 50, 100, 200 et variant entre 0 et 3.

Thorme 4.11. Pour < 1, la composante connexe associe au site 1 a une taille moyenne
borne uniformment en N
1
E |C(1)| 6

1
64 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

o |C(1)| est le cardinal de C(1).


Dmonstration. Lide de la preuve consiste remarquer quun site a en moyenne NN1
voisins car

E(x,y ) = ( N 1) N .
yV \{ x }

Ses voisins eux-mmes seront relis environ voisins et ainsi de suite. Cette structure
ressemble celle dun arbre de Galton-Watson et elle permet de prdire lexistence de
comportements diffrents selon que est plus grand ou plus petit que 1. Cependant
la topologie des graphes est plus complexe que celle des arbres car il peut exister des
boucles et il faut une preuve spcifique pour prciser cette analogie.
Nous allons explorer la composante connexe C(1) la manire dun arbre. Au temps
initial t = 0, on pose A0 = {1}, I0 = {2, 3, . . . , N } et R0 = . Les trois ensembles vont
voluer au cours du temps selon la rgle suivante (cf. figure 4.8)

R t +1 = R
t At

At+1 = xAt y It ; (4.8)
S
x,y = 1

I t +1 = I t \ A t +1

Lensemble At reprsente les sites actifs au temps t, ceux ci vont sapparier avec les sites
inactifs de It qui sont lis At dans le graphe dErds-Rnyi. Ces nouveaux sites de-
viennent actifs au temps t + 1 et les sites de At viennent grossir lensemble Rt+1 . Ainsi
la composante connexe C(1) est explore entirement au cours de ce processus qui se
termine au temps 6 N quand A = et C(1) = R .

At
Rt
It

F IGURE 4.8 La composante connexe C(1) est explore en dcouvrant les sites voisins chaque
tape. Les sites actifs At sont reprsents distance 2 et ils sont connects aux sites de It marqus
en blanc. On remarque que cette exploration peut conduire dcouvrir le mme site sil est reli
plusieurs sites de At . Contrairement aux arbres, les composantes connexes du graphe peuvent
avoir des boucles.

Le processus dexploration Rt ressemble un arbre de Galton-Watson. La diffrence


tant que la distribution des descendants des sites actifs dpend de t car les descendants
sont choisis dans lensemble It qui se rduit au cours du temps. Nous allons montrer que
larbre de Galton-Watson permet de contrler la croissance du processus dexploration.
On se donne une collection de variables alatoires indpendantes { x,y t } avec t > 1,

x > 1 et y {1, . . . , N }. Ces variables sont identiquement distribues selon une loi de
4.4. APPLICATION : BRANCHEMENT ET GRAPHES ALATOIRES 65

Bernoulli

P x,y
t
= 1 = 1 P x,y
t
 
=0 = .
N
On dfinit U0 = 1 et on construit larbre de Galton-Watson dont la population au
temps t + 1 est donne par
N +Ut |At | N
Ut+1 = x,y + t
x,y + x,y
t
(4.9)
x At , yIt x At , yItc x = N +1 y =1

o |At | dsigne le cardinal de At . Le second terme ajoute des descendants fictifs dans
{1, . . . , N } \ It pour compenser la rduction du cardinal de It chaque pas. Ces des-
cendants fictifs ont ensuite eux mme une descendance qui est prise en compte dans le
troisime terme de (4.9). Par consquent {Ut } est un processus de branchement dont la

loi de reproduction est une loi binomiale de paramtres ( N, N ), i.e. que la distribution des
N
enfants de chaque site a la mme loi que i=1 i o les i sont des variables de Bernoulli
indpendantes de paramtre /N. Il est important de remarquer que quand N tend vers
linfini la loi de reproduction converge vers une loi de Poisson de paramtre .

N k
!    
N
k k

N N
P i = k = 1 exp() .
i =1
k N N k!

On sattend donc ce que de trs grands systmes (N ) convergent vers une struc-
ture limite et soient bien dcrits par des arbres de Galton-Watson de loi de reproduction
donne par cette loi de Poisson. La moyenne de la loi de reproduction est . Si < 1, le
thorme 4.10 implique que les arbres seront finis presque srement.
Comme le processus {Ut } est construit en ajoutant des sites fictifs (4.9) par rapport
ceux existants dans la composante C(1) du graphe, son cardinal domine toujours le
cardinal de C(1). On en dduit que

1
E |C(1)| = E(|At |) 6 E(Ut ) = t = 1

(4.10)
t =0 t =0 t =0

car lidentit (4.6) implique que E(Ut ) = t . Ceci conclut le thorme.

Pour > 1, la comparaison avec un arbre permet de montrer quil existe une compo-
sante connexe contenant une proportion de sites proportionnelle N. Le nombre moyen
denfants tant gal , la population de larbre a une probabilit positive de diverger
ce qui indique que la composante connexe C(1) doit tre trs grande. La preuve est dli-
cate car la comparaison entre un arbre et le processus dexploration de C(1) (dcrit dans
la preuve du thorme 4.11) nest plus valable quand la composante connexe explore
Rt est trop grande : les boucles ne peuvent plus tre ngliges et lajout des sites fictifs
devient trop important. La preuve complte est faite dans le livre de R. Durrett [10].

La structure des graphes dErds-Rnyi est trs bien comprise mathmatiquement.


On peut par exemple montrer que pour > 1, deux sites appartenant la compo-
sante connexe principale sont typiquement distance log N (bien que cette composante
contienne un nombre de sites proportionnel N).
66 CHAPITRE 4. ESPACES DTATS DNOMBRABLES

Une application possible est dinterprter un graphe alatoire comme un ensemble


dagents en interaction (rseau informatique, systme financier) et dtudier la rsis-
tance de ce graphe une perturbation (virus informatique, dfaut de paiement). Un
exemple simple consiste retirer alatoirement des liens avec une probabilit p et les
garder avec probabilit (1 p). On souhaite dterminer sil existera toujours une compo-
sante connexe dordre N aprs cette modification du rseau. Dans le cas particulier des
graphes dErds-Rnyi, le rseau modifi reste quivalent un graphe dErds-Rnyi de
paramtre (1 p). Si (1 p) est plus grand que 1 alors le graphe restera fortement
connect, sinon la composante connexe principale sera dcompose en une multitude de
composantes disjointes. Un autre type de graphes alatoires sera construit au chapitre 11
et de nombreux autres modles de graphes alatoires figurent dans le livre [10].
Chapitre 5

Ergodicit et convergence des chanes


de Markov.

Ltude des comportements asymptotiques de variables alatoires constitue un aspect


essentiel des probabilits. La loi des grands nombres et le thorme central limite en sont
deux exemples trs importants. Ce chapitre est ddi aux comportements asymptotiques
des chanes de Markov pour lesquels les mesures invariantes jouent un rle clef.

5.1 Ergodicit
Soient {Yn }n > 0 des variables alatoires indpendantes et identiquement distribues
valeurs dans R telles que lesprance E(| f (Y0 )|) soit finie pour une fonction f donne.
Le thorme de la loi des grands nombres implique la convergence presque sre
n 1
1 n
n f (Yi ) E( f (Y0 )). (5.1)
i =0

Ce thorme se gnralise aux chanes de Markov rcurrentes positives et on parle alors


de thorme ergodique.

5.1.1 Thorme ergodique


Thorme 5.1. Soit { Xn }n > 0 une chane de Markov irrductible, rcurrente positive sur un
espace dtats E dnombrable. On notera son unique mesure de probabilit invariante. Soit F
une fonction de E dans R dont lesprance sous est finie E (| F |) = xE | F ( x )| ( x ) < .
On suppose que la donne initiale X0 est distribue selon une mesure de probabilit sur E.
Les moyennes le long des trajectoires convergent presque srement
n 1
1 n
n F ( Xi ) E ( F ). (5.2)
i =0

Si F ( x, y) est une fonction de E E dans R telle que x,yE ( x ) P( x, y)| F ( x, y)| est finie alors
n
1 n
F ( Xi 1 , Xi ) E F ( X0 , X1 ) =

( x ) P( x, y) F ( x, y). (5.3)
n i =1 x,y E

67
68 CHAPITRE 5. ERGODICIT ET CONVERGENCE

Dmonstration. Supposons que la chane parte initialement dun tat x de E fix, i.e. que
= x . Cet tat x va servir dtat de rfrence pour reprsenter lunique mesure inva-
riante associe cette chane de Markov rcurrente positive
   + 
Tx 1
n > 0 Px Xn = y, Tx+ > n Ex n= 0 1 Xn = y
y E, (y) =   =   . (5.4)
Ex Tx+ Ex Tx+
 
Contrairement lexpression (4.3), le facteur 1/Ex Tx+ sert normaliser la mesure. La
probabilit (y) dcrit la statistique des passages dans ltat y pendant une excursion de
la chane de Markov. Par ailleurs, les diffrentes excursions (cf. figure 5.1) sont indpen-
dantes par la proprit de Markov forte. Nous allons donc dcomposer les trajectoires de
la chane de Markov en excursions pour tablir la correspondance avec .

Tx(2)
Tx(0) Tx(1) Tx(3) N

F IGURE 5.1 Dcomposition de la trajectoire dune chane de Markov en trois excursions entre
les passages en x. Le dernier segment jusquau temps N nest pas une excursion complte.

Rappelons les notations sur les temps de retour. Pour tout entier k > 1, on dfinit le
kime temps de retour en x par
(k) ( k 1)
Xn = x N { }

Tx = inf n > Tx + 1;
(0) (1)
o Tx = 0 et Tx concide avec Tx+ . Par hypothse, la chane est rcurrente et tous les
temps darrt sont finis presque srement. On dfinit les variables alatoires {Yk }k > 0
associes la contribution de chaque excursion
( k +1)
Tx 1
Yk = F ( X` ).
(k)
`= Tx

Par la proprit de Markov forte dmontre au thorme 2.6, les variables {Yk } sont ind-
pendantes et identiquement distribues. Leur esprance scrit en fonction de la mesure
invariante
+
Tx 1
! + Tx 1
! + !
Tx 1
E(Y1 ) = Ex F ( X` ) = Ex F ( y ) 1 X` = y = F ( y )E x 1 X` = y
`=0 `=0 y E y E `=0
   
= Ex Tx+ F (y) (y) = Ex Tx+ E ( F )
y E
5.1. ERGODICIT 69

o lhypothse E (| F |) < nous a permis dutiliser le thorme de Fubini pour permu-


ter la somme et lesprance. La loi des grands nombres (5.1) pour les variables indpen-
dantes implique la convergence presque sre
(k)
Tx 1 k 1
1 1 k
 
k F ( X` ) =
k Yi Ex Tx+ E ( F ).
`=0 i =0

Ce rsultat appliqu F = 1 permet dcrire


(k)
Tx k
 
Ex Tx+ . (5.5)
k
Par consquent en indexant la trajectoire par les temps de retours, on a prouv la conver-
gence presque sre
(k)
Tx 1
1 k
(k) F ( X` ) E ( F ). (5.6)
Tx `=0
Pour obtenir le thorme ergodique, il suffit de contrler la contribution de la trajectoire
aprs le dernier passage en x et de montrer quelle ne joue aucun rle la limite (cf. figure
5.1). On note Nn le nombre de passages en x avant le temps n, cest dire
n
1 X` = x
(Nn ) (Nn +1)
Nn = Tx 6 n < Tx .
`=1

La chane tant rcurrente Nn diverge quand n tend vers linfini. On peut dcomposer
F en une partie positive et ngative F = F + F et traiter chaque terme sparment.
Supposons donc que F soit positive, alors
(Nn ) (Nn +1)
(Nn ) Tx 1 n 1 (Nn +1) Tx 1
Tx 1 1 Tx 1
(Nn +1) (Nn ) F ( X` ) 6
n F ( X` ) 6 (Nn ) (Nn +1) F ( X` ),
Tx Tx `=0 `=0 Tx Tx `=0

o on a utilis
(Nn ) (N ) (Nn +1) (Nn +1)
Tx Tx n Tx Tx
(Nn +1)
6 et 6 (Nn )
.
Tx n n Tx
La convergence de (5.5) implique que presque srement
(Nn )
Tx n
(N +1)
1.
Tx n
Il suffit donc dappliquer (5.6) pour conclure que pour une donne initiale X0 = x
n 1
1 n
n F ( X` ) E ( F ).
`=0

La limite ne dpend pas de ltat de rfrence x choisi. Par consquent, si la donne


initiale X0 est choisie selon une mesure , il suffit de sommer sur la probabilit de chaque
tat initial et dappliquer la relation prcdente.
70 CHAPITRE 5. ERGODICIT ET CONVERGENCE

Pour la seconde partie du thorme, il suffit de remarquer que Zn = ( Xn1 , Xn ) est


une chane de Markov valeurs dans un sous-ensemble de E E de matrice de transi-
tion
P Z2 = (y1 , y2 ) Z1 = ( x1 , x2 ) = 1y1 = x2 P( x2 , y2 )


et de mesure de probabilit invariante ( x, y) = ( x ) P( x, y). Insistons sur le fait que la


chane de Markov { Zn }n > 1 nest pas irrductible sur E E mais seulement sur le sous-
ensemble o elle prend ses valeurs. La limite (5.3) se dduit du thorme ergodique
(5.2) appliqu la chane { Zn }n > 1 . Le rsultat se gnralise facilement aux fonctions F
k variables.

Pour une chane de Markov rcurrente positive, le thorme ergodique (5.2) appli-
qu la fonction F (y) = 1y= x permet dinterprter la mesure invariante comme la
frquence de visites des tats par la chane de Markov
n 1
1 n 1
n 1 X` = x ( x ) =
Ex Tx+
 presque srement.
`=0

Cette ingalit reste vraie


 pour les chanes de Markov rcurrentes nulles et transitoires
pour lesquelles Ex Tx+ = .
Thorme 5.2. Soit { Xn }n > 0 une chane de Markov rcurrente nulle ou transitoire valeurs
dans E dnombrable alors pour tout x de E
n 1
1 n
n 1 X` = x 0 presque srement. (5.7)
`=0

Dmonstration. Si la chane de Markov est transitoire alors elle ne repassera quun nombre
fini de fois par un tat par consquent `=0 1 X` = x est fini presque srement et (5.7) est
vrifi.
On rappelle que pour une fonction f positive, la loi des grands nombres (5.1) reste
vraie mme si E( f (Y0 )) =
1 n n
n i
f (Yi ) .
=0
Pour le dmontrer, il suffit dappliquer la loi des grands nombres la fonction tronque
inf{ f , K } puis de faire tendre K vers linfini.
Si la chane de Markov est rcurrente nulle, on peut appliquer la preuve du thorme
5.1 pour obtenir par (5.5) la convergence presque sre
( k +1)
Tx k
.
k
(Nn )
En utilisant les notations du thorme 5.1 et le fait que Tx 6 n, on peut crire
n
1 Nn Nn n
n 1 X` = x =
n
6 (N ) 0
`=0 Tx n
car la chane de Markov est rcurrente et Nn converge presque srement vers linfini.
5.1. ERGODICIT 71

La dcomposition des trajectoires en excursions indpendantes permet aussi de d-


montrer lanalogue du thorme central limite pour des chanes de Markov rcurrentes
positives. Une preuve diffrente du thorme central limite sera faite au chapitre 10.

5.1.2 Application : algorithme PageRank de Google


Le principe du moteur de recherche Google consiste indexer les pages du web
par des robots (web crawler). Ces logiciels sondent et conservent automatiquement le
contenu de chaque site web, dans un catalogue facile parcourir. Ceci donne lieu un ca-
talogue index de pages web de taille gigantesque de lordre de 5 1010 (daprs Google).
Un ordre de priorit est attribu aux pages web par la procdure PageRank qui a t
dveloppe par Larry Page et Sergey Brin en 1998. Le logiciel Google fournit ensuite len-
semble des pages qui rpondent une requte donne suivant lordre de priorit tabli
par PageRank. Avant Google, les utilisateurs devaient attendre plus longtemps les re-
tours des moteurs de recherche. Quand ces retours taient enfin disponibles, la liste des
pages indiques contenait souvent des informations peu importantes et des liens inutiles
apparaissaient invariablement parmi les premiers retours, alors que des liens importants
ntaient pas toujours extraits. Linformation disponible sur le web nest pas structure
sur le modle des bases de donnes traditionnelles, elle est plutt auto-organise. La
taille gigantesque du web depasse de trs loin les techniques traditionnelles de recherche
documentaire. La mthode implmente dans la procdure PageRank a compltement
rvolutionn le fonctionnement des moteurs de recherche et a permis de mieux rpondre
aux besoins des utilisateurs.
PageRank a t dvelopp lUniversit de Stanford dans le cadre dun projet de
recherche commenc en 1995 par Larry Page (do le nom !) et rejoint plus tard par Sergey
Brin. Ils sont tous les deux diploms dun Master on Computer Science Stanford. Cette
aventure extraordinaire a conduit Page et Brin fonder Google en 1998 mais, pour la
petite histoire, ils nont jamais achev le programme doctoral (PhD) de Stanford.

Nous allons dcrire le principe de fonctionnement de PageRank en gardant lesprit


que de nombreuses amliorations ont t introduites depuis afin de rpondre aux divers
dtournements des utilisateurs. Lobjectif est dassocier une page web i un indice de
popularit (i ). Lide est de dire quune page web i est importante si de nombreux liens
pointent sur cette page. En particulier si un site j trs populaire pointe sur la page i, il va
gnrer beaucoup de connections sur i et ainsi augmenter la popularit de i. Cette rgle
empirique conduit la relation suivante

1
(i ) = deg( j) ( j) ,
j i

o on note j i si la page j pointe sur la page i et deg( j) le nombre de liens partants


de la page j. La page j transmet son indice de popularit proportionnellement entre les
deg( j) pages web auxquelles elle renvoie. Cette relation dfinie la mesure invariante
dune marche alatoire sur le graphe G = (S , E ) dont les sites S sont indexs par les
pages web et les artes E par les liens entre les sites. Quand les liens du graphe ne sont pas
deg( x )
orients, une telle marche a t dfinie en (3.1) et sa probabilit invariante ( x ) = 2|E |
72 CHAPITRE 5. ERGODICIT ET CONVERGENCE

calcule en (3.2). Pour valuer , une possibilit est dindexer de faon systmatique tous
les liens, mais le graphe du web est compliqu et il volue sans cesse. Loption retenue
par lalgorithme PageRank consiste laisser faire le hasard en suivant des marches ala-
toires qui voluent de pages en pages selon les liens et en indexant le contenu chaque
fois. Le thorme ergodique 5.1 permet ensuite de retrouver la mesure invariante , i.e.
les indices de popularit, en moyennant sur les trajectoires des marcheurs.
La vitesse de convergence dun algorithme est fondamentale dans les applications in-
dustrielles. Pour cette raison, Brin et Page ont introduit la matrice de transition de Google
G de composantes
1 1
G (i, j) = 1 i j + (1 ) pour tous i, j S , (5.8)
deg(i ) N
o N est le cardinal de S et un paramtre dans ]0, 1[ appel facteur damortissement.
Avec probabilit 1 , les marches alatoires sont relances sur un site choisi au hasard
parmi les N sites de S . Cette modification de la matrice de transition rappelle le com-
portement de linternaute qui suit quelques liens puis au bout dun moment (avec une
probabilit 1 ) se dirige vers un de ses liens favoris que lon suppose distribus uni-
formment sur lensemble des pages. Le choix de la valeur du paramtre est dlicat. Le
souci de rapidit de la convergence de lalgorithme nous pousse choisir proche de 0,
mais ceci conduirait une mesure invariante qui ne reflterait plus la vraie structure du
web (toutes les pages auraient la mme probabilit 1/N). La valeur exacte du paramtre
est un secret gard de Google, mais il semble quelle se situe autour de 0, 85.

5.2 Convergence
Reprenons lexemple de la chane de Markov deux tats {1, 2} (cf. figure 3.1 et qua-
tion (3.3)) dont la matrice de transition et la mesure invariante sont donnes par
 
1 p p q p
P= , (1) = , (2) =
q 1q p+q p+q
avec p, q ]0, 1[. Cette matrice de transition se diagonalise facilement
     
1 (2) 1 0 (1) (2)
P=
1 (1) 0 1 pq 1 1
et peut tre multiplie n fois
       
n 1 (2) 1 0 (1) (2) n (1) (2)
P = .
1 (1) 0 (1 p q ) n 1 1 (1) (2)
Quand le temps tend vers linfini, les probabilits de transition convergent exponentiel-
lement vite vers la mesure invariante
x, y {1, 2}, lim Px ( Xn = y) = (y).
n

Ltat initial napparat plus dans la limite.


Lenjeu de cette section est de dmontrer que la convergence en temps long vers la
mesure invariante est une proprit trs gnrale des chanes de Markov rcurrentes po-
sitives et de quantifier la vitesse de convergence.
5.2. CONVERGENCE 73

5.2.1 Apriodicit et convergence


Une consquence du thorme ergodique 5.1 est la convergence pour tout tat initial
x de
1 n  n

n `=0
Px X` = y (y).

Ceci ne suffit pas impliquer que limn Px Xn = y = (y). Pour sen convaincre,


considrons la chane de Markov deux tats de matrice de transition


 
0 1
P=
1 0

dont le comportement est priodique P1 Xn = 1 = 1 P1 Xn = 2 = (1 + (1)n )/2.


 

Un autre exemple est la marche alatoire sur le domaine priodique {1, . . . , 2L} avec un
nombre pair de sites (cf. figure 5.3). Si la marche part de 1 au temps 0, elle ne pourra
atteindre un site pair qu des temps impairs.
15

10

20 40 60 80 100

-5

-10

-15

F IGURE 5.2 La marche alatoire sur lintervalle priodique {1, . . . , 2L} reste sur les sites noirs
au temps pairs si elle est partie dun site noir. Le schma de droite reprsente 3 ralisations dune
mme chane de Markov. Sous les hypothses du thorme 5.5, la mesure invariante peut sobtenir
en moyennant les valeurs de plusieurs trajectoires un temps donn.

Pour dmontrer la convergence, il faut restreindre la classe des matrices de transition


aux chanes de Markov apriodiques.

Dfinition 5.3. Une chane de Markov irrductible surE est apriodique si pour tous x, y de E
il existe n( x, y) N tel que la probabilit Px Xn = y = Pn ( x, y) est strictement positive ds
que n > n( x, y).

Cette dfinition permet dviter les pathologies dcrites prcdemment car une chane
de Markov apriodique a une probabilit positive de connecter 2 tats ds que le temps
est assez grand. On peut facilement se ramener des chanes de Markov apriodiques en
transformant la matrice de transition. La matrice Q = ( I + P)/2 est associe la version
"fainante" de la chane de Markov : avec probabilit 1/2 la chane reste sur place et avec
probabilit 1/2 elle fait un saut selon la matrice P.
74 CHAPITRE 5. ERGODICIT ET CONVERGENCE

Lemme 5.4. Si la chane de Markov sur E est irrductible et si un seul site x est apriodique,
cest dire quil vrifie

Px Xn = x = Pn ( x, x ) > 0 ds que n est suffisamment grand




alors la chane est apriodique.

Dmonstration. Soient y, z deux tats de E. Comme la chane est irrductible, il existe


deux entiers r et s tels que Pr (y, x ) > 0 et Pr ( x, z) > 0, on en dduit que pour tout n
suffisamment grand

Pr+n+s (y, z) > Pr (y, x ) Pn ( x, x ) Ps ( x, z) > 0.

La chane est donc apriodique.

La dfinition 5.3 nest pas la seule caractrisation des chanes apriodiques et nous
reviendrons par la suite sur cette notion. Pour le moment, nous allons montrer une cons-
quence importante de lapriodicit.

Thorme 5.5. Soit { Xn }n > 0 une chane de Markov irrductible et apriodique de mesure in-
variante sur un espace dtats E dnombrable. Pour toute distribution initiale sur E, la dis-
tribution de { Xn }n > 0 converge vers quand n tend vers linfini

lim P Xn = x = ( x ).

n

Ce thorme peut sinterprter de la faon suivante. Pour n trs grand, la mesure


invariante est bien approche par P Xn = x et cette distribution au temps n peut
elle mme tre obtenue par la loi des grands nombres en simulant plusieurs ralisations
indpendantes de la chane de Markov
K
1
( x ) ' P Xn = x = lim 1{ X ( ) = x}

k
K K n
k =1

(k)
o { Xn }n > 0 sont des ralisations indpendantes de la chane de Markov. Il y a donc
deux approches complmentaires pour estimer ( x ) : on moyenne la frquence de pas-
sages en x le long dune trajectoire (cest le thorme ergodique 5.1 ) ou on fixe un temps
n et on construit un histogramme partir de plusieurs simulations indpendantes (cf.
figure 5.2).

Dmonstration. La preuve repose sur une mthode de couplage et ncessite plusieurs


tapes. On considre { Xn }n > 0 et {Yn }n > 0 deux ralisations indpendantes de la chane
de Markov dont les tats initiaux diffrent : X0 = x et Y0 a pour distribution initiale la
mesure invariante .
tape 1 : La chane de Markov jointe Wn = ( Xn , Yn ) est irrductible et rcurrente positive.
On voit facilement que processus Wn = ( Xn , Yn ) est une chane de Markov dans E E
de matrice de transition
 
Pb ( x1 , y1 ), ( x2 , y2 ) = P( x1 , x2 ) P(y1 , y2 ).
5.2. CONVERGENCE 75

Lirrductibilit est une consquence de lapriodicit car pour tous les ( x1 , y1 ) et ( x2 , y2 )


dans E E  
Pbn ( x1 , y1 ), ( x2 , y2 ) = Pn ( x1 , x2 ) Pn (y1 , y2 ) > 0

ds que n est assez grand. Lapriodicit de la chane est essentielle pour prouver lirr-
ductibilit, en effet si { Xn }n > 0 et {Yn }n > 0 taient deux ralisations dune marche ala-
toire sur {1, . . . , 2L} (cf. figure 5.2) lune partant dun nombre pair et lautre dun nombre
impair, alors le couple form par Wn ne pourra jamais atteindre tous les sites {1, ..., 2L}2
et en particulier les trajectoires { Xn }n > 0 et {Yn }n > 0 ne se rencontreront jamais.
Comme Xn et Yn ont pour mesure invariante , il est facile de vrifier que {Wn }n > 0
a pour mesure invariante la mesure produit

( x, y) E E, ( x, y) = ( x ) (y).

Par le thorme 4.6, la chane {Wn }n > 0 est donc rcurrente positive.

T
x

F IGURE 5.3 Le schma reprsente un couplage entre 2 trajectoires issues des tats x et y. Leur
partie commune aprs le temps T est dessine en pointills.

tape 2 : Construction dun couplage.


On dfinit le temps darrt T comme le premier temps o les chanes Xn , Yn se touchent
(cf. figure 5.3)
n o n o
T = inf n > 0; Xn = Yn = inf n > 0; Wn A

avec A = {( x, x ); x E} E E. Ainsi T peut sinterprter comme un temps dat-


teinte pour la chane Wn . Comme Wn est irrductible et rcurrente, T est fini presque
srement. On dfinit le processus
(
Xn , si n < T
Zn =
Yn , si n > T

Nous allons vrifier que { Zn }n > 0 est une chane de Markov et a la mme distribution
que { Xn }n > 0 . Par la proprit de Markov forte dmontre au thorme 2.6, la chane
de Markov dcale en temps {WT +n }n > 0 est indpendante de {( X0 , Y0 ), . . . , ( XT , YT )}
conditionnellement ( XT , YT ). Comme leurs donnes initiales concident les chanes de
76 CHAPITRE 5. ERGODICIT ET CONVERGENCE

Markov { XT +n }n > 0 et {YT +n }n > 0 ont la mme loi et il est donc quivalent de suivre la
trajectoire associe YT +n plutot que celle de XT +n . Par consquent { Zn }n > 0 est bien une
chane de Markov de mme loi que { Xn }n > 0 .
tape 3 : Convergence.
Les donnes initiales sont X0 = x et la mesure invariante pour Y0 , on peut donc
crire pour tout tat y de E

Px Xn = y (y) = Px Xn = y P Yn = y .
  

Par ltape 2, la chane { Zn }n > 0 a la mme loi que { Xn }n > 0

Px Xn = y = Px Zn = y = P b Xn = y, T > n + P
   
b Yn = y, T 6 n ,

o P
b fait rfrence la mesure jointe des trajectoires { Xn } et {Yn }. On en dduit que

P x Xn = y ( y ) = P Xn = y, T > n P b Yn = y, T > n 6 P
  
b b T>n .

Daprs la premire tape, la chane {Wn }n > 0 est rcurrente positive. Par consquent le
temps darrt T est fini presque srement et P T > n tend vers 0 quand n tend vers


linfini. Ceci conclut la preuve du thorme.

La dfinition 5.3 de lapriodicit est particulirement bien adapte pour les preuves
cependant il existe un autre point de vue qui justifie le choix du mot apriodique. Nous
prsentons maintenant cet aspect complmentaire. Cette partie peut tre omise en pre-
mire lecture.
Pour tout tat x E, on dfinit

p( x ) = PGCD[ I ( x )] o I ( x ) = {n > 1; Pn ( x, x ) > 0}

o PGCD dsigne le plus grand commun diviseur.

Proposition 5.6. Soit { Xn }n > 0 une chane de Markov irrductible sur lespace dtats E. Alors
la fonction x p( x ) est constante sur E et on notera p X cette constante.

Dmonstration. Soient x, y E deux tats qui communiquent, cest dire quil existe i, j
tels que
Pi ( x, y) > 0 et P j (y, x ) > 0.
Une application directe de lgalit de Chapman-Kolmogorov montre que pour tout r
I (y)
Pi+ j ( x, x ) > 0 et Pi+ j+r ( x, x ) > 0.
Ainsi p( x ) divise i + j et i + j + r et donc la diffrence r de ces deux entiers. Comme r est
arbitraire dans I (y), on dduit que p( x ) divise p(y). En inversant les rles de x et y, on
montre lgalit p( x ) = p(y).

Pour la marche alatoire de la figure 5.3, la priode est gale 2. Nous donnons main-
tenant une seconde dfinition de lapriodicit quivalente la dfinition 5.3
5.2. CONVERGENCE 77

Dfinition 5.7. Soit { Xn }n > 0 une chane de Markov irrductible. On dit que X est apriodique
si p X = 1.

Le lemme qui suit permet de faire le lien entre les deux dfinitions.

Lemme 5.8. Pour tout x dans E, les deux assertions suivantes sont quivalentes :
(i) p( x ) = 1,
(ii) il existe n( x ) > 1 tel que Pn ( x, x ) > 0 pour tout n n( x ).

Dmonstration. Limplication (ii) = (i) est triviale. Pour limplication inverse, on consi-
dre des entiers n1 , . . . , nk I ( x ) avec PGCD[n1 , . . . , nk ] = 1. Le thorme de Bezout
assure lexistence de q1 , . . . , qk Z tels que

k k k
qi ni = 1 = a ( x ) b ( x ) o a( x ) = qi+ ni et b( x ) = qi ni .
i =1 i =1 i =1

Posons

n( x ) = b( x )2 1 = (b( x ) 1)b( x ) + b( x ) 1.

Alors pour tout n n( x ), la division euclidienne de n par b( x ) scrit

n = db( x ) + r avec dr et 0 r b( x ) 1
k k
= (d r )b( x ) + ra( x ) = (d r ) qi+ ni + r qi ni .
i =1 i =1

Lgalit de Chapman-Kolmogorov montre que toute combinaison linaire des (ni )1ik ,
coefficients dans N, est dans I ( x ). En particulier, la dcomposition prcdente implique
que n appartient I ( x ).

5.2.2 Distance en variation et couplage


Dans les applications, il est important de quantifier la vitesse de relaxation de la me-
sure {P ( Xn = y)}yE vers la mesure invariante . Il faut donc prciser la convergence
du thorme 5.5. Pour cela nous commencerons par dfinir une distance entre les mesures
sur E.

Dfinition 5.9. Soient et deux mesures sur un espace dnombrable E. On dfinit la distance
en variation totale entre ces deux mesures par

1


k kVT = ( x ) ( x ) .
2 xE

Cette distance sinterprte comme la moiti de laire des rgions 1 et 2 sur la figure
5.4. Le point clef de la preuve de convergence du thorme 5.5 rsidait dans la construc-
tion dun couplage entre les trajectoires. Nous allons maintenant revenir sur la notion de
couplage et montrer quelle est intimement lie la distance en variation totale.
78 CHAPITRE 5. ERGODICIT ET CONVERGENCE

1 2
3

A Ac
F IGURE 5.4 Les densits des mesures et sont reprsentes. Leur partie commune est dessi-
ne en gris et la distance en variation est proportionnelle laire des zones blanches 1 et 2. Si les
2 mesures taient identiques les zones 1 et 2 nexisteraient pas et leur distance en variation serait
nulle. Inversement, si les supports des mesures sont disjoints leur distance est maximale.

Un couplage entre les deux mesures de probabilit et est une paire de variables
alatoires ( X, Y ) telles que X ait pour distribution et Y pour distribution

P( X = x ) = Pb (X = x, Y = y) = (x) (5.9)
y E

P (Y = y ) = Pb (X = x, Y = y) = (y) (5.10)
xE

o P
b est la probabilit jointe des deux variables X et Y. Il existe de multiples faons de
coupler deux mesures. Supposons par exemple que = = 21 (0 + 1 ). Un couplage
possible est de choisir X et Y indpendamment

x, y {0, 1}, b ( X = x, Y = y) = 1
P b ( X 6= Y ) = 1 .
P
4 2
Un autre couplage consiste corrler fortement les 2 variables en choisissant X selon une
loi de Bernoulli de paramtre 1/2 puis en posant Y = X

x, y {0, 1}, b ( X = x, Y = y) = 1 1y= x


P P
b ( X 6= Y ) = 0.
2
Les deux couplages respectent la proprit des lois marginales (5.9), mais leurs lois jointes
sont trs diffrentes. Certains couplages sont plus intressants que dautres comme le
montre le lemme qui suit.

Lemme 5.10. Soient et deux mesures sur un espace dnombrable E, alors



k kVT = max ( B) ( B) (5.11)
B E
n o
= inf P b ( X 6 = Y ); ( X, Y ) est un couplage de et (5.12)

o linfimum est pris sur tous les couplages possibles de et . Les couplages qui ralisent lgalit
sont dits optimaux.
5.2. CONVERGENCE 79

Dans lexemple prcdent des mesures = = 12 (0 + 1 ), le second couplage est


optimal mais pas le premier. Dans la suite du cours, seule lidentit (5.12) sera utilise.

Dmonstration. Commenons par montrer lidentit (5.11). On dfinit le sous-ensemble A


(cf. figure 5.4) comme 
A = x E; ( x ) > ( x ) .
On a
1 ( x ) ( x ) = 1 ( x ) ( x ) 1 ( x ) ( x )


k kVT =
2 xE 2 x A 2 x Ac
1 
= ( A) ( A) ( Ac ) + ( Ac )) = ( A) ( A) = ( Ac ) + ( Ac )
2
o on a utilis 1 = ( A) + ( Ac ) = ( A) + ( Ac ). Par ailleurs pour tout B E

( B) ( B) 6 ( B A) ( B A) 6 ( A) ( A)

et aussi
( B ) ( B ) 6 ( A c ) ( A c ).
On en dduit que

max ( B) ( B) = ( A) ( A) = k kVT . (5.13)
B E

Pour montrer (5.12), vrifions dabord que


n o
k kVT 6 inf P b ( X 6 = Y ); ( X, Y ) est un couplage de et . (5.14)

Soit B un sous-ensemble de E

( B ) ( B ) = P ( X B ) P (Y B )
=Pb ( X B, Y 6 B) + P
b ( X B, Y B) P(Y B)
6Pb ( X B, Y 6 B) 6 P
b ( X 6= Y ) .

Par symtrie
( B) ( B) 6 P
b ( X 6= Y ) .
Il suffit dutiliser lidentit (5.11) pour en dduire lingalit (5.14).

Pour montrer la rciproque, il suffit de construire un couplage qui ralise lgalit


dans (5.12). On dfinit
p = inf{( x ), ( x )}
xE
qui sinterprte comme laire de la rgion 3 dans la figure 5.4. En utilisant la relation
(5.13), on peut rcrire p sous la forme

p = ( x ) + ( x ) = 1 + ( x ) ( x ) = 1 ( A) ( A)

xE xE xE
( x ) 6 ( x ) ( x )>( x ) ( x )>( x )

= 1 k kVT .
80 CHAPITRE 5. ERGODICIT ET CONVERGENCE

Le couplage consiste choisir une variable B de loi de Bernoulli

P( B = 0) = p, P( B = 1) = 1 p

et construire X, Y en fonction de la valeur de B.


(i) Si B = 0, alors on choisit une variable Z selon la probabilit sur E

1
m3 ( x ) = inf{( x ), ( x )}
p

qui est concentre dans la rgion 3. On pose ensuite X = Y = Z.


(ii) Si B = 1, alors on choisit X selon la probabilit
( (x)(x)
si ( x ) > ( x )
m1 ( x ) = kkVT
0 sinon

et Y est choisi indpendamment selon la probabilit


( (x)(x)
si ( x ) > ( x )
m2 ( x ) = kkVT
0 sinon

La relation (5.13) permet de vrifier que les 2 mesures sont normalises par 1.

Cette procdure construit bien un couplage car X et Y ont les bonnes lois marginales

pm3 ( x ) + (1 p)m1 ( x ) = ( x ) et pm3 ( x ) + (1 p)m2 ( x ) = ( x )

Les mesures 1 et 2 ont des supports disjoints (associs aux rgions 1 et 2 de la figure
5.4). Par consquent X 6= Y si et seulement si B = 1. Lgalit dans (5.12) est donc bien
vrifie car
P
b ( X 6= Y ) = P( B = 1) = 1 p = k kVT .

Le Lemme 5.10 va nous permettre de renforcer le thorme 5.5 sous une hypothse
introduite par Doeblin.

Thorme 5.11. Soit { Xn }n > 0 une chane de Markov irrductible, apriodique sur un espace E
dnombrable. On suppose que sa matrice de transition vrifie la condition de Doeblin, i.e quil
existe r > 1, > 0 et une mesure de probabilit sur E tels que

Pr ( x, z) > (z) pour tous x, z dans E. (5.15)

Alors la chane de Markov admet une mesure de probabilit invariante vers laquelle la distribu-
tion de la chane de Markov converge exponentiellement vite (uniformment par rapport aux tats
initiaux)
1
sup Pn ( x, ) VT = sup Pn (x, y) (y) 6 (1 )dn/re

xE 2 xE y E
5.2. CONVERGENCE 81

o Pn ( x, ) est la distribution au temps n en partant de x et de reprsente la partie entire. Pour


une chane de Markov distribue initialement selon , on a aussi
1 dn/re
n
= P Xn = y ( y ) 6 1

( x ) P ( x, ) () . (5.16)


xE VT 2 y E

Si lespace dtats E est fini, une chane de Markov irrductible et apriodique satisfait
toujours la condition de Doeblin. En effet, il existe r > 1 tel que pour tout couple x, y de
E, on ait Pr ( x, y) > 0. Il suffit de choisir
1
= min Pr ( x, y) > 0
xE
et (y) = min Pr ( x, y).
xE
(5.17)
y E

Dmonstration. La preuve se dcompose en 3 temps.


tape 1. Existence dune mesure invariante.
Vrifions dabord que la condition de Doeblin (5.15) implique lexistence dune me-
sure invariante. Comme il existe au moins un tat z tel que (z) > 0, on peut majorer
la probabilit de ne pas repasser en z avant un temps kr. En utilisant successivement la
proprit de Markov au temps (k 1)r et la condition de Doeblin (5.15), on obtient la
dcroissance exponentielle
   
Pz Tz+ > kr = Pz Tz+ > (k 1)r, X(k1)r = x P Tz+ > r X(k1)r = x

xE
 
Pz Tz+ > (k 1)r, X(k1)r = x 1 (z)

6
xE
  k
6 Pz Tz+ > (k 1)r 1 (z) 6 1 (z) .


Ceci implique que ltat z est rcurrent positif car


Ez Tz+ = Pz Tz+ > n 6 r Pz Tz+ > kr <
  
n>1 k>0

et par le thorme 4.6 quil existe une mesure invariante.


tape 2. Convergence pour une condition de Doeblin simplifie.
Pour dmontrer la convergence, nous supposerons dabord que (5.15) est vraie avec
r = 1, cest dire
P( x, z) > (z) pour tous x, z dans E.
La borne infrieure (z) peut tre interprte comme la rgion grise de la figure 5.4 :
cest la partie commune des mesures de probabilit P( x, ) pour diffrentes valeurs de x.
Nous allons construire un couplage qui sinspire de la preuve du lemme 5.10. Soient
{ Xn }n > 0 et {Yn }n > 0 deux ralisations de la chane de Markov, la premire partant de x
et lautre de y. Supposons que les deux trajectoires soient construites jusquau temps n.
Si Xn = Yn , on prserve lgalit au temps n + 1 (cf. figure 5.3) et on pose
P

b Xn+1 = xn+1 , Yn+1 = yn+1 Xn = xn , Yn = xn = P( xn , xn+1 ) 1{y = x } .
n +1 n +1

Si Xn 6= Yn alors au pas de temps n + 1, on tire au hasard une variable alatoire Bn+1 de


Bernoulli de paramtre (indpendante de tout le pass)
P( Bn+1 = 1) = 1 , P( Bn+1 = 0) = .
82 CHAPITRE 5. ERGODICIT ET CONVERGENCE

Si Bn+1 = 0, on choisit un site z de E selon la loi et on pose

Xn+1 = Yn+1 = z.

Ce choix ne dpend pas des valeurs de Xn et Yn .


Si Bn+1 = 1, Xn+1 et Yn+1 sont choisis indpendamment en fonction de lois qui
dpendent des valeurs Xn et Yn

1
P

b Xn+1 = xn+1 Xn = xn , Bn+1 = 1 = ( P( xn , xn+1 ) ( xn+1 ))
1
1
P

b Yn+1 = yn+1 Yn = yn , Bn+1 =1 = ( P(yn , yn+1 ) (yn+1 ))
1
On remarque que la matrice modifie est bien une matrice de transition car ses
termes sont positifs et

1
z1 E, 1
( P(z1 , z2 ) (z2 )) = 1.
z2 E

De plus les processus { Xn }n > 0 et {Yn }n > 0 sont chacun des chanes de Markov de
matrice de transition P car

P X n +1 = x n +1 X n = x n


= P Xn+1 = xn+1 Xn = xn , Bn+1 = 0
+ (1 )P Xn+1 = xn+1 Xn = xn , Bn+1 = 1


= ( xn+1 ) + ( P( xn , xn+1 ) ( xn+1 )) = P( xn , xn+1 ).

Le couplage tant construit, il ne reste plus qu estimer le temps darrt T quand les
marches se rejoignent (cf. figure 5.3)
n o
T = inf n > 0; Xn = Yn .

La condition de Doeblin (5.15) assure que pour tous x0 6= y0 dans E


 
P X1 = Y1 X0 = x0 , Y0 = y0 > P B1 = 0 > .

b

En utilisant la proprit de Markov et cette borne infrieure, on obtient


  
b T>n = P
P b T > (n 1), Xn1 = z, Yn1 = z0 P b T > 1 Xn1 = z, Yn1 = z0

z,z0 E
z6=z0
n
6P
 
b T > ( n 1) 1 6 1 .

Il est important de remarquer que cette borne est uniforme pour tous les tats de dpart
x et y de E. Pour estimer lcart entre les distributions au temps n, il ne reste plus qu
utiliser le lemme 5.10 en choisissant le couplage que nous venons de construire

P ( x, ) Pn (y, ) 6 P
n b ( T > n) 6 1 n .
b ( Xn 6= Yn ) = P

(5.18)

VT
5.2. CONVERGENCE 83

Si la chane de Markov {Yn }n > 0 tait issue de la mesure invariante alors sa distribution
tout temps serait gale

(y) = P Yn = y = (z) Pn (z, y).



y E,
z E

Pour conclure le thorme, il suffit de considrer un couplage entre { Xn }n > 0 partant de


X0 = x et {Yn }n > 0 distribue initialement sous . Plus gnralement si X0 est distribue
sous la mesure , on obtient par le mme argument de couplage lingalit (5.16).
tape 3. Cas gnral.
Supposons maintenant que la condition de Doeblin (5.15) soit satisfaite avec un pa-
ramtre r > 1. On remarque que la chane de Markov { Xk = Xkr }k > 0 a pour matrice
de transition Pr et pour mesure invariante . On peut dcomposer tout entier n sous la
forme n = kr + ` avec ` {0, . . . , r 1} et crire la distribution au temps n dune chane
partant de x comme la distribution de Xk partant initialement de la mesure P` ( x, .)

P x ( Xn = y ) = P` (x, z)Pz

Xk = y .
z E

Cette galit est une simple rcriture de lquation de Chapman-Kolmogorov Pn =


P` Pkr . La chane { Xk }k > 0 vrifie le critre de Doeblin pour r = 1, il suffit donc dappli-
quer { Xk }k > 0 le rsultat de la seconde tape pour tablir la convergence exponentielle
de la distribution Pn ( x, ).

5.2.3 Vitesses de convergence


Dans de nombreuses applications (cf. chapitre 6) la vitesse de convergence vers la
mesure dquilibre est fondamentale, elle permet de dterminer le temps ncessaire pour
quune simulation donne un rsultat avec la prcision voulue. La condition de Doeblin
dfinie au thorme 5.11 est importante, car elle fournit un cadre thorique simple pour
montrer une convergence exponentielle. Cependant, de meilleures vitesses de conver-
gence peuvent souvent tre prouves par une tude spcifique de chaque modle. Nous
allons lillustrer sur deux exemples.

Marche alatoire.
Considrons une marche alatoire fainante symtrique sur le domaine priodique
E = {1, . . . , L} de matrice de transition P donne par

i E, P(i, i + 1) = P(i, i 1) = 1/4, P(i, i ) = 1/2

o on identifie L + 1 1 et 0 L. Comme la probabilit de rester sur place est non nulle,


cette chane de Markov est apriodique.
On construit le couplage (Yn1 , Yn2 ) sur E E partant initialement de ( x, y). Au temps
n, si Yn1 = Yn2 alors les 2 coordonnes voluent de la mme manire selon la matrice
de transition P et on a Yn1+1 = Yn2+1 (cf. figure 5.3). Si Yn1 6= Yn2 , on choisit une variable
Bn+1 {1, 2} avec probabilit 1/2, puis seule la coordonne Bn+1 est mise jour et saute
B B
droite ou gauche avec probabilit 1/2 : Yn+n+11 = Yn n+1 1.
84 CHAPITRE 5. ERGODICIT ET CONVERGENCE

On note T le premier temps o les deux trajectoires se rencontrent. En appliquant le


lemme 5.10, on peut donc contrler la convergence en fonction de T
1b
k Pn ( x, ) Pn (y, )kVT 6 P
b ( T > n) 6 E( T )
n
o Eb correspond lesprance pour la mesure jointe du couplage (Yn1 , Yn2 ).
Supposons x > y et analysons la diffrence Zn = Yn1 Yn2 . On constate que { Zn }n > 0
est une marche alatoire partant de x y et sautant chaque pas de temps gauche ou
droite avec probabilit 1/2 tant quelle na pas atteint 0 ou L, cest dire tant que les
marches Yn1 , Yn2 ne se sont pas rejointes. Le temps darrt T correspond donc au moment
o le processus Zn est absorb en 0 ou en L, cest lanalogue du temps dfini dans la ruine
du joueur dont lesprance a t calcule section 2.5.2 en (2.20)

E

b ( T ) = ( x y) L ( x y) .

On obtient donc uniformment en x et y

L2
k Pn ( x, ) Pn (y, )kVT 6 .
4n
Ceci montre que pour une taille L assez grande, la chane de Markov sera proche
de lquilibre ds que le temps est de lordre de L2 . Cet ordre de grandeur est optimal
comme lindique le thorme central limite : une marche alatoire au temps n visite des
rgions de taille n, par consquent pour recouvrir le domaine {1, . . . , L}, il faudra au
moins attendre des temps de lordre L2 .
Comparons maintenant ce rsultat avec celui donn par le thorme 5.11. La condi-
tion de Doeblin (5.15) suppose de trouver un paramtre r tel que tous les tats puissent
tre connects en r sauts. Il faut au minimum choisir r > L/2. Pour r = L/2, la constante
1
est alors de lordre 4L/2 . Pour ces valeurs, le thorme 5.11 implique
d n
L/2 e

1  n 
sup Pn ( x, ) VT 6

1 ' exp c L
xE 4 L/2 2 L

o la dernire galit est un quivalent pour L grand et c est une constante. Dans cet
exemple la condition de Doeblin assure seulement la convergence pour des temps de
lordre 2 L L et dun point de vue pratique, elle nest pas pertinente car elle ne prdit pas
lordre L2 .
Considrons maintenant une marche modifie qui au lieu de rester sur place avec
probabilit 1/2 peut sauter uniformment sur tous les sites selon la probabilit de transi-
tion
1
i E, P(i, i + 1) = P(i, i 1) = 1/4, P(i, j) = j {1, . . . , L}
2L
o on identifie L + 1 1 et 0 L. Dans ce cas la condition de Doeblin sapplique avec
r = 1, = 1/2 et (y) = 1/L. Par le thorme 5.11, on obtient
1
sup Pn ( x, ) VT 6 n .

xE 2
5.2. CONVERGENCE 85

Cette fois la convergence est beaucoup plus rapide, elle ne dpend plus de L et la condi-
tion de Doeblin fournit une information prcise. Cette modification des probabilits de
transition est en fait identique celle introduite dans la matrice de transition de Google
(5.8) afin dacclrer la vitesse de convergence.
86 CHAPITRE 5. ERGODICIT ET CONVERGENCE
Chapitre 6

Application aux algorithmes


stochastiques

6.1 Optimisation
Dans de nombreuses applications, on souhaite minimiser une fonction V : RK R
dont la structure est souvent complexe et dpend dun grand nombre de paramtres
K  1 selon le problme modliser. Cette fonction sert par exemple quantifier un
cot en conomie ou un rendement dans une raction chimique, optimiser des changes
dans un rseau informatique ou dterminer des estimateurs en statistique (maximum
de vraisemblance). On cherche aussi identifier les valeurs o cette fonction prend son
minimum
Argmin V = x RK ;

V ( x ) = inf V (y) .
y

Ce problme doptimisation est purement dterministe et il peut tre rsolu par des
mthodes analytiques. En particulier, les mthodes de programmation linaire sont opti-
males pour rsoudre des problmes linaires. Dans le cas dune fonction V convexe, une
mthode de descente de gradient [5] permet de converger vers un point x ? o la fonction
atteint son minimum
t > 0, xt = V 0 ( xt ) alors lim xt = x ? .
t

Par contre si la fonction V possde de nombreux minima locaux une telle mthode ne
permettra pas de dterminer le minimum global facilement car la limite de xt dpendra
de ltat initial x0 (cf. figure 6.1).
De nombreux problmes doptimisation ncessitent dtudier des fonctions V particu-
lirement complexes, dpendantes de multiples paramtres. Pour fixer les ides, consi-
drons le cas dcole du problme du voyageur de commerce. Un voyageur de commerce
doit visiter K clients dans K villes diffrentes et revenir son point de dpart en ne vi-
sitant chaque ville quune seule fois. tant donnes les distances entre toutes les villes
{d(i, j)} 1 6 i 6 K , lobjectif est de minimiser le trajet parcourir, cest dire
16j6K

K
d
 
min V () avec V () = ( i ), ( i + 1) (6.1)
SK
i =1

87
88 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES

V (x)

F IGURE 6.1 Le schma reprsente un potentiel V ( x ) avec plusieurs minima locaux qui rendent
la mthode de descente de gradient inefficace. Les algorithmes stochastiques permettent de fran-
chir les barrires de potentiel (cf. la flche en pointills) pour atteindre le minimum global. Quand
T est petit la mesure T va se concentrer principalement autour des valeurs les plus basses de V
par exemple sur le schma sur les points situs sous la droite en pointills.

o appartient lensemble SK des permutations de {1, . . . , K }. Chaque permutation


correspond un trajet entre les villes selon un certain ordre et comme le voyageur revient
son point de dpart, on pose (K + 1) = (1).
Une mthode de recherche systmatique du minimum consisterait explorer tous les
chemins possibles et comparer leurs longueurs. Ceci conduirait une complexit nu-
mrique gigantesque puisque lensemble des trajets possibles est donn par lensemble
des permutations des K villes, soit K !, qui crot trop vite avec K. Ce problme appar-
tient la classe des problmes NP-complets cest dire quil nexiste pas dalgorithme qui
permette de le rsoudre en un temps polynomial en K (sous lhypothse P 6= NP). Le
problme du voyageur de commerce est un problme thorique qui sert souvent de r-
frence pour tester des stratgies doptimisation. Dans la pratique, il existe de nombreux
problmes doptimisation similaires pour lesquels il est impossible dobtenir la solution
en un temps raisonnable mais qui peuvent tre approchs par des mthodes stochas-
tiques. Nous reviendrons sur le problme du voyageur de commerce section 6.4.1.
Ce chapitre dcrit des mthodes probabilistes pour dterminer le minimum dune
fonction V sur un espace discret E fini mais de cardinal trs grand. Pour construire une
solution approche ce problme dterministe, nous dfinissons T la mesure de Gibbs
associe au potentiel V et au paramtre T > 0
  
1 1 1
x E, T ( x) = exp V ( x ) avec ZT = exp V (y) .
ZT T y E
T
(6.2)
La mesure T attribue une probabilit chaque site de E et se concentre sur les minima
de V quand T tend vers 0. Le rsultat suivant est attribu Pierre-Simon Laplace.

Lemme 6.1. Si M dsigne lensemble des points de E o V atteint son minimum, on a


(
1
Card(M)
si xM
x E, lim T ( x ) =
T 0 0 si x 6 M
6.2. ALGORITHMES STOCHASTIQUES 89

0.7

0.6

0.5

0.4

0.3


0.2

0.1


0 1 2 3 4 5

F IGURE 6.2 On considre lespace E = {1, . . . , 5} et la fonction V (1) = 87, V (2) = 4, V (3) =
55, V (4) = 99, V (5) = 25. La distribution de la probabilit T est reprsente par des cercles pour
T = 104 et des carrs pour T = 2. Quand T est trs grand la mesure est presque distribue unifor-
mment, par contre pour T plus petit les valeurs les plus basses de V deviennent prpondrantes
(cf. Lemme 6.1).

Dmonstration. Soit V ? le minimum de V, on peut rcrire la mesure de Gibbs (6.2)


 
1 1 ?
x E, T ( x) =  exp [V ( x ) V ] .
yE exp T1 [V (y) V ? ] T

Ds que x 6 M, on a V ( x ) V ? < 0 et comme E est fini, seuls les termes dans M


contribuent quand T tend vers 0.

La figure 6.2 illustre ce lemme et montre que pour T proche de 0, la mesure T se


concentre sur les points o V est minimum. Par consquent en simulant des ralisations
de la mesure T pour T proche de 0, on obtiendra avec une grande probabilit une ap-
proximation de lensemble M o V atteint son minimum. La simulation de T sera lobjet
de la section suivante.

6.2 Algorithmes stochastiques


6.2.1 Algorithme de Metropolis-Hastings
premire vue, la simulation de la mesure de Gibbs (6.2) suppose de calculer la dis-
tribution T et donc dvaluer ZT = yE exp T1 V (y) . Dans la pratique, ceci est im-
possible implmenter car il faudrait calculer toutes les valeurs de V pour un ensemble E
de cardinal trop important. La mthode propose en 1953 dans larticle [14] et amliore
par W. Hastings [12] en 1970 permet dviter cet cueil en simulant la mesure de Gibbs
laide dune chane de Markov.
Lalgorithme de Metropolis-Hastings permet de simuler une variable alatoire sous
une mesure de probabilit quelconque sur E. On note cette mesure et on suppose que
( x ) > 0 pour tout x de E. Pour raliser la simulation, il faut se donner une matrice de
transition Q irrductible sur E satisfaisant pour tous x, y de E

Q( x, y) > 0 Q(y, x ) > 0


90 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES

et une fonction croissante h :]0, []0, 1] vrifiant h(u) = uh(1/u). Par exemple on peut
choisir
u
h(u) = inf{1, u} ou h(u) = .
1+u
Pour x 6= y, on pose
(  (y)Q(y,x) 
h (x)Q(x,y) si Q( x, y) 6= 0
R( x, y) = (6.3)
0 sinon

Ceci permet de construire la matrice de transition P dfinie par


(
P( x, y) = Q( x, y) R( x, y) si x 6= y
(6.4)
P( x, x ) = 1 y6= x P( x, y)

Lalgorithme de Metropolis-Hastings , dcrit ci-dessous, permet de simuler une chane


de Markov { Xn }n > 0 de matrice de transition P :

tape 0. Initialiser X0

tape n + 1.
Choisir y selon la loi Q( Xn , y)
Choisir Un+1 uniformment dans [0, 1] (et indpendamment du pass)
Si Un+1 < R( Xn , y) poser Xn+1 = y, sinon poser Xn+1 = Xn

Supposons que ( x ) > 0 pour tous les tats x de E, on montre alors

Thorme 6.2. La matrice de transition P dfinie en (6.4) est irrductible et rversible pour la
mesure qui est donc son unique mesure invariante. Si de plus h < 1 alors P est apriodique.

Dmonstration. Lirrductibilit de Q implique immdiatement celle de P. Pour montrer


que P est rversible, il suffit dutiliser lidentit h(u) = uh(1/u)
 
(y) Q(y, x )
x 6= y, ( x ) P( x, y) = ( x ) Q( x, y)h
( x ) Q( x, y)
 
( x ) Q( x, y) (y) Q(y, x )
= (y) Q(y, x ) h
(y) Q(y, x ) ( x ) Q( x, y)
 
( x ) Q( x, y)
= (y) Q(y, x )h = (y) P(y, x ).
(y) Q(y, x )

Le thorme 3.12 permet den dduire que est bien la mesure invariante.
Si h < 1, alors P( x, x ) > 0 pour tout x de E et la matrice P est bien apriodique. On
peut aussi vrifier facilement que si Q est apriodique alors P le sera mme si h 6 1.

Lintrt de lalgorithme de Mtropolis est vident pour simuler la mesure de Gibbs


T (6.2), en effet la matrice de transition P scrit pour x 6= y
   
1  Q(y, x )
P( x, y) = Q( x, y) h exp V ( x ) V (y)
T Q( x, y)
6.2. ALGORITHMES STOCHASTIQUES 91

et la normalisation ZT na plus besoin dtre calcule. Comme h est une fonction crois-
sante, la matrice de transition P pondre les probabilits de transition et favorise les sauts
de x vers y si V ( x ) > V (y) cest dire si le potentiel V dcrot aprs le saut. Considrons
le potentiel reprsent figure 6.1 index par E = {1, . . . , L} et supposons que la matrice Q
corresponde la marche alatoire symtrique sur E. Si T est trs faible, la chane de Mar-
kov aura tendance voluer vers les minima de V. Cependant, lvolution tant alatoire
certaines transitions (assez rares) peuvent aller lencontre de cette tendance et viter la
chane de Markov de rester bloque dans un minimum local. Contrairement lapproche
dterministe de la descente de gradient, les fluctuations alatoires permettent dexplorer
le paysage de potentiel. Nous reviendrons sur le choix optimal du paramtre T section
6.4.

6.2.2 Modle dIsing


Les mesures de Gibbs (6.2) sutilisent aussi dans des contextes trs diffrents des m-
thodes doptimisation car elles ont t introduites initialement en physique statistique
pour rendre compte de systmes microscopiques. La thorie de Gibbs est prsente en
dtail dans le cours de physique statistique [11] et nous nous contenterons ici de lillus-
trer dans le cas particulier du modle dIsing.

F IGURE 6.3 Deux ralisations du modle dIsing (obtenues par lalgorithme de Metropolis-
Hastings) pour diffrentes tempratures sur le domaine = {1, . . . , 40}2 . La simulation de droite
correspond une temprature trs haute, par contre sur la simulation de gauche les spins sont
plus ordonns car la temprature est plus basse.

Le modle dIsing offre un cadre thorique trs simple pour dcrire les transitions
de phase de laimantation dun mtal ferromagntique. chaque site i du rseau =
{1, . . . , L}d , on associe un spin si prenant les valeurs 1 et on note S = {si }i une
configuration de spins. Les spins interagissent avec leurs plus proches voisins et une
nergie est attribue chaque configuration S

V ( S ) = si s j
i,j
i j
92 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES

o i j signifie que les sites i et j sont distance 1 sur le rseau . Un systme physique
a tendance minimiser son nergie ce qui permet de distinguer deux configurations pri-
vilgies (les tats fondamentaux) : les spins sont tous gaux 1 ou tous gaux 1. Pour
tenir compte des fluctuations thermiques, on dfinit la mesure de Gibbs qui attribue la
configuration S la probabilit
 
1 1
T ( S ) = exp V (S )
ZT T
o la fonction de partition ZT sert normaliser la mesure de Gibbs. Le paramtre T sinter-
prte comme une temprature : quand T est grand les fluctuations thermiques dominent
et le systme est dsordonn, par contre pour T proche de 0 les configurations de basse
nergie sont privilgies et les spins ont tendance saligner (cf. figure 6.3).
Ce modle trs simple de spins en interaction permet de mettre en vidence lexis-
tence dune transition de phase quand la taille du domaine L tend vers linfini. Les tran-
sitions de phase constituent une source de questions fascinantes dont certaines seront
voques au chapitre 7. Pour le moment, contentons nous dimplmenter lalgorithme de
Metropolis-Hasting afin de simuler le modle dIsing.

Retraduit dans le formalisme des chanes de Markov, une configuration S corres-


pond un tat et lespace dtats est E = {1, 1} . Pour un domaine bi-dimensionnel
de taille L = 40 comme dans la figure 6.3, le cardinal de E est 24040 ' 10481 . Il est donc
impossible dnumrer toutes les configurations pour calculer la distribution T . Pour
simplifier les notations, nous allons omettre la dpendance en et poser S = S . Pour
tout i dans , on note S(i) la configuration dduite de S en changeant simplement le signe
du spin en i (
(i ) si , si j = i
j , Sj =
sj, si j 6= i
La matrice de rfrence Q dcrit une volution sur lespace des configurations
1
i , Q(S, S(i) ) = .
Card()
Elle correspond au mcanisme suivant : un site i est choisi au hasard dans et son spin
est retourn. Ce sont les seules transitions autorises. Ces transitions modifient les confi-
gurations seulement localement, par consquent la variation de lnergie correspondant
au changement du spin en i ne dpend que de la moyenne des spins autour de i
H (i, S) = H (S(i) ) H (S) = 2si sj.
j i

tant donne une fonction h satisfaisant h(u) = uh(1/u), lalgorithme de Metropolis-


Hastings scrit
tape 0. Initialiser X0 avec une configuration S quelconque

tape n + 1.
Choisir i uniformment dans
Choisir Un+1 uniformment dans [0, 1] (et indpendamment du pass)
(i )
Si Un+1 < h exp( T1 H (i, Xn )) poser Xn+1 = Xn , sinon poser Xn+1 = Xn

6.3. SIMULATION PARFAITE : ALGORITHME DE PROPP-WILSON 93

F IGURE 6.4 Lalgorithme de Metropolis-Hasting consiste choisir un site au hasard (figure de


gauche) et mettre jour ce spin en fonction de la moyenne de ses 4 voisins. Quand T est proche
de 0, le spin aura ensuite tendance saligner avec ses voisins (figure de droite).

6.3 Simulation parfaite : algorithme de Propp-Wilson


Nous avons vu au chapitre 5 quune chane de Markov irrductible, apriodique
converge vers sa mesure invariante. En particulier, le thorme 5.5 garantit la conver-
gence de lalgorithme de Metropolis-Hastings quand le temps tend vers linfini. Mais en
pratique, la simulation doit tre arrte un temps fini et il est donc important destimer
lerreur faite. Cette question a motiv de nombreuses tudes thoriques pour quantifier
la vitesse de convergence et il sagit toujours dun sujet de recherche trs actif en probabi-
lits. Dans le cadre ce cours, nous avons dfini au thorme 5.11 le critre de Doeblin qui
permet de dterminer pour tout > 0 un temps n au-del duquel lerreur est contrle

sup Pn ( x, ) VT 6 .

n > n ,
xE

Il nest pas toujours possible dobtenir une estimation thorique qui fournit des bornes
suffisamment prcises. Ainsi dans la pratique, la dure de simulation est souvent dter-
mine par lintuition ou calibre partir dexprimentations.

F IGURE 6.5 Le schma reprsente un couplage entre des trajectoires issues de diffrents tats
initiaux. Au-del de la ligne en pointills, toutes les trajectoires ont fusionn.

Nous allons dcrire maintenant lalgorithme de Propp-Wilson [19] qui permet de si-
muler de faon exacte la mesure invariante par une mthode de couplage par le pass.
94 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES

Avant cela, revenons sur la preuve du thorme 5.5 o la convergence tait estime en
fonction du temps de couplage entre diffrentes trajectoires (cf. figure 6.5). Dans le cas
dune rcurrence alatoire (dfinie au thorme 2.2) le couplage se construit de la faon
suivante. On rappelle que la chane de Markov { Xn }n > 0 valeurs dans E est obtenue
par rcurrence
n > 1, X n +1 = f ( X n , n +1 )
en fonction dune suite { n }n > 1 de variables alatoires indpendantes et identiquement
distribues sur un espace F et dune fonction f de E F dans E. Afin de coupler les
Card( E) trajectoires, on dfinit = { (x) } xE une collection de Card( E) variables ala-
toires indpendantes et de mme loi que 0 et on note

x E, F ( x ) = f ( x, (x) ).

Ceci permet de construire le couplage aprs un pas de temps simultanment pour toutes
les donnes initiales dans E. Pour itrer, il suffit de choisir une suite {n }n > 1 de variables
indpendantes et la chane de Markov partant de x sobtient en composant les applica-
tions
n ( x ) = Fn Fn1 F1 ( x ). (6.5)
Le couplage seffectue au premier temps (alatoire) T o T est constante, i.e. que T ne
dpend plus de ltat initial dans E. Comme toutes les trajectoires ont fusionn au temps
T, la chane de Markov a perdu toute la mmoire du pass et il est tentant de croire que
la position de chane linstant T (i.e T ) est distribue selon la mesure invariante. Ce
nest pas le cas comme le montre lexemple de la figure 6.6, nanmoins une modification
simple mais astucieuse permet de rendre cette ide rigoureuse.

1/2 1/2

1/2 1 2 3
1/2 1

F IGURE 6.6 Pour ce graphe de transition, lquilibre ne peut pas correspondre au moment o
les diffrentes trajectoires fusionnent. En effet, ltat 3 ne peut tre atteint quen venant de ltat 2
et il nest donc pas possible que les trajectoires se touchent pour la premire fois ltat 3.

Le point de vue Propp et Wilson consiste coupler non pas vers le futur mais vers le
pass en remontant le temps et en inversant lordre dans (6.5)

Gn ( x ) = F1 Fn1 Fn ( x ).

Lindexation Fk correspond ici la transition entre les instants k et k + 1. Gn ( x ) sin-


terprte comme la valeur linstant 0 de la chane de Markov partie de x au temps n
(cf. figure 6.7). On dfinit le temps darrt T correspondant au premier instant o Gn est
constante 
T = inf n > 0; x, y E, Gn ( x ) = Gn (y) . (6.6)
Dans ce cas le rsultat de lalgorithme est ltat G T = G T ( x ) obtenu au temps 0 (qui ne
dpend pas de x).
6.3. SIMULATION PARFAITE : ALGORITHME DE PROPP-WILSON 95

GT

T N

F IGURE 6.7 Sur le schma, les diffrentes trajectoires partant au temps N nont pas coalesc
au temps 0. En remontant le temps jusqu T les trajectoires issues des diffrents tats de E
ont coalesc et ltat G T obtenu au temps 0 est distribu exactement selon la mesure invariante.
mesure que lalgorithme remonte dans le temps, la simulation doit conserver la mmoire des
trajectoires dj utilises.

Thorme 6.3. On considre une chane de Markov irrductible, apriodique de mesure inva-
riante . Si le temps de coalescence T dfini en (6.6) est fini presque srement, alors ltat G T est
distribu selon la mesure invariante .

Dmonstration. Une fois que les trajectoires ont coalesc, ltat de la chane en 0 ne va plus
varier
n > T, Gn = G T .
Comme on a suppos que le temps T est fini presque srement, on a par le thorme de
convergence domine

lim P Gn ( x ) = y = P G T ( x ) = y .
 
x, y E,
n

Les variables Gn et Fn (6.5) ont la mme loi et par consquent

lim P Gn ( x ) = y = lim P Fn ( x ) = y = (y)


 
n n

o la dernire galit est obtenue par le thorme 5.5. On conclut ainsi la preuve de ce
thorme
P G T ( x ) = y = ( y ).

x, y E,

Lalgorithme de Propp-Wilson suppose de suivre toutes les trajectoires issues de E ce


qui est impossible si E a un cardinal trop grand. Cependant pour certaines chanes de
Markov (par exemple pour la dynamique de Metropolis associe au modle dIsing), on
peut implmenter une variante de cet algorithme pour laquelle il suffit de suivre un petit
nombre de trajectoires. Ceci dpasse le cadre de ce cours mais on pourra trouver une
tude dtaille dans [19].
96 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES

6.4 Algorithme de recuit simul ?


Le problme initial voqu section 6.1 est de caractriser les configurations minimi-
sant une fonction V. Le lemme 6.1 permet destimer de telles configurations comme des
tats privilgis dune mesure de Gibbs T en fonction dun paramtre T pouvant tre
interprt comme une temprature. Cette mesure peut ensuite tre simule par un algo-
rithme de Metropolis-Hastings. La difficult consiste calibrer le paramtre T de faon
optimale car deux effets contraires se conjuguent dans cette procdure. T doit tre proche
de 0 pour que les minima soient correctement estims, mais dans ce cas la chane de Mar-
kov volue systmatiquement vers les potentiels dcroissants au risque de se comporter
comme les modles dterministes de descente de gradient et la convergence naura ja-
mais lieu sur des chelles de temps raisonnables. Inversement si T est trop grand, les
fluctuations stochastiques seront suffisantes pour empcher la chane de Markov dtre
pige dans des minima locaux (cf. figure 6.1) et la convergence vers la mesure dquilibre
T sera plus rapide cependant T ne dcrira pas correctement les solutions cherches.
Le recuit simul consiste simuler une chane de Markov par lalgorithme de Metropolis-
Hastings en baissant la temprature chaque pas de temps. Lide est de permettre la
chane de Markov de sortir rapidement des minima locaux quelle pourrait rencontrer
initialement, mais de baisser la temprature progressivement pour quelle se stabilise sur
le minimum global recherch. On choisit une suite de tempratures { Tn }n > 0 dcroissant
vers 0 et au temps n la chane de Markov volue en suivant la dynamique associe la
mesure Tn .

tape 0. Initialiser X0

tape n + 1.
Choisir y selon la loi Q( Xn , y)
Choisir Un+1 uniformment
  dans [0, 1] (et indpendamment du pass)
1
  Q(y,Xn ) 
Si Un+1 < Q( Xn , y) h exp Tn V ( Xn ) V (y) Q( Xn ,y)
poser Xn+1 = y
Sinon poser Xn+1 = Xn

Le choix de la suite de tempratures est crucial. On peut dmontrer que


Thorme 6.4. tant donne une fonction V, il existe une constante C (V ) qui dpend de V et
C (V )
telle que lalgorithme de recuit simul appliqu avec la suite de tempratures Tn = log n slec-
tionne lensemble M des minima de V, cest dire

lim P( Xn M) = 1.
n

La preuve de ce thorme pourra tre trouve dans le livre [9] et nous nous conten-
terons de justifier le choix de la dcroissance en log1 n par un exemple. Soit E = {1, 2, 3}
et V (1) = 0, V (2) = 1, V (3) = 1. Le minimum est atteint ltat 3 et ltat 1 consti-
tue un minimum local (cf. figure 6.8). On pose h(u) = min{u, 1} et Q suit le graphe des
transitions de la figure 6.8.
On suppose que ltat initial X0 = 1 et on veut calculer la probabilit que la chane de
Markov soit dans ltat 3 un temps n donn. Pour cela il faut que la chane soit passe
6.4. ALGORITHME DE RECUIT SIMUL ? 97

V
2

1 1/2
1

3 1 2 3
1/2 1

F IGURE 6.8 Le potentiel V de lexemple avec 3 sites est trac gauche. Le graphe de transition
de la matrice Q est reprsent droite.

par ltat 2 avant n


n 2
P( Xn = 3) 6 P(Xk = 1, Xk+1 = 2).
k =0

Avec les paramtres choisis, la probabilit de transition entre 1 et 2 au temps k + 1 est


donne par    
 1 1  1 1
P Uk+1 < exp = exp .
2 Tk 2 Tk
On obtient donc lestimation
1
 
1
P( Xn = 3) 6 exp .
2 k =0 Tk

Il est facile de voir que si c est une constante suffisamment petite et Tk 6 logc k alors
P( Xn = 3) < 1. Cette majoration savre indpendante du temps n choisi. Par consquent
si la temprature tend trop vite vers 0, la chane de Markov restera indfiniment pige
au point 1 avec une probabilit positive.
La dcroissance de la temprature en log1 n savre trop lente pour implmenter des al-
gorithmes performants. On prfre donc souvent utiliser des dcroissances polynomiales
de la forme n1 qui ne sont pas justifies dun point de vue thorique mais qui donnent
quand mme de trs bons rsultats ....

6.4.1 Problme du voyageur de commerce


Le recuit simul permet dobtenir une solution approche du problme du voyageur
de commerce dfini en (6.1). On choisit comme tat initial X0 une permutation au hasard
dans SK . tant donn un parcours = ((1), . . . , (K )), on note pour i 6= j le parcours
(i,j) obtenu en permutant lordre de visite des villes (i ) et ( j). Ceci permet de dfinir
une matrice de transition Q sur les diffrents parcours en autorisant uniquement ce type
de transitions
2
Q , (i,j) =

1 6 i < j 6 K, SK , .
K ( K 1)

Les rsultats de lalgorithme de recuit simul sont reprsents figure 6.9.


98 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES

F IGURE 6.9 Les simulations ci-dessus reprsentent des tapes de lalgorithme de recuit simul
pour rsoudre le problme du voyageur de commerce. Les positions de 35 villes sont choisies
au hasard ainsi que le circuit initial trac gauche. Aprs 2000 itrations, la longueur du par-
cours sest rduite (figure du centre) et le chemin tend converger aprs 10000 itrations vers une
solution (presque) optimale (figure de droite).

6.4.2 Traitement dimages


Dans cette section, nous allons montrer comment le recuit simul permet de traiter
des images perturbes par un bruit alatoire et didentifier des formes. Pour simplifier,
on suppose que limage dgrade par le bruit est en noir et blanc. On peut indexer chaque
pixel de cette image de taille L L comme un site i de = {1, . . . , L}2 et lui attribuer la
valeur i = 1 selon sa couleur. Limage est donc une collection de pixels = {i }i .
On veut liminer le bruit pour reconnatre une forme sur cette image. Pour cela on fait
lhypothse que cette forme a des contours rguliers et est constitue de blocs de 1. On va
donc modifier limage en enlevant des pixels 1 dans les rgions o les pixels gaux 1
sont denses et inversement. Ce mcanisme rappelle celui de la dynamique de Metropolis-
Hasting pour le modle dIsing (cf. section 6.2.2) et nous allons nous en inspirer.
Limage initiale = {i } va tre modifie en une nouvelle image S = {si } obtenue
comme le minimum de lnergie

V ( S ) = si s j + si i )2
i,j i
i j

o , > 0 sont deux constantes. Si = 0 et > 0, le minimum est donn par limage
initiale. Inversement si > 0 et = 0, on retrouve lnergie du modle dIsing et le
minimum est atteint pour les 2 configurations extrmes o tous les pixels valent 1 ou 1.
Il faut donc ajuster les paramtres et pour raliser un compromis entre deux effets :
limage restaure doit rester fidle limage initiale mais les contours doivent tre le plus
net possible et les fluctuations dues au bruit doivent tre limines.
Le recuit simul est une mthode adapte pour minimiser la fonction V qui est com-
pose de nombreux minima locaux et indexe par L2 variables. Ltat initial est donn
par limage et on utilise ensuite la dynamique de Metropolis-Hastings en abaissant
progressivement la temprature (cf. figure 6.10).
Cette application du recuit simul au traitement dimages avait simplement pour but
dillustrer les possibilits offertes par cette mthode. Pour traiter des problmes concrets,
une thorie plus sophistique est ncessaire et ses fondements sont dcrits dans [23]. La
6.4. ALGORITHME DE RECUIT SIMUL ? 99

F IGURE 6.10 Limage de gauche correspond limage observe avec le bruit. Aprs traitement
de limage, une zone centrale a pu tre identifie (image du centre). Limage non perturbe tait
le carr reprsent droite. Ces simulations sont extraites du livre [23].

segmentation dimages, i.e. lidentification de composantes dans des images, est particu-
lirement utilise en imagerie mdicale ou en cartographie.
100 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES
Chapitre 7

Un exemple de modlisation en
physique : la percolation ?

Les chanes de Markov fournissent un cadre thorique trs dvelopp pour tudier
les comportements asymptotiques de variables alatoires corrles. La dpendance des
chanes de Markov est indexe par la variable de temps. Ce chapitre constitue une in-
troduction aux systmes o lindexation des variables alatoires nest plus linaire et o
la gomtrie joue un rle. Nous dcrirons le modle de percolation et montrerons que
la structure spatiale induit des proprits trs intressantes qui font de la percolation un
modle clef en physique statistique. Le cours de W. Werner [21] est une excellente rf-
rence sur la thorie de la percolation (en particulier on pourra y retrouver les rsultats
prsents dans ce chapitre).
Ce chapitre peut tre omis dans le cadre du cours de MAP432, il sert simplement
prsenter des dveloppements actuels en thorie des probabilits.

7.1 Description du modle


Imaginons une pierre poreuse immerge dans de leau. Peut on dterminer en fonc-
tion de la porosit si le centre de la pierre est mouill ? Cette question a t pose par
Broadbent et Hammersley en 1957 et formule dans le cadre mathmatique suivant. On
considre Zd et on note E lensemble des artes

E = (i, j) i, j Zd , ki jk2 = 1 .

(7.1)

Pour simplifier les notations, une arte typique sera souvent note b = (i, j) E .
chaque arte b, on associe une variable alatoire de Bernoulli b de paramtre p [0, 1]
indpendamment des autres artes

P b = 1 = 1 P b = 1 = p .
 
b E , (7.2)

Par analogie avec la pierre poreuse, on dira quune arte b est ouverte si b = 1 (leau
peut passer travers larte) et ferme sinon (cf. figure 7.1). Un chemin de k ` dans Zd
est une suite {i0 = k, i1 , . . . , in = `} de sites distincts tels que (i j1 , i j ) soit dans E . On dit

101
102 CHAPITRE 7. APPLICATION : LA PERCOLATION ?

que deux sites k et ` sont relis dans le modle de percolation par un chemin ouvert sil
existe un chemin {i0 = k, i1 , . . . , in = `} tel que (i j1 ,i j ) = 1 pour tout j 6 n. On notera
{k `} lvnement que k soit reli ` par un chemin ouvert et {O } lvnement
quil existe un chemin infini dartes ouvertes partant de lorigine.

F IGURE 7.1 Exemple dune configuration de percolation dans un sous ensemble de Z2 . Les
artes ouvertes sont reprsentes en gras.

On peut interprter lexistence dun chemin infini en disant que le centre de la pierre
sera mouill. Si p = 1, lorigine est toujours connecte linfini par un chemin dartes
ouvertes et inversement si p = 0, lorigine est toujours dconnecte de linfini. Le pro-
blme est donc de dterminer pour quelles valeurs de p (0, 1) un tel chemin existe avec
probabilit positive.

F IGURE 7.2 Dans ces simulations, les sites de Z2 sont coloris en noir avec probabilit p et en
blanc avec probabilit 1 p. La question de la percolation peut donc se reformuler en terme de
chemins de sites noirs adjacents. Chaque grille a 80 80 sites et lintensit de p est successivement
p = 0, 3, p = 0, 59 et p = 0, 7. Existe-t-il, dans limage du milieu, un chemin noir reliant lorigine
(situe au centre) au bord du carr ?

7.2 Transition de phase


Pour p [0, 1], on dfinit
 
( p ) = P {O } . (7.3)

Le thorme suivant montre lexistence dune transition de phase pour la percolation


(cf. figure 7.3).
7.2. TRANSITION DE PHASE 103

Thorme 7.1. Pour d > 2, il existe un point critique pc ]0, 1[ tel que

p < pc , ( p) = 0, p > pc , ( p) > 0 .

La structure spatiale est trs importante et dans le cas unidimensionnel, il nexiste


pas de transition de phase une valeur non triviale. En effet si lorigine est connecte
linfini alors pour tout n, lorigine est connecte n ou n. On a donc
     
P {O } 6 P {O n} + P {O n} 6 2pn .

Pour tout p < 1, on voit que le membre de droite de lquation tend vers 0 quand n tend
vers linfini. Par consquent pc = 1 si d = 1.

F IGURE 7.3 Graphe de p ( p) pour d > 2. La continuit de la courbe au point critique est
voque section 7.2.3.

La preuve du thorme 7.1 se dcompose en 3 tapes :


1. Il existe p0 > 0 tel que pour tout p < p0 alors ( p) = 0.
2. Il existe p1 < 1 tel que pour tout p > p1 alors ( p) > 0.
3. La fonction p ( p) est croissante.
Ces trois assertions permettent donc de dmontrer quil existe un unique point critique
pc dans ]0, 1[. On pose
pc = inf{ p | ( p) > 0} .

Chaque tape sera lobjet dune des propositions dmontres ci-dessous.

7.2.1 Absence de percolation pour p petit


Proposition 7.2. Il existe p0 > 0 tel que ( p) pour tout p < p0 .

Dmonstration. Lide de la preuve est similaire largument utilis en dimension 1, mais


cette fois il faut tenir compte de lentropie des chemins, i.e. des choix multiples des
chemins possibles. Si {O } a lieu alors il existe au moins un chemin = {i0 =
O, i1 , . . . , in } de longueur n et partant de lorigine O dont toutes les artes sont ouvertes
(on rappelle quun chemin ne sintersecte pas). On notera n lensemble des chemins de
104 CHAPITRE 7. APPLICATION : LA PERCOLATION ?

longueur n partant de lorigine. On a donc


   
P {O } 6 P { un chemin de longueur n ouvert} ,
 [ 
6P { est un chemin ouvert} ,
n
 
6 P { est un chemin ouvert} = Card(n ) pn .
n

En dimension d, le cardinal de n est toujours trivialement infrieur (2d)n . Par cons-


1
quent si p0 = 2d , lingalit ci-dessous est valable pour tout n
 n
  p
P {O } 6 (2d)n pn = .
p0
Il suffit de laisser n tendre vers linfini pour conclure.

7.2.2 Percolation pour p proche de 1


Proposition 7.3. Il existe p1 < 1 tel que ( p) > 0 pour tout p > p1 .
Dmonstration. Si lorigine est connecte linfini dans Z2 alors elle le sera a fortiori dans
Zd o les chemins ouverts sont plus nombreux. Il suffit donc de prouver la Proposition
pour d = 2. On note C(O) la composante connexe contenant lorigine et forme par les
liens ouverts. On va montrer que pour p proche de 1
 
lim P Card(C(O)) 6 n < 1 .
n

Ceci implique quil y a une probabilit positive pour que le cardinal de C(O) soit infini et
donc que lorigine soit connecte linfini.
Une simplification importante du cas d = 2 est la notion de dualit. On dfinit le
rseau dual dont les artes sont E ? = {(u + 12 , v + 21 ), (u, v) Z2 }. Chaque arte b
de E est associe larte b? de E ? qui lintersecte. A toute ralisation alatoire {b }bE ,
on peut faire correspondre une configuration de percolation dans le rseau dual {b?? =
1 b }bE (cf. figure 7.4). Une arte ouverte dans E est associe une arte ferme dans le
rseau dual et inversement. La percolation associe au rseau dual a donc pour paramtre
1 p.
Si la composante C(O) est finie, alors elle est ncessairement entoure par un chemin
ouvert dans le dual (cf. figure 7.4). On notera ?n lensemble des chemins ? de longueur
n dans le dual entourant lorigine. On remarque que pour entourer lorigine il faut au
moins 4 artes duales.
   
P Card(C(O)) < = P { un chemin dual ouvert entourant lorigine} ,
 [ 
6 P {? est un chemin dual ouvert} ,
n>4 ? ?n
 
6 P {? est un chemin dual ouvert} .
n > 4 ? ?n
7.2. TRANSITION DE PHASE 105

F IGURE 7.4 La composante connexe C(0) des liens ouverts contenant lorigine est entoure par
un contour ouvert dans le rseau dual (reprsent en pointills). Pour ne pas alourdir le dessin,
seuls les points du rseau dual autour de lorigine sont reprsents, mais il faut imaginer une
configuration duale plus tendue avec toutes les artes {b?? }b? E ? .

La probabilit quun chemin dual de longueur n soit ouvert est (1 p)n , on a donc
 
P Card(C(O)) < 6 Card(?n )(1 p)n .
n>4

Il ne reste plus qu estimer le cardinal de ?n . Tout chemin ? ?n va croiser laxe


{( x, 0)} x[0,n] au moins une fois. Si on fixe une arte duale intersectant {( x, 0)} x[0,n] ,
le nombre de chemins de longueur n est au plus 3n (cette borne est loin dtre optimale).
Ceci peut sobtenir en remarquant quun chemin dans le dual forme une boucle sans
intersections et qu chaque pas un chemin a au plus 3 directions possibles pour voluer.
On en dduit que pour p > 2/3
 
P Card(C(O)) < 6 n 3n (1 p)n .
n>4
 
On peut donc choisir p1 pour que la probabilit P Card(C(O)) < soit strictement
infrieure 1 si p > p1 .

7.2.3 Point critique


Proposition 7.4. La fonction p ( p) est croissante.
Dmonstration. Une faon simple de simuler une variable alatoire de Bernoulli de
paramtre p est de tirer au hasard une variable alatoire uniforme U sur [0, 1] et de poser
= 1{U 6 p} . On peut donc comparer 2 configurations de percolation de paramtres
p < q en les couplant, i.e en les construisant simultanment. On se donne une collection
{Ub }bE de variables alatoires indpendantes et uniformment distribues sur [0, 1] et
on pose
b E , b = 1{Ub 6 p} , b = 1{Ub 6 q} .
Les variables {b }bE sont des variables de Bernoulli indpendantes de paramtre p
et {b }bE sont des variables de Bernoulli indpendantes de paramtre q. Par contre
{b }bE et {b }bE sont corrles car b 6 b pour tout b E . Par consquent tout
chemin ouvert dans la configuration {b }bE sera aussi ouvert dans la configuration
{b }bE . On en dduit que si lorigine est connecte linfini pour la ralisation {b }bE
elle le sera aussi pour la ralisation {b }bE . Ceci permet de conclure que ( p) 6 (q).
106 CHAPITRE 7. APPLICATION : LA PERCOLATION ?

Nous avons dmontr que la fonction p ( p) est croissante et il est naturel de se


demander si elle est continue. Par dfinition, p ( p) est nulle pour p < pc et donc
continue. On peut montrer (avec un peu defforts) quelle est aussi continue pour p > pc .
On conjecture la continuit au point pc en toute dimension, mais elle na t dmontre
que pour d = 2 et d > 19. Du point de vue de la physique, une discontinuit en pc sin-
terprterait comme une transition de phase du premier ordre et impliquerait lexistence
dune composante ouverte infinie de densit macroscopique pc . Personne ne sattend
un tel scnario et on conjecture que la transition de phase est du second ordre ( ( pc ) = 0),
cependant le cas physiquement intressant de la dimension d = 3 reste un problme ma-
thmatique ouvert !

7.2.4 Dimension 2
On remarquera que la preuve du thorme 7.1 tablit lexistence de pc sans en dter-
miner la valeur. En gnral, cette valeur nest pas connue mais dans certains cas particu-
liers des symtries permettent de la deviner.

En dimension 2, on peut dmontrer que pc = 1/2. La preuve est dlicate (cf. [21])
et on se contentera de justifier lintuition du rsultat. La dualit implique lalternative
suivante pour tout domaine de la forme n = {n, . . . , n}2 :
ou n est travers par un chemin ouvert reliant le bord droit au bord gauche
ou il existe un chemin dual ouvert reliant le haut et le bas de n (de ?n si on veut
tre prcis).
Ces deux vnements ne peuvent pas arriver simultanment (cf. figure 7.5).

F IGURE 7.5 Un chemin ouvert reliant le bord droit au bord gauche de la boite n . Ce che-
min coupe la boite en 2 morceaux et empche tout chemin dual (reprsent en pointills) de la
traverser du haut vers le bas.

On peut dmontrer que p > pc si la probabilit quun chemin ouvert relie les bords
gauche et droit de n tend vers 1 quand n tend vers linfini. Par consquent si p > pc la
percolation dans E va empcher la percolation dans le rseau dual E ? . Mais les deux types
de percolation ont par symtrie un comportement identique. Labsence de percolation
dans le rseau dual implique donc 1 p < pc . Ceci conduit la relation pc = 1 pc
et justifie heuristiquement pc = 1/2. On peut aussi dmontrer la continuit au point
critique (1/2) = 0.

La percolation au point critique est trs tudie en physique. Par exemple, on conjec-
ture un comportement universel de ( p) proche de pc pour une grande classe de modles
7.2. TRANSITION DE PHASE 107

bidimensionnels
p > 1/2, ( p) ' ( p 1/2)5/36 .
Lexposant 5/36 ne devrait pas dpendre de la structure microscopique du rseau. Pour
le moment cette relation a t tablie "uniquement" pour le rseau triangulaire par S.
Smirnov et W. Werner. Le cas de Z2 considr dans ces notes reste un problme ouvert.

Lobjet mathmatique cach derrire ce comportement universel est lvolution de Schramm-


Loewner (Schramm-Loewner evolution). Ce processus stochastique est la limite du proces-
sus dexploration discret reprsent figure 7.6. Il encode la structure limite de linterface
et de faon implicite les exposants critiques du modle. Ce processus dpasse largement
le cadre de la percolation car il apparat comme la limite universelle des modles cri-
tiques bidimensionnels (invariants par transformations conformes) : le modle dIsing, le
modle de Potts, la marche auto-vitante, le champ libre Gaussien ....

F IGURE 7.6 On considre la percolation sur le rseau hexagonal. Les sites du bord droit sont
coloris en bleu et ceux du bord gauche en jaune, les autres couleurs sont choisies alatoirement
avec la probabilit pc . On construit un chemin en partant du bas de limage et en explorant lin-
terface entre le bleu et le jaune. Les conditions aux bords forcent le chemin traverser le domaine
du bas vers le haut. Quand la taille du domaine augmente la trajectoire revient sur elle mme et
forme des boucles. Les simulations ci-dessus ont t ralises par V. Beffara.
108 CHAPITRE 7. APPLICATION : LA PERCOLATION ?
Deuxime partie

Martingales

109
Chapitre 8

Esprance conditionnelle

8.1 Esprance conditionnelle sur un espace dtats discret

loccasion dun sondage, des gens sont interrogs et ils doivent attribuer une note
de 1 100 pour le nouveau produit quils viennent de tester. On peut modliser len-
semble des rponses par une variable alatoire X valeurs dans E = {1, . . . , 100}. Le
rsultat du sondage sera la moyenne des rponses et il donnera une bonne estimation de
E( X ). Pour affiner le sondage, on voudrait classer les rponses en fonction de la personne
sonde selon son genre, son ge ou la couleur de ses cheveux. Par exemple si Y corres-
pond lge de la personne sonde, la probabilit conditionnelle permet de dterminer la
probabilit quune personne dge y attribue la note x

P( X = x, Y = y)
P ( X = x |Y = y ) = . (8.1)
P (Y = y )

Cette expression na un sens que si P(Y = y) > 0. On a ainsi dfini une nouvelle mesure
de probabilit sur E appele probabilit conditionnelle

P ( X = x |Y = y ) = 1
xE

et le rsultat du sondage pour la classe dge y correspondra la note moyenne attribue


sous cette probabilit, i.e. lesprance sous la probabilit conditionnelle

E ( X |Y = y ) = xP( X = x |Y = y).
xE

La fonction E( X |Y = y) ne dpend que de y et elle fournit (en gnral) une information


plus prcise que E( X ). On dfinit lesprance conditionnelle E( X |Y ) comme la fonction de
Y qui prend la valeur E( X |Y = y) quand Y = y. Il existe donc une fonction h(Y ) telle
que
h (Y ) = E ( X |Y ) et y, h ( y ) = E ( X |Y = y ) .

111
112 CHAPITRE 8. ESPRANCE CONDITIONNELLE

Si Y prend ses valeurs dans lespace discret E0 , on peut retrouver E( X ) en intgrant sur
Y

E E ( X |Y ) = P (Y = y ) E ( X |Y = y ) = x P (Y = y ) P ( X = x |Y = y )

y E0 xE y E0

= x P( X = x, Y = y) = xP( X = x ) = E( X ). (8.2)
xE y E0 xE

Si E( X 2 ) est finie, lesprance E( X ) peut tre vue comme la meilleure approximation


de X par une constante car elle minimise la distance quadratique
 2   2  n   o
E X E( X ) = inf E X c = inf E X 2 2cE X + c2 .

c R c R

Le minimum du polynme est atteint en c = E( X ). Lesprance conditionnelle E( X |Y )


sinterprte aussi comme la meilleure approximation (pour la distance quadratique) de
la variable X par la variable Y. Si Y prend ses valeurs dans lespace discret E0 , on cherche
dterminer la fonction h : E0 R qui ralise le minimum
 2  n   o
inf E X h(Y ) = inf E X 2 2E h(Y ) X + E h(Y )2 .

h h

La distance quadratique est minimise par le projet orthogonal de X sur lespace des
variables H = { h(Y ); h : E0 R} (cf. figure 8.1). Pour dterminer cette projection,
reprenons le calcul (8.2)

E h (Y ) E ( X |Y ) = P (Y = y ) h ( y ) E ( X |Y = y )

y E0

= xh(y)P( X = x, Y = y) = E(h(Y ) X ).
x E y E0

On se restreint aux fonctions E(h(Y )2 ) < pour que les esprances ci-dessus soient bien
dfinies. Ceci prouve la relation dorthogonalit pour toute fonction h de E0 dans R
 
E h (Y ) X E ( X |Y ) = 0

et permet de rsoudre le problme variationnel


 2 
inf E X h(Y ) = inf E X 2 2E h(Y ) X + E h(Y )2
   
(8.3)
h h
= inf E X 2 2E h(Y ) E( X |Y ) + E h(Y )2
   
h
n  2 o
= inf E X 2 E E( X |Y )2 + E h(Y ) E( X |Y )
 
h
= E X 2 E E ( X |Y ) 2 .
 

Lunique minimum est donc atteint pour h(Y ) = E( X |Y ). Linterprtation de lesprance


conditionnelle en terme de projection orthogonale sera particulirement utile par la suite
pour les variables valeurs dans R.
8.2. DFINITION DE LESPRANCE CONDITIONNELLE 113

Supposons maintenant que le couple ( X, Y ) soit valeurs dans R2 , on aimerait dfinir


lesprance conditionnelle en sinspirant du cas discret

P( X = x |Y = y) = lim P X [ x , x + ] Y [y , y + ]

0

en gnral il nest pas facile de donner un sens ces expressions et nous allons renoncer
cette approche intuitive pour utiliser le point de vue de lapproximation quadratique
illustr dans le cas discret.

8.2 Dfinition de lesprance conditionnelle


Cette section rsume quelques rsultats ncessaires pour gnraliser lesprance condi-
tionnelle aux variables valeurs dans Rn , mais elle constitue seulement un kit de survie
pour naviguer dans les eaux troubles de la thorie de la mesure. Les preuves compltes
peuvent tre trouves dans les annexes.

Soit X : R une variable alatoire valeurs dans R. On souhaite attribuer une


probabilit aux vnements de la forme { X 6 a} pour tout a de R, mais aussi valuer la
probabilit des complmentaires et des intersections entre tous ces ensembles. Ceci nous
amne dfinir la notion de -algbre.

Dfinition 8.1 (-algbre). Une -algbre F sur un espace est une famille dvnements
satisfaisant les trois proprits suivantes :
appartient F
Si A est dans F alors Ac est dans F .
Toute runion dnombrable dvnements de F appartient F .

Si C est une collection dvnements on notera (C) la plus petite -algbre contenant
C . On dira que (C) est la -algbre engendre par C . Dans R, la -algbre engendre par
les intervalles de la forme ] , a] est la -algbre borlienne et sera note BR . Les en-
sembles de la forme { X 6 a} avec a dans R engendrent aussi une -algbre qui sera note
( X ) et qui contient aussi tous les vnements de la forme { X B} pour B appartenant
BR .
Une -algbre constitue le bon cadre thorique pour dfinir une mesure de probabilit
(cf. thorme A.6). On appelle alors espace probabilis le triplet (, A, P) o A est une -
algbre sur et P : A [0, 1] est une mesure de probabilit. Si A est une -algbre sur
, on dira que la variable X : R est mesurable par rapport A (on abrge souvent
par A-mesurable), si tous les vnements { X B} pour B BR appartiennent A, i.e.
( X ) A. On peut ainsi mesurer P({ X B}).
tant donne une variable alatoire X valeurs dans R, les variables Y mesurables
par rapport ( X ) sont toutes de la forme Y = f ( X ) o f est une fonction borlienne f :
R R (dfinie section A.2.1). En effet, ( X ) ne permet de mesurer que des vnements
de la forme { X B} construits partir de X et toute fonction borlienne se dcompose
laide dindicatrices 1 B avec B dans BR . Cette caractrisation sera trs importante pour
la suite. Elle est dmontre dans le lemme B.2.
114 CHAPITRE 8. ESPRANCE CONDITIONNELLE

Le formalisme prcdent va nous permettre de dfinir la notion desprance condi-


tionnelle pour des variables alatoires valeurs dans R comme une projection orthogo-
nale en sinspirant des variables alatoires valeurs dans un espace discret. Considrons
un espace probabilis (, A, P) et deux variables X et Y valeurs dans R, mesurables
par rapport A. On suppose que X est dans L2 , i.e. que E( X 2 ) < . Les variables me-
surables par rapport (Y ) sont de la forme h(Y ) o h : R R appartient L0 (BR )
lensemble des fonction borliennes (dfini page 173). On cherche approcher X en fonc-
tion des variables du sous-espace
n o
H = h (Y ) ; h L 0 ( BR ) , E ( h ( Y ) 2 ) < .

Comme H est un sous-espace vectoriel ferm, on peut dfinir la projection orthogonale


de X sur H pour le produit scalaire h Z, W i = E( Z W ). On note cette projection E( X |Y )
(cf. figure 8.1) et elle satisfait la relation dorthogonalit pour tout h(Y ) dans H
 
E X E ( X |Y ) ) h (Y ) = 0 E X h (Y ) = E E ( X |Y ) h (Y ) .
  
(8.4)

y
X

E(X|Y ) x
0 1/2 1

F IGURE 8.1 Lesprance conditionnelle E( X |Y ) sinterprte comme la projection orthogonale


au sens L2 de X sur H (schma de gauche). Le schma de droite reprsente la densit f X,Y de
lexemple (8.6).

Un calcul identique celui fait en (8.3) dans le cas discret montre que E( X |Y ) est la
meilleure prdiction possible de X (au sens L2 ) par la variable Y
 2 
inf E X h(Y ) = E X 2 E E ( X |Y ) 2 .
 
hH

Par ailleurs toutes les variables mesurables par rapport (Y ) scrivent sous la forme
h(Y ) ; la variable E( X |Y ) est donc aussi (Y )-mesurable.

Cette stratgie stend aux variables alatoires X satisfaisant E(| X |) < .


Thorme 8.2. Soit X une variable alatoire A-mesurable appartenant L1 (A, P), i.e. telle que
E(| X |) < . On considre F A une autre -algbre. Il existe une unique variable alatoire Z
(dfinie presque srement) telle que
(a) Z est F -mesurable,
(b) E[| Z |] < ,
(c) Pour tout vnement F F , on a E[ X 1 F ] = E[ Z 1 F ].
On dfinit alors lesprance conditionnelle de X sachant F par E( X |F ) = Z.
8.2. DFINITION DE LESPRANCE CONDITIONNELLE 115

La proprit (c) est lanalogue de la condition dorthogonalit (8.4), mais lespace H


est rduit aux indicatrices {1 F , F F }. Si F = (Y ), on note E( X |Y ) = E( X |F ) et la
proprit (c) peut se rcrire

h L (BR ), E X h (Y ) = E E ( X |Y ) h (Y )
 
(8.5)

o L (BR ) est lensemble des fonctions borliennes bornes. Si F = (Y1 , , Yn ) est


la -algbre engendre par les variables Y1 , , Yn , i.e. la plus petite -algbre contenant
(Y1 ), , (Yn ), on note lesprance conditionnelle E( X |Y1 , , Yn ).
Le thorme prcdent se dduit facilement du cas L2 en approchant la variable X
par des variables dans L2 , la preuve est faite en annexe (cf. thorme B.42).

Lesprance conditionnelle E( X |F ) fournit une prdiction sur X sachant F . On dis-


tingue deux cas extrmes :
Si F = {, }, cest la plus petite algbre et elle correspond labsence totale
dinformation. La condition (a) dit que Z est dterministe, i.e. Z = E[ Z ], et la condi-
tion dorthogonalit (c) permet didentifier cette constante E[ X ] = E[ Z ] = Z. Ainsi
lesprance conditionnelle dans ce cas se confond avec lesprance E[ X |F ] = E( X ).
Si F = ( X ), toute linformation sur X est connue. Appliquons la condition dor-
thogonalit (c) lvnement F + = { X Z > 0} ( X )

E[( X Z )1 F+ ] = E[( X Z )1{X Z > 0} ] = 0 ( X Z )+ = 0 p.s.

De mme avec F = { X Z 6 0} ( X ) on obtient ( X Z ) = 0 presque


srement. Ainsi E[ X |F ] = X et les autres conditions (a) et (b) sont aussi vrifies.
Il sagit de la meilleure prdiction possible de X.

Esprance conditionnelle pour des variables densit.


Revenons maintenant sur le cas trs important des variables densit. Supposons que
le couple ( X, Y ) soit valeurs dans R2 et admette une distribution absolument continue
par rapport la mesure de Lebesgue dans R2 , de densit f (X,Y ) ( x, y)dxdy. Dfinissons la
loi marginale de Y obtenue par intgration par rapport la variable x
Z
f Y (y) = f (X,Y ) ( x 0 , y)dx 0

et pour f Y (y) > 0, la probabilit conditionnelle par

f (X,Y ) ( x, y) f (X,Y ) ( x, y)
f X |Y = y ( x ) = = R
f Y (y) f (X,Y ) ( x 0 , y)dx 0

que lon interprte comme lanalogue de (8.1) dans ce contexte. Il est clair que pour tout
y fix, la fonction f X |Y =y ( x ) dfinit une densit sur R et on peut lui associer
Z
E [ X |Y = y ] = x f X |Y =y ( x )dx.

Comme dans le cas discret, E[ X |Y ] = (Y ) est une fonction de Y et elle dfinit une va-
riable alatoire E[ X |Y ] appele esprance conditionnelle de X sachant Y. La condition
116 CHAPITRE 8. ESPRANCE CONDITIONNELLE

dorthogonalit (c) du thorme 8.2 se vrifie aussi par un calcul direct : pour toute fonc-
tion h : R R borne
Z Z
E [E[ X |Y ] h(Y )] = dy f Y (y) h(y) x f X |Y =y ( x )dx
ZZ
= x h(y) f (X,Y ) ( x, y)dxdy = E[ X h(Y )]

o on a utilis le thorme de Fubini. On retrouve ainsi la proprit (8.5).


Pour conclure prenons lexemple de la densit

x, y [0, 1]2 ,

f X,Y ( x, y) = 2 1{ x 6 1/2, y > 1/2} + 1{ x>1/2, y 6 1/2} (8.6)

reprsente figure 8.1. Le calcul des marginales permet de voir que les variables consid-
res sparment sont uniformment distribues sur [0, 1]

x, y [0, 1], f X ( x ) = 1, f Y (y) = 1.

Par contre, la probabilit conditionnelle de X sachant Y est ou bien uniforme sur [0, 1/2]
ou bien sur [1/2, 1]

f X |Y =y ( x ) = 2 1{ x 6 1/2, y > 1/2} + 1{ x>1/2, y 6 1/2} .

Lesprance conditionnelle est donne par


1 3
E ( X |Y ) = 1{Y > 1/2} + 1{Y <1/2} .
4 4

8.3 Proprits de lesprance conditionnelle


Commenons par les proprits dj esquisses dans le paragraphe prcdent.
Proposition 8.3. Lesprance conditionnelle E[.|F ] est linaire et pour tout X L1 (A, P)
(i) E [E[ X |F ]] = E[ X ],
(ii) Si X > 0, alors E[ X |F ] > 0 presque srement,
(iii) Si X est F -mesurable, alors E[ X |F ] = X presque srement.
Lesprance conditionnelle jouit des mmes proprits de passage la limite que les-
prance. Le rsultat suivant est dmontr proposition B.44.
Proposition 8.4. Soit { Xn }n > 0 une suite de variables alatoires dans L1 (A, P) qui converge
presque srement vers X. On suppose que X appartient aussi L1 (A, P). On peut montrer que
(i) (Convergence monotone)
Si Xn > 0 converge vers X en croissant, alors E[ Xn |F ] E[ X |F ].
(ii) (Convergence domine)
Si il existe Y dans L1 (A, P) tel que supn | Xn | 6 Y, alors E[ Xn |F ] E[ X |F ]
(iii) (Lemme de Fatou)
Si Xn > 0, alors
E[lim inf Xn |F ] 6 lim inf E[ Xn |F ].
n n
8.4. PROCESSUS ALATOIRE 117

La preuve de lingalit de Jensen (thorme B.6) stend aussi aux esprances condi-
tionnelles

Proposition 8.5. Soit X dans L1 (A, P) et g : Rn R {} une fonction convexe telle que
E[| g( X )|] < . Alors E[ g( X )|F ] > g (E[ X |F ]).

On peut appliquer des conditionnements successifs. La proposition suivante rsume


les propositions B.45, B.46 et B.47 prouves en annexe.

Proposition 8.6. Soit X L1 (A, P) et F , G des sous--algbres de A.


(i) Si F G , alors E E( X |G)|F = E[ X |F ].
 

(ii) Si G est indpendante de (( X ), F ), alors E[ X |(F , G)] = E[ X |F ].


(iii) Si Y est une variable alatoire mesurable par rapport F et E[| XY |] < , alors

E[ XY |F ] = YE[ X |F ].

Pour illustrer cette proposition, supposons que X mesure le rendement dune raction
chimique qui dpend de nombreux paramtres cods par la -algbre A : la temprature
T, la pression P, lhabilet des exprimentateurs, etc. Dans (i), si les paramtres T et P sont
connus le rsultat moyen sachant G = ( T, P) est E( X |G). Si seul T est dtermin, il faut
intgrer sur toutes les valeurs possibles de la pression P pour obtenir E( X |F ) lesprance
conditionnelle sachant F = ( T ). La relation (ii) dit que rajouter une information G qui
na rien voir avec cette exprience ne permet pas damliorer la prdiction E[ X |F ]. Le
dernier point (iii) est lanalogue du (iii) dans la proposition 8.3. Si Y = h( T ) ne dpend
que de T, la meilleure prdiction de Y sachant F = ( T ) est Y.

8.4 Processus alatoire


Nous avons dj rencontr la notion de processus alatoire sous la forme dune chane
de Markov { Xn }n > 0 valeurs discrtes. Plus gnralement, si (, A, P) dsigne un es-
pace probabilis, un processus alatoire X = { Xn }n > 0 est une suite de variables alatoires
sur (, A) valeurs dans un ensemble mesur ( E, E ). Dans la suite nous allons princi-
palement nous intresser des processus valeurs dans (R, BR ). Lindice n indique la
date laquelle la variable alatoire Xn est observe. Afin dintroduire le droulement du
temps et la structure de linformation qui en dcoule, on introduit la notion importante
suivante.

Dfinition 8.7. (Filtration) Une filtration de A est une suite croissante F = {Fn }n > 0 de
sous--algbres de A. On dit que (, A, F, P) un espace probabilis filtr.
En particulier, si X = { Xn }n > 0 est un processus alatoire de (, A) dans ( E, E ). Alors la
suite

FnX = ( Xi , i 6 n ), n > 0,

est une filtration de A appele filtration naturelle de X.


118 CHAPITRE 8. ESPRANCE CONDITIONNELLE

Pour chaque n N, la sous--algbre Fn reprsente linformation disponible la


date n. La croissance de la suite {Fn }n > 0 traduit lide que linformation ne peut que
saccumuler au fil du temps et quil ny a pas de possibilit doublier des informations
passes. La notion de filtration permet de dcrire la structure de linformation et de sa
dynamique dans le temps de manire prcise. De la mme faon quune variable alatoire
fait rfrence une -algbre, un processus alatoire se doit dtre dcrit en relation avec
une filtration.
Les notions suivantes seront trs utiles pour dfinir des stratgies au chapitre 12.

Dfinition 8.8. Soient X = { Xn }n > 0 un processus alatoire et F = {Fn }n > 0 une filtration
de A. On dit que
(i) X est F-adapt si Xn est Fn -mesurable pour tout n > 0,
(ii) X est F-prvisible si Xn est Fn1 -mesurable pour tout n > 0 o par convention F1 =
{, }.
Section 2.4, nous avons dj dfini la notion de temps darrt qui joue un rle central
dans lanalyse des processus alatoires. Les prises de dcision en prsence dune structure
dinformation ne peuvent sappuyer que sur linformation disponible la date courante
et les seuls temps alatoires qui sont perceptibles par un agent sont les temps darrt. En
utilisant le formalisme des filtrations, on peut redfinir

Dfinition 8.9. Un temps darrt T est une variable alatoire valeurs dans N {} telle que

{ T = n} Fn pour tout n > 0.

Si Fn = ( Xi , i n) est la filtration naturelle, cette notion est quivalente celle


dcrite section 2.4. Lvnement { T = n} tant mesurable par rapport Fn , il peut donc
tre exprim en fonction des n premires observations

1 { T = n } = n ( X0 , . . . , X n )

o n est une fonction mesurable.


On rappelle quune classe importante de temps darrt correspond au premier temps
datteinte dun ensemble A

TA = inf {n 0; Xn A }

avec la convention inf = .


Chapitre 9

Martingales en temps discret

Dans tout ce chapitre on considrera des processus alatoires valeurs dans R.

9.1 Martingales
Dans le domaine des jeux de hasard, on trouve la dfinition suivante : une martingale
est une technique permettant daugmenter les chances de gain. Toutefois, en moyenne, un joueur
utilisant une martingale ne gagnera pas plus quun autre ; la martingale permet de perdre moins
souvent, mais le montant des pertes potentielles est plus important. Ce concept a un ct mys-
trieux li des histoires colportes sur lutilisation par certains joueurs dune martingale
dont ils dtiennent jalousement le secret. Bien sr, tout ceci relve plutt du mythe que
de la ralit. En effet, lanalyse prcise des stratgies dites de martingale rvle des carac-
tristiques de moyenne de gain et de risque qui ne justifient pas les bienfaits prtendus.
La notion de filtration permet de donner une dfinition mathmatique prcise de cette
notion.

Dfinition 9.1. (Martingale)


Soit X = { Xn }n > 0 un processus alatoire adapt sur lespace probabilis filtr (, A, F, P).
Si Xn est intgrable pour tout n (i.e. E(| Xn |) < ), on dit que X est
- une martingale si E [ Xn | Fn1 ] = Xn1 pour tout n > 1.
- une surmartingale si E [ Xn | Fn1 ] 6 Xn1 pour tout n > 1.
- une sous-martingale si E [ Xn | Fn1 ] > Xn1 pour tout n > 1.

Il existe de nombreux exemples de tels processus.


Marche alatoire symtrique.
Soit { n }n > 0 une suite de variables alatoires indpendantes intgrables avec E[ n ] =
0. Alors la marche alatoire S = {Sn }n > 0
n
n > 1, Sn = i et S0 = 0 (9.1)
i =1

est une martingale pour la filtration Fn = ( i , i 6 n). Les variables alatoires { n }n > 1
peuvent reprsenter le gain (ou la perte) la nime partie dun joueur pratiquant un jeu au

119
120 CHAPTER 9. MARTINGALES EN TEMPS DISCRET

hasard. Ceci se dmontre facilement en utilisant la linarit de lesprance conditionnelle


E(Sn+1 |Fn ) = E(Sn |Fn ) + E( n+1 |Fn ) = Sn + E( n+1 ) = Sn
o on a utilis que Sn est mesurable par rapport Fn (Proposition 8.3 (iii)) et que n+1 est
indpendant de Fn (Proposition 8.6 (ii)).
Contrairement une chane de Markov, les corrlations dune martingale au temps
n peuvent dpendre de tout le pass. Supposons que la distribution des { n }n > 0 soit
symtrique ( f ( x ) = f ( x )) et soit une fonction borne antisymtrique ( x ) =
( x ), alors un raisonnement identique celui utilis ci-dessus pour la marche alatoire
montre que
n
1
Mn = k 1 2 k

k =1
2
est une martingale pour la filtration Fn = ( i , i 6 n ).

Chanes de Markov.
Nous allons maintenant construire une martingale partir dune chane de Markov
{ Xn }n > 0 de matrice de transition P sur un espace dtats E dnombrable. Rappelons la
dfinition (3.4) dune fonction harmonique h pour P
x E, h( x ) = P(x, y)h(y).
y E

Si E(|h( Xn )|) est fini pour tout n, alors { h( Xn )}n > 0 est une martingale pour la filtration
Fn = ( X1 , , Xn ). En effet
E h ( X n +1 ) F n = E h ( X n +1 ) X n = P ( X n , y ) h ( y ) = h ( X n ).
 
y E

De la mme faon
si h est surharmonique, i.e. h > Ph, alors { f ( Xn )}n > 0 est une surmartingale
si h est sous-harmonique, i.e. h 6 Ph, alors { f ( Xn )}n > 0 est une sous-martingale

Ingalit de Jensen.
Soient { Xn }n > 0 une martingale et g : R R une application convexe telle que
E[| g( Xn )|] < , alors le processus alatoire { g( Xn )}n > 0 est une sous-martingale. Il sagit
dune consquence de lingalit de Jensen (thorme 8.5)
E g ( X n +1 ) F n > g E X n +1 F n = g ( X n ).
 

Ce rsultat appliqu la marche alatoire S (9.1) montre que {Sn2 }n > 0 est une sous-
martingale et son esprance augmente au cours du temps (en supposant que E( 12 ) < ).
Cette croissance peut tre compense et le processus
n > 0, Mn = Sn2 nE( 12 ) (9.2)
est alors une martingale. Pour le voir, dcomposons lesprance conditionnelle en utili-
sant la linarit
E Mn+1 Fn = E Sn2 + 2 n+1 Sn + n2 +1 Fn (n + 1)E( 12 )
 

= E Sn2 Fn nE( 2 ) + 2E n+1 Sn Fn + E 2 Fn E( 2 ).


  
1 n +1 1
9.2. THORME DARRT 121

En utilisant que Sn est mesurable par rapport Fn et que n+1 est indpendant de Fn on
obtient

E Sn2 Fn nE( 12 ) = Sn2 nE( 12 ),



par la proposition 8.3 (iii)
E n2 +1 Fn = E( 12 ),

par la proposition 8.6 (ii)
E n+1 Sn Fn = Sn E n+1 Fn = Sn E n+1 = 0,
  
par la proposition 8.6 (iii)

Par consquent E Mn+1 Fn = Mn et la sous-martingale Sn2 = Mn + n se dcompose




comme une martingale et un processus croissant. On verra section 9.4 quune telle d-
composition des sous-martingales existe dans un contexte trs gnral (cf. remarque 9.8).

9.2 Thorme darrt


Considrons un joueur au casino qui linstant n va miser la roulette la somme n
sur le numro 13. Si le 13 sort, le joueur empoche n = 35 fois sa mise sinon il perd et
on pose n = 1. Son gain est alors proportionnel sa mise n n o n reprsente le
rsultat alatoire du jeu. La filtration naturelle associe ce jeu est Fn = ( i , i 6 n) et
le processus { n }n > 1 des rsultats est adapt Fn . Au temps n, le joueur mise avant de
connatre le rsultat n , son choix ne dpend que des rsultats prcdents. Le processus
{n }n > 1 dcrit la stratgie du joueur et il est prvisible, i.e. n est Fn1 -mesurable pour
tout n > 1 (cf. dfinition 8.8). La fortune du joueur au temps n est alors
n
Xn = k k .
k =1

On peut gnraliser cette structure

Proposition 9.2. Soit M = { Mn }n > 0 une martingale et {n }n > 1 un processus prvisible


born, alors le processus
n
X0 = 0 et Xn = k ( Mk Mk1 ), n>1 (9.3)
k =1

est une martingale.


Si k > 0 pour tout k et { Mn }n > 0 est une surmartingale (resp. sous-martingale), alors
{ Xn }n > 0 est aussi une surmartingale (resp. sous-martingale).

Dmonstration. Par construction { Xn }n > 0 est mesurable par rapport Fn . En remar-


quant que n+1 est mesurable par rapport Fn , on obtient

E Xn+1 Fn = E Xn Fn + E n+1 ( Mn+1 Mn ) Fn


  

= Xn + n+1 E Mn+1 Mn Fn = Xn


o on a utilis dans la dernire galit que E Mn+1 Mn Fn = 0 car M est une martin-


gale.
122 CHAPTER 9. MARTINGALES EN TEMPS DISCRET

Cette proposition montre que si { Mn }n > 0 est une martingale, il nexiste aucune stra-
tgie (dont les mises restent majores) qui puisse transformer un jeu quitable en un
jeu profitable. Quelle que soit la stratgie {n }n > 1 adopte, la moyenne du gain est
constante E( Xn ) = E( X0 ).

Supposons maintenant que le joueur dcide de miser chaque fois 1 euro jusqu un
temps darrt T aprs lequel il sarrte dfinitivement de jouer. Si le terme Mk Mk1
sinterprte comme le gain de la kime partie, la fortune du joueur est
n
X0 = 0 et Xn = 1 { T > k } ( Mk Mk 1 ) , n > 1.
k =1

Comme le temps darrt est mesurable par rapport la -algbre Fn (cf. dfinition 8.9)
le processus n = 1{T > n} est prvisible. En effet, lvnement { T > n} est mesurable
par rapport Fn1 car il se dcompose uniquement en fonction dvnements Fn1 -
mesurables
1
n\
{ T > n} = { T 6 = k }.
i =k

La proposition 9.2 implique que { Xn }n > 0 est donc une martingale. Il sagit de la martin-
gale M arrte au temps T que lon notera M T = { MnT }n > 0
(
Mn , si n 6 T
Xn = MnT =
MT , si n > T

Plus gnralement, pour un processus alatoire Y = (Yn )n > 0 , on dfinit Y T le proces-


sus arrt au temps darrt T par

YnT = YnT pour tout n>0 o n T = inf{n, T }.

On dduit du calcul prcdent et de la proposition 9.2

Proposition 9.3. Soient X une surmartingale (resp. sous-martingale, martingale) et T un temps


darrt sur (, A, F, P). Alors le processus arrt X T est une surmartingale (resp. sous-martingale,
martingale).

Une consquence fondamentale de ce rsultat est

Thorme 9.4. (Thorme darrt de Doob)


Soit X une martingale (resp. surmartingale) et T un temps darrt. Si une des trois proprits
est satisfaite
(i) T est born (il existe une constante c telle que T ( ) 6 c pour presque tout )
(ii) X est born (il existe une constante c telle que supn | Xn ( )| 6 c pour presque tout ) et
T est fini presque srement
(iii) E( T ) < et il existe une constante c telle que supn | Xn ( ) Xn1 ( )| 6 c pour
presque tout .
9.2. THORME DARRT 123

alors

E [ X T ] = E [ X0 ] (resp. E [ XT ] 6 E [ X0 ]).

Dmonstration. Nous montrons le rsultat pour les martingales car le cas des surmartin-
gales se traite de manire identique.
Par la proposition 9.3, le processus arrt X T est une martingale et on a pour tout n

E [ X T n ] = E [ X0 ] .

Pour prendre la limite n , on examine successivement chaque condition :


(i) T tant uniformment born par c, il suffit de choisir n > c pour conclure.
(ii) T tant fini presque srement, on en dduit la convergence presque sre

XnT XT .
n

Comme X est born, la suite de variables { XnT }n > 0 lest aussi et le thorme de
convergence domine permet de conclure.
(iii) Sous lhypothse | Xn ( ) Xn1 ( )| 6 c, on peut majorer XnT par
n T
| Xn T | 6 |Xk Xk1 | 6 cT.
k =1

Par consquent la suite de variables { XnT }n est domine par une variable int-
grable et elle converge presque srement vers XT . Le thorme de convergence
domine permet une nouvelle fois de conclure.

Le thorme prcdent est valable sous des hypothses moins restrictives que les trois
conditions mentionnes, cependant le contre-exemple ci-dessous montre que le rsultat
ne peut pas tre gnralis systmatiquement. Considrons S la marche alatoire sym-
trique (9.1)
n
1
Sn = i avec P( i = 1) =
k =1
2
et T1 le premier temps datteinte de 1 pour cette marche. Comme S est une martingale, le
processus arrt S T1 est aussi une martingale par la proposition 9.3. On a donc

n > 0, E(SnT1 ) = E(S0 ) = 0.

Daprs le thorme de Polya 4.4, la marche alatoire en dimension 1 est rcurrente et T1


est fini presque srement. On en dduit que n T1 converge vers T1 quand n tend vers
linfini. Cependant on ne peut pas passer la limite dans lesprance

0 = lim E(SnT1 ) 6= E(ST1 ) = 1.


n

En effet, le processus {SnT1 }n > 0 a de rares fluctuations trs ngatives qui suffisent pour
prserver la moyenne E(SnT1 ) = 0.
124 CHAPTER 9. MARTINGALES EN TEMPS DISCRET

Par dfinition une martingale a une esprance constante puisque E[ Xn ] = E[ X0 ] pour


tout n N. Le rsultat suivant donne une sorte de rciproque grce la notion de temps
darrt.
Proposition 9.5. Soit X = { Xn }n > 0 un processus alatoire F-adapt tel que E[| Xn |] <
pour tout n N. Alors, X est une martingale si et seulement si

E [ X ] = E [ X0 ] pour tout temps darrt born.

Dmonstration. La condition ncessaire est une application immdiate du thorme dar-


rt de Doob. Pour la condition suffisante, on fixe n N et on considre un vnement
A Fn arbitraire. On dfinit

= n1 A + (n + 1)1 Ac .

Notons que { = n} = A Fn et { = n + 1} = Ac Fn Fn+1 . Pour k N \ {n, n +


1}, on voit que { = k } = Fk . Ceci prouve que est un temps darrt born et donc

0 = E[ X0 Xn+1 ] = E[ X Xn+1 ] = E[ Xn 1 A Xn+1 1 A ] = E[( Xn+1 Xn )1 A ].

Comme A Fn est arbitraire, on dduit que E[ Xn+1 Xn |Fn ] = 0 par dfinition de


lesprance conditionnelle.

Application du thorme darrt


Le thorme darrt permet de rsoudre simplement le problme de la ruine du joueur
tudi section 2.5.2. Soient a, b > 1 des entiers. On considre un jeu quilibr
n
Xn = a + i
i =1

o { i }i > 1 est une suite de variables alatoires indpendantes de Bernoulli P( i = 1) =


1/2. La fortune initiale du joueur est donc X0 = a et on dfinit les temps darrt

T0 = inf{n; Xn = 0}, Ta+b = inf{n; Xn = a + b }, = inf{ T0 , Ta+b }.

Comme X = { Xn }n > 0 est une chane de Markov sur un espace dtats fini, le lemme 3.9
implique quelle finira toujours par atteindre 0 ou a + b. Le temps darrt est donc fini
presque srement.
La marche alatoire X tant une martingale, le processus arrt X sera aussi une
martingale
E Xn = E( X0 ) = a.


Comme est fini presque srement et Xn est dans lintervalle [0, a + b], le thorme de
convergence domine permet de passer la limite et dobtenir

a = E X = E ( a + b) 1{T0 >Ta+b } = ( a + b)P T0 > Ta+b .


  

car le processus arrt ne peut prendre que les valeurs 0 et a + b. On retrouve donc le
rsultat de la section 2.5.2.
b
u( a) = Pa T0 < Ta+b =

.
a+b
9.3. INGALITS DE MARTINGALES 125

Pour calculer E( ), nous allons utiliser la martingale M = {( Xn a)2 n}n > 0 dfinie
en (9.2). Comme E( Mn ) = 0, on a donc

E ( X n a )2 = E n .
 

Quand n tend vers linfini, le thorme de convergence domine permet de justifier la


convergence du terme de gauche et le thorme de convergence monotone, celle du terme
de droite
E ( X a )2 = E .
 

En utilisant que P T0 < Ta+b = a+b b , on obtient donc




b a
E = E a2 1{T0 <Ta+b } + E b2 1{T0 >Ta+b } = a2 + b2
  
= ab.
a+b a+b
Ceci permet de retrouver le rsultat (2.20).

9.3 Ingalits de martingales


Le rsultat suivant donne un contrle du maximum de la trajectoire en terme de la
valeur finale, ce qui nest pas toujours intuitif sur une simulation (cf. figure 9.1). Ce r-
sultat trs utile est en partie responsable de limportance des martingales dans la thorie
des processus alatoires.

Thorme 9.6. (Ingalit maximale de Doob)


Soit { Mn }n > 0 une sous-martingale et Mn = supk 6 n Mk son processus de maximum cou-
rant.
(i) Pour tout c > 0, on a

cP[ Mn > c] 6 E Mn 1{ Mn > c} pour tout n N.


 

(ii) Soit p > 1. Supposons que la sous-martingale M soit positive et que Mn L p pour tout
n > 0, i.e. E(| Mn | p ) < , alors Mn L p et
p
k Mn k p 6 k Mn k p pour tout n N.
p1

Dmonstration.
(i) Soit Tc = inf{k > 0; Mk > c} le premier temps o la martingale passe au dessus du
niveau c (cf. figure 9.1). Il est facile de vrifier que Tc est un temps darrt. On dcompose
la trajectoire en fonction Tc
h i h i n h i
E Mn 1{ Mn > c} = E Mn 1{Tc 6 n} = E M 1
n { Tc =k }
k =1
n h i h i
= E ( Mn Mk ) 1{Tc =k} + E Mk 1{Tc =k} .
k =1
126 CHAPTER 9. MARTINGALES EN TEMPS DISCRET

MTc
25 Mn
20 c
15

10

100 200 300 400 500


Tc

F IGURE 9.1 gauche, une ralisation dune marche alatoire pour n = 500. Le schma de
droite reprsente la dcomposition dune trajectoire en fonction du premier temps de passage au
dessus du niveau c.

Comme { Tc = k } est mesurable par rapport Fk , on peut conditionner par la trajectoire


jusquau temps k pour obtenir
h i h i
E ( Mn Mk ) 1{Tc =k} = E 1{Tc =k} E Mn Mk Fk = 0

o la dernire ingalit vient du fait que M est une martingale. Par consquent la partie
au-del du temps Tc ne contribue pas. La martingale passe au dessus du niveau c en Tc ,
on a donc Mk 1{Tc =k} > c1{Tc =k} . Ceci conclut la premire partie du thorme
h i h i h i
E Mn 1{ Mn > c} > cE 1{Tc 6 n} = cP Mn > c .

p
(ii) On note q = p 1 . On dduit de lingalit du (i) que
Z Z
pc p1 P[ Mn > c]dc 6 R = pc p2 E Mn 1{ Mn > c} dc.
 
L=
0 0

Comme la martingale est positive, le thorme de Fubini implique que


Mn
Z 
p 1
L=E pc dc = E [( Mn ) p ]
0

et
 Z M 
n
p 2
R = E Mn pc dc
0
h i
= qE Mn ( Mn ) p1 6 qk Mn k p k( Mn ) p1 kq = qk Mn k p E [( Mn ) p ]1/q

par lingalit de Hlder et le fait que p1 + q1 = 1. Ainsi

E [( Mn ) p ] 6 qk Mn k p E [( Mn ) p ]1/q

qui donne exactement lingalit voulue.


9.4. DCOMPOSITION DES SURMARTINGALES 127

9.4 Dcomposition des surmartingales


Nous commenons par un rsultat qui permet dextraire une martingale de tout pro-
cessus alatoire.
Proposition 9.7. (Dcomposition de Doob)
Soit { Xn }n > 0 un processus alatoire intgrable. Alors il existe une martingale M = { Mn }n > 0
et un processus F-prvisible V = {Vn }n > 0 , tels que M0 = V0 = 0 et

Xn = X0 + Mn + Vn pour tout n > 0.

De plus, cette dcomposition est unique.

Dmonstration. Pour lunicit, on considre une autre dcomposition avec { Mn0 }n > 0 , {Vn0 }n > 0 ,
alors Mn Mn0 = Vn0 Vn est prvisible. Par consquent pour tout n > 1

Mn Mn0 = Mn1 Mn0 1 = . . . = M0 M00 = 0 et Vn = Vn0 .

On note Xn = Xn Xn1 , Mn = Mn Mn1 , Vn = Vn Vn1 . Si la dcomposi-


tion existe, alors Vn = Xn Mn . Comme M est une martingale et V est prvisible

Vn = E[Xn |Fn1 ].

Ceci suggre une dfinition unique pour le processus prvisible V et de M


n n
Vn = E[Xi |Fi1 ] et Mn = (Xi E[Xi |Fi1 ]) pour n > 1.
i =1 i =1

Cet unique candidat vrifie bien les conditions de la proposition.


Remarque 9.8. En utilisant la dcomposition de Doob, on voit que
X est une surmartingale si et seulement si V est dcroissant,
X est une sous-martingale si et seulement si V est croissant,
X est une martingale si et seulement si V = 0.
Lunicit de la dcomposition de Doob est lie de manire cruciale au caractre pr-
visible du processus V. La dcomposition suivante, diffrente de la dcomposition de
Doob, ne suppose pas cette condition.
Proposition 9.9. Soient X = { Xn }n > 0 une martingale de carr intgrable dont les accroisse-
ments sont nots Xn = Xn Xn1 pour n > 1. Alors le carr se dcompose sous la forme
n n
Xn2 = X02 + Nn + [ X ]n o Nn = 2 Xi1 Xi et [ X ]n = (Xi )2 pour n>1
i =1 i =1

avec N0 = [ X ]0 = 0. Dans cette dcomposition { Nn }n > 0 est une martingale nulle en zro et
{[ X ]n }n > 0 est un processus F-adapt croissant intgrable appel variation quadratique de la
martingale X.

Dmonstration. Il sagit dun calcul immdiat.


128 CHAPTER 9. MARTINGALES EN TEMPS DISCRET
Chapitre 10

Convergence des martingales

Les martingales permettent de dmontrer des thormes de convergence dans L p ,


presque sre ou en loi. Ce chapitre prsente ces diffrents modes de convergence et les
hypothses correspondantes.

10.1 Convergence des martingales dans L2


Une martingale { Mn }n > 0 est borne dans L2 si elle vrifie

sup E[ Mn2 ] < .


n>0

Le cadre L2 joue un rle privilgi car les accroissements

n > 1, Mn = Mn Mn1

sont orthogonaux pour le produit scalaire de L2

E (Mi )(M j ) = E Mi E M j |F j1 = 0 pour 1 6 i < j


   
(10.1)

o la dernire galit est une consquence de la proprit de martingale E M j |F j1 =




0. En particulier, ceci implique que pour tout n > 0


!2
n
E[ Mn2 ] = E M0 + Mi
i =1
n
= E M02 + E (Mi )2 + 2 E (Mi )(M j )
     
i =1 i< j
n
= E M0 + E (Mi ) .
2 2
   
(10.2)
i =1

Ainsi la suite de rels E[ Mn2 ] n > 0 est croissante. Comme elle est borne, cette suite


converge vers une valeur positive finie. Cette remarque est la clef du thorme suivant.

129
130 CHAPITRE 10. CONVERGENCE DES MARTINGALES

Thorme 10.1. Soit { Mn }n > 0 une martingale borne dans L2 , i.e. telle que

sup E[ Mn2 ] < .


n>0

Alors il existe une variable alatoire limite M dans L2 et


(i) Mn M dans L2 ,
n
(ii) Mn M presque srement.
n

Dmonstration. (i) Comme la martingale est borne dans L2 , la relation (10.2) montre que
la suite {E[ Mn2 ]}n > 0 est convergente dans R. Daprs lorthogonalit des accroissements
dans L2 , on voit que pour n, p > 0
n+ p
E ( Mn + p Mn ) 2
E (Mi )2 E (Mi )2
     
= 6
i = n +1 i > n +1
h i
E Mn2 + p E Mn2 0
 
=
n

o la convergence vers 0 est une consquence de la convergence de la suite {E[ Mn2 ]}n > 0 .
Ainsi, { Mn }n > 0 forme une suite de Cauchy dans lespace de Hilbert L2 et on en dduit
par le thorme B.12 lexistence dune variable alatoire limite M dans L2 .
(ii) Utilisons la caractrisation de la convergence presque sre du thorme B.17 et fixons
> 0. En appliquant lingalit de Chebychev, on obtient
" #
h i 1
P sup | Mk M | > 6 2 E sup | Mk M | 2
k>n k>n
" #!
2
6 2 E | Mn M | + E sup | Mk Mn |
2 2
 
.
k>n

Par ailleurs, le thorme de convergence monotone implique


" # " #
E sup | Mk Mn | 2
= lim E sup | Mk Mn | 2
.
k>n N n6k6N

Lapplication x | x | est convexe et lingalit de Jensen dcrite page 120 montre que le
processus {| Mk Mn |}k > n est une sous-martingale positive. Il ne reste plus qu appli-
quer lingalit maximale de Doob tablie dans le thorme 9.6 pour obtenir
" #
E sup | Mk Mn | 6 lim 4 E | M N Mn |2 = 4 E | M Mn |2 .
2
   
k>n N

Ceci permet de conclure en utilisant le rsultat de convergence dans L2 du cas (i)


" #
10 
P sup | Mk M | > 6 2 E | Mn M |2 0.

n
k>n
10.2. APPLICATION : LOI DES GRANDS NOMBRES 131

10.2 Application : loi des grands nombres


Comme application du thorme 10.1, nous allons maintenant montrer la loi des
grands nombres pour les suites de variables alatoires intgrables, indpendantes et iden-
tiquement distribues. Ceci renforce le rsultat vu dans le cours de premire anne o
la loi des grands nombres a t tablie pour les suites de variables alatoires de carr
intgrable. Nous commenons par prouver la loi des grands nombres dans le cadre des
martingales.

Thorme 10.2. Soit { Mn }n > 0 une martingale vrifiant

1 
E |Mn |2 < .

2
(10.3)
n>1
n

Alors
1
lim Mn = 0 presque srement.
n n

Dmonstration. Le processus Xn = nk=1 1k Mk est une martingale borne dans L2

n n
1 1 2
E( Xn2 ) 6 E (Mk M` ) = 2 E (Mk )2 + E Mk E M` Fk .
 
k,`=1
k` k =1
k k <`
k`

Par lhypothse (10.3) le premier terme est born uniformment en n tandis que le se-
cond est nul par la proprit de martingale. Daprs le thorme 10.1, il existe donc une
variable alatoire X appartenant L2 telle que Xn converge vers X presque srement.
Pour conclure, il suffit de reproduire largument classique du lemme de Kronecker
pour les suites dterministes
!
1 1 n 1 n n n

n i iXi (i 1)Xi1 Xi1


Mn = i ( Xi Xi 1 ) =
n =1
n i =1 i =1 i =1
n
1
n i
= Xn Xi 1 .
=1

Comme Xn converge vers X presque srement, on en dduit que n1 Mn tend vers 0.

Le rsultat suivant utilise le thorme prcdent pour montrer la version la plus forte
de la loi des grands nombres.

Thorme 10.3. (Loi forte des grands nombres)


Soit { Xn }n > 0 une suite de variables alatoires dans R indpendantes, identiquement distri-
bues et intgrables E(| X1 |) < . Alors

1 n
n i
Xi E[ X1 ] presque srement.
n
=1
132 CHAPITRE 10. CONVERGENCE DES MARTINGALES

Dmonstration. Sans perte de gnralit, on suppose E[ X1 ] = 0. La marche alatoire


in=1 Xi est une martingale laquelle on voudrait appliquer le thorme 10.2, cependant
lhypothse (10.3) de majoration dans L2 nest pas vrifie et il faut considrer la martin-
gale modifie
n
Xi 1{|Xi | 6 i} E Xi 1{|Xi | 6 i} .

n > 1, Mn =
i =1

Les accroissements tant tronqus des chelles de plus en plus grandes, on sattend ce
que le comportement asymptotique de Mn reste proche de celui de in=1 Xi quand n tend
vers linfini.

Vrifions que { Mn }n > 1 satisfait lhypothse (10.3)


" #
n n n
1  1  1
k2 E |Mk |2 4 2 E | X1 | 1{|X1 |1 6 k} 6 4E | X1 | 2 1{k > |X1 |1}
2 2
 
6
k =1 k =1
k k =1
k
Z
| X1 | 2
   
dt
6 4E | X1 |2 2
= 4E 6 4E[| X1 |] < .
| X1 |1 t | X1 | 1
Le thorme 10.2 permet de conclure que n1 Mn tend vers 0 presque srement. De plus le
thorme de convergence domine implique
1 n
lim E[ X1 1{X1 6 n} ] = E[ X1 ] = 0
n
et donc lim
n n
E[Xi 1{|Xi | 6 i} ] = 0.
i =1

On en dduit la convergence presque sre


1 n
n i
Xi 1{|Xi | 6 i} 0.
n
=1

Il reste prouver que les trop grandes valeurs de Xi ne contribuent pas la moyenne
quand n tend vers linfini. Les variables tant intgrables, on remarque que

P[| Xi | > i ] = iP[i 6 | X1 | < i + 1] 6 E[| X1 |] < .


i>1 i>1

Ceci se rcrit
!
E 1{|Xi | > i} < et donc 1{|Xi | > i} < presque srement.
i>1 i>1

(On aurait pu aussi utiliser directement le lemme B.36 de Borel-Cantelli pour obtenir ce
rsultat). On en dduit que presque srement, il existe un entier N ( ) tel que pour tout
k > N ( ), | Xk ( )| 6 i. Ceci implique la convergence
1 n
n i
lim Xi ( ) 1{|Xi ( )| > i} = 0
n
=1

car pour presque tout , la somme na quun nombre fini de termes.


En additionnant les deux limites, on conclut le thorme 10.3.
10.3. CONVERGENCE DES SOUS-MARTINGALES 133

10.3 Convergence des sous-martingales


Nous donnons prsent une gnralisation du thorme 10.1.
Thorme 10.4. Soit { Xn }n > 0 une sous-martingale satisfaisant

sup E[| Xn |] < .


n>0

Alors il existe une variable alatoire X dans L1 telle que

Xn X presque srement.
n

Un corollaire trs utile pour les applications est le suivant.


Corollaire 10.5. Supposons quune des trois proprits soit satisfaite : { Xn }n > 0 est une
martingale positive
sous-martingale majore uniformment par une constante
sur-martingale minore uniformment par une constante
alors il existe une variable alatoire X dans L1 et Xn converge presque srement vers X .
La dmonstration de ce corollaire sera faite page 135.

La preuve du thorme 10.4 repose sur un rsultat prliminaire nonc ci-dessous.


Pour a < b, on dfinit la suite de temps darrt

0 = 0, n+1 = inf {i > n ; Xi 6 a} et n+1 = inf {i > n+1 ; Xi > b } .

Alors pour tout n > 0, la variable alatoire

Una,b = max j;

j 6 n (10.4)

reprsente le nombre de traverses du niveau b en partant en dessous du niveau a avant la


date n (cf. figure 10.1). Nous dirons plus simplement que Una,b est le nombre de traverses
montantes de lintervalle [ a, b] avant la date n.
Lemme 10.6. Soient { Xn }n > 0 une sous-martingale et a < b. Alors la moyenne du nombre de
traverses montantes de lintervalle [ a, b] dfini en (10.4) vrifie
h i 1
E Una,b E ( Xn a ) +
 
ba
avec la notation Z + = sup{0, Z }.

Dmonstration. On note Yn = ( Xn a)+ pour n > 0. On dcompose la trajectoire {Yn }n > 0


en fonction des traverses montantes de lintervalle [ a, b] (cf. figure 10.1). Comme n+1 > n,
on a
n n
Yn1 + (Yni Yni ) + Yni+1 Yni

Yn =
i =1 i =1
n n
(Yn Yn ) +

> i i
Yni+1 Yni .
i =1 i =1
134 CHAPITRE 10. CONVERGENCE DES MARTINGALES

0 1 1

F IGURE 10.1 Les traverses montantes de lintervalle [ a, b] correspondent aux tats marqus
par des cercles pendant les intervalles de temps [i , i ].

Par dfinition des traverses montantes, on a pour i > 1


Yi = 0, Yi > b a sur {i 6 n} et Yni Yni > 0 presque srement.

 le processus {Yn }n > 0 est


Par lingalit de Jensen (cf. page 120), on remarque aussi que
une sous-martingale et le thorme darrt implique donc E Yni+1 Yni > 0. On en
dduit lingalit cherche
h i n n
(b a)E Una,b 6 E [Yni Yni ] 6 E[Yn ] E Yni+1 Yni 6 E[Yn ].
 
i =1 i =1

Dmonstration du thorme 10.4. Le processus comptant le nombre de traverses montantes


{Una,b }n > 0 est croissant, on note alors U a,b = limn Una,b . Daprs le thorme de conver-
gence monotone et le lemme 10.6
h i h i 1
E U a,b = lim E Una,b sup E ( Xn a)+
 
6
n ba n>0
!
1
sup E Xn + | a| < .
 +
6
ba n>0

La dernire ingalit est une consquence de lhypothse du thorme.


En particulier, ceci prouve que U a,b est fini presque srement. Lvnement
 
a,b
N = lim inf Xn 6 a < b lim sup Xn
n n

est de probabilit nulle car il correspond aux trajectoires qui oscillent un nombre infini de
fois de part et dautre de lintervalle [ a, b]. En prenant lunion sur les rationnels, on voit
que  
[n o
N = lim inf Xn < lim sup Xn = N a,b ; a, b Q, a < b
n n
10.3. C ONVERGENCE DES SOUS - MARTINGALES 135

est ngligeable, comme union dnombrable densembles ngligeables. Ceci montre bien
que X = limn Xn existe presque srement.
Pour montrer que X appartient L1 , il suffit dutiliser le lemme de Fatou et la borne
uniforme dans L1
h i
E X = E lim inf Xn 6 lim inf E Xn 6 sup E Xn < .
     
n n n>0

Dmonstration du corollaire 10.5. Si { Xn }n > 0 est une martingale positive alors pour tout n

E(| Xn |) = E( Xn ) = E( X0 ) <

et lhypothse du thorme 10.4 est bien satisfaite.


Plus gnralement le thorme 10.4 sapplique des sous-martingales satisfaisant
lhypothse supn > 0 E[ Xn+ ] < . En effet, une sous-martingale { Xn }n > 0 est borne dans
L1 si et seulement si supn > 0 E[ Xn+ ] <

E[| Xn |] = E[ Xn+ ] + E[ Xn ] = 2E[ Xn+ ] E[ Xn ] 6 2E[ Xn+ ] E[ X0 ].

En particulier, si la sous-martingale est borne suprieurement on a bien supn > 0 E[ Xn+ ] <
.
Si { Xn }n > 0 est une surmartingale borne infrieurement, il suffit dappliquer le tho-
rme la sous-martingale { Xn }n > 0 .

Remarque 10.7. Bien que la limite X dans le thorme 10.4 soit dans L1 , la convergence na
pas toujours lieu dans L1 . Pour le voir, considrons S = {Sn }n > 0 la marche alatoire symtrique
dfinie en (9.1)
n
1
S0 = 1, n > 1, Sn = 1 + i avec P( i = 1) =
2
k =1

et T0 est le premier temps datteinte de 0 pour cette marche. Comme S est une martingale, le
processus arrt S T0 est aussi une martingale par la proposition 9.3. Il sagit dune martingale
positive et donc elle converge presque srement par le corollaire 10.5. De plus

n > 0, E(SnT0 ) = E(S0 ) = 1.

Daprs le thorme 4.4 de Polya, la marche alatoire en dimension 1 est rcurrente et T0 est
fini presque srement. On en dduit que n T0 converge vers T0 quand n tend vers linfini.
Cependant, on ne peut pas passer la limite dans lesprance

1 = lim E(SnT0 ) 6= E(ST0 ) = 0. (10.5)


n

Quand n est grand, une trajectoire atteint 0 avant le temps n avec grande probabilit, cependant
avec une faible probabilit certaines trajectoires ne vont pas toucher 0 et vont prendre de trs
grandes valeurs au temps n. Ces rares fluctuations de la marche alatoire suffisent expliquer la
diffrence entre les 2 expressions dans (10.5).
136 CHAPITRE 10. CONVERGENCE DES MARTINGALES

10.4 Application : modle de Wright-Fisher


La drive gntique correspond au changement de la proportion dun allle au sein
dune population par leffet du hasard, indpendamment de la slection naturelle ou des
migrations. Le modle de Wright-Fisher propose une interprtation simplifie du rle de
lalatoire dans lvolution pour illustrer le mcanisme de drive gntique.
Lenjeu est de dcrire lvolution de la rpartition de deux allles A et a au sein dune
population asexue de taille constante N. Le mcanisme de reproduction est suppos
alatoire et chaque individu de la gnration n + 1 choisit son parent uniformment dans
la gnration n de manire indpendante. Ainsi, si Xn est le nombre dallles A la g-
nration n, alors Xn+1 sachant Xn a une distribution binomiale

Xn N k
   k  
N Xn
P ( X n +1 = k X n ) =

1 .
k N N
On suppose quinitialement X0 est fix dans {0, . . . , N }. tant donn Xn , on dfinit
i,n = 1{Ui,n 6 Xn
}
N

o les Ui,n sont des variables alatoires indpendantes et distribues uniformment sur
[0, 1]. On peut ainsi rcrire
N
Xn
i,n avec P i,n = 1 Xn = = 1 P i,n = 0 Xn
 
X n +1 = (10.6)
i =1
N
Les variables i,n prennent la valeur 1 si lallle du parent est A et 0 sinon. On pose Fn =
( Xi , i 6 n). Le processus { Xn }n > 0 est une martingale car
N
Xn
E Xn+1 |Fn = E[ k,n Xn ] = N N
 
= Xn .
k =1

Les variables Xn sont bornes uniformment. Elles convergent donc, par le thorme 10.1,
dans L2 et presque srement vers une limite X .
Pour dterminer cette limite, nous dfinissons une nouvelle martingale
 n
N
n > 0, Mn = Xn ( N Xn ).
N1
La proprit de martingale se vrifie facilement en utilisant la dcomposition (10.6)

N 1 n +1
 
E[ Mn+1 |Fn ] = E[ Xn+1 ( N Xn+1 )|Fn ] = NE[ Xn+1 |Fn ] E[ Xn2 +1 |Fn ]
N
N
= NXn E[ i,n j,n Xn ] E[ i,n Xn ]

i6= j i =1
 2
Xn
= NXn N ( N 1) Xn
N
N1 N1 n
 
= Xn ( N Xn ) = Mn .
N N
10.4. APPLICATION : MODLE DE WRIGHT-FISHER 137

On en dduit que
n n n
N1 N1 N1
  
E Xn ( N Xn ) = E [ Mn ] = E[ M0 ] =

X0 ( N X0 ) .
N N N

Comme Xn converge vers X et est uniformment borne par N, le thorme de conver-


gence domine implique

0 6 E X ( N X ) = lim E Xn ( N Xn )
 
n
N1 n
 
= lim X0 ( N X0 ) = 0.
n N

On conclut que E[ X ( N X )] = 0 et donc X vaut 0 ou N presque srement. La suite


Xn converge vers X {0, N } et ne prend que des valeurs discrtes, par consquent il
existe un temps alatoire presque srement fini

= inf{n > 0; Xn = 0 ou Xn = N }

au-del duquel Xn = 0 ou Xn = N pour tout n > . Ceci montre que presque srement
un des allles disparat.

Nous allons montrer que la probabilit de disparition de lallle A vaut

X0
P X = 0 = 1

.
N

La martingale { Xn }n > 0 est borne et est fini presque srement, par consquent ce
rsultat sobtient en appliquant le thorme 9.4 darrt de Doob (cas (ii))

X0 = E [ X ] = E [ 1 X = 0 X ] + E [ 1 X = N X ] = N 1 P X = 0

.

Revenons maintenant sur la nature de la convergence de la martingale { Mn }n > 0 . Les


rsultats prcdents ont montr que

P n tel que

k > n, Xk ( N Xk ) = 0 = 1

et donc
P n tel que

k > n, Mk = 0 = 1.

Cela signifie que Mn converge vers 0 presque srement. Cependant si X0 6 {0, N }, alors
Mn ne peut pas converger vers 0 dans L1 car

E[| Mn M |] = E[ Mn ] = M0 6= 0

o M0 = X0 ( N X0 ) 6= 0.
138 CHAPITRE 10. CONVERGENCE DES MARTINGALES

10.5 Martingales fermes ?


Pour que la convergence dans le thorme 10.4 ait lieu dans L1 , il est ncessaire de
considrer une classe particulire de martingales.
Dfinition 10.8 (Martingales fermes). Un processus alatoire X = { Xn }n > 0 est une mar-
tingale ferme sil existe une variable alatoire relle intgrable Y telle que Xn = E[Y |Fn ] pour
tout n N.
Les martingales fermes sont lies la classe des processus uniformment intgrables
dfinie ci-dessous (voir aussi page 198).
Dfinition 10.9 (Uniforme intgrabilit). Un processus { Xn }n > 0 est dit uniformment in-
tgrable si

lim sup E | Xn |1{|Xn | > c} = 0.


 
c n

Cette notion permet de renforcer la convergence en probabilit pour obtenir lquiva-


lence
X probabilit
L1
n X
Xn X n
n { X }
n n>0 est uniformment intgrable
dmontre dans le thorme B.20.

Le rsultat suivant
 caractrise la convergence des martingales dans L1 . On notera
F = n > 0 Fn la -algbre limite.
Thorme 10.10. Soit M = { Mn }n > 0 une martingale. Les deux assertions suivantes sont
quivalentes :
(i) M est ferme, i.e. il existe M dans L1 , mesurable pour F , telle que pour tout n > 0

Mn = E[ M |Fn ]

et la convergence Mn M a lieu dans L1 et presque srement.


(ii) M est uniformment intgrable.

Dmonstration. La preuve se dcompose en deux tapes.


(i)= (ii) :
Comme M appartient L1 (A, P), on dduit du lemme A.26 que pour > 0, il existe
> 0 tel que

E[| M | 1 A ] 6 pour tout A A de mesure P( A) 6 . (10.7)

Daprs lingalit de Jensen, on a

| Mn | 6 E | M | Fn pour tout n > 0.


 
(10.8)

Lingalit de Chebychev et la proprit des projections itres de lesprance condition-


nelle impliquent donc
 E[| Mn |] E [E[| M | |Fn ]] E[| M |]
P | Mn | > c 6 6 = 6 pour c assez grand.
c c c
10.5. MARTINGALES FERMES ? 139

On peut donc appliquer (10.7) lvnement A = {| Mn | > c} pour obtenir


> E | M |1{| Mn | > c} = E E[| M | |Fn ] 1{| Mn | > c} > E | Mn |1{| Mn | > c}
     

o nous avons utilis la proprit des projections itres de lesprance conditionnelle et


(10.8).
(ii)= (i) :
Pour la rciproque supposons maintenant que M soit uniformment intgrable. Alors
supn E[| Mn |] < et on retrouve le cadre du thorme 10.4 qui assure lexistence dune
variable alatoire M dans L1 telle que Mn M presque srement. Dans le reste de
cette preuve, nous allons montrer que cette convergence a lieu dans L1 et que Mn =
E[ M |Fn ] pour tout n > 0.
Pour c > 0, on dfinit la fonction
x R, f c ( x ) = x1| x| 6 c + c1 x>c c1 x<c
et on dcompose
E [| Mn M |] E [| f c ( Mn ) Mn |] + E [| f c ( M ) M |]
+E [| f c ( Mn ) f c ( M )|] .
On fixe > 0. Comme
| f c ( x ) x | 6 | x |1| x| > c
luniforme intgrabilit assure lexistence dun c0 > 0 tel que pour c > c0 assez grand et
pour tout n > 0
E [| f c ( Mn ) Mn |] 6 /2.
De plus (10.7) implique que pour c assez grand
E [| f c ( M ) M |] 6 /2.
Comme la fonction f c est continue borne, on dduit du thorme de convergence domi-
ne que
E [| f c ( Mn ) f c ( M )|] 6 pour n assez grand.
On a finalement E [| Mn M |] 6 2. Ceci prouve la convergence dans L1 de Mn vers
M .
Soit A un vnement arbitraire dans Fn . Comme M est une martingale, on observe
que pour tout N > n
|E [( Mn M )1 A ]| = |E [( M N M )1 A ]| 6 E M N M 0.
 
N

Par consquent, pour tout A Fn


E[( Mn M )1 A ] = 0
ce qui montre bien que Mn = E[ M |Fn ].
140 CHAPITRE 10. CONVERGENCE DES MARTINGALES

10.6 Thorme central limite


Dans cette section, nous montrons dabord un thorme central limite pour des mar-
tingales que nous tendrons ensuite aux chanes de Markov.

10.6.1 Thorme central limite pour les martingales


Soient { Xn }n > 0 des variables alatoires indpendantes, identiquement distribues
telles que
E[ X1 ] = 0, E[ X12 ] = 1.
Le thorme central limite (rappel thorme B.40) implique, aprs normalisation, la
convergence en loi de Mn = in=1 Xi

1 loi
Mn
n n

o est une gaussienne centre de variance 1. Dans cet nonc, { Mn }n > 0 est une mar-
tingale dont les accroissements sont indpendants. Le rsultat suivant gnralise le tho-
rme central limite aux martingales (dont les accroissements ne sont plus indpendants
mais restent contrls).
Thorme 10.11. Soit { Mn }n > 0 une martingale dont les accroissements Mn = Mn Mn1
vrifient
1 n  p.s.
E (Mk )2 | Fk1 2 sup |Mn | 6 K

et (10.9)
n k =1 n n>1

o et K sont deux constantes. Alors


1 loi loi
Mn et = N (0, 2 ).
n n

Il nest pas ncessaire de supposer que les accroissements sont uniformment borns
(cf. [6]), mais lhypothse (10.9) permet de simplifier la preuve du thorme.

Dmonstration. On fixe u dans R. En utilisant lingalit pour z dans C



1 2 3
|z| 6 1, exp(z) 1 z 2 z 6 |z|

et le fait que les accroissements sont borns par K, on obtient pour n suffisamment grand
2 3
h
E ei n Mj F j1 1 i u E M j |F j1 u E (M j )2 |F j1 6 u K3 .
u
i    
n 2n n3/2

Par la proprit de martingale E M j |F j1 = 0, cette expression se simplifie


 

2 u3 3
h i
i
E e nu M j
i u h
E M 2

F 1 ( ) F 6 K .

j 1 j j 1

2n n3/2

10.6. T HORME C ENTRAL L IMITE 141

On note  
u i M
h u i
Aj = log E e n j F j1 .
n
Il existe > 0 tel que
z C, |z| < , | log(1 + z) z| 6 |z|2 .
Par consquent pour n suffisamment grand
u2 
 
u
= E (M j )2 |F j1 + (n)

Aj
n 2n
c
o le reste (n) est uniformment born par n3/2 avec c > 0 une constante. Lhypothse
(10.9) implique donc la convergence presque sre
n
u2
 
u p.s.
j n n
A

2 .
2
(10.10)
j =1

En conditionnant par Fn1 , on obtient


" !#
n 
u u
E exp i Mn A j
n j =1 n
" !  #
n 
u u u
= E exp i Mn1 A j E exp i Mn Fn1

n j =1 n n
" !#
n 1  
u u
= E exp i Mn1 A j =1
n j =1 n
o la dernire galit est obtenue par itration.
Par lhypothse (10.9), les accroissements |M j | sont uniformment borns par K,
 
ainsi la somme nj=1 A j un reste borne uniformment en n. Par consquent, il existe
une constante C > 0 telle que
" !# 
n    2
u u u 2u
E exp i Mn A j E exp i Mn +

2

n j =1 n n
" ! #
n    2

u 2u
= E exp A j exp

2

j =1 n
" #
n 
u
 2
2u
6 C E Aj + 0

j =1 n 2 n

o la convergence sobtient par le thorme de convergence domine en utilisant la conver-


gence presque sre (10.10) et le fait que les termes de lesprance sont uniformment
borns. Ceci permet de conclure
2
    
u 2u
u R, lim E exp i Mn = exp .
n n 2
Le thorme B.28 de convergence de Lvy permet den dduire la convergence en loi vers
une variable alatoire gaussienne.
142 CHAPITRE 10. CONVERGENCE DES MARTINGALES

10.6.2 Ingalit de Hoeffding


Le thorme central limite 10.11 fournit un rsultat asymptotique de lcart entre Mn
et sa moyenne. Le thorme suivant permet destimer les fluctuations pour des valeurs
de n fixes.

Thorme 10.12 (Ingalit de Hoeffding). Soit { Mn }n > 0 une martingale telle que M0 = 0
et dont les accroissements Mn = Mn Mn1 sont majors par une suite {Kn }n > 1

n > 1, |Mn | 6 Kn .

Alors, pour tout x > 0 et n > 1

2x2
 
P | Mn | > x 6 2 exp n

. (10.11)
i=1 Ki2

Lhypothse du thorme sur les accroissements rappelle la condition (10.9).


Appliquons cette ingalit au cas dune marche alatoire symtrique Sn = in=1 i o
les { i }i > 1 sont des variables alatoires indpendantes centres et identiquement distri-
bues valeurs dans [1, 1]. Lhypothse sur les accroissements est donc satisfaite avec
Kn = 1 et par consquent

2u2
 
P Sn > u 6 2 exp

u > 0, .
n

En particulier, on peut remplacer u par n avec > 0


 
Sn
P > 6 2 exp(2n2 ).
n

La probabilit de scarter de lesprance est donc exponentiellement petite en n.



On peut aussi remplacer u par x n pour tout x > 0
 
Sn

P > x 6 2 exp(2x2 ).
n

Cette borne suprieure rappelle lasymptotique du thorme central limite, mais elle est
cette fois valable pour tout n. Ceci est intressant en pratique car le nombre de donnes
disponibles est parfois faible et cette borne thorique permet de quantifier les carts dus
aux fluctuations.

Dmonstration. La preuve se dcompose en deux tapes.


tape 1. Soit Z une variable alatoire valeurs dans [ a, b] R telle que E[ Z ] = 0. Nous
allons montrer que
2
  2
R, E eZ 6 e 8 (ba) .
10.6. T HORME C ENTRAL L IMITE 143

Posons () = log E eZ . On vrifie aisment les faits suivants




(0) = 0
E Z eZ

0
() = , 0 (0) = 0
E (eZ )
E 2 eZ E eZ E Z eZ 2
  
Z
00 () = 2
= VarP ( Z )
(E (eZ ))
o la mesure P est dfinie par

P eZ

P () =
E (eZ )
Un dveloppement de Taylor en 0 lordre deux implique
Z Z
( ) = (0) + 0 (0) + ( s) 00 (s) ds = ( s) 00 (s) ds
0 0
Z
= ( s) VarPs ( Z ) ds.
0

Pour estimer VarP ( Z ), on utilise lidentit

VarP ( Z ) = inf EP ( Z m)2 .


  
m R

Comme Z est valeurs dans [ a, b], on a



a + b 6 b a.

Z
2 2

Par consquent, il suffit de choisir m = a+2 b pour obtenir une borne suprieure sur la
variance "  #
a+b 2 ( b a )2
VarP ( Z ) 6 EP Z 6
2 4
Cette borne uniforme sur la variance permet dobtenir lingalit cherche

( b a )2 ( b a )2 2
Z
() 6 ( s) ds 6 .
0 4 8

tape 2. Supposons que


!
n
2
E (exp(Mn )) 6 exp
8 Ki2 . (10.12)
i =1

On peut en dduire (10.11) en appliquant lingalit de Markov pour tout x > 0


!
2 n 2
8 i
P ( Mn > x ) 6 E (exp(Mn )) exp(x ) 6 exp Ki x .
=1
144 CHAPITRE 10. CONVERGENCE DES MARTINGALES

in=1 Ki2 pour


 
Loptimisation de lingalit en conduit choisir la valeur = 4x
obtenir
x2
 
P ( Mn > x ) 6 exp 2 n .
i=1 Ki2
Par symtrie, cette ingalit est aussi vraie pour Mn et on retrouve ainsi lingalit
(10.11).
Il reste donc dmontrer (10.12). Pour cela, on crit Mn comme la somme tlscopique
des accroissements
n
Mn = Mi avec Mi = Mi Mi1
i =1

qui vrifient E(Mi | Fi1 ) = 0 et qui sont borns par Ki . En appliquant


   n
 h n 1
 i
E eMn = E e i=1 Mi = E e i=1 Mi E e Mn Fn1

lingalit de la premire tape pour les esprances conditionnelles, on en dduit


!
n
2 2 2
 
in=11
  h i
E eMn 6E e Mi
exp K
8 n
6 exp
8 Ki2
i =1

o la dernire ingalit sobtient par itration.

10.6.3 Thorme central limite pour les chanes de Markov


On considre { Xn }n > 0 une chane de Markov irrductible sur un espace dtats E
fini. On notera P sa matrice de transition, sa mesure invariante et E lesprance sous
. Le thorme central limite 10.11 stend aux chanes de Markov
Thorme 10.13. Soit f une fonction de E dans R alors
n
1

 loi loi
f ( X j ) E ( f ) = N (0, 2 )

et
n n
j =0

o la variance 2 est dfinie en (10.13).

Dmonstration. Quitte changer f en f E ( f ), on se ramne au cas E ( f ) = 0. Lide


de la preuve consiste comparer la somme nj=0 f ( X j ) une martingale afin dutiliser le
thorme central limite 10.11 pour les martingales.
tape 1 : Dcomposition en martingale.
Lespace dtats E tant fini le critre de Doeblin est satisfait (5.17) et le thorme 5.11
sapplique

1
2 xE y
n
n > 0, sup P ( x, y) f (y) (y) f (y) 6 exp(cn) k f k

E
10.6. T HORME C ENTRAL L IMITE 145

o c > 0 est une constante indpendante de f . Comme E ( f ) = 0, on en dduit


sup Pn f ( x ) 6 2 exp(cn) k f k

n > 0,
xE

et la convergence de la srie

x E, u( x ) = Pk f ( x )
k =0

avec la notation P0 f ( x ) = f ( x ). La fonction u est borne car lespace dtats E est fini. On
remarque que

Pu( x ) = P k +1 f ( x ) = u ( x ) f ( x ).
k =0
Par consquent f satisfait
x E, f ( x ) = u( x ) Pu( x ).
La somme se dcompose donc sous la forme
" #
n n
f (Xj ) = u(X0 ) + u(Xj ) Pu(Xj1 ) Pu( Xn ).
j =0 j =1

Soit Zj = u( X j ) Pu( X j1 ). En appliquant la proprit de Markov, on obtient


E( Zj |F j1 ) = E u( X j ) Pu( X j1 ) F j1 = E(u( X j )| X j1 ) Pu( X j1 ) = 0.


Par consquent Mn = nj=1 Zj est une martingale et nous avons prouv la dcomposition
n
f (Xj ) = u(X0 ) Pu(Xn ) + Mn .
j =0

Les termes u et Pu sont borns et ils ne contribuent pas la limite nj=0 f ( X j )/ n. Il suffit

donc de vrifier la convergence en loi de Mn / n.

tape 2 : Thorme central limite.


Pour montrer que lhypothse (10.9) du thorme 10.11 est satisfaite, on remarque
que les accroissements de la martingale sont donns par M j = Zj = u( X j ) Pu( X j1 ).
Lespace E tant fini, la fonction u est borne et par consquent les accroissements M j
aussi. h i
On peut rcrire E Zj2 |F j1 = ( X j1 ) pour une certaine fonction . La condition
de Doeblin permet dappliquer le thorme ergodique pour les chanes de markov et den
dduire la convergence presque sre
1 n h i 1 n
lim E Zj2 |F j1 = ( X j1 ) = E () = E [u( X1 ) Pu( X0 )]2 .

n n n j =1
j =1

Le thorme 10.11 permet de conclure que 1


n nj=0 f ( X j ) converge en loi vers une
variable Gaussienne centre de variance
2 = E [u( X1 ) Pu( X0 )]2 .

(10.13)
146 CHAPITRE 10. CONVERGENCE DES MARTINGALES

Le thorme central limite peut tre gnralis au cas des espaces dtats dnom-
brables (cf. le livre [6]). En gnral, il nest pas facile destimer la variance 2 et il faut
utiliser les donnes de plusieurs trajectoires pour obtenir une estimation pertinente.
Chapitre 11

Applications des martingales

11.1 Mcanismes de renforcement


Les mcanismes de renforcement permettent de comprendre comment des comporte-
ments individuels alatoires peuvent gnrer des effets collectifs dans des contextes va-
ris. Le modle de Wright-Fisher dfini section 10.4 pour dcrire la drive gntique peut
tre aussi interprt comme une forme de renforcement car lvolution alatoire finit par
slectionner un des allles. Nous allons illustrer dautres phnomnes de renforcement
par quelques modles probabilistes simples.

11.1.1 Urne de Polya


la suite dune avance technologique, un nouveau march se dveloppe avec dif-
frents produits concurrents. Assez rapidement, on observe souvent lmergence de stan-
dards : certains produits sont systmatiquement dlaisss par les consommateurs et dautres
deviennent la norme. Ces choix ne sont pas toujours dicts par la supriorit technolo-
gique dun produit sur un autre. Le consommateur suit lavis de ses proches et les ten-
dances du moment. Par exemple lors de lachat dun nouveau tlphone, un consomma-
teur va privilgier la marque qui propose le plus grand nombre dapplications, parall-
lement, loffre des applications va samplifier si le march se dveloppe. Les conomistes
parlent dexternalit de rseau pour dcrire le fait que plusieurs individus en achetant le
mme produit augmentent la valeur de ce produit en lrigeant en standard.

Lurne de Polya permet dapprhender le phnomne prcdent en le modlisant par


un choix alatoire. Initialement, on considre une urne avec r boules rouges et v boules
vertes. On choisit une boule au hasard et on la replace dans lurne en ajoutant en plus
une autre boule de la mme couleur. Ceci revient dire que le consommateur acquiert le
produit rouge ou le produit vert en fonction des produits dj vendus.
La proportion Xn des boules vertes aprs le nime -tirage est une martingale. En effet,
si il existe i boules rouges et j boules vertes au temps n alors
   
j+1 j j i
P X n +1 = = et P X n +1 = = .
i+j+1 i+j i+j+1 i+j

147
148 CHAPITRE 11. APPLICATIONS DES MARTINGALES

On a donc E( Xn+1 |Fn ) = Xn o Fn reprsente la -algbre des choix jusqu linstant n.


La martingale { Xn }n > 1 tant positive elle converge presque srement, par le thorme
10.4, vers une variable alatoire limite X que nous allons dterminer maintenant.
La probabilit que les m premiers tirages soient des boules vertes et les ` = n m
suivants soient des boules rouges vaut
v v+1 v + ( m 1) r r + (` 1)
.
v+r v+r+1 v + r + ( m 1) v + r + m v + r + ( n 1)
Tout autre tirage au sort de m boules vertes et ` boules rouges aura la mme probabilit
car le dnominateur sera inchang et les coefficients du numrateur seront simplement
permuts. Considrons le cas particulier r = 1 et v = 1, alors la probabilit quil y ait
m + 1 boules vertes au temps n scrit
n m!(n m)!
   
m+1 1
P Xn = = = .
n+2 m ( n + 1) ! n+1
Le nombre de boules vertes est donc uniformment distribu tout temps et X aura
la loi uniforme sur [0, 1]. La proportion finale X des boules vertes est alatoire et est
dtermine principalement par lala des choix initiaux. On observe un comportement
asymptotique stable et le nombre de boules vertes crot linairement comme nX quand
n devient grand : la proportion Xn reste fige quand n est grand (cf. figure 11.1).
1.0

0.8

0.6

0.4

0.2

0 200 400 600 800 1000

F IGURE 11.1 La proportion Xn de boules vertes est reprsente dans trois ralisations de lurne
de Polya avec 1000 tirages au sort. Les fluctuations initiales sont importantes, mais la proportion
se stabilise trs vite et reste ensuite asymptotiquement constante.

Pour des donnes initiales gnrales, X suit une loi beta sur [0, 1] de paramtres
(v, r ) dont la densit scrit
( v + r 1) !
f X ( x ) = (1 x ) r 1 x v 1 . (11.1)
( v 1) ! (r 1) !

11.1.2 Graphes alatoires de Barabsi-Albert


Les processus de renforcement sont multiples et ils faonnent de nombreux aspects
de la vie courante. Par exemple, les rseaux sociaux ou le rseau internet peuvent tre
11.1. MCANISMES DE RENFORCEMENT 149

interprts comme des graphes alatoires dont les structures ont de nombreuses simi-
larits. Les interconnections dans ces graphes sont trs diffrentes du modle dErds-
Rnyi voqu section 4.4.2. En particulier, il existe des sites avec un trs grand nombre de
connections et la statistique des degrs de ces graphes est souvent rgie par des lois de
puissance. Ces graphes se sont constitus au fil du temps sans suivre un dessein prtabli.
De nombreux modles ont t proposs pour essayer de dcrire cette "auto-organisation"
et les lois correspondantes. Barabsi et Albert ont propos dans leur article [1] un mca-
nisme de renforcement, que nous allons prsenter ci-dessous, pour construire dynami-
quement des graphes dont les degrs ont des proprits statistiques similaires celles
observes en pratique.

1 3

5 2 4

F IGURE 11.2 Un exemple de graphe de Barabsi-Albert avec 5 sites. La convention consistant


relier le site 1 lui mme lui confre le degr 1 initialement. Les autres sites ont t ajouts
alatoirement selon lordre indiqu sur le dessin.

Au temps initial n = 1, le graphe G1 est constitu par un unique site reli lui mme.
chaque pas de temps, un site est ajout et on notera Gn le graphe correspondant. La
rgle est la suivante : au temps n, le nouveau site n est connect un site dans le graphe
Gn1 choisi proportionnellement son degr (cf. figure 11.2). Ce graphe est construit dy-
namiquement par analogie au world wide web o les sites les plus importants ont tendance
attirer le plus grand nombre de liens, les nouveaux sites se connectant de faon privi-
lgie aux serveurs principaux. Un exemple de graphe alatoire de Barabsi-Albert est
reprsent figure 11.3.
La construction du graphe peut sinterprter laide dune urne de Polya. Initiale-
ment en n = 1, on considre une urne contenant 2 boules avec le label 1. Supposons
quau temps n, il existe 2n boules dans lurne chacune tant associe un label entre 1 et
n. Au temps n + 1, on choisit une boule au hasard et on note k {1, . . . , n} son label. On
replace alors dans lurne deux boules de label k et une nouvelle de label n + 1. Retraduit
en terme de graphe, ceci correspond ajouter le site n + 1 et le relier au site k par une
arte. Le nombre de boules avec le label k crot exactement comme le degr du site k, i.e.
le nombre dartes du site k.
Pour comprendre lvolution du nombre dartes du site k, on considre lurne au
temps k et on colorie les 2k 1 boules de label strictement infrieur k en rouge et la boule
k en vert. On continue les tirages au sort. Au temps n > k, si on choisit une boule de label
strictement suprieur k on ignore ce tirage car il correspond la cration dune arte
sur un site qui nest pas dans {1, . . . , k }. Si une boule de label j < k est tire, cela revient
150 CHAPITRE 11. APPLICATIONS DES MARTINGALES

F IGURE 11.3 Le graphe de Barabsi-Albert avec 100 sites reprsent ci-dessus est construit en
ajoutant deux sites chaque tape. On remarquera que le site central est fortement connect.

ajouter une boule rouge et si une boule de label k est choisie cela correspond lajout
dune boule verte. Par consquent la distribution relative des boules vertes et rouges suit
celle dune urne de Polya de donne initiale r = 2k 1 et v = 1 et le comportement
asymptotique est donn par la loi (11.1) qui vaut f X ( x ) = r (1 x )r1 .

Au lieu de suivre le degr dun site fix, on peut aussi chercher une information plus
globale et dterminer lesprance N (d, n) du nombre de sites de degr d au temps n.
Comme pour les chanes de Markov, on obtient en conditionnant par rapport au pass
 
1 d d 1
2n  N ( d, n ) + 2n N ( d 1, n), si k>1
N (d, n + 1) =  d
1
2n N ( d, n ) + 1, si d=1

En effet, un nouveau site de degr d > 1 ne peut tre cr que si une arte a t ajoute
un site de degr d 1 et inversement un site de degr d disparat si on lui ajoute une
arte. Un calcul (simple mais douloureux) permet de montrer que pour d > 1

1 4
lim N (d, n) = .
n n d(d + 1)(d + 2)

Pour de trs grands graphes, la probabilit quun site choisi au hasard ait le degr d
dcrot comme 1/d3 quand d diverge. La rpartition des degrs selon une loi de puissance
se retrouve dans de nombreux rseaux dont la structure nest pas dicte par le degr
moyen mais est caractrise par quelques noeuds fortement connects. La construction
de Barabsi-Albert conduit une structure de graphes trs stable, insensible aux erreurs
alatoires, par contre ces graphes sont trs vulnrables aux attaques des sites fortement
connects. Une tude approfondie des graphes alatoires pourra tre trouve dans le livre
de R. Durrett [10].
11.2. LALGORITHME DE ROBBINS-MONRO 151

11.2 Lalgorithme de Robbins-Monro


Nous allons maintenant dterminer les solutions dune quation du type f ( ) = a
o f est une fonction valeurs dans R qui scrit sous la forme f ( ) = E F ( X, ) . On


sintresse un cas o la fonction f ne peut pas tre calcule explicitement, mais simple-
ment estime par des observations de la forme { F ( Xi , )}i . Par exemple, reprsente le
dosage dun mdicament que lon souhaite calibrer pour produire un effet gal a. Pour
un patient Xi , leffet mesur F ( Xi , ) est alatoire et la fonction f reprsente leffet moyen.
On cherche donc estimer en testant seulement un petit nombre de patients.
Au chapitre 6, nous avons tudi des mthodes pour dterminer le minimum (ou le
maximum) dune fonction V ( ). Cette question est trs proche du problme prc-
dent car elle se ramne identifier les valeurs de telles que V ( ) = 0. En statistiques,
on cherche souvent estimer un paramtre partir dobservations par une mthode
de maximum de vraisemblance (voir par exemple le cours [13]). Nous allons dcrire
ci-dessous lalgorithme de Robbins-Monro qui est une mthode rcursive pour estimer le
paramtre en ajustant les dcisions en fonction des nouvelles observations. La variante
de cet algorithme pour estimer les solutions de V ( ) = 0 porte le nom dalgorithme de
Kiefer-Wolfowitz, mais nous ne la dtaillerons pas dans ce cours.

Pour fixer les ides, considrons dabord le cadre dterministe dune fonction f : R
R continue qui admet une unique solution ? lquation f ( ? ) = a pour un niveau a
donn. On suppose que f vrifie la condition pour tout dans R
f ( ) a ? < 0
 
(11.2)
et que k f k 6 K. Pour dterminer ? , la procdure la plus simple consiste suivre le flot
de lquation
t > 0, t t = f (t ) a
pour une donne initiale 0 fixe. Sous les hypothses considres, la fonction t t
converge vers ? . Pour limplmentation, il est prfrable de considrer des pas de temps
discrets 
n + 1 = n + n f ( n ) a (11.3)
o les incrments n > 0 sont choisis tels que
lim n = 0
n
et n = .
n

Ces conditions suffisent pour montrer que n converge vers ? quand n tend vers linfini.
Pour le comprendre, considrons le cas particulier f ( ) = c avec a = 0 et ? = 0. La
rcurrence (11.3) scrit
n

 
n+1 = 1 + cn n = 1 + ck 0
k =0

La condition (11.2) est fondamentale pour que la suite n se contracte vers le point fixe
? . Elle impose c < 0 ce qui est une condition ncessaire pour que le produit ci-dessus
converge quand n tend vers linfini. On obtient
n n
log 1 + ck + log 0 ' log 0 + c k n
.

log n+1 =

k =0 k =1
152 CHAPITRE 11. APPLICATIONS DES MARTINGALES

La divergence de la srie n n permet donc de dduire que n converge vers ? = 0.


Plus gnralement, on peut montrer que des petites perturbations naltrent pas la
convergence de la suite {n }n > 0 .
Lemme 11.1. Soit f : R R une fonction continue borne vrifiant lhypothse (11.2). On
considre une suite {n }n > 0 dincrments positifs et une suite { n }n > 0 valeurs dans R qui
modlise une perturbation. On suppose que

lim n = 0,
n
n = et que la srie n n converge.
n n

Alors la suite 
n + 1 = n + n f ( n ) a + n (11.4)
converge vers ? quelle que soit la donne initiale 0 .
La preuve de ce lemme est reporte la fin de cette section et nous montrons mainte-
nant comment une version stochastique de cet algorithme permet de traiter les fonctions
de la forme f ( ) = E F ( X, ) . Dans la pratique, on ne connait pas la fonction f , mais on


peut observer des ralisations F ( Xn , n ) et adapter le paramtre n au cours du temps.

F IGURE 11.4 Lalgorithme de Robbins-Monro est utilis dans ces 2 simulations pour rsoudre
 
la rcurrence alatoire n+1 = n + n arctan n + Xn o Xn sont des variables alatoires
uniformment distribues sur [0, 1]. La simulation reprsente gauche est ralise avec n = n10.7
pour 150 pas de temps. La srie n sapproche de la solution ? = 0 en oscillant. La convergence
est amliore sur la simulation de droite ralise avec n = n1 pour 600 pas de temps.

Thorme 11.2 (Algorithme de Robbins-Monro).


On suppose que la fonction f ( ) = E F ( X, ) est continue et vrifie lhypothse (11.2). De


plus, on suppose que F est borne par une constante K.


Soit { Xn }n > 0 une suite de variables indpendantes et distribues selon la mme loi que X.
Lalgorithme de Robbins-Monro consiste construire un processus alatoire
 
n + 1 = n + n F X n , n a (11.5)

o la suite {n }n > 0 dincrments positifs vrifie

lim n = 0,
n
n = et n2 < .
n n
11.2. R OBBINS -M ONRO 153

Alors le processus {n }n > 0 converge presque srement, quelle que soit la donne initiale 0 , vers
? la solution de f ( ? ) = E F ( X, ? ) = a.


Dmonstration. La preuve consiste rcrire la rcurrence (11.5) sous la forme (11.4)


 
n + 1 = n + n f ( n ) a + F X n , n f ( n )

et poser n = F Xn , n f (n ). Lide est de considrer lerreur faite en remplaant

f (n ) par F Xn , n comme une perturbation afin dappliquer le lemme 11.1.
Par lindpendance des Xk , on vrifie que
n n
k k
 
Mn = k F X k , k f ( k ) =
k =1 k =1

est une martingale borne dans L2


n  2  n
E Mn2 ) = k2 E 6 K2 k2 6 K2 k2 <

F Xk , k f ( k )
k =1 k =1 k =1

o on a utilis le fait que F est borne par K et que n n2 < . Le thorme 10.1 implique
la convergence presque sre de Mn et donc de la srie n n n . Les hypothses du lemme
11.1 tant satisfaites, il suffit de lappliquer pour conclure la dmonstration du thorme.

Dmonstration du lemme 11.1. Quitte changer f en f ( + ? ) a, on peut supposer que


a = ? = 0 et considrer la rcurrence n+1 = n + n f (n ) + n .
On distingue trois comportements possibles pour la suite :
Cas 1. Supposons quil existe > tels que la suite { xn }n > 0 passe infiniment souvent au
dessus de et au dessous de (cf. figure 11.5). Si > 0, alors il suffit de considrer le cas
> 0. En effet si 6 0 il est clair que la suite va osciller de part et dautre de lintervalle
[/2, ] et on peut remplacer par /2.

t1 1 t2 2

F IGURE 11.5 La suite {n }n > 0 est reprsente et les intervalles de temps [t1 , 1 ], [t2 , 2 ] corres-
pondent au dernier passage au dessus du niveau avant datteindre le niveau .

On va identifier les portions de la trajectoire o la suite passe au dessus de pour la


dernire fois avant de remonter au dessus du niveau . On notera [tk , k ] le kime intervalle
154 CHAPITRE 11. APPLICATIONS DES MARTINGALES

de temps correspondant (cf. figure 11.5). La fonction f est borne par K et on a



n + 1 n 6 n K + n .

Comme n et n n tendent vers 0, on peut choisir n assez grand tel que juste avant de
franchir le niveau > 0 on ait tk > 0.
Si n > 0 alors la condition (11.2) implique

n + 1 = n + n f ( n ) + n 6 n + n n .

Comme la suite reste positive pendant lintervalle [tk , k ], on peut crire


k
0 < < k tk 6 n n .
n=tk

La suite oscille infiniment souvent entre et , par consquent on peut choisir tk arbitrai-
rement grand et nk=tk n n tend vers 0 car la srie converge. Ceci conduit une contra-
diction. On peut traiter de faon identique le cas < 0 et ainsi exclure dventuelles
oscillations entre deux valeurs > .
On se ramne donc au cas o la suite {n }n > 0 admet une limite (ventuellement
infinie).
Cas 2. Supposons que limn n = > 0. Alors il existe n0 et > 0 tel que

n > n0 , |n | 6 et f (n ) <

en utilisant la condition (11.2) et la continuit de f . La relation de rcurrence permet alors


dcrire pour n > n0
n n n


n n0 6 k f ( k ) + k 6 k + k k .
k = n0 k = n0 k = n0

Comme la suite n n diverge on obtient une contradiction. De la mme faon, on peut


exclure le cas limn n = < 0.
Cas 3. Supposons que limn n = + > 0. Alors la suite est positive au-del dun rang n0
et on a
n n
n n 0 6 k f ( k ) + k 6 k k .

k = n0 k = n0

Comme la suite k k k converge on en dduit une contradiction. Par symtrie, on peut


aussi exclure le cas limn n = .
Lunique possibilit est que limn n = 0 ce qui conclut le thorme.

Lalgorithme de Robbins-Monro se gnralise aux fonctions f : Rd Rd satisfaisant


lhypothse (11.2) et dont la croissance linfini est au plus linaire.
11.3. PROCESSUS DE GALTON-WATSON 155

11.3 Processus de Galton-Watson


Nous allons maintenant poursuivre ltude des arbres alatoires commence section
4.4.1 en utilisant cette fois le formalisme des martingales. On rappelle que les arbres ala-
toires de Galton-Watson sont dfinis par rcurrence laide dune loi = { pk }k > 0 sur N
qui caractrise le nombre de descendants dun individu. Initialement, il existe un unique
anctre Z0 = 1. Au temps t, le nombre dindividus est not Zt et lvolution suit la rcur-
rence (
1t+1 + + Zt+t 1 , if Zt > 0
Zt+1 =
0, if Zt = 0
o { it }i > 1,t > 1 est une suite de variables alatoires indpendantes et identiquement dis-
tribues de loi
k > 0, P( it = k ) = pk .
On note aussi = E( 11 ).
Soit Ft = ( Zk , k 6 t) la -algbre dcrivant la population jusquau temps t. En
conditionnant par la gnration prcdente (comme en (4.6)), on vrifie que le processus
Mt = Zt /t est une martingale
!
  Zt
  Zt+1 1 Zt
E Mt + 1 F t = E Ft = t+1 E kt+1 Zt = t = Mt .

t + 1
k =0

Cette martingale tant positive, elle converge presque srement, par le corollaire 10.5,
vers une variable alatoire limite M que nous allons caractriser.
Si 6 1 nous avons montr au thorme 4.10 que la population steint presque
srement, i.e. que Zt = 0 partir dun certain temps (alatoire). Par consquent M = 0
presque srement. La convergence de Mt vers M ne peut donc pas avoir lieu dans L1
car
t > 0, E( Mt ) = E( M0 ) = 1 6= 0 = E( M ).

Le thorme suivant permet de dcrire le comportement asymptotique dans le cas


sur-critique
Thorme 11.3. Si > 1 et la variance 2 = E( 2 ) E( )2 est finie, alors la martingale
{ Mt }t > 0 converge dans L2 vers une limite M qui vrifie

2
E( M ) = 1, E ( M
2
) E ( M ) 2 = et P( M = 0) =
2

o est la probabilit dextinction dfinie au thorme 4.10.

Dmonstration. Commenons par montrer que la martingale { Mt }t > 0 est borne dans
L2 . On calcule

E[ Mt2 |Ft1 ] = E ( Mt Mt1 )2 |Ft1 + Mt21 + 2Mt1 E ( Mt Mt1 )|Ft1


   

= Mt21 + E ( Mt Mt1 )2 |Ft1 .


 
(11.6)
156 CHAPITRE 11. APPLICATIONS DES MARTINGALES

Le second terme du membre de droite dans (11.6) scrit


 
Zt Zt1 2 1 
E ( Mt Mt1 ) |Ft1 = E
2
t1 Ft1 = 2t E ( Zt Zt1 )2 Zt1
  
t
1 h Zt1 i Z 2
= 2t E it Zt1 Ft1 = t2t1 .
2
i =1

Les identits prcdentes impliquent

2 2
E[ Mt2 ] = E E[ Mt2 |Ft1 ] = E[ Mt21 ] + 2t E[ Zt1 ] = E[ Mt21 ] + t+1
 

en utilisant que E[ Zt1 ] = t1 . Comme E[ Z02 ] = 1, on obtient par induction

t +1
1 t
E[ Mt2 ] = 1 + 2 k = 1 + 2
2
. (11.7)
k =2

On en dduit que la martingale { Mt }t > 0 est borne dans L2 et le thorme 10.1 per-
met daffirmer quelle converge dans L2 et presque srement vers M . Par consquent

2
E( M ) = 1 = lim E( Mt ) et E ( M
2
) E ( M ) 2 = = lim E( Mt2 ) E( Mt )2 .
t 2 t

Pour calculer la probabilit P( M = 0), on conditionne lvolution aprs la premire


gnration Z1

P M = 0 = P M = 0 Z1 = k pk .
 
k =0

Si Z1 = k, larbre se scinde en k arbres indpendants de mme loi, on obtient donc



P
k
P M = 0 = M = 0 p k = P M = 0 .
 
k =0

Ceci permet didentifier la probabilit qui a t dfinie au thorme 4.10 comme lunique
solution de = ().
Chapitre 12

Stratgies, arrt optimal et contrle


stochastique

Dans la vie courante, de nombreuses circonstances ncessitent deffectuer des choix.


Nous allons formaliser le processus de dcision pour construire des stratgies qui per-
mettent doptimiser certains critres en tenant compte des facteurs alatoires inhrents
aux problmes rencontrs.

12.1 Arrt optimal


Quel est le meilleur instant pour prendre une dcision ? Par exemple, on souhaite
vendre un stock de produits au meilleur prix avant lchance N et chaque jour n
{0, . . . , N } on dmarche un acheteur potentiel qui offre la somme Xn . On peut accep-
ter cette offre ou attendre la suivante sachant quon ne pourra plus bnficier des offres
passes. On cherche donc dterminer le meilleur moment pour vendre sur la base des
offres passes sans connatre le futur. Les filtrations permettent de hirarchiser linfor-
mation, et on supposera que le processus alatoire X = { Xn , n = 0, . . . , N } est adapt
la filtration F = {Fn , n 6 N } o Fn contient toute linformation jusquau temps n.
Notre objectif est de construire une stratgie optimale, cest dire de dfinir un temps
darrt pour que lesprance E( X ) soit maximale. Plus prcisment, si T N reprsente
lensemble des temps darrt valeurs dans {0, . . . , N }, on cherche rsoudre le problme
darrt optimal
V N = sup E [ X ] . (12.1)
T N

On dira quun temps darrt dans T N est optimal si V N = E [ X ]. Il sagit dune


stratgie darrt optimal en horizon fini car la dcision doit tre prise avant linstant N.

12.1.1 Enveloppe de Snell


Pour rsoudre le problme (12.1), on dfinit le processus Y par la rcurrence rtro-
grade
YN = X N et Yn = max { Xn , E [Yn+1 |Fn ]} pour n = 0, . . . , N 1. (12.2)

157
158 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE

yn

xn

N
F IGURE 12.1 Pour dterminer le maximum dune suite de rels { xn }n 6 N , on construit r-
cursivement une suite majorante en partant de y N = x N et en remontant ensuite le temps
yn = max{ xn , yn+1 }. La suite {yn }n 6 N , reprsente en pointills, est dcroissante et y0 =
max{ xn , n 6 N }. Lenveloppe de Snell (12.2) est lanalogue de cette construction dans un cas
stochastique.

La figure 12.1 illustre cette construction. Le processus Y est appel enveloppe de Snell du
processus X et il sinterprte de la faon suivante. Si le problme darrt optimal se pose
au temps N, le seul choix possible de temps darrt est = N ce qui justifie la dfinition
YN = X N . la date N 1, on choisit la stratgie darrt en comparant le gain X N 1
obtenu en sarrtant N 1 et le gain espr si on continuait E[YN |F N 1 ] = E[ X N |F N 1 ].
Ceci explique la dfinition de YN 1 . En procdant de manire rtrograde date par date,
on comprend la logique derrire lenveloppe de Snell.
Le rsultat suivant montre que lenveloppe de Snell permet de rsoudre le problme
darrt optimal V N et de dterminer un temps darrt optimal.
Proposition 12.1. Supposons que X soit intgrable. Alors lenveloppe de Snell Y est la plus petite
surmartingale majorant le processus X. De plus
la variable alatoire
n o
= inf n {0, . . . , N }; Yn = Xn

est un temps darrt.



le processus arrt Y = Y est une martingale.
le temps darrt est optimal car

Y0 = sup E [ X ] = E [ X ] .
T N

Dmonstration.
tape 1. Construction de la surmartingale Y.
Vrifions dabord par une rcurrence rtrograde que le processus Y est bien int-
grable. la date finale, on a YN = X N L1 . Si on suppose que Yn appartient L1 ,
alors
E|Yn1 | 6 E| Xn1 | + E|E{Yn |Fn1 }| 6 E| Xn1 | + E|Yn |.
Ainsi Y est intgrable.
12.1. ARRT OPTIMAL 159

Par dfinition Y est une surmartingale majorant X. Soit Y une autre surmartingale
majorant X. Montrons par rcurrence rtrograde que presque srement

Yn > Yn pour tout n = 0, . . . , N.

Au temps N, on a YN > X N = YN . Supposons maintenant que Yn > Yn . Comme Y est


une surmartingale, elle vrifie

Yn1 > E Yn |Fn1 > E [Yn |Fn1 ] .


 

De plus Y majore X et par consquent

Yn1 > max { Xn1 , E [Yn |Fn1 ]} = Yn1 .

tape 2. Construction du temps darrt optimal.


Comme YN = X N , la variable dfinit bien un temps darrt dans T N , comme pre-
mier temps datteinte du processus Y X du niveau 0. Dans le cas dterministe illustr
figure 12.1, le temps darrt correspond au premier temps o yn = xn .

Montrons maintenant que le processus arrt Y est une martingale. On a

Yn+1 Yn = (Yn+1 Yn )1{ > n+1} .

On remarque que lvnement { > n + 1} = { 6 n}c est mesurable par rapport


Fn . Par dfinition, le processus {Yn }n 6 N satisfait sur lvnement { > n + 1}

Yn > Xn et Yn = E [Yn+1 |Fn ] .

On en dduit que

Yn+1 Yn = (Yn+1 E [Yn+1 |Fn ])1{ > n+1} .

En utilisant le fait que { > n + 1} Fn et en prenant lesprance conditionnelle par



rapport Fn , on vrifie que le processus arrt Y est une martingale
h i
E Yn+1 Fn Yn = 0.

Ceci implique que


h i
Y0 = E YN = E [YN ] = E [Y ] = E [ X ] .

Par ailleurs, pour tout temps darrt dans T N , le processus arrt Y est une surmar-
tingale. Daprs le thorme darrt de Doob, il satisfait donc

Y0 > E [YN ] = E [Y ] > E [ X ]

par dfinition de Y. On a ainsi montr la dernire partie de la proposition.


160 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE

12.1.2 Le problme du parking


Vous conduisez le long dune rue infinie vers votre lieu de rendez-vous qui se situe
dans un quartier trs frquent. Le stationnement dans la rue est autoris, mais bien sr
peu de places sont libres. Alors, si vous avez la possibilit de vous garer, quelle distance
de votre lieu de rendez-vous dcidez-vous de prendre la place ?
Cette question peut se modliser de la faon suivante :
1. Vous dmarrez lorigine. Des emplacements de stationnement sont disponibles
tous les entiers. On considre une suite { n }n0 de variables alatoires indpen-
dantes de loi de Bernoulli de paramtre p, o n = 1 si et seulement si lemplace-
ment au point n est dj occup. Le lieu de rendez-vous se trouve au point entier
N > 0.
2. Si lemplacement n est disponible, i.e. si n = 0, et que vous dcidiez de vous y
garer, vous subissez le cot | N n| correspondant leffort de faire la distance
restante en marchant.
3. Quand vous arrivez au niveau du point n, vous ne pouvez pas savoir si des places
de stationnement sont disponibles au niveau n + 1 ou plus loin. Si vous dcidez de
passer au point n + 1, vous ne pouvez plus retourner aux points prcdents.
4. Enfin, si vous arrivez en N, votre point de rendez-vous sans vous tre gar, vous
prenez la premire place de stationnement libre qui se prsente. Ainsi, si lempla-
cement N est occup, le cot moyen que vous subissez est alors

1
XN = jp j1 (1 p) = 1 p .
j 1

Avant darriver en N le processus de cot scrit

Xn = ( N n)1{ n =0} + 1{ n =1}

o le cot infini pour n = 1 signifie que vous ne pouvez occuper la place aucun
cot fini.
Le problme darrt optimal consiste chercher le temps darrt qui minimise le cot de
leffort de lagent, ou en inversant les signes

sup E[ X ].
T N

Lenveloppe de Snell est donne par YN = X N et

Yn = max { Xn , E [Yn+1 |Fn ]} pour n < N.

Un simple raisonnement par rcurrence rtrograde, utilisant lindpendence des n , montre


que Yn est une fonction de n . Par consquent

E [Yn+1 |Fn ] = E [Yn+1 ] = f ( N n) (12.3)


12.1. ARRT OPTIMAL 161

o f : {0, . . . , N } R est une fonction que nous allons dterminer. Comme Y est une
surmatingale, lesprance n E[Yn ] dcrot et par consquent n f ( N n) est d-
croissante (cf. figure 12.2). Le premier temps o Yn = Xn revient dterminer le premier
n < N tel que
n = 0 et ( N n) > f ( N n). (12.4)
Soit r > 0 le premier point tel que ( N r ) > f ( N r ) (cf. figure 12.2). Si une place
est disponible avant r alors lingalit de la relation (12.4) ne sera pas satisfaite, par
consquent il suffit de choisir la premire place disponible aprs r .

r? N

F IGURE 12.2 Les graphes de n f ( N n) et de n ( N n) sont reprsents. Les carrs


marquent les positions n des places disponibles ( n = 0) et le gain correspondant est ( N n).
Le seuil r est le point o les deux graphes sintersectent. La place choisie est la premire place
libre aprs r , i.e. le troisime carr sur le schma.

La stratgie darrt optimale est ncessairement de la forme

= inf n > N r ;

n = 0 (12.5)

o r est une constante dterminer. On note `(r ) la performance espre en utilisant


une stratgie de seuil avec paramtre r, i.e.

`(r ) = E[Y (r) ] o (r ) = inf{n N r; n = 0}.

Nous allons calculer `(r ) et optimiser en fonction de r pour identifier r .


Pour r = 0, on obtient
p
`(0) = (1 p) 0 + pX N = .
1 p
Pour r > 1, on calcule par rcurrence `(r ) = (1 p)r + p`(r 1). On dduit alors que

2pr+1 1
`(r ) = r + 1 + , r 6 N.
1 p

Pour maximiser `(r ), on remarque que la fonction r 7 `(r + 1) `(r ) = 1 + 2pr+1 est
dcroissante en r. Par consquent
n o
r +1
r = inf r 0; 1 + 2p 0 .
162 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE

titre dexemple, on peut voir que pour p 6 0.5, il faut chercher se garer en arrivant
destination et que pour p = 0.9, il faut chercher la premire place disponible ds quon
arrive 6 places de la destination.

12.1.3 Problme des secrtaires


Nous allons nous intresser un problme classique connu sous le nom de problme
des secrtaires. N candidats effectuent un entretien pour un poste de secrtaire vacant
et ceux-ci peuvent tre tous compars strictement (une fois rencontrs) et classs. Les
candidats sont auditionns un un dans un ordre arbitraire, les N! faons dordonner les
candidats sont quiprobables. lissue de laudition de chaque candidat et sur la base de
son rang relatif par rapport aux candidats prcdemment auditionns, on doit
soit le slectionner pour le poste, terminant ainsi la procdure de slection,
soit refuser dfinitivement sa candidature, sans possibilit de le rappeler ultrieu-
rement, et passer au candidat suivant.
Lobjectif est de slectionner le meilleur candidat parmi les N : le gain est dfini par 1 si
on slectionne le meilleur candidat et par 0 sinon.

Modlisation.
On peut classer les N candidats selon un ordre dcroissant {(1), . . . , ( N )} o est
une permutation uniforme de {1, . . . , N }. Le candidat i a donc le rang (i ) et on cherche
dterminer le meilleur candidat, cest dire le candidat j tel que ( j) = 1. Lenjeu est
doptimiser le gain P( ( ) = 1) o est un temps darrt reprsentant le candidat choisi.
La premire difficult est que le processus {1(k)=1 }k 6 N que lon cherche optimi-
ser nest pas mesurable par rapport la -algbre engendre par les observations jus-
qu linstant k. En effet savoir que (k ) = 1 suppose de connatre le classement des
N candidats. Les variables mesures naturellement sont les rangs relatifs { n }1n N .
Prcisment, n dsigne le rang du nime candidat auditionn parmi les n candidats
auditionns. Par exemple si N = 5 et que le classement des candidats est donn par
= {3, 2, 5, 1, 4}, alors les ordres relatifs seront

1 = 1, 2 = 1, 3 = 3, 4 = 1, 5 = 4.

On aura toujours 1 = 1 et N = ( N ) car au temps N tous les candidats sont connus.


On remarque que la connaissance de tous les ordres relatifs jusqu N permet de recons-
tituer le classement. Pour chaque n > 1, la variable alatoire n est distribue selon la loi
uniforme sur {1, . . . , n}

1
P n = k = .

k {1, . . . , n},
n

De plus la variable n est indpendante des { i , i 6 n 1}. On note Fn = ( i , i 6 n)


la filtration canonique correspondante.
Nous allons considrer le processus

Xn = E 1{(n)=1} Fn .

n {1, . . . , N },
12.1. ARRT OPTIMAL 163

Pour tout temps darrt , on vrifie que

N
P ( ) = 1 = E
 
1{ =n} 1{(n)=1}
n =1
N
E 1{ =n} E 1{(n)=1} Fn

=
n =1
N
E 1 { = n } Xn = E( X ).

=
n =1

Par consquent, pour dterminer le temps darrt optimal, il est donc quivalent de tra-
vailler avec le processus mesurable { Xn }n 6 N qui est mesurable par rapport aux obser-
vations contrairement {1(n)=1 }n 6 N . De plus le processus { Xn }n 6 N peut se rcrire
sous la forme
n
Xn = 1 .
N { n =1}
En effet lvnement {(n) = 1} correspond { n = 1, n+1 6= 1, . . . , N 6= 1} et en
utilisant lindpendance des variables i , on retrouve

Xn = E 1{(n)=1} Fn = 1{ n =1} P n+1 6= 1, . . . , N 6= 1


 

n n+1 N1 n
= 1 { n =1} = 1 .
n+1 n+2 N N { n =1}

On peut aussi interprter ce rsultat plus intuitivement en remarquant que {(n) = 1}


quivaut ce que n = 1 et que le meilleur candidat figure parmi les n premiers (ce qui a
pour probabilit Nn ).

La dernire tape consiste calculer lenveloppe de Snell du processus { Xn }n 6 N


nn o
YN = 1{ N =1} et Yn = max 1{ n =1} , E [Yn+1 |Fn ] pour n = 1, . . . , N 1.
N
(12.6)
Comme dans le problme du parking (12.3), on utilise lindpendance des variables { i }i 6 N
pour conclure quil existe une fonction f : {0, . . . , N } R telle que

E [Yn+1 |Fn ] = E [Yn+1 ] = f ( N n)

de plus n f ( N n) est dcroissante. Le temps darrt optimal correspond donc au


premier temps n < N o
n
1 > f ( N n ).
N { n =1}
sinon on pose = N. Ceci revient considrer une stratgie de seuil similaire (12.5).
Pour dterminer le seuil r optimal, on calcule le gain de chaque stratgie

r = N inf {n > r; n = 1} avec `(r ) = E( Xr )


164 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE

et on optimise ensuite r. En utilisant lindpendance des variables { n }n 6 N , on obtient


N
`(r ) = E( Xr ) = P (r ) = 1 = E
 
1{r =n} 1{(n)=1}
n =r
N
P

= r 6= 1, . . . , n1 6= 1, n = 1, n+1 6= 1, . . . , N 6= 1
n =r

r1 N 1
=
N n =r n 1
avec `(0) = 1/N. On remarque que
N
1 1 1
`(r + 1) `(r ) =
N
+
N n1
.
n =r +1

Le seuil optimal r correspond au premier point o la courbe ` commence dcroitre


( )
N
1
r = inf r; k1 < 1 .
k =r +1

Quand N est grand, on peut utiliser lapproximation


N Z N
1 1 N
k1 ' r u
du = log
r
k =r +1

pour obtenir lordre de grandeur r Ne1 .37 N. Ainsi, la stratgie optimale consiste
rejeter systmatiquement les premiers candidats et, partir de 37% des candidats audi-
tionns, slectionner celui qui sera class premier parmi tous ses prdcesseurs.

12.2 Contrle stochastique


Avant dvoquer les aspects alatoires, commenons par dcrire les problmatiques
lies la thorie du contrle dans un cadre dterministe. Une premire application consiste
guider un mobile (par exemple un satellite) dont la position Xn volue en suivant la dy-
namique
X0 = x et Xn+1 = F ( Xn , un ) pour n > 0 (12.7)
o u = {un }n 6 N est un paramtre de contrle qui doit tre ajust pour optimiser la
trajectoire du mobile. Plus gnralement, on cherche optimiser un cot de la forme
N 1
C( x, u) = c ( Xn , u n ) + W ( X N ) (12.8)
n =1

en fonction de u. Les paramtres de contrle prennent leurs valeurs dans un ensemble U


et lenjeu de cette section est de dterminer le cot optimal C ( x ) et le contrle optimal
correspondant u = {un }n 6 N dans U N tel que
C ( x ) = C( x, u ) = min C( x, u)
uU N

o x est la donne initiale.


12.2. CONTRLE STOCHASTIQUE 165

Les applications du contrle sont multiples et la fonction de cot (12.8) peut sinter-
prter de diffrentes faons. Par exemple Xn peut reprsenter la population dune espce
de poissons au dbut de lanne n et le paramtre un les quotas de pche qui permettent
de contrler lvolution de cette population sous la forme Xn+1 = F ( Xn , un ). On cherche
ajuster les quotas de pche durant N annes afin de garantir un certain niveau dex-
ploitation c( Xn , un ) chaque anne mais aussi la prservation de la ressource naturelle en
imposant une contrainte W ( X N ) au temps final. Dautres questions lies aux politiques
de dveloppement durable (exploitation des forts, dtermination des quotas dmission
de CO2) sont dtailles dans le livre [7] ainsi que la forme explicite des fonctions de cot
associes.
De nombreuses applications sont lies lconomie, citons notamment la gestion dun
stock de marchandises [8]. Le paramtre Xn reprsente alors la quantit du stock au jour n
et le paramtre un permet dajuster ce stock au cours du temps en passant commande aux
fournisseurs. chaque priode de temps, c( Xn , un ) prend en compte le gain obtenu en
vendant cette marchandise, les frais de stockage, etc. Les invendus au temps N induisent
la pnalisation W ( X N ). La thorie du contrle est aussi trs utilise en mathmatiques
financires.
Pour prciser la modlisation, on peut aussi tenir compte dventuels alas et modifier
les rgles dvolution
n > 0, X n +1 = F ( X n , u n , n ) (12.9)
o { n }n 6 N est une suite de variables alatoires indpendantes et identiquement dis-
tribues. Par exemple, la reproduction dune espce animale peut tre affecte par des
facteurs climatiques quon modlise par les n . La thorie du contrle stochastique consiste
identifier un contrle optimal qui minimise le cot moyen dfini en (12.13).
Nous allons dabord dcrire la mthode de programmation dynamique qui permet
de dterminer le contrle optimal dans le cas dterministe puis nous gnraliserons cette
stratgie aux volutions alatoires.

12.2.1 quation de la programmation dynamique


Lalgorithme propos par R. Bellman permet didentifier le contrle pour une volu-
tion dterministe (12.7). Lalgorithme de la programmation dynamique procde de faon
rtrograde comme pour la construction de lenveloppe de Snell (12.2).
On note E lespace dtats o Xn prend ses valeurs. tant donn un contrle {un }k 6 n 6 N
et x dans E, on dfinit la trajectoire partielle { Xn }k 6 n 6 N partant de x au temps k
Xk = x et X n +1 = F ( X n , u n ) pour n>k
et la fonction de cot partielle associe
N 1
Ck ( x, u) = c ( Xn , u n ) + W ( X N ). (12.10)
n=k
Supposons que le cot optimal associ est bien dfini (cest le cas, par exemple, si E et U
sont finis). Alors il est donn par
n N 1 o
Ck ( x ) = inf c( Xn , un ) + W ( X N ) . (12.11)
u
n=k
166 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE

Il satisfait les quations de la programmation dynamique : pour tout x de E



C ( x ) = W ( x ),
N
x E, n o (12.12)
Ck ( x ) = infaU c( x, a) + Ck+1 F ( x, a) pour k 6 N 1.

Le principe qui sous-tend ces quations est que la trajectoire optimale entre 2 points sera
aussi optimale entre 2 points intermdiaires. Par consquent, si on connait le contrle
optimal entre k + 1 et N, il est facile den dduire le contrle optimal entre k et N.
Ces quations peuvent tre rsolues de faon rtrograde. La valeur de a o le mini-
mum est atteint correspond au contrle optimal et on la notera un ( x ) (si valeur nest pas
unique, on en choisit une). En remontant jusquau temps k = 0, on tablit le cot optimal
pour nimporte quelle donne initiale X0 = x dans E

C ( x ) = min C0 ( x, u).
uU N

En utilisant les diffrentes valeurs {un ( x )}n 6 N,xE dtermines au cours de cette proc-
dure, une trajectoire optimale { Xn }n 6 N peut tre reconstruite pour toute donne initiale
x dans E par

X0 = x et Xn+1 = F Xn , un ( Xn ) pour n 6 N 1.


12.2.2 Contrle des chanes de Markov


Nous allons maintenant gnraliser les rsultats prcdents au contrle stochastique.
On considre lvolution alatoire de la forme (12.9)

X0 = x et Xn+1 = F ( Xn , Un , n ) pour n>0

o { n }n 6 N est une suite de variables alatoires indpendantes et identiquement dis-


tribues. On cherche un contrle Un = un ( Xn ) mesurable par rapport ( Xn ) (cette
hypothse peut tre gnralise). Ce choix permet daffirmer que { Xn }n 6 N est bien une
chane de Markov.
Lanalogue du cot (12.8) scrit
!
N 1
b x, U ) = E c( Xn , Un ) + W ( X N ) .
C( (12.13)
n =1

En dcomposant les cots partiels comme en (12.11)


!
n N 1 o
Cbk ( x ) = inf Ek,x
U
c ( Xn , u n ) + W ( X N ) (12.14)
n=k

o lesprance Ek,x porte sur les trajectoires partant de x au temps k et le minimum (dont
on suppose lexistence) est choisi pour les contrles de la forme

U = {uk ( xk ), . . . , u N 1 ( x N 1 )}.
12.2. CONTRLE STOCHASTIQUE 167

Dans le cas alatoire, les quations de la programmation dynamique scrivent pour tout
x de E

Cb ( x ) = W ( x ),
N
x E, n   o
C ( x ) = infaU c( x, a) + E Cb F ( x, , a)
b
k k +1 pour k 6 N 1.
(12.15)
On construit ainsi le contrle optimal par tapes, en dfinissantuk ( x )
comme la valeur
qui minimise la relation (12.15) chaque pas de temps et pour chaque tat x dans E.
168 CHAPITRE 12. ARRT OPTIMAL ET CONTRLE STOCHASTIQUE
Annexe A

Prliminaires de la thorie des


mesures

A.1 Espaces mesurables et mesures


Dans toute cette section, dsigne un ensemble quelconque, et P () est lensemble
de toutes ses parties.

A.1.1 Algbres, algbres


Dfinition A.1. Soient A0 , A P (). On dit que
(i) A0 est une algbre sur si A0 contient et est stable par passage au complmentaire et par
runion.
(ii) A est une algbre si cest une algbre stable par union dnombrable. On dit alors que
(, A) est un espace mesurable.
Notons quune algbre doit aussi contenir , et est stable par intersection et par dif-
frence symtrique, i.e.

A B et AB := ( A B) \ ( A B) A pour tous A, B A0 ,

et quune algbre est stable par intersection dnombrable. P () est la plus grande
algbre sur . Il savre cependant que, si nest pas dnombrable, cette algbre
est souvent trop grande pour quon puisse y dvelopper les outils mathmatiques nces-
saires.
En dehors des cas trs simples, il est souvent impossible de lister les lments dune
algbre ou dune algbre. Il est alors commode de les caractriser par une classe de
sous-ensembles. Ainsi, on dfinit pour tout C P () la algbre (C) engendre par
C . Cest la plus petite algbre sur contenant C , dfinie comme intersection de toutes
les algbres sur contenant C .
Exemple A.2. Si est un espace topologique, la algbre Borelienne , note par B , est la
algbre engendre par les ouverts de . Pour la droite relle, on peut mme simplifier
la comprhension de BR :

BR = ( (R)) o (R) := {] , x ] : x R}

169
170 ANNEXE A. THORIE DE LA MESURE

(Exercice !)
Lexemple prcdent se gnralise par la notion suivante :
Dfinition A.3. Soit I P (). On dit que I est un systme sil est stable par intersection
finie.
Ainsi lensemble (R) de lexemple ci-dessus est un systme. Limportance de
cette notion apparatra dans la proposition A.5 ci-dessous ainsi que dans le thorme des
classes monotones A.18 de la section A.2.

A.1.2 Mesures
Dfinition A.4. Soit A0 une algbre sur , et 0 : A0 R+ une fonction positive.
(i) 0 est dite additive si 0 () = 0 et pour tous A, B A0 :

0 ( A B) = 0 ( A) + 0 ( B) ds que A B = .

(ii) 0 est dite additive si 0 () = 0 et pour toute suite ( An )n0 A0 :

A = n0 An A0 et les An disjoints = 0 ( A) = 0 ( A n ).
n 0

(iii) Une fonction additive : A R+ sur un espace mesurable (, A) est appele


mesure, et on dit que (, A, ) est un espace mesur.
(iv) Un espace mesur (, A, ) est dit fini si () < , et fini sil existe une suite
(n )n0 A telle que (n ) < et n0 n = .
Proposition A.5. Soient I un systme, et , deux mesures finies sur lespace mesurable
(, (I)). Si = sur I alors = sur (I).
La dmonstration est reporte, titre de complment, dans lannexe de ce chapitre.
Le rsultat suivant est essentiel pour construire des mesures intressantes.
Thorme A.6. (Thorme dextension de Carathodory) Soient A0 une algbre sur , et 0 :
A0 R+ une fonction additive. Alors il existe une mesure sur A := (A0 ) telle que
= 0 sur A0 . Si de plus 0 () < , alors une telle extension est unique.
La dmonstration est reporte, titre de complment, dans lannexe de ce chapitre.
Avec ce rsultat, on peut maintenant construire une mesure importante sur lespace me-
surable (]0, 1], B]0,1] ).
Exemple A.7. (Mesure de Lebesgue) Nous allons dfinir une mesure sur B]0,1] qui mesure
les longueurs.
1- On remarque tout dabord que A0 constitu des parties A ]0, 1] de la forme

A = 1in ] ai , bi ] pour n N et 0 a1 b1 . . . ar br 1, (A.1)

est une algbre telle que B]0,1] = (A0 ). Pour tout A A0 de la forme (A.1), on dfinit
n
0 ( A ) := ( bi a i ) .
i =1
A.1. M ESURES 171

2- Alors 0 : A0 R+ est une application bien dfinie et est videmment additive.


On peut montrer quelle est additive (cest moins vident, nous renonons le jus-
tifier ici pour allger ces notes, et nous renvoyons au livre de Williams [22]). Comme
0 (]0, 1]) < , on dduit du thorme de Carathdory lexistence dune unique exten-
sion dfinie sur B]0,1] .
Cette mesure fini est appele mesure de Lebesgue sur ]0, 1]. La mesure de Lebesgue sur
[0, 1] est obtenue par une modification triviale puisque le singleton {0} est de mesure de
Lebesgue nulle.
3- Par le mme raisonnement, on peut construite la mesure de Lebesgue sur BR comme
extension dune application densembles sur lalgbre des unions finies dintervalles semi-
ouverts disjoints. Dans ce cas, la mesure de Lebesgue est seulement finie.
Dfinition A.8. (i) Sur un espace mesur (, A, ), un ensemble N A est dit ngligeable
si ( N ) = 0.
(ii) Soit P( ) une proprit qui ne dpend que dun lment . On dit que P est vraie
presque partout, et on note p.p., si lensemble { : P( ) nest pas vraie} est inclus
dans un ensemble ngligeable.
Remarque A.9. Daprs la proprit de additivit de la mesure, on voit aisment que
toute union dnombrable de ngligeables est ngligeable.

A.1.3 Proprits lmentaires des mesures


Nous commenons par des proprits mettant en jeu un nombre fini densembles.
Proposition A.10. Soit (, A, ) un espace mesur, et ( Ai )in A. Alors : (i) (in Ai )
i n ( A i ),
(ii) Si de plus () < , on a

(in Ai ) = (1)k1 ( A i1 . . . A i k ).
kn i1 <...<ik n

La preuve de ce rsultat est une consquence immdiate de la dfinition de mesure. La


partie (ii), spcifique aux mesures finies, donne une formule pour la mesure de lunion
finie densemble qui alterne entre sur-estimation et sous estimation. Pour n = 2 cette
formule nest autre que la proprit bien connue ( A B) = ( A) + ( B) ( A B)
pour A, B A.
Le rsultat (simple) suivant est fondamental en thorie de la mesure. Pour une suite
densembles ( An )n , nous notons simplement An A pour indiquer que la suite est crois-
sante (An An+1 ) et n An = A. La notation An A a un sens similaire dans le cas o la
suite est dcroissante.
Proposition A.11. Soit (, A, ) un espace mesur, et ( An )n une suite de A. Alors
(i) An A = ( An ) ( A),
(ii) An A et ( Ak ) < pour un certain entier k = ( An ) ( A),
La dmonstration simple de ce rsultat est laisse comme exercice. Faisons juste deux
remarques :
La proposition A.11 (i) implique que lunion dnombrable densembles de mesure
nulle est de mesure nulle (Remarque A.9).
172 ANNEXE A. THORIE DE LA MESURE

lexemple An =]n, [ dans lespace mesur (R, BR , ), tant la mesure de Le-


besgue sur R, montre que la condition supplmentaire dans (ii) est ncessaire.
Ces rsultats permettent de montrer les outils importants pour lanalyse de la conver-
gence des mesures des ensembles. On rappelle les notions de liminf et limsup pour une
suite relle ( xn )n1 R
lim sup xn := inf sup xn et lim inf xn := sup inf xn
n p 1 n p n p 1 n p

et pour une suite densembles ( An )n :


lim sup An := n kn Ak = { : An pour une infinit de n},
lim inf An := n kn Ak = { : An partir dun rang n0 ( )}.
Le rsultat suivant est trs utile.
Lemme A.12. (de Fatou pour les ensembles) Soit (, A, ) un espace mesur, et ( An )n une suite
dans A. Alors
[lim inf An ] lim inf [ An ].
Dmonstration. Par dfinition, nous avons Bn := kn Ak B := lim inf An , et on dduit
de la proposition A.11 (i) que [ B] = lim [ Bn ]. Pour conclure, il suffit de remarquer
que Bn Ak pour tout k n, et par suite [ Bn ] infkn [ Ak ], impliquant que lim
[ Bn ] lim inf [ An ].

Si la mesure est finie, le rsultat suivant montre que lingalit inverse dans le lemme
de Fatou pour les ensembles a lieu en changeant lim inf et lim sup. Nous verrons plus
tard que la situation est plus complique pour les fonctions...
Lemme A.13. (inverse Fatou pour les ensembles) Soit (, A, ) un espace mesur fini, et ( An )n
une suite dans A. Alors
[lim sup An ] lim sup [ An ].
Dmonstration. Par dfinition, nous avons Cn := kn Ak C := lim sup An . La pro-
position A.11 (ii), qui requiert que la mesure soit finie, donne [C ] = lim [Cn ]. Pour
conclure, il suffit de remarquer que Cn Ak pour tout k n, et par suite [Cn ]
infkn [ Ak ], impliquant que lim [Cn ] lim sup [ An ].

Enfin, nous nonons le rsultat suivant qui sera utilis plusieur reprises. Notons
que cet nonc sera complt dans la suite quand nous aurons abord les notions dind-
pendance.
Lemme A.14. (Premier lemme de Borel-Cantelli) Soit (, A, ) un espace mesur, et ( An )n
A. Alors

[ An ] < = [lim sup An ] = 0.


n

Dmonstration. Comme lim sup An C p := k p Ak pour tout p 1, on dduit que


(lim sup An ) (C p ) k p ( Ak ). Le rsultat est obtenu en envoyant p vers linfini.
A.2. LINTGRALE DE LEBESGUE 173

A.2 Lintgrale de Lebesgue


Dans cette section, on considre un espace mesur (, A, ), et nous dveloppons la
thorie dintgration dune fonction par rapport la mesure . Si est dnombrable,
A = P (), et ({ }) = 1 pour tout , une fonction est identifie une suite ( an )n ,
et elle est intgrable si et seulement si n | an | < , et lintgrale est donne par la valeur
de la srie n an . La relle difficult est donc pour les espaces non dnombrables.

A.2.1 Fonction mesurable


Lobjet central en topologie est la structure des ouverts, et les fonctions continues sont
caracrtrises par la proprit que les images rciproques des ouverts de lensemble dar-
rive sont des ouverts de lensemble de dpart. Dans la thorie de la mesure, les ouverts
sont remplacs par les ensembles mesurables, et les fonctions mesurables remplacent les
fonctions continues.

Dfinition A.15. On dit quune fonction f : (, A) (R, BR ) est mesurable si limage


rciproque de tout ensemble borlien est dans A. On note par L0 (A) lensemble des fonctions
mesurables. Les sous-ensembles des fonctions mesurables positives (resp. bornes) seront nots
L0+ (A) (resp. L (A)).

De manire quivalente f L0 (A) si et seulement linverse f 1 est bien dfinie


comme une application de BR dans A, i.e. f 1 : BR A. Si C BR est tel que
(C) = BR , alors il suffit de vrifier f 1 : C A.

Remarque A.16. (i) En prenant C = (R) le systme des intervalles de la forme


] , c], c R, on voit que

f L0 (A) ssi { f c} A pour tout c R.

(ii) Supposons que est un espace topologique, et que f : R est continue.


Alors f est B mesurable. En effet, avec C = {ouverts de R}, la continuit scrit f 1 :
BR A. On dit que f est une fonction borlienne.
(iii) Soit X une application de dans un ensemble dnombrable X () = { xn , n N}.
On munit X () de la plus grande algbre P ( X ()) et on remarque que P ( X ()) =
({{ } : }). Ceci permet de conclure que X est mesurable si et seulement si
{ X = xn } A pour tout n N.

La mesurabilit est conserve par les oprations usuelles pour les fonctions.

Proposition A.17. (i) Pour f , g L0 (A), h L0 (BR ), et R, on a f + g, f , f g, f h


et f L0 (A).
(ii) Pour une suite ( f n )n L0 (A), on a inf hn , lim inf hn , sup hn et lim sup hn L0 (A).

La preuve est simple et est laisse en exercice. Avant daborder lobjet central de ce
chapitre, savoir la construction de lintgrale de Lebesgue, nous reportons une ver-
sion simple du thorme des classes monotones, qui ne sera utilis que plus tard dans la
construction despaces mesurs produits.
174 ANNEXE A. THORIE DE LA MESURE

Thorme A.18. (classes monotones) Soit H une classes de fonctions relles bornes sur vri-
fiant les conditions suivantes :
(H1) H est un espace vectoriel contenant la fonction constante 1,
(H2) pour toute suite croissante ( f n )n H de fonctions positives dont la limite f := lim f n
est borne, on a f H.
Soit I un systme tel que {1 A : A I} H. Alors L ((I)) H.
La dmonstration est reporte titre de complment dans lannexe de ce chapitre.

A.2.2 Intgration des fonctions positives


Le but de ce paragraphe est de dfinir pour toute fonction mesurable positive f une
notion dintgrale par rapport la mesure :
Z
f d que lon note aussi ( f ),

qui est un abus de notation comunment accept ( : A R !) du fait que notre


dfinition doit vrifier
Z
1 A = ( A) pour tout A A.

Plus gnralement, soit S + lensemble des fonctions de dans R+ de la forme


n
g = ai 1 A ,
i
(A.2)
i =1

pour un certain entier n 1, des ensembles Ai A, et des scalaires ai [0, ], 1 i n.


Ici, il est commode dautoriser la valeur +, et on utilisera les rgles de calcul 0 =
0 = 0. lintgrale sur S + est dfinie par :
n
( g) = a i ( A i ). (A.3)
i =1

Il est clair que ( g) est bien dfini, i.e. deux reprsentations diffrentes (A.2) dun lment
f S + donnent la mme valeur. Nous tendons prsent la dfinition de lensemble
L0+ (A) des fonctions Amesurables positives.
Dfinition A.19. Pour f L0+ (A), lintgrale de f par rapport est dfinie par

( f ) := sup ( g) : g S + et g f .


Lensemble { g S + : g f }, dont la borne suprieure dfinit lintgrale, contient


la fonction nulle. On peut aussi construire des lments non triviaux en introduisant la
fonction
n ( x ) := n (i 1)2n 1 Bin ( x ), Bin :=](i 1)2n , i2n ].
i 1

En effet, pour tout f L0 (A) :

(n f )n S + est une suite croissante qui converge vers f. (A.4)


A.2. I NTGRALE DE L EBESGUE 175

La dfinition de lintgrale implique immdiatement que

(c f ) = c( f ) pour tous c R+ et f L0+ (A), (A.5)

ainsi que la proprit de monotonie suivante.


Lemme A.20. Pour f 1 , f 2 L0+ (A). Si f 1 f 2 , alors 0 ( f 1 ) ( f 2 ). De plus ( f 1 ) = 0
si et seulement si f 1 = 0, p.p.

Dmonstration. Pour la premire partie, il suffit de remarquer que { g S + : g f 1 }


{ g S + : g f 2 }. Pour la deuxime partie de lnonc, rappelons que ({ f > 0}) =
lim ({ f > n1 }) daprs la proposition A.11. Si ({ f > 0}) > 0, on a ({ f > n1 }) >
0 pour n assez grand. Alors f g := n1 1{ f >n1 } S + , et on dduit de la dfinition de
lintgrale que ( f ) ( g) = n1 ({ f > n1 }) > 0.

Le rsultat la base de la thorie de lintgration est lextension suivante de la pro-


prit de convergence monotone des mesures densembles nonce dans la proposition
A.11 (i).
Thorme A.21. (convergence monotone) Soit ( f n )n L0+ (A) une suite croissante p.p., i.e.
pour tout n 1, f n f n+1 p.p. Alors

(lim f n ) = lim ( f n ).

Dmonstration. On procde en trois tapes.


Etape 1 On commence par supposer que f n f n+1 sur . On note f := lim f n .
Daprs le lemme A.20, la suite des intgrales (( f n ))n hrite la croissance de la suite
( f n )n et est majore par ( f ). Ceci montre lingalit lim ( f n ) (lim f n ).
Pour tablir lingalit inverse, nous devons montrer que lim ( f n ) ( g) pour
tout g = ik=1 ai 1 Ai S + vrifiant g f . Pour tout c [0, 1[, on dduit du lemme A.20
et de (A.5) que :
k
( f n ) ( f n 1{ f n cg} ) c( g1{ f n cg} ) = c ai ( Ai { f n cai }).
i =1

En utilisant la proprit de convergence monotone des mesures densembles nonce


dans la proposition A.11 (i), on obtient alors :
k
lim ( f n ) c ai ( Ai ) = c( g) ( g) quand c 1.
i =1

Etape 2 Dans le reste de la preuve, on veut passer de la monotonie de la suite ( f n )n sur


la monotonie p.p. Pour cel, introduisons 0 = { : ( f n ( ))n croissante}
et la suite croissante (sur ) fn := f n 10 . La premire tape de cette preuve sapplique
la suite ( fn ), alors il suffit de montrer que ( fn ) = ( f n ). Comme fn f n , lingalit
( fn ) ( f n ) dcoule du lemme A.20. Por tout > 0, il existe gn S + tel que gn f n et
( gn ) ( f n ) . Remarquons que gn := gn 10 S + et vrifie gn fn . Alors, ( gn )
( fn ). Comme ( gn ) = ( gn ), on dduit que ( f n ) ( gn ) + ( fn ) + & ( fn )
pour & 0.
176 ANNEXE A. THORIE DE LA MESURE

Remarque A.22. Par le mme argument que ltape 2 ci-dessus (approximation par les
fonctions simples (A.4) et utilisation du thorme de convergence monotone), on montre
facilement que :
(i) Pour f 1 , f 2 L0+ (A) telles que f 1 = f 2 p.p., on a ( f 1 ) = ( f 2 ).
(ii) Pour f 1 , f 2 L0+ (A), on a ( f 1 + f 2 ) = ( f 1 ) + ( f 2 ).

Voici une consquence simple et trs utile du thorme de convergence monotone.

Lemme A.23. (Fatou) Pour une suite de fonctions ( f n )n de L0+ (A), on a

(lim inf f n ) lim inf ( f n ).

Dmonstration. Daprs la monotonie de lintgrale, infkn ( f k ) (infkn f k ) pour tout


n 1. Comme la suite (infkn f k )n1 est croissante p.p., on obtient le rsultat par
application du thorme de convergence monotone.

A.2.3 Intgration des fonctions relles


Pour une fonction f L0 (A), on note f + := max{ f , 0} et f := max{ f , 0} si bien
que | f | = f + + f . Ces fonctions hritent la Amesurabilit de f .

Dfinition A.24. Une fonction f L0 (A) est dite intgrable si (| f |) = ( f + ) + ( f ) <


, et son intgrale est dfinie par

( f ) : = ( f + ) ( f ).

On note par L1 (A, ) lensemble des fonctions intgrables.

On voit immdiatement que L1 (A, ) est un espace vectoriel dont on donnera dautres
proprits topologiques dans la suite.
Avant de continuer, levons tout de suite une source dambiguit concernant lintgra-
tion dune fonction f L1 (A, ) sur une partie A A. En effet celle-ci peut se faire soit
en intgrant la fonction intgrable f 1 A , soit en intgrant la restriction f | A par rapport
la restriction A de lespace mesurable ( A, A A ), o A A est la algbre dfinie par
A A : = P ( A ) A.

Proposition A.25. Pour tout f L1 (A, ) et A A, on a ( f 1 A ) = A ( f | A ).

Dmonstration. Tout dabord, cette proprit est vraie pour les fonctions f = 1 B , B
A, puisque dans ce cas (1 B 1 A ) = ( A B) = A (1 B | A ). Par linarit, cette galit
reste vraie pour les fonctions simples, puis par convergence monotone pour les fonctions
mesurables positives. Enfin, pour f L1 (A, ), on dcompose f = f + f , et on obtient
le rsultat voulu en appliquant lgalit f + et f .
Voici un rsultat qui rappelle une proprit classique sur les intgrales de Riemann
ventuellement impropres.

Lemme A.26. Soit f L1 (A, ) et > 0. Alors, il existe > 0 tel que pour tout A A
vrifiant ( A) < , on a (| f |1 A ) < .
A.2. I NTGRALE DE L EBESGUE 177

Dmonstration. Supposons, au contraire, quil existe 0 et une suite ( An )n A tels que


( An ) < 2n et (| f |1 An ) 0 . Daprs le premier lemme de Borel-Cantelli, lemme
A.14, on dduit que A := lim sup An est ngligeable. En particulier (| f |1 A ) = 0, et on
obtient une contradiction en remarquant que (| f |1 A ) = (| f |) (| f |1 Ac ) (| f |)
lim inf (| f |1 Acn ) = lim sup (| f |1 An ) 0 , o on a utilis le lemme de Fatou.

A.2.4 De la convergence p.p. la convergence L1


Thorme A.27. (convergence domine) Soient ( f n )n L0 (A) une suite telle que f n f
p.p. pour une certaine fonction f L0 (A). Si supn | f n | L1 (A, ), alors
f n f dans L1 (A, ) i.e. (| f n f |) 0.
En particulier, ( f n ) ( f ).
Dmonstration. On note gn := | f n f | et h := supn gn . Par le lemme de Fatou, (| f |)
lim infn (| f n |) (supn | f n |) < . Alors f L1 (A, ) et |h| | f | + supn | f n |
L1 (A, ). Comme la fonction h gn est positive et que gn 0, p.p., on obtient
par le lemme de Fatou que lim inf (h gn ) (h). Simplifiant par (h), ceci implique
que 0 lim supn ( gn ) lim infn ( gn ) 0 du fait de la positivit de gn .

Le rsultat suivant donne une condition ncessaire et suffisante pour quune suite
convergente p.p. soit convergente dans L1 (A).
Lemme A.28. (Scheff) Soit ( f n )n L1 (A, ) telle que f n f p.p. pour une certaine
fonction f L1 (A, ). Alors :
f n f dans L1 (A, ) ssi (| f n |) (| f |).
Dmonstration. Limplication = est triviale. Pour lingalit inverse, on procde en
deux tapes.
Etape 1 Supposons que f n , f 0, p.p. Alors ( f n f ) f L1 (A), et on dduit
du thorme de convergence domine que (( f n f ) ) 0. Pour conclure, on crit
que (| f n f |) = ( f n ) ( f ) + 2 (( f n f ) ) 0.
Etape 2 Pour f n et f de signe quelconque, on utilise le lemme de Fatou pour obtenir
(| f |) = lim{( f n+ ) + ( f n )} ( f + ) + ( f ) = (| f |) et par suite toutes les ingalits
sont des galit, i.e. lim ( f n+ ) = ( f + ) et lim ( f n ) = ( f ). On est alors ramen au
contexte de ltape 1, qui permet dobtenir f n+ f + et f n f dans L1 (A), et
on conclut en crivant | f n f | | f n+ f + | + | f n f | et en utilisant la monotonie de
lintgrale.
Exercice A.29. Soient (, A, ) un espace mesur, I un intervalle ouvert de R, et f : I
R une fonction telle que f ( x, .) L0 (A) pour tout x I.
1. On suppose quil existe une fonction g L1+ (A, ) telle que | f ( x, .)| g, p.p. Montrer
alors que, si f (., ) est continue en un point x0 I, p.p., la fonction : I R
dfinie par
Z
( x ) := f ( x, )d( ); x I,

est bien dfinie, et quelle est continue au point x0 .


178 ANNEXE A. THORIE DE LA MESURE

2. On suppose que la drive partielle f x := ( f /x ) existe pour tout x I, p.p. et quil


existe une fonction h L1+ (A, ) telle que | f x ( x, .)| h, p.p. Montrer alors que est
drivable sur I, et
f
Z
0 ( x ) = ( x, )d( ); x I.
x
3. Donner des conditions qui assurent que soit continuement drivable sur I.

A.2.5 Intgrale de Lebesgue et intgrale de Riemann


Dans ce paragraphe, nous donnons quelques lments qui expliquent lavantage de
lintgrale de Lebesgue par rapport celle de Riemann. Pour tre plus concret, on consi-
dre le problme dintgration sur R.

(a) Lintgrale de Riemann est construite sur un intervalle [ a, b] compact de R. Il y a bien une
extension par les intgrales impropres, mais cel conduit un cadre assez restrictif.

(b) Lintgrale de Riemann est construite en approximant la fonction par des fonctions en es-
calier, i.e. constantes sur des sous-intervalles de [ a, b] de longueur petite. Sur un dessin,
il sagit dune approximation verticale. Par contre, lintgrale de Lebesgue est construite en
dcoupant lintervalle image et en approximant f sur les images rciproques de ces intervalles. Il
sagit dans ce cas dune approximation horizontale de la fonction intgrer.

(c) Les fonctions Riemann intgrables sont Lebesgue intgrables. Montrons ceci dans [0, 1].
Soit f une fonction Riemann integrable borne sur = [0, 1] dintgrale (au sens de Rie-
R1 R1
mann) 0 f ( x )dx. Alors f est Lebesgue intgrable dintgrale ( f ) = 0 f ( x )dx. Si f est
une fonction en escalier, ce rsultat est trivial. Pour une fonction Rieman intgrable f ar-
bitraire, on peut trouver deux suites de fonctions en escalier ( gn )n et (hn )n respectivement
croissante et dcroissante telles que gn f hn et
Z 1 Z 1
inf ( gn hn )( x )dx = lim ( gn hn )( x )dx = 0.
n 0 n 0

Sans perte de gnralit, on peut supposer hn 2k f k . Les fonctions f := supn gn et


f := infn hn sont boreliennes, et on a f f f . Daprs la monotonie de lintgrale :

0 ( f f ) = (inf(hn gn )) inf (hn gn ) = 0,


n

et par suite f = f = f . Enfin :


Z 1 Z 1
( f ) = lim ( gn ) = lim gn ( x )dx = f ( x )dx
0 0

La rciproque nest pas vraie. Par exemple, la fonction f = 1Q[0,1] est Lebesgue-intgrable,
mais nest pas Riemann-intgrable.

(d) Le thorme de convergence domine na pas son quivalent dans le cadre de lintgrale de
Riemann, et permet dobtenir un espace de fonctions intgrables complet (on verra ce
A.3. TRANSFORMES DE MESURES 179

rsultat plus tard). Par contre, on peut construire des exemples de suites de Cauchy de
fonctions Riemann intgrables dont la limite nest pas Riemann intgrable.

(e) Pour les fonctions dfinies par des intgrales, les rsultats de continuit et de drivabilit
sont simplement obtenus grce au thorme de convergence domine. Leur analogue dans
le cadre des intgrales de Riemann conduit des rsultats assez restrictifs.

(f) Lintgrale de Lebesgue se dfinit naturellement dans Rn , comme on le verra dans la sec-
tion A.5. En particulier, le thorme de Fubini est dune grande simplicit dans le cadre
de lintgrale de Lebesgue. La situation est un peu plus complique pour lintgrale de
Riemann.

A.3 Transformes de mesures


A.3.1 Mesure image
Soit (1 , A1 , 1 ) un espace mesur, (2 , A2 ) un espace mesurable et f : 1 2
une fonction mesurable, i.e. f 1 : A2 A1 . On vrifie immdiatement que lapplica-
tion :
 
2 ( A 2 ) : = 1 f 1 ( A 2 ) pour tout A2 2 ,

dfinit une mesure sur (2 , A2 ).


Dfinition A.30. 2 est appele mesure image de 1 par f , et est note 1 f 1 .
Thorme A.31. (transfert) Soient 2 := 1 f 1 , la mesure image de 1 par f , et h L0 (A2 ).
Alors h L1 (A2 , 2 ) si et seulement si h f L1 (A1 , 1 ). Dans ces conditions, on a
Z Z
1
hd(1 f ) = (h f )d1 . (A.6)
2 1

Dmonstration. On commence par vrifier la formule de transfert (A.6) pour les fonctions
positives. La formule est vraie pour les fonctions 1 A2 , A2 A2 , puis, par linarit, pour
les fonctions simples positives, et on conclut par le biais du thorme de convergence
monotone. Pour h de signe arbitraire intgrable, on applique le rsultat prcdent h+
et h . Enfin, la formule de transfert montre que h L1 (A2 , 2 ) ssi h+ f et h f
L1 (A1 , 1 ), et lquivalence dcoule du fait que h+ f = (h f )+ et h f = (h f ) .

A.3.2 Mesures dfinies par des densits


Soit (, A, ) un espace mesur, et soit f L0+ (A) une fonction mesurable positive
finie. On dfinit
Z
( A) := ( f 1 A ) = f d pour tout A A.
A

Exercice A.32. Vrifier que est une mesure sur (, A).


180 ANNEXE A. THORIE DE LA MESURE

Dfinition A.33. (i) La mesure est appele mesure de densit f par rapport , et on note
= f .
(ii) Soient 1 , 2 deux mesures sur un espace mesurable (, A). On dit que 2 est absoluement continue
par rapport 1 , et on note 2 1 , si pour tout A A :

2 ( A) = 0 = 1 ( A) = 0.

Sinon, on dit que 2 est trangre 1 .


(iii) Si 2 1 et 1 2 , on dit que 1 et 2 sont quivalentes, et on note 1 2 . Si
2 6 1 et 1 6 2 , on dit que 1 et 2 sont singulires.
Ainsi, la mesure f est absoluement continue par rapport .
Thorme A.34. (i) Pour g : [0, ] Amesurable positive, on a ( f )( g) = ( f g).
(ii) Pour g L0+ (A), on a g L1 (A, f ) ssi f g L1 (A, ), et alors ( f )( g) = ( f g).
Exercice A.35. Prouver le thorme A.34 (considrer dabord les fonctions simple, puis passer
aux fonctions positives par convergence monotone, enfin les fonctions intgrable en dcomposant
f = f + f ).

A.4 Ingalits remarquables


Dans ce paragraphe, nous nonons trois ingalits qui sont trs utiles. Afin dha-
bituer le lecteur la manipulation des mesures et de lintgration, nous formulons les
rsultats sous forme dexercices.
Exercice A.36. (Ingalit de Markov) Soit f une fonction Amesurable, et g : R R+ une
fonction borelienne croissante positive.
1. Justifier que g f est une fonction mesurable, et montrer lingalit de Markov :

( g f ) g(c)({ f c}) pour tout c R. (A.7)

2. Montrer que

c({ f c}) ( f ) pour tout f L0+ (A) et c > 0,


c({| f | c}) (| f |) pour tout f L1 (A, ) et c > 0.

3. Montrer lingalit de Chebyshev :

c2 ({| f | c}) ( f 2 ) pour tout f tel que f 2 L1 (A, ) et c > 0.

4. Montrer que

({ f c}) inf ec (e f ) pour tout f L0 (A), et c R.


>0

Exercice A.37. (Ingalit de Schwarz) Soient (, A, ) un espace mesur, et f , g : A R+


deux fonctions mesurables positives telle que ( f 2 ) + ( g2 ) < .
1. Montrer que ( f g) < .
A.5. ESPACES PRODUITS 181

2. Montrer que ( f g)2 ( f 2 )( g2 ) (Indication : considrer la fonction x f + g, x R).


3. Montrer que lingalit de Schwarz dans la question 2 est valable sans la condition de posi-
tivit de f et g.
Exercice A.38. (Ingalit de Hlder, ingalit de Minkowski) On admet linglit de Jensen, va-
lable pour une mesure positive sur (R, BR ) telle que (R) = 1 :

(c( f )) c(( f )) pour f , c( f ) L1 (BR , ) et c(.) convexe,

qui sera dmontre dans le chapitre B, thorme B.6.


Soient (, A, ) un espace mesur et f , g : R deux fonctions mesurables avec
1 1
(| f p |) < et (| g|q ) < o p > 1, + = 1. (A.8)
p q

1. On suppose f , g 0 et ( f p ) > 0. Montrer lingalit de Hlder :

(| f g|) (| f | p )1/p (| g|q )1/q .


fp
(Indication : introduire la mesure := ( f p )
.)
2. Montrer que lingalit de Hlder de la question 1 est valable sous les conditions (A.8) sans
les conditions supplmentaires de la question prcdente.
3. En dduire lingalit de Minkowski :

(| f + g| p )1/p (| f | p )1/p + (| g| p )1/p .

(Indication : dcomposer | f + g| p = ( f + g)| f + g| p1 .)

A.5 Espaces produits


A.5.1 Construction et intgration
Dans ce paragraphe, nous faisons la construction de la mesure produit sur le produit
de deux espaces mesurs.
Soient (1 , A1 , 1 ), (2 , A2 , 2 ) deux espaces mesurs. Sur lespace produit 1 2 ,
on vrifie immdiatement que A1 A2 est un systme. On dfinit alors la algbre
quil engendre

A1 A2 := (A1 A2 ) .

Sur cette structure despace mesurable (1 2 , A1 A2 ), on veut dfinir une mesure


telle que

( A1 A2 ) = 1 ( A1 )2 ( A2 ) pour tous ( A1 , A2 ) A1 A2 , (A.9)

puis dfinir lintgrale dune fonction f : 1 2 R intgrable :


Z
f d.
1 2
182 ANNEXE A. THORIE DE LA MESURE

Une question importante est de relier cette quantit aux intgrales doubles
Z Z  Z Z 
f d1 d2 et f d2 d1 ,
2 1 1 2

qui pose tout dabord les questions de


(1a) la 1 intgrabilit de la fonction f 22 : 1 7 f (1 , 2 ),
(2a) la 2 intgrabilit de la fonction f 11 : 2 7 f (1 , 2 ),
puis, une fois ces questions rgles,
f R
(1b) la 1 intgrabilit de la fonction I1 : 1 7 f (1 , 2 )d2 (2 ),
f R
(2b) la 2 intgrabilit de la fonction I2 : 2 7 f (1 , 2 )d1 (1 ).
Ces deux problmes sont rsolus aisment grce au thorme des classes monotones :

Lemme A.39. (a) Soit f L (A1 A2 ). Alors, pour tous 1 1 , 2 2 :

f 11 L (A2 ) et f 22 L (A1 ).

f
(b) Supposons de plus que 1 et 2 soient finies. Alors Ii L1 (Ai , i ) pour i = 1, 2 et
Z Z
f f
I1 d1 = I2 d2 .
1 2

Dmonstration. (a) Soit H := { f L (1 2 , A1 A2 ) : f 11 L0 (2 , A2 ) et f 22


L0 (1 , A1 )}. Les condition H1 et H2, du thorme A.18 des classes monotones, sont tri-
vialement satisfaites par H. De plus, rappelons que A1 A2 est un systme engen-
drant A1 A2 , par dfinition. Il est claire que H {1 A : A A1 A2 }. Le thorme
des classes monotones permet de conclure que H = L (1 2 , A1 A2 ).
Pour une fonction f (1 , 2 ) non borne, largument prcdent montre que f n :=
(n) f n H, et par passage la limite, on obtient f 11 L0 (2 , A2 ) et f 22
L0 ( 1 , A1 ).
(b) Il suffit de refaire le mme type dargument que pour (a).

Grce au dernier rsultat, nous pouvons maintenant dfinir un candidat pour la me-
sure sur lespace produit 1 2 par :
Z Z  Z Z 
( A) := 1 A d1 d2 = 1 A d2 d1 pour tout A A1 A2 .

Thorme A.40. (Fubini) Lapplication est une mesure sur (1 2 , A1 A2 ), appele


mesure produit de 1 et 2 , et note 1 2 . Cest lunique mesure sur 1 2 vrifiant (A.9).
De plus, pour tout f L0+ (A1 A2 ),
Z Z Z  Z Z 
f d1 2 = f d1 d2 = f d2 d1 [0, ]. (A.10)

Enfin, si f L1 (A1 A2 , 1 2 ), les galits (A.10) sont valides.


A.5. E SPACES PRODUITS 183

Dmonstration. On vrifie que 1 2 est une mesure grce aux proprits lmentaires
de lintgrale de Lebesgue. Lunicit est une consquence immdiate de la proposition
A.5. Les galits (A.10) ont dj t tablies dans le lemme A.39 (b) pour f borne et des
mesures finies. Pour gnraliser des fonctions f mesurables positives, on introduit des
approximations croissantes, et on utilise le thorme de convergence monotone. Enfin,
pour des fonctions f L1 (A1 A2 , 1 2 ), on applique le rsultat prcdent f + et
f .
Remarque A.41. (i) La construction de ce paragraphe, ainsi que les rsultats dintgra-
tion ci-dessous, stendent sans difficult pour la construction du produit de n espaces
mesurs au prix de notations plus encombrantes.
(ii) Soit maintenant (i , Ai )i1 une famille dnombrable despaces mesurs, et :=
i1 i . Pour tout sous-ensemble fini I N, et pour tous Ai Ai , i I, on dfinit le
cylindre

C( Ai , i I ) := { : i Ai pour i I } .

La algbre produit est alors dfinie par

A := n1 Ai := (C( Ai , i I ) : I N, card( I ) < } .

A.5.2 Mesure image et changement de variable


Soit O = Rn , ou un sous-ensemble dun espace de dimension n. Les outils dvelopps
dans les paragraphes prcdents permettent de dfinir la mesure de Lebesgue sur Rn
partir de notre construction de la mesure de Lebesgue sur R.
Dans ce paragraphe, on considre une fonction

g : 1 2 o 1 , 2 ouverts de Rn .

On note g = ( g1 , . . . , gn ). Si g est diffrentiable en un point x 1 , on note par


 
gi
Dg( x ) := et det[ Dg( x )]
x j 1i,jn

la matrice jacobienne de f en x et son dterminant. Rappelons enfin que g est un C1 diffomorphisme


si g est une bijection telle que g et g1 sont de classe C1 , et que dans ce cas
1
det[ Dg1 (y)] = .
det[ Dg g1 (y)]

Thorme A.42. Soit 1 une mesure sur (1 , B1 ) de densit par rapport la mesure de Le-
besgue f 1 L0+ (B1 ), i.e. 1 (dx ) = 11 f 1 ( x ) dx. Si g est un C1 diffomorphisme, la mesure
image 2 := g1 est absoluement continue par rapport la mesure de Lebesgue de densit
  Z Z
f 2 (y) = 12 (y) f g1 |det[ Dg1 (y)]| et h g( x ) f 1 ( x )dx = h(y) f 2 (y)dy
1 2

pour toute fonction h : 2 R positive ou 2 intgrable.


Pour la dmonstration, on renvoit au cours de premire anne.
184 ANNEXE A. THORIE DE LA MESURE

A.6 Complments au chapitre A


A.6.1 systme, dsystme et unicit des mesures
Le but de ce paragraphe est de dmontrer la proposition A.5 dont nous rappelons
lnonc.

Proposition A.5 Soient I un systme, et , deux mesures finies sur lespace mesurable
(, (I)). Si = sur I alors = sur (I).

Commenons par introduire une notion supplmentaire de classes densembles.


Dfinition A.43. Une classe D P () est appele dsystme si D , B \ A D pour
tous A, B D avec A B, et n An D pour toute suite croissante ( An )n .
Lemme A.44. Une classe C P () est une algbre si et seulement si C est un systme
et un dsystme.
La preuve facile de ce rsultat est laisse en exercice. Pour toute classe C , on dfinit
lensemble

d(C) := {D C : D est un d systme} ,

qui est le plus petit dsystme contenant C . Linclusion d(C) (C) est vidente.
Lemme A.45. Pour un systme I , on a d(I) = (I).

Dmonstration. Daprs le lemme A.44, il suffit de montrer que d(I) est un systme,
i.e. que d(I) est stable par intersection finie. On dfinit lensemble D 0 := { A d(I) :
A B d(I) pour tout B d(I)}, et on va montrer que D 0 = d(I) ce qui termine la
dmonstration.
1- On commence par montrer que lensemble D0 := { B d(I) : B C d(I) pour tout C
Ic} est un dsystme. En effet :
- D;
- soient A, B D0 tels que A B, et C I ; comme A, B D0 , on a ( A C )
et ( B C ) d(I), et du fait que d(I) est un dsystme, on voit que ( B \ A) C =
( B C ) \ ( A C ) d(I) ;
- enfin, si D0 3 An A et C I , on a An C d(I) et donc lim ( An C ) =
A C d(I) du fait que d(I) est un dsystme ;
2- par dfinition D0 d(I), et comme on vient de montrer que cest un dsystme conte-
nant I , on voit quon a en fait D0 = d(I) ; on vrifie maintenant que ceci implique que
I D0 ;
3- enfin, en procdant comme dans les tapes prcdentes, on voit que D 0 est un dsystme.

Preuve de la proposition A.5 On vrifie aisment que lensemble D := { A (I) :


( A) = ( A)} est un dsystme (cest ce niveau quon utilise que les mesures sont
finies afin dviter des formes indtermines du type ). Or, par hypothse, D
contient le systme I . On dduit alors du lemme A.45 que D contient (I) et par
suite D = (I).
A.6. A NNEXES 185

A.6.2 Mesure extrieure et extension des mesures


Le but de ce paragraphe est de dmonrer du thorme de Carathodory A.6 dont
nous rappeleons lnonc.

Thorme A.6 Soient A0 une algbre sur , et 0 : A0 R+ une fonction additive.


Alors il existe une mesure sur A := (A0 ) telle que = 0 sur A0 . Si de plus 0 () < ,
alors une telle extension est unique.

Pour prparer la dmonstration, nous considrons une algbre A0 P (), et une


application : A0 [0, ] vrifiant () = 0.
Dfinition A.46. On dit que est une mesure extrieure sur (, A0 ) si
(i) () = 0,
(ii) est croissante : pour A1 , A2 A0 , ( A1 ) ( A2 ) ds que A1 A2 ,
(iii) est sous-additive : pour ( An )n A0 , on a (n An ) n ( An ).
Dfinition A.47. On dit quun lment A A0 est un ensemble si

( A B) + ( Ac B) = ( B) pour tout B A0 ,

(en particulier, () = 0). On note par A0 lensemble de tous les ensembles de A0 .


Le rsultat suivant utilise uniquement le fait que A0 est une algbre.
Lemme A.48. Lensemble A0 est une algbre, et la restriction de A0 est additive et vrifie
pour tout B A0 :
n
(in=1 ( Ai B)) = ( Ai B ) ds que A1 , . . . , An A0 sont disjoints.
i =1

Ce lemme, dont la dmonstration (facile) est reporte pour la fin du paragraphe, per-
met de montrer le rsultat suivant :
Lemme A.49. (Carathodory) Soit une mesure extrieure sur (, A0 ). Alors A0 est une
algbre, et la restriction de A0 est additive, et par suite est une mesure sur (, A0 ).

Dmonstration. En vue du lemme A.48, il reste montrer que pour une suite densembles
disjoints ( An )n A0 , on a

n An A00 () et (n An ) = ( An ). (A.11)
n

Notons An := in Ai , A := n An , et remarquons que Ac Acn . Daprs le lemme A.48,


An A0 et pour tout B A0 :

( B) = ( Acn B) + ( An B) ( Ac B) + ( An B) = ( Ac B) + ( Ai B).
i n

On continue en faisant tendre n vers linfini, et en utilisant (deux fois) la sous-additivit


de :
( B) ( Ac B) + ( Ai B) ( Ac B + ( A B) ( B).
n
186 ANNEXE A. THORIE DE LA MESURE

On dduit que toutes les ingalits sont des galits, prouvant que A A0 , et pour
B = A on obtient la proprit de sous-additivit de , finissant la preuve de (A.11).

Nous avons maintenant tous les ingrdients pour montrer le thorme dextension de
Carathodory.

Preuve du thorme A.6 On considre la algbre A0 := P (), et on dfinit lappli-


cation sur :
( )
( A) := inf 0 ( Bn ) : ( Bn )n A0 , Bn disjoints et A n Bn .
n

Etape 1 Montrons que est une mesure extrieure sur (, P ), ce qui implique par le
lemme A.49 que

est une mesure sur (, A0 ). (A.12)

Il est clair que () = 0, et que est croissante, il reste donc vrifier que est sous-
additive. Soit une suite ( An )n P telle que ( An ) < pour tout n, et soit A := n An .
Pour tout > 0 et n 1, on considre une suite optimale ( Bin, )i A0 du problme de
minimisation ( An ), i.e. Bin, Bn,
j = ,

An k Bkn, et ( An ) > 0 ( Bkn, ) 2n .


k

Alors, ( A) n,k 0 ( Bkn, ) < + n ( An ) n ( An ) quand 0.


Etape 2 Rappelons que (A0 ) A0 . Alors, pour finir la dmonstration de lexistence
dune extension, il nous reste montrer que

A0 A0 et = 0 sur A0 , (A.13)

pour ainsi dfinir comme la restriction de (A0 ).


1- Commenons par montrer que = 0 sur A0 . Lingalit 0 sur A0 est triviale.
Pour lingalit inverse, on considre A A0 et une suite ( Bn )n A0 dlments dis-
joints telle A n Bn . Alors, en utilisant la additivit de 0 sur A0 :

0 ( A) = 0 (n ( A Bn )) = 0 ( A Bn ) 0 ( Bn ) = ( A).
n n

2- Montrons maintenant que A0 A0 . Soient A A0 , > 0 et ( Bn )n A0 une suite


optimale pour le problme de minimsation ( A). Alors, pour tout A0 A0 , on a

( A) + 0 ( Bn ) = 0 ( A0 Bn ) + 0 ( A0c Bn )
n n n
(( A0 A) + (( A0c A)
( A ),

o les deux dernires ingalits dcoulent respectivement de la monotonie et la sous-


linarit de . Comme > 0 est arbitraire, ceci montre que A0 est un ensemble, i.e.
A0 A0 .
A.6. A NNEXES 187

Preuve du lemme A.48 1- Commenons par montrer que A0 est une algbre. Il est clair
que A0 et que A0 est stable par passage au complmentaire. Il reste montrer que
A = A1 A2 A0 () pour tous A1 , A2 A0 (). En utilisant successivement le fait que
A2 A0 et que A2 Ac = A1c A2 , A2c Ac = A2c , on calcule directement :

( Ac B) = ( A2 Ac B) + ( A2c Ac B) = ( A1c A2 B) + ( A2c B).

On continue en utilisant le fait que A1 , A2 A0 :

( Ac B) = ( A2 B) ( A B) + ( A2c B) = ( B) ( A B).

2- Pour des ensembles disjoints A1 , A2 A0 , on a ( A1 A2 ) A1 = A1 et ( A1 A2 )


A1c = A2 , et on utilise le fait que A1 A0 pour voir que (( A1 A2 ) B) = ( A1 B) +
( A2 B), ce qui est lgalit annonce pour n = 2. Lextension pour un n plus grand est
triviale, et la addditivit de en est une consquence immdiate.

A.6.3 Dmonstration du thorme des classes monotones


Rappelons lnonc.

Thorme A.18 Soit H une classes de fonctions relles bornes sur vrifiant les conditions
suivantes :
(H1) H est un espace vectoriel contenant la fonction constante 1,
(H2) pour toute suite croissante ( f n )n H de fonctions positives telle que f := lim f n est
borne, on a f H.
Soit I un systme tel que {1 A : A I} H. Alors L ((I)) H.

Dmonstration. Daprs les conditions H1 et H2, on voit immdiatement que lensemble


D := { F : 1F H} est un dsystme. De plus, comme D contient le systme
I , on dduit que (I) D . Soit maintenant f L ((I)) borne par M > 0, et
M2n
n ( ) := i2n 1 Ain ( ), o Ain := { : i2n f + ( ) < (i + 1)2n }.
i =0

Comme Ain (I), on dduit de la structure despace vectoriel (condition H1) de H


que n H. De plus (n )n tant une suite croissante de fonctions positives convergeant
vers la fonction borne f + , la condition H2 assure que f + H. On montre de mme que
f H et, par suite, f = f + f H daprs H1.
188 ANNEXE A. THORIE DE LA MESURE
Annexe B

Prliminaires de la thorie des


probabilits

Dans ce chapitre, on spcialise lanalyse aux cas dune mesure de probabilit, i.e. une
mesure P : A R+ telle que P[] = 1. On dit alors que (, A, P) est un espace probabilis.
Bien videmment, tous les rsultats du chapitre prcdent sont valables dans le cas
prsent. En plus de ces rsultats, nous allons exploiter lintuition probabiliste pour intro-
duire de nouveaux concepts et obtenir de nouveaux rsultats.
Ainsi, lensemble sinterprte comme lensemble de tous les vnements lmen-
taires, et tout point est un vnement lmentaire. La algbre A est lensemble
de tous les vnements ralisables.
On remplacera systmatiquement la terminologie Pp.p. par Ppresque surement,
note Pp.s. ou plus simplement p.s. sil ny a pas de risque de confusion.
Les fonctions Pmesurables sont appeles variables alatoires (on crira v.a.), et sont
le plus souvent notes avec des lettres majuscules, typiquement X. La loi image PX 1
est appele distribution de la v.a. X, et sera note PX sil ny a pas besoin de rappeler la
probabilit P.

B.1 Variables alatoires


B.1.1 algbre engendre par une v.a.
Nous commenons par donner un sens prcis linformation rvle par une famille
de variables alatoires.

Dfinition B.1. Soient T un ensemble, et { X , T} une famille quelconque de v.a. La


algbre engendre par cette famille X := ( X : T) est la plus petite algbre sur
telle que X est X mesurable pour tout T, i.e.
 
( X : T) = { X1 ( A) : T et A BR } . (B.1)

Il est clair que si les X sont Amesurables, alors ( X : T) A.

189
190 ANNEXE B. THORIE DES PROBABILITS

Lemme B.2. Soient X et Y deux v.a. sur (, A, P) prenant leurs valeurs respectivement dans
R et dans Rn . Alors X est (Y )mesurable si et seulement si il existe une fonction borlienne
f : Rn R telle que X = f (Y ).

Dmonstration. Seule la condition ncessaire est non triviale. Par ailleurs quitte trans-
former X par une fonction bijective borne, on peut se limiter au cas o X est borne. On
dfinit

H := X L ((Y )) : f L (Rn , BRn ), X = f (Y ) ,




et on remarque que {1 A : A (Y )} H daprs (B.1), pour tout A (Y ), il existe


B A tel que A = Y 1 ( B), et par suite 1 A = 1 B (Y ).
Pour conclure, il nous suffit de montrer que H vrifie les conditions du thorme des
classes monotones. Il est clair que H est un espace vectoriel contenant la v.a. constante
1. Soient X L + (A, P) et ( f k (Y ))k une suite croissante de H telle que f k (Y ) X. Alors
X = f (Y ), o f = lim supk f k est BRn mesurable borne (puisque X lest).

B.1.2 Distribution dune variable alatoire


La distribution, ou la loi, dune v.a. X sur (, A, P) est dfinie par la mesure image
PX := PX 1 . En utilisant le systme (R) = {] , c]) : c R}, on dduit de la
proposition A.5 que la loi PX est caractrise par la fonction

FX (c) := PX (] , c]) = P[ X c], c R. (B.2)

La fonction FX est appele fonction de rpartition.


Proposition B.3. (i) La fonction FX est croissante continue droite, et FX () = 0, FX () =
1,
(ii) Soit F une fonction croissante continue droite, et F () = 0, F () = 1. Alors il existe
une variable alatoire X sur un espace de probabilit (, A, P) telle que F = FX .

Dmonstration. (i) est triviale. Pour (ii), une premire approche consiste construire une
loi L en suivant le schmas de construction de la mesure de Lebesgue dans lexemple
A.7 qui utilise le thorme dextension de Carathodory ; on prend alors (, A, P) =
(R, BR , L) et X ( ) = . La remarque suivante donne une approche alternative.

Remarque B.4. Etant donne une fonction de rpartition, ou une loi, voici une construc-
tion explicite dune v.a. lui correspondant. Cette construction est utile, par exemple, pour
la simulation de v.a. Sur lespace de probabilit (, A, P) := ([0, 1], B[0,1] , ), tant la
mesure de Lebesgue, on dfinit

X ( ) := inf{u : F (u) > } et X ( ) := inf{u : F (u) }

1- FX = F : nous allons montrer que

F (c) X ( ) c, (B.3)

et par suite P[ X c] = F (c).


B.2. ESPRANCE DE VARIABLES ALATOIRES 191

Limplication = dcoule de la dfinition. Pour limplication inverse, on observe que


F ( X ( )) . En effet, si ce ntait pas le cas, on dduirait de la continuit droite de F
que F ( X ( ) + ) < pour > 0 assez petit, impliquant labsurdit X ( ) + X ( ) !
Avec cette observation et la croissance de F, on voit que X ( ) c implique
F ( X ( )) F (c) implique F (c).
2- FX = F : par dfinition de X, on a < F (c) implique X ( ) c. Mais X ( ) c
implique X ( ) c puisque X X. On en dduit que F (c) P[ X c] P[ X c] =
F ( c ).

B.2 Esprance de variables alatoires


Pour une v.a. X L1 (, A, P), lesprance dans le vocabulaire probabiliste est lint-
grale de X par rapport P :
Z
E[ X ] : = P( X ) = XdP.

Pour une v.a. positive, E[ X ] [0, ] est toujours bien dfinie. Bien sr, toutes les propri-
ts du chapitre A sont valides. Nous allons en obtenir dautres comme consquence de
P[] = 1.

B.2.1 Variables alatoires densit


Revenons prsente la loi PX sur (R, BR ) dune v.a. X sur (, A, P). Par dfinition,
on a :

PX ( B) = P[ X B] pour tout B BR .

Par linarit de lintgrale (par rapport PX ), on obtient E[ g( X )] = PX ( g) = R gdPX


R
pour toute fonction simple g S + . On tend alors cette relation aux fonction g mesu-
rables positives, par le thorme de convergence monotone, puis L1 en dcomposant
g = g+ g . Ceci montre que g( X ) L1 (, A, P) ssi g L1 (R, BR , PX ) et
Z
E[ g( X )] = PX ( g) = gdPX . (B.4)
R

Dfinition B.5. On dit que X a une densit de probabilit f X si PX est absolument continue par
rapport la mesure de Lebesgue sur R et :
Z
P[ X B ] = f X ( x )dx pour tout B BR .
B

Le lien entre la densit de probabilit, si elle existe, et la fonction de rpartition (qui


existe toujours) est facilement tabli en considrant B =] , c] :
Z
FX (c) = f X ( x )dx pour tout c R.
],c]
192 ANNEXE B. THORIE DES PROBABILITS

qui exprime que f X est la drive de FX aux points de continuit de f . Enfin, pour une
v.a. X densit f X , on peut reformuler (B.4) sous la forme :
Z
g( X ) L (, A, P) ssi
1
| g( x )| f X ( x )dx <
R

et on peut r-crire lesprance sous la forme


Z
E[ g( X )] = g( x ) f X ( x )dx.
R

B.2.2 Ingalit de Jensen


Une fonction convexe g : Rn R est au dessus de son hyperplan tangeant en tout
point de lintrieur du domaine. Si on admet ce rsultat, alors, on peut crire pour une
v.a. intgrable X que

g( X ) g(E[ X ]) + h pE[X ] , X E[ X ]i,

o pE[X ] est le gradient de g au point E[ X ], si g est drivable en ce point. si g nest pas


drivable ce rsultat est encore valable en remplaant le gradient par la notion de sous-
gradient... Dans la dmonstration qui va suivre, nous allons viter de passer par cette
notion danalyse convexe, et utiliser un argument dapproximation. En prenant lesp-
rance dans la dernire ingalit, on obtient lingalit de Jensen :
Thorme B.6. Soient X L1 (A, P) et g : Rd R {} une fonction convexe telle que
E[| g( X )|] < . Alors E[ g( X )] g (E[ X ]).

Dmonstration. Si g est drivable sur lintrieur du domaine, le rsultat dcoule de la dis-


cussion qui prcde lnonc. Dans le cas gnral, on commence par montrer le rsultat
pour une fonction g borne, puis on tend aux fonctions g vrifiant les hypothses du
thorme. R
1- Supposons dabord g borne. Soit un noyau de convolution ( 0 et = 1) de
classe C1 support compact, et n ( x ) := nd (nx ). Alors la fonction gn := g n est bor-
ne, de classe C1 , et converge vers g. De plus, du fait que 0, on voit que gn hrite la
convexit de g . Alors, lingalit de Jensen est alors vrifie pour gn :

E[ gn ( X )] gn (E[ X ]) ,

et on la dduit pour g par passage la limite en utilsant le thorme de convergence


domine.
2- Si g nest pas borne, on note pour tout n 1 :

Dn := { x Rd : | g( x )| n} et Xn := X1 Dn ( X ) + n1 Dnc ( X ).

Daprs ltape prcdente, on a :

E[ g( Xn )] g (E[ Xn ]) .

Remarquons maintenant que | Xn | | X | + | g( X )| L1 (A, P) et | g( Xn )| | g( X )|


L1 (A, P). On obtient alors le rsultat souhait par passage la limite en utilisant le tho-
rme de convergence domine.
B.2. E SPRANCE 193

B.2.3 Fonction caractristique


Dans tout ce paragraphe X dsigne un vecteur alatoire sur lespace probabilis (, A, P),
valeurs dans Rd .
Dfinition B.7. On appelle fonction caractristique de X la fonction X : Rn C dfinie par
h i
X (u) := E eihu,X i pour tout u Rd .

La fonction caractristique dpend uniquement de la loi de X :


Z
X (u) = eihu,xi dPX ( x ),
Rn

et nest rien dautre que la transforme de Fourier de PX au point u/2. Lintgrale de


Lebesgue dune fonction valeurs complexes est dfinie de manire naturelle en sparant
partie relle et partie imaginaire. La fonction caractristique est bien dfinie pour tout
u Rd comme intgrale dune fonction de module 1. Enfin, pour deux v.a. X et Y, on a

X (u) = X (u) et aX +b (u) = eib X ( au) pour tous u Rd , a, b R.

Les proprits suivantes des fonctions caractristiques peuvent tre dmontres facile-
ment grce au thorme de convergence domine.
Lemme B.8. Soit X la fonction caractristique dune v.a. X. Alors X (0) = 1, et X est
continue borne (par 1) sur Rd .

Dmonstration. X (0) = 1 et | X | 1 sont des proprits videntes, la continuit est une


consquence immdiate du thorme de convergence domine.
Exercice B.9. 1. Pour un vecteur gaussien X de moyenne b et de matrice de variance V,
montrer que
1
X (u) = ehu,bi 2 hu,Vui .

(Il sagit dune formule utile retenir.)


2. Si PX est symtrique par rapport lorigine, i.e. PX = PX , montrer que X est valeurs
relles.
3. Pour une v.a. relle, supposons que E[| X | p ] < pour un certain entier p 1. Montrer
que X est p fois drivable et
(k)
X (0) = ik E[ X k ] pour k = 1, . . . , p.

Le but de ce paragraphe est de montrer que la fonction caractristique permet, comme


son nom lindique, de caractriser la loi PX de X. Ceci donne un moyen alternatif dabor-
der les vecteurs alatoires pour lesquels la fonction de rpartition est difficile manipuler.
Cependant, lintrt de cette notion ne se limite pas la dimension d > 1. Par exemple,
la manipulation de sommes de v.a. est souvent plus simple par le biais des fonctions
caractristiques.
Dans ces notes, nous nous limitons montrer ce rsultat dans le cas unidimensionnel.
194 ANNEXE B. THORIE DES PROBABILITS

Thorme B.10. Pour une v.a. relle, la fonction X caractrise la loi PX . Plus prcisment
eiua eiub
Z T
1 X 1 1
P ({ a}) + PX ({b}) + PX (] a, b[) = lim X (u) du
2 2 2 T T iu
pour tous a < b. De plus, si X est intgrable, PX est absolument continue par rapport la
mesure de Lebesgue, de densit
1
Z
f X (x) = eiux X (u)du, x R.
2 R

Dmonstration. Pour a < b, on vrifie sans peine que la condition dapplication du tho-
rme de Fubini est satisfaite, et on calcule que :
Z T iua
eiub
Z T iua
eiub
Z 
1 e 1 e
X (u)du = iuv X
e dP (v)dv du
2 T iu 2 T iu R
Z T iu(v a)
!
1 e eiu(vb)
Z
= du dPX (v).
2 R T iu

Puis, on calcule directement que


Z T iu(v a)
1 e eiu(vb) S((v a) T ) S((v b) T )
du = , (B.5)
2 T iu T
R |x|
o S( x ) := sgn( x ) 0 sint t dt, t > 0, et sgn( x ) = 1{ x>0} 1{ x<0} . On peut vrifier que
limx S( x ) = 2 , que lexpression (B.5) est uniformment borne en v et T, et quelle
converge vers
1
0 si x 6 [ a, b], 2 si x { a, b}, et 1 si x 6] a, b[.
On obtient alors le rsultat annonc par le thorme de convergence domine.
Supposons de plus que R |X (u)|du < . Alors, en prenant la limite T dans
R
lexpression du thorme, et en supposant dans un premier temps que PX est absolue-
ment continue par rapport la mesure de Lebesgue, on obtient :
1 eiua eiub
Z
P (] a, b] = FX (b) FX ( a) =
X
du
2 R iu
par le thorme de convergence domine. On ralise alors que le membre de droite est
continu en a et b et, par suite, PX na pas datomes et lexpression ci-dessus est vraie.
Pour trouver lexpression de la densit f X , il suffit de prendre la limite b a aprs
normalisation par b a, et dutiliser le thorme de convergence domine.

B.3 Espaces L p et convergences


fonctionnelles des variables alatoires
B.3.1 Gomtrie de lespace L2
On dsigne par L2 = L2 (A, P) lespace vectoriel des variables alatoires rlles de
carr Pintgrable. Une application simple de lingalit de Jensen montre montre que
L2 L1 = L1 (A, P).
B.3. E SPACES L p 195

Lapplication ( X, Y ) 7 E[ XY ] dfinit un produit scalaire sur L2 si on identifie les


v.a.gales p.s. On note la norme correspondante par k X k2 := E[ X 2 ]1/2 . En particulier,
ceci garantit lingalit de Schwarz (valable pour les mesures, voir exercice A.37) :

|E[ XY ]| E[| XY |] k X k2 kY k2 pour tous X, Y L2 ,

ainsi que lingalit triangulaire

k X + Y k2 k X k2 + kY k2 pour tous X, Y L2 .

En probabilit, lesprance quantifie la moyenne de la v.a. Il est aussi important, au moins


intuitivement, davoir une mesure de la dispersion de la loi. ceci est quantifi par les
notions de variance et de covariance :

V[ X ] := E[( X EX )2 ] = E[ X 2 ] E[ X ]2

et

Cov[ X, Y ] := E[( X EX )(Y EY )] = E[ XY ] E[ X ]E[Y ].

Si X est valeurs dans Rd , ces notions sont tendues de manire naturelle. Dans ce cadre
V[ X ] est une matrice symtrique positive de taille d.
Enfin, la corrlation entre les v.a. X et Y est dfinie par

Cov[ X, Y ] h X, Y i2
Cor [ X, Y ] := = ,
k X k 2 kY k 2 k X k 2 kY k 2

i.e. le cosinus de langle form par les vecteurs X et Y. Lingalit de Schwarz garantit
que la corrlation est un rel dans lintervalle [1, 1]. Le thorme de Pythagore scrit

E[( X + Y )2 ] = E[ X 2 ] + E[Y 2 ] ds que E[ XY ] = 0,

ou, en termes de variances,

V[ X + Y ] = V[ X ] + V[Y ] ds que Cov[ X, Y ] = 0.

Attention,la variance nest pas un oprateur linaire, la formule ci-dessus est uniquement
valable si Cov[ X, Y ] = 0. Enfin, la loi du paralllogramme scrit

k X + Y k22 + k X Y k22 = 2k X k22 + 2kY k22 pour tous X, Y L2 .

B.3.2 Espaces L p et L p
Pour p [1, [, on note par L p := L p (A, P) lespace vectoriel des variables alatoires
X telles que E[| X | p ] < . On note k X k p := (E[| X | p ])1/p . Remarquons que k X k p = 0
implique seulement que X = 0 p.s. donc k.k p ne dfinit pas une norme sur L p .
Dfinition B.11. Lespace L p est lensemble des classes dquivalence de L p pour la relation
dfinie par lgalit p.s.
196 ANNEXE B. THORIE DES PROBABILITS

Ainsi lespace L p identifie les variables alatoires gales p.s. et k.k dfinit bien une
norme sur L p .
Nous continuerons tout de mme travailler sur lespace L p et nous ne passerons
L que si ncessaire.
p

Par une application directe de lingalit de Jensen, on voit que

k X k p k X kr si 1 p r < pour tout X Lr , (B.6)

en particulier, X L p . Ceci montre que L p Lr ds que 1 p r < .


Nous allons montrer que lespace L p peut tre transform (toujours par quotionne-
ment par la classe des v.a. nulles p.s.) en un espace de Banach.
Thorme B.12. Pour p 1, lespace L p est un espace de Banach, et L2 est espace de Hilbert.
Plus prcisment, soit ( Xn )n une suite de Cauchy dans L p , i.e. k Xn Xm k p 0 pour n, m
. Alors il existe une v.a. X L p telle que k Xn X k p 0.

Dmonstration. Si ( Xn )n est une suite de Cauchy, on peut trouver une suite croissante
(k n )n N, k n , telle que

k Xm1 Xm2 k p 2n pour tous m1 , m2 k n . (B.7)

Alors, on dduit de lingalit (B.6) que

E[| Xkn+1 Xkn |] k Xkn+1 Xkn k p 2n ,

et que E[n | Xkn+1 Xkn |] < . Alors la srie n ( Xkn+1 Xkn ) est absolument conver-
gente p.s. Comme il sagit dune srie tlescopique, ceci montre que :

lim Xkn = X p.s. o X := lim sup Xkn .


n n

Revenant (B.7), on voit que pour m1 k n et m n, on a E | Xm1 Xkm | p = k Xn


 
p
Xkm k p 2np . Pour m , on dduit du lemme de Fatou que E[| Xm1 X | p ] 2np .

B.3.3 Espaces L0 et L0
On note L0 := L0 (A) lespace vectoriel des variables alatoires Amesurables sur
lespace probabilis (, A, P), et on introduit lespace quotient L0 constitu des classes
dquivalence de L0 pour la relation dfinie par lgalit p.s.
Dfinition B.13. (Convergence en probabilit) Soient ( Xn )n et X des v.a. dans L0 . On dit que
( Xn )n converge en probabilit vers X si

lim P [| Xn X | ] = 0 pour tout > 0.


n

Cette notion de convergence est plus faible que la convergence p.s. et que la conver-
gence dans L p dans le sens suivant.
Lemme B.14. (i) La convergence p.s. implique la convergence en probabilit.
(ii) Soit p 1. La convergence en norme dans L p implique la convergence en probabilit.
B.3. E SPACES L p 197

Dmonstration. (i) dcoule dune application immdiate du thorme de convergence do-


mine. Pour (ii), il suffit dutiliser lingalit de Markov de lexercice A.36.

Le but de ce paragraphe est de montrer que la convergence en probabilit est m-


trisable et quelle confre L0 une structure despace mtrique complet. Pour cela, on
introduit la fonction D : L0 L0 R+ dfinie par :

D ( X, Y ) = E[| X Y | 1] pour tous X, Y L0 . (B.8)

On vrifie imdiatement que D est une distance sur L0 , mais ne lest pas sur L0 , pour les
mmes raisons que celles du paragraphe prcdent.
Lemme B.15. La convergence en probabilit est quivalente la convergence au sens de la dis-
tance D.

Dmonstration. Pour X L0 , on obtient par lingalit de Markov de lexercice A.36 :


E[| X | 1]
P[| X | ] = P[| X | 1 ] ,

qui permet de dduire que la convergence au sens de D implique la convergence en
probabilit. Pour limplication inverse, on estime :

E[| X | 1] = E[(| X | 1)1|X | ] + E[(| X | 1)1|X |< ] P[| X | ] + ,

do on tire que la convergence en probabilit implique la convergence au sens de D.

Thorme B.16. (L0 , D ) est un espace mtrique complet.

Dmonstration. Soit ( Xn )n une suite de Cauchy pour D. Alors cest une suite de Cauchy
pour la convergence en probabilit daprs le lemme B.15, et on peut construire une suite
(nk )k telle que
h i
P | Xnk+1 Xnk | 2k 2k pour tout k 1,

et par suite k P | Xnk+1 Xnk | 2k < . Le premier lemme de Borel-Cantelli (lemme


 

A.14) implique alors que P n mn {| Xnk+1 Xnk | 2k } = 1 et, par suite, pour presque
 

tout , ( Xnk ( ))n est une suite de Cauchy dans R. Ainsi, la v.a. X := lim supk Xnk
vrifie Xnk X p.s. donc en probabilit, et on termine comme dans la dmonstration
du thorme B.12.

B.3.4 Lien entre les convergences L p , en proba et p.s.


Nous avons vu que la convergence en probabilit est plus faible que la convergence
p.s. Le rsultat suivant tablit un lien prcis entre ces deux notions de convergence.
Thorme B.17. Soient { Xn , n 1} et X des v.a. dans L0 .
(i) Xn X p.s. ssi supmn | Xm X | 0 en probabilit.
(ii) Xn X en probabilit ssi de toute suite croissante dentiers (nk )k , on peut extraire une
sous-suite (nk j ) j telle que Xnk j X p.s.
198 ANNEXE B. THORIE DES PROBABILITS

La dmonstration est reporte la fin de ce paragraphe. On continue par une cons-


quence immdiate du thorme B.17 (ii).
Corollaire B.18. (Slutsky) Soient ( Xn )n une suite valeur dans Rd , et : Rd R p une
fonction continue. Si Xn X en probabilit, alors ( Xn ) ( X ) en probabilit.
En particulier, ce corollaire montre que la convergence en probabilit est stable pour
les oprations usuelles daddition, de multiplication, de min, de max, etc...
Avant de dmontrer le thorme B.17, nonons le rsultat tablissant le lien prcis
entre la convergence en probabilit et la convergence dans L1 .
Dfinition B.19. Une famille C de v.a. est dite uniformment intgrable, et on note U.I. si

lim sup E | X |1{|X |c} = 0.


 
c X C

Thorme B.20. Soient { Xn , n 1} et X des v.a. dans L1 . Alors Xn X dans L1 si et


seulement si
(a) Xn X en probabilit,
(b) ( Xn )n est U.I.
La dmonstration de ce rsultat est aussi reporte la fin de ce paragraphe. Lexercice
suivant regroupe les rsultats essentiels qui concernent luniforme intgrabilit.
Exercice B.21. Soit ( Xn )n une suite de v.a. valeurs relles.
1. Supposons que ( Xn )n est U.I.
(a) Montrer que ( Xn )n est borne dans L1 , i.e. supn E[| Xn |] < .
(b) Sur lespace probabilis ([0, 1], B[0,1] , ), tant la mesure de Lebesgue, on considre
la suite Yn := n1[0,1/n] . Montrer que (Yn )n est borne dans L1 , mais nest pas U.I.
2. Supposons que E[supn | Xn |] < . Montrer que ( Xn ) est U.I. (Indication : utiliser la
croissance de le fonction x 7 x1{ xc} R+ ).
3. Supposons quil existe p > 1 tel que ( Xn )n est borne dans L p .
(a) Montrer que E[| Xn |1{|Xn |c} ] k Xn k p P[| Xn c]11/p
(b) En dduire que ( Xn ) est U.I.
Nous allons maintenant passer aux dmonstrations des thormes de ce paragraphe.

Preuve du thorme B.17 (i) Remarquons que

C := { Xn X } = k n mn {| Xm X | k1 } = lim n Akn ,
k

o Akn := mn {| Xm X | k1 }. La convergence p.s. de Xn vers X scrit P[C ] = 1,


et est quivalente P[n Akn ] = 1 pour tout k 1. Comme la suite ( Akn )n est croissante,
ceci est quivalent limn P[ Akn ] = 1 pour tout k 1, ce qui exprime exactement la
convergence en probabilit de supmn | Xm X | vers 0.
(ii) Supposons dabord que Xn X en probabilit. Soit (nk ) une suite croissante din-
dices, et Xk := Xnk . On dfinit
n o
j j
k j := inf i : P[| Xi X | 2 ] 2 .
B.3. E SPACES L p 199

Alors, j P[| Xk j X | 2 j ] < , et on dduit du premier lemme de Borel-Cantelli,


lemme A.14, que | Xk j X | < 2 j pour j assez grand, p.s. En particulier, ceci montre que
Xk j X, p.s.
Pour la condition suffisante, supposons au contraire que Xn 6 X en probabilit.
Alors, daprs le lemme B.15, il existe une sous-suite (nk ) croissante et > 0 tels que
D ( Xnk , X ) . On arrive une contradiction en extrayant une sous-suite ( Xnk j ) j qui
converge p.s. vers X, et en voquant le thorme de convergence domine pour le passage
la limite.

Preuve du thorme B.20 Supposons dabord que les conditions (a) et (b) sont satis-
faites. La fonction c ( x ) := c x c, x R est lipschitzienne, et vrifie | c ( x ) x |
| x |1|x|c . On dduit alors
- de lU.I. de ( Xn )n et lintgrabilit de X que, quand c :

E[| c ( Xn ) Xn |] 0 pour tout n et E[| c ( X ) X |] 0,

- de la convergence en probabilit de Xn vers X, et du corollaire B.18, que

c ( Xn ) c ( X ) en probabilit.

On peut maintenant conclure que Xn X dans L1 en dcomposant

E[| Xn X |] E[| Xn c ( Xn )|] + E[| c ( Xn ) c ( X )|] + E[| c ( X ) X |.

Rciproquement, supposons que Xn X dans L1 , alors la convergence en probabilit


(a) est une consquence immdiate de lingalit de Markov (exercice A.7). Pour montrer
(b), on se donne > 0. La convergence L1 de ( Xn )n montre lexistence dun rang N
partir duquel

E| Xn X | < pour tout n > N. (B.9)

Par ailleurs, daprs le lemme A.26, il existe > 0 tel que pour tout A A :

sup E[| Xn |1 A ] < et E[| X |1 A ] < ds que P[ A] < . (B.10)


n N

Nous allons utiliser cette ingalit avec les ensembles An := {| Xn | > c} qui vrifient bien

sup P[ An ] c1 sup E[| Xn |] < pour c assez grand, (B.11)


n n

o nous avons utilis lingalit de Markov, exercice A.7, ainsi que la bornitude dans L1
de la suite ( Xn )n du fait de sa convergence dans L1 . Ainsi, on dduit de (B.10) et (B.11)
200 ANNEXE B. THORIE DES PROBABILITS

que
( )
sup E | Xn |1{|Xn |>c} = max sup E[| Xn |1{|Xn |>c} ] , sup E[| Xn |1{|Xn |>c} ]
 
n n N n> N
( )
max , sup E[| Xn |1{|Xn |>c} ]
n> N
( )
max , sup E[| X |1{|Xn |>c} ]+ E[| X Xn |1{|Xn |>c} ]
n> N
( )
max , sup E[| X |1 An + E[| X Xn |] < 2,
n> N

o la dernire ingalit est due (B.9), (B.10) et (B.11).

B.4 Convergence en loi


Dans ce paragraphe, nous nous intressons la convergence des lois. Remarquons
immdiatement quil ne peut sagir que dun sens de convergence plus faible que les
convergences fonctionnelles tudies dans le paragraphe prcdent puis quon ne pourra
en gnral rien dire sur les variables alatoires sous-jacentes. A titre dexemple, si X est
L
une v.a. de loi gaussienne centre, alors X a la mme loi que X (on crit X = X).
Pire encore, on peut avoir deux v.a. relles X et Y sur des espaces probabiliss diffrents
(2 A1 , P1 ) et (2 , A2 , P2 ) qui ont la mme distribution.
Dans ce paragraphe, on dsignera par Cb (R) lensemble des fonctions continues bor-
nes sur R, et (R) lensemble des mesures de probabilit sur R.

B.4.1 Dfinitions
Soient et n (R), n N. On dit que (n )n converge faiblement, ou troitement,
vers si

n ( f ) ( f ) pour toute fonction f Cb (R).

Soient X et Xn , n N des v.a. dans L0 (A). On dit que ( Xn )n converge en loi vers X si
(PXn )n converge faiblement vers PX , i.e.

E[ f ( Xn )] E[ f ( X )] pour tout f Cb (R).

Dans la dernire dfinition, il nest pas ncessaire que les v.a. X, Xn , n N soient dfinies
sur le mme espace probabilis. Montrons maintenant que les convergences introduites
dans les chapitres prcdents sont plus fortes que la convergence en loi.
Proposition B.22. La convergence en probabilit implique la convergence en loi.

Dmonstration. Supposons que Xn X en probabilit, et soient g Cb (R). La suite


relle un := E[ g( Xn )], n N, est borne. Pour montrer la convergence en loi, il suffit de
B.4. C ONVERGENCE EN LOI 201

vrifier que toute sous-suite convergente (unk )k converge vers E[ g( X )]. Pour cel, il suffit
dutiliser le lemme B.17 et le thorme de convergence domine.

Comme la convergence en probabilit est plus faible que la convergence L1 et la


convergence p.s. on a le schmas suivant expliquant les liens entre les diffrents types
de convergence rencontrs :

Lp = L
w
1
w

p.s. = P = Loi

B.4.2 Caractrisation de la convergence en loi par les fonctions de rpartition


Toute loi (R) est caractrise par la fonction de rpartition correspondante
F ( x ) := (] , x ]). Ainsi, si F, Fn , n N, sont des fonctions de rpartition sur R, on
dira que ( Fn )n converge en loi vers F si la convergence en loi a lieu pour les mesures
correspondantes.
Dans ce paragraphe, nous allons exprimer la dfinition de la convergence faible de
manire quivalente en terme des fonctions de rpartition.
Remarque B.23. Voici un exemple qui montre que les points de discontinuit de F, sil y
en a, jouent un role particulier. Sur ([0, 1], B[0,1] , ), soit n := 1/n la masse de Dirac au
point 1/n (cest la loi de la v.a. dterministe Xn = 1/n). Alors (n ) converge en loi vers
0 , la masse de Dirac au point 0. Mais pour tout n 1, Fn (0) = 0 6 F0 (0).
Thorme B.24. Soient F, Fn , n N, des fonctions de rpartition sur R. Alors, ( Fn ) converge
en loi vers F si et seulement si

Pour tout x R, F ( x ) = F ( x ) = Fn ( x ) F ( x ).

Dmonstration. 1- Pour > 0 et x R, on dfinit les fonctions


yx
g1 (y) := 1],x+ ] (y) 1] x, x + ] et g2 (y) := g1 (y + ), y R,

et on observe que 1],x] g1 1],x+ ] , 1],x ] g2 1],x] et, par suite,

Fn ( x ) n ( g1 ), ( g1 ) F ( x + ), et Fn ( x ) n ( g2 ), ( g2 ) F ( x )

Comme g1 , g2 Cb (R), on dduit de la convergence faible de ( Fn )n vers F que n ( g1 )


( g1 ), n ( g2 ) ( g2 ), et

F ( x ) lim inf Fn ( x ) lim sup Fn ( x ) F ( x + ) pour tout > 0,


n n

qui implique bien que Fn ( x ) F ( x ) si x est un point de continuit de F.


2- Pour la condition suffisante, on dfinit comme dans la remarque B.4 les v.a. X, X, X n , X n
202 ANNEXE B. THORIE DES PROBABILITS

qui ont pour fonction de rpartition F et Fn . Par dfinition de X, pour tout x > X ( ) on
a F ( x ) > . Si x est un point de continuit de F, ceci implique que Fn ( x ) > pour n
assez grand et, par suite, x X n ( ). Comme F est croissante, lensemble de ses points
de discontinuit est au plus dnombrable. On peut donc faire tendre x vers X ( ) le long
de points de continuit de F, et on tire lingalit X ( ) X n ( ) pour n assez grand. On
obtient le rsultat symtrique en raisonnant sur X et X n . Do :

X ( ) X n ( ) X n ( ) X ( ) pour n assez grand.

Comme P[ X = X ] = 1, ceci montre que X n X p.s. et donc en loi.

B.4.3 Convergence des fonctions de rpartition


Limportance de la convergence en loi provient de la facilit dobtenir des thormes
limites. En effet, les suites de mesures convergent en loi peu de frais", le long dune
sous-suite, vers une limite qui nest cependant pas ncessairement une loi. Si la limite
nest pas une loi, on dit quil y a perte de masse.
Avant dnoncer un rsultat prcis, expliquons les ides quil y a derrire ces rsul-
tats profonds. Les fonctions de rpartition ont une structure trs spciale : on regardant
le graphe dune fonction de rpartition dans les coordonnes ( x + y, x + y) (obtenu
par rotation des coordonnes initiale de 45), celui-ci correspond une fonction dont la
valeur absolue de la pente est majore par 1 : les pentes 1 et 1 correspondent respecti-
vement aux plats" et aux sauts de la fonction de rpartition. Ainsi dans ce systme de
coordonnes le graphe perd la proprit de croissance, mais devient 1Lipschitzien. Par
consquent, pour toute suite de fonctions de rpartitions, le thorme dAscoli nous ga-
rantit alors lexistence dune sous-suite convergente. La dmonstration ci-dessous utilise
un argument encore plus lmentaire.
Lemme B.25. Soit ( Fn )n une suite de fonctions de rpartition sur R. Alors, il existe une fonction
croissante continue droite F : R [0, 1], et une sous-suite (nk ) telles que Fnk F
simplement en tout point de continuit de F.

Dmonstration. On dnombre les lments de lensemble des rationnels Q = {qi , i N}.


La suite ( Fn (q1 ))n est borne, donc converge le long dune sous-suite Fn1 (q1 ) G (q1 )
  k

quand k . De mme la suite Fn1 (q2 ) est borne, donc converge le long dune
k n
j
sous-suite Fn2 (q2 ) G (q2 ) quand k , etc... Alors, en posant k j := n j , on obtient
k

Fk j (q) G (q) pour tout q Q.

Il est clair que G est croissante sur Q et valeurs dans [0, 1]. On dfinit alors la fonction F
par

F ( x ) := lim G (q) pour tout x R,


Q3 q & x

qui vrifie les proprits annonces dans le lemme.

Afin dviter la perte de masse la limite, on introduit une nouvelle notion.


B.4. C ONVERGENCE EN LOI 203

Dfinition B.26. Une suite ( Fn )n1 de fonctions de rpartition sur R est dite tendue si pour tout
> 0, il existe K > 0 tel que

n ([K, K ]) := Fn (K ) Fn (K ) > 1 pour tout n 1.

Le rsultat suivant est une consquence directe du lemme prcdent.


Lemme B.27. Soit ( Fn )n une suite de fonctions de rpartition sur R.
(i) Si Fn F en loi, alors ( Fn )n est tendue.
(ii) Si ( Fn )n est tendue, alors il existe une fonction de rpartition F sur R, et une sous-suite
(nk ) telles que Fnk F en loi.

B.4.4 Convergence en loi et fonctions caractristiques


La fonction caractristique caractrise une loi de distribution tout aussi bien que la
fonction de rpartition. Le rsultat suivant donne la caractrisation de la convergence en
loi en termes de fonctions caractristiques.
Thorme B.28. (convergence de Lvy) Soit ( Fn )n1 une suite de fonctions de rpartition sur R,
et n := Fn , n 1, la suite correspondante de fonctions caractristiques. Supposons quil existe
une fonction sur R telle que

n simplement sur R et continue en 0.

Alors est une fonction caractristique correspondant une fonction de rpartition F, et Fn F


en loi.

Dmonstration. 1- Montrons dabord que

( Fn )n est tendue. (B.12)

Soit > 0. Daprs la continuit de en 0, il existe > 0 tel que |1 | < sur [, ]. Il
R 2 n (u) n (u) R+ et que cette proprit est hrite par la limite.
est clair que
Alors 0 0 [2 (u) (u)]du 2, et on dduit de la convergence de n vers et
du thorme de convergence domine qu partir dun certain rang n N :
1
Z
4 [2 n (u) n (u)]du
0
1
Z Z  
= 1 eiut dFn (t)du
R
Z  
1 sin (t)
Z Z  
iut
= 1e dudFn (t) = 2 1 dFn (t)
R R t
par le thorme de Fubini. Comme sin x x pour tout x R, on dduit alors que pour
tout > 0, il existe > 0 :
 
sin (t)
Z Z
4 2 1 dFn (t) dFn (t),
|t|21 t |t|21

prouvant (B.12).
2- Comme ( Fn )n est tendue, on dduit du lemme B.27 que Fnk F en loi le long dune
204 ANNEXE B. THORIE DES PROBABILITS

sous-suite (nk )k , o F est une foncion de rpartition. Daprs la dfinition de la conver-


gence en loi, on a aussi convergence des fonctions caractristiques correspondantes nk
F . Alors = F .
3- Il reste monter que Fn F en loi. Supposons au contraire quil existe un point de
continuit x tel que Fn ( x ) 6 F ( x ). Alors, il existe une sous-suite (nk )k telle que

F ( x ) = F ( x ) et | Fnk ( x ) F ( x )| pour tout k. (B.13)

Comme ( Fnk )k est tendue daprs ltape 1, on a Fnk j F en loi le long dune sous-suite
(nk j ) j , o F est une foncion de rpartition. Raisonnant comme dans ltape prcdente, on
voit que nk j F = = F , et on dduit que F = F par injectivit. Ainsi Fnk j F
en loi, contredisant (B.13).

B.5 Indpendance
B.5.1 algbres indpendantes
Soient (, A, P) un espace probabilis, et (An )n A une suite de algbres. On dit
que les (An )n sont indpendantes (sous P) si pour tous entiers n 1 et 1 i1 < . . . < in :
n
P [nk=1 Aik ] = P [ Ai ] k
pour tous Aik Aik , 1 k n. (B.14)
k =1

Remarquons que le thorme de convergence monotone permet daffirmer que (B.14) est
aussi valide pour n = , i.e.

P [k1 Aik ] = P [ Ai ] k
pour tous Aik Aik , k 1. (B.15)
k 1

A partir de cette dfinition gnrale pour les algbres, on tend lindpendance des
sous-familles arbitraires de A et aux v.a.
Dfinition B.29. On dit que les vnements ( An )n A sont indpendants si (( An ))n sont
indpendantes.
Dans la dfinition prcdente, il est inutile de vrifier (B.14) pour tous les choix pos-
sibles dans les algbres ( An ) = {, , An , Acn }. En effet, il suffit de vrifier que
n
P [nk=1 Aik ] = P [ Ai ] k
pour n 1 et 1 i1 < . . . < in .
k =1

Voici une formulation plus gnrale de ce rsultat.


Lemme B.30. Soit (In )n A une suite de systmes. Alors les sous-algbres ((In ))n
sont indpendantes si et seulement si (B.14) est vraie pour les vnements des In , i.e. si pour tous
entiers n 1 et 1 i1 < . . . < in , on a :
n
P [nk=1 Iik ] = P [ Ii ] k
pour tous Iik Iik , 1 k n.
k =1
B.5. I NDPENDANCE 205

Dmonstration. il suffit de vrifier le rsultat pour deux systmes I1 , I2 . Fixons un


vnement I1 I1 , et introduisons les applications de (I2 ) dans 0, P[ I1 ] dfinies par


( I2 ) := P( I1 I2 ) et ( I2 ) := P( I1 )P( I2 ). Il est clair que et sont des mesures sur


(I2 ) gales sur le systme I2 . Alors elles sont gales sur (I2 ) daprs la proposition
A.5. Il suffit maintenant dvoquer le rle arbitraire de I1 I1 , et de rpter exactement
le mme argument en inversant I1 et I2 .

B.5.2 Variables alatoires indpendantes


Dfinition B.31. On dit que des v.a. ( Xn )n sont indpendantes si les sous-algbres corres-
pondantes (( Xn ))n sont indpendantes.

Une application directe du lemme B.30 et du thorme de Fubini permet dtablir le


critre suivant dindpendance de v.a.

Proposition B.32. Les v.a. ( Xn )n sont indpendantes si et seulement si pour tous n 1 et


1 i1 < . . . < in , lune des assertions suivantes est vrifie :
(a) P [ Xik xk pour 1 k n] = nk=1 P [ Xik xk ] pour tous x1 , . . . , xk R,
(b) E [nk=1 f ik ( Xik )] = nk=1 E [ f ik ( Xik )] pour toutes f ik : R R, 1 k n, mesurables
bornes.
(c) P(Xi1 ,...,Xin ) = PXi1 . . . PXin

Exercice B.33. Montrer la proposition B.32.

Remarque B.34. Si X, Y sont deux v.a. rlles indpendantes, la proposition B.32 implique
que la fonction caractristique du couple se factorise comme :

(X,Y ) (u, v) = X (u)Y (v) pour tous u, v R.

Remarque B.35. Soient X, Y deux v.a. rlles indpendantes intgrables, alors daprs la
proposition B.32, on a

E[ XY ] = E[ X ]E[Y ], Cov[ X, Y ] = 0 et V[ X + Y ] = V[ X ] + V[Y ].

Observons que la nullit de la covariance nimplique pas lindpendance, en gnral. Dans le


cas trs particulier o le couple ( X, Y ) est un vecteur gaussien, on a cependant quiva-
lence entre lindpendance et la nullit de la covariance.

Si les ( Xn )n sont des v.a. indpendantes densit, alors on dduit de lassertion (a)
ci-dessus que le vecteur alatoire ( Xi1 , . . . , Xin ) est absolument continu par rapport la
mesure de Lebesgue sur Rn de densit

f ( Xi
1
,...,Xin ) ( x1 , . . . , xn ) := f Xi 1 ( x 1 ) . . . f Xi n ( x n ) . (B.16)

Rciproquement si le vecteur alatoire ( Xi1 , . . . , Xin ) est absolument continu par rapport
la mesure de Lebesgue sur Rn de densit sparable, comme dans (B.16) f (Xi ,...,Xin ) ( x1 , . . . , xn ) =
1
1 ( x1 ) . . . n ( xn ) alors, les v.a. Xik sont indpendantes densit f Xi = k .
k
206 ANNEXE B. THORIE DES PROBABILITS

B.5.3 Asymptotique des suites dvnements indpendants


Le rsultat suivant joue un rle central en probabilits. Remarquons tout de suite que
la partie (i) reprend le rsultat tabli plus gnralement pour les mesures dans le lemme
A.14.
Lemme B.36. (Borel-Cantelli) Soit ( An )n une suite dvnements dun espace probabilis (, A, P).
(i) Si n P[ An ] < , alors P[lim supn An ] = 0,
(ii) Si n P[ An ] = et ( An )n sont indpendants, alors P[lim supn An ] = 1.
(iii) Si ( An )n sont indpendants, alors soit lim supn An est ngligeable, soit (lim supn An )c est
ngligeable.

Dmonstration. Il reste montrer (ii). Par dfinition de lindpendance et (B.15), on a

P [mn Acm ] = (1 P[ Am ]) eP[ A m]


= e mn P[ Am ] = 0.
mn mn

Ainsi, pour tout n 1, lvnement mn Acm est ngligeable, et lunion dnombrable de


ngligeables (lim supn An )c = n1 mn Acm est alors ngligeable.

Le rsultat suivant est assez frappant, et est une consquence du Lemme de Borel-
Cantelli.
Thorme B.37. (Loi du zro-un) Soient ( Xn )n1 une suite de v.a. indpendantes, et T :=
n ( Xm , m > n) la algbre de queue associe. Alors T est triviale, cest dire :
(i) Pour tout vnement A T , on a P[ A]P[ Ac ] = 0,
(ii) Toute v.a. T mesurable est dterministe p.s.

Dmonstration. (i) De indpendance des ( Xn )n , on dduit que pour tout n 1, les algbres
An := ( X1 , . . . , Xn ) et Tn := ( Xm , m > n) sont indpendantes. Comme T Tn , on voit
que An et T sont indpendantes, et par suite n An et T sont indpendantes. En obser-
vant que n An est un systme, on dduit du lemme B.30 que A := (n An ) et T
sont indpendants.
Or, T A , donc lindpendance entre T et A implique que T est indpendant de
lui mme, et pour tout A T , P[ A] = P[ A A] = P[ A]2 .
(ii) Soit une v.a. T mesurable. Pour tout x R, lvnement P[ x ] {0, 1} daprs
(i). Soit c := sup{ x : P[ x ] = 0}. Si c = , ou c = +, on voit immdiatement
que = c (dterministe), p.s. Si |c| < , la dfinition de c implique que P[ c ] =
P[ > c + ] = 0 pour tout > 0. Alors 1 E[1]c,c+] ( )] = P[c < c + ] = 1,
i.e. 1]c,c+] ( ) = 1 p.s. et on termine la preuve en envoyant vers 0.

La algbre de queue introduite dans le thorme B.37 contient de nombreux v-


nements intressants comme par exemple
{lim Xn existe}, {limn n1 in=1 Xi existe}, { Xn converge}.
n
n

Des exemples de v.a. T mesurable sont donns par


1 n
lim sup Xn , lim inf
n i
Xi , ...
n =1
B.5. I NDPENDANCE 207

B.5.4 Moyennes de variables indpendantes


Dans ce paragraphe, nous manipulerons des suites de v.a. indpendantes et identi-
quement distribues, on crira plus simplement iid.
On commencera par noncer la loi des grands nombres pour les suites de v.a. iid
intgrables, sans en reporter la dmonstration, et nous en dduirons une version pour les
suites de v.a. positives, sans hypothse supplmentaire dintgrabilit. Rappelons quune
loi forte des grands nombres a t tablie dans le cours de 1re anne pour des v.a. iid
seulement de carr intgrable. La dmonstration de la version plus forte suivante sera
vue dans le chapitre 10 en utilisant lapproche des martingales. Enfin, nous montrerons
le thorme central limite.

Thorme B.38. (Loi forte des grands nombres) Soit ( Xn )n une suite de v.a. iid intgrables.
Alors

1 n
n i
Xi E[ X1 ] p.s.
=1

Dmonstration. Voir thorme 10.3.

Pour lnonc suivant, on rappelle que lesprance dune v.a. positive est toujours
dfinie dans [0, ].

Corollaire B.39. Soit ( Xn )n une suite de v.a. iid valeurs dans [0, ]. Alors

1 n
n i
Xi E[ X1 ] p.s.
=1

Dmonstration. Si E[ X1 ] = , la loi des grands nombres du thorme B.38 applique la


suite ( Xn K )n pour une certaine constante K > 0 donne

1 n 1 n
n i (Xi K) E[X1 K] pour tout K p.s.
lim inf X i lim
n n n
=1 i =1

On prend la limite lorsque K en voquant le thorme de convergence monotone,


et on obtient le rsultat voulu.

Enfin, si les v.a. iid sont de carr intgrable, le thorme central limite donne une in-
formation prcise sur le taux de convergence de la moyenne empirique vers lesprance,
ou la moyenne thorique.

Thorme B.40. Soit ( Xn )n une suite de v.a. iid de carr intgrable. Alors
!
1 n
n i
n X i E [ X1 ] N (0, V[ X1 ]) en loi,
=1

o N (0, V[ X1 ]) dsigne la loi normale centre de variance V[ X1 ].


208 ANNEXE B. THORIE DES PROBABILITS


Dmonstration. On note Xi = Xi E[ X1 ] et Gn := n n1 in=1 Xi . En utilisant les proprits
de la fonction caractristique du lemme B.8, lindpendance des Xi , la remarque B.34 et
lidentit des distributions des Xi , on obtient :
n   n
u
Gn (u) = n Xi (u) = Xi (u) = Xi .
i =1 n n n
i =1

Daprs la question 3 de lexercice B.9 et le fait que E[ X1 ] = 0 et E[ X12 ] = V[ X1 ] < , on


peut crire le dveloppement au second ordre suivant :
 n
1 u2

1 u2
Gn (u) = 1 V [ X1 ] + (u) := e 2 V[X1 ] .
2 n n
On reconnait alors que = N (0,V[X1 ]) , voir question 1 de lexercice B.9, et on conclut
grce au thorme B.28 de convergence de Lvy.

B.6 Esprance conditionnelle


B.6.1 Definition
Dans cette section, nous dfinissions lesprance conditionnelle dans le cadre gn-
ral dun espace probabilis (, A, P). Soit F une sous-algbre de A. Les arguments
intuitifs du chapitre 8 suggrent dintroduire la notion desprance conditionnelle par la
projection orthogonale au sens du produit scalaire de L2
PF ( X ) := Argmin k X Y k2 : Y L2 (F , P) , X L2 (A, P).


Ceci est en effet rendu possible grce la structure despace de Hilbert de lespace quo-
tient L2 muni de la norme k.k2 .
Lemme B.41. Loprateur de projection orthogonale PF est bien dfini sur L2 (A, P), et vrifie
E[ X1 F ] = E[ PF ( X )1 F ] pour tout F F et X L2 (A, P).
De plus, on a les proprits suivantes :
(i) X 0 p.s. = PF ( X ) 0 p.s.
(ii) E [ PF ( X )] = E[ X ].

Dmonstration. On travaille avec lespace quotient L2 (A, P) identifiant ainsi les v.a. gales
p.s. La projection orthogonale PF est bien dfinie car le.v. L2 (A, P) et le s.e.v. L2 (F , P)
sont complets. Alors, on sait que pour tout X, il existe une (unique) v.a. Z := PF ( X )
L2 (F , P) vrifiant les conditions dorthogonalit
E[( X Z )Y ] = 0 pour tout Y L2 (F , P).
En particulier, pour tout F F , la v.a. Y = 1 F L2 (F , P) induit la condition dorthogo-
nalit E[ X1 F ] = E[ Z1 F ].
Supposons maintenant que X 0 p.s., notons Z := PF ( X ), et prenons F := { Z 0}
F . Alors 0 E[ X1 F ] = E[ Z1 F ] = E[ Z ] 0, et Z = 0 p.s. montrant la proprit (i).
Pour la proprit (ii), il suffit de remarquer que F = F du fait que F est une
algbre. Alors (i) donne le rsultat voulu.
B.6. ESPRANCE CONDITIONNELLE 209

Thorme B.42. Pour toute variable alatoire X L1 (A, P), il existe une variable alatoire Z
telle que
(a) Z est F mesurable,
(b) E[| Z |] < ,
(c) Pour tout vnement F F , on a E[ X1 F ] = E[ Z1 F ].
De plus, si Z est une autre variable alatoire vrifiant (a,b,c), alors Z = Z p.s.

Dfinition B.43. Une v.a. vrifiant les proprits (a)-(b)-(c) est appele version de lesprance conditionnelle
de X sachant F , note E[ X |F ], et est unique lgalit p.s. prs.

Si F = (Y1 , . . . , Yn ), on crit simplement E[ X |Y1 , . . . , Yn ].

Preuve du thorme B.42 Commenons par montrer lunicit. Si Z et Z vrifient (a,b,c),


alors E[( Z Z )1 F ] = 0 pour tout F F . Mais Z et Z tant F mesurable, on peut choisir
F = { Z Z 0} F , et lgalit prcdente implique que ( Z Z )+ = 0 p.s. Le choix
F = { Z Z 0} F conduit ( Z Z ) = 0 p.s. et par suite Z = Z p.s.
Pour lexistence, il suffit de traiter le cas X 0 et dutiliser la dcomposition X =
X + X pour conclure le cas o X a un signe arbitraire (ou plutt na pas de signe !).
La v.a. Xn := X n est borne, donc dans L2 (A, P). La v.a. Zn := PF ( Xn ) est alors bien
dfinie daprs le lemme B.41 et vrifie par dfinition les conditions (a,b,c). Observons
que la suite ( Zn )n est croissante, comme consquence de la proprit (i) du lemme B.41
et de la linarit de la projection PF . On introduit alors la v.a.

Z := lim n Zn .

Il est clair que Z hrite la F mesurabilit des Zn , et que E[ Z1 F ] = E[ X1 F ] pour tout


F F par le thorme de convergence monotone. Pour la condition (b), remarquons par
que E[ Z ] = limn lim infn E[ Zn ] = E[ X n] E[ X ], o on a utilis les proprits (i)
et (ii) du lemme B.41.

B.6.2 Proprits de lesprance conditionnelle


Nous montrons maintenant que lesprance conditionnelle jouit des mmes propri-
ts de passage la limite que lesprance.

Proposition B.44. Pour X, Xn L1 (A, P), n N, on a :


(1- Convergence monotone) si 0 Xn X, alors E[ Xn |F ] E[ X |F ],
(2- Fatou) si Xn 0, alors E[lim infn Xn |F ] lim infn E[ Xn |F ],
(3- Convergence domine) si supn | Xn | L1 (A, P) et Xn X, p.s. alors E[ Xn |F ]
E[ X |F ] p.s.

Dmonstration. 1- la suite Zn := E[ Xn |F ] est croissante daprs la proposition 8.3 (iii).


On dfinit alors la variable Z = lim Zn qui est par dfinition F mesurable positive
et, par Fatou, E[ Z ] lim infn E[ Zn ] = lim infn E[ Xn ] E[ X ] < . Enfin, pour tout
F F , on a E[ Xn 1 F ] = E[ Zn 1 F ] et on dduit du thorme de convergence monotone que
E[ X1 F ] = E[ Z1 F ]. Ainsi Z vrifie les proprits (a,b,c) du thorme B.42 et Z = E[ X |F ],
p.s.
210 ANNEXE B. THORIE DES PROBABILITS

2- Daprs la monotonie de loprateur desprance conditionnelle due (iii) de la pro-


position 8.3, on a
 
inf E[ Xn |F ] E inf Xn |F pour tout n 1,
kn kn

et on conclut en utilisant le rsultat de convergence monotone dmontr en premire


partie de cette preuve.
3- Avec Yn := | Xn X | et Y := supn Yn , on vrifie que Y L1 (A, P), et on applique le
lemme de Fatou conditionnel, quon vient de dmontrer, la v.a. Y Yn . Le rsultat sen
dduit immdiatement.

La proprit suivante est trs utile, et est une consquence de la proprit des projec-
tions itres en algbre linaire.
Proposition B.45. (Projections itres) Pour X L1 (A, P) et F , G des sous-algbre de A :

F G = E E{ X |G}|F = E[ X |F ].
 

Dmonstration. On observe que L2 (F , P) L2 (G , P), et que par suite le rsultat dans


le cas X L2 (A, P) est une consquence immdiate du thorme de projections itres
en algbre linaire. Puis, le thorme de convergence monotone permet de ltendre aux
variables X L1 (A, P).

La proprit suivante gnralise celle de la proposition 8.3 (i).


Proposition B.46. Soient F une sous- algbre de A, X L0 (A) et Y L0 (F ). On suppose
E[| X |] < et E[| XY |] < . Alors

E[ XY |F ] = YE[ X |F ].

Dmonstration. On commence par le cas Y = 1 A , A F . Alors pour tout F F , on


a E [YE[ X |F ]1 F ] = E [E[ X |F ]1 A F ] = E[ X1 A F ] = E[ XY1 F ] daprs la dfinition de
E[ X |F ] et du fait que A F F . Ainsi, la proposition est vraie pour les indicatrices
dvnements de F .
Si X est une v.a. positive, la proprit prcdente stend par linarit S + , lensemble
des v.a. simples positives, et par le thorme de convergence monotone lensemble des
v.a. positives telles que E[| XY |] < et E[| X |] < (pour que lesprance conditionnelle
ait un sens).
Enfin, pour des variables X, Y gnrales, on dcompose X = X + X , Y = Y + Y ,
et on applique le rsultat tabli pour les v.a. positives.

Les deux dernires proprits donnent des rsultats utiles sur lsprance condition-
nelle en prsence dindpendance.
Proposition B.47. Soient X L1 (A, P) et F , G des sous-algbres de A telles que G est
indpendante de (( X ), F ). Alors

E[ X |(F , G)] = E[ X |F ].
B.6. ESPRANCE CONDITIONNELLE 211

Dmonstration. Il suffit de vrifier pour X L1+ (A, P) que

E[ X1 A ] = E [E[ X |F ]1 A ] pour tout A (F , G).

En remarquant que A 7 E[ X1 A ] et A 7 E [E[ X |F ]1 A ] sont des mesures sur , on


dduit de la proposition A.5 quil suffit de vrifier lgalit ci-dessus pour les vnements
A dans le systme F G . Soient alors F F et G G . En utilisant lindpendance
entre G et (( X ), F ), la proposition B.32, et la dfinition de E[ X |F ], on voit que :

E [E[ X |F ]1 FG ] = E [E[ X |F ]1 F ] E[1G ] = E[ X1 F ]E[1G ] = E [ X1 FG ] .

Proposition B.48. Soient ( X, Y ) deux v.a. valeurs dans Rn et Rm , respectivement, et g :


Rn Rm R une fonction telle que E[| g( X, Y )|] < . Si X et Y sont indpendantes, alors

E[ g( X, Y )| X ] = G ( X ) o G ( x ) := E[ g( x, Y )] pour tout x Rn .

Dmonstration. Pour tout A ( X ), on doit vrifier que E[ g( X, Y )1 A ] = E[ G ( X )1 A ].


Comme X et Y sont indpendantes, la loi du couple ( X, Y ) est la loi produit PX PY , et
on obtient immdiatement par le thorme de Fubini que
Z
E[ g( X, Y )1 A ] = g( x, y)1 A ( x )PX PY (dx, dy)
Z Z  Z
= g( x, y)PY (dy) 1 A ( x )PX (dx ) = G ( x )1 A ( x )PX (dx ),

ce qui est exactement le rsultat recherch.


212 ANNEXE B. THORIE DES PROBABILITS
Bibliographie

[1] R. A LBERT et A.-L. B ARABSI Statistical mechanics of complex networks , Re-


views of modern physics 74 (2002), no. 1, p. 47.
[2] G. A LLAIRE Analyse numrique et optimisation, Cours de lcole Polytechnique,
2013.
[3] G. A LLAIRE et F. G OLSE Transport et diffusion, Cours de lcole Polytechnique, 2013.
[4] M. B ENAIM et N. E L K AROUI Promenade alatoire : Chanes de markov et simulations ;
martingales et stratgies, Les ditions de lcole Polytechnique, 2004.
[5] S. P. B OYD et L. VANDENBERGHE Convex optimization, Cambridge university press,
2004.
[6] X. C HEN Limit theorems for functionals of ergodic Markov chains with general
state space , Mem. Amer. Math. Soc. 139 (1999), no. 664, p. xiv+203.
[7] M. D E L ARA et L. D OYEN Sustainable management of natural resources : mathematical
models and methods, Springer, 2008.
[8] J.-F. D ELMAS et B. J OURDAIN Modles alatoires, Mathmatiques & Applications
(Berlin), vol. 57, Springer-Verlag, Berlin, 2006, Applications aux sciences de ling-
nieur et du vivant.
[9] M. D UFLO Algorithmes stochastiques, Springer Berlin, 1996.
[10] R. D URRETT Random graph dynamics, Cambridge Series in Statistical and Probabi-
listic Mathematics, vol. 20, Cambridge University Press, Cambridge, 2010.
[11] A. G EORGES et M. M ZARD Physique statistique, Cours de lcole Polytechnique,
2013.
[12] W. K. H ASTINGS Monte carlo sampling methods using markov chains and their
applications , Biometrika 57 (1970), no. 1, p. 97109.
[13] M. H OFFMANN Introduction aux mthodes statistiques, Cours de lcole Polytech-
nique, 2013.
[14] N. M ETROPOLIS , A. W. R OSENBLUTH , M. N. R OSENBLUTH , A. H. T ELLER et
E. T ELLER Equation of state calculations by fast computing machines , The jour-
nal of chemical physics 21 (1953), p. 1087.
[15] S. M LARD Modles alatoires en cologie et volution, Cours de lcole Polytech-
nique, 2009.
[16] , Alatoire : introduction la thorie et au calcul des probabilits, Les ditions de lcole
Polytechnique, 2010.

213
214 SUBJECT INDEX

[17] J. N EVEU Martingales temps discret, Masson et Cie, diteurs, Paris, 1972.
[18] J. R. N ORRIS Markov chains, Cambridge Series in Statistical and Probabilistic Ma-
thematics, vol. 2, Cambridge University Press, Cambridge, 1998, Reprint of 1997
original.
[19] J. G. P ROPP et D. B. W ILSON Exact sampling with coupled markov chains and
applications to statistical mechanics , Random structures and Algorithms 9 (1996),
no. 1-2, p. 223252.
[20] N. T OUZI Chanes de markov et martingales en temps discret, Cours de lcole Poly-
technique, 2012.
[21] W. W ERNER Percolation et modle dIsing, Cours Spcialiss [Specialized Courses],
vol. 16, Socit Mathmatique de France, Paris, 2009.
[22] D. W ILLIAMS Probability with martingales, Cambridge Mathematical Textbooks,
Cambridge University Press, Cambridge, 1991.
[23] G. W INKLER Image analysis, random fields and markov chain monte carlo methods : a
mathematical introduction, vol. 27, Springer Verlag, 2003.
Index

systme, 168 ingalits maximales, 123


dsystme, 182 thorme darrt, 120

Absorbant, tat, 35 Ehrenfest, modle, 42


Algbre Equation de la chaleur, 22
-algbre, 111, 167 Ergodique, thorme, 65, 68
-algbre borlienne, 111, 167 Esprance conditionnelle
Algorithme convergence domine, 114, 207
de Kiefer-Wolfowitz, 149 convergence monotone, 114, 207
de Metropolis-Hastings, 88 dfinition, 109
de Propp-Wilson, 91 dans L2 , 206
de recuit simul, 94 Fatou, 114
de Robbins-Monro, 150 ingalit de Jensen, 115
PageRank, 69 lemme de Fatou, 207
stochastique, 87 projections itres, 208
Apriodique, chane, 71, 75 Espace probabilis, 111, 115

Borel-Cantelli, lemme, 170, 203 Fatou, lemme, 170, 174


Ferme, classe, 35
Chane de Markov Filtration, 115
convergence, 65, 72, 78 Fonction harmonique, 35
dfinition, 15 Fonction mesurable, 171
Chapman-Kolmogorov, 18 Fubini, thorme, 180
Classes monotones, thorme, 172, 185
Condition de Doeblin, 78 Galton-Watson, arbre, 56, 152
Contrle stochastique, 162, 164 Graphes alatoires
Convergence dErds-Rnyi , 60
dans L p , 194 de Barabsi-Albert, 146
domine, thorme, 175
en loi, 198 Ingalit
en probabilit, 194 de Chebyshev, 178
monotone, thorme, 173 de Hlder, 179
Couplage de Hoeffding, 140
dfinition, 76 de Jensen, 190
par le pass, 91 de Markov, 178
de Minkowski, 179
Distance en variation, 75 de Schwarz, 178
Doob Indpendance, 202
dcomposition, 125 Intgration fonctions relles, 174

215
216 INDEX

Irrductible, chane, 35 Segmentation, 96


Ising, modle, 89, 96 Snell, enveloppe, 156
Sous-martingale, 117
Loi du zro-un, 204 Surmartingale, 117
Loi forte des grands nombres, 129, 205
Temps darrt
Martingale dfinition, 20, 116
convergence L2 , 128 optimal, 155
convergence presque sre, 131 Thorme H, 41
dfinition, 117 Thorme central limite
ferme, 136 martingales, 138
variation quadratique, 125 chanes de Markov, 142
Matrice de transition, 15 variables indpendantes, 205
Mesure Transitoire, tat, 45, 47
densit, 177
additive, 168 Uniforme intgrabilit, 136, 196
de Gibbs, 86 Urne de Polya, 145
extension de Carathodory, 168
Variable alatoire
image, 177
distribution, 188
invariante, 31, 52
fonction caractristique, 191
de Lebesgue, 168
fonction de rpartition, 188
Modle
Voyageur de commerce, problme, 95
de Wright-Fisher, 134
Monte Carlo, mthode, 29

Percolation, 99
Probabilit conditionnelle, 109, 113
Problme de Dirichlet, 27
Processus
adapt, 116
alatoire, 15, 115
arrt, 120
prvisible, 116, 119
Processus de branchement, 55
Programmation dynamique, 164, 165
Proprit de Markov, 15
Proprit de Markov forte, 21

Rcurrence alatoire, 16
Rcurrent
tat, 45, 47
nul, 45
positif, 45, 52
Rversibilit, 39
Ruine du joueur, 25

Scheff, lemme, 175