Vous êtes sur la page 1sur 34

Probabilités avancées

Cours de Master Avancé 1, ENS Lyon


Cours de Christophe Garban
septembre-décembre 2014

Ces notes sont celles d’un cours de deuxième année donné à l’ENS Lyon en 2014. Elles ont été rédigées
par P. UMBER (conditionnement et chaînes de Markov) et M. DUSSAULE (martingales). Les erreurs
qui s’y trouvent ne sont aucunement du fait de C. Garban. D’autre part, même s’il s’agit essentiellement
du cours de C. Garban, on pourra trouver des notes prises à partir d’autres cours, typiquement pour
la démonstration de certains résultats que C. Garban n’a pas eu le temps de prouver. Ces autres notes
proviennent principalement de [3]. D’ailleurs, selon les mots de l’enseignant, ce cours est très proche de
[3]. Il en diffère cependant par les exemples et par quelques digressions.
Ce cours, sobrement intitulé probabilités avancées, développe la théorie des chaînes de Markov et des
martingales. Il s’agit donc plus spécifiquement d’un cours sur les processus aléatoires à temps discrets.
On commencera par quelques rappels en théorie générale des probabilités, notamment sur les questions
de conditionnement, qui interviendront tout au long du cours.

Table des matières


1 Espérance conditionnelle 2
1.1 Préambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Propriétés plus spécifiques de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . 4

2 Chaînes de Markov 4
2.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Chaîne de Markov canonique et propriétés de Markov . . . . . . . . . . . . . . . . . . . . 8
2.3 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Chaînes de Markov et mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Martingales 22
3.1 Martingales, sur-martingales, sous-martingales . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Convergence(s) des martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Quelques résultats sur les temps d’arrêts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Martingales rétrogrades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Intoduction
Commençons ce cours par un exemple simple. Considérons la marche aléatoire d’un cavalier sur un
échiquier, partant de la case en bas à gauche x0 , et notons Xn la variable aléatoire qui prend en compte
la position du cavalier au temps n. Notons enfin T le premier temps de retour du cavalier en xo . Le but
de l’excercice est de calculer l’espérance E[T ]. On peut montrer que cette espérance est finie et même
calculer sa valeur :
X X 1
E[T ] = P(T = n)n = P(T = n)n = 2 + .. = 168.
npair
6
n≥1

Nous verrons plus loin dans ce cours comment y arriver une fois les bons outils développés. L’idée est,
comme en théorie ergodique, de considérer une moyenne temporelle que l’on veut réexprimer en moyenne
spatiale, considérer une suite de mesures µn et de considérer sa "limite" µ∞ . L’objet de ce cours est plus

www.mathonec.com
1 ESPÉRANCE CONDITIONNELLE 2

généralement l’étude de processus aléatoires, indéxés sur un ensemble dénombrable à valeur dans un
espace mesurable (E, E).
Exemple. On a quelques exmples issus de la vie courante, comme le CAC (mais impossible à modéliser),
le relevé d’un sismographe, le casino, qui peut être modélisé via une sur-martingale (que nous verrons
dans la troisième partie de ce cours), le relevé d’une bouteille à la mer, les pages web internet, ou encore
le mélange d’un jeu de cartes.
Exemple. On a aussi des exemples plus mathématiques, comme l’étude d’une suite de varaiables aléa-
toires indépendantes, à veleur dans R et considérer la suite des sommes partielles, une marche aléatoire
dans un graphe, dans un groupe, ou encore l’étude du processus de branchement de type Galton-Watson.

1 Espérance conditionnelle
1.1 Préambule
Définition 1.1.1. Soit (E, E) un espace mesurable. Une filtration de (E, E) est une suite croissante
(Fn ) de sous-tribus de E . L’espace (E, E, (Fn )) est appelé espace mesurable filtré et si P est une
probabilité sur Ω, on dit que (Ω, E, (Fn ), P) est une espace de probabilité filtré.
Exemple. On considère l’espace mesurable (E, E) = ([0, 1], B([0, 1])) que l’on muni de la filtration
dyadique donnée par F0 = {∅, [0, 1]}, F1 = {∅, [0, 21 ], [ 21 , 1], [0, 1]} ...

1.2 Espérance conditionnelle


On fixe (Ω, F, P) un espace de probabilité.
Théorème 1.2.1. Soient X une variable aléatoire dans L1 (Ω, F, P) et G une sous-tribu de F. Alors il
existe une uique variable aléatoire Z dans L0 (Ω, G, P), telle que Z est dans L1 (Ω, G, P) et :

∀B ∈ G, E[X1B ] = E[Z1B ].

Z est appelée espérance conditionnelle de X sachant G et on la note E[X|G].

Remarque. De manière équivalente, E[X|G] est l’unique variable aléatoire dans L1 (Ω, G, P) telle que, pour
tout Y variable aléatoire G-mesurable bornée, E[XY ] = E[E[X|G]Y ].
Cette propriété est appelée propriété caractéristique de l’espérance conditionnelle. On notera
que l’espérance conditionnelle est une variable aléatoire, et que si X est déjà G-mesurable, alors on a la
relation E[X|G] = X.
Définition 1.2.1. Avec les mêmes notations, si (Yi ) est une famille de variables alétoires, on pose
E[X|(Yi )] := E[X|σ((Yi ))] .
On peut interpréter E[X|Y ] de la manière suivante : Si ω est un point de Ω, choisi au hasard, dont
la seule information que l’on dispose est la valeur Y (ω), alors E[X|Y ](ω) est la valeur moyenne de X en
prenant compte de l’information Y (ω) , comme déterminer la température moyenne d’un lieu en prenant
compte de son altitude.

Définition 1.2.2. Soit A ∈ F, on pose P(A|G) := E[1A |G] que l’on appelle probabilité conditionnelle
de A sachant G.
Exemple. Si Ω est la population Française et G est la tribu engendrée par l’ensemble B1 des personnes
qui vivent en Île de France et B2 l’ensemble de celles qui vivent dans le Rhône, en notant T le temps
moyen de transport par jour, alors E[T |G] = 1B1 2h + 1B2 1h + 1Ω−B1 ∪B2 15min.
Exemple. Si f est une fonction L1 sur ]0, 1], Gn est la filtration dyadique, et si l’on pose In,i :=] 1−i i
2n , 2n ],
n
2
X Z
alors E[f |Gn ] = 2n f 1In,i . Cela approxime la fonction f par des rectangles.
i=1 In,i

Pour pouvoir démontrer ce théorème, nous allons dans un premier temps démontrer une version L2
du théorème de l’espérance conditionnelle.

www.mathonec.com
1 ESPÉRANCE CONDITIONNELLE 3

Théorème 1.2.2. Soient X une variable aléatoire dans L2 (Ω, F, P) et G une sous-tribu de F. Alors il
existe une unique variable aléatoire Z dans L2 (Ω, G, P) et qui vérifie

∀Y ∈ L2 (Ω, G, P), E[XY ] = E[ZY ].

On notera encore E[X|G] la variable Z. Si de plus X est positive, alors Z l’est aussi.
Démonstration. Commençons par montrer l’unicité. Si Z et Z 0 sont deux variables qui vérifient le théo-
rème, alors, on pose B := {Z > Z 0 } ∈ G. On a E[X1B ] = E[Z1B ] = E[Z 0 1B ] donc E[(Z − Z 0 )1Z>Z 0 ] = 0.
Ainsi on a Z ≤ Z 0 presque sûrement. De même, Z 0 ≤ Z, donc Z = Z 0 presque sûrement. Pour l’exis-
tence, on sait que L2 est un espace d’Hilbert, et L2 (Ω, G, P) est un sous-espace fermé de L2 (Ω, F, P) car
complet. Ainsi, on a la décomposition L2 (Ω, F, P) = L2 (Ω, G, P) ⊕ L2 (Ω, G, P)⊥ . On note π la projection
orthogonale sur L2 (Ω, G, P), et l’on pose Z := π(X). Soit Y ∈ L2 (Ω, G, P), on a alors :

E[XY ] = hX, Y i
= hπ(X) + (X − π(X)), Y i
= hπ(X), Y i
= E[ZY ]

Ceci montre l’existence. Démontrons la dernière proposition : Si P(E[Z|G] < 0) > 0, alors il existe
 > 0 tel que P(E[Z|G] < −) > 0. On pose alors B := {E[Z|G] < −} qui est un élément de G. Alors
0 < E[E[Z|G]1B ] = E[Z1B ] ≥ 0 ce qui est absurde, d’où le résultat.
On peut noter deux conséquences de ce théorème :
— Si X ∈ L2 (Ω, G, P), alors on a E[X|G] = X.
— Si G1 ⊂ G2 sont deux sous-tribus de F , alors E[E[X|G2 ]|G1 ] = E[X|G1 ].
Passons à présent à la preuve de la première version du théorème :
Démonstration. On prouve de la même manière que dans le cas L2 l’unicité de l’espérance conditionnelle.
Intéressons-nous à l’existence : On suppose donc X ∈ L1 (Ω, F, P). Supposons de plus que X ≥ 0. On
pose Xn := X1{X≤n} . La suite (Xn ) est croissante et chaque Xn est dans L2 car bornée et positive,
donc E[Xn |G] est positive. On pose alors E[X|G] := lim E[Xn |G]. La variable E[X|G] est bien dans L1 car
n
(E[E[Xn |G]]) converge vers E[E[X|G]] par théorème de convergence monotone et E[E[Xn |G]] = E[Xn ],
avec (E[Xn ]) qui converge vers E[X] par théorème de convergence monotone. De plus, Si B ∈ G , on
pose Y := 1B , alors la suite (Xn Y ) est croissante et converge vers XY . De même, la suite (E[Xn |G]Y )
est croissante et converge vers E[X|G]Y , on conclu donc en passant par l’espérance et en utilisant le
théorème de convergence monotone. Dans le cas général, lorsque X est non positif, on décompose X en
sa partie positive et négative et on conclu par linéarité.

Proposition 1.2.3. L’espérance conditionnelle vérifie les propriété suivantes :


— L’espérance conditionnelle est positive
— L’espérance conditionnelle est linéaire
— E[E[X|G]] = E[X]
— |E[X|G]| ≤ E[|X||G]
— Convergence monotone conditionnelle : Si (Xn ) est une suite croissante de variables aléatoires
positives qui converge vers X, alors (E[Xn |G]) converge vers E[X|G].
— Fatou conditionnelle : Si (Xn ) est une suite de variables aléatoires positives, alors on a l’inégalité
E[lim inf Xn |G] ≤ lim inf E[Xn |G].
— Jensen conditionnelle : Si φ est une fonction convexe positive, alors E[φ(X)|G] ≥ φ(E[X|G]).
Démonstration. Démontrons le quatrième point. On a :

|E[X|G]| = |E[X + |G] − E[X − |G]|


≤ E[X + |G] + E[X − |G]
= E[|X||G].

www.mathonec.com
2 CHAÎNES DE MARKOV 4

Démontrons le dernier point. On pose Eφ := {(a, b) ∈ R2 , ∀x ∈ R, φ(x) ≥ ax + b}. Alors :

E[φ(X)|G] = E[ sup aX + b|G]


(a,b)∈Eφ ∩Q

≥ sup E[aX + b|G]


(a,b)∈Eφ ∩Q

= sup aE[X|G] + b
(a,b)∈Eφ ∩Q

= φ(E[X|G]).

On considère la borne supérieure sur un ensemble dénombrable pour pouvoir sortir le sup de l’espé-
rance conditionnelle.

1.3 Propriétés plus spécifiques de l’espérance conditionnelle


Proposition 1.3.1. — Soient X et Y deux variables aléatoires réelles telles que X et XY sont dans
L1 et Y est G-mesurable. Alors on a la propriété de factorisation suivante : E[XY |G] = Y E[X|G].
— Si G1 ⊂ G2 sont deux sous-tribus de F, alors E[E[X|G2 ]|G1 ] = E[X|G1 ].
Démonstration. Pour le premier point, on peut supposer X et Y positive, et soit Z une variable aléatoire
positive G-mesurable. On a E[(E[X|G]Y )Z] = E[(E[X|G])Y Z] = E[XY Z] = E[E[XY |G]Z]. On a donc le
résultat. Le deuxième point se traite de manière analogue.

Proposition 1.3.2. Soit G1 et G2 deux sous-tribus de F . Alors : G1 et G2 sont indépendantes si et


seulement si pour tout X variable aléatoire positive G1 -mesurable, on a E[X|G2 ] = E[X].
Démonstration. On suppose G1 et G2 indépendantes. Soient B ∈ G1 , A ∈ G2 . On a

E[1B 1A ] = E[1A∩B ] = E[1A ]E[1B ] = E[E[1A ]1B ],

donc E[1B |G2 ] = E[1B ], puis l’égalité est encore vraie pour toute variable aléatoire positive.
Réciproquement, si pour tout X variable aléatoire positive G1 -mesurable, on a E[X|G2 ] = E[X],
considérons B ∈ G2 , A ∈ G1 . Par hyposthèse, on a P(A) = E[1A |G2 ], donc

P(A ∩ B) = E[1A 1B ] = E[E[1A |G2 ]1B ] = P(A)P(B).

Corollaire 1.3.3. Si X et Y sont deux variables aléatoires positives ou dans L1 alors X et Y sont
indépendantes si et seulement si, pour toute fonction numérique h positive, on a E[h(X)|Y ] = E[h(X)].
Ainsi, si X et Y sont indépendantes, avec X positive ou dans L1 , alors E[X|Y ] = E[X]. Cette dernière
proposition n’est cependant pas une équivalence.

Notons pour terminer une expression de l’espérance conditionnelle dans le cas où Y est une variable
aléatoire à valeur dans un ensemble E dénombrable et X une variable aléatoire dans L1 . Alors on a
E[X|Y ] = φ(Y ) où φ est une fonction de E dans R telle que, pour y ∈ E, φ(y) = P(Y1=y) E[X1{Y =y} ] si
P(Y = y) > 0 et prend une valeur quelconque sinon, E[X|Y ] étant de toute façon définie à un ensemble
de mesure nulle près.

2 Chaînes de Markov
Dans tout ce chapitre, E sera un ensemble fini ou dénombrable, dit espace d’états.

2.1 Définition et premières propriétés


Définition 2.1.1. Une matrice de transition ou matrice X stochastique est une matrice Q indexée
sur E telle que : ∀x, y ∈ E, Q(x, y) ∈ [0, 1] et ∀x ∈ E, Q(x, y) = 1.
y∈E

www.mathonec.com
2 CHAÎNES DE MARKOV 5

Définition 2.1.2. Soient Q une matrice de transition et (Xn ) un processus aléatoire. La suite (Xn ) est
une chaîne de Markov de matrice de transition Q si pour tout n et pour tous x0 , .., xn ∈ E, si
P(X0 = x0 , .., Xn = xn ) > 0, alors

∀y ∈ E, P(Xn+1 = y|X0 = x0 , .., Xn = xn ) = Q(xn , y).

Cette propriété est dite propriété de Markov. On parle aussi d’absence de mémoire. On montre
facilement que cette propriété est équivalente à la suivante :
pour tout n et pour tous x0 , .., xn ∈ E,

P(X0 = x0 , .., Xn = xn ) = P(X0 = x0 )Q(x0 , x1 )..Q(xn−1 , xn ).

Avec la seconde forme de la propriété de Markov, on voit qu’une chaîne de Markov de matrice de
transition Q est entièrement déterminée par sa condition initiale, c’est-à-dire la donnée des P(X0 = x0 ).
Définition 2.1.3. Soit (Xn ) une chaîne de Markov. On définit la loi initiale de la chaîne de Markov
par µ0 : x0 7−→ P(X0 = x0 ). Le couple (Q, µ0 ) est appelé mécanisme de transition. On pose aussi
µn := PXn .
Exemple. Soit (Xn ) une chaîne de Markov de matrice de transition Q. Si p ≥ 1 est un entier et si l’on
pose Yn := Xnp , alors (Yn ) définie une chaîne de Markov de matrice de transition Qp .
Remarque. On verra plus tard une manière canonique de construire une chaîne de Markov en se donnant
un mécanisme de transition.
On considère à présent (Xn ) une chaîne de Markov de matrice de transition Q sur l’espace E.
Proposition 2.1.1. — µn = µ0 Qn
— Pour toute fonction positive bornée de E dans R, on a µn (f ) = Eµ0 [f (Xn )] = µ0 Qn f .
Remarque. On a utilisé dans la dernière proposition la notation naturelle matricielle où les mesures sont
des vecteurs lignes et les fonctions sont des vecteurs colonnes.
Démonstration. Démontrons par exemple la première proposition : soit y ∈ E. On a
X
µn (y) = P(X0 = x0 , Xn = y)
x0 ∈E
X
= P(X0 = x0 , .., Xn = xn = y)
x0 ,...,xn ∈E
xn =y
X
= µ0 (xo )Q(x0 , x1 )..Q(xn−1 , y)
x0 ,...,xn ∈E
xn =y

= µ0 Qn (y).

Exemple.
Å ã la chaîne de Markov à deux états a et b de matrice de transition définie par
Considérons
 1−
Q= , avec  ∈]0, 1[. On pose µ0 := δa . On a alors µ1 = δa + (1 − )δb . En itérant,
1− 
on peut montrer que (µn ) converge en loi vers 12 µa + 12 µb . On remarque que pour  = 0 il n’y a pas
convergence de la mesure.
Définition 2.1.4. Soit µ une mesure positive non nulle sur E, finie en chaque point. La mesure µ est
dite invariante pour Q si µQ = µ.
Proposition 2.1.2. Soit (Q, µ0 ) un mécanisme de transition. On suppose qu’il existe une mesure de
probabilité π telle que la suite (µn ) converge en loi vers π, alors π est une mesure invariante pour Q.
Démonstration. Soit f une fonction réelle bornée définie sur E, alors comme la suite (µn ) converge en loi
vers π, µn (f ) converge vers π(f ). Par ailleurs, µn (f ) = µ0 Qn f et µn+1 (f ) = µ0 Qn Qf et Qf est bornée
car Q est une matrice stochastique, donc π(f ) = π(Qf ), donc π = πQ.
Remarque. Il se peut que Q admette une mesure invariante mais que le système ne converge pas vers
cette mesure.

www.mathonec.com
2 CHAÎNES DE MARKOV 6

Exemple. — Si (Xn ) est une suite de variables aléatoires indépendantes identiquement distribuées
de loi µ, alors (Xn ) est une chaîne de Markov de matrice de transition définie par Q(x, y) = µ(y)
.
— Si G est un graphe connexe localement fini (non orienté), la marche aléatoire associée à G est
donnée par la matrice de transition
1
Q(x, y) = 1x∼y
deg(x)
où deg(x) est le nombre d’arrêtes qui partent de x et 1x∼y le lieu caractéristique des sommets
adjacents à x. Si le graphe est fini, on pose
deg(x)
µ(x) := X ,
deg(y)
y∈G

alors, on vérifie que µ est une mesure Q-invariante.


— Soit G est un groupe de type fini, engendré par g1 , ..gn . Si Γ est le graphe de Cayley associé à ce
système de générateurs, c’est-à-dire le graphe dont les sommets sont les points de G et les arrêtes
sont de la forme (g, sg) où g est dans le groupe et s est l’un des gi , alors la marche aléatoire sur
G associée à ce système de générateurs est la marche aléatoire sur le graphe Γ.
— On considère le processus de branchement de type Galton-Watson donné par
Zn
X
Zn+1 = ξn+1,i ,
i=1

où les ξn,i sont des variables aléatoires indépendantes identiquement distribuées de loi µ sur E,
avec ici E = N. Alors (Zn ) est une chaîne de Markov sur N de matrice de transition
X
Q(x, y) = P(Zn+1 = y|Zn = x) = µ∗x (y) = µ(a1 )...µ(ax ).
a1 +..+ax =y

— On pose E = (N∗ )2 et on considère la matrice de transition (Q((a, b), (a0 , b0 ))) donnée par
a b
Q((a, b), (a + 1, b)) := , Q((a, b), (a, b + 1)) := .
a+b a+b
On a ainsi défini le modèle de l’urne de Polya. On considère une urne remplie de boules de deux
couleurs. À chaque étape, on prend une boule dans l’urne, que l’on remet et on ajoute une boule
de la même couleur dans l’urne.
— On fixe N un entier non nul, on pose E = {0, .., N }. On pose alors
N −n
Q(n, n + 1) := ,n < N
N
et
n
Q(n, n − 1) := , n > 0.
N
On parle ici d’urne de Ehrenfest. Si
Ç å
−N N
µ(n) := 2
n

, alors µ est une mesure invariante.


Définition 2.1.5. Q est dite irréductible si

∀x, y ∈ E, ∃k ≥ 1, Qk (x, y) > 0.

Exemple. Si E est l’ensemble des cases d’un échiquier, le mouvement d’un cavalier et d’une tour est
irréductible mais celui du fou ne l’est pas.
Proposition 2.1.3. On suppose que Q est irréductible. Soit π une mesure Q-invariante. Alors π ne
s’annule pas.

www.mathonec.com
2 CHAÎNES DE MARKOV 7

Démonstration. Comme π est non nulle par définition, considérons x ∈ E tel que π(x) > 0. Alors si
y ∈ E, comme Q est irréductible, on peut considérer k tel que Qk (x, y) > 0. On a alors
X
π(y) = π(z)Qk (z, y) ≥ π(x)Qk (x, y) > 0.
z∈E

Définition 2.1.6. Soit x ∈ E, on pose Γ(x) := {n ≥ 1, Qn (x, x) > 0}.


On pose aussi d(x) := pgcd{Γ(x)}, avec la convention Γ(∅) = ∞. On dit que d(x) est la période
de x .
Proposition 2.1.4. On suppose que Q est irréductible. Alors ∃d ≥ 1, ∀x ∈ E, d(x) = d. L’entier d est
la période de la chaîne de Markov. Si d = 1, on dit que la chaîne de Markov est apériodique.
Démonstration. Soient x, y ∈ E. La chaîne étant irréductible, on peut choisir k, l tels que Qk (x, y) > 0
et Ql (y, x) > 0. Alors m := k + l ∈ Γ(x) ∩ Γ(y), car on a les inégalités Qm (x, x) ≥ Qk (x, y)Ql (y, x) > 0
et Qm (y, y) ≥ Ql (y, x)Qk (x, y) > 0. Ainsi, d(x)|m et d(y)|m. Par aileurs, si n ∈ Γ(x), alors

Qn+m (y, y) ≥ Ql (y, x)Qn (x, x)Qk (x, y) > 0,

donc n + m ∈ Γ(y). Ainsi, Γ(x) + m ⊂ Γ(y), donc Γ(x) ⊂ Γ(y) − m donc d(y)|d(x). De même, d(x)|d(y)
donc d(x) = d(y).
On va s’intéresser à la convergence vers une mesure invariante dans la cas où E est fini.
Proposition 2.1.5. On suppose que E est fini. Alors Q admet une mesure invariante.
Démonstration. D’un point de vue matriciel, trouver une mesure invariante pour Q revient à trouver un
vecteur propre à gauche de Q de valeur propre 1. On remarque que le vecteur colonne de taille n (où
n est le cardinal de E) qui n’a que des 1 est un vecteur propre à droite de Q car Q est une matrice
stochastique. Comme le spectre de Q est le même que Qt , on en déduit que Q admet un vecteur propre
à gauche de valeur propre 1. Par ailleurs, on cherche un vecteur propre à coefficient positif de somme
égale à 1 pour avoir une mesure Q-invariante.
Xn
On pose ∆n−1 := {x ∈ Rn , xi ≥ 0 et xi = 1}, qui est compact convexe non vide, et l’on définit la
i=1
fonction Φ : x ∈ ∆n−1 7→ xQ ∈ ∆n−1 , alors Φ est continue, donc admet un point fixe dans ∆n−1 d’après
le théorème de point fixe de Brouwer, d’où le résultat.
Donnons une seconde preuve plus ergodique du résultat. Soit µ0 une mesure de probabilité sur E.
n
n 1X
On pose µn := µ0 Q et πn := µi . Comme ∆n−1 est compact, il existe une extractrice φ telle que
n i=0
1
πφ(n) converge vers une mesure de probabilité π. Par ailleurs, πφ(n) = πφ(n) + φ(n)+1 (µφ(n)+1 − µ0 ) donc,
par continuité de Φ, on a πQ = π.
Proposition 2.1.6. On suppose E fini. Alors le rayon spectral de Q est égal à 1.

Démonstration. On pose kxk := max |xi |. La norme subordonnée associée à cette norme sur les matrices
i
de taille n est X
kM k = max |Qi,j |.
i
j
1
Ainsi, comme Q est une matrice stochastique, on a kQn k n = 1. Comme les normes subordonées sont des
normes d’algèbres, par le théorème du rayon spectral de Gelfand, on a ρ(Q) = 1.
On peut aussi utiliser le théorème de Perron Frobenius, qui sera admis ici, et qui donne un résultat
plus précis :
Théorème 2.1.7. Soit A une matrice de taille n à coefficients positifs et irréductible. Alors il existe
une valeur propre λ de A telle que λ = ρ(A). λ est dit valeur propre de Perron. De plus, λ est une
valeur propre simple, et admet un vecteur propre π > 0, et tout autre vecteur propre π 0 > 0 de A est
2iπ
proportionnel à π. Si A est de période d, les seules valeurs propres µ de module égal à λ sont les e d λ
et elles sont toutes simples.

www.mathonec.com
2 CHAÎNES DE MARKOV 8

On peut donc conclure que, si E est fini et si Q est irréductible, alors la chaîne de Markov admet
une unique mesure invariante. On verra plus tard dans un cas plus général l’unicité de cette mesure
invariante. On a aussi une vitesse de convergence pour le cas apériodique :
Proposition 2.1.8. On suppose que E est fini et Q est irréductible apériodique.
On pose α := sup{|λ|, λ 6= 1, λ ∈ Sp(Q)}. Alors :
— α<1
— ∀µ0 , ∀β > α, ∀p ∈ [1; +∞], ∃C, kµn − πkp ≤ Cβ n pour n assez grand, où π est l’unique mesure
invariante. Ainsi, on peut dire qu’il y a convergence exponentielle.
Démonstration. Le premier point est une conséquence du théorème de Perron-Frobenius. Pour le second
point, on note v le vecteur de Rn dont les coefficients sont tous 1.LComme les coefficients de π sont
tous strictement positifs, π n’est pas dans v ⊥ , donc Rn = V ect(π) v ⊥ . On remarque que v ⊥ est un
sous-espace stable à gauche de Q. En effet, si x ∈ v ⊥ , on a (xQ)v = x(Qv) = x · v = 0. Donc v ⊥ est un
sous-espace stable à droite de Qt , et comme Rn = V ect(π) v ⊥ , Q est équivalente à la matrice
L

Å ã
1 0
,
0 B

où B est une matrice carré de taille n − 1. Par le théorème de Perron Frobenius, le rayon spectral de B
est α < 1.
À présent, on écrit µ0 = λπ + x avec x ∈ v ⊥ . On a µ0 v = 1 = λπv = λ donc µ0 = π + x. Comme π
est invariante, on a µn = π + xQn = π + x(B t )n . Par ailleurs, par le théorème de Gelfand, on a
1
α = ρ(B) = ρ(B t ) = lim k(B t )n kpn ,
n

donc kµn − πkp ≤ kxkp k(B t )n kp ≤ kxkp β n pour n assez grand. Ainsi, C := kxkp convient.

2.2 Chaîne de Markov canonique et propriétés de Markov


On s’intéresse à présent au cas général où E est infini. Soit donc (Q, µ0 ) un mécanisme de transition
sur E.
Exemple. Il n’existe pas toujours de mesure invariante non nulle, comme par exemple dans le cas où
E = N et, pour n ≥ 0, Q(n, n + 1) = 1.
Pour étudier ce cas général, on commence par construire un processus dit canonique qui réalise la loi
de la chaîne de Markov induite par (Q, µ0 ).
Théorème 2.2.1. On peut définir un processus aléatoire (Xn ) sur un espace (Ω0 , P0 ) qui réalise la loi
de la chaîne de Markov induite par (Q, µ0 ).
Démonstration. On pose Ω := [0, 1[ muni de la mesure de Lebesgue. Dans un premier temps, montrons
qu’il existe une suite de variables aléatoires indépendantes identiquement distribuées de loi U([0, 1]). Soit
ω ∈ [0, 1[, alors on peut écrire X
ω= n (ω)2−n−1 ,
n≥0

où n vaut 0 ou 1. Ainsi, on a la donné d’une suite (n ) de variables aléatoires indépendantes identiquement
distribuées telle que P(n = 1) = P(n = 0) = 21 . Soit φ : N × N → N une bijection. On pose ηi,j := φ(i,j)
et X
Ui := ηi,j 2−j−1 .
j≥n

Alors (Ui ) est une suite de variables aléatoires indépendantes identiquement distribuées de loi U([0, 1]).
p
X Xp
En effet, si p ∈ N∗ , ηi,j 2−j−1 a la même loi que n 2−j−1 .
j=0 j=0
On note E = {yi }i∈N∗ . Soit X00 la variable aléatoire à valeur dans E telle que PX00 = µ0 .
On pose alors
k−1
X Xk
0
Xn+1 := yk si Q(Xn0 , yj ) < Un+1 ≤ Q(Xn0 , yj ).
j=1 j=1

www.mathonec.com
2 CHAÎNES DE MARKOV 9

On a alors :

k−1
X k
X
P0 (Xn+1
0
= yk |X00 = x0 , .., Xn0 = xn ) = P0 ( Q(xn , yj ) < Un+1 ≤ Q(xn , yj )|X00 = x0 , .., Xn0 = xn )
j=1 j=1
k−1
X k
X
= P0 ( Q(xn , yj ) < Un+1 ≤ Q(xn , yj )).
j=1 j=1

La dernière égalité a lieu car la famille (Ui ) est indépendante.


Ainsi, P0 (Xn+1
0
= yk |X00 = x0 , .., Xn0 = xn ) = Q(xn , yk ) car Un+1 est la loi uniforme sur [0, 1[ et que

k
X k−1
X
Q(xn , yj ) − Q(xn , yj ) < Un+1 = Q(xn , yk ).
j=1 j=1

On a donc le résultat.
Voyons à présent une seconde construction, dîte canonique. On pose Ω := E N et F := P(E)⊗N . On
note Xn : Ω −→ E la n-ème projection canonique (on parle de processus des coordonnées). On
rappelle que F = σ(Xn |n ∈ N).

Théorème 2.2.2. Il existe une unique mesure de probabilité Pµ0 sur Ω telle que, sous Pµ0 , le processus
des coordonnées est une chaîne de Markov induite par (Q, µ0 ).
Démonstration. On reprend les notations de la première construction. On pose Φ : (Ω0 , F 0 , P0 ) −→ (Ω, F)
définie par ω 0 7→ (Xn0 (ω 0 ))n∈N et l’on défini Pµ0 comme la mesure poussée en avant par Φ. Comme
Xn ◦ Φ = Xn0 est mesurable, Φ est mesurable (conséquence de la tribu produit sur Ω). On a :

Pµ0 (X0 = x0 , .., Xn = xn ) = P0 (X00 = x0 , .., Xn0 = xn )


= P0 (X00 = x0 )Q(x0 , x1 )..Q(xn−1 , xn )
= µ0 (x0 )Q(x0 , x1 )..Q(xn−1 , xn ),

ce qui montre l’existence. L’unicité est laissé en exercice.


Soit x ∈ E. Lorsque µ0 = δx , on note Px la mesure donnée par la construction qui précède. Si A est
un évènement de Ω, alors Px (A) peut s’interpréter comme la probabilité que l’évènement A se réalise en
partant de l’état x. On remarque alors que :
— si y ∈ E, on a Px (Xn = y) = Qn (x, y) X
— si µ est une mesure de probabilité sur E, on a Pµ = µ(x)Px .
x∈E
A présent, essayons de dégager les avantages de la chaîne de Markov canonique.

Définition 2.2.1. Soit k ∈ N. On pose θk : Ω −→ Ω défini par (ωi ) 7→ (ωi+k ) : opérateur de


translation ou shift.
Proposition 2.2.3. L’opérateur θk est mesurable.
Définition 2.2.2. On pose Fn := σ(X0 , .., Xn ). On dit que (Fn ) est la filtration canonique sur Ω.

Définition 2.2.3. Soit G une application mesurable définie sur Ω à valeur dans [0, +∞] ou à valeur
dans R et intégrable. On note Eµ [G] l’espérance de G calculée avec la probabilité Pµ , et l’on adopte la
même notation lorsqu’il s’agit d’une espérance conditionnelle. Plus généralement, on peut définir sur E
la fonction ϕG : x 7→ Ex [G]. On pose alors EXn [G] := ϕG (Xn ), qui est une variable aléatoire à valeur
dans [0, +∞] ou réelle, et qui s’interprète comme étant l’espérance de G en partant de l’état Xn .

Proposition 2.2.4. Propriété de Markov simple : Soit G application mesurable définie sur Ω à valeur
dans [0, +∞] ou à valeur dans R et intégrable. Alors Eµ0 [G ◦ θn |Fn ] = EXn [G]. Autrement dit, la loi
conditionnelle de θn sachant Fn est la chaîne de Markov partant de Xn .

www.mathonec.com
2 CHAÎNES DE MARKOV 10

Démonstration. Soit F : Ω −→ R une application Fn -mesurable, intégrable.


On va montrer que Eµ0 [F G ◦ θn ] = Eµ0 [F EXn [G]].
Pour cela, on va regarder le cas où

F = 1X0 =x0 ,..,Xn =xn

(F étant Fn -mesurable), et
G = 1X0 =y0 ,..,Xk =yk
où k ≥ 0 et x0 , .., xn , y0 , .., yk ∈ E ; on pourra alors conclure par linéarité et par argument de covergence
monotone. On peut aussi supposer, par linéarité, que µ0 = δx pour un certain x ∈ E.
D’une part, si y ∈ E, on a Ey [G = Py (X0 = x0 , .., Xk = yk ) = δy,y0 Q(y0 , y1 )..Q(yk−1 , yk ).
D’autre part, on a :

Eµ0 [F G ◦ θn ] = Pµ0 (X0 = x0 , .., Xn = xn , Xn = y0 , .., Xn+k = yk )


= δx,x0 Q(x0 , x1 )..Q(xn−1 , xn )δxn ,y0 Q(y0 , y1 )..Q(yk−1 , yk )
= δx,x0 Q(x0 , x1 )..Q(xn−1 , xn )Exn [G]
= Eµ0 [F ]Exn [G]
= Eµ0 [F Exn [G]].

On a ainsi le résultat.
On veut à présent généraliser cette propriété de Markov, non pas au temps n, mais à un temps
aléatoire.
Définition 2.2.4. Soit T : Ω −→ N (où N = N ∪ {∞}). On dit que T est un temps d’arrêt associé
à la filtration (Fn )n∈N si : ∀n ∈ N, {T = n} ∈ Fn .
On remarque que l’on peut changer l’évènement {T = n} de la définition par {T ≤ n}. De plus,
l’évènement {T = ∞} n’est pas à négliger. On peut écrire {T = ∞} = ( n∈N {T = n})c . On peut aussi
S
remarquer que {T ≥ n + 1} ∈ Fn .

Exemple. — L’application constante T = k est une temps d’arrêt, pour k ∈ N.


— Si A ⊂ E et N0 ∈ N, on pose TA := inf{n ≥ N0 , Xn ∈ A}, alors TA est un temps d’arrêt.
— Si S et T sont des temps d’arrêt, alors T + S, T ∧ S et T ∨ S sont des temps d’arrêt.
— Si (Tk ) est une suite de temps d’arrêt, alors inf Tk , sup Tk , lim inf Tk et lim sup Tk sont des temps
d’arrêt.
Définition 2.2.5. Soit T un temps d’arrêt. On appelle tribu du passé jusqu’à l’instant T la tribu

FT := {A ∈ F, ∀n ∈ N, A ∩ {T = n} ∈ Fn }.

Proposition 2.2.5. Soit T un temps d’arrêt. Alors FT est une sous-tribu de F et FT = Fn si T = n.


De plus, {T = ∞} ∈ FT .
Démonstration. La démonstration est laissée en exercice.

Proposition 2.2.6. Soit T et S deux temps d’arrêt. On suppose que S ≤ T . Alors FS est une sous-tribu
de FT .
n
[
Démonstration. Soit A ∈ FS et n ∈ N. On a A ∩ {T = n} = (A ∩ {S = k}) ∩ {T = n} ∈ Fn .
k=0

Théorème 2.2.7. Propriété de Markov forte : Soit T un temps d’arrêt et G une variable aléatoire réelle
ou positive, intégrable, définie sur Ω. Alors Eµ0 [1T <∞ G ◦ θT |FT ] = 1T <∞ EXT [G]

Démonstration. On remarque que XT est une application définie sur l’ensemble FT -mesurable {T < ∞}.
Ainsi, l’expression 1T <∞ EXT [G] a bien un sens.
Soit F : Ω −→ R une application FT -mesurable intégrable.
On veut montrer que Eµ0 [F 1T <∞ G ◦ θT ] = Eµ0 [F 1T <∞ EXT [G]]. On a :

www.mathonec.com
2 CHAÎNES DE MARKOV 11

X
Eµ0 [F 1T <∞ G ◦ θT ] = Eµ0 [F 1T =n G ◦ θT ]
n
X
= Eµ0 [F 1T =n G ◦ θn ] avec F 1T =n ∈ Fn
n
X
= Eµ0 [F 1T =n EXn [G]] d’après la propriété de Markov faible
n
= Eµ0 [F 1T <∞ EXT [G]]

2.3 Classification des états


On conserve les notations du paragraphe précédent. Le but de ce paragraphe est de classifier les états
d’une chaîne de Markov.
Définition 2.3.1. Soit x ∈ E. On pose
X
Nx := 1Xn =x .
n≥0

On dit que x est récurrent si Nx = ∞ presque sûrement pour Px . Si x n’est pas récurrent, on dit que
x est transient ou transitoire.

Définition 2.3.2. On pose G : E ×E −→ R+ définie par (x, y) 7→ Ex [Ny ]. C’est la matrice potentielle
ou fonction de x. Cette fonction compte le nombre de passage en y en partant de l’état x.
X
Proposition 2.3.1. Soit x, y ∈ E. Alors G(x, y) = Qn (x, y).
n≥0

Démonstration. On a

G(x, y) = Ex [Ny ]
X
= Ex [ 1Xn =x ]
n≥0
X
= Px [Xn = y]
n≥0
X
= Qn (x, y).
n≥0

Définition 2.3.3. Soit x ∈ E. On pose Tx,0 := 0 et pour k ≥ 1, Tx,k = Tx := inf{n > Tx,k−1 , Xn = x},
dit k-ème temps de retour en x. On note Tx,1 = Tx .
Proposition 2.3.2. — Les Tx,k sont des temps d’arrêt
— On a FTx,0 ⊂ FTx,1 ⊂ .. ⊂ FTx,k ⊂ ..
Démonstration. Montrons, par exemple, que Tx est un temps d’arrêt. Soit n ≥ 0. On a

{Tx = n} = {X1 = n}c ∩ .. ∩ {Xn−1 = n}c ∩ {Xn = n} ∈ Fn .

Pour le second point de la proposition, il suffit d’utiliser la proposition 2.2.6.


1
Théorème 2.3.3. Soit x ∈ E. Alors G(x, x) = Px (Tx =∞) . De plus,

x est récurrent ⇔ Px (Tx < ∞) = 1


⇔ G(x, x) = ∞

www.mathonec.com
2 CHAÎNES DE MARKOV 12

Démonstration. Soit k ≥ 0. On a :

Px (Nx ≥ k + 1) = Ex [1Tx <∞ 1Nx ≥k ◦ θTx ]


= Ex [1Tx <∞ EXTx [1Nx ≥k ]] d’après la propriété de Markov forte et car XTx = x
= Ex [1Tx <∞ Px (Nx ≥ k)]
= Px (Tx < ∞)Px (Nx ≥ k)

Ainsi, Px (Nx ≥ k) = Px (Tx < ∞)k−1 car Px (Nx ≥ 1) = 1. De plus :

G(x, x) = Ex [Nx ]
X
= Px (Nx ≥ k)
k≥0
1
=
1 − Px (Tx < ∞)
1
=
Px (Tx = ∞)

En utilisant le fait que Px (Nx ≥ k) = Px (Tx < ∞)k−1 , et l’égalité qui précède, on a alors les
équivalences.
Proposition 2.3.4. Soient x, y ∈ E avec x 6= y, alors G(x, y) = Px (Ty < ∞)G(y, y)
Démonstration. On a :

G(x, y) = Ex [Ny ]
= Ex [1Ty <∞ Ny ◦ θTy ]
= Px (Ty < ∞)Ey [Ny ] d’après la propriété de Markov forte

Xd
Exemple. Considérons la marche aléatoire sur le groupe Zd associée au système de générateurs { i ei }
i=1
k
où i ∈ {−1, 1}. On a Q2k+1 (0, 0) = 0 et Q2k (0, 0) = (2−2k )d . On a donc :

2k
X
G(0, 0) = Q2k (0, 0)
k≥0
Ç å
X
−2k 2k d
= (2 )
k
k≥0

Par ailleurs, on a :


1 ( 2k
Ç å 2k
−2k 2k e ) 4πk
2 ∼ 2k k √
k 2 (( e )k 2πk)2

1

πk
Ainsi, si d = 1, 2, alors tous les points sont récurrents, et si d ≥ 3, alors tous les points sont transients.
On note R l’ensemble des états récurrents.

Proposition 2.3.5. Soient x ∈ R et y ∈ E. On suppose que G(x, y) > 0. Alors y ∈ R, Py (Tx < ∞) = 1
et G(y, x) > 0. En particulier, si x ∈ R et y ∈ E − R, alors G(x, y) = 0.
Démonstration. On a

www.mathonec.com
2 CHAÎNES DE MARKOV 13

0 = Px (Nx < ∞)
≥ Px (Ty < ∞, Tx ◦ θTy = ∞)
= Px (1Ty <∞ 1Tx =∞ ◦ θTy )
= Px (1Ty <∞ Py (Tx = ∞)) d’après la propriété de Markov forte
= Px (Ty < ∞)Py (Tx = ∞)

Comme G(x, y) > 0 et x est récurrent, Px (Ty < ∞) > 0, donc Py (Tx = ∞) = 0, donc Py (Tx < ∞) = 1
et G(y, x) = G(x, x) > 0.
Considérons à présent n1 , n2 ≥ 1 tels que Qn1 (x, y) > 0 et Qn2 (y, x) > 0. Alors,

∀p ≥ 0, Qn1 +n2 +p (y, y) ≥ Qn2 (y, x)Qp (x, x)Qn1 (x, y)

. Ainsi,
X
G(y, y) ≥ Qn1 +n2 +p (y, y)
p≥0
X
≥ Qn2 (y, x)( Qp (x, x))Qn1 (x, y)
p≥0

= ∞.

Ceci montre que y est récurrent.


Théorème 2.3.6. Classification des états
G
On peut définir une partition R = Ri telle que
i∈I
— si x ∈ Ri et y ∈ E, alors Px (Ny = ∞) = 1 si y ∈ Ri et Px (Ny = 0) = 1 si y ∈/ Ri .
— si x ∈ E − R et si l’on pose T := inf{n ≥ 0, Xn ∈ R}, alors ou Px (T = ∞) = 1 et, dans ce cas,
∀y ∈ E, Px (Ny < ∞) = 1 ; ou Px (T < ∞) > 0 et, dans ce cas, ∃j ∈ I, Px (∀n ≥ T, Xn ∈ Rj ) > 0.
Les Ri sont appelées classes de récurrence.
Démonstration. Soit x, y ∈ R, on pose x ∼ y si G(x, y) > 0 et G(y, x) > 0. D’après la G proposition
précédente, cela définit une relation d’équivalence sur R, ce qui induit une partition R = Ri .
i∈I
Soit x ∈ Ri . D’après ce qui précède, si y ∈ / Ri , on a G(x, y) = 0, donc Px (Ny = 0) = 1. Si
y ∈ Ri , Px (Ty < ∞) = 1 d’après ce qui précède, et on a

Px (Ny = ∞) = Ex (1Ty <∞ 1Ny =∞ ◦ θTy )


= Px (Ty < ∞)Py (Ny = ∞) d’après la propriété de Markov forte
= 1.

Soit à présent x ∈ E − R. On suppose dans un premier temps Px (T = ∞) = 1. On voit que T est un


temps d’arrêt, car T = inf Tx . De plus :
x∈R

Px (Ny = ∞) = Px (1T <∞ 1Ny =∞ ◦ θT )


= Px (T < ∞)PXT (Ny = ∞) d’après le propriété de Markov forte
= 0.

Ainsi, Px (Ny < ∞) = 1.


Supposons à présent Px (T < ∞) > 0. On a alors

0 < Px (T < ∞)
= Px ( inf Ty < ∞)
y∈R
X
≤ Px (Ty < ∞).
y∈R

www.mathonec.com
2 CHAÎNES DE MARKOV 14

Soit y ∈ R tel que Px (Ty < ∞) > 0. Soit j ∈ I tel que y ∈ Rj . Alors Px (XT ∈ Rj ) > 0. Soit enfin n ≥ T ,
on a

Px (Xn+1 ∈ Rj ) = Px (1T <∞ 1Xn ∈Rj ◦ θT )


= Px (T < ∞)PXT (Xn ∈ Rj ) d’après la propriété de Markov forte.

On a alors le résultat.
Corollaire 2.3.7. On suppose que le chaîne est irréductible.
— Ou bien tous les états sont récurrents, alors il n’existe qu’une seule clsse de récurrence et

∀x ∈ E, Px (∀y ∈ E, Ny = ∞) = 1;

ou bien tous les états sont transients et

∀x ∈ E, Px (∀y ∈ E, Ny < ∞) = 1.

— Si E est fini, on est dans le premier cas.


Démonstration. Le premier point est conséquence de ce qui précède et du fait qu’une union dénombrable
de parties négligeables est aussi négligeable. Démontrons le deuxième point, et supposons donc E fini.
X transients, et on considère x ∈ E. Alors, d’après ce qui
On suppose par l’absurde que tous les états sont
précède, Px (∀y ∈ E, Ny < ∞) = 1, donc Px ( Ny < ∞) = 1 car E est fini. Par ailleurs, on a
y∈E
X XX
Ny = 1Xn =y
y∈E y∈E n≥0
XX
= 1Xn =y
n≥0 y∈E

= ∞ , ce qui est absurde.

Définition 2.3.4. Lorsque l’on est dans le premier cas du corollaire précédent, on dit que la chaîne est
récurrente irréductible.

2.4 Chaînes de Markov et mesures invariantes


On conserve dans ce paragraphe les notations des paragraphes précédents. Nous allons dans un
premier temps donner une condition suffisante pour qu’il existe une mesure invariante.
Théorème 2.4.1. On suppose R 6= ∅ et on considère x ∈ R. Alors il existe une mesure µ invariante
non dégénérée, donnée par
x −1
TX
µ(y) = Ex [ 1Xk =y ].
k=0

De plus, le support de µ est la classe de récurrence de x.


Démonstration. Comme x est récurrent, on a

Px (Tx < ∞) = 1,

donc la somme est bien définie. Soit y ∈ E. Remarquons que


x −1
TX Tx
X
1Xk =y = 1Xk =y .
k=0 k=1

En effet, si y 6= x et que l’on part de l’état x, on ne peut pas se trouver en y au temps 0 ni au temps Tx .
Si y = x, on a
Px (X0 = x) = Px (XTx = x) = 1.
Montrons que µ est une mesure Q-invariante. Cela découle du calcul suivant.

www.mathonec.com
2 CHAÎNES DE MARKOV 15

x −1
TX
µ(y) = Ex [ 1Xk =y ]
k=0
Tx
X
= Ex [ 1Xk =y ]
k=1
X Tx
X
= Ex [ 1Xk =y,Xk−1 =z ]
z∈E k=1
XX
= Ex [1Tx ≥k 1Xk−1 =z 1X1 =y ◦ θk−1 ] où 1Tx ≥k 1Xk−1 =z ∈ Fk−1
z∈E k≥1
XX
= Ex [1Tx ≥k 1Xk−1 =z EXk−1 [1X1 = y]] d’après la propriété de Markov faible
z∈E k≥1

X x −1
TX
= Ex [ 1Xk =z ]Q(z, y) car 1Xk−1 =z EXk−1 [1X1 = y] = 1Xk−1 =z Pz (X1 = y) = 1Xk−1 =z Q(z, y)
z∈E k=0
X
= µ(z)Q(z, y).
z∈E

Montrons à présent que µ(y) < ∞. Remarquons que

1 = µ(x)
= µQn (x)
X
= µ(z)Qn (z, x).
z∈E

Comme x est récurrent, si G(x, y) > 0, alors G(y, x) > 0, donc ∃n ∈ N, Qn (y, x) > 0, ce qui montre
que µ(y) < ∞ d’après ce qui précède. Si G(x, y) = Ex [Ny ] = 0, alors µ(y) = 0. Montrons enfin le
dernier point. Si y est dans la même classe de récurrence que x, alors on peut considérer m ∈ N tel que
Qm (x, y) > 0. Notons que µ(x) = 1. On a alors
X
µ(y) = µ(z)Qm (z, y)
z∈E
≥ Qm (x, y)
> 0.

Théorème 2.4.2. On suppose ici que la chaîne est récurrente irréductible. Alors il existe une unique
mesure invariante à constante positive non nulle près.
Démonstration. Soit x ∈ E = R. On note πx la mesure définie pour x dans le théorème précédent. Soit µ
une autre mesure invariante. Comme la chaîne est irréductible, la mesure est non nulle en chaque point.
On peut donc supposer que µ(x) = 1. On va montrer que µ = πx , et donc dans un premier temps que
µ ≥ πx , puis πx ≥ µ. Soit y ∈ E. On a
X
µ(y) = µ(z1 )Q(z1 , y)
z1 ∈E
X
= Q(x, y) + µ(z1 )Q(z1 , y)
z1 ∈E−{x}
X
= Q(x, y) + µ(z2 )Q(z2 , z1 )Q(z1 , y)
z1 6=x
z2 ∈E
X X
= Q(x, y) + Q(x, z1 )Q(z1 , y) + µ(z2 )Q(z2 , z1 )Q(z1 , y).
z1 6=x z1 6=x
z2 6=x

www.mathonec.com
2 CHAÎNES DE MARKOV 16

On remarque que
2∧(Tx −1)
X X
Q(x, y) + Q(x, z1 )Q(z1 , y) = Ex [ 1Xk =y ].
z1 6=x k=0

Ainsi, par récurrence, on montre que


p∧(Tx −1)
X X
µ(y) = Ex [ 1Xk =y ] + µ(zp )Q(zp , zp−1 )..Q(z1 , y).
k=0 zi 6=x
1≤i≤p

Par suite, comme la chaîne est récurrente, Px (Tx < ∞) = 1, donc µ(y) ≥ πx (y).
Réciproquement, on a :
1 = µ(x)
X
= µ(z)Q(z, x)
z∈E
X
≥ πx (z)Q(z, x)
z∈E
= πx (x)
= 1.
Ainsi, l’inégalité est une égalité, donc ∀z, µ(z) = πx (z), et donc µ = πx .
2
Exemple.
X Considérons la marche aléatoire sur Z , on sait que la chaîne est récurrente irréductible, alors
µ := δx est l’unique mesure invariante telle que µ(0) = 1.
x∈Z2

Corollaire 2.4.3. On suppose que la chaîne est récurrente irréductible. On considère µ la mesure (donnée
à une constante près) du théorème précédent. Alors :
— Ou bien µ(E) < ∞, alors il existe une unique mesure de probabilité invariante, et dans ce cas on
1
a ∀x, y ∈ E, Ey [Tx ] < ∞ et µ(x) = Ex [T x]
— Ou bien µ(E) = ∞, et dans ce cas ∀x ∈ E, Ex [Tx ] = ∞.
Dans le premier cas, on dit que la chaîne est récurrente positive, et dans le second cas, que la chaîne
est récurrente nulle. On remarque que si, de plus, E est fini, alors la chaine est récurrente positive.
Démonstration. Soit x ∈ E, on note πx la mesure invariante définie en x utilisée dans les théorèmes
précédents. On a :
X
πx (E) = πx (y)
y∈E

X x −1
TX
= Ex [ 1Xk =y ]
y∈E k=0
x −1
TX
= Ex [ 1]
k=0
= Ex [Tx ].
Ceci montre déjà le deuxième point. Pour le premier point, on pose µ := πxπ(E)x
, alors d’après le
théorème précédent, µ est l’unique mesure de probabilité Q-invariante sur E, et l’on a d’après ce qui
1
précède µ(x) = Ex [T x]
. Enfin, si y ∈ E, on a Ey [Tx ] ≤ Ex [Tx ] < ∞.

Exemple. Considérons la marche aléatoire du cavalier sur l’échiquier, la chaîne est récurrente positive,
et la mesure de probabilité invariante est donnée par
deg(x) deg(x)
π(x) = P = .
y deg(y) 336
On note a la case en bas à gauche de l’échiquier, on a deg(a) = 2, donc d’après ce qui précède, on a
Ea [Ta ] = 336
2 = 168 : le temps moyen de premier retour en a en partant de a est 168 coups.

www.mathonec.com
2 CHAÎNES DE MARKOV 17

Théorème 2.4.4. On suppose que Q est irréductible et qu’il existe une mesure Q-invariante finie, alors
la chaîne est récurrente, et donc récurrente positive.
Démonstration. Il suffit de montrer que le chaîne est récurrente. On note µ une mesure finie Q-invariante,
et on considère y ∈ E tel que µ(y) > 0. Comme la chaîne est irréductible, il suffit de montrer que y est
récurrent, c’est-à-dire que G(y, y) = ∞. Soit x ∈ E. On a
X
Qn (x, y) = G(x, y) ≤ G(y, y)
n≥0

car G(x, y) = Px (Ty < ∞)G(y, y).


Ainsi, X
µ(x)Qn (x, y) ≤ µ(x)G(y, y).
n≥0

En sommant à présent sur x, on a


X XX
µ(y) = µ(x)Qn (x, y)
n≥0 n≥0 x∈E
X
≤( µ(x))G(y, y).
x∈E

Ainsi, comme la mesure est finie, G(y, y) = ∞, d’où le résultat.


Exemple. Considérons la chaîne suivante, dite "de vie ou de mort". Soit p ∈]0, 1[, q := 1−p. On suppose
E = N, Q(0, 1) = 1, Q(k, k + 1) = p, Q(k, k − 1) = q pour k ≥ 1. La chaîne est alors irréductible et non
apériodique. On pose µ(0) := q et µ(k) := ( pq )k−1 pour k ≥ 1, alors cette mesure est invariante. On a
trois cas :
— si p < q, alors µ(N) < ∞, donc la chaîne est récurrente, donc récurrente positive, et µ est l’unique
mesure invariante. On a alors E0 [T0 ] = 1q et Ek [Tk ] = ( pq )k−1 pour k ≥ 1.
— si p = q = 21 , alors Xn = |Zn | où (Zn ) est la marche aléatoire simple sur Z, donc la chaîne est
récurrente, donc récurrente nulle.
— si p > q, on montre que la chaîne est transiente.
Intéressons-nous à présent au comportement asymptotique d’une mesure invariante.
Théorème 2.4.5. On suppose que le chaîne est récurrente irréductible, soit µ une mesure invariante,
f, g : E −→ [0, +∞] mesurables, avec
Z Z
f dµ < ∞, 0 < gdµ < ∞.

Alors, Pn R
k=0 f (Xk ) f dµ
∀x ∈ E, Px (lim Pn = R ) = 1.
n k=0 g(Xk ) gdµ
Démonstration. Soit x ∈ E. Pour simplifier les notations, on pose Tn := Tx,n .
Remarquon que Px (Tn < ∞) = 1. En effet, soit k ≥ 0, on a

Px (Nx ≥ k + n) = Ex [1Tn <∞ 1Nx ≥x ◦ θn ]


= Ex [1Tn <∞ EXTn [1Nx ≥ k]] par propriété de Markov faible
= Px (Tn < ∞)Px (Nx ≥ k).

Comme x est récurrent, Px (Nx = ∞) = 1, donc Px (Tn < ∞) = 1.


Tk+1 −1
X
On pose alors Zk (f ) := f (Xn ). Montrons que la suite (Zk (f )) est consituée de variables
n=Tk
indépendantes identiquement distribuées lorsque l’on munit Ω de la probabilité Px .
Soient g0 , g1 , .. des fonctions mesurables bornées sur R+ à valeur dans R+ . Il suffit de montrer que
k
Y k
Y
∀k ≥ 0, Ex [ gi (Zi (f ))] = Ex [gi (Z0 (f ))].
i=0 i=0

www.mathonec.com
2 CHAÎNES DE MARKOV 18

Montrons le par récurrence sur k. On suppose le résultat vrai au rang k − 1. Les variables Z0 (f ), ..,
Zk−1 (f ) sont FTk -mesurables. En effet, si n ≤ k − 1, alors f (Xn ) est Fn -mesurable, donc Fk -mesurable.
Soit à présent B un borélien de R+ :
— si n = k − 1 et p ∈ N, on a

[ p−1
X
Zn (f )−1 (B) ∩ {Tk = p} = ({Tk = p} ∩ {Tn = i} ∩ ( f (Xk ))−1 (B)) ∈ Fp .
i<p l=i

— si n < k − 1 et p ∈ N, on a

[ Xj
−1
Zn (f ) (B) ∩ {Tk = p} = ({Tk = p} ∩ {Tn = i} ∩ {Tn+1 = j} ∩ ( f (Xl ))−1 (B)) ∈ Fp .
i<j<p l=i

Ainsi, si n ≤ k − 1, Zn (f ) est FTk -mesurable.


On remarque à présent que Zk (f ) = Z0 (f ) ◦ θTk , donc, d’après la propriété forte de Markov, on peut
écrire
k
Y k−1
Y
Ex [ gi (Zi (f ))] = Ex [( gi (Zi (f )))gk (Z0 (f ) ◦ θTk )]
i=0 i=0
k−1
Y
= Ex [ gi (Zi (f ))]Ex [gk (Z0 (f ))]
i=0
k
Y
= Ex [gi (Z0 (f ))] par hypothèse de récurrence .
i=0

Déterminons à présent leure espérance :


x −1
TX X
Ex [Z0 (f )] = Ex [ f (y)1Xk =y ]
k=0 y∈E
X
= f (y)πx (y)
y∈E
R
E
f dµ
= .
µ(x)

Ainsi, (Zk (f )) est une suite de variables aléatoires indépendantes identiquement distribuées, donc
d’après la loi forte des grands nombres,
n−1 R
1X f dµ
Zk (f ) −→ E ,
n n→∞ µ(x)
k=0

où la convergence est presque sûre (pour Px ).


On pose à présent X
Nx (n) := n1Xk =x .
k=1

On a TNx (n) ≤ n < TNx (n)+1 . On suppose Nx (n) ≥ 1. On a alors


PTNx (n) −1 Pn PTNx (n)+1 −1
k=0 f (Xk ) k=0 f (Xk ) k=0 f (Xk )
≤ ≤
Nx (n) Nx (n) Nx (n)
PNx (n)−1 Pn PNx (n)
j=0 Zj (f ) k=0 f (Xk ) j=0 Zj (f )
donc ≤ ≤
Nx (n) Nx (n) Nx (n)
Ainsi,
n R
1 X f dµ
f (Xk ) −→ E ,
Nx (n) n→∞ µ(x)
k=0

www.mathonec.com
2 CHAÎNES DE MARKOV 19

où la convergence est presque sûre (pour Px ). De même,


n R
1 X gdµ
g(Xk ) −→ E ,
Nx (n) n→∞ µ(x)
k=0

où la convergence est presque sûre (pour Px ). Comme


Z
gdµ > 0,
E

on a
n
X
g(Xk ) > 0
k=0

pour n assez grand, et presque sûrement (pour Px ), puis on a bien


Pn R
k=0 f (Xk ) f dµ
Px (lim Pn = R ) = 1.
n k=0 g(Xk ) gdµ

Pour finir ce paragraphe, intéressons-nous à la problématique suivante : quelles hypothèses sur la


chaîne de Markov peut-on faire pour que, partant d’une mesure de probabilité initiale µ0 , la suite (µn )
converge en loi vers une mesure de probabilité Q-invariante ? Pour répondre à cette question, nous
allons définir sur l’ensemble des mesures de probabilité sur E une distance qui va traduire la notion de
convergence en loi.
Proposition 2.4.6. Soient µ et ν deux mesure de probabilité sur E. Alors,
1X
sup |µ(A) − ν(A)| = |µ(x) − ν(x)|.
A⊂E 2
x∈E

Démonstration. Soit A ⊂ E, on a µ(A) + µ(Ac ) = 1 = ν(A) + ν(Ac ), donc µ(A) − ν(A) = ν(Ac ) − µ(Ac ),
on a donc
1
|µ(A) − ν(A)| = (|µ(A) − ν(A)| + |µ(Ac ) − ν(Ac )|)
2
1X
≤ |µ(x) − ν(x)|.
2
x∈E

Réciproquement, on pose A := {x ∈ E, µ(x) ≥ ν(x)}. On a alors


1 X X
|µ(A) − ν(A)| = (| µ(x) − ν(x)| + | ν(x) − µ(x)|)
2
x∈A x∈Ac
1X
= |µ(x) − ν(x)|.
2
x∈A

Corollaire 2.4.7. On a

sup |µ(A) − ν(A)| = max |µ(A) − ν(A)|


A⊂E A⊂E
X
= µ(x) − ν(x).
x∈E
µ(x)≥ν(x)

Définition 2.4.1. On pose


d(µ, ν) := sup |µ(A) − ν(A)|
A⊂E

. On appelle cette quantité distance en variation totale de µ et ν. En utilisant les différentes


définitions, il est facile de voir que l’on a bien une distance sur l’ensemble des mesures de probabilité sur
E.

www.mathonec.com
2 CHAÎNES DE MARKOV 20

Proposition 2.4.8. La topologie induite par la distance en variation totale correspond à la convergence
en loi.
Démonstration. On considère des mesures de probabilité µn et µ sur E.
On suppose que (µn (f )) converge vers µ(f ) pour toute fonction f : E −→ R bornée. Si l’on choisit f
comme étant la fonction caractéristique en un point y ∈ E, on voit que ∀y ∈ E, limn µn (y) = µ(y). Soit
 > 0. Comme µ est une mesure finie, il existe A ⊂ E un ensemble fini tel que µ(Ac ) ≤ . Comme A
est fini, d’après ce qui précède, on a pour n assez grand
X
|µn (x) − µ(x)| ≤ .
x∈A

Par ailleurs, en considérant la fonction caractéristique de Ac , on a pour n assez grand


µn (Ac ) ≤ 2.
Ainsi, pour n assez grand, on a

1 X X
d(µn , µ) ≤ ( |µn (x) − µ(x)| + µn (x) + µ(x))
2 c
x∈A x∈A
1
≤  + µ(Ac ) + µn (Ac )
2
1
≤  + 3.
2
On a donc (µn ) qui converge vers µ pour la distance en variation totale.
Réciproquement, on suppose que (µn ) converge vers µ pour la distance en variation totale, et soit
f : E −→ R une fonction bornée. On a alors :
X
|µn (f ) − µ(f )| ≤ |µn (x) − µ(x)||f (x)|
x∈E
≤ 2kf k∞ d(µn , µ).
Ainsi, (µn (f )) converge vers µ(f ), et on a le résultat.
Définition 2.4.2. Soient µ et ν deux mesures de proababilité sur un espace de probabilité Ω. On appelle
couplage de µ et ν le donnée d’une paire de variables aléatoires (X, Y ) à valeur dans Ω × Ω telle que
la marginale de X est µ et la marginale de Y est ν
Exemple. Si µ a pour loi la densité f (x)dx et ν a pour loi la densité g(y)dy alors (X, Y ), de loi la
densité f (x)g(y)dxdy est un couplage de µ et ν.
Exemple. On peut considérer les couplages de trois Bernoulli suivants :
— si Xi ∼ B( 21 ), alors (X1 , X2 , X3 ) en est un,
— si X1 ∼ B( 12 ), alors (X1 , X1 , X1 ) en est un autre,
— si X1 , X2 ∼ B( 12 ), avec X1 et X2 indépendants, alors (X1 , X2 , X1 X2 ) en est encore un autre.
Exemple. On peut considérer les couplages de deux Gaussiennes suivants √ : soit X, Y deux gaussiennes
indépendantes identiquement distribuées, et a ∈ [−1, 1], alors (X, αX + 1 − α2 Y ) est un couplage de
deux Gaussiennes.
Proposition 2.4.9. Soient µ, ν deux mesures de probabilité sur E. Alors,
d(µ, ν) = min P(X 6= Y ).
(X,Y ) couplage de µ et ν

Démonstration. Soit π un couplage de µ et ν et A ∈ E un évènement qui réalise d(µ, ν) dans la définition


de la distance. On a
d(µ, ν) = µ(A) − ν(A)
= P(X ∈ A) − P(Y ∈ A)
≤ P(X ∈ A, y ∈
/ A)
≤ P(X 6= Y )

www.mathonec.com
2 CHAÎNES DE MARKOV 21

Ainsi, on a
d(µ, ν) ≤ min P(X 6= Y ).
(X,Y ) couplage de µ et ν

Réciproquement, on pose X
p := µ(x) ∧ ν(x).
x∈E

On a
X X
p= µ(x) + ν(x)
x∈E x∈E
µ(x)≤ν(x) ν(x)≤µ(x)
X X
= µ(x) − (µ(x) − ν(x))
x∈E x∈E
ν(x)≤µ(x)

= 1 − d(µ, ν).

On construit alors le couplage (X, Y ) de la façon suivante : avec probabilité p, on choisit aléatoirement
X = Y = x suivant la loi µ(x)∧ν(x)
p , et avec probabilité 1 − p, on choisit aléatoirement X = x µ(x)−ν(x)
1−p
si µ(x) < ν(x), et Y = x ν(x)−µ(x)
1−p si ν(x) > µ(x). Vérifions que l’on obtient un couplage de µ et ν. Soit
x ∈ E, alors,

µ(x) ∧ ν(x) µ(x) − ν(x)


P(X = x) = p + (1 − p) 1µ>ν
p 1−p
= µ(x).

De même, on a P(Y = y) = ν(y). Finalement, on a P(X 6= Y ) = 1 − p = d(µ, ν) ce qui montre le


résultat.

Nous arrivons enfin au résultat qui nous intéresse :


Théorème 2.4.10. Soit (Xn ) une chaîne de Markov irréductible récurrente positive apériodique, on
note µ0 la mesure initiale. Alors (µn ) converge en loi vers π où π est l’unique mesure de probabilité
Q-invariante.

S le résultat vrai pour les µ0 = δx , avec x ∈ E fixé.


Démonstration. On suppose dans un premier temps
Dans ce cas, pour µ0 donné, on peut écrire E = Ek , union croissante, où Ek est fini. On a alors
1 X 1
∀k ∈ N, d(Qn µ0 , Qn π) ≤ µ0 (x)d(Qn δx , Qn π) + µ0 (Ekc ),
2 2
x∈Ek

donc lim supn d(Qn µ0 , Qn π) ≤ 12 µ0 (Ekc ) par hypothèse, puis on a bien (µn ) qui converge vers π. Ainsi,
on suppose par la suite que µ0 = δx pour x fixé. L’idée de la démonstration est de trouver un couplage
(X˜n , Y˜n ) efficace, où (Xn ) est une chaîne de Markov de matrice de transition Q partant de δx , et (Yn )
partant de π. Pour réaliser un tel couplage, on considère dans un premier temps le couplage donné par
la chaîne de Markov couplée (Xn , Yn ) de matrice de transition Q((x1 , y1 ), (x2 , y2 )) = Q(x1 , x2 )Q(y1 , y2 ).
Montrons à présent que Q récurrente positive :
— Soit x, y ∈ E. Alors : ∃n0 , ∀n ≥ n0 , Qn (x, y) > 0. En effet, comme la chaîne est irréductible, il suffit
de traiter le cas où x = y. Comme la chaîne est apériodique, il existe n1 , m1 avec n1 − m1 = 1
et Qn1 (x, x) > 0 et Qm1 (x, x) > 0. Si m1 = 0, alors n0 = 0 convient. Si m1 ≥ 1, alors, pour
2
0 ≤ j ≤ m1 − 1, on a Qm1 +j (x, x) = Qjn1 +(m1 −j)m1 (x, x) > 0, donc n0 = m21 convient.
— La matrice Q est irréductible. En effet, soit x1 , x2 , y1 , y2 ∈ E. D’après ce qui précède, on peut
choisir n0 tel que, pour n ≥ n0 , on a Qn (x1 , x2 ) > 0 et Qn (y1 , y2 ) > 0. Alors, pour n ≥ n0 , on a
Qn ((x1 , y1 )(x2 , y2 )) = Qn (x1 , x2 )Qn (y1 , y2 ) > 0, ce qui montre que Q est irréductible.
— Pour conclure, on vérifie que π ⊗ π est une mesure invariante finie pour Q, ce qui montre que Q
est récurrente positive.
En particulier, pour x, x0 , y, y0 ∈ E, on a E(x,y) [T(x0 ,y0 ) ] < ∞.
On pose T := inf T(z,z) = inf {(Xn , Yn ) ∈ ∆} où ∆ est la diagonale de E. Alors T est un temps d’arret
z∈E n∈N
pour la chaîne de Markov (Xn , Yn ). D’après ce qui précède, on a E(x,y) [T ] < ∞, donc P(x,y) (T < ∞) = 1.

www.mathonec.com
3 MARTINGALES 22

Ainsi, on peut poser X˜n = Xn si n ≤ T , X˜n = Yn si n > T et Y˜n = Yn . Montrons que (X˜n , Y˜n ) est
un couplge de δx et π : soit x, y ∈ E, on a
Px (X˜n = y) = Px (T > n, X˜n = y) + Px (T ≤ n, X˜n = y)
Xn X
= Px (T > n, Xn = y) + Px (T = k, Xk = z, Yn = y)
k=0 z∈E
Xn X
= Px (T > n, Xn = y) + Ex [1T =k 1Xk =z 1Yn−k =y ◦ θk ]
k=0 z∈E
Xn X
= Px (T > n, Xn = y) + Ex [1T =k 1Xk =z EYk =z [Yn−k = y]] (Markov faible)
k=0 z∈E
Xn X
= Px (T > n, Xn = y) + Ex [1T =k 1Xk =z EXk =z [Xn−k = y]]
k=0 z∈E
= Px (T > n, Xn = y) + Px (T ≤ n, Xn = y) en effectuant le chemin inverse
= Px (Xn = y).
Ainsi, d’après la proposition 2.4.9, on a
d(Qn δx , Qn π) ≤ P(X˜n 6= Y˜n )
= Px (T > n)
X
= π(y)P(x,y) (T > n).
y∈E

Comme le dernier membre de droite converge vers 0, on a le résultat.

3 Martingales
On va étudier maintenant un autre processus aléatoire, à savoir les martingales. On commence par
étudier le paradoxe du singe savant. Considérons un alphabet fixé A, B, ..., Z et l’ensemble des mots
E = {A, B, ..., Z}N . Supposons qu’un singe tape aléatoirement sur une machine à écrire avec les lettres
de l’alphabet qu’on s’est donné. Alors le paradoxe énonce qu’à un moment donné, presque sûrement le
singe aura tapé l’intégralité des oeuvres de Victor Hugo. Si on note T le temps d’arrêt pour lequel le singe
met un point final à son premier Les Misérables, la question qu’on se pose est de savoir que vaut E[T ]. Pour
simplifier, dans la suite, on va plutôt étudier le temps d’arrêt pour lequel le singe écrit ABRACADABRA.
On note T ce temps d’arrêt et on note T 0 celui correspondant au mot ABRACABRADA. Un deuxième
objectif est de comprendre la différence entre T et T 0 et entre E[T ] et E[T 0 ]. Pour étudier E[T ], on peut
adopter deux points de vue, celui des chaînes de Markov, ou celui des martingales qu’on va développer
à présent.
On conseille à nouveau le livre [1] comme référence pour cette partie. Un ouvrage très intéressant
également est [4], dans lequel l’auteur utilise les martingales pour montrer beaucoup de résultats très
généraux d’intégration.

3.1 Martingales, sur-martingales, sous-martingales


Soit (Xn ) un processus aléatoire. On rappelle qu’une filtration est une suite de sous-tribus
F0 ⊂ ... ⊂ Fn ⊂ ...
Une filtration est dite adaptée si σ(X0 , ..., Xn ) ⊂ Fn .
Définition 3.1.1. Avec ces notations, on dit que (Xn ) est une martingale si Xn est L1 et si
E[Xn+1 |Fn ] = Xn .
On dit que c’est une sur-martingale (respectivement une sous-martingale) si Xn est L1 et si
E[Xn+1 |Fn ] ≤ Xn
(respectivement E[Xn+1 |Fn ] ≥ Xn ).

www.mathonec.com
3 MARTINGALES 23

On peut interpréter une martingale comme un jeu d’argent équitable. En effet, imaginons un jeu de
casino et un joueur. On note Xn la quantité d’argent du joueur au temps n. La tribu Fn désigne ce que l’on
sait au temps n, en particulier le résultat des parties précédentes. Alors, la propriété E[Xn+1 |Fn ] = Xn
s’interprète en disant que la moyenne des gains au temps n + 1, en sachant ce qui s’est passé est égale
à l’ensemble des gains au temps n. De même, une sur-martingale correspond à un jeu défavorable (ce
qui est plus susceptible d’arriver dans un casino) et avec la même interprétation, une sous-martingale
correspond aux gains du casino.
L’exemple le plus simple de martingale est celui d’une martingale fermée. Si X est une variable
aléatoire L1 et si Fn est une filtration, on pose Xn = [X|Fn ]. Alors, la filtration Fn est adpatée au
processus aléatoire (Xn ) et pour cette filtration, Xn est une martingale. On dit que c’est une martingale
fermée.
On rappelle que si (V, E) est un graphe, on peut définir un laplacien discret en posant
X ϕ(y)
∆ϕ(x) = − ϕ(x),
deg(x)

où la somme est prise sur tous les voisins y de x (et deg(x) est le nombre de ces voisins) pour ϕ : V → R
une fonction. On dit alors qu’une fonction ϕ : V → R est harmonique (respectivement sous-harmonique,
sur-harmonique) si pour tout x ∈ V, ∆ϕ(x) = 0 (respectivement ∆ϕ(x) ≥ 0, ∆ϕ(x) ≤ 0). Pour une
chaîne de Markov définie sur un graphe, de matrice de transition Q, on retrouve la condition déjà étudiée
Qf = f . Le lien avec les martingales est le suivant. Si Xn est une marche aléatoire simple sur le graphe
(V, E) et ϕ une fonction sur V , alors ϕ(Xn ) est une martingale (respectivement sous-martingale, sur-
martingale) si et seulement si φ est harmonique (respectivement sous-harmonique, sur-harmonique). Par
exemple, la fonction x ∈ Zd 7→ kxk2 ∈ R est sous-harmonique. Ainsi, si Xn est la marche aléatoire simple
sur Zd , alors (kXn k2 ) est une sous-martingale. En particulier, la marche aléatoire sur Zd s’éloigne de 0
comme une sous-martingale.
Un autre exemple de martingale est donné par les marches aléatoires réelles. Soient Yi des variables
aléatoires indépendantes indexées par N. On suppose les Yi intégrables et d’espérance nulle. Alors en
posant Fn la tribu engendrée par les variables Yi pour i variant de 1 à n, et en posant Xn = ni=1 Yi ,
P
on a
E[Xn+1 |Fn ] = E[Xn + Yn+1 |Fn ] = Xn + E[Yn+1 ] = Xn .
On a donc une martingale. Si on avait supposé les espérances positives (respectivement négatives) on
aurait obtenu une sous-martingale (respectivement sur-martingale).
Remarquons par ailleurs que si (Xn ) est un processus aléatoire réel, alors (Xn ) est une sur-martingale
si et seulement si (−Xn ) est une sous-martingale.

Proposition 3.1.1. Soit (Xn ) une suite de variables aléatoires L1 . Alors (Xn ) est une martingale si et
seulement si pour tous entiers 0 ≤ n ≤ m, E[Xm |Fn ] = Xn .
Démonstration. Le sens réciproque est clair, car il suffit de prendre n + 1 pour m. Pour le sens direct,
cela résulte du calcul suivant :
E[Xm |Fn ] = E[E[Xm |Fm−1 ]|Fn ].
On procède alors par récurrence sur n ∈ N et par récurrence sur m ≥ n.
Comme conséquence immédiate, on a que l’espérance d’une martingale est constante. Une autre
remarque que l’on peut faire est que si la martingale est définie sur un domaine de temps fini, alors c’est
une martingale fermée. En effet, si n varie entre 0 et N et si E[Xn+1 |Fn ] = Xn , alors Xn = E[XN |Fn ].
À noter qu’on a le même résultat pour les sur-martingales et les sous-martingales, en particulier,
l’espérance d’une sur-martingale est décroissante. D’autre part, la croissances ou la décroissance non
pas des espérances mais du processus aléatoire lui-même donne des résultats réciproques. Explicitement,
si (Xn ) est un processus adapté à une filtration mesurée, intégrable et décroissant, alors (Xn ) est une
sur-martingale.

Proposition 3.1.2. Soit ϕ : R → R∗ une fonction convexe. Alors si Xn est une martingale et si ϕ(Xn )
est intégrable, ϕ(Xn ) est une sous-martingale.
Démonstration. Par l’inégalité de Jensen conditionnelle, on obtient E[ϕ(Xn+1 )|Fn ] ≥ ϕ(E[Xn+1 |Fn ]) et
comme (Xn ) est une martingale, E[ϕ(Xn+1 )|Fn ] ≥ ϕ(Xn ).

www.mathonec.com
3 MARTINGALES 24

En particulier, en utilisant la convexité de x 7→ xp pour p ≥ 1, on en déduit que si (Xn ) est une


martingale et si Xn ∈ Lp pour p ≥ 1, alors (|Xn |p ) est une sous-martingale.
Donnons à présent un autre exemple de martingales. On rappelle la définition d’un processus de
branchement. Soient ξn,j des variables aléatoires i.i.d. à valeurs dans N de loi µ. On définit les tribus
F0 = (∅, Ω) et pour n ≥ 1, Fn = σ(ξi,j , j ∈ N, i ≤ n−1). On définit également par récurrence le processus
(Xn ) par
Xn
X
Xn+1 = ξn,k .
k=1

Alors, en calculant E[Xn+1 |Fn ], on obtient

X∞ ∞
X
E[Xn+1 |Fn ] = E[ ξn,j 1{j≤Xn } |Fn ] = E[ξn,j 1{j≤Xn } |Fn ],
j=1 j=1

puis on constate qu’on peut sortir l’indicatrice, pour obtenir



X
E[Xn+1 |Fn ] = 1{j≤Xn } E[ξn,j |Fn ] = Xn m
j=1

Xn
où on note m l’espérance commune des variables ξi,j . Si on pose Zn = m n , on obtient que (Zn ) est une

martingale.
Donnons encore un autre exemple, celui des martingales produits. Soient Yn des variables aléatoire
indépendantes telles que E[Yn ] = 1. On pose Xn = ni=1 Yi et on considère la filtration mesurée canonique
Q
Fn = σ(Y1 , ..., Yn ). Alors Xn est une martingale. En effet,
n+1
Y n
Y
E[Xn+1 |Fn ] = E[ Yi |Fn ] = Yi E[Yn+1 |Fn ] = Xn ,
i=1 i=1

puisque par indépendance, E[Yn+1 |Fn ] = E[Yn+1 ] = 1.


Définition 3.1.2. Soit (Cn ) un processus aléatoire réel et Fn une filtration mesurée. On dit que (Cn ) est
un processus prévisible si pour tout n ≥ 1, Cn est Fn−1 -mesurable et si Cn est borné presque sûrement.
Définition 3.1.3. Soient Fn une filtration mesurée, (Xn ) un processus adapté et (Cn ) un processus
prévisible. On définit la transformée de martingale de X par (Cn ) comme étant le processus ((C · X)n )
défini ainsi :
— (C · X)0 = 0,
— (C · X)n = C1 (X1 − X0 ) + C2 (X2 − X1 ) + ... + Cn (Xn − Xn−1 ).
Proposition 3.1.3. Soient Fn une filtration mesurée, (Xn ) un processus adapté et (Cn ) un processus
prévisible. Alors si (Xn ) est une martingale, alors ((C · X)n ) est une martingale. Si (Xn ) est une sur-
martingale (respectivement une sous-martingale) et si Cn ≥ 0, alors ((C · X)n ) est une sur-martingale
(respectivement une sous-martingale).
Démonstration. Par hypothèse, (Cn ) est presque sûrement bornée, disons par une constante kn . Alors,
si Xn est L1 pour tout n, on obtient |(C · X)n | ≤ k1 (|X1 | + |X0 |) + ... + kn (|Xn | + |Xn−1 |) donc ((C · X)n )
est aussi dans L1 pour tout n. D’autre part,

E[(C · X)n+1 |Fn ] = (C · X)n + E[Cn+1 Xn+1 |Fn ] − Cn+1 Xn

et par indépendance, on peut sortir le Cn+1 de l’espérance, de sorte qu’on obtient

E[(C · X)n+1 |Fn ] = (C · X)n + Cn+1 E[Xn+1 |Fn ] − Cn+1 Xn = (C · X)n

Pour la deuxième partie de la proposition, on procède exactement de même.


Le théorème suivant est une motivation suffisante pour étudier les martingales.
Théorème 3.1.4. Soit (Xn ) une martingale et T un temps d’arrêt associé à la filtration mesurée Fn ,
avec T < ∞ presque sûrement. Alors E[XT ] = E[X0 ] dans chacune des quatre situations suivantes :
— T est borné,

www.mathonec.com
3 MARTINGALES 25

— (Xn ) est uniformément bornée,


— Il existe Y une variable aléatoire L1 telle que pour tout n, |Xn | ≤ Y ,
— E[T ] < ∞ et (|Xn − Xn−1 |) est presque sûrement uniformément bornée.
Si on remplace martingale par sur-martingale, on obtient comme conséquence à l’une de ces quatre
conditions E[XT ] ≤ E[X0 ].
Démonstration. Le point clé est que (Xn∧T ) est encore une martingale. En effet, si l’on note Cn = 1{T ≥n} ,
alors (Cn ) est un processus prévisible et Xn∧T = X0 + (C · X)n . Dans le cas où T est borné, disons
T ≤ N , on a donc XT = XN ∧T , donc XT est intégrable et E[XT ] = E[XN ∧T ] = E[X0∧T ] = E[X0 ]. Dans
les situations où (Xn ) est uniformément bornée ou bornée par une variable intégrable Y (conditions 2 et
3), on conclut par convergence dominée. En effet, (Xn∧T ) converge presque sûrement vers XT puisque
T est presque sûrement borné. Le dernier cas est un peu plus technique. Supposons donc que E[T ] < ∞
et que (|Xn − Xn−1 |) est uniformément bornéP presque sûrement. Notons K une borne presque sûre
pour |Xn − Xn−1 |. Alors |Xn∧T − X0 | = | n∧T k=0 (Xk − Xk−1 )| ≤ (n ∧ T )K ≤ T K. Ainsi, en notant
Y = |X0 | + KT , on a |Xn∧T | ≤ Y , donc on peut à nouveau conclure par convergence dominée, puisque
Y est une variable intégrable.
Exemple. On considère le problème de la ruine du joueur. Rappelons qu’une martingale correspond
heuristiquement aux gains d’un joueur à un jeu équitable. Imaginons qu’un joueur s’arrête de jouer
quand il est ruiné, i.e. on note τ le temps d’arrêt τ = inf{n, Xn = 0}. Prenons en fait un problème
similaire, cette fois dans un tore. Soit (Xn ) une martingale à valeurs dans {0, ..., N }, typiquement une
marche aléatoire sur un tore (dans Z/N Z). On note τ = inf{n, Xn ∈ {0, N }}, alors Ek [Xτ ] = k et donc
k
P[Xτ = N ] = N .
Revenons à présent à notre exemple initial, celui du singe savant. On rappelle qu’on note T le temps
d’arrêt pour lequel le singe écrit ABRACADABRA et T 0 celui pour lequel il écrit ABRACABRADA.
On va définir une martingale pour déterminer E[T ]. L’idée est de considérer un jeu où le singe gagne
25 euros lorsqu’il trouve la bonne lettre et perd 1 euro lorsqu’il se trompe (de sorte que l’espérance soit
nulle). Puisque le singe tape aléatoirement et de manière uniforme, on dispose de variables i.i.d. Xk , où
Xk ∈ {A, B, ..., Z} suit une loi uniforme. La variable Xk correspond à la k-ième lettre tapée par le singe.
On pose, pour n ∈ N,
11
X
Mn = 26j 1{Xn−j+1 =L1 ,...,Xn =Lj } − n.
j=1

Si n ≤ j − 1, on arrête l’indicatrice avant d’arriver à des variables Xl avec l < 0, c’est-à-dire, on considère
{X1 = Lj−n+1 , ..., Xn = Lj }. La variable Mn définit ainsi une martingale. Heuristiquement, au temps n,
on gagne 26 euros si on a écrit A, 262 si on a écrit RA, 263 pour BRA ... et on retranche n à cette somme.
On retrouve bien que M1 est égal à 25 si le singe a trouvé la bonne lettre et −1 sinon. Ainsi, E[M1 ] = 0.
On applique le théorème précédent pour obtenir que E[MT ] = E[M1 ] = 0. En effet, on peut borner E[T ].
On considère le temps d’arrêt T 00 pour lequel le singe écrit ABRACADABRA avec le A final sur un
numéro de lettre divisible par 11. Par définition, T ≤ T 00 . Puisqu’on a ainsi découpé les mots écrits par
le singe en blocs de 11 lettres indépendants, T 00 suit une loi géométrique et donc E[T ] ≤ 11x2611 < ∞.
Ainsi, E[MT ] = 0. De même, E[MT 0 ] = 0. Or, MT = 2611 + 264 + 26 − T . En effet, quand on a lu
ABRACADABRA, on a aussi recommencé à lire le mot avec le ABRA final et avec le A final. On
déduit de tout ceci que E[T ] = 2611 + 264 + 26. Pour ABRACABRADA, on obtient E[T 0 ] = 2611 + 26
seulement. Aussi étonnant que cela puisse paraître, on voit en moyenne plus rapidement un mot avec
peu de répétitions qu’un mot avec beaucoup de répétitions. Pour approfondir cette pensée, on pourrait
comparer ce phénomène au paradoxe de l’autobus.

3.2 Convergence(s) des martingales


Dans cette partie on s’intéresse aux convergences presque sûres et dans L1 . Les preuves s’appuieront
sur les inégalités de Doob, assez techniques, qu’on présente maintenant. On pourra consulter [2] à ce
propos.
Si (un ) est une suite réelle (déterministe, pour l’instant) et si a < b sont deux réels, on définit

S1 = inf{n ≥ 0, Xn ≤ a}, T1 = inf{n ≥ S1 , Xn ≥ b}.

Puis par récurrence,

Sk+1 = inf{n ≥ Tk , Xn ≤ a}, Tk+1 = inf{n ≥ Sk+1 , Xn ≥ b}.

www.mathonec.com
3 MARTINGALES 26

On définit alors

X
Un [a, b] = inf{k, Tk ≤ n, Tk+1 ≥ n} = 1{Tk ≤n} ,
k=1

qu’on interprète comme le nombre de montées de la suite (un ) dans l’intervalle [a, b] avant le temps n.
On définit également le nombre de montées dans l’intervalle [a, b]

X
U∞ [a, b] = 1{Tk <∞} .
k=1

Si (Xn ) est maintenant un processus aléatoire adapté à une filtration Fn , on définit de même les
quantités Sk , Tk , Un et U∞ . Ce sont des variables aléatoires. Les variables Sk et Tk sont des temps
d’arrêt et la variable Un est Fn -mesurable.
Lemme 3.2.1 (inégalité des montées de Doob). Soit (Xn ) une sous-martingale et soient a < b deux
réels. On pose Un [a, b] le nombre de montées dans l’intervalle [a, b] avant le temps n de la suite (Xn ).
Alors,
1
E[(Xn − a)+ ] − E[(X0 − a)+ ] .

∀n ≥ 1, E[Un [a, b]] ≤
b−a
Démonstration.POn abrège Un [a, b] en Un , de même pour les temps d’arrêts Tk et Sk . Définissons la
variable Cn = ∞k=1 1{Sk <n≤Tk } . Alors Cn ≤ 1. D’autre part,

{Sk < n ≤ Tk } = {Sk ≤ n − 1} \ {Tk ≤ n − 1},

donc Cn est Fn−1 -mesurable et (Cn ) est un processus prévisible. On note Yn = (Xn −a)+ . C’est également
une sous-martingale. Calculons (C · Y )n :
Un
X Un
X
(C · Y )n = (YTk − YSk ) + 1{SUn +1 <n} (Yn − YSUn +1 ) ≥ (YTk − YSk ) ≥ Un (b − a)
k=1 k=1

de sorte que E[(C · Y )n ] ≥ (b − a)E[Un ]. On note Cn0 = 1 − Cn . Alors (Cn0 ) est un processus prévisible
positif et borné, donc (C 0 · Y )n ) est une sous-martingale, donc

E[(C 0 · Y )n ] ≥ E[(C 0 · Y )0 ] = 0.

Puisque (C · Y )n + (C 0 · Yn ) = Yn − Y0 , en sommant ces deux inégalités, on obtient

(b − a)E[Un ] ≤ E[(C · Y )n + (C 0 · Y )n ] ≤ E[Yn − Y0 ],

ce qui permet de conclure.


On peut maintenant en déduire le premier théorème de convergence des martingales :
Théorème 3.2.2. Soit (Xn ) une sur-martingale. On suppose que sup{E[|Xn |]} < ∞. Alors il existe
une variable aléatoire L1 qu’on note X∞ telle que Xn converge presque sûrement vers X∞ . D’autre part,
E[|X∞ |] ≤ sup{E[|Xn |]} < ∞.
Remarque. Le théorème reste vrai si on remplace sur-martingale par sous-martingale, puisque si (Xn )
est une sous-martingale, (−Xn ) est une sur-martingale et réciproquement.
Démonstration. Pour deux réels a < b on abrège U∞ [a, b] en U∞ . Par ce qui précède,
1
E[U∞ ] ≤ (|a| + sup{E[|Xn |]}) < ∞,
b−a
donc U∞ < ∞ presque sûrement. D’autre part, Xn ne converge pas dans [−∞, ∞] si et seulement si la
limite supérieure et la limite inférieure de Xn diffèrent si et seulement s’il existe deux rationnels a < b
tels que
lim inf(Xn ) < a < b < lim sup(Xn )
Ainsi, Xn ne converge pas si et seulement s’il existe a < b tels que U∞ = ∞. Ainsi l’évènement
{Xn ne converge pas}

www.mathonec.com
3 MARTINGALES 27

est inclus dans une réunion dénombrable d’évènements de mesure nulle, donc Xn converge presque
sûrement. D’autre part, d’après le lemme de Fatou,

E[|X∞ |] ≤ E[lim inf|Xn |] ≤ lim infE[|Xn |] < ∞,

ce qui assure que X∞ est L1 et donne l’inégalité annoncée dans le théorème.


Remarquons à présent que si (Xn ) est une sous-martingale et si sup{E[(Xn )+ ]} < ∞, alors on a aussi
que sup{E[|Xn |]} < ∞. En effet, E[Xn ] = E[(Xn )+ ] − E[(Xn )− ] et d’autre part, E[Xn ] ≥ E[X0 ], donc
E[(Xk )− ] ≤ sup{E[(Xn )+ ]} − E[X0 ] et ce pour tout entier k. En particulier, une telle sous-martingale
converge presque sûrement. Par conséquent, une sous-martingale négative converge presque sûrement et
il en va de même pour une sur-martingale positive. On en déduit le théorème suivant.
Théorème 3.2.3. — Une martingale positive converge presque sûrement vers une variable aléatoire
intégrable.
— Une sur-martingale positive converge presque sûrement vers une variable aléatoire intégrable.
— Une sous-martingale négative converge presque sûrement vers une variable aléatoire intégrable.

Il découle également du lemme de Fatou conditionnel que si (Xn ) est une sur-martingale positive ou
telle que sup{E[(Xn )− ]} < ∞, alors en notant X∞ sa limite presque sûre, Xn ≥ E[X∞ |Fn ].
On peut en tirer une conséquence immédiate. On rappelle que si (Xn ) est un processus de branchement
Xn
de moyenne m, alors ( m n ) est une martingale. Cette martingale est positive et on déduit de ce qui précède
Xn
que ( mn ) converge presque sûrement vers une variable aléatoire intégrable X∞ . Selon la position de m
par rapport à 1, on en déduit la survie ou l’extinction de (Xn ).
Passons maintenant à l’étude de la convergence des martingales dans les espaces Lp . Commençons
par nous intéresser aux martingales L2 .
Lemme 3.2.4. Soit (Xn ) une martingale telle que Xn ∈ L2 pour tout n ∈ N, alors
n
X
E[Xn2 ] = E[X02 ] + E[(Xk ) − Xk−1 )2 ].
k=1

2
Démonstration. On constate que Xn+1 = (Xn + Xn+1 − Xn )2 = Xn2 + (Xn+1 − Xn )2 + 2Xn (Xn+1 − Xn ).
Il suffit donc de prouver que E[Xn (Xn+1 − Xn )] = 0. Or la variable Xn (Xn+1 − Xn ) est L1 , on a donc
E[Xn (Xn+1 − Xn )] = E[E[Xn (Xn+1 − Xn )|Fn ]] = E[Xn E[Xn+1 − Xn |Fn ]] = 0.
On en déduit que si (Xn ) est une martingale L2 , alors (Xn ) est bornée dans L2 si et seulement si la
E[(Xn+1 − Xn )2 ] converge.
P
série
Théorème 3.2.5. Soit (Xn ) une martingale L2 . On suppose que sup{E[Xn2 ]} < ∞. Alors (Xn ) converge
vers une variable aléatoire X∞ dans L2 .
Démonstration. Puisque (Xn ) est une martingale bornée dans L2 donc dans L1 , elle converge presque
sûrement vers une variable X∞ ∈ L1 . D’après le lemme précédent, on a
n+p
X
2
E[Xn+p − Xn2 ] = E[(Xk − Xk−1 )2 ]
k=n+1

E[(Xn+1 − Xn )2 ] converge, on obtient que (Xn ) est une suite de Cauchy dans L2 ,
P
et puisque la série
ce qui assure que X∞ est L2 et qu’il y a convergence dans L2 .
La convergence dans L1 est plus difficile à obtenir. Intéressons nous pour l’instant à la convergence
dans Lp pour p > 1. On va généraliser le résultat qu’on vient de donner pour les martingales L2 .
Lemme 3.2.6. Soit (Xn ) une sous-martingale et soient S et T deux temps d’arrêts. On suppose que
S ≤ T presque sûrement et que T est presque sûrement borné. Alors, E[XS ] ≤ E[XT ].
Démonstration. Puisque T est bornée presque sûrement, XS et XT sont dans L1 . On réintroduit le
processus (Cn ) défini par Cn = 1{S≤n−1} − 1{T ≤n−1} . C’est un processus prévisible et si N est un entier
tel que T ≤ N presque sûrement, alors (C · X)N = XT − XS . Or (Xn ) est une sous-martingale et (Cn )
est un processus prévisible borné et positif, donc E[(C · X)n ] ≥ 0, i.e. E[XT ] ≥ E[XS ].

www.mathonec.com
3 MARTINGALES 28

Lemme 3.2.7 (inégalité maximale de Doob). Soit (Xn ) une sous-martingale. Pour n ∈ N, on pose
X n = sup0≤k≤n Xk . Soit a > 0 un réel, alors aP(X n ≥ a) ≤ E[Xn 1{X n ≥a} ].

Remarque. Notons qu’en particulier, aP(X n ≥ a) ≤ E[Xn+ ] ≤ E[|Xn |]. C’est une généralisation de
l’inégalité de Markov.
Démonstration. Notons T = inf{n ≥ 0, Xn ≥ a}. Puisque n et n ∧ T sont des temps d’arrêts bornés, on
peut appliquer le lemme précédent pour obtenir E[Xn∧T ] ≤ E[Xn ]. Or, Xn∧T ≤ a1{X n ≥a} + Xn 1{X n <a} ,
donc E[Xn∧T ] ≥ aP(X n ≥ a) + E[Xn 1{X n <a} ]. Finalement, aP(X n ≥ a) ≤ E[Xn (1 − 1{X n <a} ].

Lemme 3.2.8. Soit (Xn ) une sous-martingale positive. Alors, en notant X n = sup0≤k≤n Xk , pour tout
p Ä äp
p
entier n ≥ 0 et tout réel p > 1, E[X n ] ≤ p−1 E[Xnp ].

Démonstration. Rappelons que si Z est une variable aléatoire positive, alors


Z ∞ Z ∞ Z Z
E[Z] = P(Z ≥ x)dx = E[ 1{Z≥x} dx] = E[ dx].
0 0 0

Par un changement de variable, on a donc


Z Z Z ∞
E[Z p ] = E[p xp−1 dx] = p xp−1 P(Z ≥ x)dx.
0 0

On a utilisé deux fois le théorème de Fubini pour les fonctions positives. On obtient donc ici
Z ∞ Z ∞ Z Xn
p p−1 p−2
E[X n ] =p x P(X n ≥ x)dx ≤ p x E[Xn 1{X n ≥x} ]dx = pE[Xn ( xp−2 dx)],
0 0 0

en utilisant le lemme précédent pour la dernière inégalité. On en déduit (à nouveau à l’aide le théorème
de Fubini) que
Z Xn
p p
E[X n ] ≤ pE[Xn ( xp−2 dx)] = E[(X n )p−1 Xn ].
0 p − 1
Notons q l’exposant conjugué de p, i.e. 1 = 1/p + 1/q et pq = p + q. Alors, à l’aide l’inégalité de Hölder,
on obtient
p p p
E[X n ] ≤ E[X n ]1/q E[Xnp ]1/p
p−1
et donc
p p
E[X n ]1/p ≤ E[Xnp ]1/p ,
p−1
ce qui permet de conclure.
Remarque. Si (Yn ) est une martingale, on note Ỹn = sup0≤k≤n |Yk |. Alors, en appliquant le lemme
précédent à Xn = |Yn |, on obtient
Å ãp
p
E[Ỹnp ] ≤ E[|Yn |p ].
p−1
On peut maintenant énoncer le théorème de convergence Lp .
Théorème 3.2.9. Soit (Xn ) une martingale bornée dans Lp , p > 1. Alors il existe une variable aléatoire
X∞ ∈ Lp telle que Xn converge presque sûrement et dans Lp vers X∞ .
p p p
D’autre part, äp∞ | ] = sup{E[|Xn | ]}. Si on note X̃∞ = sup|Xn |, alors X̃∞ est également dans L
Ä E[|X
p p p
et E[|X̃∞ | ] ≤ p−1 E[|X∞ | ].
Enfin, Xn est une martingale fermée par X∞ , i.e. Xn = E[X∞ |Fn ].
Démonstration. Puisque (Xn ) est une martingale bornée dans Lp , donc dans L1 , elle converge presque
sûrement vers une variable X∞ ∈ L1 . D’autre part, si on note X̃n = sup0≤k≤n |Xk |, X̃∞ = limX̃n , donc
par convergence monotone Lp , on a X̃∞ ∈ Lp et X̃n converge vers X̃∞ dans Lp . Ainsi, d’après le lemme
précédent, Å ãp
p p
E[X̃∞ ]≤ sup{E[|Xn |p ]}.
p−1

www.mathonec.com
3 MARTINGALES 29

Or, |Xn −X∞ |p ≤ (|Xn |+|X∞ |)p ≤ 2p X̃∞


p
. On en déduit donc que X∞ ∈ Lp , et par convergence dominée
p p
L , que Xn converge vers X∞ dans L . On en déduit également que
Å ãp
p p
E[|X̃∞ | ] ≤ E[|X∞ |p ].
p−1

D’autre part, puisque |Xn |p est une sous-martingale, la suite (E[|Xn |p ]) est croissante, donc par
convergence Lp , E[|X∞
p
] = lim|Xn | = sup|Xn |.
Enfin, notons que l’application Y 7→ E[Y |Fn ] 1-lipschitzienne dans L1 . Ainsi,

E[|E[X∞ |Fn ] − E[Xm |Fn ]|] ≤ kX∞ − Xm kL1

et Xm converge vers X∞ dans Lp donc dans L1 . Ainsi, E[Xm |Fn ] converge vers E[X∞ |Fn ]. Or (Xn ) est
une martingale, donc Xn = E[Xm |Fn ] pour m ≥ n + 1. On obtient donc le dernier résultat du théorème,
à savoir Xn = E[X∞ |Fn ].
Pour attaquer l’étude de la convergence L1 des martingales, on s’intéresse à présent à la condition
d’uniforme intégrabilité.
Définition 3.2.1. Soit Γ une partie de L1 (Ω, F, P). On dit que Γ est uniformément intégrable si pour
tout réel  > 0, il existe un réel K tel que pour toute variable aléatoire X ∈ Γ, E[|X|1{|X|>K} ] ≤ .
C’est équivalent à demander que la limite pour k → ∞ de supX∈Γ {E[|X|1{|X|>k} ] soit nulle. On
remarque que si Γ est une partie de L1 uniformément bornée, au sens où il existe un réel K0 tel que pour
toute variable aléatoire X ∈ Γ, |X| ≤ K0 presque sûrement, alors Γ est uniformément intégrable.
Exemple. — L’exemple le plus simple est celui d’un singleton. Si X ∈ L1 , alors {X} est unifor-
mément intégrable. En effet, par convergence dominée, E[|X|1{|X|>k} ] tend vers 0 lorsque k tend
vers l’infini. De même, si Γ est finie, alors Γ est uniformément intégrable.
— Soit Y ∈ L1 , alors l’ensemble {X ∈ L1 , |X| ≤ Y } est uniformément intégrable.
— Tout sous-ensemble borné de Lp est uniformément intégrable (exercice). Par sous-ensemble borné,
on entend de norme Lp bornée.
Lemme 3.2.10. Soit Γ une partie de L1 (Ω, F, P). On suppose qu’il existe une fonction φ : R+ → R+
telle que φ(x)
x tend vers l’infini lorsque x tend vers l’infini et telle que supX∈Γ {E[φ(|X|)] < ∞}. Alors Γ
est uniformément intégrable.
Démonstration. On note M < ∞ la borne supérieure de {E[φ(|X|)]} pour X ∈ Γ. Soit  > 0, alors il
existe K ∈ R tel que φ(x) ≥ M × x pour x ≥ K. La variable aléatoire |X|1{|X|>K} est donc plus petite
 
que M φ(|X|) et donc E[|X|1{|X|>K} ] ≤ M E[φ(|X|)] ≤  pour X ∈ Γ, ce qui permet de conclure.
La caractérisation des parties uniformément intégrables suivante est bien utile.
Proposition 3.2.11. Soit Γ une partie bornée de L1 , i.e. de norme L1 bornée. Alors Γ est uniformément
intégrable si et seulement si

∀ > 0, ∃δ > 0, ∀A ∈ F, P(A) < δ ⇒ supX∈Γ {E[|X|1A ]} ≤ .

Démonstration. Soit Γ une partie bornée de L1 . Supposons Γ uniformément intégrable. Soit  > 0 et
soit a > 0 tel que supX∈Γ {E[|X|1{|X|>a} ]} ≤ 2 . Posons δ = 2a 
. Soit A ∈ F avec P(A) < δ. Alors

E[|X|1A ] ≤ E[|X|1A∩{|X|≤a} ] + E[|X|1A∩{|X|>a} ] ≤ aP(A) + 2 ≤ . Récriproquement, supposons la
propriété énoncée vérifiée. Alors, puisque Γ est borné dans L1 , on dispose de C < ∞ tel que C ≥ E[|X|]
pour X ∈ Γ. Soit a > 0 et soit X ∈ Γ. Par l’inégalité de Markov, on a P(|X| ≥ a) ≤ Ca . Soit alors  > 0
et δ comme dans la propriété énoncée. Alors pour a tel que Ca ≤ δ, on a E[|X|1{|X|>a} ] ≤  et ce pour
tout X ∈ Γ, ce qui permet de conclure.
On remarque par ailleurs qu’une famille uniformément intégrable est une partie bornée de L1 . En
effet, il suffit de voir que E[|X|1{|X|≥a} ] ≤ 1 pour un certain a et pour tout X dans la partie uniformément
intégrable. Les conséquences de cette proposition sont nombreuses. On va en particulier en déduire une
caractérisation de la convergence L1 des martingales.
Proposition 3.2.12. Soit X ∈ L1 , alors Γ = {E[X|G], G sous-tribu de F} est une partie uniformément
intégrable de L1 (Ω, F, P).

www.mathonec.com
3 MARTINGALES 30

Démonstration. La partie Γ est bornée dans L1 puisque kE[X|G]kL1 ≤ kXkL1 pour toute sous-tribu G
de F. D’autre part, soit  > 0 et soit a > 0, alors

E[|E[X|G]|1{|E[XG]|>a} ] ≤ E[E[|X||G]1{|E[X|G]|>a} ],

donc
E[|E[X|G]|1{|E[XG]|>a} ] ≤ E[|X|1{|E[X|G]|>a} ].
Or, d’après l’inégalité de Markov,
1 1 1
P(|E[X|G]| > a) ≤ E[|E[X|G]|] ≤ E[E[|X||G]] = E[|X|].
a a a
Considérons un module d’uniforme intégrabilité δ pour la partie {X} et pour . Soit a > 0 suffisamment
grand pour que a1 E[|X|] < δ. Alors P(|E[X|G]| > a) ≤ δ, donc

E[|E[X|G]|1{|E[XG]|>a} ] ≤ E[|X|1{|E[X|G]|>a} ] ≤ ,

ce qui permet de conclure.


Proposition 3.2.13. Soit (Xn ) un processus aléatoire avec Xn ∈ L1 . On suppose que (Xn ) converge
en probabilité vers une variable aléatoire X∞ ∈ L1 . Alors (Xn ) converge vers X∞ en norme L1 si et
seulement si {Xn } est uniformément intégrable.
Démonstration. Supposons que (Xn ) converge vers X∞ en norme L1 . Soit  > 0. Alors il existe N ∈ N tel
que pour n ≥ N , kXn − XN kL1 ≤ 2 . D’autre part, la famille {Xn } est bornée dans L1 et la famille finie
{X0 , ..., XN } est uniformément intégrable, donc par ce qui précède, il existe δ > 0 tel que si P(A) < δ,
E[|Xk |1A ] < 2 pour 0 ≤ k ≤ N . Enfin, en combinant les deux inégalités, on obtient pour n ≥ N ,
E[|Xn |1A ] ≤ E[|XN |1A ] + E[|Xn − XN |] ≤ , ce qui permet de conclure.
Réciproquement, supposons que {Xn } soit uniformément intégrable. Alors {Xn } est bornée en norme
L1 , donc il en va de même pour la partie {Xn − Xm }. On en déduit que la partie {Xn − Xm } est elle aussi
uniformément intégrable. Soit alors  > 0. Il existe un réel K tel que E[|Xn − Xm |1{|Xn −Xm |≥K} ] ≤ .
Ainsi, on a la majoration suivante :

E[|Xn −Xm |] ≤ E[|Xn −Xm |1{|Xn −Xm |}≤ ]+E[|Xn −Xm |1{≤|Xn −Xm |≤a} ]+E[|Xn −Xm |1{a≤|Xn −Xm |} ].

Le premier et le dernier terme dans la somme à droite sont majorés eux-mêmes par . Quant à celui du
milieu, il est majoré par aP(|Xn − Xm | ≥ ). Ce terme tend vers 0 quand n et m tendent vers l’infini
d’après la convergence en probabilité de (Xn ) vers X∞ . On en déduit que la suite (Xn ) est de Cauchy
0 0
dans L1 , donc par complétude converge vers une variable aléatoire X∞ . Enfin, nécessairement X∞ = X∞
1
puisque la convergence L implique la convergence en probabilité (et que la topologie de la convergence
en probabilité est séparée).
Théorème 3.2.14. Soit (Xn ) une martingale. Alors les conditions suivantes sont équivalentes :
— {Xn } est uniformément intégrable,
— (Xn ) converge presque sûrement et dans L1 vers une variable aléatoire X∞ ∈ L1 ,
— (Xn ) converge dans L1 vers une variable aléatoire X∞ ∈ L1 ,
— (Xn ) converge dans L1 vers une variable aléatoire X∞ ∈ L1 et Xn = E[X∞ |Fn ].
— (Xn ) est fermée, i.e. il existe une variable aléatoire X∞ ∈ L1 telle que Xn = E[X∞ |Fn ].
Démonstration. Supposons que {Xn } est uniformément intégrable. Alors en particulier, {Xn } est bornée
dans L1 . Puisque c’est une martingale, (Xn ) converge presque sûrement vers une variable aléatoire X∞
qui est L1 . En particulier, elle converge en probabilité vers X∞ , donc d’après la proposition précédente,
elle converge en norme L1 . Réciproquement, si (Xn ) converge en norme L1 , alors {Xn } est uniformément
intégrable, toujours par la proposition précédente.
D’autre part, si (Xn ) converge en norme L1 , alors elle est de norme L1 bornée donc converge presque
sûrement vers une variable X∞ ∈ L1 . Les deux limites sont alors les mêmes, car la convergence L1
implique la convergence presque sûre le long d’une sous-suite. On a donc montré que les trois premières
assertions sont équivalentes.
Supposons à présent que (Xn ) converge en norme L1 vers une variable aléatoire X∞ . Pour m ≥ n deux
entiers, on a Xn = E[Xm |Fn ]. Or, l’application Y 7→ E[Y |G] est une contraction dans l’espace L1 . En
particulier, c’est une application continue et donc E[Xm |Fn ] converge vers E[X∞ |Fn ]. On a donc montré

www.mathonec.com
3 MARTINGALES 31

que les quatre premières assertions sont équivalentes. On a de plus montré que les quatres premières
assertions impliquent la dernière.
Enfin, supposons que (Xn ) soit une martingale fermée. Alors, la famille {Xn } est une sous-famille
de {E[X|G], G sous-tribu de F} donc est uniformément intégrable. Finalement, les cinq assertions sont
équivalentes.

3.3 Quelques résultats sur les temps d’arrêts


Dans toute cette partie, si Fn est une filtration d’une tribu F, si (Xn ) est un processus adapté à
valeurs réelles qui converge presque sûrement vers une variable aléatoire X∞ et si T est un temps d’arrêt,
on note

X
XT := 1{T =n} Xn + 1{T =∞} X∞ .
n=0

Proposition 3.3.1. Avec ces notations, XT est FT -mesurable.


Démonstration. En effet, {XT ∈ B}∩{T = n} = {Xn ∈ B}∩{T = n} ∈ Fn pour B un borélien réel.
Théorème 3.3.2. Soit (Xn ) une martingale uniformément intégrable et soient S et T deux temps d’arrêt.
Alors,
— XT ∈ L1 , XT = E[X∞ |FT ] et E[|XT |] ≤ E[|X∞ |],
— ∀n ∈ N, E[XT ] = E[X∞ ] = E[Xn ],
— Si S ≤ T , alors XS = E[XT |FS ].
Démonstration. Tout d’abord, XT ∈ L1 . En effet, puisque {Xn } est une martingale uniformément inté-
grable, Xn = E[X∞ |Fn ]. Donc E[|Xn |] ≤ E[|X∞ |] et donc E[|XT |] ≤ E[|X∞ |] < ∞.
Montrons alors que XT = E[X∞ |FT ]. Soit A ∈ FT . Puisque XT et X∞ sont L1 , les interversions
sommes espérances qui vont suivre sont justifiées. On a
X X
E[1A XT ] = E[1A∩{T =n} XT ] + E[1A∩{T =∞} X∞ ] = E[1A∩{T =n} E[X∞ |Fn ]] + E[1A∩{T =∞} X∞ ].
n∈N n∈N

Or, par définition de FT , dans la somme, les événements A ∩ {T = n} sont Fn -mesurables. On en déduit
que
X X
E[1A XT ] = E[E[1A∩{T =n} X∞ |Fn ]] + E[1A∩{T =∞} X∞ ] = E[1A∩{T =n} X∞ ] = E[1A X∞ ].
n∈N n∈N∪{∞}

Ainsi, par définition de l’espérance conditionnelle, XT = E[X∞ |FT ]. Le deuxième point est une consé-
quence immédiate du premier. Enfin, le troisième point découle du faite que si S ≤ T , alors FS ⊂ FT .
On peut faire deux remarques à propos de ce théorème. Tout d’abord, dans le cas où (Xn ) est une
martingale uniformément intégrable, puisque la limite X∞ est intégrable, la famille

{XT , T est un temps d’arrêt}

est uniformément intégrable, en tant que sous-famille de

{E[X|G], G sous-tribu de F}.

D’autre part, si (Xn ) est une martingale, non nécessairement uniformément intégrable et que N est un
entier fixé, alors (Xn∧N ) est une martingale uniformément intégrable sur laquelle on peut appliquer le
théorème.
Donnons à présent un deuxième résultat sur les temps d’arrêt.
Théorème 3.3.3. Soit (Xn ) une sur-martingale et soit T un temps d’arrêt. Si (Xn ) est positive ou bien
si (Xn ) est uniformément intégrable, alors XT est intégrable. D’autre part, si S ≤ T est un autre temps
d’arrêt, alors dans le cas où (Xn ) est uniformément intégrable, on a XS ≥ E[XT |FS ] et dans le cas où
(Xn ) est positive, on a 1{S<∞} XS ≥ E[1{T <∞} XT |FS ].

www.mathonec.com
3 MARTINGALES 32

Démonstration. Plaçons tout d’abord dans le cas où (Xn ) est une sur-martingale positive. Alors, par
le lemme de Fatou, pour tout N ∈ N, on a E[XT ] ≤ lim inf E[XT ∧k ]. Puisque T ∧ k est un temps
borné, on obtient donc E[XT ] ≤ E[X0 ], donc XT est L1 . Soit alors S ≤ T . On notera X̃S := 1{S<∞} XS
et X̃T := 1{T <∞} XT . On suppose dans un premier temps que T est presque sûrement borné, disons
par un entier N . On rappelle qu’on a montré que si (Xn ) est une sous-martingale, S ≤ T deux temps
d’arrêts presque sûrement bornés, alors E[XS ] ≤ E[XT ]. On a donc ici ((Xn ) est une sur-martingale)
E[XS ] ≥ E[XT ]. Soit alors A ∈ FS . Puisque S ≤ T , A ∈ FT . On conditionne les temps d’arrêts par A.
Explicitement, on définit S A (ω) = S(ω) si ω ∈ A et S A (ω) = N sinon. De même, on définit T A . Puisque
T A et S A sont aussi bornés par N , on obtient E[XS A ] ≥ E[XT A ], soit E[XS 1A ] ≥ E[XT 1A ].
À présent, si S ≤ T sont quelconques (non bornés), on pose Sk = S ∧ k, Tk = T ∧ k. Soit B ∈ FS , on
pose A := B ∩ {S ≤ k}. Alors, par ce qui précède,
E[XSk ]1A ] ≥ E[XTk 1A ] ≥ E[XTk 1B∩{T ≤k} ].
En effet, {T ≤ k} ⊂ {S ≤ k}. Or, XSk = XS sur {S ≤ k} et de même pour T , donc on réécrit cette
dernière inégalité
E[XS 1B∩{S≤k} ] ≥ E[XT 1B∩{T ≤k} ].
Alors, par simple convergence dominée, en passant à la limite on obtient
E[XS 1B∩{S<∞} ] ≥ E[XT 1B∩{T <∞} ],
soit
E[X̃S 1B ] ≥ E[X̃T 1B ].
Enfin, puisque B ∈ FS , E[X̃T 1B ] = E[E[X̃T |FS ]1B ] et puisque X̃S est FS mesurable, on conclut de tout
ceci que X̃S ≥ E[X̃T |1B ], soit ce que l’on voulait démontrer.
Plaçons nous maintenant dans le cas où la famille {Xn } est uniformément intégrable. Dans ce cas,
comme pour les martingales, on obtient que la famille est bornée dans L1 donc converge presque sûrement,
donc en probabilité vers une variable X∞ , donc converge dans L1 vers X∞ . Puis, comme (Xn ) est une
sur-martingale, Xn ≥ E[Xm |Fn ] pour m ≥ n, donc Xn ≥ E[X∞ |Fn ]. Posons alors Zn = E[X∞ |Fn ],
de sorte que Yn := Xn − Zn soit une sur-martingale positive. Alors (Zn ) est une martingale fermée qui
converge presque sûrement vers X∞ , donc Yn converge presque sûrement vers Y∞ = 0. On note que
YT = XT − ZT et que par le premier cas qu’on a traité, YT est L1 . Puisqu’il en va de même de ZT (car
Zn est une martingale fermée), on obtient que XT est L1 .
Supposons maintenant que S ≤ T sont deux temps d’arrêt. Alors (Yn ) est une sur-martingale positive
et Y∞ = 0, donc les fonctions indicatrices des ensembles {S < ∞} et {T < ∞} sont superflues dans l’in-
égalité 1{S<∞} YS ≥ E[1{T <∞} XT |FS qui provient du premier cas traité. En particulier, YS ≥ E[XT |FS ]
et puisque (Zn ) est une martingale fermée, ZS = E[ZT |FS ]. Ainsi, on obtient bien XS ≥ E[XT |FS ].

3.4 Martingales rétrogrades


Passons maintenant à la dernière partie de ce cours qui concerne les martingales rétrogrades. Si F est
une tribu, une filtration rétrograde de F est une suite indexée par −NT(Fn ) où Fn est une sous-tribu
de F et pour tous n ≤ m ≤ 0, Fn ⊂ Fm . On pose dans ce cas F−∞ := Fn . Soit (Xn ) un processus
n∈−N
aléatoire indexé par −N. Il est dit adapté à la filtration rétrograde Fn si Xn est Fn -mesurable. On dit alors
que (Xn ) est une martingale rétrograde si Xn ∈ L1 et si pour tous n ≤ m ≤ 0, Xn = E[Xm |Fn ]. On
définit aussi exactement comme avant les sur-martingales rétrogrades et les sous-martingales rétrogrades.
Théorème 3.4.1. Soit (Xn ) une sur-martingale rétrograde. On suppose que (Xn ) est bornée dans L1 .
Alors, la famille (Xn ) est uniformément intégrable. De plus, il existe une variable aléatoire X−∞ ∈ L1
telle que Xn converge presque sûrement et dans L1 vers X−∞ lorsque −n tend vers l’infini. Enfin, pour
tout n ∈ −N, E[Xn |F−∞ ] ≤ X−∞ .
k k k
Démonstration. Soit k ≥ 1 un entier positif fixé. On pose Xm = X−k+m et Fm = Fm , pour m un entier
k k k
compris entre 0 et k. Si m > k, on pose Xm = X0 et Fm = F0 . Alors (Xm )m∈N est une sur-martingale
k
pour la filtration Fm .
On va utiliser la méthode des montées de Doob pour montrer que (Xn ) converge vers X−∞ . On
reprend les mêmes notations qu’au début du paragraphe sur la convergence des martingales (3.2). Puisque
k
(−Xm )m∈N est une sous-martingale, si a < b, on a
(b − a)E[Uk ([a, b]] ≤ E[(−Xkk − a)+ ] = E[(−X0 − a)+ ] ≤ |a| + E[|X0 |].

www.mathonec.com
3 MARTINGALES 33

Or, on a que la limite de Uk [a, b], lorsque k tend vers l’infini, est
U [a, b] := sup{k ∈ N, ∃m1 < n1 < ... < mk < nk ≤ 0, −Xmj ≤ a, −Xnj ≥ b, j ∈ {1, ..., k}}.
C’est le nombre total de montées de la suite (−Xn ) le long de [a, b].
Par convergence monotone, on a donc (b − a)E[U ([a, b]] ≤ |a| + E[|X0 |] < ∞. Donc, pour tout a < b,
N [a, b] est fini presque sûrement et donc Xn converge presque sûrement vers une variable aléatoire X−∞ .
D’autre part, le lemme de Fatou donne que X−∞ est L1 .
On montre à présent que la famille est uniformément intégrable. Soit  > 0. La suite (E[X−n ])n∈N est
croissante et majorée (puisque Xn est bornée dans L1 ). Donc il existe k ≤ 0, tel que pour tout n ≤ k,
E[Xn ] ≤ E[Xk ] + 2 . En tant que famille finie, {Xk , ..., X0 } est uniformément intégrable, donc il existe
a > 0 tel que pour tout k ≤ n ≤ 0, E[|Xn |1{|Xn |>a} ] < . Choisissons, par uniforme intégrabilité de {Xk }
un nombre δ > 0 tel que pour tout événement A ∈ F tel que P(A) < δ, E[|Xk |1A ] < 2 . Soit alors n < k,
on a
E[|Xn |1{|Xn |>a} ] = E[Xn 1{Xn >a} ] + E[−Xn 1{Xn <−a} ] = E[Xn ] − E[Xn 1{Xn ≤a} ] − E[Xn 1{Xn <−a} ].
On introduit alors Xk :

E[|Xn |1{|Xn |>a} ] ≤ E[Xk ] + − E[E[Xk |Fn ]1{Xn ≤a} ] − E[E[Xk |Fn ]1{Xn <−a} ].
2
Or, puisque {Xn < −a} et {Xn ≤ a} sont Fn -mesurables, on en déduit que
 
E[|Xn |1{|Xn |>a} ] ≤ E[Xk ]−E[Xk 1{Xn ≤a} ]−E[Xk 1{Xn <−a} ]+ = E[Xk 1{Xn >a} ]−E[Xk 1{Xn <−a} ]+ .
2 2
Donc finalement,

E[|Xn |1{|Xn |>a} ] ≤ E[|Xk |1{|Xn |>a} ] + .
2
Alors, en utilisant l’inégalité de Markov, P(|Xn | > a) ≤ Ca (où C est une borne pour les normes L1
de la famille (Xn ) par exemple). Ainsi, en choisissant a tel que C < δa, on obtient que pour n < k,
E[|Xn |1{|Xn |<a} ] < , ce qui permet de conclure, puisque le cas n ≥ k est déjà réglé.
Puisque (Xn ) et uniformément intégrable et que (Xn ) converge presque sûrement vers X−∞ , donc
en particulier en probabilité, (Xn ) converge en norme L1 vers X−∞ .
Enfin, soient n ∈ −N et A ∈ F−∞ . Alors, pour m ≤ n, E[Xn 1A ] ≤ E[E[Xm |Fn ]1A ] ≤ E[Xm 1A ]. Donc
E[E[Xn |F−∞ ]1A ] ≤ E[Xm 1A ]. Donc, E[E[Xn |F−∞ ]1A ] ≤ E[X−∞ 1A ]. Enfin, X−∞ est F−∞ -mesurable
donc on obtient au final E[Xn |F∞ ] ≤ X−∞ .
À noter que les martingales rétrogrades sont un outil puissant. On peut par exemple montrer la loi
forte des grands nombres assez facilement (voir par exemple [3], fin du chapitre 12). On conseille la
lecture de [4] pour beaucoup d’autres applications des martingales à la théorie des probabilités et à la
théorie de la mesure.

Conclusion
On a étudié dans ce cours deux type de processus aléatoires, les chaînes de Markov et les martingales.
Ces deux processus doivent être considérés comme complémentaires plutôt que distincts. On a vu à
plusieurs reprises que l’on pouvait adopter différents points de vue pour traiter un problème "aléatoire".
Typiquement, une marche aléatoire est une chaîne de Markov, mais on peut aussi la voir comme une
martingale, ce qui donne des informations sur sa convergence. Un autre exemple qu’on a traité dans le
cours est celui du paradoxe du singe savant.
Les chaînes de Markov et les martingales sont deux pierres d’angles à la base de nombreuses théories
probabilistes. Ce sont également des outils puissants. Par exemple, les martingales donnent souvent des
résultats de convergence. À nouveau, on recommande chaudement la lecture de [4].
Une première suite logique pour ce cours serait une étude approfondie des marches aléatoires. On a vu
très brièvement qu’on pouvait considérer des marches aléatoires dans des groupes. Étudier ces marches
aléatoires donne bien souvent des informations sur le groupe lui-même. C’est un sujet très riche car il
mêle des problématiques géométriques, dynamiques et probabilistes entre autres.
Une autre suite logique, plus probabiliste, serait l’étude de processus aléatoires à temps continu. C’est
par exemple, dans [3], la suite des chapitres qui concernent les chaînes de Markov et les martingales. C’est
également le cas de nombreuses autres références. On pourrait notamment s’intéresser au mouvement
Brownien, dans l’étude duquel on retrouve les martingales.

www.mathonec.com
RÉFÉRENCES 34

Références
[1] Philippe Barbé et Michel Ledoux. Probabilités. EDP sciences, 2007.
[2] Joseph Doob. Stochastic processes. Wiley, 1953.
[3] Jean-François Le Gall. Intégrations, probabilités et processus aléatoires. https ://www.math.u-
psud.fr/ jflegall/teaching.html. 2006.
[4] David Williams. Probability with martingales. Cambridge mathematical textbooks, 1991.

www.mathonec.com