Académique Documents
Professionnel Documents
Culture Documents
Ces notes sont celles d’un cours de deuxième année donné à l’ENS Lyon en 2014. Elles ont été rédigées
par P. UMBER (conditionnement et chaînes de Markov) et M. DUSSAULE (martingales). Les erreurs
qui s’y trouvent ne sont aucunement du fait de C. Garban. D’autre part, même s’il s’agit essentiellement
du cours de C. Garban, on pourra trouver des notes prises à partir d’autres cours, typiquement pour
la démonstration de certains résultats que C. Garban n’a pas eu le temps de prouver. Ces autres notes
proviennent principalement de [3]. D’ailleurs, selon les mots de l’enseignant, ce cours est très proche de
[3]. Il en diffère cependant par les exemples et par quelques digressions.
Ce cours, sobrement intitulé probabilités avancées, développe la théorie des chaînes de Markov et des
martingales. Il s’agit donc plus spécifiquement d’un cours sur les processus aléatoires à temps discrets.
On commencera par quelques rappels en théorie générale des probabilités, notamment sur les questions
de conditionnement, qui interviendront tout au long du cours.
2 Chaînes de Markov 4
2.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Chaîne de Markov canonique et propriétés de Markov . . . . . . . . . . . . . . . . . . . . 8
2.3 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Chaînes de Markov et mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Martingales 22
3.1 Martingales, sur-martingales, sous-martingales . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Convergence(s) des martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Quelques résultats sur les temps d’arrêts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Martingales rétrogrades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Intoduction
Commençons ce cours par un exemple simple. Considérons la marche aléatoire d’un cavalier sur un
échiquier, partant de la case en bas à gauche x0 , et notons Xn la variable aléatoire qui prend en compte
la position du cavalier au temps n. Notons enfin T le premier temps de retour du cavalier en xo . Le but
de l’excercice est de calculer l’espérance E[T ]. On peut montrer que cette espérance est finie et même
calculer sa valeur :
X X 1
E[T ] = P(T = n)n = P(T = n)n = 2 + .. = 168.
npair
6
n≥1
Nous verrons plus loin dans ce cours comment y arriver une fois les bons outils développés. L’idée est,
comme en théorie ergodique, de considérer une moyenne temporelle que l’on veut réexprimer en moyenne
spatiale, considérer une suite de mesures µn et de considérer sa "limite" µ∞ . L’objet de ce cours est plus
www.mathonec.com
1 ESPÉRANCE CONDITIONNELLE 2
généralement l’étude de processus aléatoires, indéxés sur un ensemble dénombrable à valeur dans un
espace mesurable (E, E).
Exemple. On a quelques exmples issus de la vie courante, comme le CAC (mais impossible à modéliser),
le relevé d’un sismographe, le casino, qui peut être modélisé via une sur-martingale (que nous verrons
dans la troisième partie de ce cours), le relevé d’une bouteille à la mer, les pages web internet, ou encore
le mélange d’un jeu de cartes.
Exemple. On a aussi des exemples plus mathématiques, comme l’étude d’une suite de varaiables aléa-
toires indépendantes, à veleur dans R et considérer la suite des sommes partielles, une marche aléatoire
dans un graphe, dans un groupe, ou encore l’étude du processus de branchement de type Galton-Watson.
1 Espérance conditionnelle
1.1 Préambule
Définition 1.1.1. Soit (E, E) un espace mesurable. Une filtration de (E, E) est une suite croissante
(Fn ) de sous-tribus de E . L’espace (E, E, (Fn )) est appelé espace mesurable filtré et si P est une
probabilité sur Ω, on dit que (Ω, E, (Fn ), P) est une espace de probabilité filtré.
Exemple. On considère l’espace mesurable (E, E) = ([0, 1], B([0, 1])) que l’on muni de la filtration
dyadique donnée par F0 = {∅, [0, 1]}, F1 = {∅, [0, 21 ], [ 21 , 1], [0, 1]} ...
∀B ∈ G, E[X1B ] = E[Z1B ].
Remarque. De manière équivalente, E[X|G] est l’unique variable aléatoire dans L1 (Ω, G, P) telle que, pour
tout Y variable aléatoire G-mesurable bornée, E[XY ] = E[E[X|G]Y ].
Cette propriété est appelée propriété caractéristique de l’espérance conditionnelle. On notera
que l’espérance conditionnelle est une variable aléatoire, et que si X est déjà G-mesurable, alors on a la
relation E[X|G] = X.
Définition 1.2.1. Avec les mêmes notations, si (Yi ) est une famille de variables alétoires, on pose
E[X|(Yi )] := E[X|σ((Yi ))] .
On peut interpréter E[X|Y ] de la manière suivante : Si ω est un point de Ω, choisi au hasard, dont
la seule information que l’on dispose est la valeur Y (ω), alors E[X|Y ](ω) est la valeur moyenne de X en
prenant compte de l’information Y (ω) , comme déterminer la température moyenne d’un lieu en prenant
compte de son altitude.
Définition 1.2.2. Soit A ∈ F, on pose P(A|G) := E[1A |G] que l’on appelle probabilité conditionnelle
de A sachant G.
Exemple. Si Ω est la population Française et G est la tribu engendrée par l’ensemble B1 des personnes
qui vivent en Île de France et B2 l’ensemble de celles qui vivent dans le Rhône, en notant T le temps
moyen de transport par jour, alors E[T |G] = 1B1 2h + 1B2 1h + 1Ω−B1 ∪B2 15min.
Exemple. Si f est une fonction L1 sur ]0, 1], Gn est la filtration dyadique, et si l’on pose In,i :=] 1−i i
2n , 2n ],
n
2
X Z
alors E[f |Gn ] = 2n f 1In,i . Cela approxime la fonction f par des rectangles.
i=1 In,i
Pour pouvoir démontrer ce théorème, nous allons dans un premier temps démontrer une version L2
du théorème de l’espérance conditionnelle.
www.mathonec.com
1 ESPÉRANCE CONDITIONNELLE 3
Théorème 1.2.2. Soient X une variable aléatoire dans L2 (Ω, F, P) et G une sous-tribu de F. Alors il
existe une unique variable aléatoire Z dans L2 (Ω, G, P) et qui vérifie
On notera encore E[X|G] la variable Z. Si de plus X est positive, alors Z l’est aussi.
Démonstration. Commençons par montrer l’unicité. Si Z et Z 0 sont deux variables qui vérifient le théo-
rème, alors, on pose B := {Z > Z 0 } ∈ G. On a E[X1B ] = E[Z1B ] = E[Z 0 1B ] donc E[(Z − Z 0 )1Z>Z 0 ] = 0.
Ainsi on a Z ≤ Z 0 presque sûrement. De même, Z 0 ≤ Z, donc Z = Z 0 presque sûrement. Pour l’exis-
tence, on sait que L2 est un espace d’Hilbert, et L2 (Ω, G, P) est un sous-espace fermé de L2 (Ω, F, P) car
complet. Ainsi, on a la décomposition L2 (Ω, F, P) = L2 (Ω, G, P) ⊕ L2 (Ω, G, P)⊥ . On note π la projection
orthogonale sur L2 (Ω, G, P), et l’on pose Z := π(X). Soit Y ∈ L2 (Ω, G, P), on a alors :
E[XY ] = hX, Y i
= hπ(X) + (X − π(X)), Y i
= hπ(X), Y i
= E[ZY ]
Ceci montre l’existence. Démontrons la dernière proposition : Si P(E[Z|G] < 0) > 0, alors il existe
> 0 tel que P(E[Z|G] < −) > 0. On pose alors B := {E[Z|G] < −} qui est un élément de G. Alors
0 < E[E[Z|G]1B ] = E[Z1B ] ≥ 0 ce qui est absurde, d’où le résultat.
On peut noter deux conséquences de ce théorème :
— Si X ∈ L2 (Ω, G, P), alors on a E[X|G] = X.
— Si G1 ⊂ G2 sont deux sous-tribus de F , alors E[E[X|G2 ]|G1 ] = E[X|G1 ].
Passons à présent à la preuve de la première version du théorème :
Démonstration. On prouve de la même manière que dans le cas L2 l’unicité de l’espérance conditionnelle.
Intéressons-nous à l’existence : On suppose donc X ∈ L1 (Ω, F, P). Supposons de plus que X ≥ 0. On
pose Xn := X1{X≤n} . La suite (Xn ) est croissante et chaque Xn est dans L2 car bornée et positive,
donc E[Xn |G] est positive. On pose alors E[X|G] := lim E[Xn |G]. La variable E[X|G] est bien dans L1 car
n
(E[E[Xn |G]]) converge vers E[E[X|G]] par théorème de convergence monotone et E[E[Xn |G]] = E[Xn ],
avec (E[Xn ]) qui converge vers E[X] par théorème de convergence monotone. De plus, Si B ∈ G , on
pose Y := 1B , alors la suite (Xn Y ) est croissante et converge vers XY . De même, la suite (E[Xn |G]Y )
est croissante et converge vers E[X|G]Y , on conclu donc en passant par l’espérance et en utilisant le
théorème de convergence monotone. Dans le cas général, lorsque X est non positif, on décompose X en
sa partie positive et négative et on conclu par linéarité.
www.mathonec.com
2 CHAÎNES DE MARKOV 4
= sup aE[X|G] + b
(a,b)∈Eφ ∩Q
= φ(E[X|G]).
On considère la borne supérieure sur un ensemble dénombrable pour pouvoir sortir le sup de l’espé-
rance conditionnelle.
donc E[1B |G2 ] = E[1B ], puis l’égalité est encore vraie pour toute variable aléatoire positive.
Réciproquement, si pour tout X variable aléatoire positive G1 -mesurable, on a E[X|G2 ] = E[X],
considérons B ∈ G2 , A ∈ G1 . Par hyposthèse, on a P(A) = E[1A |G2 ], donc
Corollaire 1.3.3. Si X et Y sont deux variables aléatoires positives ou dans L1 alors X et Y sont
indépendantes si et seulement si, pour toute fonction numérique h positive, on a E[h(X)|Y ] = E[h(X)].
Ainsi, si X et Y sont indépendantes, avec X positive ou dans L1 , alors E[X|Y ] = E[X]. Cette dernière
proposition n’est cependant pas une équivalence.
Notons pour terminer une expression de l’espérance conditionnelle dans le cas où Y est une variable
aléatoire à valeur dans un ensemble E dénombrable et X une variable aléatoire dans L1 . Alors on a
E[X|Y ] = φ(Y ) où φ est une fonction de E dans R telle que, pour y ∈ E, φ(y) = P(Y1=y) E[X1{Y =y} ] si
P(Y = y) > 0 et prend une valeur quelconque sinon, E[X|Y ] étant de toute façon définie à un ensemble
de mesure nulle près.
2 Chaînes de Markov
Dans tout ce chapitre, E sera un ensemble fini ou dénombrable, dit espace d’états.
www.mathonec.com
2 CHAÎNES DE MARKOV 5
Définition 2.1.2. Soient Q une matrice de transition et (Xn ) un processus aléatoire. La suite (Xn ) est
une chaîne de Markov de matrice de transition Q si pour tout n et pour tous x0 , .., xn ∈ E, si
P(X0 = x0 , .., Xn = xn ) > 0, alors
Cette propriété est dite propriété de Markov. On parle aussi d’absence de mémoire. On montre
facilement que cette propriété est équivalente à la suivante :
pour tout n et pour tous x0 , .., xn ∈ E,
Avec la seconde forme de la propriété de Markov, on voit qu’une chaîne de Markov de matrice de
transition Q est entièrement déterminée par sa condition initiale, c’est-à-dire la donnée des P(X0 = x0 ).
Définition 2.1.3. Soit (Xn ) une chaîne de Markov. On définit la loi initiale de la chaîne de Markov
par µ0 : x0 7−→ P(X0 = x0 ). Le couple (Q, µ0 ) est appelé mécanisme de transition. On pose aussi
µn := PXn .
Exemple. Soit (Xn ) une chaîne de Markov de matrice de transition Q. Si p ≥ 1 est un entier et si l’on
pose Yn := Xnp , alors (Yn ) définie une chaîne de Markov de matrice de transition Qp .
Remarque. On verra plus tard une manière canonique de construire une chaîne de Markov en se donnant
un mécanisme de transition.
On considère à présent (Xn ) une chaîne de Markov de matrice de transition Q sur l’espace E.
Proposition 2.1.1. — µn = µ0 Qn
— Pour toute fonction positive bornée de E dans R, on a µn (f ) = Eµ0 [f (Xn )] = µ0 Qn f .
Remarque. On a utilisé dans la dernière proposition la notation naturelle matricielle où les mesures sont
des vecteurs lignes et les fonctions sont des vecteurs colonnes.
Démonstration. Démontrons par exemple la première proposition : soit y ∈ E. On a
X
µn (y) = P(X0 = x0 , Xn = y)
x0 ∈E
X
= P(X0 = x0 , .., Xn = xn = y)
x0 ,...,xn ∈E
xn =y
X
= µ0 (xo )Q(x0 , x1 )..Q(xn−1 , y)
x0 ,...,xn ∈E
xn =y
= µ0 Qn (y).
Exemple.
Å ã la chaîne de Markov à deux états a et b de matrice de transition définie par
Considérons
1−
Q= , avec ∈]0, 1[. On pose µ0 := δa . On a alors µ1 = δa + (1 − )δb . En itérant,
1−
on peut montrer que (µn ) converge en loi vers 12 µa + 12 µb . On remarque que pour = 0 il n’y a pas
convergence de la mesure.
Définition 2.1.4. Soit µ une mesure positive non nulle sur E, finie en chaque point. La mesure µ est
dite invariante pour Q si µQ = µ.
Proposition 2.1.2. Soit (Q, µ0 ) un mécanisme de transition. On suppose qu’il existe une mesure de
probabilité π telle que la suite (µn ) converge en loi vers π, alors π est une mesure invariante pour Q.
Démonstration. Soit f une fonction réelle bornée définie sur E, alors comme la suite (µn ) converge en loi
vers π, µn (f ) converge vers π(f ). Par ailleurs, µn (f ) = µ0 Qn f et µn+1 (f ) = µ0 Qn Qf et Qf est bornée
car Q est une matrice stochastique, donc π(f ) = π(Qf ), donc π = πQ.
Remarque. Il se peut que Q admette une mesure invariante mais que le système ne converge pas vers
cette mesure.
www.mathonec.com
2 CHAÎNES DE MARKOV 6
Exemple. — Si (Xn ) est une suite de variables aléatoires indépendantes identiquement distribuées
de loi µ, alors (Xn ) est une chaîne de Markov de matrice de transition définie par Q(x, y) = µ(y)
.
— Si G est un graphe connexe localement fini (non orienté), la marche aléatoire associée à G est
donnée par la matrice de transition
1
Q(x, y) = 1x∼y
deg(x)
où deg(x) est le nombre d’arrêtes qui partent de x et 1x∼y le lieu caractéristique des sommets
adjacents à x. Si le graphe est fini, on pose
deg(x)
µ(x) := X ,
deg(y)
y∈G
où les ξn,i sont des variables aléatoires indépendantes identiquement distribuées de loi µ sur E,
avec ici E = N. Alors (Zn ) est une chaîne de Markov sur N de matrice de transition
X
Q(x, y) = P(Zn+1 = y|Zn = x) = µ∗x (y) = µ(a1 )...µ(ax ).
a1 +..+ax =y
— On pose E = (N∗ )2 et on considère la matrice de transition (Q((a, b), (a0 , b0 ))) donnée par
a b
Q((a, b), (a + 1, b)) := , Q((a, b), (a, b + 1)) := .
a+b a+b
On a ainsi défini le modèle de l’urne de Polya. On considère une urne remplie de boules de deux
couleurs. À chaque étape, on prend une boule dans l’urne, que l’on remet et on ajoute une boule
de la même couleur dans l’urne.
— On fixe N un entier non nul, on pose E = {0, .., N }. On pose alors
N −n
Q(n, n + 1) := ,n < N
N
et
n
Q(n, n − 1) := , n > 0.
N
On parle ici d’urne de Ehrenfest. Si
Ç å
−N N
µ(n) := 2
n
Exemple. Si E est l’ensemble des cases d’un échiquier, le mouvement d’un cavalier et d’une tour est
irréductible mais celui du fou ne l’est pas.
Proposition 2.1.3. On suppose que Q est irréductible. Soit π une mesure Q-invariante. Alors π ne
s’annule pas.
www.mathonec.com
2 CHAÎNES DE MARKOV 7
Démonstration. Comme π est non nulle par définition, considérons x ∈ E tel que π(x) > 0. Alors si
y ∈ E, comme Q est irréductible, on peut considérer k tel que Qk (x, y) > 0. On a alors
X
π(y) = π(z)Qk (z, y) ≥ π(x)Qk (x, y) > 0.
z∈E
donc n + m ∈ Γ(y). Ainsi, Γ(x) + m ⊂ Γ(y), donc Γ(x) ⊂ Γ(y) − m donc d(y)|d(x). De même, d(x)|d(y)
donc d(x) = d(y).
On va s’intéresser à la convergence vers une mesure invariante dans la cas où E est fini.
Proposition 2.1.5. On suppose que E est fini. Alors Q admet une mesure invariante.
Démonstration. D’un point de vue matriciel, trouver une mesure invariante pour Q revient à trouver un
vecteur propre à gauche de Q de valeur propre 1. On remarque que le vecteur colonne de taille n (où
n est le cardinal de E) qui n’a que des 1 est un vecteur propre à droite de Q car Q est une matrice
stochastique. Comme le spectre de Q est le même que Qt , on en déduit que Q admet un vecteur propre
à gauche de valeur propre 1. Par ailleurs, on cherche un vecteur propre à coefficient positif de somme
égale à 1 pour avoir une mesure Q-invariante.
Xn
On pose ∆n−1 := {x ∈ Rn , xi ≥ 0 et xi = 1}, qui est compact convexe non vide, et l’on définit la
i=1
fonction Φ : x ∈ ∆n−1 7→ xQ ∈ ∆n−1 , alors Φ est continue, donc admet un point fixe dans ∆n−1 d’après
le théorème de point fixe de Brouwer, d’où le résultat.
Donnons une seconde preuve plus ergodique du résultat. Soit µ0 une mesure de probabilité sur E.
n
n 1X
On pose µn := µ0 Q et πn := µi . Comme ∆n−1 est compact, il existe une extractrice φ telle que
n i=0
1
πφ(n) converge vers une mesure de probabilité π. Par ailleurs, πφ(n) = πφ(n) + φ(n)+1 (µφ(n)+1 − µ0 ) donc,
par continuité de Φ, on a πQ = π.
Proposition 2.1.6. On suppose E fini. Alors le rayon spectral de Q est égal à 1.
Démonstration. On pose kxk := max |xi |. La norme subordonnée associée à cette norme sur les matrices
i
de taille n est X
kM k = max |Qi,j |.
i
j
1
Ainsi, comme Q est une matrice stochastique, on a kQn k n = 1. Comme les normes subordonées sont des
normes d’algèbres, par le théorème du rayon spectral de Gelfand, on a ρ(Q) = 1.
On peut aussi utiliser le théorème de Perron Frobenius, qui sera admis ici, et qui donne un résultat
plus précis :
Théorème 2.1.7. Soit A une matrice de taille n à coefficients positifs et irréductible. Alors il existe
une valeur propre λ de A telle que λ = ρ(A). λ est dit valeur propre de Perron. De plus, λ est une
valeur propre simple, et admet un vecteur propre π > 0, et tout autre vecteur propre π 0 > 0 de A est
2iπ
proportionnel à π. Si A est de période d, les seules valeurs propres µ de module égal à λ sont les e d λ
et elles sont toutes simples.
www.mathonec.com
2 CHAÎNES DE MARKOV 8
On peut donc conclure que, si E est fini et si Q est irréductible, alors la chaîne de Markov admet
une unique mesure invariante. On verra plus tard dans un cas plus général l’unicité de cette mesure
invariante. On a aussi une vitesse de convergence pour le cas apériodique :
Proposition 2.1.8. On suppose que E est fini et Q est irréductible apériodique.
On pose α := sup{|λ|, λ 6= 1, λ ∈ Sp(Q)}. Alors :
— α<1
— ∀µ0 , ∀β > α, ∀p ∈ [1; +∞], ∃C, kµn − πkp ≤ Cβ n pour n assez grand, où π est l’unique mesure
invariante. Ainsi, on peut dire qu’il y a convergence exponentielle.
Démonstration. Le premier point est une conséquence du théorème de Perron-Frobenius. Pour le second
point, on note v le vecteur de Rn dont les coefficients sont tous 1.LComme les coefficients de π sont
tous strictement positifs, π n’est pas dans v ⊥ , donc Rn = V ect(π) v ⊥ . On remarque que v ⊥ est un
sous-espace stable à gauche de Q. En effet, si x ∈ v ⊥ , on a (xQ)v = x(Qv) = x · v = 0. Donc v ⊥ est un
sous-espace stable à droite de Qt , et comme Rn = V ect(π) v ⊥ , Q est équivalente à la matrice
L
Å ã
1 0
,
0 B
où B est une matrice carré de taille n − 1. Par le théorème de Perron Frobenius, le rayon spectral de B
est α < 1.
À présent, on écrit µ0 = λπ + x avec x ∈ v ⊥ . On a µ0 v = 1 = λπv = λ donc µ0 = π + x. Comme π
est invariante, on a µn = π + xQn = π + x(B t )n . Par ailleurs, par le théorème de Gelfand, on a
1
α = ρ(B) = ρ(B t ) = lim k(B t )n kpn ,
n
donc kµn − πkp ≤ kxkp k(B t )n kp ≤ kxkp β n pour n assez grand. Ainsi, C := kxkp convient.
où n vaut 0 ou 1. Ainsi, on a la donné d’une suite (n ) de variables aléatoires indépendantes identiquement
distribuées telle que P(n = 1) = P(n = 0) = 21 . Soit φ : N × N → N une bijection. On pose ηi,j := φ(i,j)
et X
Ui := ηi,j 2−j−1 .
j≥n
Alors (Ui ) est une suite de variables aléatoires indépendantes identiquement distribuées de loi U([0, 1]).
p
X Xp
En effet, si p ∈ N∗ , ηi,j 2−j−1 a la même loi que n 2−j−1 .
j=0 j=0
On note E = {yi }i∈N∗ . Soit X00 la variable aléatoire à valeur dans E telle que PX00 = µ0 .
On pose alors
k−1
X Xk
0
Xn+1 := yk si Q(Xn0 , yj ) < Un+1 ≤ Q(Xn0 , yj ).
j=1 j=1
www.mathonec.com
2 CHAÎNES DE MARKOV 9
On a alors :
k−1
X k
X
P0 (Xn+1
0
= yk |X00 = x0 , .., Xn0 = xn ) = P0 ( Q(xn , yj ) < Un+1 ≤ Q(xn , yj )|X00 = x0 , .., Xn0 = xn )
j=1 j=1
k−1
X k
X
= P0 ( Q(xn , yj ) < Un+1 ≤ Q(xn , yj )).
j=1 j=1
k
X k−1
X
Q(xn , yj ) − Q(xn , yj ) < Un+1 = Q(xn , yk ).
j=1 j=1
On a donc le résultat.
Voyons à présent une seconde construction, dîte canonique. On pose Ω := E N et F := P(E)⊗N . On
note Xn : Ω −→ E la n-ème projection canonique (on parle de processus des coordonnées). On
rappelle que F = σ(Xn |n ∈ N).
Théorème 2.2.2. Il existe une unique mesure de probabilité Pµ0 sur Ω telle que, sous Pµ0 , le processus
des coordonnées est une chaîne de Markov induite par (Q, µ0 ).
Démonstration. On reprend les notations de la première construction. On pose Φ : (Ω0 , F 0 , P0 ) −→ (Ω, F)
définie par ω 0 7→ (Xn0 (ω 0 ))n∈N et l’on défini Pµ0 comme la mesure poussée en avant par Φ. Comme
Xn ◦ Φ = Xn0 est mesurable, Φ est mesurable (conséquence de la tribu produit sur Ω). On a :
Définition 2.2.3. Soit G une application mesurable définie sur Ω à valeur dans [0, +∞] ou à valeur
dans R et intégrable. On note Eµ [G] l’espérance de G calculée avec la probabilité Pµ , et l’on adopte la
même notation lorsqu’il s’agit d’une espérance conditionnelle. Plus généralement, on peut définir sur E
la fonction ϕG : x 7→ Ex [G]. On pose alors EXn [G] := ϕG (Xn ), qui est une variable aléatoire à valeur
dans [0, +∞] ou réelle, et qui s’interprète comme étant l’espérance de G en partant de l’état Xn .
Proposition 2.2.4. Propriété de Markov simple : Soit G application mesurable définie sur Ω à valeur
dans [0, +∞] ou à valeur dans R et intégrable. Alors Eµ0 [G ◦ θn |Fn ] = EXn [G]. Autrement dit, la loi
conditionnelle de θn sachant Fn est la chaîne de Markov partant de Xn .
www.mathonec.com
2 CHAÎNES DE MARKOV 10
(F étant Fn -mesurable), et
G = 1X0 =y0 ,..,Xk =yk
où k ≥ 0 et x0 , .., xn , y0 , .., yk ∈ E ; on pourra alors conclure par linéarité et par argument de covergence
monotone. On peut aussi supposer, par linéarité, que µ0 = δx pour un certain x ∈ E.
D’une part, si y ∈ E, on a Ey [G = Py (X0 = x0 , .., Xk = yk ) = δy,y0 Q(y0 , y1 )..Q(yk−1 , yk ).
D’autre part, on a :
On a ainsi le résultat.
On veut à présent généraliser cette propriété de Markov, non pas au temps n, mais à un temps
aléatoire.
Définition 2.2.4. Soit T : Ω −→ N (où N = N ∪ {∞}). On dit que T est un temps d’arrêt associé
à la filtration (Fn )n∈N si : ∀n ∈ N, {T = n} ∈ Fn .
On remarque que l’on peut changer l’évènement {T = n} de la définition par {T ≤ n}. De plus,
l’évènement {T = ∞} n’est pas à négliger. On peut écrire {T = ∞} = ( n∈N {T = n})c . On peut aussi
S
remarquer que {T ≥ n + 1} ∈ Fn .
FT := {A ∈ F, ∀n ∈ N, A ∩ {T = n} ∈ Fn }.
Proposition 2.2.6. Soit T et S deux temps d’arrêt. On suppose que S ≤ T . Alors FS est une sous-tribu
de FT .
n
[
Démonstration. Soit A ∈ FS et n ∈ N. On a A ∩ {T = n} = (A ∩ {S = k}) ∩ {T = n} ∈ Fn .
k=0
Théorème 2.2.7. Propriété de Markov forte : Soit T un temps d’arrêt et G une variable aléatoire réelle
ou positive, intégrable, définie sur Ω. Alors Eµ0 [1T <∞ G ◦ θT |FT ] = 1T <∞ EXT [G]
Démonstration. On remarque que XT est une application définie sur l’ensemble FT -mesurable {T < ∞}.
Ainsi, l’expression 1T <∞ EXT [G] a bien un sens.
Soit F : Ω −→ R une application FT -mesurable intégrable.
On veut montrer que Eµ0 [F 1T <∞ G ◦ θT ] = Eµ0 [F 1T <∞ EXT [G]]. On a :
www.mathonec.com
2 CHAÎNES DE MARKOV 11
X
Eµ0 [F 1T <∞ G ◦ θT ] = Eµ0 [F 1T =n G ◦ θT ]
n
X
= Eµ0 [F 1T =n G ◦ θn ] avec F 1T =n ∈ Fn
n
X
= Eµ0 [F 1T =n EXn [G]] d’après la propriété de Markov faible
n
= Eµ0 [F 1T <∞ EXT [G]]
On dit que x est récurrent si Nx = ∞ presque sûrement pour Px . Si x n’est pas récurrent, on dit que
x est transient ou transitoire.
Définition 2.3.2. On pose G : E ×E −→ R+ définie par (x, y) 7→ Ex [Ny ]. C’est la matrice potentielle
ou fonction de x. Cette fonction compte le nombre de passage en y en partant de l’état x.
X
Proposition 2.3.1. Soit x, y ∈ E. Alors G(x, y) = Qn (x, y).
n≥0
Démonstration. On a
G(x, y) = Ex [Ny ]
X
= Ex [ 1Xn =x ]
n≥0
X
= Px [Xn = y]
n≥0
X
= Qn (x, y).
n≥0
Définition 2.3.3. Soit x ∈ E. On pose Tx,0 := 0 et pour k ≥ 1, Tx,k = Tx := inf{n > Tx,k−1 , Xn = x},
dit k-ème temps de retour en x. On note Tx,1 = Tx .
Proposition 2.3.2. — Les Tx,k sont des temps d’arrêt
— On a FTx,0 ⊂ FTx,1 ⊂ .. ⊂ FTx,k ⊂ ..
Démonstration. Montrons, par exemple, que Tx est un temps d’arrêt. Soit n ≥ 0. On a
www.mathonec.com
2 CHAÎNES DE MARKOV 12
Démonstration. Soit k ≥ 0. On a :
G(x, x) = Ex [Nx ]
X
= Px (Nx ≥ k)
k≥0
1
=
1 − Px (Tx < ∞)
1
=
Px (Tx = ∞)
En utilisant le fait que Px (Nx ≥ k) = Px (Tx < ∞)k−1 , et l’égalité qui précède, on a alors les
équivalences.
Proposition 2.3.4. Soient x, y ∈ E avec x 6= y, alors G(x, y) = Px (Ty < ∞)G(y, y)
Démonstration. On a :
G(x, y) = Ex [Ny ]
= Ex [1Ty <∞ Ny ◦ θTy ]
= Px (Ty < ∞)Ey [Ny ] d’après la propriété de Markov forte
Xd
Exemple. Considérons la marche aléatoire sur le groupe Zd associée au système de générateurs { i ei }
i=1
k
où i ∈ {−1, 1}. On a Q2k+1 (0, 0) = 0 et Q2k (0, 0) = (2−2k )d . On a donc :
2k
X
G(0, 0) = Q2k (0, 0)
k≥0
Ç å
X
−2k 2k d
= (2 )
k
k≥0
Par ailleurs, on a :
√
1 ( 2k
Ç å 2k
−2k 2k e ) 4πk
2 ∼ 2k k √
k 2 (( e )k 2πk)2
…
1
∼
πk
Ainsi, si d = 1, 2, alors tous les points sont récurrents, et si d ≥ 3, alors tous les points sont transients.
On note R l’ensemble des états récurrents.
Proposition 2.3.5. Soient x ∈ R et y ∈ E. On suppose que G(x, y) > 0. Alors y ∈ R, Py (Tx < ∞) = 1
et G(y, x) > 0. En particulier, si x ∈ R et y ∈ E − R, alors G(x, y) = 0.
Démonstration. On a
www.mathonec.com
2 CHAÎNES DE MARKOV 13
0 = Px (Nx < ∞)
≥ Px (Ty < ∞, Tx ◦ θTy = ∞)
= Px (1Ty <∞ 1Tx =∞ ◦ θTy )
= Px (1Ty <∞ Py (Tx = ∞)) d’après la propriété de Markov forte
= Px (Ty < ∞)Py (Tx = ∞)
Comme G(x, y) > 0 et x est récurrent, Px (Ty < ∞) > 0, donc Py (Tx = ∞) = 0, donc Py (Tx < ∞) = 1
et G(y, x) = G(x, x) > 0.
Considérons à présent n1 , n2 ≥ 1 tels que Qn1 (x, y) > 0 et Qn2 (y, x) > 0. Alors,
. Ainsi,
X
G(y, y) ≥ Qn1 +n2 +p (y, y)
p≥0
X
≥ Qn2 (y, x)( Qp (x, x))Qn1 (x, y)
p≥0
= ∞.
0 < Px (T < ∞)
= Px ( inf Ty < ∞)
y∈R
X
≤ Px (Ty < ∞).
y∈R
www.mathonec.com
2 CHAÎNES DE MARKOV 14
Soit y ∈ R tel que Px (Ty < ∞) > 0. Soit j ∈ I tel que y ∈ Rj . Alors Px (XT ∈ Rj ) > 0. Soit enfin n ≥ T ,
on a
On a alors le résultat.
Corollaire 2.3.7. On suppose que le chaîne est irréductible.
— Ou bien tous les états sont récurrents, alors il n’existe qu’une seule clsse de récurrence et
∀x ∈ E, Px (∀y ∈ E, Ny = ∞) = 1;
∀x ∈ E, Px (∀y ∈ E, Ny < ∞) = 1.
Définition 2.3.4. Lorsque l’on est dans le premier cas du corollaire précédent, on dit que la chaîne est
récurrente irréductible.
Px (Tx < ∞) = 1,
En effet, si y 6= x et que l’on part de l’état x, on ne peut pas se trouver en y au temps 0 ni au temps Tx .
Si y = x, on a
Px (X0 = x) = Px (XTx = x) = 1.
Montrons que µ est une mesure Q-invariante. Cela découle du calcul suivant.
www.mathonec.com
2 CHAÎNES DE MARKOV 15
x −1
TX
µ(y) = Ex [ 1Xk =y ]
k=0
Tx
X
= Ex [ 1Xk =y ]
k=1
X Tx
X
= Ex [ 1Xk =y,Xk−1 =z ]
z∈E k=1
XX
= Ex [1Tx ≥k 1Xk−1 =z 1X1 =y ◦ θk−1 ] où 1Tx ≥k 1Xk−1 =z ∈ Fk−1
z∈E k≥1
XX
= Ex [1Tx ≥k 1Xk−1 =z EXk−1 [1X1 = y]] d’après la propriété de Markov faible
z∈E k≥1
X x −1
TX
= Ex [ 1Xk =z ]Q(z, y) car 1Xk−1 =z EXk−1 [1X1 = y] = 1Xk−1 =z Pz (X1 = y) = 1Xk−1 =z Q(z, y)
z∈E k=0
X
= µ(z)Q(z, y).
z∈E
1 = µ(x)
= µQn (x)
X
= µ(z)Qn (z, x).
z∈E
Comme x est récurrent, si G(x, y) > 0, alors G(y, x) > 0, donc ∃n ∈ N, Qn (y, x) > 0, ce qui montre
que µ(y) < ∞ d’après ce qui précède. Si G(x, y) = Ex [Ny ] = 0, alors µ(y) = 0. Montrons enfin le
dernier point. Si y est dans la même classe de récurrence que x, alors on peut considérer m ∈ N tel que
Qm (x, y) > 0. Notons que µ(x) = 1. On a alors
X
µ(y) = µ(z)Qm (z, y)
z∈E
≥ Qm (x, y)
> 0.
Théorème 2.4.2. On suppose ici que la chaîne est récurrente irréductible. Alors il existe une unique
mesure invariante à constante positive non nulle près.
Démonstration. Soit x ∈ E = R. On note πx la mesure définie pour x dans le théorème précédent. Soit µ
une autre mesure invariante. Comme la chaîne est irréductible, la mesure est non nulle en chaque point.
On peut donc supposer que µ(x) = 1. On va montrer que µ = πx , et donc dans un premier temps que
µ ≥ πx , puis πx ≥ µ. Soit y ∈ E. On a
X
µ(y) = µ(z1 )Q(z1 , y)
z1 ∈E
X
= Q(x, y) + µ(z1 )Q(z1 , y)
z1 ∈E−{x}
X
= Q(x, y) + µ(z2 )Q(z2 , z1 )Q(z1 , y)
z1 6=x
z2 ∈E
X X
= Q(x, y) + Q(x, z1 )Q(z1 , y) + µ(z2 )Q(z2 , z1 )Q(z1 , y).
z1 6=x z1 6=x
z2 6=x
www.mathonec.com
2 CHAÎNES DE MARKOV 16
On remarque que
2∧(Tx −1)
X X
Q(x, y) + Q(x, z1 )Q(z1 , y) = Ex [ 1Xk =y ].
z1 6=x k=0
Par suite, comme la chaîne est récurrente, Px (Tx < ∞) = 1, donc µ(y) ≥ πx (y).
Réciproquement, on a :
1 = µ(x)
X
= µ(z)Q(z, x)
z∈E
X
≥ πx (z)Q(z, x)
z∈E
= πx (x)
= 1.
Ainsi, l’inégalité est une égalité, donc ∀z, µ(z) = πx (z), et donc µ = πx .
2
Exemple.
X Considérons la marche aléatoire sur Z , on sait que la chaîne est récurrente irréductible, alors
µ := δx est l’unique mesure invariante telle que µ(0) = 1.
x∈Z2
Corollaire 2.4.3. On suppose que la chaîne est récurrente irréductible. On considère µ la mesure (donnée
à une constante près) du théorème précédent. Alors :
— Ou bien µ(E) < ∞, alors il existe une unique mesure de probabilité invariante, et dans ce cas on
1
a ∀x, y ∈ E, Ey [Tx ] < ∞ et µ(x) = Ex [T x]
— Ou bien µ(E) = ∞, et dans ce cas ∀x ∈ E, Ex [Tx ] = ∞.
Dans le premier cas, on dit que la chaîne est récurrente positive, et dans le second cas, que la chaîne
est récurrente nulle. On remarque que si, de plus, E est fini, alors la chaine est récurrente positive.
Démonstration. Soit x ∈ E, on note πx la mesure invariante définie en x utilisée dans les théorèmes
précédents. On a :
X
πx (E) = πx (y)
y∈E
X x −1
TX
= Ex [ 1Xk =y ]
y∈E k=0
x −1
TX
= Ex [ 1]
k=0
= Ex [Tx ].
Ceci montre déjà le deuxième point. Pour le premier point, on pose µ := πxπ(E)x
, alors d’après le
théorème précédent, µ est l’unique mesure de probabilité Q-invariante sur E, et l’on a d’après ce qui
1
précède µ(x) = Ex [T x]
. Enfin, si y ∈ E, on a Ey [Tx ] ≤ Ex [Tx ] < ∞.
Exemple. Considérons la marche aléatoire du cavalier sur l’échiquier, la chaîne est récurrente positive,
et la mesure de probabilité invariante est donnée par
deg(x) deg(x)
π(x) = P = .
y deg(y) 336
On note a la case en bas à gauche de l’échiquier, on a deg(a) = 2, donc d’après ce qui précède, on a
Ea [Ta ] = 336
2 = 168 : le temps moyen de premier retour en a en partant de a est 168 coups.
www.mathonec.com
2 CHAÎNES DE MARKOV 17
Théorème 2.4.4. On suppose que Q est irréductible et qu’il existe une mesure Q-invariante finie, alors
la chaîne est récurrente, et donc récurrente positive.
Démonstration. Il suffit de montrer que le chaîne est récurrente. On note µ une mesure finie Q-invariante,
et on considère y ∈ E tel que µ(y) > 0. Comme la chaîne est irréductible, il suffit de montrer que y est
récurrent, c’est-à-dire que G(y, y) = ∞. Soit x ∈ E. On a
X
Qn (x, y) = G(x, y) ≤ G(y, y)
n≥0
Alors, Pn R
k=0 f (Xk ) f dµ
∀x ∈ E, Px (lim Pn = R ) = 1.
n k=0 g(Xk ) gdµ
Démonstration. Soit x ∈ E. Pour simplifier les notations, on pose Tn := Tx,n .
Remarquon que Px (Tn < ∞) = 1. En effet, soit k ≥ 0, on a
www.mathonec.com
2 CHAÎNES DE MARKOV 18
Montrons le par récurrence sur k. On suppose le résultat vrai au rang k − 1. Les variables Z0 (f ), ..,
Zk−1 (f ) sont FTk -mesurables. En effet, si n ≤ k − 1, alors f (Xn ) est Fn -mesurable, donc Fk -mesurable.
Soit à présent B un borélien de R+ :
— si n = k − 1 et p ∈ N, on a
[ p−1
X
Zn (f )−1 (B) ∩ {Tk = p} = ({Tk = p} ∩ {Tn = i} ∩ ( f (Xk ))−1 (B)) ∈ Fp .
i<p l=i
— si n < k − 1 et p ∈ N, on a
[ Xj
−1
Zn (f ) (B) ∩ {Tk = p} = ({Tk = p} ∩ {Tn = i} ∩ {Tn+1 = j} ∩ ( f (Xl ))−1 (B)) ∈ Fp .
i<j<p l=i
Ainsi, (Zk (f )) est une suite de variables aléatoires indépendantes identiquement distribuées, donc
d’après la loi forte des grands nombres,
n−1 R
1X f dµ
Zk (f ) −→ E ,
n n→∞ µ(x)
k=0
www.mathonec.com
2 CHAÎNES DE MARKOV 19
on a
n
X
g(Xk ) > 0
k=0
Démonstration. Soit A ⊂ E, on a µ(A) + µ(Ac ) = 1 = ν(A) + ν(Ac ), donc µ(A) − ν(A) = ν(Ac ) − µ(Ac ),
on a donc
1
|µ(A) − ν(A)| = (|µ(A) − ν(A)| + |µ(Ac ) − ν(Ac )|)
2
1X
≤ |µ(x) − ν(x)|.
2
x∈E
Corollaire 2.4.7. On a
www.mathonec.com
2 CHAÎNES DE MARKOV 20
Proposition 2.4.8. La topologie induite par la distance en variation totale correspond à la convergence
en loi.
Démonstration. On considère des mesures de probabilité µn et µ sur E.
On suppose que (µn (f )) converge vers µ(f ) pour toute fonction f : E −→ R bornée. Si l’on choisit f
comme étant la fonction caractéristique en un point y ∈ E, on voit que ∀y ∈ E, limn µn (y) = µ(y). Soit
> 0. Comme µ est une mesure finie, il existe A ⊂ E un ensemble fini tel que µ(Ac ) ≤ . Comme A
est fini, d’après ce qui précède, on a pour n assez grand
X
|µn (x) − µ(x)| ≤ .
x∈A
1 X X
d(µn , µ) ≤ ( |µn (x) − µ(x)| + µn (x) + µ(x))
2 c
x∈A x∈A
1
≤ + µ(Ac ) + µn (Ac )
2
1
≤ + 3.
2
On a donc (µn ) qui converge vers µ pour la distance en variation totale.
Réciproquement, on suppose que (µn ) converge vers µ pour la distance en variation totale, et soit
f : E −→ R une fonction bornée. On a alors :
X
|µn (f ) − µ(f )| ≤ |µn (x) − µ(x)||f (x)|
x∈E
≤ 2kf k∞ d(µn , µ).
Ainsi, (µn (f )) converge vers µ(f ), et on a le résultat.
Définition 2.4.2. Soient µ et ν deux mesures de proababilité sur un espace de probabilité Ω. On appelle
couplage de µ et ν le donnée d’une paire de variables aléatoires (X, Y ) à valeur dans Ω × Ω telle que
la marginale de X est µ et la marginale de Y est ν
Exemple. Si µ a pour loi la densité f (x)dx et ν a pour loi la densité g(y)dy alors (X, Y ), de loi la
densité f (x)g(y)dxdy est un couplage de µ et ν.
Exemple. On peut considérer les couplages de trois Bernoulli suivants :
— si Xi ∼ B( 21 ), alors (X1 , X2 , X3 ) en est un,
— si X1 ∼ B( 12 ), alors (X1 , X1 , X1 ) en est un autre,
— si X1 , X2 ∼ B( 12 ), avec X1 et X2 indépendants, alors (X1 , X2 , X1 X2 ) en est encore un autre.
Exemple. On peut considérer les couplages de deux Gaussiennes suivants √ : soit X, Y deux gaussiennes
indépendantes identiquement distribuées, et a ∈ [−1, 1], alors (X, αX + 1 − α2 Y ) est un couplage de
deux Gaussiennes.
Proposition 2.4.9. Soient µ, ν deux mesures de probabilité sur E. Alors,
d(µ, ν) = min P(X 6= Y ).
(X,Y ) couplage de µ et ν
www.mathonec.com
2 CHAÎNES DE MARKOV 21
Ainsi, on a
d(µ, ν) ≤ min P(X 6= Y ).
(X,Y ) couplage de µ et ν
Réciproquement, on pose X
p := µ(x) ∧ ν(x).
x∈E
On a
X X
p= µ(x) + ν(x)
x∈E x∈E
µ(x)≤ν(x) ν(x)≤µ(x)
X X
= µ(x) − (µ(x) − ν(x))
x∈E x∈E
ν(x)≤µ(x)
= 1 − d(µ, ν).
On construit alors le couplage (X, Y ) de la façon suivante : avec probabilité p, on choisit aléatoirement
X = Y = x suivant la loi µ(x)∧ν(x)
p , et avec probabilité 1 − p, on choisit aléatoirement X = x µ(x)−ν(x)
1−p
si µ(x) < ν(x), et Y = x ν(x)−µ(x)
1−p si ν(x) > µ(x). Vérifions que l’on obtient un couplage de µ et ν. Soit
x ∈ E, alors,
donc lim supn d(Qn µ0 , Qn π) ≤ 12 µ0 (Ekc ) par hypothèse, puis on a bien (µn ) qui converge vers π. Ainsi,
on suppose par la suite que µ0 = δx pour x fixé. L’idée de la démonstration est de trouver un couplage
(X˜n , Y˜n ) efficace, où (Xn ) est une chaîne de Markov de matrice de transition Q partant de δx , et (Yn )
partant de π. Pour réaliser un tel couplage, on considère dans un premier temps le couplage donné par
la chaîne de Markov couplée (Xn , Yn ) de matrice de transition Q((x1 , y1 ), (x2 , y2 )) = Q(x1 , x2 )Q(y1 , y2 ).
Montrons à présent que Q récurrente positive :
— Soit x, y ∈ E. Alors : ∃n0 , ∀n ≥ n0 , Qn (x, y) > 0. En effet, comme la chaîne est irréductible, il suffit
de traiter le cas où x = y. Comme la chaîne est apériodique, il existe n1 , m1 avec n1 − m1 = 1
et Qn1 (x, x) > 0 et Qm1 (x, x) > 0. Si m1 = 0, alors n0 = 0 convient. Si m1 ≥ 1, alors, pour
2
0 ≤ j ≤ m1 − 1, on a Qm1 +j (x, x) = Qjn1 +(m1 −j)m1 (x, x) > 0, donc n0 = m21 convient.
— La matrice Q est irréductible. En effet, soit x1 , x2 , y1 , y2 ∈ E. D’après ce qui précède, on peut
choisir n0 tel que, pour n ≥ n0 , on a Qn (x1 , x2 ) > 0 et Qn (y1 , y2 ) > 0. Alors, pour n ≥ n0 , on a
Qn ((x1 , y1 )(x2 , y2 )) = Qn (x1 , x2 )Qn (y1 , y2 ) > 0, ce qui montre que Q est irréductible.
— Pour conclure, on vérifie que π ⊗ π est une mesure invariante finie pour Q, ce qui montre que Q
est récurrente positive.
En particulier, pour x, x0 , y, y0 ∈ E, on a E(x,y) [T(x0 ,y0 ) ] < ∞.
On pose T := inf T(z,z) = inf {(Xn , Yn ) ∈ ∆} où ∆ est la diagonale de E. Alors T est un temps d’arret
z∈E n∈N
pour la chaîne de Markov (Xn , Yn ). D’après ce qui précède, on a E(x,y) [T ] < ∞, donc P(x,y) (T < ∞) = 1.
www.mathonec.com
3 MARTINGALES 22
Ainsi, on peut poser X˜n = Xn si n ≤ T , X˜n = Yn si n > T et Y˜n = Yn . Montrons que (X˜n , Y˜n ) est
un couplge de δx et π : soit x, y ∈ E, on a
Px (X˜n = y) = Px (T > n, X˜n = y) + Px (T ≤ n, X˜n = y)
Xn X
= Px (T > n, Xn = y) + Px (T = k, Xk = z, Yn = y)
k=0 z∈E
Xn X
= Px (T > n, Xn = y) + Ex [1T =k 1Xk =z 1Yn−k =y ◦ θk ]
k=0 z∈E
Xn X
= Px (T > n, Xn = y) + Ex [1T =k 1Xk =z EYk =z [Yn−k = y]] (Markov faible)
k=0 z∈E
Xn X
= Px (T > n, Xn = y) + Ex [1T =k 1Xk =z EXk =z [Xn−k = y]]
k=0 z∈E
= Px (T > n, Xn = y) + Px (T ≤ n, Xn = y) en effectuant le chemin inverse
= Px (Xn = y).
Ainsi, d’après la proposition 2.4.9, on a
d(Qn δx , Qn π) ≤ P(X˜n 6= Y˜n )
= Px (T > n)
X
= π(y)P(x,y) (T > n).
y∈E
3 Martingales
On va étudier maintenant un autre processus aléatoire, à savoir les martingales. On commence par
étudier le paradoxe du singe savant. Considérons un alphabet fixé A, B, ..., Z et l’ensemble des mots
E = {A, B, ..., Z}N . Supposons qu’un singe tape aléatoirement sur une machine à écrire avec les lettres
de l’alphabet qu’on s’est donné. Alors le paradoxe énonce qu’à un moment donné, presque sûrement le
singe aura tapé l’intégralité des oeuvres de Victor Hugo. Si on note T le temps d’arrêt pour lequel le singe
met un point final à son premier Les Misérables, la question qu’on se pose est de savoir que vaut E[T ]. Pour
simplifier, dans la suite, on va plutôt étudier le temps d’arrêt pour lequel le singe écrit ABRACADABRA.
On note T ce temps d’arrêt et on note T 0 celui correspondant au mot ABRACABRADA. Un deuxième
objectif est de comprendre la différence entre T et T 0 et entre E[T ] et E[T 0 ]. Pour étudier E[T ], on peut
adopter deux points de vue, celui des chaînes de Markov, ou celui des martingales qu’on va développer
à présent.
On conseille à nouveau le livre [1] comme référence pour cette partie. Un ouvrage très intéressant
également est [4], dans lequel l’auteur utilise les martingales pour montrer beaucoup de résultats très
généraux d’intégration.
www.mathonec.com
3 MARTINGALES 23
On peut interpréter une martingale comme un jeu d’argent équitable. En effet, imaginons un jeu de
casino et un joueur. On note Xn la quantité d’argent du joueur au temps n. La tribu Fn désigne ce que l’on
sait au temps n, en particulier le résultat des parties précédentes. Alors, la propriété E[Xn+1 |Fn ] = Xn
s’interprète en disant que la moyenne des gains au temps n + 1, en sachant ce qui s’est passé est égale
à l’ensemble des gains au temps n. De même, une sur-martingale correspond à un jeu défavorable (ce
qui est plus susceptible d’arriver dans un casino) et avec la même interprétation, une sous-martingale
correspond aux gains du casino.
L’exemple le plus simple de martingale est celui d’une martingale fermée. Si X est une variable
aléatoire L1 et si Fn est une filtration, on pose Xn = [X|Fn ]. Alors, la filtration Fn est adpatée au
processus aléatoire (Xn ) et pour cette filtration, Xn est une martingale. On dit que c’est une martingale
fermée.
On rappelle que si (V, E) est un graphe, on peut définir un laplacien discret en posant
X ϕ(y)
∆ϕ(x) = − ϕ(x),
deg(x)
où la somme est prise sur tous les voisins y de x (et deg(x) est le nombre de ces voisins) pour ϕ : V → R
une fonction. On dit alors qu’une fonction ϕ : V → R est harmonique (respectivement sous-harmonique,
sur-harmonique) si pour tout x ∈ V, ∆ϕ(x) = 0 (respectivement ∆ϕ(x) ≥ 0, ∆ϕ(x) ≤ 0). Pour une
chaîne de Markov définie sur un graphe, de matrice de transition Q, on retrouve la condition déjà étudiée
Qf = f . Le lien avec les martingales est le suivant. Si Xn est une marche aléatoire simple sur le graphe
(V, E) et ϕ une fonction sur V , alors ϕ(Xn ) est une martingale (respectivement sous-martingale, sur-
martingale) si et seulement si φ est harmonique (respectivement sous-harmonique, sur-harmonique). Par
exemple, la fonction x ∈ Zd 7→ kxk2 ∈ R est sous-harmonique. Ainsi, si Xn est la marche aléatoire simple
sur Zd , alors (kXn k2 ) est une sous-martingale. En particulier, la marche aléatoire sur Zd s’éloigne de 0
comme une sous-martingale.
Un autre exemple de martingale est donné par les marches aléatoires réelles. Soient Yi des variables
aléatoires indépendantes indexées par N. On suppose les Yi intégrables et d’espérance nulle. Alors en
posant Fn la tribu engendrée par les variables Yi pour i variant de 1 à n, et en posant Xn = ni=1 Yi ,
P
on a
E[Xn+1 |Fn ] = E[Xn + Yn+1 |Fn ] = Xn + E[Yn+1 ] = Xn .
On a donc une martingale. Si on avait supposé les espérances positives (respectivement négatives) on
aurait obtenu une sous-martingale (respectivement sur-martingale).
Remarquons par ailleurs que si (Xn ) est un processus aléatoire réel, alors (Xn ) est une sur-martingale
si et seulement si (−Xn ) est une sous-martingale.
Proposition 3.1.1. Soit (Xn ) une suite de variables aléatoires L1 . Alors (Xn ) est une martingale si et
seulement si pour tous entiers 0 ≤ n ≤ m, E[Xm |Fn ] = Xn .
Démonstration. Le sens réciproque est clair, car il suffit de prendre n + 1 pour m. Pour le sens direct,
cela résulte du calcul suivant :
E[Xm |Fn ] = E[E[Xm |Fm−1 ]|Fn ].
On procède alors par récurrence sur n ∈ N et par récurrence sur m ≥ n.
Comme conséquence immédiate, on a que l’espérance d’une martingale est constante. Une autre
remarque que l’on peut faire est que si la martingale est définie sur un domaine de temps fini, alors c’est
une martingale fermée. En effet, si n varie entre 0 et N et si E[Xn+1 |Fn ] = Xn , alors Xn = E[XN |Fn ].
À noter qu’on a le même résultat pour les sur-martingales et les sous-martingales, en particulier,
l’espérance d’une sur-martingale est décroissante. D’autre part, la croissances ou la décroissance non
pas des espérances mais du processus aléatoire lui-même donne des résultats réciproques. Explicitement,
si (Xn ) est un processus adapté à une filtration mesurée, intégrable et décroissant, alors (Xn ) est une
sur-martingale.
Proposition 3.1.2. Soit ϕ : R → R∗ une fonction convexe. Alors si Xn est une martingale et si ϕ(Xn )
est intégrable, ϕ(Xn ) est une sous-martingale.
Démonstration. Par l’inégalité de Jensen conditionnelle, on obtient E[ϕ(Xn+1 )|Fn ] ≥ ϕ(E[Xn+1 |Fn ]) et
comme (Xn ) est une martingale, E[ϕ(Xn+1 )|Fn ] ≥ ϕ(Xn ).
www.mathonec.com
3 MARTINGALES 24
X∞ ∞
X
E[Xn+1 |Fn ] = E[ ξn,j 1{j≤Xn } |Fn ] = E[ξn,j 1{j≤Xn } |Fn ],
j=1 j=1
Xn
où on note m l’espérance commune des variables ξi,j . Si on pose Zn = m n , on obtient que (Zn ) est une
martingale.
Donnons encore un autre exemple, celui des martingales produits. Soient Yn des variables aléatoire
indépendantes telles que E[Yn ] = 1. On pose Xn = ni=1 Yi et on considère la filtration mesurée canonique
Q
Fn = σ(Y1 , ..., Yn ). Alors Xn est une martingale. En effet,
n+1
Y n
Y
E[Xn+1 |Fn ] = E[ Yi |Fn ] = Yi E[Yn+1 |Fn ] = Xn ,
i=1 i=1
www.mathonec.com
3 MARTINGALES 25
Si n ≤ j − 1, on arrête l’indicatrice avant d’arriver à des variables Xl avec l < 0, c’est-à-dire, on considère
{X1 = Lj−n+1 , ..., Xn = Lj }. La variable Mn définit ainsi une martingale. Heuristiquement, au temps n,
on gagne 26 euros si on a écrit A, 262 si on a écrit RA, 263 pour BRA ... et on retranche n à cette somme.
On retrouve bien que M1 est égal à 25 si le singe a trouvé la bonne lettre et −1 sinon. Ainsi, E[M1 ] = 0.
On applique le théorème précédent pour obtenir que E[MT ] = E[M1 ] = 0. En effet, on peut borner E[T ].
On considère le temps d’arrêt T 00 pour lequel le singe écrit ABRACADABRA avec le A final sur un
numéro de lettre divisible par 11. Par définition, T ≤ T 00 . Puisqu’on a ainsi découpé les mots écrits par
le singe en blocs de 11 lettres indépendants, T 00 suit une loi géométrique et donc E[T ] ≤ 11x2611 < ∞.
Ainsi, E[MT ] = 0. De même, E[MT 0 ] = 0. Or, MT = 2611 + 264 + 26 − T . En effet, quand on a lu
ABRACADABRA, on a aussi recommencé à lire le mot avec le ABRA final et avec le A final. On
déduit de tout ceci que E[T ] = 2611 + 264 + 26. Pour ABRACABRADA, on obtient E[T 0 ] = 2611 + 26
seulement. Aussi étonnant que cela puisse paraître, on voit en moyenne plus rapidement un mot avec
peu de répétitions qu’un mot avec beaucoup de répétitions. Pour approfondir cette pensée, on pourrait
comparer ce phénomène au paradoxe de l’autobus.
www.mathonec.com
3 MARTINGALES 26
On définit alors
∞
X
Un [a, b] = inf{k, Tk ≤ n, Tk+1 ≥ n} = 1{Tk ≤n} ,
k=1
qu’on interprète comme le nombre de montées de la suite (un ) dans l’intervalle [a, b] avant le temps n.
On définit également le nombre de montées dans l’intervalle [a, b]
∞
X
U∞ [a, b] = 1{Tk <∞} .
k=1
Si (Xn ) est maintenant un processus aléatoire adapté à une filtration Fn , on définit de même les
quantités Sk , Tk , Un et U∞ . Ce sont des variables aléatoires. Les variables Sk et Tk sont des temps
d’arrêt et la variable Un est Fn -mesurable.
Lemme 3.2.1 (inégalité des montées de Doob). Soit (Xn ) une sous-martingale et soient a < b deux
réels. On pose Un [a, b] le nombre de montées dans l’intervalle [a, b] avant le temps n de la suite (Xn ).
Alors,
1
E[(Xn − a)+ ] − E[(X0 − a)+ ] .
∀n ≥ 1, E[Un [a, b]] ≤
b−a
Démonstration.POn abrège Un [a, b] en Un , de même pour les temps d’arrêts Tk et Sk . Définissons la
variable Cn = ∞k=1 1{Sk <n≤Tk } . Alors Cn ≤ 1. D’autre part,
donc Cn est Fn−1 -mesurable et (Cn ) est un processus prévisible. On note Yn = (Xn −a)+ . C’est également
une sous-martingale. Calculons (C · Y )n :
Un
X Un
X
(C · Y )n = (YTk − YSk ) + 1{SUn +1 <n} (Yn − YSUn +1 ) ≥ (YTk − YSk ) ≥ Un (b − a)
k=1 k=1
de sorte que E[(C · Y )n ] ≥ (b − a)E[Un ]. On note Cn0 = 1 − Cn . Alors (Cn0 ) est un processus prévisible
positif et borné, donc (C 0 · Y )n ) est une sous-martingale, donc
E[(C 0 · Y )n ] ≥ E[(C 0 · Y )0 ] = 0.
www.mathonec.com
3 MARTINGALES 27
est inclus dans une réunion dénombrable d’évènements de mesure nulle, donc Xn converge presque
sûrement. D’autre part, d’après le lemme de Fatou,
Il découle également du lemme de Fatou conditionnel que si (Xn ) est une sur-martingale positive ou
telle que sup{E[(Xn )− ]} < ∞, alors en notant X∞ sa limite presque sûre, Xn ≥ E[X∞ |Fn ].
On peut en tirer une conséquence immédiate. On rappelle que si (Xn ) est un processus de branchement
Xn
de moyenne m, alors ( m n ) est une martingale. Cette martingale est positive et on déduit de ce qui précède
Xn
que ( mn ) converge presque sûrement vers une variable aléatoire intégrable X∞ . Selon la position de m
par rapport à 1, on en déduit la survie ou l’extinction de (Xn ).
Passons maintenant à l’étude de la convergence des martingales dans les espaces Lp . Commençons
par nous intéresser aux martingales L2 .
Lemme 3.2.4. Soit (Xn ) une martingale telle que Xn ∈ L2 pour tout n ∈ N, alors
n
X
E[Xn2 ] = E[X02 ] + E[(Xk ) − Xk−1 )2 ].
k=1
2
Démonstration. On constate que Xn+1 = (Xn + Xn+1 − Xn )2 = Xn2 + (Xn+1 − Xn )2 + 2Xn (Xn+1 − Xn ).
Il suffit donc de prouver que E[Xn (Xn+1 − Xn )] = 0. Or la variable Xn (Xn+1 − Xn ) est L1 , on a donc
E[Xn (Xn+1 − Xn )] = E[E[Xn (Xn+1 − Xn )|Fn ]] = E[Xn E[Xn+1 − Xn |Fn ]] = 0.
On en déduit que si (Xn ) est une martingale L2 , alors (Xn ) est bornée dans L2 si et seulement si la
E[(Xn+1 − Xn )2 ] converge.
P
série
Théorème 3.2.5. Soit (Xn ) une martingale L2 . On suppose que sup{E[Xn2 ]} < ∞. Alors (Xn ) converge
vers une variable aléatoire X∞ dans L2 .
Démonstration. Puisque (Xn ) est une martingale bornée dans L2 donc dans L1 , elle converge presque
sûrement vers une variable X∞ ∈ L1 . D’après le lemme précédent, on a
n+p
X
2
E[Xn+p − Xn2 ] = E[(Xk − Xk−1 )2 ]
k=n+1
E[(Xn+1 − Xn )2 ] converge, on obtient que (Xn ) est une suite de Cauchy dans L2 ,
P
et puisque la série
ce qui assure que X∞ est L2 et qu’il y a convergence dans L2 .
La convergence dans L1 est plus difficile à obtenir. Intéressons nous pour l’instant à la convergence
dans Lp pour p > 1. On va généraliser le résultat qu’on vient de donner pour les martingales L2 .
Lemme 3.2.6. Soit (Xn ) une sous-martingale et soient S et T deux temps d’arrêts. On suppose que
S ≤ T presque sûrement et que T est presque sûrement borné. Alors, E[XS ] ≤ E[XT ].
Démonstration. Puisque T est bornée presque sûrement, XS et XT sont dans L1 . On réintroduit le
processus (Cn ) défini par Cn = 1{S≤n−1} − 1{T ≤n−1} . C’est un processus prévisible et si N est un entier
tel que T ≤ N presque sûrement, alors (C · X)N = XT − XS . Or (Xn ) est une sous-martingale et (Cn )
est un processus prévisible borné et positif, donc E[(C · X)n ] ≥ 0, i.e. E[XT ] ≥ E[XS ].
www.mathonec.com
3 MARTINGALES 28
Lemme 3.2.7 (inégalité maximale de Doob). Soit (Xn ) une sous-martingale. Pour n ∈ N, on pose
X n = sup0≤k≤n Xk . Soit a > 0 un réel, alors aP(X n ≥ a) ≤ E[Xn 1{X n ≥a} ].
Remarque. Notons qu’en particulier, aP(X n ≥ a) ≤ E[Xn+ ] ≤ E[|Xn |]. C’est une généralisation de
l’inégalité de Markov.
Démonstration. Notons T = inf{n ≥ 0, Xn ≥ a}. Puisque n et n ∧ T sont des temps d’arrêts bornés, on
peut appliquer le lemme précédent pour obtenir E[Xn∧T ] ≤ E[Xn ]. Or, Xn∧T ≤ a1{X n ≥a} + Xn 1{X n <a} ,
donc E[Xn∧T ] ≥ aP(X n ≥ a) + E[Xn 1{X n <a} ]. Finalement, aP(X n ≥ a) ≤ E[Xn (1 − 1{X n <a} ].
Lemme 3.2.8. Soit (Xn ) une sous-martingale positive. Alors, en notant X n = sup0≤k≤n Xk , pour tout
p Ä äp
p
entier n ≥ 0 et tout réel p > 1, E[X n ] ≤ p−1 E[Xnp ].
On a utilisé deux fois le théorème de Fubini pour les fonctions positives. On obtient donc ici
Z ∞ Z ∞ Z Xn
p p−1 p−2
E[X n ] =p x P(X n ≥ x)dx ≤ p x E[Xn 1{X n ≥x} ]dx = pE[Xn ( xp−2 dx)],
0 0 0
en utilisant le lemme précédent pour la dernière inégalité. On en déduit (à nouveau à l’aide le théorème
de Fubini) que
Z Xn
p p
E[X n ] ≤ pE[Xn ( xp−2 dx)] = E[(X n )p−1 Xn ].
0 p − 1
Notons q l’exposant conjugué de p, i.e. 1 = 1/p + 1/q et pq = p + q. Alors, à l’aide l’inégalité de Hölder,
on obtient
p p p
E[X n ] ≤ E[X n ]1/q E[Xnp ]1/p
p−1
et donc
p p
E[X n ]1/p ≤ E[Xnp ]1/p ,
p−1
ce qui permet de conclure.
Remarque. Si (Yn ) est une martingale, on note Ỹn = sup0≤k≤n |Yk |. Alors, en appliquant le lemme
précédent à Xn = |Yn |, on obtient
Å ãp
p
E[Ỹnp ] ≤ E[|Yn |p ].
p−1
On peut maintenant énoncer le théorème de convergence Lp .
Théorème 3.2.9. Soit (Xn ) une martingale bornée dans Lp , p > 1. Alors il existe une variable aléatoire
X∞ ∈ Lp telle que Xn converge presque sûrement et dans Lp vers X∞ .
p p p
D’autre part, äp∞ | ] = sup{E[|Xn | ]}. Si on note X̃∞ = sup|Xn |, alors X̃∞ est également dans L
Ä E[|X
p p p
et E[|X̃∞ | ] ≤ p−1 E[|X∞ | ].
Enfin, Xn est une martingale fermée par X∞ , i.e. Xn = E[X∞ |Fn ].
Démonstration. Puisque (Xn ) est une martingale bornée dans Lp , donc dans L1 , elle converge presque
sûrement vers une variable X∞ ∈ L1 . D’autre part, si on note X̃n = sup0≤k≤n |Xk |, X̃∞ = limX̃n , donc
par convergence monotone Lp , on a X̃∞ ∈ Lp et X̃n converge vers X̃∞ dans Lp . Ainsi, d’après le lemme
précédent, Å ãp
p p
E[X̃∞ ]≤ sup{E[|Xn |p ]}.
p−1
www.mathonec.com
3 MARTINGALES 29
D’autre part, puisque |Xn |p est une sous-martingale, la suite (E[|Xn |p ]) est croissante, donc par
convergence Lp , E[|X∞
p
] = lim|Xn | = sup|Xn |.
Enfin, notons que l’application Y 7→ E[Y |Fn ] 1-lipschitzienne dans L1 . Ainsi,
et Xm converge vers X∞ dans Lp donc dans L1 . Ainsi, E[Xm |Fn ] converge vers E[X∞ |Fn ]. Or (Xn ) est
une martingale, donc Xn = E[Xm |Fn ] pour m ≥ n + 1. On obtient donc le dernier résultat du théorème,
à savoir Xn = E[X∞ |Fn ].
Pour attaquer l’étude de la convergence L1 des martingales, on s’intéresse à présent à la condition
d’uniforme intégrabilité.
Définition 3.2.1. Soit Γ une partie de L1 (Ω, F, P). On dit que Γ est uniformément intégrable si pour
tout réel > 0, il existe un réel K tel que pour toute variable aléatoire X ∈ Γ, E[|X|1{|X|>K} ] ≤ .
C’est équivalent à demander que la limite pour k → ∞ de supX∈Γ {E[|X|1{|X|>k} ] soit nulle. On
remarque que si Γ est une partie de L1 uniformément bornée, au sens où il existe un réel K0 tel que pour
toute variable aléatoire X ∈ Γ, |X| ≤ K0 presque sûrement, alors Γ est uniformément intégrable.
Exemple. — L’exemple le plus simple est celui d’un singleton. Si X ∈ L1 , alors {X} est unifor-
mément intégrable. En effet, par convergence dominée, E[|X|1{|X|>k} ] tend vers 0 lorsque k tend
vers l’infini. De même, si Γ est finie, alors Γ est uniformément intégrable.
— Soit Y ∈ L1 , alors l’ensemble {X ∈ L1 , |X| ≤ Y } est uniformément intégrable.
— Tout sous-ensemble borné de Lp est uniformément intégrable (exercice). Par sous-ensemble borné,
on entend de norme Lp bornée.
Lemme 3.2.10. Soit Γ une partie de L1 (Ω, F, P). On suppose qu’il existe une fonction φ : R+ → R+
telle que φ(x)
x tend vers l’infini lorsque x tend vers l’infini et telle que supX∈Γ {E[φ(|X|)] < ∞}. Alors Γ
est uniformément intégrable.
Démonstration. On note M < ∞ la borne supérieure de {E[φ(|X|)]} pour X ∈ Γ. Soit > 0, alors il
existe K ∈ R tel que φ(x) ≥ M × x pour x ≥ K. La variable aléatoire |X|1{|X|>K} est donc plus petite
que M φ(|X|) et donc E[|X|1{|X|>K} ] ≤ M E[φ(|X|)] ≤ pour X ∈ Γ, ce qui permet de conclure.
La caractérisation des parties uniformément intégrables suivante est bien utile.
Proposition 3.2.11. Soit Γ une partie bornée de L1 , i.e. de norme L1 bornée. Alors Γ est uniformément
intégrable si et seulement si
Démonstration. Soit Γ une partie bornée de L1 . Supposons Γ uniformément intégrable. Soit > 0 et
soit a > 0 tel que supX∈Γ {E[|X|1{|X|>a} ]} ≤ 2 . Posons δ = 2a
. Soit A ∈ F avec P(A) < δ. Alors
E[|X|1A ] ≤ E[|X|1A∩{|X|≤a} ] + E[|X|1A∩{|X|>a} ] ≤ aP(A) + 2 ≤ . Récriproquement, supposons la
propriété énoncée vérifiée. Alors, puisque Γ est borné dans L1 , on dispose de C < ∞ tel que C ≥ E[|X|]
pour X ∈ Γ. Soit a > 0 et soit X ∈ Γ. Par l’inégalité de Markov, on a P(|X| ≥ a) ≤ Ca . Soit alors > 0
et δ comme dans la propriété énoncée. Alors pour a tel que Ca ≤ δ, on a E[|X|1{|X|>a} ] ≤ et ce pour
tout X ∈ Γ, ce qui permet de conclure.
On remarque par ailleurs qu’une famille uniformément intégrable est une partie bornée de L1 . En
effet, il suffit de voir que E[|X|1{|X|≥a} ] ≤ 1 pour un certain a et pour tout X dans la partie uniformément
intégrable. Les conséquences de cette proposition sont nombreuses. On va en particulier en déduire une
caractérisation de la convergence L1 des martingales.
Proposition 3.2.12. Soit X ∈ L1 , alors Γ = {E[X|G], G sous-tribu de F} est une partie uniformément
intégrable de L1 (Ω, F, P).
www.mathonec.com
3 MARTINGALES 30
Démonstration. La partie Γ est bornée dans L1 puisque kE[X|G]kL1 ≤ kXkL1 pour toute sous-tribu G
de F. D’autre part, soit > 0 et soit a > 0, alors
E[|E[X|G]|1{|E[XG]|>a} ] ≤ E[E[|X||G]1{|E[X|G]|>a} ],
donc
E[|E[X|G]|1{|E[XG]|>a} ] ≤ E[|X|1{|E[X|G]|>a} ].
Or, d’après l’inégalité de Markov,
1 1 1
P(|E[X|G]| > a) ≤ E[|E[X|G]|] ≤ E[E[|X||G]] = E[|X|].
a a a
Considérons un module d’uniforme intégrabilité δ pour la partie {X} et pour . Soit a > 0 suffisamment
grand pour que a1 E[|X|] < δ. Alors P(|E[X|G]| > a) ≤ δ, donc
E[|E[X|G]|1{|E[XG]|>a} ] ≤ E[|X|1{|E[X|G]|>a} ] ≤ ,
E[|Xn −Xm |] ≤ E[|Xn −Xm |1{|Xn −Xm |}≤ ]+E[|Xn −Xm |1{≤|Xn −Xm |≤a} ]+E[|Xn −Xm |1{a≤|Xn −Xm |} ].
Le premier et le dernier terme dans la somme à droite sont majorés eux-mêmes par . Quant à celui du
milieu, il est majoré par aP(|Xn − Xm | ≥ ). Ce terme tend vers 0 quand n et m tendent vers l’infini
d’après la convergence en probabilité de (Xn ) vers X∞ . On en déduit que la suite (Xn ) est de Cauchy
0 0
dans L1 , donc par complétude converge vers une variable aléatoire X∞ . Enfin, nécessairement X∞ = X∞
1
puisque la convergence L implique la convergence en probabilité (et que la topologie de la convergence
en probabilité est séparée).
Théorème 3.2.14. Soit (Xn ) une martingale. Alors les conditions suivantes sont équivalentes :
— {Xn } est uniformément intégrable,
— (Xn ) converge presque sûrement et dans L1 vers une variable aléatoire X∞ ∈ L1 ,
— (Xn ) converge dans L1 vers une variable aléatoire X∞ ∈ L1 ,
— (Xn ) converge dans L1 vers une variable aléatoire X∞ ∈ L1 et Xn = E[X∞ |Fn ].
— (Xn ) est fermée, i.e. il existe une variable aléatoire X∞ ∈ L1 telle que Xn = E[X∞ |Fn ].
Démonstration. Supposons que {Xn } est uniformément intégrable. Alors en particulier, {Xn } est bornée
dans L1 . Puisque c’est une martingale, (Xn ) converge presque sûrement vers une variable aléatoire X∞
qui est L1 . En particulier, elle converge en probabilité vers X∞ , donc d’après la proposition précédente,
elle converge en norme L1 . Réciproquement, si (Xn ) converge en norme L1 , alors {Xn } est uniformément
intégrable, toujours par la proposition précédente.
D’autre part, si (Xn ) converge en norme L1 , alors elle est de norme L1 bornée donc converge presque
sûrement vers une variable X∞ ∈ L1 . Les deux limites sont alors les mêmes, car la convergence L1
implique la convergence presque sûre le long d’une sous-suite. On a donc montré que les trois premières
assertions sont équivalentes.
Supposons à présent que (Xn ) converge en norme L1 vers une variable aléatoire X∞ . Pour m ≥ n deux
entiers, on a Xn = E[Xm |Fn ]. Or, l’application Y 7→ E[Y |G] est une contraction dans l’espace L1 . En
particulier, c’est une application continue et donc E[Xm |Fn ] converge vers E[X∞ |Fn ]. On a donc montré
www.mathonec.com
3 MARTINGALES 31
que les quatre premières assertions sont équivalentes. On a de plus montré que les quatres premières
assertions impliquent la dernière.
Enfin, supposons que (Xn ) soit une martingale fermée. Alors, la famille {Xn } est une sous-famille
de {E[X|G], G sous-tribu de F} donc est uniformément intégrable. Finalement, les cinq assertions sont
équivalentes.
Or, par définition de FT , dans la somme, les événements A ∩ {T = n} sont Fn -mesurables. On en déduit
que
X X
E[1A XT ] = E[E[1A∩{T =n} X∞ |Fn ]] + E[1A∩{T =∞} X∞ ] = E[1A∩{T =n} X∞ ] = E[1A X∞ ].
n∈N n∈N∪{∞}
Ainsi, par définition de l’espérance conditionnelle, XT = E[X∞ |FT ]. Le deuxième point est une consé-
quence immédiate du premier. Enfin, le troisième point découle du faite que si S ≤ T , alors FS ⊂ FT .
On peut faire deux remarques à propos de ce théorème. Tout d’abord, dans le cas où (Xn ) est une
martingale uniformément intégrable, puisque la limite X∞ est intégrable, la famille
D’autre part, si (Xn ) est une martingale, non nécessairement uniformément intégrable et que N est un
entier fixé, alors (Xn∧N ) est une martingale uniformément intégrable sur laquelle on peut appliquer le
théorème.
Donnons à présent un deuxième résultat sur les temps d’arrêt.
Théorème 3.3.3. Soit (Xn ) une sur-martingale et soit T un temps d’arrêt. Si (Xn ) est positive ou bien
si (Xn ) est uniformément intégrable, alors XT est intégrable. D’autre part, si S ≤ T est un autre temps
d’arrêt, alors dans le cas où (Xn ) est uniformément intégrable, on a XS ≥ E[XT |FS ] et dans le cas où
(Xn ) est positive, on a 1{S<∞} XS ≥ E[1{T <∞} XT |FS ].
www.mathonec.com
3 MARTINGALES 32
Démonstration. Plaçons tout d’abord dans le cas où (Xn ) est une sur-martingale positive. Alors, par
le lemme de Fatou, pour tout N ∈ N, on a E[XT ] ≤ lim inf E[XT ∧k ]. Puisque T ∧ k est un temps
borné, on obtient donc E[XT ] ≤ E[X0 ], donc XT est L1 . Soit alors S ≤ T . On notera X̃S := 1{S<∞} XS
et X̃T := 1{T <∞} XT . On suppose dans un premier temps que T est presque sûrement borné, disons
par un entier N . On rappelle qu’on a montré que si (Xn ) est une sous-martingale, S ≤ T deux temps
d’arrêts presque sûrement bornés, alors E[XS ] ≤ E[XT ]. On a donc ici ((Xn ) est une sur-martingale)
E[XS ] ≥ E[XT ]. Soit alors A ∈ FS . Puisque S ≤ T , A ∈ FT . On conditionne les temps d’arrêts par A.
Explicitement, on définit S A (ω) = S(ω) si ω ∈ A et S A (ω) = N sinon. De même, on définit T A . Puisque
T A et S A sont aussi bornés par N , on obtient E[XS A ] ≥ E[XT A ], soit E[XS 1A ] ≥ E[XT 1A ].
À présent, si S ≤ T sont quelconques (non bornés), on pose Sk = S ∧ k, Tk = T ∧ k. Soit B ∈ FS , on
pose A := B ∩ {S ≤ k}. Alors, par ce qui précède,
E[XSk ]1A ] ≥ E[XTk 1A ] ≥ E[XTk 1B∩{T ≤k} ].
En effet, {T ≤ k} ⊂ {S ≤ k}. Or, XSk = XS sur {S ≤ k} et de même pour T , donc on réécrit cette
dernière inégalité
E[XS 1B∩{S≤k} ] ≥ E[XT 1B∩{T ≤k} ].
Alors, par simple convergence dominée, en passant à la limite on obtient
E[XS 1B∩{S<∞} ] ≥ E[XT 1B∩{T <∞} ],
soit
E[X̃S 1B ] ≥ E[X̃T 1B ].
Enfin, puisque B ∈ FS , E[X̃T 1B ] = E[E[X̃T |FS ]1B ] et puisque X̃S est FS mesurable, on conclut de tout
ceci que X̃S ≥ E[X̃T |1B ], soit ce que l’on voulait démontrer.
Plaçons nous maintenant dans le cas où la famille {Xn } est uniformément intégrable. Dans ce cas,
comme pour les martingales, on obtient que la famille est bornée dans L1 donc converge presque sûrement,
donc en probabilité vers une variable X∞ , donc converge dans L1 vers X∞ . Puis, comme (Xn ) est une
sur-martingale, Xn ≥ E[Xm |Fn ] pour m ≥ n, donc Xn ≥ E[X∞ |Fn ]. Posons alors Zn = E[X∞ |Fn ],
de sorte que Yn := Xn − Zn soit une sur-martingale positive. Alors (Zn ) est une martingale fermée qui
converge presque sûrement vers X∞ , donc Yn converge presque sûrement vers Y∞ = 0. On note que
YT = XT − ZT et que par le premier cas qu’on a traité, YT est L1 . Puisqu’il en va de même de ZT (car
Zn est une martingale fermée), on obtient que XT est L1 .
Supposons maintenant que S ≤ T sont deux temps d’arrêt. Alors (Yn ) est une sur-martingale positive
et Y∞ = 0, donc les fonctions indicatrices des ensembles {S < ∞} et {T < ∞} sont superflues dans l’in-
égalité 1{S<∞} YS ≥ E[1{T <∞} XT |FS qui provient du premier cas traité. En particulier, YS ≥ E[XT |FS ]
et puisque (Zn ) est une martingale fermée, ZS = E[ZT |FS ]. Ainsi, on obtient bien XS ≥ E[XT |FS ].
www.mathonec.com
3 MARTINGALES 33
Or, on a que la limite de Uk [a, b], lorsque k tend vers l’infini, est
U [a, b] := sup{k ∈ N, ∃m1 < n1 < ... < mk < nk ≤ 0, −Xmj ≤ a, −Xnj ≥ b, j ∈ {1, ..., k}}.
C’est le nombre total de montées de la suite (−Xn ) le long de [a, b].
Par convergence monotone, on a donc (b − a)E[U ([a, b]] ≤ |a| + E[|X0 |] < ∞. Donc, pour tout a < b,
N [a, b] est fini presque sûrement et donc Xn converge presque sûrement vers une variable aléatoire X−∞ .
D’autre part, le lemme de Fatou donne que X−∞ est L1 .
On montre à présent que la famille est uniformément intégrable. Soit > 0. La suite (E[X−n ])n∈N est
croissante et majorée (puisque Xn est bornée dans L1 ). Donc il existe k ≤ 0, tel que pour tout n ≤ k,
E[Xn ] ≤ E[Xk ] + 2 . En tant que famille finie, {Xk , ..., X0 } est uniformément intégrable, donc il existe
a > 0 tel que pour tout k ≤ n ≤ 0, E[|Xn |1{|Xn |>a} ] < . Choisissons, par uniforme intégrabilité de {Xk }
un nombre δ > 0 tel que pour tout événement A ∈ F tel que P(A) < δ, E[|Xk |1A ] < 2 . Soit alors n < k,
on a
E[|Xn |1{|Xn |>a} ] = E[Xn 1{Xn >a} ] + E[−Xn 1{Xn <−a} ] = E[Xn ] − E[Xn 1{Xn ≤a} ] − E[Xn 1{Xn <−a} ].
On introduit alors Xk :
E[|Xn |1{|Xn |>a} ] ≤ E[Xk ] + − E[E[Xk |Fn ]1{Xn ≤a} ] − E[E[Xk |Fn ]1{Xn <−a} ].
2
Or, puisque {Xn < −a} et {Xn ≤ a} sont Fn -mesurables, on en déduit que
E[|Xn |1{|Xn |>a} ] ≤ E[Xk ]−E[Xk 1{Xn ≤a} ]−E[Xk 1{Xn <−a} ]+ = E[Xk 1{Xn >a} ]−E[Xk 1{Xn <−a} ]+ .
2 2
Donc finalement,
E[|Xn |1{|Xn |>a} ] ≤ E[|Xk |1{|Xn |>a} ] + .
2
Alors, en utilisant l’inégalité de Markov, P(|Xn | > a) ≤ Ca (où C est une borne pour les normes L1
de la famille (Xn ) par exemple). Ainsi, en choisissant a tel que C < δa, on obtient que pour n < k,
E[|Xn |1{|Xn |<a} ] < , ce qui permet de conclure, puisque le cas n ≥ k est déjà réglé.
Puisque (Xn ) et uniformément intégrable et que (Xn ) converge presque sûrement vers X−∞ , donc
en particulier en probabilité, (Xn ) converge en norme L1 vers X−∞ .
Enfin, soient n ∈ −N et A ∈ F−∞ . Alors, pour m ≤ n, E[Xn 1A ] ≤ E[E[Xm |Fn ]1A ] ≤ E[Xm 1A ]. Donc
E[E[Xn |F−∞ ]1A ] ≤ E[Xm 1A ]. Donc, E[E[Xn |F−∞ ]1A ] ≤ E[X−∞ 1A ]. Enfin, X−∞ est F−∞ -mesurable
donc on obtient au final E[Xn |F∞ ] ≤ X−∞ .
À noter que les martingales rétrogrades sont un outil puissant. On peut par exemple montrer la loi
forte des grands nombres assez facilement (voir par exemple [3], fin du chapitre 12). On conseille la
lecture de [4] pour beaucoup d’autres applications des martingales à la théorie des probabilités et à la
théorie de la mesure.
Conclusion
On a étudié dans ce cours deux type de processus aléatoires, les chaînes de Markov et les martingales.
Ces deux processus doivent être considérés comme complémentaires plutôt que distincts. On a vu à
plusieurs reprises que l’on pouvait adopter différents points de vue pour traiter un problème "aléatoire".
Typiquement, une marche aléatoire est une chaîne de Markov, mais on peut aussi la voir comme une
martingale, ce qui donne des informations sur sa convergence. Un autre exemple qu’on a traité dans le
cours est celui du paradoxe du singe savant.
Les chaînes de Markov et les martingales sont deux pierres d’angles à la base de nombreuses théories
probabilistes. Ce sont également des outils puissants. Par exemple, les martingales donnent souvent des
résultats de convergence. À nouveau, on recommande chaudement la lecture de [4].
Une première suite logique pour ce cours serait une étude approfondie des marches aléatoires. On a vu
très brièvement qu’on pouvait considérer des marches aléatoires dans des groupes. Étudier ces marches
aléatoires donne bien souvent des informations sur le groupe lui-même. C’est un sujet très riche car il
mêle des problématiques géométriques, dynamiques et probabilistes entre autres.
Une autre suite logique, plus probabiliste, serait l’étude de processus aléatoires à temps continu. C’est
par exemple, dans [3], la suite des chapitres qui concernent les chaînes de Markov et les martingales. C’est
également le cas de nombreuses autres références. On pourrait notamment s’intéresser au mouvement
Brownien, dans l’étude duquel on retrouve les martingales.
www.mathonec.com
RÉFÉRENCES 34
Références
[1] Philippe Barbé et Michel Ledoux. Probabilités. EDP sciences, 2007.
[2] Joseph Doob. Stochastic processes. Wiley, 1953.
[3] Jean-François Le Gall. Intégrations, probabilités et processus aléatoires. https ://www.math.u-
psud.fr/ jflegall/teaching.html. 2006.
[4] David Williams. Probability with martingales. Cambridge mathematical textbooks, 1991.
www.mathonec.com