Vous êtes sur la page 1sur 14

Université d’Artois

Faculté des Sciences Jean Perrin


Probabilités (Master 1 Mathématiques-Informatique)
Daniel Li

Chapitre 4
Espérances conditionnelles et
martingales

1 Espérances conditionnelles
Cette notion sert à modéliser la réponse à la question suivante : si X est une
v.a.r. liée à une certaine expérience, que sait-on d’elle si l’on n’a pas toute l’infor-
mation (donnée par la tribu A des événements, mais seulement une information
partielle (donnée par une sous-tribu B ?

1.1 Définition
Soit (Ω, A , P ) un espace de probabilité, et soit B une sous-tribu de A ; on
veut définir, à partir d’une variable aléatoire réelle X ∈ L1 (Ω, A , P ), une autre
v.a.r., qui va “oublier” tout se qui se passe en dehors de B.
Notons P|B la restriction à la sous-tribu B de la probabilité P , et considérons
l’espace L1 (Ω, B, P|B ).
Pour tout B ∈ B, on pose :
Z
νX (B) = E (X1IB ) = X dP . (1.1)
B

On obtient une mesure (réelle) sur (Ω, B), qui est visiblement absolument conti-
nue par rapport à P|B :

P|B (B) = P (B) = 0 =⇒ νX (B) = 0 .

Le Théorème de Radon-Nikodym assure donc l’existence d’une variable aléatoire


B-mesurable unique YX ∈ L1 (Ω, B, P |B ) telle que νX = YX .P|B . On dit que
YX est l’espérance conditionnelle de X par rapport à B.
Dans toute la suite, on écrira simplement P au lieu de P |B ; on a donc :

1
Définition 1.1 Soit (Ω, A , P ) un espace de probabilité, et soit B une sous-
tribu de A . Pour toute v.a.r. X ∈ L1 (Ω, A , P ), on appelle espérance condi-
tionnelle de X par rapport à B, ou sachant B, l’unique v.a.r., notée E B (X),
qui est B-mesurable et qui vérifie :
Z Z
E B (X) dP = X dP , ∀B ∈ B .
B B

Ecrit autrement : E E B (X)1IB = E (X1IB ) .


 

On note aussi l’espérance conditionnelle E (X | B).


Il résulte de la définition, en prenant B = Ω que l’on a :

Proposition 1.2 Pour toute v.a.r. intégrable X, on a E E B (X) = E (X) .


 

1.2 Exemples.
a) Si B = A , il est clair que E A (X) = X. Cela s’interprète en disant que,
puisque l’on a toute l’information, on sait tout sur X.
Plus généralement, si X est B-mesurable, on a : E B (X) = X .
b) Si B = {∅, Ω} est la tribu grossière, alors les seules  qui sont {∅, Ω}-
v.a.r.
mesurables sont les constantes. De par l’égalité E E B (X) = E (X) , cette


constante ne peut être que E (X) ; donc E {∅,Ω} (X) = E (X)1I.


Cela s’interprète en disant que, puisque l’on ne dispose d’aucune information,
tout ce que l’on peut savoir sur X est sa valeur moyenne.
c) Si B est la tribu engendrée par une partition (Bn )n>1 (finie ou infinie) de
Ω, formée de parties A -mesurables deux-à-deux disjointes et telles que P (Bn ) 6=
0, comme les v.a.r. B-mesurables sont celles qui sont constantes sur chaque Bn ,
on a, si an désigne cette constante :

E B (X) =
X
an 1IBn ;
n>1

d’où : Z Z Z
X dP = E B (X) , dP = an dP = an P (Bn ) .
Bn Bn Bn
Donc : Z
X 1 
E B (X) = X dP 1IBn ;
n
P (Bn ) Bn

2
ainsi, sur chaque Bn , X n’est connu que par sa moyenne sur Bn . En particulier,
si B = {∅, B, B c , Ω}, pour un B ∈ A tel que 0 < P (B) < 1, alors :
1 1
E B (1IA ) = P (A ∩ B)1IB + P (A ∩ B c )1IB c
P (B) P (B c )
= P (A | B)1IB + P (A | B c )1IB c ,

où P (A | B) est la probabilité conditionnelle de A sachant B.

1.3 Propriétés

Proposition 1.3 Soit X ∈ L1 (Ω, A , P ). Pour toute v.a.r. Z B-mesurable


et bornée (Z ∈ L∞ (Ω, B, P )), on a :

E B (ZX) = Z E B (X) (propriété d’idéal).

Corollaire 1.4 Pour toute X ∈ L1 (Ω, A , P ) et toute Z ∈ L∞ (Ω, B, P ), on


a: Z Z
Z E B (X) dP = ZX dP .
Ω Ω

En effet, ce n’est autre que l’égalité E E B (ZX) = E (ZX).


 

Preuve de la Proposition 1.3. a) Il suffit en fait de montrer l’égalité du


Corollaire 1.4, car, en remplaçant dedans Z par Z1IB , avec B ∈ B, qui est
encore B-mesurable, on aura :
Z Z
ZX dP = Z E B (X) dP ;
B B

mais comme Z E B (X) est B-mesurable, la définition (et l’unicité) de E B (ZX)


donne bien :
E B (ZX) = Z E B (X) .
b) Or l’égalité : Z Z
ZX dP = Z E B (X) dP
Ω Ω
est valable, par définition, pour les Z = 1IB , avec B ∈ B ; elle est donc aussi
valable pour les v.a.r. étagées B-mesurables. Par convergence dominée, puisque
X ∈ L1 (Ω, A , P ), elle est ensuite valable pour toutes les Z B-mesurables bor-
nées. 

3
Proposition 1.5 L’espérence conditionnelle :

E B : L1 (Ω, A , P ) → L1 (Ω, B, P )

est une application linéaire, continue, de norme 1, positive, et idempotente


(projecteur).

Remarque. L’utilisation du terme “idempotent” laisse sous-entendre que l’es-


pace L1 (Ω, B, P ) est contenu dans L1 (Ω, A , P ) ; ce n’est en fait pas le cas.
En effet, il y a là une petite difficulté. Rappelons éléments de L1 (Ω, A , P ) ne
sont pas réellement des fonctions, mais des classes de fonctions (modulo l’égalité
presque sûre), même si d’habitude on ne fait pas de distinction entre la fonction
et sa classe d’équivalence.
Maintenant, si X est une variable aléatoire B-mesurable et si X 0 est une
variable aléatoire (A -mesurable), qui est presque sûrement égale à X : P (X 0 6=
X) = 0, alors il n’y a aucune raison que X 0 soit elle aussi B-mesurable (sauf si
la tribu B est P -complète). En notant P |B la restriction à B de la probabilité
P (définie sur A ), on doit donc distinguer :
a) la classe d’équivalence P -p.s. sur (Ω, A , P ) de X
et :
b) sa classe d’équivalence P |B -p.s. sur (Ω, B, P |B ),
la première étant en général strictement plus grande que la seconde.
En d’autres termes, bien que, pour les espaces de fonctions, on ait :

L r (Ω, B, P |B ) ⊆ L r (Ω, A , P ),

pour 1 6 r 6 +∞, par contre l’espace des classes de fonctions B-mesurables


Lr (Ω, B, P |B ) n’est pas contenu dans l’espace des classes de fonctions A -
mesurables Lr (Ω, A , P ).
Néanmoins, l’application qui à la P |B -classe de X fait correspondre sa P -
classe est injective, et définit une isométrie :

J : Lr (Ω, B, P |B ) −→ Lr (Ω, A , P ).

Par cette isométrie, on peut donc identifier isométriquement Lr (Ω, B, P |B ) à


un sous-espace (fermé) de Lr (Ω, A , P ), ce que l’on fera toujours par la suite.
Preuve de la Proposition 1.5. a) La linéarité est facile, par unicité.
b) Montrons que X > 0 ⇒ E B (X) > 0 .
En effet, si X > 0, la mesure νX définie en 1.1 est positive ; donc E B (X) > 0,
puisque νX = E B (X).P
c) On a alors : |E B (X)| 6 E B (|X|) , car |X| ± X > 0.
Donc, puisque E E B (|X|) = E (|X|) = kXk1 , on obtient :
 

kE B (X)k1 6 kXk1 .

4
d) Mais E B (1I) = 1I et donc la norme est exactement 1.
e) Pour finir : E B E B (X) = E B (X) car E B (X) ∈ L1 (B) ⊆ L1 (A ) et que
 

E B (X) est B-mesurable. 

Proposition 1.6
1) Pour 1 6 r 6 ∞ :

X ∈ Lr (Ω, A , P ) ⇒ E B (X) ∈ Lr (Ω, B, P ) .

2) Pour r = 2, E B est la projection orthogonale de L2 (Ω, A , P ) sur


L (Ω, B, P ).
2

On utilisera le lemme suivant.

Lemme 1.7 Si X ∈ Lr (Ω, A , P ), avec 1 6 r < +∞, alors :

|E B (X)|r 6 E B (|X|r ) .

Preuve de la Proposition 1.6. 1) Pour 1 6 r < ∞, cela résulte du lemme.


Pour r = ∞ :

|X| 6 kXk∞ 1I ⇒ |E B (X)| 6 E B (|X|) 6 E B (kXk∞ 1I) = kXk∞ .

2) Pour r = 2, on doit vérifier que X − E B (X) ⊥ Z pour toute Z ∈


L (Ω, B, P ). Mais :
2

Z Z Z
B
E B (X)Z dP = 0
 
X − E (X) Z dP = XZ dP −
Ω Ω Ω

pour toute Z ∈ L∞ (Ω, B, P ), donc pour toute Z ∈ L2 (Ω, B, P ) par densité. 


Remarque. Certains auteurs définissent directement, pour X ∈ L2 (Ω, A , P ),
l’espérance conditionnelle de X sachant B comme la projection orthogonale de
X sur L2 (Ω, B, P ), puis prolongent l’application E B à L1 (Ω, A , P ), par densité.
C’est plus élémentaire, mais cela fait complètement perdre de vue le sens réel
de l’espérance conditionnelle.
Preuve du Lemme 1.7. On peut supposer r > 1.
Pour toute Z ∈ L∞ (Ω, B, P ) et tout B ∈ B, on a :
Z Z Z
|Z1IB E B (X)| dP = |E B (Z1IB X)| dP 6 E B (|Z1IB X|) dP
Ω Ω Ω
Z
= |Z1IB X| dP 6 kZks k1IB Xkr < +∞ ,

avec 1r + 1
s = 1. Comme L∞ (Ω, B, P ) est dense dans Ls (Ω, B, P ), cela signifie
que : Z
Z 7−→ Z1IB E B (X) dP

5
est une forme linéaire continue sur Ls (Ω, B, P ), de norme 6 k1IB Xkr . Donc
1IB E B (X) ∈ Lr (Ω, B, P ), et :
k1IB E B (X)kr 6 k1IB Xkr ;
cela s’écrit aussi :
Z Z Z
|E B (X)|r dP 6 |X|r dP = E B (|X|r ) dP .
B B B

Mais, puisque c’est vrai pour tout B ∈ B, cela entraîne :


|E B (X)|r 6 E B (|X|r ) . 
Voyons maintenant une propriété “d’emboîtement”,  que l’on a déjà vue dans
le cas particulier de B2 = {∅, Ω} ; elle s’écrit alors E E B1 (X) = E (X)1I.
Proposition 1.8 (transitivité) Si B2 ⊆ B1 ⊆ A , on a :

E B2 E B1 (X) = E B2 (X) .
 

Preuve. Si B ∈ B2 :
Z Z
E B2 E B1 (X) dP = E B1 (X) dP ;
 
B B

mais comme on a aussi B ∈ B1 :


Z Z
E B1 (X) dP = X dP . 
B B

1.4 Cas d’une tribu engendrée par une variable aléatoire


Si B = BY est la tribu engendrée par une v.a. Y , on notera :

E (X | Y )

au lieu de E BY (X) = E (X | BY ). On dit que c’est l’espérance conditionnelle


de X sachant Y .
Rappelons que l’on a :
BY = {Y −1 (D) ; D ∈ Bor(Rd )} .
Rappelons aussi que toute v.a. BY -mesurable s’écrit comme la composée de Y
et d’une fonction borélienne sur Rd . Donc :

Proposition 1.9 Pour toute v.a.r. X ∈ L1 (Ω, A , P ) et toute v.a. Y , il existe


une fonction borélienne h : Rd → R, PY -intégrable, telle que :

E (X | Y ) = h(Y ) .

6
Par définition, pour tout borélien D ∈ Bor(Rd ), on a donc :
Z Z Z
X dP = E (X | Y ) dP = h(Y ) dP ,
Y −1 (D) Y −1 (D) Y −1 (D)

ce qui s’écrit :
Z Z
X dP = h(y) dP Y (y) , ∀D ∈ Bor(Rd ) . (1.2)
Y ∈D D

1.5 Exemples de calcul d’espérances conditionnelles par


rapport à une v.a.r.
1.5.1 Cas où Y est une v.a.r. discrète
On a : X
PY = an δxn , avec an 6= 0 ,
n>1

la somme étant finie ou infinie.


Puisque P (Y ∈ D) = 0 si D ∩ {xn ; n > 1} = ∅, la formule (1.2) ci-dessus
montre que l’on peut prendre h(y) = 0 si y ∈
/ {xn ; n > 1}, et :
Z Z
1 1
h(xn ) = X dP = X dP .
an {Y =xn } P (Y = xn ) {Y =xn }
On obtient :
X 1
Z 
E (X | Y ) = X dP 1I{Y =xn } ,
P (Y = xn ) {Y =xn }
n>1

ce que l’on savait déjà, puisque BY est engendrée par la partition de Ω formée
par les {Y = xn }, n > 1.

1.5.2 Cas de variables à densité


Supposons que le couple (X, Y ) possède une densité f(X,Y ) sur Rd+1 .
La loi PY de Y a alors une densité (densité marginale), donnée par :
Z
fY (y) = f(X,Y ) (x, y) dx .
R
1 d
Comme fY ∈ L (R ), fY est finie λd -presque partout ; par conséquent, Y est
presque sûrement à valeurs dans :
Q = {y ∈ Rd ; 0 < fY (y) < +∞} .
Pour y ∈ Q, on peut poser :

f(X,Y ) (x, y)
fX (x | y) = ·
fY (y)

7
La fonction :
fX ( . | y) : x 7−→ fX (x | y)
est une densité de probabilité sur R : on a fX (x | y) > 0, et :
Z Z
1
fX (x | y) dx = f(X,Y ) (x, y) dx = 1 .
R fY (y) R

Définition 1.10 On dit que fX ( . | y) est la densité conditionnelle de X


sachant Y = y.

Il faut faire attention que Y = y n’est qu’une notation ; en effet, P (Y = y) =


0 pour tout y ∈ Rd puisque Y possède une densité.
On note parfois aussi :

fX (x | y) = fX (x | Y = y)

et :
fX (x | y) dx = P (x | Y = y) .

Proposition 1.11 Si le vecteur aléatoire (X, Y ) a une densité sur Rd+1 , alors
pour toute g ∈ L1 (R, PX ), on a :

E g(X) | Y = h(Y ) ,

avec, pour tout pour y ∈ Q :


Z Z
1
h(y) = g(x)fX (x | y) dx = g(x)f(X,Y ) (x, y) dx .
R fY (y) R

Preuve. Nous avons vu que :



E g(X) | Y = h(Y ) ,

avec : Z Z
h(y) dPY (y) = g(X) dP , ∀D ∈ Bor(Rd ) .
D Y ∈D

Comme PY (Q) = 1, on peut poser fX (x | y) = 0 pour y ∈ Rd \ Q. On a alors,

8
par le Théorème de Fubini :
Z Z  Z Z 
g(x)fX (x | y) dx dPY (y) = g(x)fX (x | y) dx fY (y) dy
D R
ZDZ R
= g(x)fX (x | y)fY (y) dxdy
Z ZR×D
= g(x)f(X,Y ) (x, y) dxdy
Z ZR×D
= g(x) dP(X,Y ) (x, y)
Z ZR×D
= g(x)1ID (y) dP(X,Y ) (x, y)
d+1
Z R Z
= g(X)1ID (Y ) dP = g(x) dP 
Ω Y ∈D

1.5.3 Cas gaussien


Nous allons voir qu’alors E (X | Y ) est une fonction affine de Y , et pas
seulement une fonction borélienne.

Théorème 1.12 Si (X, Y ) : Ω → Rn+1 est un vecteur gaussien, avec Y =


(Y1 , . . . , Yn ), alors E (X | Y ) est une v.a.r. gaussienne et il existe des
nombres a1 , . . . , an , b ∈ R tels que :

E (X | Y ) = a1 Y1 + · · · + an Yn + b .

On utilisera le lemme suivant, qui a d’ailleurs son intérêt propre.


Lemme 1.13 Les tribus B1 et B2 sont indépendantes si et seulement si :
E B2 (U ) = E (U )1I
pour toute v.a.r. U B1 -mesurable.
Preuve. S’il y a indépendance, on a, pour tout B ∈ B2 :
Z Z
U dP = E (1IB U ) = E (1IB )E (U ) = E (U )1I dP ,
B B

d’où E B2 (U ) = E (U )1I.
Inversement, si B1 ∈ B1 et B2 ∈ B2 :
Z Z
P (B1 ∩ B2 ) = 1IB1 dP = E B2 (1IB1 ) dP
B2 B2
Z
= E (1IB1 ) 1I dP = P (B1 ) P (B2 ) ,
B2

9
d’où l’indépendance de B1 et B2 , et donc de B1 et B2 . 
Preuve du théorème. Supposons d’abord E (X) = E (Y ) = 0.
Soit G l’espace vectoriel engendré par Y1 , . . . , Yn . C’est un sous-espace (de
dimension finie) de L2 (Ω, A , P ). De plus, comme le vecteur Y = (Y1 , . . . , Yn )
est gaussien, G est entièment composé de gaussiennes (c’est un espace gaussien).
Rappelons que, puisque l’on est dans L2 (Ω, A , P ), l’espérance conditionnelle
est la projection orthogonale de L2 (Ω, A , P ) sur L2 (Ω, BY , P ). Remarquons par
ailleurs que G ⊆ L2 (Ω, BY , P ).
Soit P (X) la projection orthogonale de X sur G .
On a P (X) = a1 Y1 + · · · + an Yn pour des nombres réels a1 , . . . , an ∈ R.
Posons Z = X − P (X).
Le vecteur (Z, Y ) est gaussien, comme image linéaire de (X, Y ), et E (ZYk ) =
0 pour tout k = 1, . . . , n, car Z est orthogonal à G ; mais si les composantes
d’un vecteur gaussien sont non corrélées, elles sont indépendantes. Donc Z est
indépendant de Y1 , . . . , Yn . Alors, par le lemme, E (Z | Y ) = E(Z) 1I = 0, car
E (Z) = a1 E(Y1 ) + · · · + an E (Yn ) = 0, ce qui donne E X | Y = P (X), car
E P (X) | Y = P (X) puisque P (X) ∈ G ⊆ L2 (Ω, BY , P ). On peut donc bien
écrire E (X | Y ) = a1 Y1 + · · · + an Yn .
Lorsque X et Y ne sont plus centrés, il suffit de poser X 0 = X − E (X) et
Y 0 = Y − E (Y ) ; comme BY 0 = BY , on a :

E (X | Y ) = E (X 0 + E (X) | Y 0 ) = E (X 0 | Y 0 ) + E (X)
Xn Xn
= ak Yk0 + E (X) = ak (Yk − E (Yk )) + E (X)
k=1 k=1
Xn n
X 
= ak Yk + ak E (Yk ) + E (X) . 
k=1 k=1

Calcul pratique. Pour calculer les coefficients a1 , . . . , an , b, on part de :

E (X | Y ) = a1 Y1 + · · · + an Yn + b .

En prenant l’espérance, on obtient, puisque E [E (X | Y )] = E (X) :

E (X) = a1 E (Y1 ) + · · · + an E (Yn ) + b .

De même, si on multiplie par Yk , en utilisant E (X | Y )Yk = E (XYk | Y ), on


obtient :
X n
E (XYk ) = aj E (Yj Yk ) + bE (Yk ) .
j=1

Il ne reste plus qu’à résoudre ce système linéaire de n + 1 équations à n + 1


inconnues. Il n’y a évidemment pas unicité si Y1 , . . . , Yn ne sont pas linéairement
indépendants.

10
2 Martingales
Nous n’en dirons que quelques mots d’introduction. C’est une partie impor-
tante des Probabilités. Jusqu’à présent, nous n’avons parlé que de Probabilités
“statiques”, au sens où l’on ne s’intéressait qu’à une seule tribu d’événements
(ou à deux dans le cas des espérances conditionnelles). Les martingales vont
faire intervenir une notion d’“évolution” avec le temps : au fur et à mesure que
le temps passe, le nombre d’informations que l’on connaît augmente ; autrement
dit, on doit tenir compte de plus en plus d’événements, et l’on est amené à
considérer des familles croissantes de sous-tribus d’événements ; pour mesurer
une “expérience”, on aura donc,à chaque instant, une variable aléatoire pour la-
quelle l’information que l’on a sur elle dans le passé, c’est-à-dire son espérance
conditionnelle par rapport à la tribu correspondante, est la variable aléatoire
connue à cet instant passé.
Nous ne parlerons par ailleurs que des martingales à temps discret, c’est-
à-dire celle indexées par les entiers. Cela revient à regarder ce qui se passe à
intervalles réguliers. Si l’on veut savoir se qui se passe à tout moment, on utilisera
des martingales à temps continu, indexées par R+ , par exemple.

Définition 2.1 On appelle filtration toute suite croissante :

B1 ⊆ B2 ⊆ · · · ⊆ Bn ⊆ · · · ⊆ A

de sous-tribus de A .

Définition 2.2 On appelle martingale par rapport à, ou adaptée à, la


filtration (Bn )n>1 , toute suite de v.a.r. Mn ∈ L1 (Ω, A , P ), n > 1, telle que,
pour tout n > 1 :
1) Mn est Bn -mesurable ;
2) E Bn (Mn+1 ) = Mn .

Voici deux exemples particulièrement importants.


Exemple 1. Soit M ∈ L1 (Ω, A , P ). Si l’on pose Mn = E Bn (M ), alors (Mn )n>1
est une martingale par rapport à la filtration (Bn )n>1 , par la propriété de
transitivité des espérances conditionnelles. On dit qu’une martingale (Mn )n>1
est terminée s’il existe M ∈ L1 (Ω, A , P ) telle que Mn = E Bn (M ) pour tout
n > 1.
Exemple 2. Soit (Xn )n>1 une suite de v.a.r. indépendantes et centrées. Si
l’on pose :
Sn = X 1 + · · · + X n ,
alors (Sn )n>1 est une martingale, adaptée à la filtration donnée par Bn =
σ(X1 , . . . , Xn ).

11
On complète habituellement la filtration en introduisant B0 = {∅, Ω}. Alors,
si l’on pose M0 = 0, on définit les accroissements de la martingale, que l’on
appelle aussi les différences de la martingale, par :

dn = Mn − Mn−1 n>1 .

On a :
Mn = d 1 + · · · + d n .
Ainsi on a une situation semblable à celle de l’Exemple 2, sauf que les différences
dn , n > 1, ne sont plus indépendantes (en général). Néanmoins, on garde une
version très affaiblie d’indépendance. En effet, dire que la suite (Xn )n>1 est
indépendante, peut s’exprimer par :

Pour tout n > 1, la var Xn+1 est indépendante de la tribu σ(X1 , . . . , Xn ).

Pour la suite des différences d’une martingale, on a :

E Bn (dn+1 ) = 0

(puisque E Bn (Mn+1 ) = Mn ) ; on a donc une “orthogonalité” entre Bn et dn+1


(il y aurait vraiment orthogonalité si l’on était dans L2 (Ω, A , P )). On peut
donc espérer pour la convergence des martingales des résultats analogues à ceux
obtenus pour les sommes de v.a.r. indépendantes et centrées, et nous allons voir
que c’est bien le cas.

Théorème 2.3 (inégalité maximale de Doob) Soit (Mn )n>1 une mar-
tingale adaptée à la filtration (Bn )n>1 . Alors, pour tout N > 1 et tout a > 0,
on a :  
1
P sup |Mn | > a 6 E (|MN |) .
16n6N a

Preuve. Elle est analogue à celle de l’inégalité de Kolmogorov.


On définit le temps d’arrêt νa par :

+∞  si |Mn | = |d1 + · · · + dn | 6 a, pour tout n = 1, 2, . . . , N
νa (ω) =
min n 6 N ; |Mn | = |d1 + · · · + dn | > a sinon.

S A = supn6N |Mn | > a , et An = {νa = n}. On a An ∈ Bn , et



Posons
A = 16n6N An . Alors :

E 1IAn .|Mn | = E 1IAn .sgn (Mn ).Mn = E 1IAn .sgn (Mn ).E Bn (MN )
  
 
= E E Bn 1IAn .sgn (Mn ).MN = E 1IAn .sgn (Mn ).MN
 

6 E (1IAn .|MN |) .

12
Par conséquent :
N N 1  1X N
X X 1
P (A) = P (An ) 6 E |Mn |.1IAn 6 E (1IAn .|MN |) = E (|MN |) ,
n=1 n=1
a a n=1 a

ce qu’on voulait montrer. 

Théorème 2.4 (Théorème de Doob)


1) Toute martingale terminée converge presque sûrement et pour la norme
de L1 .
2) Toute martingale bornée dans L2 converge presque sûrement et pour la
norme de L2 .

Pour prouver ce théorème, on aura besoin d’une propriété d’approximation.

Lemme 2.5 Soit C ⊆ A une algèbre de Boole, et soit A ∈ σ(C ) et ε > 0. Alors
il existe B ∈ C tel que P (A∆B) 6 ε, où ∆ désigne la différence symétrique.

Preuve. Remarquons que P (A∆B) = k1IA − 1IB k1 . Si D désigne l’ensemble des


A ∈ σ(C ) ayant la propriété d’approximation de l’énoncé pour tout ε > 0, on
vérifie facilement que D est une tribu. Comme elle contient C , elle est égale à
σ(C ). 
Preuve du Théorème de Doob.
1) Soit (Bn )n>1 la filtration à laquelle (Mn )n>1 est adaptée. Par hypothèse,
il existe M ∈ L1 (Ω, A , P ) telle que Mn = E Bn (M ) pour tout n > 1.
Soit C l’algèbre de Boole n=1 Bn , B = σ(C ), et M∞ = E B (M ).
S∞
PJ
Si ε > 0, on peut trouver Y = j=1 aj 1IBj , avec Bj ∈ B, 1 6 j 6 J, telle
que kM∞ − Y k1 6 ε. Grâce au lemme, on peut trouver, pour chaque j, un
Cj ∈ C tel que :
ε
k1IBj − 1ICj k1 6 ;
1 + |a1 | + · · · + |aJ |
PJ
il s’ensuit que Z = j=1 aj 1ICj est C -mesurable, et que :

kM∞ − Zk1 6 kM∞ − Y k1 + kY − Zk1 6 2ε .

Par définition de C , on peut trouver un n0 > 1 tel que Z soit Bn0 -mesurable.
On a donc, pour n > n0 :

Mn − M∞ = E Bn (M ) − M∞ = E Bn (M∞ ) − M∞
= E Bn (M∞ ) − E Bn (Z) + Z − M∞ ;

d’où :

kMn − M∞ k1 6 kE Bn (M∞ − Z)k1 + kM∞ − Zk1 6 2kM∞ − Zk1 6 4ε .

13
L1
Cela montre que Mn −−−→ M∞ .
n→∞
Appliquons maintenant, pour chaque n > 1, l’inégalité maximale de Doob à
la martingale (Mk − Mn )k>n . On obtient :
  1
P sup |Mk − Mn | > a 6 kMN − Mn k1 .
n6k6N a
Donc, en faisant tendre N vers l’infini :
  1
P sup |Mk − Mn | > a 6 kM∞ − Mn k1 .
k>n a
Cette inégalité montre que la fonction maximale supk>n |Mk − Mn | converge en
probabilité vers 0. Cela signifie que (Mn )n>1 est presque sûrement de Cauchy,
et donc converge presque sûrement.
Comme elle converge vers M∞ pour la norme de L1 , la limite presque sûre
est forcément M∞ .
2) Posons M0 = 0 et dn = Mn − Mn−1 pour n > 1. Les accroissements dn
sont orthogonaux dans L2 car pour j < n on a :
E (dj dn ) = E E Bj (dj dn ) = E dj E Bj (dn ) = E (dj .0) = 0 .
   
Pn
On a donc E (Mn2 ) = j=1 E (d2j ), et donc, puisque l’on a supposé la martin-
P∞ P∞
gale (Mn )n>1 bornée dans L2 : j=1 E (d2j ) < +∞. La série j=1 dj converge
donc dans L2 , et puisque Mn = d1 + · · · + dn , cela montre que la martingale
(Mn )n>1 converge dans L2 . Notons M sa limite.
Il ne reste plus qu’à voir que E Bn (M ) = Mn , car cela signifiera que (Mn )n>1
est une martingale terminée, et donc converge presque sûrement, par le 1). On
notera que l’on a forcément M = M∞ .
Pour montrer cela, pour chaque n > 1, fixons B ∈ Bn . Alors, pour N > n,
on a :
E (Mn 1IB ) = E E Bn (MN )1IB ) = E E Bn (MN 1IB ) = E (MN 1IB ).
   

Comme |E (MN 1IB ) − E (M 1IB )| 6 kMN − M k1 6 kMN − M k2 , on obtient,


en faisant tendre N vers l’infini : E (Mn 1IB ) = E (M 1IB ). On a donc bien Mn =
E Bn (M ). 
Nous nous arrêterons ici.
Signalons simplement que l’on peut montrer les résultats suivants :
1) (Doob) Toute martingale bornée dans L1 converge presque sûrement.
2) Pour toute martingale (Mn )n>1 , il y a équivalence entre :
a) (Mn )n>1 converge dans L1 (pour la norme) ;
b) (Mn )n>1 est terminée ;
c) {Mn ; n > 1} est équi-intégrable.
3) Pour 1 < p < ∞, si Mn ∈ Lp (Ω, A , P ) et si kMn kp 6 K pour tout n > 1,
alors les conditions précédentes sont vérifiées, et de plus la convergence a lieu
pour la norme de Lp .

14

Vous aimerez peut-être aussi