Académique Documents
Professionnel Documents
Culture Documents
Chapitre 4
Espérances conditionnelles et
martingales
1 Espérances conditionnelles
Cette notion sert à modéliser la réponse à la question suivante : si X est une
v.a.r. liée à une certaine expérience, que sait-on d’elle si l’on n’a pas toute l’infor-
mation (donnée par la tribu A des événements, mais seulement une information
partielle (donnée par une sous-tribu B ?
1.1 Définition
Soit (Ω, A , P ) un espace de probabilité, et soit B une sous-tribu de A ; on
veut définir, à partir d’une variable aléatoire réelle X ∈ L1 (Ω, A , P ), une autre
v.a.r., qui va “oublier” tout se qui se passe en dehors de B.
Notons P|B la restriction à la sous-tribu B de la probabilité P , et considérons
l’espace L1 (Ω, B, P|B ).
Pour tout B ∈ B, on pose :
Z
νX (B) = E (X1IB ) = X dP . (1.1)
B
On obtient une mesure (réelle) sur (Ω, B), qui est visiblement absolument conti-
nue par rapport à P|B :
1
Définition 1.1 Soit (Ω, A , P ) un espace de probabilité, et soit B une sous-
tribu de A . Pour toute v.a.r. X ∈ L1 (Ω, A , P ), on appelle espérance condi-
tionnelle de X par rapport à B, ou sachant B, l’unique v.a.r., notée E B (X),
qui est B-mesurable et qui vérifie :
Z Z
E B (X) dP = X dP , ∀B ∈ B .
B B
1.2 Exemples.
a) Si B = A , il est clair que E A (X) = X. Cela s’interprète en disant que,
puisque l’on a toute l’information, on sait tout sur X.
Plus généralement, si X est B-mesurable, on a : E B (X) = X .
b) Si B = {∅, Ω} est la tribu grossière, alors les seules qui sont {∅, Ω}-
v.a.r.
mesurables sont les constantes. De par l’égalité E E B (X) = E (X) , cette
E B (X) =
X
an 1IBn ;
n>1
d’où : Z Z Z
X dP = E B (X) , dP = an dP = an P (Bn ) .
Bn Bn Bn
Donc : Z
X 1
E B (X) = X dP 1IBn ;
n
P (Bn ) Bn
2
ainsi, sur chaque Bn , X n’est connu que par sa moyenne sur Bn . En particulier,
si B = {∅, B, B c , Ω}, pour un B ∈ A tel que 0 < P (B) < 1, alors :
1 1
E B (1IA ) = P (A ∩ B)1IB + P (A ∩ B c )1IB c
P (B) P (B c )
= P (A | B)1IB + P (A | B c )1IB c ,
1.3 Propriétés
3
Proposition 1.5 L’espérence conditionnelle :
E B : L1 (Ω, A , P ) → L1 (Ω, B, P )
L r (Ω, B, P |B ) ⊆ L r (Ω, A , P ),
J : Lr (Ω, B, P |B ) −→ Lr (Ω, A , P ).
kE B (X)k1 6 kXk1 .
4
d) Mais E B (1I) = 1I et donc la norme est exactement 1.
e) Pour finir : E B E B (X) = E B (X) car E B (X) ∈ L1 (B) ⊆ L1 (A ) et que
Proposition 1.6
1) Pour 1 6 r 6 ∞ :
|E B (X)|r 6 E B (|X|r ) .
Z Z Z
B
E B (X)Z dP = 0
X − E (X) Z dP = XZ dP −
Ω Ω Ω
avec 1r + 1
s = 1. Comme L∞ (Ω, B, P ) est dense dans Ls (Ω, B, P ), cela signifie
que : Z
Z 7−→ Z1IB E B (X) dP
Ω
5
est une forme linéaire continue sur Ls (Ω, B, P ), de norme 6 k1IB Xkr . Donc
1IB E B (X) ∈ Lr (Ω, B, P ), et :
k1IB E B (X)kr 6 k1IB Xkr ;
cela s’écrit aussi :
Z Z Z
|E B (X)|r dP 6 |X|r dP = E B (|X|r ) dP .
B B B
E B2 E B1 (X) = E B2 (X) .
Preuve. Si B ∈ B2 :
Z Z
E B2 E B1 (X) dP = E B1 (X) dP ;
B B
E (X | Y )
E (X | Y ) = h(Y ) .
6
Par définition, pour tout borélien D ∈ Bor(Rd ), on a donc :
Z Z Z
X dP = E (X | Y ) dP = h(Y ) dP ,
Y −1 (D) Y −1 (D) Y −1 (D)
ce qui s’écrit :
Z Z
X dP = h(y) dP Y (y) , ∀D ∈ Bor(Rd ) . (1.2)
Y ∈D D
ce que l’on savait déjà, puisque BY est engendrée par la partition de Ω formée
par les {Y = xn }, n > 1.
f(X,Y ) (x, y)
fX (x | y) = ·
fY (y)
7
La fonction :
fX ( . | y) : x 7−→ fX (x | y)
est une densité de probabilité sur R : on a fX (x | y) > 0, et :
Z Z
1
fX (x | y) dx = f(X,Y ) (x, y) dx = 1 .
R fY (y) R
fX (x | y) = fX (x | Y = y)
et :
fX (x | y) dx = P (x | Y = y) .
Proposition 1.11 Si le vecteur aléatoire (X, Y ) a une densité sur Rd+1 , alors
pour toute g ∈ L1 (R, PX ), on a :
E g(X) | Y = h(Y ) ,
avec : Z Z
h(y) dPY (y) = g(X) dP , ∀D ∈ Bor(Rd ) .
D Y ∈D
8
par le Théorème de Fubini :
Z Z Z Z
g(x)fX (x | y) dx dPY (y) = g(x)fX (x | y) dx fY (y) dy
D R
ZDZ R
= g(x)fX (x | y)fY (y) dxdy
Z ZR×D
= g(x)f(X,Y ) (x, y) dxdy
Z ZR×D
= g(x) dP(X,Y ) (x, y)
Z ZR×D
= g(x)1ID (y) dP(X,Y ) (x, y)
d+1
Z R Z
= g(X)1ID (Y ) dP = g(x) dP
Ω Y ∈D
E (X | Y ) = a1 Y1 + · · · + an Yn + b .
d’où E B2 (U ) = E (U )1I.
Inversement, si B1 ∈ B1 et B2 ∈ B2 :
Z Z
P (B1 ∩ B2 ) = 1IB1 dP = E B2 (1IB1 ) dP
B2 B2
Z
= E (1IB1 ) 1I dP = P (B1 ) P (B2 ) ,
B2
9
d’où l’indépendance de B1 et B2 , et donc de B1 et B2 .
Preuve du théorème. Supposons d’abord E (X) = E (Y ) = 0.
Soit G l’espace vectoriel engendré par Y1 , . . . , Yn . C’est un sous-espace (de
dimension finie) de L2 (Ω, A , P ). De plus, comme le vecteur Y = (Y1 , . . . , Yn )
est gaussien, G est entièment composé de gaussiennes (c’est un espace gaussien).
Rappelons que, puisque l’on est dans L2 (Ω, A , P ), l’espérance conditionnelle
est la projection orthogonale de L2 (Ω, A , P ) sur L2 (Ω, BY , P ). Remarquons par
ailleurs que G ⊆ L2 (Ω, BY , P ).
Soit P (X) la projection orthogonale de X sur G .
On a P (X) = a1 Y1 + · · · + an Yn pour des nombres réels a1 , . . . , an ∈ R.
Posons Z = X − P (X).
Le vecteur (Z, Y ) est gaussien, comme image linéaire de (X, Y ), et E (ZYk ) =
0 pour tout k = 1, . . . , n, car Z est orthogonal à G ; mais si les composantes
d’un vecteur gaussien sont non corrélées, elles sont indépendantes. Donc Z est
indépendant de Y1 , . . . , Yn . Alors, par le lemme, E (Z | Y ) = E(Z) 1I = 0, car
E (Z) = a1 E(Y1 ) + · · · + an E (Yn ) = 0, ce qui donne E X | Y = P (X), car
E P (X) | Y = P (X) puisque P (X) ∈ G ⊆ L2 (Ω, BY , P ). On peut donc bien
écrire E (X | Y ) = a1 Y1 + · · · + an Yn .
Lorsque X et Y ne sont plus centrés, il suffit de poser X 0 = X − E (X) et
Y 0 = Y − E (Y ) ; comme BY 0 = BY , on a :
E (X | Y ) = E (X 0 + E (X) | Y 0 ) = E (X 0 | Y 0 ) + E (X)
Xn Xn
= ak Yk0 + E (X) = ak (Yk − E (Yk )) + E (X)
k=1 k=1
Xn n
X
= ak Yk + ak E (Yk ) + E (X) .
k=1 k=1
E (X | Y ) = a1 Y1 + · · · + an Yn + b .
10
2 Martingales
Nous n’en dirons que quelques mots d’introduction. C’est une partie impor-
tante des Probabilités. Jusqu’à présent, nous n’avons parlé que de Probabilités
“statiques”, au sens où l’on ne s’intéressait qu’à une seule tribu d’événements
(ou à deux dans le cas des espérances conditionnelles). Les martingales vont
faire intervenir une notion d’“évolution” avec le temps : au fur et à mesure que
le temps passe, le nombre d’informations que l’on connaît augmente ; autrement
dit, on doit tenir compte de plus en plus d’événements, et l’on est amené à
considérer des familles croissantes de sous-tribus d’événements ; pour mesurer
une “expérience”, on aura donc,à chaque instant, une variable aléatoire pour la-
quelle l’information que l’on a sur elle dans le passé, c’est-à-dire son espérance
conditionnelle par rapport à la tribu correspondante, est la variable aléatoire
connue à cet instant passé.
Nous ne parlerons par ailleurs que des martingales à temps discret, c’est-
à-dire celle indexées par les entiers. Cela revient à regarder ce qui se passe à
intervalles réguliers. Si l’on veut savoir se qui se passe à tout moment, on utilisera
des martingales à temps continu, indexées par R+ , par exemple.
B1 ⊆ B2 ⊆ · · · ⊆ Bn ⊆ · · · ⊆ A
de sous-tribus de A .
11
On complète habituellement la filtration en introduisant B0 = {∅, Ω}. Alors,
si l’on pose M0 = 0, on définit les accroissements de la martingale, que l’on
appelle aussi les différences de la martingale, par :
dn = Mn − Mn−1 n>1 .
On a :
Mn = d 1 + · · · + d n .
Ainsi on a une situation semblable à celle de l’Exemple 2, sauf que les différences
dn , n > 1, ne sont plus indépendantes (en général). Néanmoins, on garde une
version très affaiblie d’indépendance. En effet, dire que la suite (Xn )n>1 est
indépendante, peut s’exprimer par :
E Bn (dn+1 ) = 0
Théorème 2.3 (inégalité maximale de Doob) Soit (Mn )n>1 une mar-
tingale adaptée à la filtration (Bn )n>1 . Alors, pour tout N > 1 et tout a > 0,
on a :
1
P sup |Mn | > a 6 E (|MN |) .
16n6N a
E 1IAn .|Mn | = E 1IAn .sgn (Mn ).Mn = E 1IAn .sgn (Mn ).E Bn (MN )
= E E Bn 1IAn .sgn (Mn ).MN = E 1IAn .sgn (Mn ).MN
6 E (1IAn .|MN |) .
12
Par conséquent :
N N 1 1X N
X X 1
P (A) = P (An ) 6 E |Mn |.1IAn 6 E (1IAn .|MN |) = E (|MN |) ,
n=1 n=1
a a n=1 a
Lemme 2.5 Soit C ⊆ A une algèbre de Boole, et soit A ∈ σ(C ) et ε > 0. Alors
il existe B ∈ C tel que P (A∆B) 6 ε, où ∆ désigne la différence symétrique.
Par définition de C , on peut trouver un n0 > 1 tel que Z soit Bn0 -mesurable.
On a donc, pour n > n0 :
Mn − M∞ = E Bn (M ) − M∞ = E Bn (M∞ ) − M∞
= E Bn (M∞ ) − E Bn (Z) + Z − M∞ ;
d’où :
13
L1
Cela montre que Mn −−−→ M∞ .
n→∞
Appliquons maintenant, pour chaque n > 1, l’inégalité maximale de Doob à
la martingale (Mk − Mn )k>n . On obtient :
1
P sup |Mk − Mn | > a 6 kMN − Mn k1 .
n6k6N a
Donc, en faisant tendre N vers l’infini :
1
P sup |Mk − Mn | > a 6 kM∞ − Mn k1 .
k>n a
Cette inégalité montre que la fonction maximale supk>n |Mk − Mn | converge en
probabilité vers 0. Cela signifie que (Mn )n>1 est presque sûrement de Cauchy,
et donc converge presque sûrement.
Comme elle converge vers M∞ pour la norme de L1 , la limite presque sûre
est forcément M∞ .
2) Posons M0 = 0 et dn = Mn − Mn−1 pour n > 1. Les accroissements dn
sont orthogonaux dans L2 car pour j < n on a :
E (dj dn ) = E E Bj (dj dn ) = E dj E Bj (dn ) = E (dj .0) = 0 .
Pn
On a donc E (Mn2 ) = j=1 E (d2j ), et donc, puisque l’on a supposé la martin-
P∞ P∞
gale (Mn )n>1 bornée dans L2 : j=1 E (d2j ) < +∞. La série j=1 dj converge
donc dans L2 , et puisque Mn = d1 + · · · + dn , cela montre que la martingale
(Mn )n>1 converge dans L2 . Notons M sa limite.
Il ne reste plus qu’à voir que E Bn (M ) = Mn , car cela signifiera que (Mn )n>1
est une martingale terminée, et donc converge presque sûrement, par le 1). On
notera que l’on a forcément M = M∞ .
Pour montrer cela, pour chaque n > 1, fixons B ∈ Bn . Alors, pour N > n,
on a :
E (Mn 1IB ) = E E Bn (MN )1IB ) = E E Bn (MN 1IB ) = E (MN 1IB ).
14