Chap1-Espérance Conditionnelle

Rappels
Définition :
Une famille F de parties d’un ensemble ⌦ est une tribu ou une
-algèbre sur ⌦ si elle satisfait aux trois axiomes suivants :
⌦ 2 F,
Si A 2 F alors Ac 2 F (stabilité par passage au
complémentaire)
Pour toute suite (An )n2N d’éléments de F, on a :
[n2N An 2 F. (stabilité par réunion dénombrable)
Le couple (⌦, F) s’appelle un espace mesurable et les éléments
de F sont appelés ensembles mesurables de ⌦ .
Remarque :
F est stable par passage au complémentaire, ainsi : ; = ⌦c 2 F.
Définition :
Une sous-tribu G de F est une tribu sur ⌦ telle que : G ⇢ F.
David Lefèvre MA202
Rappels
Exemples :
La tribu {;, ⌦} est appelée tribu triviale sur ⌦.
La famille notée P(⌦) des parties de ⌦ est une tribu.
Soit (An )n2N une partition de l’ensemble ⌦; {[j2J Aj ; J ⇢ N}
est une tribu sur ⌦.
L’intersection d’une famille quelconque de tribus sur ⌦ est une
tribu sur ⌦ .
Définition :
Soit C une famille de parties de ⌦ .
La tribu engendrée par C , notée (C) , est l’intersection de
toutes les tribus contenant C ; (C) est donc la plus petite tribu
(au sens de l’inclusion) contenant C .
Remarque :
La famille des tribus contenant C est non vide car P(⌦) appartient
à cette famille.
Rappels
Exemples :
Si A 2 P(⌦), la famille {;, ⌦, A, Ac } est une tribu sur ⌦ dite
tribu engendrée par l’évènement A.
Soit un ensemble E muni d’une topologie T .
On appelle tribu de Borel de E (ou tribu borélienne) et on
note B(E ), la tribu engendrée par les ouverts de E pour la
topologie T .
Les éléments de B(E ) sont appelés les boréliens de E .
Proposition :
La tribu de Borel (ou tribu borélienne) de R , notée B(R), est
engendrée par les familles suivantes :
(] 1, a[ , a 2 R) , (] 1, a] , a 2 R) ,
(]a, +1[ , a 2 R) , ([a, +1[ , a 2 R) ,
(]a, b[ , a < b , (a, b) 2 R2 ) , ([a, b] , a < b , (a, b) 2 R2 ) ,
([a, b[ , a < b , (a, b) 2 R2 ) , (]a, b] , a < b , (a, b) 2 R2 ) .
Rappels
Rappel : Application mesurable
Soit (⌦, F) et (E , E) deux espaces mesurables.
Une application f : ⌦ ! E est dite (F, E) - mesurable si,
pour tout A 2 E , f 1 (A) 2 F .
Si E est un espace topologique et E = B(E ) , on dit
simplement que f est F - mesurable pour exprimer le fait
qu’elle est (F, E) - mesurable.
Lorsque ⌦ et E sont des espaces topologiques, f : ⌦ ! E
est appelée une fonction borélienne si elle est
(B(⌦), B(E )) - mesurable.
Les résultats qui suivent sont fréquemment utilisés :

Proposition :
1A est F - mesurable si et seulement A 2 F .
Toute application f : R ! R continue est borélienne.
Rappels
Définition :
On appelle espace probabilisable un couple (⌦, F) où ⌦ est un
ensemble et F une tribu sur l’ensemble ⌦.
Définition : Variable aléatoire

Soit (⌦, F) et (E , E) deux espaces mesurables.
On appelle variable aléatoire (en abrégé v.a.) définie sur (⌦, F)
et à valeurs dans (E , E) toute application mesurable X de (⌦, F)
dans (E , E) , soit, on doit avoir :
1
8C 2 E , X (C ) = {X 2 C } = {! 2 ⌦ ; X (!) 2 C } 2 F .
En général, on prendra dans la suite E = Rd , d 2 N⇤ , muni de la

tribu B(Rd ).
Si d = 1, on dit que X est une variable aléatoire réelle.

Rappels
Définition :
Soit X : (⌦, F) ! (Rd , B(Rd )) , une variable aléatoire à valeurs
dans Rd , d 2 N⇤ .
La tribu engendrée par X , notée (X ) , est la plus petite
sous-tribu G de F qui rend la variable aléatoire X , G - mesurable.
En fait, on a : (X ) = X 1 (B(Rd )) = {{X 2 C } ; C 2 B(Rd )} .
La relation suivante clarifie l’interprétation d’une tribu comme

représentant l’information :
Proposition :
Soit X : (⌦, F) ! (Rd , B(Rd )) , une variable aléatoire.
Une variable aléatoire U : (⌦, F) ! (Rk , B(Rk )) est
(X ) -mesurable si et seulement si il existe une application
g : (Rd , B(Rd )) ! (Rk , B(Rk )) mesurable telle que : U = g (X ) .
Autrement dit, si U est (X ) -mesurable et si l’on connait la

valeur de X , on peut en déduire la valeur de U.
Probabilités
Définition :
Soit (⌦, F) un espace probabilisable.
On appelle probabilité sur (⌦, F) une application P de F dans
[0, 1] vérifiant les conditions suivantes :
P(⌦) = 1,
Si (An )n2N est une famille d’évènements de F, deux à deux
disjoints, X
P([n2N An ) = P(An ).
n2N
Cette propriété s’appelle la -additivité.
Le triplet (⌦, F, P) est appelé un espace probabilisé ou espace

de probabilité.

Rappels
Soit (⌦, F, P) un espace de probabilité.

Un sous-ensemble N de ⌦ est dit P-négligeable (ou plus
simplement négligeable) s’il existe A 2 F tel que N ⇢ A et
P(A) = 0.
La notion d’ensemble négligeable permet de donner un sens
mathématique à l’expression “presque-sûr” :
Une propriété P(!) dépendant de l’élément ! 2 ⌦ sera dite
vraie P-presque-sûr sur ⌦ si l’ensemble des ! 2 ⌦ pour
lesquels cette propriété est fausse est P-négligeable.
L’espace de probabilité (⌦, F, P) est complet si F contient
tous les ensembles P-négligeables, c’est-à-dire :
(N, P-négligeable) entraı̂ne N 2 F.

Rappels
Définition : Tribu complétée

Soit N , l’ensemble des P-négligeables.
La tribu F̃ = (F [ N ) est appelée tribu complétée de F par les
P-négligeables.
Dans la suite du cours, on supposera que toutes les tribus

considérées ont été complétées par les négligeables.
Proposition :
Soit X et Y deux variables aléatoires à valeurs dans Rd , d 1.
On dit que X et Y sont égales P-presque-sûrement si
P(X = Y ) = 1 et on note : X = Y , P - p.s. .
X ⇠ Y , P(X = Y ) = 1 est une relation d’équivalence.

Rappels
Indépendance des variables aléatoires :
Deux variables aléatoires réelles X et Y définies sur (⌦, F, P)
sont indépendantes si et seulement si, pour toutes
applications f et g boréliennes bornées ou à valeurs positives :
E[f (X )g (Y )] = E[f (X )]E[g (Y )] .
Soit X : (⌦, F) ! (R, B(R)) une variable aléatoire

F-mesurable et G ⇢ F une sous-tribu de F.
On dit que X est indépendante de G si, pour toute variable
aléatoire Y , G-mesurable, X est indépendante de Y .
Si X et Y sont deux variables aléatoires définies sur (⌦, F) et
à valeurs dans R, comme les variables aléatoires
Z , (Y ) - mesurables sont celles qui s’écrivent sous la forme
g (Y ), avec g : R ! R, borélienne, dire que X est
indépendante de (Y ) équivaut à dire que X et Y sont
indépendantes.
Espérance conditionnelle
Définition : Produit scalaire
Soit V un espace vectoriel sur R.
Un produit scalaire sur V est une application bilinéaire sur V ,
notée < ., . >V , définie sur V ⇥ V et à valeurs dans R, vérifiant les
trois propriétés suivantes :
8(v , w ) 2 V 2 , < v , w >V = < w , v >V , (symétrie)
8v 2 V , < v , v >V 0, (positivité)
< v , v >V = 0 si et seulement si : v = 0.
Définition et proposition :
Etant donné < ., . >V un produit scalaire sur V .
p
L’application v 2 V 7! ||v ||V = < v , v >V est une norme
sur V appelée norme induite par le produit scalaire < ., . >V .
Elle vérifie l’inégalité de Cauchy-Schwartz :
8(v , w ) 2 V 2 , | < v , w >V |  ||v ||V ||w ||V .

Définition : Espace de Hilbert

Un espace de Hilbert sur R est un espace vectoriel sur R muni
d’un produit scalaire et qui est complet pour la norme induite.
Théorème de projection orthogonale :

Soit H un espace de Hilbert sur R et K un sous-espace vectoriel
fermé non vide de H.
Pour tout u 2 H, il existe un unique ū 2 K , appelé projection
orthogonale de u sur K , et noté PK u, tel que :
||u PK u||H = inf ||u w ||H . (1)

w 2K
De plus, PK u est caractérisé par :
PK u 2 K et 8w 2 K , <u PK u , w >= 0 . (2)

Remarque :
Si u 2 K , PK u = u.
Proposition : Linéarité du projecteur orthogonal

PK est une application linéaire de H dans K .
On a donc :
8(u, v ) 2 H 2 , 8(↵, ) 2 R2 , PK (↵ u+ v ) = ↵ PK (u)+ PK (v ) .

Espérance conditionnelle : le cas L2
Soit (⌦, F, P) un espace de probabilité et G une sous-tribu de F.
L2 (⌦, F, P) est l’espace des (classes d’équivalence pour la
relation d’équivalence “égalité P - p.s.” de) variables aléatoires
Y à valeurs réelles vérifiant E[Y 2 ] < +1.
L2 (⌦, F, P) est un espace de Hilbert muni du produit
scalaire noté < ., . > et défini par :
8 (Y1 , Y2 ) 2 L2 (⌦, F, P)⇥L2 (⌦, F, P), < Y1 , Y2 >= E[Y1 Y2 ] .
La norme induite par le produit scalaire < ., . >, notée ||.||2 ,

est alors définie par :
1
2 2
8 Y 2 L (⌦, F, P), ||Y ||2 = (E[Y ]) .
2
Notons L2 (⌦, G, P) l’ensemble des (classes de) variables

aléatoires Z définies sur (⌦, F, P) et à valeurs dans
R , G -mesurables telles que : E[Z 2 ] < +1 .
Il apparaı̂t que L2 (⌦, G, P) est un sous-espace vectoriel fermé non

vide de L2 (⌦, F, P).
En utilisant le théorème de projection orthogonale sur un

sous-espace vectoriel fermé d’un espace de Hilbert et l’équation
(1), il vient :
Espérance conditionnelle :
Pour toute variable aléatoire X 2 L2 (⌦, F, P) , il existe un
unique élément Y 2 L2 (⌦, G, P) telle que :
||X Y ||2 = inf ||X Z ||2 .

Z 2L2 (⌦,G,P)
On note : Y = E[X |G] et Y est appelée l’espérance

conditionnelle de X sachant G.

Lorsque X 2 L2 (⌦, F, P) , E[X |G] 2 L2 (⌦, G, P) est la projection

orthogonale de X sur le sous-espace vectoriel fermé L2 (⌦, G, P)
de l’espace de Hilbert L2 (⌦, F, P).
E (! jG)
L2(#" G" P)

Remarque :
L’espérance conditionnelle est un élément de L2 (⌦, G, P),
c’est-à-dire une classe d’équivalence de variables aléatoires; on
peut supposer que c’est une vraie variable aléatoire, mais dans ce
cas elle n’est définie qu’à un ensemble de probabilité nulle près.
Par suite, toutes les écritures faisant intervenir l’espérance
conditionnelle E[X |G] doivent être comprises au sens
P - presque-sûr, bien qu’on omette en général de le mentionner
systématiquement.
Soit X 2 L2 (⌦, F, P) une variable aléatoire réelle intégrable.

Considérons l’application h : a 2 R 7! E[(X a)2 ] 0.
Comme 8a 2 R, h(a) = a2 2 a E[X ] + E[X 2 ], h atteint son
minimum en a = E[X ].
Ainsi, l’espérance de X apparaı̂t comme la meilleure
approximation de X par une constante au sens quadratique.
Pour un observateur ne s’intéressant qu’aux évènements de

la sous-tribu G de F, quel serait un résumé de X , c’est-à-dire
une version simplifiée de X compte tenu de l’appauvrissement de
l’espace des évènements?
Là-encore, le cadre géométrique de L2 (⌦, F, P) permet de bien
comprendre la nature de l’espérance conditionnelle : E[X |G] est la
meilleure approximation quadratique de X (au sens de la
norme ||.||2 ) par une variable aléatoire G - mesurable, étant
donnée l’information contenue dans G.
Proposition : Caractérisation de l’espérance conditionnelle

Soit X 2 L2 (⌦, F, P) et G une sous-tribu de F.
L’espérance conditionnelle de X sachant G est l’unique élément
Y = E[X |G] 2 L2 (⌦, G, P) vérifiant :
E[Z Y ] = E[Z X ], pour toute v.a. Z 2 L2 (⌦, G, P). (3)

Propriétés de l’espérance conditionnelle
Preuve :
Par définition, Y = E[X |G] est la projection orthogonale de X sur
le sous-espace vectoriel fermé L2 (⌦, G, P) de l’espace de Hilbert
L2 (⌦, F, P).
Utilisant l’équation de caractérisation (2), l’espérance
conditionnelle de X sachant G est l’unique élément
Y 2 L2 (⌦, G, P) tel que :
8Z 2 L2 (⌦, G, P), < X Y , Z >= 0 ,
soit :
E[(X Y )Z ] = 0 ,
et on obtient alors l’égalité (3).

Dans la suite, G désigne une sous-tribu de F.
E[.|G] est un opérateur linéaire.
L’application, notée E[.|G], de L2 (⌦, F, P) dans L2 (⌦, G, P)
définie par : X 7! E[X |G] est linéaire.
Preuve :
La linéarité de l’espérance conditionnelle résulte de la propriété de
linéarité de l’opérateur projection orthogonale.
E[.|G] est un opérateur positif.
Si X 2 L2 (⌦, F, P) et X 0 , P - p.s. , alors : E[X |G] 0, P - p.s. .
Preuve :
Posons Z = 1{E[X |G]<0} .
Comme E[X |G] est G - mesurable, {E[X |G] < 0} 2 G et Z est alors
une variable aléatoire G - mesurable.
Preuve : (suite)
Par ailleurs, Z ne prend que les valeurs 0 et 1 de sorte que :
|Z |  1 , P - p.s. et E[Z 2 ] < +1.
On en conclut que : Z 2 L2 (⌦, G, P).
De plus, d’après (3), il vient :
E[Z E[X |G]] = E[Z X ]. (4)
Comme Z est une variable aléatoire à valeurs positives et

X 0 , P - p.s. par hypothèse, on obtient : E[Z X ] 0.
Par contre, si P({E[X |G] < 0}) > 0, on aurait alors :
⇥ ⇤
E E[X |G]1{E[X |G]<0} < 0.
L’égalité (4) serait alors contredite sauf si : P({E[X |G] < 0}) = 0.
On déduit du développement précédent que si X 0 , P - p.s. ,
alors : E[X |G] 0, P - p.s. .
E[.|G] est un opérateur croissant.

Pour tout (X1 , X2 ) 2 L2 (⌦, F, P) ⇥ L2 (⌦, F, P) vérifiant
X1  X2 , P - p.s. alors :
E[X1 |G]  E[X2 |G], P - p.s. .
Preuve :
Pour tout (X1 , X2 ) 2 L2 (⌦, F, P) ⇥ L2 (⌦, F, P) tel que :
X1  X2 , P - p.s. , on a :
X2 X1 2 L2 (⌦, F, P) et X2 X1 0 , P - p.s. .
Comme E[.|G] est un opérateur positif, E[X2 X1 |G] 0 et la

linéarité de l’espérance conditionnelle implique alors que :
E[X1 |G]  E[X2 |G], P - p.s. .

Propriété :
Quel que soit X 2 L2 (⌦, F, P), on a :
E[E[X |G]] = E[X ]. (5)
Preuve :
Il suffit d’appliquer l’équation (3) avec Z = 1 qui est bien un
élément de L2 (⌦, G, P).
Proposition :
Si G = (X ) avec X 2 L2 (⌦, F, P), il existe une fonction
borélienne f : R ! R telle que : E[X |G] = f (X ).
Preuve :
Lorsque G = (X ), E[X |G] est (X ) - mesurable; d’après un
résultat vu dans les rappels liminaires, il existe alors une fonction
borélienne f : R ! R telle que : E[X |G] = f (X ).
Vocabulaire :
Soit X 2 L2 (⌦, F, P) et Y une variable aléatoire; on note
E[X |Y ] = E[X | (Y )], appelée espérance conditionnelle de X
sachant Y .
Proposition : Caractérisation de l’espérance conditionnelle

Soit X 2 L2 (⌦, F, P) et G une sous-tribu de F.
Les propositions suivantes sont équivalentes :
1 Y = E[X |G],
2 Pour toute variable aléatoire Z , G - mesurable et bornée, on a :
E[Z Y ] = E[Z X ]. (6)
3 Pour tout A 2 G, il vient :
E[1A Y ] = E[1A X ]. (7)

Preuve :
L’alinéa 1. entraı̂ne 2.
En e↵et, soit Z une variable aléatoire G - mesurable et bornée; alors
E[Z 2 ] < +1 et Z 2 L2 (⌦, G, P).
D’après l’égalité (3), on en déduit que :
E[Z Y ] = E[Z X ],
Supposons que l’alinéa 2. de la proposition soit vérifié.

Soit A 2 G quelconque. 1A est alors une variable aléatoire
G - mesurable; de plus, 1A est bornée.
L’égalité (7) se déduit donc immédiatement de (6).
Il en résulte que l’alinéa 2. implique 3.

Preuve : (suite)
Montrons que 3. entraı̂ne 2.
Soit Z une variable aléatoire G - mesurable et bornée.
D’après un résultat de théorie de la mesure, il existe une suite
croissante (Zn )n2N de variables aléatoires étagées telle que Zn
converge (uniformément) vers Z .
Xp
Posons Zn = ai,n 1Ai,n , où p 2 N, ai,n 2 R et Ai,n 2 G, quel que
i=1
soit i 2 {1, · · · , p}.
Utilisant (7) et la linéarité de l’espérance, on obtient facilement
que, pour tout n 2 N :
p
X p
X
E[Zn Y ] = ai,n E[1Ai,n Y ] = ai,n E[1Ai,n X ] = E[Zn X ]. (8)
i=1 i=1

Preuve : (suite) ✓ ◆
Or, quel que soit n 2 N, |Zn Y |  p max |ai,n | |Y |, avec
1ip
Y 2 L2 (⌦, F, P) ⇢ L1 (⌦, F, P).
D’après le théorème de convergence dominée de Lebesgue, il vient
alors : ✓ ◆
lim E[Zn Y ] = E lim Zn Y . (9)
n!+1 n!+1
✓ ◆
De la même façon, |Zn X |  p max |ai,n | |X |, pour tout n 2 N,
1ip
où X est une variable aléatoire intégrable, de sorte que :
✓ ◆
lim E[Zn X ] = E lim Zn X , (10)
n!+1 n!+1
en utilisant à nouveau le théorème de convergence dominée.

En passant à la limite lorsque n ! +1 dans (8) et combinant (9)
et (10), on obtient que : E[Z Y ] = E[Z X ]. L’alinéa 2. est alors
démontré.
Preuve : (suite)
Supposons maintenant que pour toute variable aléatoire
Z , G - mesurable et bornée, l’égalité (6) soit vérifiée et démontrons
que Y = E[X |G].
Soit Z 2 L2 (⌦, G, P), une variable aléatoire G - mesurable et de
carré intégrable.
0
Considérons la suite de variables aléatoires (Zn )n2N définie par :
0
Zn = inf(Z , n), pour tout n 2 N.
0
Quel que soit n 2 N, Zn est G - mesurable, comme étant l’inf de
deux fonctions G - mesurables.
0 0
Par ailleurs, Zn , n 2 N, est bornée, puisque |Zn |  n, 8n 2 N.
De plus, comme :
0
|Zn |  |Z |, (11)
0
quel que soit n 2 N, on a bien : Zn 2 L2 (⌦, G, P).
Ainsi, d’après (6), il vient, pour tout n 2 N :
0 0
E[Zn Y ] = E[Zn X ]. (12)
Preuve : (suite)
0
Par ailleurs, (Zn = inf(Z , n))n2N converge P - presque-sûrement
vers Z .
Utilisant (11), on a, quel que soit n 2 N :
0 0
|Zn X |  |Z ||X | et |Zn Y |  |Z ||Y |.
Comme Z est bornée et X et Y sont des variables aléatoires de

carré intégrable donc intégrables, Z Y et Z X sont intégrables.
En passant à la limite lorsque n ! +1 dans (12), on obtient,
d’après le théorème de convergence dominée de Lebesgue :
E[Z Y ] = E[Z X ]. (13)
Comme E[X |G] est l’unique élément de L2 (⌦, G, P) vérifiant (13),

on en déduit que : Y = E[X |G].

Soit G une sous-tribu de F.
Proposition :
Soit U 2 L2 (⌦, G, P) une variable aléatoire bornée et
X 2 L2 (⌦, F, P) tels que : U X 2 L2 (⌦, F, P).
Alors, on a :
E[UX |G] = U E[X |G], P p.s. . (14)
Si X 2 L2 (⌦, F, P) est indépendante de G, alors :
E[X |G] = E[X ], P p.s. . (15)

Preuve :
Soit Z une variable aléatoire G - mesurable et bornée.
U Z est G - mesurable comme étant le produit de deux variables
aléatoires G - mesurables; de plus, comme Z est bornée et
U 2 L2 (⌦, G, P), alors U Z est de carré intégrable. Ainsi, on a :
U Z 2 L2 (⌦, G, P).
Preuve : (suite)
Utilisant la caractérisation de l’espérance conditionnelle, il vient
alors :
E[(UZ ) X ] = E[(UZ ) E[X |G]]
= E[Z (U E[X |G])] (16)
En remarquant que E[Z (UX )] = E[(UZ ) X ] et tenant compte de
(16), on a donc :
E[Z (UX )] = E[Z (U E[X |G])] (17)
Or, par définition, E[X |G] est G - mesurable et de carré intégrable;
ainsi, U E[X |G] est G - mesurable comme étant le produit de deux
fonctions G - mesurables. De plus, comme U est bornée par
hypothèse, U E[X |G] est de carré intégrable.
On en déduit que : U E[X |G] 2 L2 (⌦, G, P).
Mais, E[UX |G] est l’unique élément de L2 (⌦, G, P) vérifiant (17),
ainsi : E[UX |G] = U E[X |G], P p.s. .
Preuve : (suite)
Soit Z 2 L2 (⌦, G, P).
Comme X est indépendante de G, les variables aléatoires X et Z
sont indépendantes, de sorte que :
E[Z X ] = E[Z ] E[X ] = E[Z E[X ]].
E[X ] est évidemment G - mesurable (puisque c’est une constante)

et utilisant la caractérisation de l’espérance conditionnelle, on en
déduit que : E[X |G] = E[X ], P p.s. .
Proposition
Si H ⇢ G sont deux sous-tribus de F et X 2 L2 (⌦, F, P), alors :
E[E[X |G]|H] = E[X |H], P - p.s. . (18)

Preuve :
Comme L2 (⌦, H, P) ⇢ L2 (⌦, G, P) ⇢ L2 (⌦, F, P), l’égalité (18)
exprime simplement la composition des projections orthogonales
sur L2 (⌦, G, P) puis sur L2 (⌦, H, P).
L2(#"H"P)
E (!jH)
E (!jG)
L2(#" G"P)

Espérance conditionnelle : cas général
Etant donné (⌦, F, P) un espace de probabilité.
Désignons par :
L+ (⌦, F, P) l’espace des variables aléatoires X définies sur
(⌦, F, P) et à valeurs positives.
L1 (⌦, F, P) l’espace des (classes de) variables aléatoires X
définies sur (⌦, F, P) et à valeurs réelles telles que
E[|X |] < +1 .
Définition et Proposition :
Soit G une sous-tribu de F .
L’espérance conditionnelle d’une variable aléatoire
X 2 L+ (⌦, F, P) (respectivement d’une variable aléatoire
X 2 L1 (⌦, F, P)) relativement à G est l’unique (à une égalité
P - presque-sûre près) variable aléatoire G -mesurable, à valeurs
positives (respectivement dans L1 (⌦, F, P) ), notée E[X |G] , telle
que :
8A 2 G, E[1A Y ] = E[1A X ] . (19)
On notera que si X 2 L+ (⌦, F, P) , E[X |G] 2 L1 (⌦, F, P) si et

seulement si X 2 L1 (⌦, F, P) .
Caractérisation de l’espérance conditionnelle :
Etant donné un espace de probabilité (⌦, F, P) , G une sous-tribu
de F et X une variable aléatoire à valeurs positives
(respectivement intégrable).
L’espérance conditionnelle de X sachant G , notée E[X |G] , est
l’unique (au sens P -presque sûr) variable aléatoire G mesurable à
valeurs positives (respectivement intégrable) telle que :
Pour toute variable aléatoire U , G - mesurable à valeurs positives
(respectivement bornée),
E[UE[X |G]] = E[UX ] . (20)

Propriétés de l’espérance conditionnelle :

1 Linéarité :
8(X1 , X2 ) 2 L+ (⌦, F, P) ⇥ L+ (⌦, F, P) , 8(a1 , a2 ) 2
R2+ , E[a1 X1 + a2 X2 |G] = a1 E[X1 |G] + a2 E[X2 |G] , p.s. ,
8(X1 , X2 ) 2 L1 (⌦, F, P) ⇥ L1 (⌦, F, P) , 8(a1 , a2 ) 2
R2 , E[a1 X1 + a2 X2 |G] = a1 E[X1 |G] + a2 E[X2 |G] , p.s. .
2 Si X 0 , p.s. , alors E[X |G] 0 , p.s. .
En conséquence, E[.|G] est un opérateur croissant.
Soit X une variable aléatoire intégrable ou à valeurs positives;
on a :
3 E[E[X |G]] = E[X ] .
4 Si X est G -mesurable, alors E[X |G] = X , p.s. .
5 Si X est indépendante de G , alors E[X |G] = E[X ] , p.s. .

Théorème de convergence monotone :

Soit (Xn )n2N une suite de v.a. réelles positives telles que :
8n 2 N , Xn  Xn+1 , P p.s. .
Désignons par X = lim Xn , P p.s. .

n!+1
Alors :
E[Xn |G] ! E[X |G], P p.s. .
n!+1
Lemme de Fatou :
Si (Xn )n2N est une suite de v.a. réelles positives, on a :
E[lim inf Xn |G]  lim inf E[Xn |G], P p.s. .

n!+1 n!+1

Théorème de convergence dominée :

Soit (Xn )n2N une suite de v.a. réelles uniformément bornée par une
v.a. réelle intégrable (c’est-à-dire qu’il existe une variable aléatoire
V 2 L1 (⌦, F, P) tel que : 8n 2 N , |Xn |  V , P p.s.) et qui
converge P p.s. vers X .
Alors :
E[|Xn X | |G] ! 0, P p.s. .
n!+1
Inégalité de Jensen :
Soit X une variable aléatoire F - mesurable à valeurs positives ou
intégrable.
Si c : R ! R est une fonction convexe telle que c(X ) soit une
variable aléatoire à valeurs positives ou intégrable, alors :
E[c(X )|G] c(E[X |G]), P p.s. .

Preuve :
Comme c : R ! R est une fonction convexe, on a :
c(x) = sup(an x + bn ) , pour tout x 2 R , où (an )n2N et (bn )n2N
n2N
sont deux suites de nombres réels.
Ainsi, pour tout n 2 N , il vient :
E[c(X )|G] E[an X + bn |G] ,
= an E[X |G] + bn , P p.s. .
Prenant le sup sur n 2 N dans l’inégalité précédente, on obtient
alors :
c(E[X |G]) = sup(an E[X |G] + bn )  E[c(X )|G] , p.s. .
n2N
Remarque :
On a : ||E[X |G]||p  ||X ||p , pour tout p 1 , où
1
||X ||p = (E[X p ]) p .
Preuve :
En appliquant l’inégalité de Jensen conditionnelle à la fonction
convexe c définie pour tout x 2 R par c(x) = |x|p , où p 1 , on
a:
|E[X |G]|p  E[|X |p |G] , p.s. ,
soit, en prenant l’espérance dans l’inégalité précédente,
E[|E[X |G]|p ]  E[E[|X |p |G]] = E[|X |p ] , p.s. .

1
Comme la fonction x 7! x , x 2 R+ , p 1 est croissante, on en
p
déduit que :
||E[X |G]||p  ||X ||p , p.s. .

Emboı̂tement :
Si H est une sous-tribu de G , alors :
E[E[X |G]|H] = E[X |H], P p.s. . (21)
Sortir ce qui est connu :

Soit X et Z deux v.a. réelles telles que Z est G - mesurable; on a
alors :
E[Z X |G] = Z E[X |G], P p.s. , (22)
dans chacun des deux cas suivants :
1 les v.a. X , Z et X Z sont intégrables,
2 les v.a. X et Z sont positives.

Chap1-Espérance Conditionnelle

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap1-Espérance Conditionnelle

Transféré par

Droits d'auteur :

Formats disponibles

Rappels

Les résultats qui suivent sont fréquemment utilisés :

Définition : Variable aléatoire

En général, on prendra dans la suite E = Rd , d 2 N⇤ , muni de la

David Lefèvre MA202

La relation suivante clarifie l’interprétation d’une tribu comme

Autrement dit, si U est (X ) -mesurable et si l’on connait la

Cette propriété s’appelle la -additivité.

Le triplet (⌦, F, P) est appelé un espace probabilisé ou espace

David Lefèvre MA202

Soit (⌦, F, P) un espace de probabilité.

David Lefèvre MA202

Définition : Tribu complétée

Dans la suite du cours, on supposera que toutes les tribus

David Lefèvre MA202

E[f (X )g (Y )] = E[f (X )]E[g (Y )] .

Soit X : (⌦, F) ! (R, B(R)) une variable aléatoire

8(v , w ) 2 V 2 , | < v , w >V |  ||v ||V ||w ||V .

Définition : Espace de Hilbert

Théorème de projection orthogonale :

||u PK u||H = inf ||u w ||H . (1)

De plus, PK u est caractérisé par :

PK u 2 K et 8w 2 K , <u PK u , w >= 0 . (2)

David Lefèvre MA202

Proposition : Linéarité du projecteur orthogonal

8(u, v ) 2 H 2 , 8(↵, ) 2 R2 , PK (↵ u+ v ) = ↵ PK (u)+ PK (v ) .

David Lefèvre MA202

8 (Y1 , Y2 ) 2 L2 (⌦, F, P)⇥L2 (⌦, F, P), < Y1 , Y2 >= E[Y1 Y2 ] .

La norme induite par le produit scalaire < ., . >, notée ||.||2 ,

Notons L2 (⌦, G, P) l’ensemble des (classes de) variables

Il apparaı̂t que L2 (⌦, G, P) est un sous-espace vectoriel fermé non

En utilisant le théorème de projection orthogonale sur un

||X Y ||2 = inf ||X Z ||2 .

On note : Y = E[X |G] et Y est appelée l’espérance

David Lefèvre MA202

Lorsque X 2 L2 (⌦, F, P) , E[X |G] 2 L2 (⌦, G, P) est la projection

David Lefèvre MA202

Soit X 2 L2 (⌦, F, P) une variable aléatoire réelle intégrable.

Pour un observateur ne s’intéressant qu’aux évènements de

Proposition : Caractérisation de l’espérance conditionnelle

E[Z Y ] = E[Z X ], pour toute v.a. Z 2 L2 (⌦, G, P). (3)

8Z 2 L2 (⌦, G, P), < X Y , Z >= 0 ,

David Lefèvre MA202

E[Z E[X |G]] = E[Z X ]. (4)

Comme Z est une variable aléatoire à valeurs positives et

E[.|G] est un opérateur croissant.

E[X1 |G]  E[X2 |G], P - p.s. .

Comme E[.|G] est un opérateur positif, E[X2 X1 |G] 0 et la

E[X1 |G]  E[X2 |G], P - p.s. .

David Lefèvre MA202

E[E[X |G]] = E[X ]. (5)

Proposition : Caractérisation de l’espérance conditionnelle

E[Z Y ] = E[Z X ]. (6)

3 Pour tout A 2 G, il vient :

E[1A Y ] = E[1A X ]. (7)

Supposons que l’alinéa 2. de la proposition soit vérifié.

David Lefèvre MA202

David Lefèvre MA202

en utilisant à nouveau le théorème de convergence dominée.

Comme Z est bornée et X et Y sont des variables aléatoires de

E[Z Y ] = E[Z X ]. (13)

Comme E[X |G] est l’unique élément de L2 (⌦, G, P) vérifiant (13),

David Lefèvre MA202