Vous êtes sur la page 1sur 4

Chapitre 3

Probabilite et esperance
conditionnelles
3.1 Probabilite conditionnelle
Rappelons que nous comprenons la probabilite dun evenement A comme une mesure de lesperance
que nous avons que cest lev`enement A qui se realisera et non son contraire A
c
, cest-`a-dire une mesure
de lesperance que nous avons que letat du monde

o` u lon se trouve est tel que

A. Imaginons `a
present que nous souhaitons determiner comment reevaluer cette esperance si nous considerons comme
acquis que

B (soit quon a une information qui nous assure de cela, soit quon souhaite simplement
traiter separement les deux cas

B et

B). On appelle cette nouvelle probabilite la probabilite de


A sachant B, et on la note P
B
(A) (ou P(A|B)). Soulignons que P
B
est bien une probabilite sur (tout) ,
simplement veut-on au-moins que P
B
(A) = 0 si A B
c
(puisque si

B, on est certain que

A) ;
on veut aussi que P
B
(B) = 1 (puisquon envisage ici que le cas o` u

B). Lidee est alors de poser


P
B
(A) = cP(A B) ce qui assurera facilement que P
B
est une probabilite, et comme P
B
(B) = 1, nous
voyons que c = 1/P(B) ; bien-entendu ceci impose que P(B) = 0. Le fait quun ev`enement B soit de
probabilite nulle ou non etant souvent capitale, on dit quun ev`enement est negligeable si et seulement
si P(B) = 0.
Do` u nalement la denition
Denition : Soit B un evenement non-negligeable de (, B). On appelle probabilite conditionnelle
sachant B la fonction P
B
: B [0, 1] denie, pour tout ev`enement A B, par P
B
(A) =
P(A B)
P(B)
.
Proposition 3.1 Si P est une probabilite sur (, B), et si B B nest pas negligeable, alors P
B
est
egalement une probabilite sur (, B).
Exercice : Montrer la proposition 3.1 et verier que P
B
(A) = E(I
A
I
B
)/E(I
B
).
On dit quune famille dev`enements (A
i
)
i=1..n
forme une syst`eme complet dev`enements (s.c.e) si
et seulement si
1
=
.

i=1..n
A
i
, cest-`a-dire que chaque appartient `a un A
i
et un seul. Dans
ce cas, pour tout ev`enement B B on a B =
.

i=1..n
(B A
i
) et donc P(B) =

n
i=1
P(B A
i
) =

n
i=1
P(BAi)
P(Ai)
P(A
i
), do` u la formule de la probabilite totale
P(B) =
n

i=1
P(B|A
i
)P(A
i
). (3.1)
Imaginons connues les probabilite P(B|A
i
) et P(A
i
) pour tout i = 1..n. La formule de Bayes
2
suivante
permet den deduire les P(A
i
|B).
1
Certains auteurs se contentent de demander que les A
i
soient deux-`a-deux disjoints et P
_
i=1..n
A
i
_
= 1 ; voyez-vous
la dierence ? Que peut-on dire de N :=
_
i=1..n
A
i
_
c
?
2
Thomas Bayes (1702-1761), publication (postume) de An Essay Toward Solving a Problem of Chances, en 1754.
17
18 CHAPITRE 3. PROBABILIT

E ET ESP

ERANCE CONDITIONNELLES
Theor`eme 3.2 (formule de Bayes) Soit (A
i
)
i=1..n
un s.c.e. de (, B). Alors, pour tout ev`enement B
non-negligeable, et tout j = 1..n, on a
P(A
j
|B) =
P(B|A
j
)P(A
j
)
P(B)
_
=
P(B|A
j
)P(A
j
)

n
i=1
P(B|A
i
)P(A
i
)
_
.
Preuve : Elle se reduit `a lapplication de la denition de P(A
j
|B) et de P(B|A
j
) :
P(A
j
|B) =
P(A
j
B)
P(B)
=
P(B A
j
)
P(B)
=
P(B|A
j
)P(A
j
)
P(B)
,
et on termine par la formule (3.1). 2
Exercice : Deux usines se partagent la production mondiale de vistemboirs
3
. Un vistemboir choisi au
hasard
4
a la probabilite 0.5 de provenir de lune comme de lautre usine. Les vistemboirs de la premi`ere
usine sont defectueux avec une probabilite de 2% et ceux de la seconde usine sont defectueux avec une
probabilite de 6%. On choisit un vistemboir au hasard : quelle est la probabilite quil provienne de la
premi`ere usine (Indication : poser A
i
:=le vistemboir est produit dans lusine i, et B :=le vistemboir
est defectueux. Cet exemple explique pourquoi cette formule est parfois appelee formule des probabilites
des causes.)
3.2 Independance
Cette denition assez anodine de probabilite conditionnelle nous conduit `a une notion capitale en
probabilite : celle dindependance. Au chapitre 1 nous avons vu ce quest une v.a. Y qui est X-mesurable :
cest une simplement fonction deterministe de X dans le sens o` u Y = g(X) pour une fonction deterministe
x g(x) ; donc Y () est enti`erement connu d`es que X() est connu. A linverse, nous souhaitons une
notion dindependance telle la connaissance de X() ne nous apprenne rien sur Y (). En fait nous
allons denir ce que sont deux ev`enements A et B independants et demanderons que les ev`enements
{X x} et {Y y} soient (tous) independants. Lidee que deux ev`enements A et B sont independants
est que le fait de supposer, par exemple, que B a lieu ne change pas la probabilite de A, cest-`a-dire que
P
B
(A) = P(A), ce quil na de sens que si P(B) = 0. On veux aussi saranchir de lapparente disymetrie
et que P
A
(B) = P(B) (sous reserve cette fois que P(A) = 0). Explicitons ces deux identites ; nous obtenons
P(A B)
P(B)
= P(A) et
P(A B)
P(A)
= P(B).
En chassant les denominateurs, nous voyons que les deux relations se reduisent `a lunique relation
P(A B) = P(A) P(B) qui a en outre lavantage detre denie meme si P(A) = 0 ou P(B) = 0. Ceci
nous conduit donc tout naturellement `a la denition
Denition : Soit P une probabilite sur (, B), et soient A B et B B deux ev`enements. On dit que les
ev`enement A et B sont independants pour la probabilite P si et seulement si P(A B) = P(A) P(B) .
Soient X et Y deux v.a. sur (, B). On dit que les v.a. X et Y sont independantes pour la probabilite
P si et seulement si pour tous x et y les ev`enements {X x} et {Y y} sont independants.
Notations : Il est commode decrire AB pour noter que les ev`enements A et B sont independants,
et decrire XY pour noter que les v.a. X et Y sont independantes.
Exemple : Pi`eces de monnaie independantes : Considerons lensemble des etats du monde
suivant :
= {0, 1}
2
= {0, 1} {0, 1} = { = (
1
,
2
),
i
= 0..1, i = 1..2}.
Posons X
1
(
1
,
2
) =
1
et X
2
(
1
,
2
) =
2
. Considerons deux pi`eces de monnaie, et modelisons le fait
que la premi`ere tombe sur Pile par lev`enement {X
1
= 1}, lev`enement {X
2
= 1} modelisant quant `a
lui que la seconde pi`ece tombe sur Pile. Soient p := P({X
1
= 1}) et q := P({X
2
= 1}). Supposons les
deux pi`eces independantes. Notons A := {X
1
= 1} et B := {X
2
= 1} ; lindependance des deux pi`eces
implique celle de A et B, donc P(A B) = P(A)P(B) = pq, et donc P({(X
1
, X
2
) = (1, 1)}) = pq. En
procedant de meme pour les autres combinaisons de valeurs de X
1
et X
2
, nous voyons que les deux pi`eces
sont independantes si et seulement si on a le tableau des probabilites suivant :
3
Vistemboir : nouvelle de Jacques Perret, La Machin, NRF, Gallimard, 1953.
4
de azzahr, le jeu de des, en arabe ; ne me demandez pas comment on fait pour choisir au hasard...
3.3. ESP

ERANCE CONDITIONNELLE 19
X
1
= , X
2
= 1 0 P({X
1
= })
1 pq p(1 q) p
0 (1 p)q (1 p)(1 q) 1 p
P({X
2
= } q 1 q
Exercice : Pi`eces indiscernables : On reprend les notation de lexemple prec`edent. Montrer que
X
1
X
2
P(X
1
= X
2
) = p + q 2pq. On dit que les deux pi`eces sont indiscernables si P(X
1
=
X
2
) = P(X
1
= X
2
= 1) = P(X
1
= X
2
= 0) =
1
3
; montrer que deux pi`eces indiscernables ne peuvent etre
independantes.
Denition : Soit (A
i
)
iI
une famille dev`enements (lensemble I peut etre inni). On dit que ces
ev`enements sont independants si et seulement si I
0
P(

iI0
A
i
) =
iI0
P(A
i
) pour tout sous-ensemble
ni. Il est commode de denoter par

iI
A
i
la propriete que ces ev`enements sont independants.
On dit que les v.a. dune famille (X
i
)
iI
sont independantes si et seulement si pour tous x
i
X
i
:=
X
i
() les ev`enements ({X
i
x
i
})
iI
sont independants. Il est commode de denoter par

iI
X
i
la
propriete que ces v.a. sont independantes.
Exercice : Ev`enements (mutuellement) independants : On reprend les v.a. independantes de
lexemple, et on choisit p =
1
2
= q ; on pose X = X
1
, Y = X
2
, et Z = |X Y |. Quelles sont les valeurs
possibles pour la v.a. Z ? Les v.a. X et Y sont independantes par construction; montrer que les v.a. X et
Z sont independantes, et que les v.a. Y et Z sont independantes. On pose A := {X 0}, B := {Y 0},
et C := {Z 0}. Calculer P(A), P(B), P(C), et P(A B C). Montrer que les v.a. X, Y , et Z ne sont
pas independantes. Cet exemple montre que trois v.a. peuvent etre independantes deux-`a-deux sans etre
independantes. Cest pourquoi, pour des v.a. qui sont independantes au sens de la denition que nous
avons donnees, on dit parfois quelles sont mutuellement independantes.
Proposition 3.3 Si les v.a. (X
i
)
iI
ne prennent chacune quun ensemble ni ou denombrable de valeurs
X
i
:= X
i
() = {x
i
j
, j = 1, 2, . . .}, les v.a. (X
i
)
iI
sont independantes si et seulement si pour tous x
i
X
i
les ev`enements ({X
i
= x
i
})
iI
sont independants.
Soient (X
i
)
iI
une famille de v.a. et (g
i
)
iI
une famille de fonctions g
i
: X
i
() R. Posons
Y
i
:= g
i
(X
i
). Si les v.a. (X
i
)
iI
sont independantes, alors les v.a (Y
i
)
iI
sont egalement independantes.
Theor`eme 3.4 Si les v.a. X et Y sont independantes, on a E(XY ) = E(X)E(Y ).
Preuve : Voir cours ; cest facile. 2
Remarque : nous avions dej` a vu que E est lineaire, et quon a donc E(aX + bY ) = aE(X) + bE(Y ).
Nous voyons ici que si les v.a. X et Y sont independantes, on a de plus E(XY ) = E(X)E(X). Ceci est
evidemment tr`es commode pour les calculs desperance, mais soulignons bien que si la linearite est toujours
assuree, la relation E(XY ) = E(X)E(X) est generalement fausse lorsque lhypoth`ese dindependance nest
pas assuree.
A noter que la reciproque E(XY ) = E(X)E(X) XY est fausse egalement : soit X une v.a.
(elementaire) symetrique, cest-`a-dire P({X +x} = P({X x})) pour tout x, alors Z := X
3
est
egalement symetrique, et donc E(X) = 0 = E(Z). Posons `a present Y := X
2
; Y nest bien-entendu
pas independant de X (sauf si X = 0), et pourtant E(XY ) = E(X X
2
) = E(Z) = 0 = 0 E(X
2
) =
E(X) E(X
2
) = E(Y ).
Exercice : Demontrer ce qui vient detre arme ci-dessus : donner un exemple de v.a. elementaire
symetrique X (choisir X() = {1, +1}. Montrer que P(X = +1) = P(X = 1) =
1
2
; en deduire que
E(X) = 0 = E(X
3
). Montrer que X et Y := X
2
ne sont pas independantes.
3.3 Esperance conditionnelle
Soit tout dabord Y une v.a. sur (, B), et A B un ev`enement non-negligeable. Nous pouvons donc
considerer la probabilite conditionnelle P
A
sur (, B). Lesperance de Y sachant A, notee E(Y |A), est
lesperance de Y pour cette probabilite P
A
, cest-`a-dire le nombre
E(Y |A) := E
PA
(Y ) :=
1
P(A)

yY ()
yP({Y = y} A}.
20 CHAPITRE 3. PROBABILIT

E ET ESP

ERANCE CONDITIONNELLES
Cest donc la moyenne des valeurs de Y ponderee par la probabilite quont ces valeurs lorsque lev`enement
A est suppose assure.
Si lon consid`ere le cas o` u lev`enement A est la survenue dune valeur (non negligeable) dune v.a.
X, lesperance conditionnelle permet dassocier `a la v.a. Y une nouvelle v.a. Y
X
ne dependant que des
valeurs de X. Voici comment :
Nous supposons que la v.a. X est elementaire et notons X := X() = {x
1
, . . . , x
n
} lensemble de ses
valeurs prises (avec probabilite non nulle, par denition dune v.a. elementaire). Ce qui suit nest pas
restreint `a ce cas particulier mais lexposition du cas general implique des constructions masquant trop
facilement le but poursuivi.
Soit x X ; lev`enement B
x
:= {X = x} est de probabilite non nulle et on peut considerer la
probabilite P
Bx
conditionnellement `a cet ev`enement. Soit `a present Y une v.a. ; notons E
x
(Y ) lesperance
de Y pour la probabilite P
Bx
. Ce nombre ne prend donc en compte que les valeurs Y () que prend Y
lorsque X() = x; en eet
E
x
(Y ) =

yY ()
yP
Bx
({Y = y}) =
1
P({X = x})

yY ()
yP({Y = y} {X = x}),
et P({Y = y} {X = x}) = 0 si y / Y ({X = x}), puisque {Y = y} {X = x} = dans ce cas.
Cette formule montre que le nombre E
x
(Y ) est la moyenne des valeurs de Y ponderee par la probabilite
de {Y = y} {X = x}. Si lon eectue cette operation pour chaque x X() on denit une fonction
x g(x) := E
x
(Y ) ; nous pouvons alors considerer la nouvelle v.a. Y
X
:= g(X) ; par construction elle
est constante sur les parties de la partition de en les {X = x}, x X, et cette valeur constante
est une moyenne de Y sur {X = x} ; nous pouvons donc comprendre Y
X
comme la v.a. X-mesurable
ressemblant le plus `a Y ; en particulier, si Y est (dej`a) X-mesurable, on a Y
X
= Y . En revanche, si Y
et X sont independantes, ce traitement degrade completement la v.a. Y en une constante (la constante
qui ressemble le plus `a Y , `a savoir E(X)). Encore un mot : Y
X
se note E(Y |X), notation commode dans
les calculs, mais peut-etre pas tr`es evocatrice.
A noter que la v.a. X na ete utilisee dans cette construction que pour denir la partition de en
les atomes de (X) que sont les ev`enement {X = x}, pour x X. Soit A est une alg`ebre quelconque
et supposons que ses atomes A
i
soient de probabilite non nulle. La meme construction conduit `a la v.a.
E(Y |A), appelee esperance conditionnelle de Y relativement `a lalg`ebre A, qui est constante sur les
atomes A
i
de A, denie par
E(Y |A)() = E(Y |A
i
) pour tout A
i
.
Exercice : Soit X une v.a. elementaire. Montrer que E(Y |X) = E(Y |(X)} ; en deduire que E(Y |X) =
E(Y |g(X)) pour toute application injective g. Ceci montre le role reduit des valeurs de la v.a. X dans
E(Y |X) : seule linformation revelee par X (cest-`a-dire (X)) est essentielle.
Theor`eme 3.5 Soient A
+
A

deux alg`ebres, alors E(E(X|A


+
)|A

) = E(X|A

).
Si Z est A-mesurable, alors E(ZX|A) = ZE(X|A).
Soit Y une v.a. A-mesurable. Alors Y = E(X|A) si et seulement si E(Y I
A
) = E(XI
A
) pour tout
A A
Exercice : Montrer ce theor`eme 3.5 dans le cas o` u les atomes de A et A
+
(et donc ceux de A

) ne sont
pas negligeables et Z est une v.a. elementaire.
Thomas Bayes (1702-1761) :