Vous êtes sur la page 1sur 52

Universit Paris-Daupine

DEMI2E

Anne 2013/2014

Cours de Probabilits

Joseph Lehec

Table des matires


1 Thorie de la mesure
1.1 Dfinitions . . . . . . . .
1.2 La mesure de Lebesgue .
1.3 Convergence monotone .
1.4 Exercices . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

2
2
3
4
5

2 Espaces de probabilit
2.1 Dfinition . . . . . .
2.2 Conditionnement . .
2.3 Indpendance . . . .
2.4 Exercices . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

6
6
7
8
9

3 Variables alatoires
3.1 Dfinitions . . . . . . . . . . . . . . . . . . .
3.2 Variables alatoires, fonctions de rpartition
3.3 Loi dune variable alatoire . . . . . . . . .
3.4 Variables alatoires discrtes . . . . . . . . .
3.5 Variables alatoires continues . . . . . . . .
3.6 Exercices . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

11
11
12
13
14
14
15

4 Intgration
4.1 Intgrale dune fonction tage positive .
4.2 Intgrale dune fonction positive . . . .
4.3 Intgrale dune fonction relle . . . . . .
4.4 Exemples . . . . . . . . . . . . . . . . .
4.5 Exercices . . . . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

17
17
19
20
21
23

5 Esprance
5.1 Dfinition, proprits . . . . . . . .
5.2 Moments, variance . . . . . . . . .
5.3 Fonction gnratrice des moments
5.4 Formule fondamentale . . . . . . .
5.5 Retour sur les variables continues .
5.6 Lois classiques . . . . . . . . . . .
5.7 Changement de variable I . . . . .
5.8 Un exemple ni discret ni continu .
5.9 Exercices . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

25
25
26
27
28
29
30
33
35
35

6 Variables indpendantes
6.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38
38
39
39

7 Intgrales doubles
7.1 Thorme de Fubini . . .
7.2 Lois jointes . . . . . . . .
7.3 Couples continus . . . . .
7.4 Retour sur lindpendance
7.5 Changement de variable II
7.6 Exercices . . . . . . . . .

.
.
.
.
.
.

41
41
42
42
43
44
46

8 Conditionnement
8.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48
48
50
51

.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

Thorie de la mesure

1.1

Dfinitions

Dfinition 1.1. Soit E un ensemble. On appelle tribu sur E un sous-ensemble A des parties de
E vrifiant
(i) A
(ii) si A A alors Ac A
S
(iii) si (An )nN est une suite dlments de A, alors nN An A
Exemple 1.2. Soit E un ensemble
{, E} est une tribu.
Soit A E, alors {, A, Ac , E} est une tribu.
P(E) est une tribu.
Lemme 1.3. Soit E un ensemble et A une tribu sur E. Alors
EA
A est stable par union finie
A est stable par intersection dnombrable (ou finie).
Dmonstration. Comme A et comme A est stable par passage au complmentaire E = c A.
Pour le deuxime point il suffit de remarquer que
A B = A B .
Pour le troisime on crit
\

An =

c
Acn .

Dfinition 1.4. tant donn un ensemble E et une tribu A sur E, on appelle mesure sur (E, A)
une application
: A [0, +]
telle que pour toute suite (An )nN dlments de A deux deux disjoints (An Am = pour tous
n 6= m) on ait
+
[
 X
(An )

An =
n=0

nN

Cette proprit est appele -additivit ou additivit dnombrable.


Remarque. Le membre de gauche dans lgalit prcdente reste inchang si lon permute les An
(lunion ne dpend pas de lordre). Pour que la dfinition prcdente ait un sens il faut donc que
le membre de droite soit invariant par permutation des An . Cest le cas puisque la somme dune
srie termes positifs ne dpend pas de lordre des termes.
Dfinition 1.5. On appelle espace mesur tout triplet (E, A, ), o E est un ensemble, A une
tribu sur E, et une mesure de probabilit sur (E, A).
Lemme 1.6. Un espace mesur (E, A, ) vrifie les proprits suivantes :
() = 0,
si A B = alors (A B) = (A) + (B) (additivit),
si A B alors (A) (B).
Dmonstration. Par -additivit on a () = ( ) = () + () + ce qui implique
() = 0. Pour le deuxime point on crit (A B) = (A B ) et on utilise la
-additivit et le premier point. Si A B on a B = A (B\A) et lunion est disjointe. Donc
(B) = (A) + (B\A) et donc (B) (A).
Un peu de terminologie : Si (E) < + on dit que est une mesure finie. Si (E) = 1
on dit que est une mesure de probabilit. Les lments de la tribu A sont appels ensembles
mesurables. Un ensemble A vrifiant (A) = 0 est dit ngligeable. Si une proprit a lieu en dehors
dun ensemble ngligeable, on dit quelle est vraie presque partout.
2

Exemple 1.7. Soit a E, on dfinit une mesure de probabilit sur (E, P(E)) en posant a (A) = 1
si a A et a (A) = 0 sinon. Cette mesure est appele masse de Dirac en a.
Exemple 1.8. Pour tout sous-ensemble A de N posons (A) = card(A) si A est fini et (A) = +
si A est infini. Alors dfinit une mesure sur (N, P(N)) appele mesure de comptage.

1.2

La mesure de Lebesgue

Dans cette partie on se place sur lensemble R des nombres rels. Les principaux thormes de
cette partie seront admis, leur dmonstration dpasse le cadre dune introduction la thorie de
la mesure.
Remarquons quune intersection de tribus est encore une tribu, ce qui justifie la dfinition suivante.
Dfinition 1.9. On appelle tribu des Borliens ou tribu Borlienne, note B(R), la tribu engendre
par les intervalles de R ; cest--dire la tribu obtenue en prenant lintersection de toutes les tribus
contenant les intervalles.
Il faut retenir cette dfinition ainsi :
B(R) est une tribu.
Les intervalles de R sont contenus dans B(R).
Si A est une tribu contenant les intervalles, alors B(R) A.
On ne change rien la dfinition prcdente en ne considrant que les intervalles ouverts, ou que
les intervalles ferms : un intervalle ouvert peut toujours scrire comme une union dnombrables
dintervalle ferms. De mme, la tribu B(R) contient les singletons. En effet, soit on considre que
{x} = [x, x] est un intervalle et donc appartient B(R) par dfinition, soit on crit
\
{x} =
[x, x + 1/n].
n1

Par stabilit par union dnombrable la tribu B(R) contient tous les ensembles dnombrables, en
particulier lensemble Q des nombres rationnels. En fait, il est difficile de construire un sousensemble de R qui ne soit pas Borlien.
Thorme 1.10. Soient , deux mesures dfinies sur (R, B(R)), si et concident sur les
intervalles alors et sont gales. Autrement dit si (I) = (I) pour tout intervalle I alors
(B) = (B) pour tout Borlien B.
Thorme 1.11. Il existe une unique mesure L sur (R, B(R)) vrifiant
L([a, b]) = b a
pour tout intervalle [a, b]. Cette mesure est appele mesure de Lebesgue.
On admettra ces deux thormes. Remarquons quand mme que lunicit de la mesure de
Lebesgue est une consquence du Thorme 1.10.
Proposition 1.12. La mesure de Lebesgue est invariante par translation : pour tout x R et pour
tout B B(R) lensemble x + B est aussi Borlien et
L(x + B) = L(B).
Dmonstration. Commenons par montrer que si B B(R) alors x + B B(R). On fixe x R et
on pose
A = {B R, x + B B(R)}.
On vrifie aisment que A est une tribu qui contient les intervalles. Par consquent B(R) A, ce
quil fallait dmonter.
Pour B B(R) on dfinit
M(B) = L(x + B).
Alors M est une mesure sur (R, B(R)) (exercice) et pour tout intervalle [a, b] on a
M([a, b]) = L([x + a, x + b]) = (b + x) (a + x) = b a = L([a, b]).
Les mesures M et L concident donc sur les intervalles. Daprs le Thorme 1.10 on obtient
L = M, ce qui est le rsultat.
3

1.3

Convergence monotone

Dans toute la suite du cours, tant donns une suite relle (un )n0 et l R {+}, on crit
un % l lorsque la suite un est croissante et tend vers l. De mme, si l R {} on crit un & l
si la suite est dcroissante et tend vers l. tant donne une suite (An )n0 densembles, la notation
An % A signifie que la suite est croissante pour linclusion (An An+1 pour tout n N) et que
[
An = A.
n0

Enfin An & A signifie que la suite est dcroissante pour linclusion et que n An = A. Les rsultats
de cette sous-partie trs importants.
Proposition 1.13. Soit (E, A, ) un espace mesur et soient (An )nN , A des lments de A. Si
An % A alors (An ) % (A).
Remarque. Lhypothse de monotonie est fondamentale. Par exemple, considrons la mesure de
comptage sur N et les ensembles An suivants : A0 = {0} et An = {1} pour n 1. On a (An ) = 1
pour tout n mais (n An ) = ({0, 1}) = 2.
Dmonstration. On pose A00 = A0 et A0n = An \An1 pour tout n 1. Les proprits suivantes
sont laisses en exercice (faire un dessin) :
Les A0n sont deux deux disjoints.
An = A00 A01 A0n pour tout n.

0

n=0 An = n=0 An .
Par -additivit, on obtient
(An ) = (A00 ) + + (A0n ) %

(A0k ) =

+
[
k=0

k=0

+
[


Ak .
A0k =
k=0

Corollaire 1.14. Soit (An )nN une suite dlments de A. On a

 X
An
(An ).

n=0

n=0

Dmonstration. On commence par montrer par rcurrence que pour tout k N

k
[

k
 X
An
(An ).

n=0

n=0

Laissons cette partie de la preuve en exercice. Ensuite on pose Bk = kn=0 An . Daprs ce qui
prcde, pour tout k N
k

X
X
(Bk )
(An )
(An ).
(1)
n=0

n=0

Comme Bk % n An on a (Bk ) % (n An ). On obtient donc le rsultat en passant la limite


dans lingalit (1).
Proposition 1.15. Soit (Bn )n0 , B des lments de A. Si Bn & B et sil existe m tel que
(Bm ) < + (en particulier si la mesure est finie) alors (Bn ) & (B).
Dmonstration. On pose An = Bm \Bn pour n m et A = Bm \B. Alors An % A et donc
(An ) % (A). Comme (An ) = (Bm ) (Bn ) et comme (Bm ) < + ceci revient (Bn ) &
(B).
Remarque. Lhypothse il existe m tel que (Bm ) < + est ncessaire. En effet, si Bn est
lintervalle [n, +[, alors Bn & , pourtant L(Bn ) = + pour tout n.

1.4

Exercices

Exercice 1.1. Soit (uk )k0 une suite de rels positifs, Montrer que la somme de la srie
ne dpend pas de lordre des termes : si : N N est une fonction bijective alors
X
X
uk =
u(k) .
k0

k0

uk

k0

Indication : Montrer que


X
k0

X

uk = sup
uk , I N, I fini .
kI

Exercice 1.2. Montrer quune intersection quelconque de tribus est une tribu. Est-ce que cela
marche aussi avec lunion ?
Exercice 1.3. Montrer que la mesure de comptage sur N est bien une mesure.
Exercice 1.4. Soit (E, A, ) un espace mesur et soient A1 , . . . , An des ensembles mesurables.
Montrer que
1. Montrer que (A1 A2 ) (A1 ) + (A2 ).
2. Montrer par rcurrence sur n que (A1 An ) (A1 ) + + (An ).
Exercice 1.5. Soit (E, A, ) un espace mesur et soient A1 , . . . , An des ensembles mesurables.
Montrer que
1. Montrer que (A1 A2 ) = (A1 ) + (A2 ) (A1 A2 ).
2. Montrer que
(A1 A2 A3 ) = (A1 ) + (A2 ) + (A3 )
(A1 A2 ) (A1 A3 ) (A2 A3 ) + (A1 A2 A3 ).
3. Donner une formule pour (A1 An ).
Exercice 1.6. Montrer quun intervalle ouvert est runion dnombrable dintervalles ferms. Montrer quun intervalle ferm est intersection dnombrable dintervalles ouverts.
Exercice 1.7. Montrer que presque tous les nombres rels sont irrationnels.
Exercice 1.8. Soit (, A, ) un espace mesur, montrer quune union dnombrable densembles
ngligeables est ngligeable.
Exercice 1.9. Soit f : R R+ telle que L({x : f (x) t}) = 0 pour tout rel t > 0. Montrer que
f (x) = 0 presque partout.
Exercice 1.10. Soit U un sous-ensemble ouvert de R. Pour x U on pose


a(x) = inf a < x, ]a, x] U


b(x) = sup b > x, [x, b[ U
1. Montrer que
[

U=

]a(r), b(r)[

rQU

2. En dduire que les ouverts sont Borliens.


Exercice 1.11. Pour x, y [1, 1], on pose x y si x y Q.
1. Montrer que est une relation dquivalence.
Soit A un sous-ensemble de [1, 1] contenant exactement un lment de chaque classe dquivalence.
On pose
[
B=
(r + A).
rQ[2,2]

2. Montrer que les r + A sont deux deux disjoints.


3. Montrer que [1, 1] B [3, 3].
4. Montrer par labsurde que A nest pas Borlien.

Espaces de probabilit

2.1

Dfinition

Dfinition 2.1. On appelle espace de probabilit tout triplet (, A, P), o est un ensemble, A
une tribu sur , et P une mesure de probabilit sur (, A).
Cette notion permet de modliser nimporte quelle exprience alatoire.
Exemple 2.2. Le pile ou face est modlis par lespace (, A, P) avec = {P, F }
A = P() = {, {P }, {F }, {P, F }}
et P la probabilit donne par P({P }) = P({F }) = 1/2.
Pour le lancer de d, on a = {1, 2, 3, 4, 6}, A = P() et
P({1}) = P({2}) = = P({6}) = 1/6.

De manire gnrale si un ensemble fini, on dfinit une probabilit sur , P() en posant
P(A) =

card(A)
.
card()

Cette probabilit est appele probabilit uniforme sur .


Exemple 2.3. Une main de poker entre aussi dans ce cadre : lespace des observables est lensembles des sous-ensembles de 5 cartes (ou mains). La probabilit dobtenir un as (par exemple)
est p = n/N
total de mains. On
 o n est le nombre de mains contenant un as et N est le48nombre

a N = 52
5 . Le nombre de mains ne contenant pas das est N n = 5 . On obtient donc
48
5

52
5

p=1

0, 44.

Exemple 2.4 (aiguille de Buffon). On lance une aiguille et on regarde langle que fait laiguille
avec une direction donne (disons le nord). Supposons (ce qui semble naturel) que la probabilit
que laiguille tombe dans un intervalle dangle donn soit proportionnelle la longueur de cet
intervalle. On peut modliser cette exprience ainsi. On prend = R, A = B(R) et on pose pour
tout B B(R)
L(B [0, 2])
L(B [0, 2])
P(B) =
=
.
L([0, 2])
2
Remarque. De manire gnrale, tant donne a < b on dfinit une probabilit sur (R, B(R)) en
posant
L(B [a, b])
P(B) =
.
ba
Cette mesure de probabilit est appele probabilit uniforme sur lintervalle [a, b].
Un peu de terminologie : lespace est appel espace des observables, cest lensemble des
issues possibles de lexprience alatoire. Les lments de la tribu A sont appels vnements. Un
vnement A vrifiant P(A) = 1 est dit quasi-certain. On dit aussi que A a lieu presque srement.
Un vnement vrifiant P(A) = 0 est dit ngligeable.
Rappelons les proprits de convergence monotone vues prcdemment : si An % A alors P(An ) %
P(A) et si Bn & B alors P(Bn ) & P(B).
Exemple 2.5. Admettons quon puisse construire un espace de probabilit permettant de modliser une suite infinie de jeu de pile ou face. Soit An lvnement les n premiers lancers donnent
face et A lvnement tous les lancers tombent sur face. Dune part P(An ) = 2n et dautre
part An & A. Donc 2n = P(An ) & A. Donc P(A) = 0. Lvnement A est ngligeable, on finit
presque srement par faire pile.

2.2

Conditionnement

Un nonc de probabilit conditionnelle est un nonc du type Si B se produit alors la


probabilit que A se produise est p . On peut penser par exemple que B est lvnement il
pleut et A le bus est en retard . Mathmatiquement, la dfinition est la suivante.
Dfinition 2.6. Soit (, A, P) un espace de probabilit. Soit B un vnement vrifiant P(B) > 0.
Pour tout vnement A on pose
P(A B)
.
P(A | B) =
P(B)
Cette quantit est appele probabilit de B sachant A ou conditionnellement A.
Exemple 2.7. Une famille a deux enfants. Quelle est la probabilit que les deux soient des garons
conditionnellement au fait quau moins lun des deux est un garon ? Avec des notations videntes,
lespace de probabilit est = {GG, GF, F G, F F } muni de la probabilit uniforme. La probabilit
cherche est
P({GG})
1
P({GG} | {GG, GF, F G}) =
= .
P({GG, GF, F G})
3
Une rponse fausse courante a ce dernier exemple est de dire : On sait que lun des deux
enfants est un garon, la probabilit cherche est la probabilit que lautre soit aussi un garon,
savoir 1/2. Lerreur est la suivante : lvnement lautre enfant est un garon na en fait
aucun sens.
Lemme 2.8 (Formule de Bayes). Soit A et B des vnement non ngligeables
P(A | B) = P(B | A)

P(A)
.
P(B)

Dmonstration. P(A | B) P(B) = P(A B) = P(B | A) P(A).


Dfinition 2.9. Soit un ensemble. Soit I un ensemble (fini ou infini) et soit (Ai )iI une famille
de parties de . On dit que (Ai )iI est une partition de si les deux proprits suivantes sont
vrifies.
S
iI Ai =
Les Ai sont deux deux disjoints
Autrement dit, la famille (Ai )iI est une partition de si pour tout il existe un et un
seul i I tel que Ai .
Exemple 2.10. Pour tout A , lensemble {A, Ac } est une partition de .
Proposition 2.11 (Formule des probabilits totales). Soit (, A, P) un espace de probabilit. Soit
I un ensemble fini ou dnombrable penser I = {1, . . . , n} pour un certain n ou I = N et
soit (Bi )iI une partition de en vnements. Alors pour tout vnement A
X
P(A) =
P(A Bi )
iI

P(A | Bi ) P(Bi ),

si P(Bi ) > 0 pour tout i.

iI

S
Dmonstration. Comme les Bi recouvrent on a A = iI (A Bi ). Et comme les Bi sont deux
deux disjoints, les A Bi aussi. De plus I est fini ou dnombrable donc
X
P(A) =
P(A Bi ).
iI

Un cas particulier qui revient souvent est la formule


P(A) = P(A | B) P(B) + P(A | B c ) P(B c )
valable ds que 0 < P(B) < 1.
7

Exemple 2.12 (Faux positifs). Une maladie affecte une personne sur 1000. Le test de dpistage
nest pas parfait : le rsultat est toujours positif pour une personne malade et pour une personne
saine il est positif (donc erron) 2 fois sur 100. Quelle est la probabilit quune personne ayant un
rsultat positif au test soit effectivement malade ?
Soit T lvnement le test est positif et M lvnement la personne est malade . On cherche
P(M | T ). On crit
P(M )
.
P(M | T ) = P(T | M )
P(T )
Daprs les donnes du problme P(T | M ) = 1 et P(M ) = 0, 001. De plus
P(T ) = P(T | M ) P(M ) + P(T | M c ) P(M c ) = 1 0, 001 + 0, 02 0, 999.
En regroupant tout on trouve que P(M | T ) est de lordre de 5%. Le test est probablement erron.

2.3

Indpendance

De manire intuitive on dit que A est indpendant de B si savoir B ne change pas la probabilit
de A. Cest--dire si
P(A | B) = P(A).
Pour que cette formule ait un sens on est oblig de supposer que P(B) > 0, ce qui nest pas le cas
dans la dfinition suivante.
Dfinition 2.13. Soit (, A, P) un espace de probabilit. Deux vnements A, B sont dits indpendants si
P(A B) = P(A) P(B).
Plus gnralement soit (Ai )iI une famille dvnements (I est un ensemble quelconque). On dit
que les Ai sont indpendants si
\  Y
P
Aj =
P(Aj )
jJ

jJ

pour tout J fini inclus dans I.


Exemple 2.14. On tire une carte dans un paquet de 52. Lvnement A : tirer un roi est
indpendant de B : tirer un pique . En effet P(A B) est la probabilit de tirer le roi de pique,
soit 1/52, qui est bien gal P(A) P(B) = (1/13) (1/4).
Remarque. On dit donc que les vnements A, B et C sont indpendants si les quatre proprits
suivantes sont vrifies
P(A B) = P(A) P(B)
P(A C) = P(A) P(C)
P(B C) = P(B) P(C)
P(A B C) = P(A) P(B) P(C).
Lorsque seules les trois premires sont vrifies on dit que A, B et C sont deux deux indpendants.
Quand les quatre sont vrifies on dit parfois que les ensembles sont globalement (ou mutuellement)
indpendants pour bien marquer la diffrence.
Exemple 2.15. On jette deux pices, les vnements suivants
la premire pice tombe sur pile
la deuxime tombe sur pile
les deux pices donnent le mme rsultat
sont deux deux indpendants, mais pas mutuellement indpendants.

2.4

Exercices

Exercice 2.1. On considre une classe de N tudiants, tous ns en 1990. Quelle est la probabilit
(en fonction de N ) davoir deux tudiants ns le mme jour ? Dterminer numriquement partir
de quelle valeur de N cette probabilit devient suprieure 1/2.
Exercice 2.2. Montrer quune intersection dnombrable dvnements quasi-certains est un vnement quasi-certain.
Exercice 2.3. On effectue une suite infinie de pile ou face.
1. Montrer que presque srement un pile finit par sortir.
2. Montrer que presque srement nimporte squence finie de piles et de faces (par exemple
P F P P F F P P ) finit par sortir.
Exercice 2.4. Montrer quun vnement A est indpendant de lui-mme si et seulement si P(A) =
0 ou P(A) = 1. Si P(A) = 0, montrer que A est indpendant de tout vnement B. Ce rsultat
reste-t-il vrai si P(A) = 1 ?
Exercice 2.5. On suppose que A et B sont indpendants. Montrer que A est indpendant de B c ,
que Ac est indpendant de B c .
Exercice 2.6. On lance deux ds, montrer que lvnement la somme fait 7 est indpendant
du score du premier d. Est-ce que cela marche encore si on remplace 7 par 6 ?
Exercice 2.7. On lance un d n fois. On appelle Aij lvnement : les scores du i-me et du j-me
lancers sont gaux . Montrer que les Aij sont indpendants deux deux mais pas mutuellement.
Exercice 2.8. Roulette russe : un revolver 6 coups contient une seule balle mais on ne sait pas
quel endroit du barillet. Le premier joueur place le revolver sur sa tempe et presse la gchette.
Sil survit le deuxime joueur fait de mme. Vaut-il mieux jouer en premier ou en second ? La taille
du barillet importe-telle ?
Exercice 2.9 (Paradoxe du prisonnier). Trois prisonniers sont condamns mort mais le tyran
dcide den librer un. Le prisonnier A apprend par le garde que le prisonnier B sera bien excut.
Le survivant tant A ou C, on peut dire que A a une chance sur deux dtre libr. Dun autre
ct, entre B et C, il y a au moins une personne qui doit tre excute, a ne change rien pour A
de savoir si cest B ou C, la probabilit quil soit libr est toujours de 1/3. Quen pensez vous ?
Indication : il faut prciser ce quaurait dit le garde si B avait t graci. On propose deux hypothses :
1. Le garde dit B sera excut ou B sera graci .
2. Le garde dit B sera excut ou C sera excut , sils le sont tous les deux, il tire au
sort.
Quelle est, dans chacun des cas, la probabilit que A soit libr sachant que le garde dit que B
sera excut ?
Montrer que pour tout p [0, 1/2], on peut donner au garde un algorithme qui fasse que la
probabilit conditionnelle prcdente soit p.
Exercice
2.10. Soit A1 , A2 , . . . une suite dvnements indpendants. On suppose que la srie
P+
n=1 P(Ak ) diverge.
1. Dterminer la probabilit pn quaucun des n premiers vnements ne se ralise.
2. Montrer que pn tend vers 0 (on pourra utiliser lingalit 1 t et ).
3. En dduire que presque srement au moins un des vnements An se produit.
Exercice 2.11 (Ruine du joueur). On considre une suite de pile ou face avec une pice truque
tombant sur pile avec probabilit p. Au temps 0 le joueur possde une somme n. Il gagne 1
chaque pile et perd 1 chaque face. Le jeu sarrte lorsque le joueur est ruin ou lorsquil a atteint
un montant N donn. On note rn la probabilit que le joueur soit ruin la fin du jeu.

1. En conditionnant par rapport au rsultat du premier pile ou face, montrer que


rn = prn+1 + (1 p)rn1 ,

n {1, . . . , N 1}.

2. Que valent r0 et rN ?
3. Dterminer rn (attention au cas p = 1/2).
Exercice 2.12. n passagers montent dans un avion lun aprs lautre. Chacun a un numro de
sige mais le premier passager sassied au hasard. Les passagers suivants sasseyent leur place
lorsquelle est libre et choisissent un sige libre au hasard sinon. On appelle pn la probabilit que
le dernier passager sasseye sa place.
1. En conditionnant par rapport au sige choisi par le premier passager, exprimer pn en fonction
de p2 , . . . , pn1 .
2. Dterminer pn .

10

Variables alatoires

3.1

Dfinitions

On ne sera pas toujours intress par le rsultat complet dune exprience alatoire mais plutt
par une consquence de ce rsultat, cest--dire une fonction de ce rsultat. Une telle fonction est
appele variable alatoire.
Exemple 3.1. On lance deux pices. On appelle X le nombre de piles obtenus. De manire
formelle, on a = {P P, P F, F P, F F } muni de la probabilit uniforme, et X est dfinie par
X(P P ) = 2, X(P F ) = 1, X(F P ) = 1, X(F F ) = 0.
tant donne une fonction X de dans R, on sintresse la rpartition de X dans R. On
voudrait par exemple estimer la probabilit

P { : X() x} ,
pour tout rel x. Celle-ci ne sera dfinie que si lensemble
{ : X() x} A.
Cette remarque motive les dfinitions suivantes.
Dfinition 3.2. Soit E, F des ensembles et soient A, B des tribus de E et F respectivement. Une
fonction f : E F est dite mesurable si limage rciproque (par f ) de tout lment de B est un
lment de A :
f 1 (B) A, B B.
Remarque. Si F = R on prend toujours B = B(R), on dit donc quune fonction f : E R est
mesurable si pour f 1 (B) A pour tout Borlien B.
Exemple 3.3. Soit A A, alors la fonction indicatrice de A,
1A (x) = 0 sinon, est mesurable. En effet on a

A
1
(1A ) (B) = {x E : 1A (x) B} =
A

dfinie par 1A (x) = 1 si x A et


0
/ B, 1
/B
0 B, 1
/B
0
/ B, 1 B
, 0 B, 1 B.

Dans tous les cas {1A B} est mesurable.


Lemme 3.4. Soit f : E R, les assertions suivantes sont quivalentes.
1. f est mesurable,
2. f 1 (I) A pour tout intervalle I ouvert,
3. f 1 (I) A pour tout intervalle I de la forme ] , x[,
4. f 1 (I) A pour tout intervalle I ferm,
5. f 1 (I) A pour tout intervalle I de la forme ] , x].
Dmonstration. Il est vident que 1 2. Remarquons que lensemble B = {B R : f 1 (B) A}
est une tribu. Par consquent, si B contient tous les intervalles ouverts, alors B contient B(R), ce
qui montre que 2 1. Les autres quivalences se dmontrent de la mme manire.
Exemple 3.5. Soit f : R R une fonction continue. Alors pour tout intervalle I ouvert f 1 (I) est
un ouvert. Or on a vu au chapitre prcdent (en exercice) que les ouverts sont Borliens. Daprs
le lemme prcdent on en dduit que f est mesurable. On peut montrer de mme quune fonction
continue par morceaux est mesurable.
Proposition 3.6. Soit (E, A) muni dune tribu, f, g : E R des fonctions mesurables. Alors les
fonctions suivantes sont mesurables.
11

(i) f
(ii) f + g
(iii) f g
(iv) max(f, g) et min(f, g)
De plus si f (x) 6= 0 pour tout x alors 1/f est mesurable.
Dmonstration. Pour (ii), on montre en utilisant la densit de Q dans R que
[
(f + g)(1) (] , x[) =
f 1 (] , r[) g 1 (] , x r[).
rQ

Il en rsulte que (f + g)(1) (] , x[) est mesurable (comme runion dnombrable densembles
mesurables) pour tout x. Daprs ce qui prcde cela suffit pour dire que f + g est mesurable.
Pour (iv) on remarque que
max(f, g)(1) (] , x[) = f 1 (] , x[) g 1 (] , x[)
et que min(f, g)(1) (] , x[) = f 1 (] , x[) g 1 (] , x[). Les autres points se dmontrent
de manire analogue.

3.2

Variables alatoires, fonctions de rpartition

On se donne un espace de probabilit (, A, P).


Dfinition 3.7. Une variable alatoire est une fonction mesurable X : R.
Notations et terminologie spcifiques aux probabilits : les variables alatoires seront toujours
dsignes par des lettres majuscules X, Y, . . . . tant donn un Borlien B, limage rciproque de
B par X :
X 1 (B) = { : X() B}
sera not simplement {X B} et avec un lger abus de notation, on crira P(X B) au lieu de
P({X B}). Par exemple on a

P(X x) = P { : X() x} .
Dfinition 3.8. Soit X une variable alatoire. La fonction
F : x R 7 P(X x)
est appele fonction de rpartition de X.
Exemple 3.9. La fonction de rpartition de la variable X de lexemple 3.1 est

Exemple 3.10. Soit c R et X : 7 c la fonction constante gale c. Alors X est une


variable alatoire. En effet {X B}, qui vaut ou selon que c appartienne B ou non, est
forcment dans la tribu A. La fonction de rpartition de X est F = 1[c,+) .
Proposition 3.11. Soit X une variable alatoire et F sa fonction de rpartition. Alors
(i) F est croissante
(ii) F est continue droite
12

(iii) limx F (x) = 0 et limx+ F (x) = 1.


Dmonstration. Soit x y, alors {X x} {X y} donc P(X x) P(X y), ce qui
montre que F est croissante. Soit x R, remarquons que {X x + 1/n} & {X x}. Donc par
convergence monotone
F (x +

1
1
) = P(X x + ) & P(X x) = F (x).
n
n

Comme F est croissante ceci montre que F est continue droite en x.


De mme {X n} & {X } = donc
F (n) = P(X n) & 0.
Enfin {X n} % {X +} = donc F (n) = P(X n) % 1.
Ces proprits caractrisent la notion de fonction de rpartition au sens suivant : si F est une
fonction vrifiant les trois proprits prcdentes alors on peut trouver un espace de probabilit
(, A, P) et une variable alatoire X : R tels que P(X x) = F (x) pour tout x R.
La fonction de rpartition est continue droite en x. Comme elle est croissante, elle possde
forcment une limite gauche en x, on notera cette limite F (x) :
F (x) =

lim

yx,y<x

F (y).

Lemme 3.12. Soit X une variable alatoire et F sa fonction de rpartition. Soient x y des
rels. On a
(i) P(X > x) = 1 F (x)
(ii) P(x < X y) = F (y) F (x)
(iii) P(X < x) = F (x)
(iv) P(X = x) = F (x) F (x)
En particulier F est continue en x si et seulement si P(X = x) = 0.
Dmonstration. Les proprits (i) et (ii) sont faciles. Pour (iii) on remarque que {X x1/n} %
{X < x} donc par convergence monotone
F (x 1/n) = P(X x 1/n) % P(X < x).
On obtient (iv) en crivant P(X = x) = P(X x) P(X < x).
Exemple 3.13. On reprend lexemple 3.1. On a F (1) = 1/4 et F (1) = 3/4 ce qui montre que
P(X = 1) = 3/4 1/4 = 1/2.

3.3

Loi dune variable alatoire

Proposition 3.14. Soit (, A, P) un espace de probabilit et soit X : R une variable alatoire.


On dfinit une mesure de probabilit sur (R, B(R)) en posant
PX (B) = P(X B)
pour tout B B(R).
Dmonstration. Soit (Bn )nN une suite de Borliens deux deux disjoints. On a
[
[
X

 X
PX
Bn = P
{X Bn } =
P(X Bn ) =
PX (Bn ).
nN

nN

nN

nN

ce qui montre que PX est -additive.


Dfinition 3.15. La probabilit PX est appele loi de X.
Exemple 3.16. Si X une variable constante gale c on a pour tout Borlien PX (B) = 0 si c
/B
et PX (B) = 1 si c B. Cest ce quon appelle la mesure de Dirac en c.
13

Exemple 3.17. Si X est le rsultat dun lancer de d. On a


PX (B) =

card(B {1, 2, 3, 4, 5, 6})


6

pour tout Borlien B.


Thorme 3.18. La fonction de rpartition caractrise la loi : si X et Y ont la mme fonction
de rpartition alors PX = PY .
Autrement dit, si X et Y vrifient P(X x) = P(Y x) pour tout x R, alors P(X B) =
P(Y B) pour tout Borlien B.
Dmonstration. Si P(X x) = P(Y x) pour tout x alors P(X I) = P(Y I) pour tout
intervalle I. Autrement dit les lois de X et Y concident sur les intervalles. Daprs le Thorme 1.10
elles sont gales.
Remarque. Attention le fait que X et Y aient la mme loi ne dit rien sur P(X = Y ). En fait X
et Y peuvent avoir la mme loi tout en tant dfinies sur des espaces de probabilits diffrents,
auquel cas la quantit P(X = Y ) na aucun sens.

3.4

Variables alatoires discrtes

Dfinition 3.19. Une variable alatoire X est dite discrte sil existe D R tel que D soit fini
ou dnombrable et tel que
P(X D) = 1.
Remarque. Pour que cette dfinition ait un sens il faut que {X D} soit un vnement. Cest bien
le cas puisque quon peut lcrire comme une runion finie ou dnombrable dvnements :
[
{X D} =
{X = x}.
xD

Dfinition 3.20. Soit X une variable discrte, on appelle fonction de masse la fonction
f : x R 7 P(X = x).
La fonction de masse f vrifie donc les proprits suivantes :
(i) {x R : f (x) 6= 0} est fini ou dnombrable.
P
(ii) En appelant x1 , x2 , . . . les points o f est non nulle, on a i f (xi ) = 1.
Exemple 3.21. La variable de lexemple 3.1 est discrte puisquelle ne prend que les valeurs 0, 1, 2.
Sa fonction de masse prend les valeurs 1/4, 1/2, 1/4 en 0, 1, 2 respectivement (et la valeur 0 partout
ailleurs).
La fonction de rpartition F dune variable alatoire discrte est une fonction en escalier avec
ventuellement une infinit de marches . La connaissance de F dtermine f et rciproquement :
les points x1 , x2 , . . . o f est non nulle sont les points o F fait un saut et f (xi ) est la taille du
saut que fait F en xi . Tout ceci se rsume en une quation :
X
F =
f (xi )1[xi ,+) .
i

3.5

Variables alatoires continues

Dfinition 3.22. Soit X une variable alatoire et F sa fonction de rpartition. On dira que la
variable X
R est continue sil existe une fonction f continue par morceaux (disons), positive et
vrifiant R f (t) dt = 1 telle que
Z x
F (x) =
f (t) dt
(2)

pour tout x R. La fonction f est appele densit de X.


14

Remarque. Lhypothse f continue par morceaux sera vrifie dans tous les exemples quon
rencontrera mais elle nest pas vraiment ncessaire. Limportant est de pouvoir donner un sens
lintgrale de f . On verra au chapitre suivant la bonne notion dintgrale considrer.
Lemme 3.23. Soit X une variable continue de densit f . Alors
(i) P(X = x) = 0 pour tout rel x.
Rb
(ii) P(a X b) = a f (t) dt pour tous rels a b.
Dmonstration. Lquation (2) montre que F est continue ce qui implique (i). On a donc
Z
P(a X b) = P(a < X b) = F (b) F (a) =

f (t) dt.
a

Si X est une variable continue on a P(X = x) = 0 pour tout x P


R. Par -additivit, si
D = {x1 , x2 , . . . } est un ensemble dnombrable alors P(X D) =
i P(X = xi ) = 0. Par
consquent une variable alatoire ne peut pas tre la fois discrte et continue.
On a vu que la fonction de rpartition dune variable continue tait continue. La rciproque nest
pas vraie. On a nanmoins le rsultat suivant.
Proposition 3.24. Soit F une fonction de rpartition. Si F est continue sur R et de classe C 1
sur R priv ventuellement dun nombre fini de points, alors F est la fonction de rpartition dune
variable continue. Une densit associe est donne par la fonction f (x) = F 0 (x) si F est drivable
en x et f (x) = 0 sinon.
Dmonstration. Sous ces hypothses on a
Z

F (x) =

f (t) dt,

pour tout x R.
Remarque. La valeur 0 attribue f l o F 0 nest pas dfinie na pas dimportance. De manire
gnrale, changer la valeur de la densit en un nombre fini de points ne change rien la rpartition
de X.
Exemple 3.25. Soit langle que fait laiguille de Buffon avec le nord et F sa fonction de rpartition. Le graphe de F est

2
On remarque que F est continue sur R et C 1 sur R\{0, 2}. On a F 0 (x) = 0 si x < 0 ou si x > 2
et F 0 (x) = 1/(2) si x ]0, 2[. La variable est donc continue et admet 1[0,2] /2 comme densit.

3.6

Exercices

Exercice 3.1. Montrer que si F et G sont des fonctions de rpartition et [0, 1], alors F +
(1 )G est une fonction de rpartition. La fonction F G est-elle une fonction de rpartition ?
Exercice 3.2 (Loi de Poisson). Soit > 0. Soit X une variable alatoire valeurs entires ayant
comme fonction de masse P(X = n) = Cn /n! pour tout entier n.
1. Dterminer C.
2. Calculer P(X > 1).
15

3. Dterminer la probabilit que X soit paire.


Exercice 3.3. Un bus passe toutes les dix minutes, partir de midi. Un homme arrive X minutes
aprs midi o X est une variable alatoire de fonction de rpartition :

x<0
0
x/60 0 x < 60
P(X x) =

1
60 x
Quelle est la probabilit quil attende le bus moins de deux minutes ?
Exercice 3.4. Les personnes ayant rserv un billet davion manquent de se prsenter lembarquement avec probabilit 1/10 indpendamment les unes des autres. La compagnie A possde un
avion de 9 places mais elle vend 10 tickets. La compagnie B vend 20 tickets pour son avion de 18
places.
1. Dterminer, dans chacun des cas, la fonction de masse du nombre X de passagers se prsentant lembarquement.
2. Avec quelle compagnie risque-ton le plus plus dtre en sur-rservation ?
Exercice 3.5. On considre une suite infinie de lancers de la mme pice truque tombant sur
pile avec probabilit p.
1. Dterminer la fonction de masse du temps dattente du premier pile.
2. Dterminer la fonction de masse du temps dattente du r-ime pile.
3. Dterminer la fonction de masse du nombre de piles obtenus au bout de n-lancers.
Exercice 3.6 (Loi exponentielle). Soit f la fonction
f : x 7 ex 1{x>0} .
1. Montrer que f est une densit de probabilit.
2. Soit X de densit f , dterminer la fonction de rpartition de X.
3. Montrer que pour tous s, t > 0 on a
P(X s + t | X s) = P(X t).
Cette proprit est appele absence de mmoire.
Exercice 3.7. Soit X uniforme sur [0, 1] (i.e. admettant 1[0,1] comme densit). Montrer que
Y = ln(1 X) est continue et dterminer sa densit.
Exercice 3.8 (loi normale, loi du Chi-2). On admet que
Z

2
ex /2 dx = 2.
R

Soit X une variable continue de densit


2
1
x 7 ex /2 .
2

1. Montrer que P(X x) = P(X x) pour tout x R.


2. Exprimer la fonction de rpartition de X 2 en fonction de celle de X.
3. En dduite que X 2 est une variable continue, et dterminer sa densit.
4. En dduire la valeur de
Z

x1/2 ex dx.

16

Intgration

On se donne dans toute cette partie un espace mesur (E, A, ). Dans cette partie nous allons
dfinir lintgrale de Lebesgue des fonctions mesurables f : E R par rapport . Lintgrale de
f par rapport sera note
Z
Z
f d ou

f (x) (dx).

4.1

Intgrale dune fonction tage positive

Dfinition 4.1. Une fonction h : E R est dite tage positive si elle est mesurable et si elle ne
prend quun nombre fini de valeurs, toutes positives. De manire quivalente, il existe une suite
finie (a1 , A1 ), . . . , (an , An ) o les ai sont des rels positifs et les Ai des ensembles mesurables telle
que
n
X
h=
ai 1Ai .
(3)
i=1

La reprsentation (3) nest pas unique. On a par exemple


1[0,1] + 2 1]1,2] = 1[0,2] + 1]1,2] .
En revanche, il existe une manire de forcer lunicit de la reprsentation : on dira que la reprsentation (3) est canonique si les deux conditions suivantes sont vrifies :
0 < a1 < < an .
Les Ai sont non-vides et deux deux disjoints.
La reprsentation canonique dune fonction tage est unique : en effet les ai sont alors les valeurs
non-nulles prises par h et les Ai leurs images rciproques.
Dfinition 4.2. Soit h une fonction tage positive et soit
n
X

ai 1Ai

i=1

sa reprsentation canonique. On dfinit lintgrale de h par


Z
h d =
E

n
X

ai (Ai ) [0, +]

i=1

Remarque. Nous ne supposons pas que la mesure est finie, il est donc possible que (A1 ) = +
par exemple. La somme prcdente est comprendre avec les conventions suivantes :
a + = +
+ = +
a (+) = +
0 (+) = 0.

a 0
a > 0.

Lemme 4.3. Soit h une fonction tage positive et soit


m
X

bj 1Bj

j=1

une reprsentation non-ncessairement canonique de h. On a quand mme


Z
h d =
E

m
X
j=1

17

bj (Bj ).

Exemple 4.4. On a vu
1[0,1] + 21]1,2] = 1[0,2] + 1]1,2] .
On a bien
L([0, 1]) + 2L(]1, 2]) = 1 + 2 1 = 3
L([0, 2]) + L(]1, 2]) = 2 + 1 = 3.
P
Dmonstration. On va transformer la reprsentation h = j bj Bj en reprsentation canonique, en
gardant la quantit
X
bj (Bj )
j

constante. Pour J {1, . . . , m} on pose


AJ = (

Bj ) (

jJ

aJ =

Bjc ),

j J
/

bj .

jJ

Alors on vrifie facilement que les (AJ )J{1,...,m} sont deux deux disjoints et que
[
Bj =
AJ ,
J3j

pour tout j {1, . . . , m}. On en dduit lgalit


X
aJ 1AJ =

bj 1AJ

J{1,...,m} jJ

J{1,...,m}

m
X

bj

j=1

n
X

1AJ

J3j

bj 1Bj .

j=1

On montre exactement de la mme manire que


X

aJ (aJ ) =

m
X

bj (Bj ).

j=1

J{1,...,m}

Enfin il est facile de transformer la reprsentation


X
h=
bJ 1 B J
J

en reprsentation canonique : il suffit de supprimer les indices J pour lesquels AJ = ou aJ = 0,


et de regrouper les indices J, J 0 pour lesquels aJ = aJ 0 .
Proposition 4.5. Soient h1 , h2 des fonctions tages positives et > 0. On a les proprits
suivantes

R
R
Linarit : E (h1 ) d = E h1 d et
Z
Z
Z
(h1 + h2 ) d =
h1 d +
h2 d2 .
E

Monotonie : si h1 h2 alors

R
E

h1 d

R
E

h2 d.

Dmonstration. La linarit est vidente au vu du lemme prcdent. La monotonie se dduit de la


linarit ainsi : si h1 h2 alors h3 = h2 h1 est une fonction tage positive. Donc
Z
Z
Z
Z
h2 d =
(h1 + h3 ) d =
h1 d +
h3 d.
E

Et comme

R
E

h3 d 0 le rsultat suit.
18

4.2

Intgrale dune fonction positive

Dfinition 4.6. Soit f une fonction mesurable positive. On pose


Z
nZ
o
f d = sup
h d, h tage positive h f [0, +].
E

Proposition 4.7. Soient f1 , f2 des fonctions mesurables positives et > 0. On a les proprits
suivantes

R
R
Linarit : E (f1 ) d = E f1 d et
Z
Z
Z
(f1 + f2 ) d =
f1 d +
f2 d.
E

Monotonie : si f1 f2 alors

R
E

f1 d

R
E

f2 d.

Dmonstration de la monotonie. Cest vident : si f1 f2 alors lensemble des fonctions tages


positives plus petite que f1 est contenu dans lensembles des fonctions tages positives plus petite
que f2 .
La linarit sera dmontre la fin de cette sous partie.
Thorme 4.8 (Convergence monotone). Soit (fn )n0 , f des fonctions mesurables positives telles
que fn (x) % f (x) pour tout x E. Alors
Z
Z
fn d %
f d.
E

Remarque. Soit (An )n0 , A des ensembles mesurables et supposons que An % A. On peut alors
appliquer le thorme aux fonctions 1An , 1A et on obtient (An ) % (A). Autrement dit on
retrouve la Proposition 1.13.
R
Dmonstration. Daprs la proprit
de monotonie de lintgrale on sait dj que la suite ( E fn d)n0
R
est croissante et majore par E f d. Donc il existe L tel que
Z
Z
fn d % L
f d.
E

Soit h =

bi 1Bi une fonction tage positive telle que h f et soit  > 0. On pose
An = {fn (1 )h}

pour tout n 0. Alors par dfinition de An


fn fn 1An (1 )h1An ,
Posons hn = h1An , par monotonie de lintgrale on a
Z
Z
fn d (1 )
hn d.
E

(4)

De plus
hn =
et donc

Z
hn d =

bi 1Bi An

bi (Bi An )

Lhypothse fn (x) % f (x) pour tout x implique facilement An % E, et donc Bi An % Bi pour


tout i. Daprs la convergence monotone pour les ensembles on en dduit
(Bi An ) % (Bi )
19

puis en sommant
Z

Z
hn d %

h d.
E

En passant la limite dans lingalit (4) on obtient


Z
L (1 )
h d.
E

Comme  est arbitraire on en dduit L


tage plus petite que f , il vient bien

h d. Comme ceci est valable pour toute fonction h


Z
L
f d,
E

ce quil fallait dmontrer.


Lemme 4.9. Soit f une fonction mesurable positive, il existe une suite (hn )n0 de fonctions
tages positives vrifiant hn (x) % f (x) pour tout x.
Dmonstration. On pose
hn =

n
4X
1

k 2n 1{k2n f <(k+1)2n } .

k=0

Clairement hn est une fonction tage. Si x < 2n alors hn (x) f (x) < hn (x) + 2n ce qui montre
que hn (x) f (x). On vrifie de mme que hn (x) hn+1 (x) pour tout x et pour tout n.
R
R
Dmonstration de la linarit de lintgrale. Lgalit E (f1 ) d = E f1 d est immdiate.
Pour ladditivit on utilise le lemme prcdent : il existe (hn,1 )n0 et (hn,2 )n0 des suites de
fonctions tages positives telles que hn,1 % f1 et hn,2 % f2 . Alors
hn,1 + hn,2 % f1 + f2 .
Daprs la linarit de lintgrale pour les fonctions tages on a
Z
Z
Z
(hn,1 + hn,2 ) d =
hn,1 d +
hn,2 d
E

pour tout n. En passant la limite dans cette galit (en utilisant le thorme de convergence
monotone trois fois) on obtient le rsultat.
Lingalit suivante est trs importante.
Proposition 4.10 (Ingalit de Markov). Soit f une fonction positive et a > 0
Z
 1
{x E : f (x) a}
f d.
a E
Dmonstration. Comme f 0 on a f a1{f a} . Donc par monotonie
Z
Z
f d
a1{f a} d = a({f a}).
E

4.3

Intgrale dune fonction relle

Rappelons que si x est un nombre rel on appelle partie positive de x la quantit x+ = max(x, 0)
et partie ngative x = min(x, 0). Les nombres x+ et x sont positifs et on a
x = x+ x
|x| = x+ + x .

20

Dfinition 4.11. Soit f : E R une fonction mesurable. On dit que f est intgrable si
Z
|f | d < +.
E

R
R
Comme f+ |f | et f |f |, les quantits E f+ d et E f d sont galement finies. On pose
alors
Z
Z
Z
f d =
f+ d
f d.
E

Proposition 4.12.
intgrables et > 0. On a les proprits suivantes

R fonctions
R Soient f, g des
Linarit : E (f ) d = E f d et
Z
Z
Z
(f + g) d =
f d +
g d2 .
E

Monotonie : si f g alors E f d E g d.

R
R
Dmonstration. Lgalit E (f ) d = E f d est immdiate. Pour ladditivit on crit
f + g = (f + g)+ (f + g) = f+ f + g+ g ,
et donc
(f + g)+ + f + g = (f + g) + f+ + g+ .
En utilisant la linarit pour les fonctions positives on obtient
Z
Z
Z
Z
Z
Z
(f + g)+ d +
f d +
g d =
(f + g) d +
f+ d +
g+ d.
E

En rarrangeant les termes on obtient le rsultat.


La monotonie est facile une fois quon a la linarit : on crit
Z
Z
Z
Z
g d =
f d + (g f ) d
f d.
E

4.4

Exemples

Mesures sur N On considre une mesure sur (N, P(N)).


Proposition 4.13. Pour toute fonction positive f : N R, on a
Z
n
X
f d = lim
f (k)({k}).
n+

k=0

Lintgrale par rapport une mesure sur les entiers est donc la somme dune srie.
Dmonstration. Posons


fn (k) =

f (k) si k n
0
sinon.

Alors la fonction fn est une fonction tage


fn =

n
X

f (k)1{k} ,

k=0

et donc
Z
fn d =
N

n
X

f (k)({k}).

k=0

Dautre part, on a clairement fn (k) % f (k) pour tout k et donc par convergence monotone
Z
Z
fn d %
f d,
N

ce qui est le rsultat annonc.


21

Le rsultat est galement vrai si la fonction f change de signe, pourvu quelle soit intgrable.
P
Proposition 4.14. Si f : N R est intgrable (pour ) alors la srie
f (k)({k}) est convergente et
Z
n
X
f d = lim
f (k)({k}).
n+

k=0

Dmonstration. Il suffit de dcomposer f = f+ f et dutiliser le rsultat prcdent.


La mesure de Lebesgue Supposons maintenant que E = R, A = B(R) et que = L, la
mesure de Lebesgue sur R. Dans ce cas il est dusage dcrire
Z
f (x) dx
R

au lieu de

Z
f (x) L(dx).
R

Soit I = [a, b] un intervalle de R et f : I R une fonction telle que f 1I soit intgrable. On pose
Z

f (x) dx =
a

f (x) dx =
[a,b]

f (x)1I (x) dx.


R

Rb
La notation a f (x) dx peut paratre ambige, faut-il intgrer sur [a, b] ou ]a, b[ ? En fait a ne
change rien au rsultat. On a par exemple
Z
Z
Z
f (x)1[a,b] dx
f (x)1[a,b[ (x)dx =
f (b)1{b} (x)dx = f (b)L({b}) = 0.
R

Proposition 4.15. Soit f : [a, b] R une fonction continue et posons pour x ]a, b[
Z x
F (x) =
f (t) dt.
a
0

Alors F est de classe C sur ]a, b[ et F (x) = f (x) pour tout x ]a, b[.
Autrement dit F est la primitive de f nulle en a.
Dmonstration. Remarquons que f est borne sur [a, b] : il existe M > 0 tel que |f | M sur [a, b],
et donc
Z
b

|f (x)| dx M (b a) < +.
a

ce qui montre que f est intgrable sur [a, b]. Comme f est continue on a f (x)  f (y) f (x) + 
pour y suffisamment proche de x. Donc par croissance de lintgrale
Z

x+h

x+h

(f (x) ) dy
x

x+h

f (y) dy
x

(f (x) ) dy
x

pour h > 0 suffisamment petit, ce qui donne


(f (x) )h F (x + h) F (x) (f (x) + )h.
On montre de mme cette ingalit pour h < 0 suffisamment petit et on obtient
F (x + h) F (x)
= f (x),
h0
h
lim

ce qui est le rsultat.

22

Donc si f est une fonction de classe C 1 sur [a, b] on a


Z
f (b) f (a) =

f 0 (t) dt.

En appliquant ceci un produit de fonctions on obtient :


Proposition 4.16 (Intgration par parties). Soient f et g des fonction de classe C 1 sur [a, b]
Z

f (x)g (x) dx = f (b)g(b) f (a)g(a)


a

f 0 (x)g(x) dx.

Pour calculer une intgrale sur R on utilise le rsultat suivant.


Proposition 4.17. Soit f : R R une fonction mesurable positive ou intgrable. On a
Z
Z n
f (x) dx
f (x) dx = lim
n

Dmonstration. Si f 0, il suffit dappliquer le thorme de convergence monotone, si f change


de signe, on crit f = f+ f et on se ramne au cas positif.

4.5

Exercices

Exercice 4.1. Soit (E, A, ) un espace mesur, quelle condition les fonctions constantes sontelles intgrables ?
Exercice 4.2 (Masse de Dirac). Soit a R, on rappelle que la masse de Dirac en a est la mesure
dfinie par a (A) = 1 si a A et a (A) = 0 sinon. Soit f : R R, montrer (en revenant la
dfinition de lintgrale) que
Z
f (x) a (dx) = f (a).
R

Exercice 4.3. Soit (E, A, ) un espace mesur, et soit f : E R une fonction mesurable et
positive.
1. On suppose que f est nulle presque partout. Montrer (en revenant la dfinition de lintgrale) que
Z
f d = 0.
E

2. Rciproquement, on suppose que f est dintgrale nulle. Montrer que ({f }) = 0 pour
tout  > 0. En dduire que f est nulle presque partout.
Exercice 4.4. Soit (E, A, ) un espace mesur, soient f, g : E R des fonctions intgrables.
Montrer que max(f, g) est intgrable et que
Z
Z
Z

max
f d,
g d
max(f, g) d.
E

Exercice 4.5. quelle condition (sur r) la fonction x 7 xr est-elle intgrable sur [1, +) ? sur
[0, +) ?
Exercice 4.6 (Ingalit de Cauchy-Schwarz). Soit (E, A, ) un espace mesur, soient f et g des
2
2
fonctions de carr
R intgrable (cest--dire que f et g sont intgrables). On supposera dans un
premier temps E g 2 d > 0.
1. Montrer que f g est intgrable.
R
2. On pose P () = E (f + g)2 d. Montrer que P est un polynme du second degr en .
3. Calculer le discriminant de P .

23

4. Montrer que


f g d

s Z

f2


d

5. Montrer que lingalit prcdente reste vraie si


g 2 d

R
E

g 2 d = 0.

6. crire ce que devient cette ingalit dans le cas particulier o est la mesure de comptage
sur N.
Exercice 4.7 (Ingalit de Hlder). Soient f, g des fonctions positives et intgrables et soit
[0, 1].
1. Montrer que pour tous a, b > 0 on a a b1 a + (1 )b.
2. En dduire que
Z

f g
E

Z
d

Z
f d + (1 )

g d.
E

3. En appliquant lingalit prcdente f et en optimisant en montrer que


Z
Z
Z

1
.
f g 1 d
f d
g d
E

4. Montrer que lingalit de Cauchy-Schwarz est un cas particulier de lingalit de Hlder.

24

Esprance
Dans toute cette partie on se donne un espace de probabilit (, A, P).

5.1

Dfinition, proprits

Dfinition 5.1. Soit X : R une variable alatoire (i.e. une fonction mesurable). Si X est
positive ou intgrable pour la mesure P, lintgrale
Z
X() P(d)

est bien dfinie. On appelle cette intgrale esprance de X et on la note E(X).


Si E|X| < + on dit que X est intgrable.
Exemple 5.2. Si X = c (variable constante) alors X = c 1 , donc
Z
EX = c
1 d P = c P() = c.

Dans le mme ordre dide, pour un tout vnement A


E 1A = P(A).
Exemple 5.3. On lance n pices, soit X le nombre de pile obtenus. Alors est une fonction tage
positive prenant les valeurs 0, 1, . . . , n. Autrement dit,
X=

n
X

k 1{X=k}

k=0

Donc
E(X) =

n
X

k P(X = k)

i=0

On a

 
n n
P(X = k) =
2 ,
k

Donc
E(X) =

k = 0, . . . , n.

 


n
n
X
n n X
n 1 n
n
k
2 =
n
2 = n2n1 2n = .
2
k
k1

k=1

k=1

Lesprance est une intgrale, elle vrifie donc les mmes proprits que lintgrale :
Linarit : E(X + Y ) = E(X) + E(Y ).
Monotonie : si X Y alors E(X) E(Y ).
Exemple 5.4. On peut calculer lesprance du nombre X de piles au bout de n lancers ainsi : on
pose Yi = 1 si le i-me rsultat est pile et Yi = 0 si cest face. Alors
E(Yi ) = E 1{Yi =1} = P(Yi = 1) = 1/2.
De plus X = Y1 + + Yn . Par consquent
E(X) = E(Y1 ) + + E(Yn ) =

n
.
2

Rappelons galement lingalit de Markov : si X 0 alors pour tout a > 0


P(X a)

E(X)
.
a

Remarque. Lingalit de Markov est valable pour tout a > 0 mais elle nest intressante que pour
a > E(X).
25

5.2

Moments, variance

Dfinition 5.5. Soit k un entier naturel, la quantit E(X k ) est appele moment dordre k. Le
moment dordre k de X est dfini si X 0 (dans ce cas il peut prendre la valeur +) ou si |X|k
est intgrable (dans ce cas il est forcment fini). La variance de X est la quantit


var(X) = E (X E X)2 = E(X 2 ) (E X)2
Remarque. Soit X ayant un moment dordre 2. Alors la variable |X|2 + 1 est intgrable. Comme
|X| |X|2 + 1, la variable X est aussi intgrable par comparaison. De mme on a
|X|p |X|q + 1,
ds que p q. Donc si le moment dordre q est dfini, alors le moment dordre p est dfini pour
tout p q.
Exemple 5.6. On considre toujours le nombre X de piles au bout de n lancers. Calculons var(X).
Commenons par remarquer que pour toute fonction f , on a
f (X) =

n
X

f (k)1{X=k} ,

k=0

et donc
E f (X) =

n
X

f (k) P(X = k).

k=0

On applique ceci f : x 7 x(x 1), on obtient


 

n
n 
X
X
n n
n2
n(n 1)
.
E[X(X 1)] =
k(k 1)
2 = n(n 1)2n
=
4
k
k2
k=2

k=2

On en dduit
var(X) = E[X(X 1)] + E(X) (E X)2 =

n
n(n 1) n n2
+
= .
4
2
4
4

Proposition 5.7. On a les proprits suivantes


var(X) = 2 var(X)
var(X + c) = var(X)
La dmonstration est laisse en exercice. La variance mesure la dviation de X sa moyenne.
Plus la variance est grande plus X a de chances dtre loin de sa moyenne. Plus prcisment on a
le rsultat suivant :
Proposition 5.8 (Ingalit de Bienaym-Tchebichev). Soit a > 0, alors
P(|X E X| a)

var(X)
a2

Dmonstration. La variable Y = (X E X)2 est positive. Par Markov


E(Y )
var(X)
=
.
a2
a2
Exemple 5.9. Soit X de carr intgrable vrifiant var(X) = 0. Par Bienaym-Tchebychev
1
P |X E(X)|
n2 var(X) = 0
n
pour tout n 1. De plus clairement



1
|X E(X)|
% |X E(X)| > 0 .
n
Par convergence monotone on obtient donc

P |X E(X)| > 0 = 0.
P(|X E X| a) = P(Y a2 )

Donc X = E(X) presque srement. Autrement dit X est une variable alatoire constante.
26

Exemple 5.10. On appelle dsormais Xn le nombre de piles obtenus au bout de n lancers. On


sintresse la frquence des piles Xn /n. On a E(Xn /n) = E(Xn )/n = 1/2 et var(Xn /n) =
var(Xn )/n2 = 1/(4n). tant donn  > 0, on a par Bienaym-Tchebychev
P |


Xn
1
1
| 2
n
2
4 n

En particulier, la probabilit que Xn /n dvie de sa moyenne dau moins  tend vers 0 quand n
tend vers linfini. On dit que Xn /n converge vers 1/2 en probabilit.

5.3

Fonction gnratrice des moments

Dfinition 5.11. Soit X une variable discrte ou continue


MX : t R 7 E(etX ) [0, +].
est appele fonction gnratrice des moments de X
On a toujours MX (0) = 1 mais il est possible davoir MX (t) = + pour tout t 6= 0. On a le
rsultat suivant.
Proposition 5.12. Lensemble des rels t pour lesquels MX (t) < + est un intervalle contenant
0.
Dmonstration. Soient a < b < c tels que MX soit finie en a et c. Remarquons quon a toujours
ebX eaX + ecX . Par monotonie et linarit de lesprance E ecX E eaX + E ecX < +.
La dnomination fonction gnratrice des moments vient du rsultat suivant.
Thorme 5.13. On suppose que X est finie au voisinage de 0, cest--dire : il existe  > 0 tel
que X (t) < + pour t [, +]. Alors E(|X|k ) < + pour tout k et
(k)

E(X k ) = X (0),
(k)

X dsignant la drive k-ime de X .


Dmonstration. On donne seulement une dmonstration formelle. On sait que
X (t) = E(etX )
est dfinie au voisinage de 0. Donc, pour t dans un voisinage de 0
(k)

dk
E(etX )
dtk

dk
= E k etX
dt

= E X k etX .

X (t) =

En prenant t = 0 on obtient le rsultat. Pour avoir une vraie preuve il faudrait justifier que la
drivation sous le signe E est licite.
Thorme 5.14. Soit X, Y deux variables alatoires. On suppose quil existe  > 0 tel que X et
Y concident sur lintervalle ] , [. Alors X et Y ont la mme loi.
Autrement dit, la fonction gnratrice des moments caractrise la loi. Nous admettrons ce
rsultat et nous en verrons des applications un peu plus loin.

27

5.4

Formule fondamentale

On a vu au chapitre prcdent que si X est une variable est valeurs dans {0, . . . , n} alors on
peut crire
n
X
X=
k1{X=k}
k=0

et donc
E(X) =

n
X

k P(X = k).

k=0

Plus gnralement pour toute fonction f , on a


E(f (X)) =

n
X

f (k) P(X = k) =

k=0

n
X

f (k) PX ({k}),

k=0

o PX est la loi de X. On a donc lgalit


Z
E f (X) =

f (x) PX (dx).
R

Cette galit est en fait gnrale.


Proposition 5.15. Soit X une variable alatoire et f : R R une fonction mesurable. On suppose
que f (X) 0 ou que f (X) est intgrable. Alors
Z
E f (X) =
f (x) PX (dx).
R

Dmonstration. Supposons f = 1B pour un Borlien B. Alors


Z
E 1B (X) = E 1{XB} = P(X B) = PX (B) =

1B d PX ,
R

donc lgalit est vraie.


Si f est une fonction tage positive, alors f est combinaison linaire dindicatrices, et lgalit
reste vraie par linarit de lintgrale.
Si f est mesurable positive, il existe une suite (hn )n0 de fonctions tage positives telle que
hn % f . On a alors
Z
E hn (X) =

hn d PX
R

pour tout n. Par convergence monotone, on obtient lgalit cherche en passant la limite.
Enfin si f est un fonction qui change de signe on obtient le rsultat en crivant f = f+ f .
On retrouvera ce schma de dmonstration plusieurs reprise dans la suite du cours.
Exemple 5.16. Si X est valeurs dans N alors PX est une mesure sur (R, B(R)) qui ne charge
que les entiers. Daprs ce quon a vu prcdemment on a donc
E f (X) =

f (n) PX ({n}) =

n=0

f (n) P(X = n).

n=0

Calculer lesprance dune fonction dune variable discrte revient donc calculer la somme dune
srie.

28

5.5

Retour sur les variables continues

Nous sommes maintenant en mesure de donner la bonne dfinition de la notion de variable


continue.
Dfinition 5.17. On appelle densit de probabilit une fonction f : R R mesurable, positive et
vrifiant
Z
f (x) dx = 1.
R

tant donne une densit f on dfinit une mesure de probabilit sur (R, B(R)) en posant
Z
(B) =
f (x) dx,
B

pour tout Borlien B. On dit que est une mesure densit, ou que est absolument continue.
On dit galement que f est la densit de .
Remarque. La densit dune mesure est dfinie un ensemble de mesure nulle prs : si f est une
densit de et que g = f presque partout, alors g est aussi une densit de .
Exemple 5.18. Soient a < b des rels. La fonction f = 1[a,b] /(ba) est une densit de probabilit.
La mesure ayant pour densit f est appele probabilit uniforme sur [a, b].
Proposition 5.19. Si possde une densit f , on a pour toute fonction g positive ou -intgrable
Z
Z
g(x) (dx) =
g(x)f (x) dx.
R

Dmonstration. Par dfinition lgalit est vraie si g est une indicatrice. Elle est donc vraie si g est
tage positive par linarit. Par convergence monotone on obtient lgalit pour g positive. Enfin,
si g change de signe on a le rsultat en crivant g = g+ g .
Dfinition 5.20. Une variable alatoire X est dite continue si sa loi PX est absolument continue.
Autrement dit sil existe une fonction f mesurable, positive, dintgrale 1 vrifiant
Z
P(X B) =
f (x) dx
B

pour tout Borlien B. On dit alors que f est une densit de X.


De manire informelle f (x)dx est la probabilit que la variable X tombe dans lintervalle
[x, x + dx]. Si on combine la Proposition 5.15 avec la proposition prcdente, on obtient : pour X
variable continue de densit f on a
Z
E g(X) =
g(t)f (t) dt
R

pour toute fonction g telle que g(X) soit positive ou intgrable.


Exemple 5.21. Soit X une variable uniforme sur [a, b]. Alors X admet comme densit la fonction
1[a,b] /(b a). En particulier
EX =

1
ba

x dx =
a

b2 a2
a+b
=
.
2(b a)
2

Remarque. Une variable ne peut pas tre la fois discrte et continue. Si X est une variable
continue (de densit f ) alors
Z
P(X = x) =
f (t) dt = f (x)L({x}) = 0
{x}

pour tout x R. Par consquent P(X D) = 0 pour tout ensemble dnombrable. Donc X ne peut
pas tre une variable discrte.
En revanche il existe des variables qui ne soient ni discrtes ni continues.
29

Si X est continue de densit f , sa fonction de rpartition F vrifie


Z x
F (x) = P(X x) =
f (t) dt

pour tout x R. En particulier F est continue sur R. Attention la rciproque nest pas vraie,
ce nest pas parce que la fonction de rpartition de X est continue que la variable X lest. On a
cependant le rsultat suivant.
Proposition 5.22. Soit X une variable alatoire et F sa fonction de rpartition. Si F est continue
sur R et de classe C 1 sur R priv ventuellement dun nombre fini de points, alors X est une
variable continue. Une densit associe est donne par la fonction f donne par f (x) = F 0 (x) si F
est drivable en x et f (x) = 0 sinon.
Dmonstration. Sous ces hypothses on a
Z
P(X ]a, b]) = F (b) F (a) =

f (t) dt,
a

pour tout a < b. En utilisant le Thorme 1.10 on en dduit que


Z
f (t) dt
P(X B) =
B

pour tout Borlien B.

5.6

Lois classiques

Loi de Bernoulli

Soit X valeurs dans {0, 1} vrifiant


P(X = 0) = 1 p,

P(X = 1) = p,

pour un paramtre p [0, 1]. On dit que X suit une loi de Bernoulli de paramtre p. On calcule
facilement
E(X) = p, var(X) = p(1 p),
ainsi que la fonction gnratrice des moments
MX (t) = P(X = 0) + et P(X = 1) = (1 p) + pet ,

t R.

Loi binomiale On jette n fois une pice truque qui retombe sur pile avec probabilit p. Soit X
le nombre de pile obtenus. Alors X {0, . . . , n} et
 
n k
P(X = k) =
p (1 p)nk , k {0, . . . , n}.
k
On dit que X suit la loi binomiale de paramtres n et p. Des calculs similaires ceux effectus
dans la section prcdente donnent
E(X) = np,

var(X) = np(1 p).

Pour la fonction gnratrice des moments on a


MX (t) = E(etX ) =

n  
X
n tk k
e p (1 p)nk = (pet + 1 p)n ,
k

k=0

pour tout t R.

30

Loi gomtrique On jette la mme pice truque de manire rpte. Le temps dattente X du
premier pile est valeur dans les entiers non nuls et
k N .

P(X = k) = p(1 p)k1 ,

On dit que X suit la loi gomtrique de paramtre p. Calculons dabord la fonction gnratrice des
moments
+
X
k1
tX
t
MX (t) = E e = pe
et (1 p)
.
k=1

La srie converge si et seulement si et (1 p) < 1. On obtient donc


MX (t) =

pet
,
1 (1 p)et

t ] , ln(1 p)[.

En calculant les drives on trouve


E(X) =

1
,
p

var(X) =

1p
.
p2

Loi de Poisson Soit > 0, on dit que X suit une loi de Poisson de paramtre si X est
valeurs dans N et
n
P(X = n) =
e , n N.
n!
On obtient facilement
E(X) =

+
+
X
X
n
n1
n e =
e = .
n!
(n 1)!
n=1
n=1

Un calcul analogue montre que E[X(X 1)] = 2 et donc var(X) = . Enfin


MX (t) =

+
X

ent

n=0


n
e = exp (et 1) ,
n!

t R.

Passons maintenant aux exemples de lois continues.


Gaussienne Probablement la loi la plus importante. On dit que X est une Gaussienne si X est
une variable alatoire continue de densit
f (x) =

2
1
e(xm) /(2) ,
2

x R.

On dmontrera que ceci dfinit bien une densit plus tard. On dit aussi que X suit une loi normale
de paramtres m et (souvent abrge en N (m, )). La loi N (0, 1) est appele loi normale centre
rduite. Faisons les calculs desprance et de variance dans ce cas particulier. On a
Z
2
1
tet /2 dt.
E(X) =
2 R
2

Cette intgrale est convergente : on peut par exemple dire que tet et pour t assez grand. De
plus comme on intgre une fonction impaire sur R le rsultat est nul. Une autre manire de faire
2
2
est de remarquer que tet /2 est la drive de et . En intgrant par partie, vrifie que
Z
Z
2
2
1
1
E(X 2 ) =
t2 et /2 dt =
et /2 dt = 1.
2 R
2 R
On a donc E(X) = 0 et var(X) = 1. Pour la fonction gnratrice :
Z
Z
2
2
1
1 s2 /2
stt2 /2
MX (s) =
e
dt = e
e(ts) /2 dt = es /2 ,
2 R
2
R
31

pour tout s R.
Il nexiste pas de formule explicite pour la fonction de rpartition Gaussienne
Z x
2
1
(x) =
et /2 dt.
2
Nanmoins, on a les proprits suivantes.
(x) = 1 (x) pour tout x R.
2
Pour a > 0 on a 1 (a) ea /2 /2. En effet
Z

ex

/2

e(a+x)

dt

dx ea

/2

/2

ex

/2

dx.

Loi exponentielle Soit > 0. On dit que X suit une loi exponentielle de paramtre si X
a pour fonction de rpartition F (x) = (1 ex )1R+ (x). La variable X est alors continue de
densit f (x) = ex 1R+ (x). Cest une loi qui sert souvent modliser des temps dattente (temps
dattente un guichet, dure de vie dune ampoule. . .). En intgrant par partie on trouve
+

tet dt =

E(X) =

0
2

2 t

E(X ) =

t e

2tet dt =

1
2 .

1
,

dt =

Donc var(X) = E(X 2 ) (E X)2 =

et dt =

0
+

2
.
2

Pour la fonction gnratrice on trouve facilement

MX (s) =

,
s

s < .

Loi gamma Rappelons la dfinition de la fonction dEuler


Z +
() =
t1 et dt
0

dfinie pour tout > 0. On a clairement (1) = 1 et, en intgrant par partie () = (1)(1).
On en dduit que (n) = (n 1)! pour tout entier n non nul.
Soit > 0 et > 0 on dit que X suit la loi gamma de paramtres et (souvent abrge en
(, )) si X a pour densit
1 t
t
e 1{t>0} ,
()

f (t) =
On a

E(X) =
()
2

De mme on trouve E(X ) =

E(e

t t1 et dt =

(+1)
2
sX

puis var(X) =

)=
()

2 .

t R.

( + 1)
=
()

Pour la fonction gnratrice on calcule

t1 e(s)t dt.

Cette intgrale converge si s < et vaut /( s) . On a donc


MX (s) =


,
s

s < .

Remarquons enfin que la loi (1, ) nest autre que la loi exponentielle de paramtre .

32

Loi uniforme On dit que X suit la loi uniforme sur le segment [a, b] si X a pour densit la
fonction 1[a,b] /(b a). On calcule facilement
E(X) =

a+b
,
2

var(X) =

(a b)2
.
12

Pour la fonction gnratrice, on a MX (0) = 1 et


MX (s) =

esb esa
,
s(b a)

s 6= 0.

Loi de Cauchy On dit que X suit une loi de Cauchy si X admet f (x) = 1/(1 + x2 ) comme
densit (on montre que f est une densit en remarquant que 1/(1 + x2 ) est la drive de arctan(x).
La variable X ne possde aucun moment puisque lintgrale
Z
t
dt
2
R 1+t
est divergente.

5.7

Changement de variable I

On a vu prcdemment que quand X est une variable discrte et une fonction quelconque
(X) est une variable discrte. Ceci ne marche pas pour les variables continues. En effet si est la
fonction nulle, alors (X) est la variable constante gale 0 qui nest videmment pas une variable
continue (sa fonction de rpartition fait un saut en 0). Pour que (X) soit une variable continue il
faut imposer des conditions .
Rappelons que si X est une variable continue de densit f et h une fonction positive on a
Z
E h(X) =
h(t)f (t) dt.
R

Rciproquement, supposons cette galit vraie pour toute fonction positive h. En lappliquant
h = 1B on obtient
Z
P(X B) =
f (t) dt.
B

On peut faire ceci pour tout Borlien B, ce qui montre que X est continue de densit f .
Nous admettrons le rsultat suivant (formule de changement de variable).
Thorme 5.23. Soit U un ouvert de R et soit : U V une fonction bijective de classe C 1 .
Alors
Z
Z
f (t) dt =
f (t)|0 (t)| dt
(U )

pour toute fonction f telle que lintgrale de gauche a un sens.


Soient U et V des ouverts de R et : U V une fonction, on dit que est un C 1 -diffomorphisme
si est de classe C 1 , bijective, et si sa rciproque est de classe C 1 .
Proposition 5.24. Soit X une variable continue valeurs dans un ouvert U et soit : U V
un C 1 -diffomorphisme. Alors (X) est une variable continue.
Dmonstration. Soit f la densit de X. Par hypothse f est nulle en dehors de U . Soit h une
fonction positive. En appliquant la formule du changement de variable 1 on a
Z
E h((X)) = h (x)f (x) dx
ZI
=
h(y)f 1 (y)|(1 )0 (y)| dy.
(I)

ce qui montre que (X) admet comme densit la fonction


g(y) = 1(I) (y)f 1 (y)|(1 )0 (y)|.
33

Plus que le rsultat, il est important de retenir la mthode permettant de dterminer la densit
de (X). La fonction h est souvent appele fonction test, on parle de mthode de la fonction test.
Exemple 5.25. Un cas simple est quand la fonction est affine : (x) = ax + b. Si X est une
variable alatoire de densit f , on a
Z
yb 1
E h(aX + b) =
) dy
h(y)f (
a a
R
pour toute fonction test h, ce qui montre que la variable aX + b admet t 7 a1 f (a1 (t b))
comme densit.
Par exemple si X suit la loi N (0, 1) on trouve que aX + b suit la loi N (b, a2 ). On peut dduire
facilement lesprance et la variance de la loi N (b, a2 ) :
E(aX + b) = a E(X) + b = b,

var(aX + b) = a2 var(X) = a2 .

Ainsi que la fonction gnratrice des moments


2 2

E(et(aX+b) ) = E(e(ta)X )eb = et

a /2 b

e .

Dans le mme ordre dide, on peut voir que si Y suit une loi exponentielle de paramtre 1 alors
Y suit une loi exponentielle de paramtre 1/.
Exemple 5.26 (loi log-normale). Soit X suivant une loi normale centre rduite. La loi de Y = eX
est appel log-normale. On cherche sa densit. La fonction exp ralise une bijection entre R et
]0, +[. Sa rciproque log(x) admet comme drive 1/x. Soit h une fonction test, en utilisant la
formule de changement de variable on a
Z
2
X
E h(Y ) = E h(e ) =
h(ex )ex /2 dx
R
Z +
2
1
1
h(y)e ln(y) /2 dy.
=
y
2 0
On en dduit que Y admet comme densit la fonction
g(y) = 1]0,+[ (y) e ln(y)

/2

1
.
y 2

Il nest pas obligtoire de suivre cette mthode. On sait que Y 0 et que pour x 0
P(Y x) = P(X ln(x)) = (log(x))
o est la rpartition Gaussienne :
1
(x) = P(X x) =
2

et

/2

dt.

La fonction de rpartition de Y est donc la fonction


F (x) = (log(x))1[0,+[ .
Cette fonction est clairement C 1 sur R et on vrifie aisment quelle est continue en 0. Par consquent Y est une variable continue admettant comme densit
F 0 (x) = 0 (log(x))

2
1
1
= e ln(x) /2 .
x
x 2

si x 0 et F 0 (x) = 0 si x < 0.

34

5.8

Un exemple ni discret ni continu

On a vu quune variable alatoire ne pouvait tre la fois discrte est continue. En revanche il
existe des variables qui ne soient ni lun ni lautre.
Exemple 5.27. Soit langle donn par laiguille de Buffon et soit X = max(, ). On a P(X
x) = 0 pour tout x < . Pour x on a P(X x) = P( x). La fonction de rpartition de X
a donc le graphe suivant

La variable X nest pas continue puisque P(X = ) = 1/2. La variable nest pas non plus discrte
puisque sa fonction de rpartition nest pas en escalier. Plus prcisment on voit sur le graphe que
P(X = x) = 0P
pour tout x 6= . Par consquent, si D = {x1 , x2 , . . . } est un ensemble dnombrable
P(X D) = i P(X = xi ) vaut 0 ou 1/2 selon que appartienne ou pas D. Dans tous les cas
P(X D) < 1.
On peut nanmoins calculer lesprance de X : remarquons que max(, ) = 1{<} + 1{} .
Par linarit de lesprance
E(X) = E(1{<} ) + E(1{} ).
Comme est une variable uniforme sur [0, 2]
1
E(1{<} ) = P( ) = .
2
Z 2
1
3
E(1{} ) =
.
t dt =
2
4
Donc E(X) = /2 + 3/4 = 5/4.

5.9

Exercices

Exercice 5.1. On lance un d de manire rpte, et on sarrte ds quil donne 1 ou un nombre


suprieur ou gal 3.
1. Quel est le score moyen du dernier lancer ?
2. Quelle est la moyenne du carr du dernier lancer ?
Exercice 5.2. Soit X une variable alatoire intgrable valeurs dans N. Montrer que
E(X) =

P(X > n).

n=0

Retrouver en utilisant cette formule lesprance de la loi gomtrique.


Exercice 5.3. Chaque paquet de crales contient une figurine. Il y a n figurines diffrentes.
1. Si on a dj k figurines distinctes, combien de paquets supplmentaires faut-il acheter en
moyenne pour en avoir k + 1.
2. Dterminer le nombre moyen de paquets acheter pour obtenir les n figurines.
3. Donner un quivalent de ce nombre quand n tend vers linfini.

35

Exercice 5.4 (loi binomiale ngative). Une urne contient des boules blanches et des boules rouges,
les boules blanches tant en proportion p. On tire les boules une une avec remise et on note Xn
le rang dapparition de la n-ime boule blanche.
1. Donner la loi de X1 et calculer son esprance.
2. Dterminer la loi de Xn . En dduire que
+
X

pn (1 p)kn

k=n

3. Calculer E Xn . Indication : utiliser k

k1
n1

=n

k
n


k1
= 1.
n1

4. On note Yn le nombre de boules rouges apparues avant la n-ime boule blanche. crire Yn
en fonction de Xn .
5. En dduire la loi de Yn , puis son esprance.
Exercice 5.5. On considre une urne contenant b boules bleues et r boules rouges. On effectue
des tirages successifs sans remise et on sintresse au rang X dapparition de la premire boule
bleue.
1. Calculer P(X > n) pour tout entier n.
2. Montrer que E(X) = (b + r + 1)/(b + 1) .
Indication : Montrer par rcurrence sur q que pour tout entier p
 

q 
X
p+i
p+q+1
=
.
p
p+1
i=0
Exercice 5.6. On suppose que var(X) = 0. Que peut-on dire de X ?
Exercice 5.7. Soit X une variable alatoire. On dit quun nombre m est une mdiane pour X si
P(X m) 1/2 et P(X m) 1/2.
1. Soit F la fonction de rpartition de X. On pose

m = inf x R : F (x) 1/2 .
Montrer que m est bien dfini puis que m est une mdiane.
2. Montrer par un exemple que X peut avoir plusieurs mdianes.
3. On suppose que X est de carr intgrable, montrer que toute mdiane m vrifie
p
|m E(X)| 2 var(X).
Exercice 5.8. Soit X une variable alatoire et soit Y = aX + b.
1. Montrer que MY (t) = etb MX (at).
2. Calculer la fonction gnratrice des moments de la loi N (0, 1) et en dduire celle de la loi
N (m, 2 ).
Exercice 5.9. Soit Xn une variable de loi Gamma de paramtres n, .
1. Calculer la fonction gnratrice des moments de Xn . Prciser son domaine de dfinition.
2. En dduire la fonction gnratrice des moments MYn de Yn = Xn /n. Calculer la limite de
MYn (t) en tout point t R o cela a un sens.
3. La fonction limite obtenue est la fonction gnratrice des moments dune variable relle.
Laquelle ?
Exercice 5.10 (Ingalit de Jensen). Soit X une variable alatoire et une fonction convexe de
classe C 1 . On suppose que X et (X) sont intgrables. On pose m = E(X). En utilisant le fait que
est au-dessus de sa tangente en m, montrer que

E X E (X).
36

Exercice 5.11. Soit X une variable de densit f (x) = k(x x2 )1[0,1] (x).
1. Montrer que f est une bien une densit de probabilit.
2. Calculer la fonction de rpartition de X, son esprance et sa variance.
3. On pose Y = 1 2X. Dterminer la loi de Y et calculer son esprance et sa variance.
Exercice 5.12. Soit X de loi N (0, 1) et Y une variable dfinie par

X()
si X() > 0,
Y () =
2X() si X() 0.
Dterminer la loi de Y , son esprance et sa variance.
Exercice 5.13. Soit X une v.a. suivant la loi exponentielle de paramtre > 0. On pose Y = [X],
o [X] dsigne la partie entire de X.
1. Trouver la loi de Y , calculer son esprance et sa variance.
2. Montrer que Z = X [X] est une v.a. continue et calculer sa densit et son esprance.
Exercice 5.14. Dans un repre orthonorm, soient O = (0, 0), I = (1, 0) et J = (1, 0). On
considre un demi-cercle pos sur le segment [I, J] et un point M alatoire sur le demi-cercle.
Quelle est lordonne moyenne de M si

1. Langle (OI, OM ) est uniforme sur [0, ] ?
2. Labscisse de M est uniforme sur [1, 1] ?

37

6
6.1

Variables indpendantes
Dfinition

Dfinition 6.1. Soient X, Y des variables alatoires. On dit que X et Y sont indpendantes si
pour tous A, B B(R)
P(X A, Y B) = P(X A) P(X B).
Proposition 6.2. Soient X et Y des variables discrtes, X et Y sont indpendantes si et seulement
si
P(X = x, Y = y) = P(X = x) P(Y = y), x, y R.
(5)
Remarque. Attention ceci ne marche que pour les variables discrtes. Par exemple si X et Y sont
continues, on a toujours
P(X = x, Y = y) = 0 = P(X = x) P(Y = y).
Dmonstration. On suppose quon a (5) et que X et Y sont valeurs dans N (par exemple). Soient
A, B des Borliens de R, on a
X
P(X A, Y B) =
P(X = i, Y = j)
iA,jB

P(X = i) P(Y = j)

iA,jB

P(X = i)

iA

P(Y = j)

jB

= P(X A) P(X B),


ce qui montre que X et Y sont indpendantes. La rciproque est vidente.
Exemple 6.3. On lance deux ds, on appelle X et Y les rsultats respectifs du premier et deuxime
d. On a
1
P(X = 2, Y = 3) =
= P(X = 2) P(Y = 3).
36
Donc {X = 2} est indpendant de {Y = 3} et de mme pour les autres valeurs de X et Y . Ainsi
X est indpendant de Y .
Proposition 6.4. Si X et Y sont indpendantes alors
E(f (X)g(Y )) = E f (X) E g(Y ),
pour toutes fonctions f et g (telles que les esprances prcdentes soient bien dfinies).
Dmonstration. Cest toujours la mme histoire : on a la proprit pour les fonctions indicatrices,
par linarit on lobtient pour les fonctions tages, puis pour les fonctions positives par convergence
monotone, etc. . .
Proposition 6.5. Soient X, Y des variables alatoires indpendantes. On a MX+Y = MX MY .
Dmonstration. On utilise la proposition prcdente :
MX+Y (t) = E(et(X+Y ) ) = E(etX etY ) = E(etX ) E(etY ) = MX (t)MY (t).
Exemple 6.6. Soit X, Y des variables indpendantes suivant des lois de Poisson de paramtres
et , respectivement. On calcule la fonction gnratrice des moments de X + Y :
MX+Y (t) = MX (t)MY (t)


= exp (et 1) exp (et 1)

= exp ( + )(et 1) .
On reconnat la fonction gnratrice des moments de la loi de Poisson de paramtre + . Comme
la fonction gnratrice des moments caractrise la loi, la variable X + Y suit la loi de Poisson de
paramtre + .
38

Dfinition 6.7. On dit que (Xn )nN est une suite de variables alatoires indpendantes si pour
toute suite finie dindices 0 i1 < i2 < < in et de Borliens B1 , . . . , Bn on a
P(Xi1 B1 , . . . , Xin Bn ) = P(Xi1 B1 ) P(Xin Bn ).
Si on a seulement
P(Xi A, Xj B) = P(Xi A) P(Xj B)
pour tout i 6= j on dit que les variables (Xi )i1 sont deux deux indpendantes.

6.2

Covariance

Dfinition 6.8. On appelle covariance de deux variables de carr intgrable la quantit


cov(X, Y ) = E(XY ) E(X) E(Y ).
Remarque. Comme 2|XY | X 2 + Y 2 , la covariance de X et Y est dfinie ds que X et Y sont de
carr intgrable.
La covariance sert calculer la variance de la somme :
var(X + Y ) = E[(X + Y )2 ] [E(X + Y )]2
= E(X 2 ) + 2 E(XY ) + E(Y 2 ) (EX)2 2(E X)(E Y )(E Y )2
= var(X) + var(Y ) + 2 cov(X, Y ).
Plus gnralement on a
var

n
X
i=1

n
 X
Xi =
var(Xi ) + 2
i=1

cov(Xi , Xj )

1i<jn

pour toute famille X1 , . . . , Xn de variables de carr intgrable.


Lemme 6.9. Si X, Y sont indpendantes et de carr intgrable alors cov(X, Y ) = 0.
Dmonstration. Il suffit dappliquer la Proposition 6.4 : on a E(XY ) = E(X) E(Y ).
Remarque. La rciproque nest pas vraie, on peut avoir cov(X, Y ) = 0 sans que X et Y soient
indpendantes.
Par consquent si X et Y sont indpendantes on a var(X + Y ) = var(X) + var(Y ). Plus gnralement, si X1 , X2 , . . . , Xn sont indpendantes
var(X1 + + Xn ) = var(X1 ) + + var(Xn ).
Exemple 6.10. On peut retrouver la variance de la binomiale ainsi. Soient X1 , .P
. . , Xn des variables indpendantes suivant toutes la loi de Bernoulli de paramtre p. Alors X = i Xi suit une
binomiale de paramtres n et p et
var(X) = var(X1 ) + + var(Xn ) = np(1 p).
Des variables qui, comme dans lexemple prcdent, sont indpendantes et de mme loi sont
dites i.i.d. (pour indpendantes identiquement distribues).

6.3

Exercices

Exercice 6.1. On considre une main de poker, le nombre das est-il indpendant du nombre de
rois ? du nombre de trfles ?
Exercice 6.2. Soit X et Y des variables alatoires indpendantes, prenant toutes les deux les
valeurs 1 et 1 avec probabilit 1/2. Montrer que X, Y et XY sont deux deux indpendantes.
Sont-elles mutuellement indpendantes ?
39

Exercice 6.3 (loi faible des grands nombres). Soit (Xi )i1 une suite de variables i.i.d. de carr
intgrable. On pose m = E(X1 ) et = var(X1 ).
1. Exprimer la variance de (X1 + + Xn )/n en fonction de n et .
2. Montrer que pour tout  > 0 on a
X1 + + Xn


lim P
m  = 0.
n+
n
On dit que (X1 + + Xn )/n converge vers m en probabilit.
Exercice 6.4. Soient X, Y des variables indpendantes.
1. Exprimer la fonction de rpartition de max(X, Y ) en fonction des rpartitions de X et Y .
Mme question avec min(X, Y ).
2. On suppose maintenant que X et Y sont uniformes sur [0, 1], dterminer la loi de max(X, Y ).
Exercice 6.5. Soient n, m des entiers, et p [0, 1]. Soient X et Y des variables indpendantes et
binomiales de paramtres n, p et m, p, respectivement.
1. Calculer les fonctions gnratrices des moments de X et Y .
2. Dterminer la fonction gnratrice des moments de X + Y .
3. En dduire la loi de X + Y .
Exercice 6.6. Soient X1 , X2 des variables indpendantes de lois respectives (n1 , ) et (n2 , ).
1. Calculer la fonction gnratrice des moments de X1 + X2 et en dduire sa loi.
2. Quelle est la loi de Y1 + + Yn si les Yi sont i.i.d de loi exponentielle ?
Exercice 6.7. On considre n lancers de ds successifs. On appelle Aij lvnement les rsultats
des i-me et j-me lancers sont gaux et on pose
X
X=
1Aij .
1i<jn

1. Calculer lesprance de X.
2. Montrer que les vnements (Aij )1i<jn sont deux deux indpendants. Sont-ils mutuellement indpendants ?
3. Dterminer la variance de X.

40

7
7.1

Intgrales doubles
Thorme de Fubini

Dans ce chapitre on va intgrer des fonctions sur R R. Pour ce faire on doit dabord dfinir
une tribu.
Dfinition 7.1. On note B(R2 ) la plus petite tribu contenant
{A B, A B(R), B B(R)}.
Cest la tribu des Borliens de R2 .
Thorme 7.2. Soient et deux mesures sur (R2 , B(R2 )) vrifiant (A B) = (A B) pour
tous A, B B(R). Alors = .
Thorme 7.3. Il existe une unique mesure L2 sur (R2 , B(R2 )) vrifiant
L2 (A B) = L(A)L(B),
pour tous Borliens A, B de R. Cette mesure est appele mesure de Lebesgue sur R2 .
Encore une fois nous admettrons ces deux thormes, mais nous pouvons remarquer que lunicit
dans le deuxime thorme est une consquence du premier. La mesure L2 est donc lunique mesure
sur R2 vrifiant
L2 ([a, b] [c, d]) = (b a)(d c),
pour tous rels a, b, c, d (vrifiant a b et c d).
Thorme 7.4 (Thorme de Fubini). Soit f : R2 R une fonction mesurable. Lgalit
Z
Z Z

2
f (x, y) dx) dy
f dL =
R2
ZR  ZR

=
f (x, y) dy dx,
R

est vrifie si f est positive, ou si f est intgrable pour la mesure L2 .


Dmonstration. Par dfinition de la mesure L2 lgalit est vraie si f = 1AB pour A, B B(R).
En utilisant le Thorme 7.2 on en dduit que lgalit est vraie pour f = 1C pour tout C B(R2 ).
Ensuite il suffit de lancer la machine habituelle : le rsultat est alors vrai pour les fonctions tages
par linarit, puis pour les fonctions positives par convergence monotone, puis pour les fonctions
intgrables.
Exemple 7.5. Considrons par exemple le triangle OIJ ci-dessous.
1

I
1

Bien sr son aire est 1/2. Mais on peut la calculer de la manire suivante : on remarque que (x, y)
appartient au triangle si et seulement si x 0, y 0 et x + y 1. Laire du triangle vaut donc
Z
Z 1 Z 1y
Z 1

1
1{x0,y0,x+y1} dxdy =
dx dy =
(1 y) dy = .
2
R2
0
0
0

41

7.2

Lois jointes

Soit (, A, P) un espace de probabilit, soient X et Y des variables alatoires R. Alors


pour tout Borlien B de R2 lensemble {(X, Y ) B} appartient A.
Proposition 7.6. On dfinit une probabilit sur (R2 , B(R2 )) appele loi jointe du couple (X, Y )
en posant
PX,Y (B) = P((X, Y ) B).
Si on connat la loi jointe PX,Y on peut retrouver les lois de X et Y . En effet si B est un
Borlien de R alors B R est un Borlien de R2 et on a
PX,Y (B R) = P(X B, Y R) = P(X B) = PX (B).
De mme PX,Y (R B) = PY (B). On dit que PX et PY sont les lois marginales de PX,Y . En
revanche la connaissance de PX et PY ne dtermine pas PX,Y comme le montre lexemple suivant.
Exemple 7.7. On lance deux ds. On appelle X et Y les rsultats respectifs du premier et du
deuxime d. Clairement PX = PY ce qui montre que les couples PX,Y et PX,X ont les mmes
marginales. En revanche PX,Y (1, 1) = P(X = 1, Y = 1) = 1/36 alors que PX,X (1, 1) = P(X = 1) =
1/6.
Il y a donc strictement plus dinformation dans PX,Y que dans le couple (PX , PY ). La connaissance de la loi jointe de (X, Y ) permet de calculer lesprance dune fonction de (X, Y ).
Proposition 7.8. Soient X et Y des variables alatoires, et : R2 R mesurable, on a
Z
E (X, Y ) =
(x, y) PX,Y (dx, dy),
R2

ds que la variable (X, Y ) est positive ou intgrable.


Dmonstration. Il suffit de lancer la machine habituelle : indicatrices, tages, positives, intgrables.
Si les variables X et Y sont discrtes, par exemple valeurs dans N le rsultat prcdent devient
E (X, Y ) =

+ X
+
X

(i, j) P(X = i, Y = j).

i=0 j=0

7.3

Couples continus

Dfinition 7.9. Une densit de probabilit sur R2 est une fonction f : R2 R mesurable, positive
et vrifiant
Z
f (x, y) dxdy = 1.
R2

Dfinition 7.10. On dit quune mesure de probabilit sur R2 , B(R2 ) est absolument continue
sil existe une densit de probabilit f : R2 R telle que
Z
(B) =
f (x, y) dxdy
B

pour tout B B(R2 ). On dit alors que f est la densit de .


Proposition 7.11. Soit une mesure sur R2 ayant une densit f . Alors
Z
Z
g d =
g(x, y)f (x, y) dxdy
R2

R2

pour toute fonction g : R2 R positive ou -intgrable.


Dmonstration. Machine habituelle.
42

Dfinition 7.12. On dit quun couple (X, Y ) de variables alatoires est continu si leur loi jointe
PX,Y possde une densit f . On dit aussi que f est la densit de (X, Y ).
De manire informelle f (x, y)dxdy reprsente la probabilit que le couple (X, Y ) appartienne
au rectangle [x, x + dx] [y, y + dy].
Proposition 7.13. Soit (X, Y ) un couple continu de densit fX,Y . Alors X et Y sont des variables
continues de densits respectives
Z
fX (x) =
fX,Y (x, y) dy
ZR
fY (y) =
fX,Y (x, y) dx.
R

On dit que fX et fY sont les marginales de fX,Y .


Dmonstration. Soit B B(R). On applique Fubini
Z
Z Z

P(X B) = P((X, Y ) B R) =
fX,Y (x, y) dxdy =
fX,Y (x, y) dy dx,
BR

ce qui montre que x 7

R
R

fX,Y (x, y) dy est une densit de X.

Remarque. La rciproque nest pas vraie : ce nest pas parce que les variables X et Y sont continues
que le couple (X, Y ) est continu. Par exemple, le couple (X, X) ne peut pas tre continu. En effet,
sil possdait une densit f , on aurait la contradiction suivante
Z
1 = P(X = X) =
1{x=y} f (x, y) dxdy = 0.
R2

Exemple 7.14. On considre les densits suivantes


f (x, y) = 1{0<x,0<y} ex yey
g(x, y) = 1{0<x<y} ey .
Les marginales de f sont f1 (x) = 1{0<x} ex et f2 (y) = 1{0<y} yey , cest--dire respectivement la
densit exponentielle de paramtre 1 et la densit (2, 1). Pour g on a
Z
g1 (x) =
1{0<x<y} ey dy = 1{0<x} ex
R
Z
g2 (y) =
1{0<x<y} ey dx = 1{0<y} yey .
R

Donc f et g ont les mmes marginales. Cet exemple montre que la connaissance des densits
marginales ne dtermine pas la densit jointe.

7.4

Retour sur lindpendance

On a dj vu que deux variables discrtes X, Y taient indpendantes si et seulement si


P(X = x, Y = y) = P(X = x) P(Y = y)
pour tous rels x, y. On peut maintenant donner lanalogue continu de ce rsultat.
Proposition 7.15. Soient X, Y deux variables continues de densits respectives f et g. Les variables X, Y sont indpendantes si et seulement si le couple (X, Y ) est continu et admet comme
densit
(x, y) R2 7 f (x)g(y).

43

Dmonstration. Supposons X et Y indpendantes. Soient A, B des Borliens de R, on a par Fubini


P((X, Y ) A B) = P(X A) P(X B)
Z
Z

=
f (x) dx
g(y) dy
B
Z A
=
f (x)g(y) dxdy
AB

Daprs le Thorme 7.2 ceci implique


Z
P((X, Y ) C) =

f (x)g(y) dxdy
C

pour tout Borlien C de R2 , ce qui signifie que


(x, y) 7 f (x)g(y)
est une densit de (X, Y ). La rciproque se dmontre de manire analogue.

7.5

Changement de variable II

En dimension 2 la formule de changement de variable fait intervenir le Jacobien de .


Dfinition 7.16. Soit U un ouvert de R2 et : U R2 une fonction de classe C 1 . Posons
= (1 , 2 ), rappelons que la diffrentielle de est la fonction matricielle


x 1 y 1
D =
.
x 2 y 2
On appelle Jacobien de le dterminant de cette matrice
J() = x 1 y 2 x 2 y 1 .
Thorme 7.17. Soit U, V des ouverts et soit : U V une fonction bijective de classe C 1 . Alors
Z
Z
h(s, t) dsdt =
h (x, y) |J()(x, y)|dxdy,
(U )

pour toute fonction h (pourvu que la premire intgrale soit bien dfinie).
Exemple 7.18 (Intgration en coordonnes polaires). La fonction (r, ) = (r cos(), r sin())
ralise une bijection entre ]0, +[]0, 2[ et R2 \D en appelant D la demi-droite {(x, 0), x > 0}.
On a


cos() r sin()
D()(r, ) =
,
sin() r sin()
et donc J()(r, ) = r cos2 () + r sin2 () = r. La formule de changement de variable donne donc
Z + Z 2
Z
Z

f r cos(), r sin() r drd =
f (x, y) dxdy =
f (x, y) dxdy.
0

R2 \D

R2

pour toute fonction f (positive ou intgrable).


2
2
titre dexemple, appliquons cette formule f (x, y) = ex /2y /2 . Le membre de gauche devient
Z + Z 2
2
2
er /2 r drd = 2[er /2 ]+
= 2.
0
0

Par Fubini le membre de droite vaut


Z
Z
2
2
x2 /2y 2 /2
e
dxdy =
ex /2 dx .
R2

Nous avons donc montr que

R
R

ex

/2

dx =

2.
44

Rappelons quun couple (X, Y ) de variables alatoires possde une densit f si pour tout Borlien C de R2
Z
P((X, Y ) C) =
f (x, y) dxdy.
C

ou, de manire quivalente, si pour toute fonction h : R2 R+


Z
E h(X, Y ) =
h(x, y)f (x, y) dxdy.
R2

Rappelons quun C 1 -diffomorphisme est une fonction bijective de classe C 1 et telle que sa rciproque soit aussi C 1 .
Proposition 7.19. Soit (X, Y ) un couple continu valeurs dans un ouvert U . Soit : U V un
C 1 -diffomorphisme. Alors le couple (X, Y ) est continu.
Dmonstration. Soit h une fonction positive (fonction test). En appliquant la formule de changement de variables 1 on obtient
Z
E h (X, Y ) =
h (x, y)f (x, y) dxdy
U
Z
=
h(s, t)f 1 (s, t)|J(1 )(s, t)| dsdt.
V

Ce qui montre que (X, Y ) admet comme densit la fonction


f 1 J(1 ) 1V .
Exemple 7.20. Soit X et Y deux variables indpendantes de lois respectives (a, ) et (b, ).
On pose U = X + Y et V = X/X + Y . On sintresse la loi de (U, V ). On remarque que

x = uv
u=x+y
v = x/(x + y)
y = u(1 v)

x > 0, y > 0
u > 0, 0 < v < 1
On a montr que : (x, y) 7 (x + y, x/(x + y)) ralise une bijection de ]0, +[2 sur ]0, +[]0, 1[
et que 1 (u, v) = (uv, u(1 v)). On calcule le Jacobien J(1 )(u, v) = u. Daprs la formule de
changement de variables on obtient
Z
a+b
E h(U, V ) =
h(x + y, x/(x + y))xa1 y b1 ex ey dxdy
(a)(b) R2+
Z + Z 1
a+b
=
h(u, v)(uv)a1 (u(1 v))b1 eu u dudv.
(a)(b) 0
0
Ceci montre que (U, V ) a pour densit
(u, v) 7

a+b
1{u>0} ua+b1 eu 1{0<v<1} v a1 (1 v)b1 .
(a)(b)

On voit donc que U et V sont indpendants, que U suit la loi (a + b, ) et que V admet la densit
suivante
(a + b) a1
v 7
v
(1 v)b1 1{0<v<1} .
(a)(b)
Au passage nous avons montr que la fonction prcdente est une densit, et donc que
Z 1
(a)(b)
v a1 (1 v)b1 dv =
.
(a + b)
0
Ce nombre est appel (a, b). On dit aussi que V suit la loi (a, b). On peut calculer lesprance
de V :
Z 1
1
(a + 1, b)
E(V ) =
vv a1 (1 v)b1 dv =
.
(a, b) 0
(a, b)
En utiliant la proprit (x + 1) = x(x) on obtient E(V ) = a/(a + b).
45

Dfinition 7.21. Soit f et g des densits (sur R). On appelle convolution de f et g la fonction
Z
Z
f g(x) =
f (x y)g(y) dy =
f (y)g(x y) dy.
R

Une application simple de Fubini montre que f g est encore une densit. En fait on a le rsultat
suivant.
Proposition 7.22. Soit X et Y des variables indpendantes de densits respectives f et g, alors
X + Y admet f g comme densit.
Dmonstration. La densit jointe du couple (X, Y ) est la fonction (x, y) 7 f (x)g(y). Soit h : R
R+ une fonction test. On a
Z
E h(X + Y ) =
h(x + y)f (x)g(y) dxdy.
R2

La fonction (x, y) = (x, x + y) ralise une bijection de R2 dans R2 . Sa rciproque est 1 (u, v) =
(u, v u) est de classe C 1 et son Jacobien est constant (gal 1). Par changement de variable et
Fubini on a
Z
E h(X + Y ) =
h(x + y)f (x)g(y) dxdy
2
ZR
Z
Z

=
h(v)f (u)g(v u) dudv =
h(v)
f (u)g(v u) du dv.
R2

On en dduit que X + Y admet f g comme densit.


Exemple 7.23. Soient X et Y des lois N (0, 1) indpendantes. On calcule la densit de X + Y
1
2

ey

/2 (xy)2 /2

dy =

1
2


2
2
ex /4
e(yx/2) dy ex /4 = .
2
R

Ceci montre que la somme de deux N (0, 1) indpendantes est une N (0, 2).

7.6

Exercices

Exercice 7.1. On lance une infinit de fois une pice truque tombant sur pile avec probabilit
p (paramtre compris entre 0 et 1 strictement). On appelle srie une succession de piles (ou de
faces) interrompue par le rsultat contraire. Par exemple, pour lvnement P P F F F P F F F . . . ,
la premire srie est une srie de piles et a pour longueur 2, la deuxime a pour longueur 3, etc. . .
Soit X la longueur de la premire srie et Y la longueur de la deuxime srie.
1. Dterminer la loi de X.
2. Dterminer la loi du couple (X, Y ). En dduire la loi de Y .
Exercice 7.2. Soit n un entier non nul. On dispose dune urne contenant 2 boules blanches et n
noires. On retire les boules une par une (jusqu ce que lurne soit vide) en notant X le rang de
tirage de la premire boule blanche et Y le rang de la deuxime.
1. Dterminer la loi du couple (X, Y ).
2. En dduire la loi de Y .
3. Montrer que
E(Y ) =

2(n + 3)
.
3

Exercice 7.3. Soit (X, Y ) un couple alatoire valeurs dans {0, 1} N , dont la loi est dfinie
par :
2k 1
1
P(X = 0, Y = k) =
, P(X = 1, Y = k) = k , k N .
4k
4
1. Dterminer les lois de X et Y , donner leurs esprances et leurs variances.
46

2. On pose S = X + Y et T = XY + 1. Dterminer les lois de S et de T .


3. Trouver la loi du couple (S, T ).
4. Calculer P(S = T ).
Exercice 7.4. Soit (X, Y ) un couple de loi continue uniforme sur [0, 1] [0, 1], cest--dire de
densit f (x, y) = 1 si (x, y) [0, 1] [0, 1] et f (x, y) = 0 sinon. On considre les variables alatoires
suivantes :
U = min(X, Y ) et V = max(X, Y ).
1. Dterminer les fonctions de rpartitions des variables U et V .
2. En dduire que U et V sont des variables continues et dterminer leurs densits.
3. Calculer lesprance et la variance de U et V .
4. Calculer la covariance de U, V .
1
Exercice 7.5. Soit (X, Y ) un couple continu de densit f (x, y) = 2x
1D (x, y) avec


D = (x, y) R2 : 0 < y < x, 0 < y < 1/x .

On considre les variables alatoires U =

XY et V =

Y /X.

1. Montrer que U et V sont i.i.d. de loi uniforme sur [0, 1].


2. En dduire E(Y ).
Exercice 7.6. Soit (X, Y ) un couple de variables alatoires admettant pour densit

4xe(x+y) si 0 < x < y,
f (x, y) =
0
sinon
1. Dterminer les densits des marginales de X et Y .
2. Calculer cov(X, Y ).
Exercice 7.7. Soit (X, Y ) un couple de densit
f (x, y) = (x + y) 1[0,1][0,1] (x, y).
1. Vrifier que f est bien une densit et calculer les densits marginales de X et Y .
2. Calculer P(X + Y 1).
3. Dterminer une densit de U = max(X, Y ).
Exercice 7.8. Soient X, Y i.i.d. de loi N (0, 1). Soit M le point de coordonnes (X, Y ) dans un

repre orthonorm (O, i, j). Soit R la distance de M O et soit langle (i, OM ).


1. Montrer que R et sont indpendants.
2. Dterminer la loi de R2 .
3. Dterminer la loi de tan().
Exercice 7.9. Soit M un point alatoire uniforme sur le disque D de centre O = (0, 0) et de rayon
1. Quelle est la distance moyenne de M O ?

47

Conditionnement

On a vu que que la connaissance des lois de X et Y ne suffisait pas dterminer la loi du couple
(X, Y ). Pour connatre la loi de (X, Y ) il faut connatre la loi de Y et la loi de X conditionnellement
Y.

8.1

Cas discret

Dfinition 8.1. Soit (X, Y ) un couple de variable alatoires et on suppose que Y est discrte.
Pour y R vrifiant P(Y = y) > 0 on dfinit la loi conditionnelle de X sachant Y = y ainsi
PX|Y =y (A) = P(X A | Y = y).
Si on se donne un vnement A et une variable alatoire discrte Y , la quantit u(y) = P(A |
Y = y) est dfinie pour sur lensemble y1 , y2 , . . . des valeurs prises par Y . Par consquent la
variable alatoire u(Y ) est bien dfinie. On notera P(A | Y ) cette variable. Il faut bien retenir que
P(A | Y = y) est un nombre rel, tandis que P(A | Y ) est une variable alatoire.
Exemple 8.2. Une poule pond un nombre alatoire N dufs qui suit une loi de Poisson de
paramtre . Les ufs closent avec probabilit p indpendamment les uns des autres. Quelle est
la loi du nombre X de poussins ?
Conditionnellement N = n le nombre X suit une loi de binomiale de paramtres n et p. Cest-dire
 
n k
P(X = k | N = n) =
p (1 p)1k , k = 0, . . . , n.
k
Par consquent
P(X = k, N = n) = P(X = k | N = n) P(N = n) =
Puis
P(X = k) =

+
X

P(X = k, N = n) =

 
n k
n
p (1 p)nk e .
n!
k

+ n k
X
e p (1 p)nk
.
k!(n k)!

n=k

n=k

En faisant le changement dindice m = n k on trouve


P(X = k) = ep

(p)k
.
k!

Donc X suit une loi de Poisson de paramtre p.


Rappelons que pour X positive ou intgrable on a lgalit suivante
Z
E(X) =
x PX (dx).
R

Ceci motive la dfinition suivante.


Dfinition 8.3. On suppose toujours Y discrte et on se donne y tel que P(Y = y) > 0. Lesprance
conditionnelle de X sachant Y = y est dfinie par
Z
E(X | Y = y) =
x PX|Y =y (dx).
R

Cette quantit est dfinie si X est positive, ou si x 7 x est intgrable pour PX|Y =y .
Proposition 8.4. Lesprance conditionnelle vrifie les mmes proprits que lesprance.
Linarit : E(a1 X1 + a2 X2 | Y = y) = a1 E(X1 | Y = y) + a2 E(X2 | Y = y).
Croissance : si X1 X2 alors E(X1 | Y = y) E(X2 | Y = y).
On a aussi la formule suivante.
48

Proposition 8.5. Pour toute fonction f


Z
E(f (X) | Y = y) =

f (x) PX|Y =y (dx).


R

Si la fonction u : y 7 E(X | Y = y) est bien dfinie pour tout y tel que P(Y = y) > 0, alors la
variable u(Y ) est bien dfinie. Cette variable est note E(X | Y ). Encore une fois il faut retenir que
E(X | Y = y) est un nombre tandis que E(X | Y ) est une variable alatoire. On a alors rsultat
suivant.
Proposition 8.6.
E(E(X | Y )) = E(X).
Dmonstration. La variable Y est discrte. Supposons par exemple quelle est valeurs dans N. Il
sagit de montrer que
+ Z

X
x PX|Y =n (dx) P(Y = n) = E(X).
n=0

On va en fait montrer que


+ Z
X
n=0


f (x) PX|Y =n (dx) P(Y = n) = E(f (X)).

pour toute fonction f (telle que f (X) soit bien dfinie). Si f est une indicatrice le rsultat est vrai
puisque
+ Z
X
n=0

1B (x) PX|Y =n (dx) P(Y = n) =

+
X
n=0
+
X

PX|Y =n (B) P(Y = n)


P(X B | Y = n) P(Y = n)

n=0

= P(X B) = E 1B (X).
On obtient ensuit le rsultat pour les fonctions tages par linarit, puis pour les fonctions positives
par convergence monotone, puis pour les fonctions intgrables en crivant f = f+ f .
Exemple 8.7. Si N suit une loi de Poisson de paramtre et si X sachant N est binomiale
(N, p), alors on vu que X suit une loi de Poisson de paramtre p. En particulier E(X) = p. On
peut retrouver ce rsultat en utilisant la proposition prcdente : sachant N = n la variable X est
binomiale (n, p) donc
E(X | N = n) = np.
Par consquent E(X | N ) = N p. Et donc
E(X) = E(E(X | N )) = E(N p) = E(N )p = p.
On peut aussi retrouver la loi de X de la manire suivante : comme X sachant N = n est binomiale
n, p, on a
E(etX | N = n) = (pet + 1 p)n .
Donc E(etX | N ) = (pet + 1 p)N . Donc
E(etX ) = E[E(etX | N )] = E[(pet + 1 p)N ] = exp[(pet + 1 p 1)] = exp[p(et 1)]
On reconnat la fonction gnratrice des moments dune variable de Poisson de paramtre p.

49

8.2

Cas continu

Dfinition 8.8. Soit X, Y un couple continu, de densit fX,Y . On appelle densit conditionnelle
de X sachant Y = y la fonction
fX,Y (x, y)
fX|Y =y (x) =
,
fY (y)
dfinie pour tout y telle que fY (y) > 0.
Dfinition 8.9. On appelle esprance conditionnelle de X sachant Y = y la quantit
Z
E(X | Y = y) =
xfX|Y =y (x) dx
R

galement dfinie pour les y tels que fY (y) > 0.


Exemple 8.10. Soit (X, Y ) ayant pour densit la fonction fX,Y (x, y) = (1/x)1{0<y<x<1} . On en
dduit que X a pour densit
Z x
Z
1
dy)1{0<x<1} = 1{0<x<1} .
fX (x) =
fX,Y (x, y) dy = (
x 0
R
Autrement dit X suit une loi uniforme sur [0, 1]. La densit conditionnelle de Y sachant X est
donne par
1{0<y<x}
fX,Y (x, y)
fY |X=x (y) =
=
fX (x)
x
pour tout y R et tout x ]0, 1[. Autrement dit, conditionnellement X, la variable Y est uniforme
sur [0, X]. En particulier E(Y | X) = X/2.
Les proprits de linarit et de croissance sont toujours vraies. On a aussi la formule
Z
E(g(X) | Y = y) =
g(x)fX|Y =y (x) dx.
R

pour toute fonction g. La fonction u : y 7 E(X | Y = y) est dfinie pour les y tels que fY (y) > 0.
Comme fY (Y ) > 0 presque surement on peut poser
E(X | Y ) = u(Y ).
Encore une fois E(X | Y = y) est un nombre tandis que E(X | Y ) est une variable alatoire. On a
toujours lgalit fondamentale
E(E(X | Y )) = E(X).
En effet par Fubini

E E(X | Y ) =

E(X | Y = y)fY (y) dy


ZR Z

=
xfX|Y =y (x) dx fY (y) dy
ZR R
=
xfX,Y (x, y) dxdy = E(X).
R2

Jusqu maintenant on a dfini la loi conditionnelle de X sachant Y dans deux cas :


La variable Y est discrte
Le couple (X, Y ) est continu.
En fait on peut aller au-del de ces deux cas. On ne donnera pas de dfinition gnrale mais
seulement un exemple.

50

Exemple 8.11. Soit Y de loi uniforme sur [0, 1] et soit X suivant, conditionnellement Y , une
loi binomiale de paramtres (n, Y ). On cherche la loi de X.
On sait que pour k {0, . . . , n}
 
n
P(Y = k | X) =
X k (1 X)nk .
k
Par consquent
P(Y = k) = E P(Y = k | X) =

 Z 1
 


n
n
xk (1 x)nk dx.
E X k (1 X)nk =
k
k
0

De plus
Z

xk (1 x)nk dx = (k + 1, n k + 1) =

k!(n k)!
.
(n + 1)!

On en dduit que P(X = k) = 1/(n + 1) pour tout k {0, . . . , n}. Autrement dit X est uniforme
sur {0, . . . , n}.

8.3

Exercices

Exercice 8.1. On tire un nombre N suivant une loi de Poisson et on lance la mme pice N fois
successivement. Montrer que le nombre de piles obtenus est indpendant du nombre de faces.
Exercice 8.2. On effectue une suite infinie de lancers de ds. Pour n N on note Xn le temps
dattente de la premire srie de n six conscutifs : X1 est le temps auquel le six sort pour la premire
fois, X2 le temps auquel deux six daffile sortent pour la premire fois et ainsi de suite. Par exemple,
pour la suite 23644155366613 les variables X1 , X2 , X3 valent respectivement 3, 11, 12.
1. Dterminer E X1 .
2. Soit n 2, montrer que
E(Xn | Xn1 ) =


5
1
(Xn1 + 1) + Xn1 + 1 + E(Xn ) .
6
6

3. En dduire une relation de rcurrence pour E(Xn ).


4. Dterminer E(Xn ).
Exercice 8.3. Soit (X, Y ) un couple de densit
f (x, y) = ey 1{0<x<y} .
1. Dterminer les lois de X et de Y .
2. Dterminer les lois conditionnelles de X sachant Y et de Y sachant X.
3. Calculer les esprances conditionnelles E(X | Y ) et E(Y | X).


4. Vrifier que E E(X | Y ) = E(X) et E E(Y | X) = E(Y ).
Exercice 8.4. Soit X, Y des variables i.i.d. de loi exponentielle. Dterminer la loi conditionnelle
de X sachant X + Y .

51