Vous êtes sur la page 1sur 105

PROBABILITES POUR L'INGENIEUR

Cours de Master 1

Lionel Truquet

2011-2012

1 IRMAR,

Universit Rennes I, Campus de Beaulieu, 35042 Rennes cdex, France.

Table des matires

1 Espaces probabiliss, variables alatoires et esprance mathmatique


1.1
1.2

1.3
1.4

Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mesures de probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Les mesures de probabilit discrtes. . . . . . . . . . . . . . . . . . .
1.2.2 Les mesures de probabilit densit sur un intervalle de R . . . . . .
1.2.3 Cas mixte. Mlange . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Proprits des mesures de probabilit . . . . . . . . . . . . . . . . . .
1.2.5 Indpendance d'venements . . . . . . . . . . . . . . . . . . . . . . .
Les variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L'esprance mathmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Esprance d'une variable alatoire positive . . . . . . . . . . . . . . .
1.4.2 Esprance d'une variable alatoire de signe quelconque et proprits

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

2 Indpendance. Variables alatoires discrtes


2.1
2.2
2.3
2.4
2.5

25

Indpendance entre variables alatoires . . . . . .


Les variables alatoires discrtes . . . . . . . . . .
2.2.1 Les lois discrtes usuelles en modlisation
Loi d'un couple. Loi marginale . . . . . . . . . .
Le thorme de transfert . . . . . . . . . . . . . .
Les lois conditionnelles . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

3 Mesures et intgration
3.1

3.2

3.3
3.4
3.5

Mesure sur une tribu . . . . . . . . . . . . . . . . . . . . . . .


3.1.1 Les mesures de Lebesgue-Stieltjes . . . . . . . . . . . .
3.1.2 Un exemple qui heurte l'intuition : l'escalier de Cantor
Intgrale d'une fonction mesurable par rapport une mesure
3.2.1 Intgration par rapport une mesure discrte. . . . . .
3.2.2 L'intgrale de Lebesgue et l'intgrale de Riemann . . .
3.2.3 Le presque partout . . . . . . . . . . . . . . . . . . . .
Mesure produit et thorme de Fubini . . . . . . . . . . . . .
Mesure densit et thorme de transfert . . . . . . . . . . .
La formule du changement de variables . . . . . . . . . . . . .

Exemples de lois densit . . . . .


Densits marginales. Indpendance
Les calculs de lois en pratique. . .
Densits conditionnelles. . . . . . .

25
28
28
30
31
32

35
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

4 Les variables alatoires densit


4.1
4.2
4.3
4.4

5
7
8
10
11
12
13
14
17
17
20

35
36
38
39
42
43
45
46
48
52

55
.
.
.
.

.
.
.
.
3

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

55
56
59
62

5 Les outils analytiques classiques en probabilit


5.1

5.2

5.3

La fonction de rpartition . . . . . . . . . . . . . . . .
5.1.1 Proprits gnrales des fonctions de rpartition
5.1.2 Fonction de rpartition inverse et simulation . .
Covariance et moments . . . . . . . . . . . . . . . . . .
5.2.1 Moments d'une variable alatoires relle . . . .
5.2.2 Covariance et corrlation . . . . . . . . . . . . .
Fonction caractristique d'une variable alatoire . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Gnralisation des lois conditionnelles . . . . . . . . . . . . . . .


Esprance conditionnelle . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Variable alatoire mesurable par rapport une sous-tribu
6.2.2 Esprance conditionnelle par rapport une sous-tribu . .
6.2.3 Proprits gnrales de l'esprance conditionnelle . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

6 Loi et esprance conditionnelle


6.1
6.2

7 Les lois gaussiennes


7.1
7.2

7.3
7.4

Lois gaussiennes sur R . . . . . . . . . . . . . . .


Les matrices de variance-covariance . . . . . . . .
7.2.1 Quelques rappels sur les matrices . . . . .
7.2.2 Vecteurs alatoires, variance et covariance
Les vecteurs gaussiens . . . . . . . . . . . . . . .
Quelques lois fondamentales pour la statistique .

8.1

8.2

8.3

73
73
75
75
76
80

85

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

Comportement asymptotique d'une suite d'venements


8.1.1 Limite infrieure et suprieure . . . . . . . . . .
8.1.2 Lemme de Borel-Cantelli . . . . . . . . . . . . .
Les modes de convergence . . . . . . . . . . . . . . . .
8.2.1 Convergence presque sre et en probabilit . .
8.2.2 La convergence en loi . . . . . . . . . . . . . . .
Deux thormes fondamentaux . . . . . . . . . . . . .
8.3.1 La loi des grands nombres . . . . . . . . . . . .
8.3.2 Le thorme central limite . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

. 93
. 93
. 94
. 95
. 95
. 98
. 101
. 101
. 102

.
.
.
.
.
.

65
65
66
68
68
69
70

.
.
.
.
.
.

8 Convergence des suites de variables alatoires

.
.
.
.
.
.

65

85
86
86
86
88
92

93

Chapitre 1
Espaces probabiliss, variables
alatoires et esprance mathmatique

1.1

Espace probabilisable

Dnition 1

On appelle espace probabilisable un couple (, A) o


 est un ensemble appel univers. Ses lments sont appels des preuves.
 A est une tribu sur , c'est dire que A est un sous-ensemble de l'ensemble des parties
de vriant les trois proprits suivantes :
1. A,
2. Si A A alors Ac (l'vnement complmentaire de A) appartient aussi A.
3. Pour toute suite (Ai )iN d'lments de A, on a iN Ai A.
Si A A, alors A est appel un venement.

Exemple.

On peut munir n'importe quel ensemble d'une tribu en considrant l'ensemble


P() de toutes ses parties. En eet l'ensemble P() vrie trivialement les trois points de la
dnition prcdente. Lorsque l'univers est ni (par exemple = {1, 2, 3, 4, 5, 6} pour dcrire
l'ensemble des rsultats possibles lors d'un lancer de d) ou alors inni mais dnombrable (par
exemple = N pour dcrire le nombre de connexions un serveur entre deux instants donns)
la tribu P() est assez naturelle, puisque on pourra trs facilement construire des mesure de
probabilit dessus. En revanche, si on souhaite choisir un univers non dnombrable (par exemple
= [0, +[ pour dcrire les dures de vie possibles d'un appareil lectrique), il est en fait
impossible de construire mathmatiquement certaines mesures de probabilits naturelles sur la
tribu des vnements P(). Dans ce cas, il faut se restreindre une tribu plus petite (la tribu
des Borliens que nous verrons un peu plus loin).

Remarques

 Si A est une tribu, on a toujours = c A ( dsigne l'ensemble vide).


 Ainsi, une consquence de la dnition prcdente est qu'une tribu d'venements est stable
par runion nie. En eet, si A1 , . . . , AN A, on a quitte complter par Ai = si i = 0
ou i N + 1,

A = N
i=1 Ai = iN Ai A.
 On en dduit aussi la stabilit de A par intersection nie ou innie dnombrable. En eet,
lorsque I = {1, . . . , N } ou I = N, considrons une suite (Ai )iI d'lments de A. Posons
A = iI Ai . En crivant

A = (iI Aci )c
5

et en utilisant la dnition et la remarque prcdente, on peut voir que A A. En eet,


on a Aci A pour i I et la Dnition 1 guarantit que iI Aci A puis que A A
(stabilit par passage au complmentaire).
Ainsi si A et B sont deux elments de A alors les quantits A \ B = A B c (se lit A priv
de B ) et B \ A = B Ac sont encore des lments de A.
Les exemples intressants de tribus peuvent se dcrire l'aide de la notion de tribu engendre.

Dnition 2

Soit F P() un sous-ensemble de l'ensemble des parties de . La tribu engendre par F est dnie comme l'intersection de toutes les tribus contenant F . Cette tribu est
note (F).

Remarque.

La dnition prcdente a bien un sens car on peut montrer qu'une intersection


quelconque de tribus sur est encore une tribu sur . La tribu (F) est donc la plus petite
tribu contenant F au sens de l'inclusion : toute tribu contenant F contient galement (F).

Exemples

 Si A , ({A}) = {, , A, Ac }. On parle de tribu engendre par A.


 Si A et B sont deux sous-ensembles disjoints de et F = {A, B}, on trouve

(F) = {, , A, B, A B, Ac , B c , Ac B c = (A B)c } .
 Si A et B sont deux sous-ensembles non disjoints de et F = {A, B}, alors la tribu (F)
est plus dicile dcrire. On peut arriver dcrire cette tribu l'aide des vnements
B \ A, A \ B , A B et (A B)c qui sont disjoints deux deux et dont la runion est .
En eet la tribu sera alors compose de toutes les runions
  possibles entre ces lments et
le nombre d'lments composant la tribu est

P4

k=0

4
k

= 16. Ces 16 lments sont

, A B c , B Ac , Ac B c , A B, A, B, AB, (AB)c , Ac , B c ,
Ac B, B c A, Ac B c , A B, ,
avec AB = (A \ B) (B \ A) qui est appel la dirence symtrique de A et de B .

Exemple fondamental : la tribu borlienne sur R.

Posons F = {[a, b]/a, b R}. Autrement dit, F est l'ensemble de tous les intervalles ferms et borns de R. Alors la tribu (F)
est aussi note B(R) et est appele tribu Borlienne sur R. Les lments de B(R) (qui sont des
parties de R) sont appels des borliens. La tribu B(R) est trs riche : la dnition d'une tribu
entrane que tous les intervalles de R sont contenus dans B(R), mais aussi tous les ensembles
dnombrables {x1 , x2 , . . .} (en particulier N, Z ou encore Q) et donc ensuite n'importe quelle
intersection ou runion nie ou innie dnombrable constitue l'aide de ces ensembles. On peut
quand mme montrer (bien que cela soit dlicat) qu'il existe des parties de R qui n'appartiennent
pas B(R). Sur la tribu d'vnements B(R), il est possible de construire les probabilits dtes
densit. Ces probabilits densit ne peuvent tre dnies sur P(R), d'o l'importance de la
tribu Borlienne.
On dnit aussi une tribu Borlienne sur un intervalle I de R : B(I) = {A I/A B(R)}. On
peut montrer que pour un intervalle I de R, la tribu B(I) concide avec la tribu engendre par
l'ensemble des intervalles ferms borns inclus dans I .
6

Produit d'espaces probabilisables.

Considrons pour i = 1, . . . , d, un espace probabilisable


(i , Ai ). Sur l'univers = 1 2 d , on dnit la tribu produit par

A = ({A1 A2 Ad /A1 A1 , . . . , Ad Ad }) .
La tribu produit est donc la tribu engendre par tous les produits cartsiens de la forme A1
Ad avec Ai Ai , 1 i d.
Un exemple fondamental est la tribu borlienne sur Rd : en considrant i = R et Ai = B(R)

d et est note B Rd .
pour 1 i d, la tribu tribu
produit
est
appele
la
tribu
borlienne
sur
R

On peut montrer que B Rd est aussi la tribu engendre par les pavs ferms borns (c'est dire
les ensembles de la forme [a1 , b1 ] [a2 , b2 ] [ad , bd ]). La tribu B(Rd ) est aussi trs riche car
elle contient tout un tas de parties de Rd cause des proprits de stabilit de la Dnition 1. On
peut y trouver tous les pavs de Rd (dont les intervalles sont ferms ou pas en leurs extrmits),
tous les ensembles nis ou inni dnombrables, tous les ensembles dnis par des quations du
type g(x) = 0 ou g(x) > 0 avec g : Rd R continue (en particulier un cercle ou un disque
de R2 appartiennent B(R2 )) et des ensembles beaucoup plus irrguliers. C'est sur cette tribu
d'venements que sont dnies les mesures de probabilits densit (sur Rd ) que nous verrons
en dtail au Chapitre 3.

Produit inni d'espaces.

Lorsqu'on souhaite par exemple tudier la suite (nie) des prix


d'un actif nancier, il arrive souvent que l'on ne puisse obtenir des rsultats sur le comportement
statistique de cette suite que lorsque son nombre d'lments tend vers l'inni. Du point de vue
de la modlisation probabiliste, il est alors ncessaire de dnir un univers comme un sousensemble de l'ensemble des suites de nombres rels. Ceci conduit la notion de produit inni
d'espaces mesurables (i , Ai ), i N. L'univers = 0 1 est alors muni de la tribu
engendre par l'ensemble C des cylindres : un cylindre C est un sous-ensemble de de la forme

C = { /0 A0 , 1 A1 , . . . , n An } ,
o n N et Ai Ai si 1 i n. Lorsque pour i N, i = R et Ai = B(R), la tribu (C)
contient par exemple les venements :
 ensemble des suites qui franchissent le niveau a :

+
n=0 {x/xn a}.
 ensemble des suites qui ont pour limite le rel a :

+
k=1





1
+
+
N =1 n=N x / |xn a|
.
k

Cette tribu, appele tribu cylindrique, est en particulier utilise pour la construction des suites
de variables alatoires indpendantes.
1.2

Mesures de probabilits

Dnition 3

Soit (, A) un espace probabilisable. On dit que P : A [0, 1] est une mesure de

probabilit si
1. P() = 1.
2. Si (Ai )iN est une suite d'venements de A deux deux disjoints (c'est dire Ai Aj =
si i 6= j ) alors

X
P (iN Ai ) =
P(Ai ).
i=0

Cette deuxime proprit est appele la proprit de additivit.


7

Si A A, le nombre P(A) est appel probabilit de l'venement A.

Remarques

 Soit (Ai )iN une famille d'lments de A disjoints deux deux. Posons A = iN Ai . Si
: N N est une permutation de N, alors on a aussi l'galit

A = iN A(i) .
Pour que la dnition prcdente ait un sens, il faut que

P(Ai ) =

i=0


P A(i) .

(1.1)

i=0

Mais cette galit est automatiquement vrie car si P est une mesure de probabilit,
P
la srie
i=0 P(Ai ) est absolument convergente et de somme P(A). Une srie
P absolument
convergente tant commutativement convergente (on rappelle qu'une srie iN xi est dite
commutativement convergente si elle est convergente et si sa somme concide avec celle de
P+
la srie
i=0 x(i) pour toute permutation de N), l'galit (1.1) est bien vrie.
Mentionnons galement que pour toute srie de terme gnral xi positif, la limite
P
limN N
i=1 xi existe et est soit nie soit gale +. Cette limite est encore appele la
somme de la srie. Une srie termes positifs est aussi commutativement convergente.
 Remarquons que cette dnition entraine automatiquement l'galit P () = 0. En eet, il
sut d'appliquer le point 2. de la dnition en posant Ai = pour tout i N : l'galit

P () =

P () entraine ncessairement l'galit P () = 0.

i=0
A1 , . . . , An

 Soient
des lments de A disjoints deux deux. En posant Ai = si i > n
ou si i = 0 et en utilisant la remarque prcdente, la proprit de additivit entraine
l'galit

P (ni=1 Ai ) =

n
X

P(Ai ).

i=1

On dit alors que P vrie la proprit d'addivit.

Dnition 4 On appelle espace probabilis tout triplet (, A, P) o (, A) est un espace probabilisable et P est une mesure de probabilit sur A.
Sur tout espace probabilisable (, A), on peut construire des mesures de probabilit lmentaires : les masses de Dirac. Plus prcisment, si 0 , considrons 0 l'application dnie
sur A par

1 si 0 A,
0 (A) =
,
A A.
0 sinon
Alors 0 est une mesure de probabilit appele masse de Dirac au point 0 (vrier la dnition
titre d'exercice). Remarquons que si {0 } A alors 0 ({0 }) = 1. Cette mesure de probabilit
a peu d'intrt en modlisation (l'venement {0 } est certain) et permettra surtout d'crire
d'autres mesures de probabilit plus intressantes.
1.2.1

Les mesures de probabilit discrtes.

Proposition 1

Soient (xi )iN une suite de points de Rd et (pi )iN une suite de nombres rels
positifs de somme 1. Posons = {xi : i N} et A = P (). Alors sur l'espace probabilisable
(, A), il existe une unique mesure de probabilit P telle que
P ({xi }) = pi ,
8

i N.

Pour tout A A, on a alors


P(A) =

1A (xi ) pi ,

i=0

o 1A : Rd {0, 1} est la fonction dite indicatrice de A et qui est dne par 1A (x) = 1 si x A
et 1A (x) = 0 si x Ac .
Avec les notations de la proposition prcdente, on peut noter que

1A (xi ) pi =

i=0

ce qui justie la notation P =

xi (A)pi ,

i=0

i=0 pi i .

Preuve.

Si P est une mesure de probabilit telle que P ({xi }) = pi pour tout i N, alors en
posant Ai = {xi } si xi A et Ai = si i
/ A, on a ncessairement

P(A) = P (iN Ai ) =

P (Ai ) =

i=0

(1.2)

1A (xi )pi .

i=0

L'unicit d'une telle mesure de probabilit est donc claire. Montrons alors si P : A [0, 1]
est dnie pour tout A A par (1.2) alors P est bien une mesure de probabilit. P prend des
P
valeurs dans [0, 1] puisque 0 P(A)
i=0 pi = 1 pour tout A A. On a ensuite d'abord
P
1

p
=
1
.
Vrions
la
proprit
de additivit. Soit (An )nN est une suite
P() =
i
i=0
d'lments de A deux deux disjoints. Posons A = nN An . On peut remarquer l'galit

1A =

1An .

n=0

Ainsi on obtient

P(A) =

X
i=0 n=0

1An (xi ) pi =

1An (xi ) pi =

n=0 i=0

P(An ).

(1.3)

n=0

L'inversion des sommes dans (1.3) est justie grce au Thorme de Fubini (cf Thorme 2
nonc au Chapitre 2).

Exemples

 Lorsque = {1, . . . , n}, la loi uniforme sur est dnie par P ({i}) = n1 , 1 i n.
 Lorsque = {0, . . . , n}, la loi binomiale de paramtre (n, p) (0 < p < 1) est dnie par

P ({i}) =

 
n i
p (1 p)ni ,
p

0 i n.

 Lorsque = N, la loi de Poisson de paramtre > 0 est dnie par

P ({i}) = exp()

i
,
i!

i N.

e sur un sous-ensemble ni ou inni


Remarquons que toute mesure de probabilit discrte P
dnombrable 0 de Rd (e.g 0 = N) peut tre vue comme une mesure de probabilit sur
= Rd muni de la tribu des borliens.
En eet, notons que P(0 ) B(Rd ), et en posant


d
P(A) = Pe(A 0 ) pour A B R , on dnit une mesure de probabilit P sur Rd , B(Rd ) qui
e. Cette observation justie alors la dnition suivante.
prolonge P
9

Dnition 5


On dira qu'une mesure de probabilit P sur Rd , B(Rd ) est discrte s'il existe un
sous-ensemble E de Rd ni ou inni dnombrable tel que P(E) = 1.
Le chapitre 2 sera consacr plus en dtail aux mesures de probabilit discrtes.
1.2.2

Les mesures de probabilit densit sur un intervalle de

Pour construire les mesures de probabilit densit sur R, la tche est plus dlicate. Certaines dicults mathmatiques rendent impossible la dnition de ce type de probabilit sur
la tribu d'venement P(R) (ensemble de toutes les partie de R). On est oblig de se restreindre
la tribu des borliens. Mais mme avec cette restriction, il faut un bagage mathmatique supplmentaire (l'intgrale de Lebesgue que nous discuterons un peu au Chapitre 3) pour pouvoir
dnir correctement ce type de mesure de probabilit. Cependant l'nonc du thorme suivant
met en lumire un principe assez gnral concernant la dnition des mesures de probabilit :
on dnit une application P sur l'ensemble des intervalles ferms borns et on montre ensuite (
l'aide de thormes appropris) que P se prolonge de manire unique la tribu engendre par
les intervalles, c'est dire la tribu des borliens.

Thorme 1 Si I est un intervalle de R et f : I R+ une fonction intgrable. Alors sur = I


muni de la tribu des Borliens A = B (I), il existe une unique mesure de probabilit P dnie
sur A et telle que
Z
P ([a, b]) =

f (x)dx,

(1.4)

a, b I.

On dit que P est une mesure de probabilit de densit f sur (, A).


Contrairement aux mesures de probabilit discrtes, toute mesure P densit vrie P ({x}) = 0
pour tout x. L'utilisation de ce type de mesures de probabilit se justie en pratique par la nature
du phnomne observ : par exemple, si on observe des dures de vie d'appareils lectriques du
mme type, les frquences d'apparition d'une dure de vie donne seront quasi nulles. On prfre
plutt prciser les probabilits qu'une dure de vie se situe dans un intervalle l'aide d'une
densit f : la valeur P ([a, b]) s'interprte alors comme l'aire de la partie situe sous la courbe
reprsentative de f et entre les droites d'quations x = a et x = b (voir Figure 1.1).

Cas particulier.

Lorsque c et d sont deux rels tels que c < d, et si f : [c, d] R+ est dnie
par f (x) =
pour x [c, d] alors on parle de mesure de probabilit uniforme sur l'intervalle
[c, d]. On a alors
1
dc

P ([a, b]) =

ba
,
dc

c a b d.


D'autres exemples bien connues : lorsque I = R et f est dnie par f (x) = 1 exp x2
2
on parle de distribution gaussienne centre rduite, lorsque I = R+ et f est dnie par f (x) =
exp(x) on parle de distribution exponentielle de paramtre ( dsigne un rel strictement
positif).

Remarque.

Une mesure de probabilit densit sur un intervalle I de R peut tre vue comme
une mesure de probabilit sur (R, B(R)) : il sut de prolonger la densit f en dehors de I en
posant f (x) = 0 si x
/ I . On utilisera alors la notation (abusive) f 1I pour dsigner la densit.
10

Fig.

1.2.3

1.1: L'aire en rouge reprsente la probabilit P ([a, b])

Cas mixte. Mlange

On peut considrer d'autres exemples de mesures de probabilits sur R en considrant des


combinaisons convexes de mesures de probabilit discrtes et/ou densit. La preuve de la
proposition suivante est immdiate.

Proposition 2 Toute combinaison convexe de mesures de probabilits sur (, A) est encore une
mesure de probabilit. Autrement dit si p [0, 1] et Q1 , Q2 sont deux mesures de probabilits sur
(, A) alors l'application P = pQ1 + (1 p)Q2 dnie par P(A) = pQ1 (A) + (1 p)Q2 (A) pour
A A est une mesure de probabilit sur A.
Exemples

 Si Q1 et Q2 sont deux mesures de probabilit de densits respectives f1 : R R et f2 :


R R et p [0, 1], alors la probabilit P = pQ1 + (1 p)Q2 est une mesure de probabilit
densit. La densit f est alors donne par la combinaison convexe correspondante des
densits : f = pf1 + (1 p)f2 . On parle de densit mlange. Un mlange de loi permet
de construire de nouvelles distributions empruntant les traits de plusieurs distributions
lmentaires.
 On peut construire des mesures de probabilit dites mixtes qui ont une partie discrte et
une partie densit. Par exemple, considrons le temps d'attente d'un client qui arrive
un guichet. Il se peut que ce temps soit nul ou strictement positif. Une solution pour
tudier cette exprience est de considrer l'espace probabilis (, A, P) avec = [0, +[,
A = B ([0, +[) et P = p0 + (1 p)Q o p ]0, 1[ et Q est la distribution exponentielle de
paramtre > 0. Ainsi P({0}) = p({0}) + (1 p)Q({0}) = p et si [a, b] est un intervalle
de R+ avec a > 0, on a

Z
P ([a, b]) = (1 p)

exp(x)dx.
a

Cet exemple est un cas particulier de mesure de probabilit de la forme P = pQ1 +(1p)Q2
o Q1 est une mesure de probabilit discrte et Q2 une mesure de probabilit densit.
11

Remarque.

La Dnition 3 permet en fait la construction de mesure de probabilits qui ne


possde ni une partie discrte ni une partie densit. Pour ce type d'exemple, on aura P ({x}) = 0
pout tout x Rd sans qu'il existe une densit. Dans le Chapitre 3, nous prsenterons un exemple
de ce type pour illustrer cette remarque.
1.2.4

Proprits des mesures de probabilit

Voici maintenant des proprits fondamentales des mesures de probabilit.

Proposition 3

Soit (, A, P) un espace probabilis. On a


1. Si A A, on a P(A) + P (Ac ) = 1.
2. Si A et B sont deux venements tels que A B , alors P(A) P(B) et P (B \ A) =
P(B) P(A).
3. Si A et B sont deux venements, alors
P (A B) + P (A B) = P(A) + P(B).

4. Pour toute suite (An )nI d'venements (I = N ou [[1, N ]]) on a l'ingalit


X
P (nI An )
P(An ).
nI

5. Si I = N ou [[1, N ]] et (An )nI est un systme complet d'venements (i.e disjoints deux
deux et de runion ) alors
X
P(A) =
P (A Ai ) .
iI

Cette dernire formule est connue sous le nom de formule des probabilits totales.

Preuve
1. Les deux venements A et B \ A sont disjoints et de runion B . On a donc

P(B) = P (A (B \ A)) = P(A) + P (B \ A) .


On en dduit que P (B \ A) = P(B) P(A). Comme une probabilit est toujours positive,
on en dduit galement que P(B) P(A).
2. Les trois vnements A \ B , B \ A et A B sont disjoints deux deux et leur runion est
A B . On en dduit que

P (A B) = P(A \ B) + P(B \ A) + P(A B).


Vu que les venements A \ B et A B d'une part et les venements B \ A et A B d'autre
part sont didsjoints et de runion A et B respectivement, on en dduit

P(A B) + P(A B) = P(A \ B) + P(A B) + P(B \ A) + P(A B) = P(A) + P(B).


n1
3. Posons B0 = A0 et pour n N , Bn = An \i=0
Ai . Alors les venements Bn sont disjoints
deux deux et on peut vrier l'galit

nN Bn = nN An .
De plus comme Bn An , on a P(Bn ) P(An ). Si A = nN An , on conclut que

P(A) =

P(Bn )

nN

X
nN

ce qui prouve l'ingalit annonce.


12

P(An ),

4. Il sut d'appliquer la proprit d'additivit ou de additivit aux venements Bn =


A An , n I qui sont disjoints deux deux et de runion A. 

Proposition 4

Soit (An )nN une suite d'venements.

1. Si la suite est croissante au sens de l'inclusion, c'est dire An An+1 pour tout n, alors
en posant A = nN An , on a
P(A) = lim P(An ).
n+

2. Si la suite est dcroissante au sens de l'inclusion, c'est dire An+1 An pour tout n, alors
en posant A = nN An , on a galement
P(A) = lim P(An ).
n+

Remarque.

On peut voir ces rsultats comme des rsultats de continuit : la proprit 1. est
d'ailleurs appele proprit de continuit suprieure et la proprit 2. proprit de continuit
infrieure. Par exemple, pour toute mesure de probabilit P sur R muni de la tribu B(R), la
Proposition 4 permet d'crire :



1
1
lim P [1 + , 1 ] = P (] 1, 1[) ,
n+
n
n


1
1
lim P [1 , 1 + ] = P ([1, 1]) .
n+
n
n
La Proposition 4 sera dmontre en TD.

1.2.5

Indpendance d'venements

La dnition de l'indpendance entre venements est fondamentale dans la thorie des probabilits.

Dnition 6

 On dit que A et B sont deux venements indpendants si


P(A B) = P(A)P(B).

 On dit qu'une famille d'venements {Ai /i I} (I est un ensemble quelconque) est indpendante si pour tout k N et pour tout kuplet (j1 , . . . , jk ) d'lements distincts de
I :
k
Y
P (Aj1 Aj2 . . . Ajk ) =
P (Aji ) .
i=1

Exemple.

Considrons l'exemple du lancer de deux ds en posant = [[1, 6]]2 , A = P() et


1
P la mesure de probabilit discrte dnie par P({1 , 2 )} = 36
. Alors pour toute partie A de

, on a P(A) =

|A|
36 .

Si A dsigne l'venement "le premier d donne 6" et B dsigne l'venement


"le deuxime d donne 6", alors A = {6} [[1, 6]], B[[1, 6]] {6} et A B = {6} {6}. On a

1
1 1
= P(A B) = = P(A)P(B).
36
6 6
Les venements A et B sont indpendants.
13

1.3

Les variables alatoires

On se donne un espace probabilis (, A, P).

Dnition 7

1. On dit qu'une application X : R est une variable alatoire si pour tout


couple (a, b) de nombres rels tels que a b :
{ /a X() b} A,

a b.

2. On dit qu'une application X : Rd dnie par X() = (X1 (), . . . , Xd ()) est une
variable alatoire si pour 1 i n, Xi est une variable alatoire relle.
Cette dnition semble naturelle car pour calculer la probabilit de l'ensemble { /a X() b}
(si X dsigne une variable alatoire relle), il faut que ce dernier soit bien un venement. En
pratique, cette dnition est assez gnrale : les fonctions rencontres seront toujours des variables alatoires lorsque la tribu A est correctement choisie.
On pourra en fait calculer la probabilit qu'une variable alatoire appartienne n'importe quel
Borlien, comme le montre la proposition suivante.

Proposition 5

Si X : Rd est une variable alatoire, alors pour tout B B(Rd ),


{ /X() B} A.

Notation.

Dans la suite, un venement du type { /X() B} sera not en abrg


{X B}. Une autre notation que nous n'utiliserons pas souvent est X 1 (B) (image rciproque
de B par X ).

Remarque.

Il est alors facile de montrer qu'une fonction


X : Rd est une variable alatoire

d
si et seulement si {X B} A pour tout B B R (vrier la condition susante en prenant
pour B des produits cartsiens bien choisis).

Preuve de la proposition.

Posons

n
 
o
M = B B Rd / {X B} A .
On peut vrier que M est une tribu (exercice). Cette tribu contient les pavs ferms de Rd :
en eet comme X est une variable alatoire, on a si P = [a1 , b1 ] [ad , bd ] :

{X P } = di=1 {Xi [ai , bi ]} A,


en utilisant la stabilit de la tribu par intersection nie. Comme B(Rd ) est la plus petite tribu
contenant les pavs, on conclut que B(Rd ) M (on a en fait l'galit car M B(Rd )). D'o le
rsultat par dnition de M.

Exemples de variables alatoires :

 Si A A, on note 1A la fonction indicatrice de l'venement A. Cette fonction est dnie


par 1A () = 1 si A et 1A () = 0 sinon. Cette fonction est une variable alatoire
valeurs dans {0, 1}. Pour le justier, il sut d'observer que {a 1A b} est gal , ,
A ou Ac suivant le choix du couple (a, b).
14

 Soit X : Rd une fonction telle que X() soit un ensemble ni ou inni dnombrable
de Rd : X() = {x1 , x2 , . . .} pour une suite x1 , x2 , . . . de points de Rd . Alors X est une
variable alatoire si et seulement si pour tout i,

{X = xi } A.
En eet, si a et b sont deux rels tels que a b et J = {i N/xi [a, b]}, alors J est un
ensemble ni ou inni dnombrable et on a

{a X() b} = iJ {X() = xi } .
Dans ce cas, on dit que X est une variable alatoire discrte. Remarquons qu'en posant
Ai = {X = xi } pour i N , on a la dcomposition

X() =

xi 1Ai (),

i=1

 Soit un espace probabilis produit (, A, P) avec = 1 n et o i = Rdi pour


1 i n. est muni de la tribu produit





A = B Rd1 B Rdn ,
tribu qui s'identie en fait la tribu borlienne sur Rd1 +...+dn . Alors les applications
coordonnes X1 , . . . , Xn dnies par

= (1 , . . . , n ) , 1 i d,

sont des variables alatoires. En eet si Bi B Rdi , on a, en posant Ei = Bi et Ej = j
pour j 6= i :
n
Y
{Xi Bi } =
Ej A.
Xi () = i ,

j=1

 Il est parfois intressant de considrer des variables alatoires relles pouvant prendre la
valeur + (la dnition reste inchange). Donnons un exemple en considrant = RN
que l'on munit de la tribu cylindrique et dnissons pour i N l'application coordonne
Xi par Xi () = i , . Xi est une variable alatoire. Soit alors

T () = inf {i 0 : Xi a} ,
avec la convention T () = + si {i 0 : Xi a} = . Alors T est une variable alatoire
discrte. En eet, on peut crire si n N :

{T = n} = n1
i=0 {Xi < a} {Xn a} .
Ainsi {T = n} A car il s'agit d'une intersection nie d'venements.
Si on s'intresse la suite des prix d'un actif nancier, T reprsente le premier instant o
le prix de cet actif dpasse le seuil a.

Dnition 8
dnie par

Soit X : Rd une variable alatoire. Alors l'application PX : B(Rd ) [0, 1]


PX (B) = P (X B) ,

B B(Rd ),

est une mesure de probabilit appele la loi de X sous P.


15

On pourra titre d'exercice vrier que l'application PX de la dnition prcdente est bien une
mesure de probabilit.
Ainsi dnir la loi d'une variable alatoire X reviendra dnir la mesure de probabilit PX .
En particulier, nous utiliserons la terminologie suivante.

Dnition 9
PX

1. On dira qu'une variable alatoire X est une variable alatoire discrte lorsque
est une mesure de probabilit discrte.

2. On dira qu'une variable alatoire X suit une loi densit et de densit f sur R si PX est une
mesure de probabilit de densit f (ainsi si a b, on aura PX ([a, b]) = P (a X b) =
Rb
a f (x)dx.)

Exemples
 Supposons que X soit une variable alatoire constante (c'est dire qu'il existe c Rd tel
que X() = c pour tout ). Alors on a PX = c (masse de Dirac au point c).
 Pour le lancer de deux ds quilibrs, on pose = [[1, 6]]2 , A = P() et P la mesure de
1
probabilit discrte dnie par P ({}) = 36
, . Alors si X1 () = 1 et X2 () = 2 ,
alors PX1 ou PX2 est la probabilit uniforme sur [[1, 6]] et P(X1 ,X2 ) = P.
 Pour une variable alatoire discrte, il n'est utile de prciser que les probabilits non nulles
P
du type P (X = x). Par exemple soit X =
i=1 xi 1Ai o (xi )i1 est une suite de points de
d
R et (Ai )i1 une suite d'lments de A disjoints deux deux. Alors en posant pi = P (Ai ),
on a l'galit

PX =

pi xi .

i=1

 Pour une variable alatoire densit, il sut de prciser la densit. Supposons par exemple
que = R et P est la distribution exponentielle de paramtre 1. Posons X() = 2 , pour
tout . Soient alors (a, b) R2 tel que 0 a b. Alors, on a

Z b
  Z b
P (a X b) = P [ a, b] = exp(t)dt =
2u exp(u2 )du,
a

la dernire galit se dduisant du changement de variable u = t2 dans l'intgrale. Ainsi,


X suit une loi densit fX donne par


fX (u) = 2u exp u2 1R+ (u).

Remarque fondamentale concernant la description d'une exprience alatoire.

En
pratique, il arrive souvent que l'on dnisse des lois de variables alatoires sans mme dnir
explicitement le triplet (, A, P). En fait, on dnira souvent PX sans dnir P car seule la
probabilit PX nous intressera. Ceci est li au fait qu'on supposera le rsultat (x1 , . . . , xd ) Rd
d'une exprience alatoire comme tant la ralisation X() d'une variable alatoire. On dnit
alors la loi Q de X , qui est celle permettant d'tudier cette exprience. Il existe toujours un
espace probabilis (, A, P) naturel associ : on peut poser = Rd , X() = et P = Q (ce qui
entraine PX = P = Q). Toute loi de probabilit sur Rd est donc la loi d'une variable alatoire
dnit sur un espace probabilis.
Adopter ce point de vue est souvent plus commode car plus conome en terme de description.
Nous y reviendrons.
16

1.4

L'esprance mathmatique

La dnition de l'esprance mathmatique d'une variable alatoire, on parle aussi de moyenne


d'une variable alatoire, peut se faire uniquement partir la dnition donne pour une variable
alatoire discrte support ni.

Dnition 10

Si X est une variable alatoire valeurs relles avec X() = {x1 , . . . , xn } et


P(X = xi ) = pi pour i = 1, . . . , n, on dnit
E(X) =

n
X

xi p i .

i=1

E(X) est appele esprance de X .


Cette dnition correspond bien l'intuition de l'approche frquentiste : s'il est possible d'observer une quantit plusieurs reprises, il est naturel de dnir empiriquement la moyenne en
pondrant les valeurs possibles par leur frquence d'apparition. Dans la modlisation probabiliste, ces frquences sont remplaces par des probabilits.
Considrons maintenant une variable alatoire positive quelconque. Si on reproduisait plusieurs
fois la mme exprience qui aboutirait l'observation d'une valeur de cette variable, il est naturel de regrouper les valeurs possibles en direntes classes (par exemple [0, h[, [h, 2h[, . . .) pour
ritrer l'approche faite en discret : on regarde le nombre de fois o la valeur de la variable tombe
P
dans une classe donne. A la quantit
k0
P khfk o fk est la frquence d'apparition de la classe
[kh, (k + 1)h[, correspondrait le nombre k0 khP(kh X < (k + 1)h) qui devrait donner une
ide de plus en plus prcise de la valeur moyenne lorsque h 0. Il y a l l'ide d'approcher une
variable alatoire quelconque par une variable alatoire discrte.
L'approche mathmatique pour dnir l'esprance d'une variable alatoire est aussi base sur
l'approximation d'une variable alatoire par une variable alatoire discrte (suivant une approche
qui permet galement de rpondre d'autres exigences thoriques que nous n'voquerons pas).
1.4.1

Esprance d'une variable alatoire positive

Dans la suite, nous noterons D+ l'ensemble des variables alatoires positives et qui ne
prennent qu'un nombre ni de valeurs. Commenons par noncer la proposition suivante.

Proposition 6

Soit X une variable alatoire valeurs relles positives. Pour n N, soit


Xn =

2n 1
2X

k=0

k
1 k
k+1 .
2n { 2n X< 2n }

Alors (Xn )nN est une suite croissante d'lments de D+ qui converge point par point vers la
variable alatoire X .

Preuve.

Commenons par montrer que pour tout , on a limn Xn () = X(). Soit


et  > 0. Soit galement n0 tel que n n0 entraine X() < 2n . Alors si n n0 , il existe
k
k [[0, 22n 1]] tel que 2kn X() < k+1
2n et donc Xn () = 2n (remarquer que k dpend de n).

Ainsi

|Xn () X()|

k
< ,
2n

n n0 ,

ce qui montre la convergence. L'autre point non trivial est la croissance de la suite que nous allons
dmontrer. Soit et n N. Si X() 2n , alors Xn () = 0 et donc Xn () Xn+1 (). Si
17

2k
2k+1
maintenant il existe k [[0, 22n 1]] tel que 2kn X() < k+1
2n , alors on a 2n+1 X() < 2n
2k
ou 2k+1
X() < 2k+2
. Dans ce cas on a Xn () = 2kn et ou bien Xn+1 () = 2n+1
ou bien
2n+1
2n+1
2k+1
Xn+1 () = 2n+1 . Ceci prouve bien que l'on a toujours Xn () Xn+1 ().

Remarque.

La variable alatoire Xn dnie dans la Proposition 6 prend la valeur 2kn lorsque


k
k+1
2n X() < 2n . Lorsque = R+ , la gure 1.2 reprsente le graphe d'une fonction X ainsi
que les graphes de X1 , X2 et X3 (ces fonctions sont constantes par morceaux pour la fonction
X considre).

Fig.

1.2:

Lemme 1

Soient Y et Z deux lments de D+ . On suppose X Y (i.e pour tout ,


Y () Z()). Alors E(Y ) E(Z).

Preuve.

Quitte rajouter des valeurs, on peut supposer que Y et Z prennent toutes les deux
les valeurs x1 < x2 < . . . < xk (dont peut-tre certaines avec probabilit 0). Comme Y Z ,
alors pour 1 i n, on a

{Y = xi } = nj=i {Y = xi , Z = xj }
18

et la runion est forme d'venements disjoints deux deux. En utilisant la proprit d'additivit
de la mesure P, on obtient

E(Y ) =

n
X

xi P (Y = xi ) =

i=1

n
X

xi

n
X

i=1

P (Y = xi , Z = xj ) .

j=i

Mais
n
X

xi

i=1

n
X

P (Y = xi , Z = xj ) =

j=i

n
X

xi

i=1

n
X

1ij P (Y = xi , Z = xj )

j=1

j
n X
X

P (Y = xi , Z = xj )

j=1 i=1

n
X
j=1
n
X

xj

j
X

P (Y = xi , Z = xj )

i=1

xj P(Z = xj )

j=1

= E(Z).
On a donc bien E(Y ) E(Z).
Le lemme suivant sera capital pour justier la dnition de l'esprance.

Lemme 2

Soient X D+ et (Yn )n une suite croissante d'lements de D+ telle que X


lim Yn . Alors

E(X) lim E(Yn ).


n+

Preuve.

Soit 0 t < 1. Posons si n N, Bn = {Yn tX}. On peut facilement vrier que


sous les hypothses du lemme, la suite d'venements (Bn )n est croissante pour l'inclusion et de
runion . En utilisant le lemme prcdent, on a les ingalits

E (tX1Bn ) E (Yn 1Bn ) E(Yn ).


Pp
Remarquons ensuite que si X =
i=1 xi 1X=xi , alors
E (tX1Bn ) = t

p
X

(1.5)

xi P ({X = xi } Bn ) .

i=1

En utilisant la proprit de continuit suprieure de P, on obtient en faisant tendre n vers + :

lim E (tX1Bn ) = t

p
X

xi P (X = xi ) = tE(X).

i=1

En passant la limite dans (1.5), nous obtenons

tE(X) lim E(Yn ),


n

ce qui donne l'ingalit que nous devions prouver en faisant tendre t vers 1.

Nous sommes alors en mesure de dnir l'esprance d'une variable alatoire positive.
19

Proposition-Dnition 1

Soit X une variable alatoire positive et (Xn )nN une suite croissante de variables alatoires de D+ et convergeante point par point vers X , alors la quantit
limn+ E(Xn ) (qui est bien dnie en tant que limite d'une suite croissante et qui peut valoir
+) ne dpend pas de la suite (Xn )nN . Ce nombre est appel esprance mathmatique de X et
est not E(X).

Preuve.

Si (Xn )n et (Xn0 )n sont deux suites de variables alatoires qui satisfont les hypothses
de la proposition, alors le Lemme 2 assure que

E(Xp ) lim E(Xn0 ),


n

ce qui entraine

lim E(Xn ) lim E(Xn0 ).

(Xn0 ),

En inversant le rle de la suite (Xn ) et


on voit que l'ingalit inverse est galement valable
et donc que lim E(Xn ) = lim E(Xn0 ), ce qui justie la dnition donne de l'intgrale.
n

Exemples

 Si X est une variable alatoire discrte telle que X() N. Plutt que d'utiliser la suite
Pn
croissante donne dans la Proposition 6, on peut utiliser ici Xn =
i=0 i1{X=i} , ce qui
donne :

E(X) = lim E(Xn ) = lim


n+

n
X

n+

iP(X = i) =

i=0

P(X = i).

iN

 Si X est une variable alatoire densit, de densit f : R+ R+ , on a en utilisant la


Proposition 6

E(X) = lim

n+

2n 1
2X

k=0

k
P
2n

k
k+1
X<
2n
2n


= lim

n+

2n 1 Z
2X

k=0

R +

On pourra vrier titre d'exercice que la limite obtenue est 0


1.4.2

k+1
2n
k
2n

k
f (x)dx.
2n

f (x)dx.

Esprance d'une variable alatoire de signe quelconque et proprits

Soit X une variable alatoire prenant des valeurs relles. La partie positive de X est la
variable alatoire note X + dnie par

X + () =

X() si X() 0,
0 sinon.

Remarquons que X + = X1X0 . De mme la partie ngative X de X est dnie par X =


X1X0 . On peut voir que les variables alatoires X + et X sont valeurs positives et satisfont
les galits :

X = X + X ,

|X| = X + + X .

Dnition 11

On dit qu'une variable alatoire X : R est intgrable lorsque E (X + ) < +


et E (X ) < + (ce qui peut se rsumer par E (|X|) < +, voir la proposition suivante). Dans
ce cas, l'esprance de la variable alatoire X est dnie par


E(X) = E X + E X .
20

En utilisant la Proposition 6, on retrouve alors les formules dj connues de la moyenne pour des
variables alatoires discrtes ou densit (pouvant prendre des valeurs positives ou ngatives).
 Soit X une variable alatoire discrte valeurs relles et posons
val(X) = {x R : P(X = x) 6= 0} = {x1 , x2 , . . .},
qui est un sous-ensemble ni ou inni dnombrable de R. Alors, on peut montrer que

E X

xi 1xi >0 P (X = xi ) ,

i=1

E X

xi 1xi <0 P (X = xi ) .

i=1

De plus, on a les galits :


 X
|xi |P (X = xi ) ,
E X+ + E X =
i1

et la somme de cette srie correspond aussi E (|X|). Lorsque cette somme est nie,
l'esprance de X est donne par la formule

E(X) =

xi P (X = xi ) .

i=1

Il est important de rappeler que pour une srie termes positifs ou absolument convergente,
il est possible de sommer sans ambigut en utilisant une numration quelconque.
 Si X est une variable alatoire dont la loi a une densit f dnie sur R. Alors on trouve,

E X

Z
=

xf (x)dx,
0


E X =

xf (x)dx.

R +

Lorsque ces deux quantits sont nies, leur somme vaut |x|f (x)dx et concide avec
E (|X|). Si cette dernire intgrale est nie, alors l'esprance de X est donne par la formule

E(X) =

xf (x)dx.

On dnit galement l'esprance mathmatique des variables alatoires valeurs dans Rd .


Si X = (X1 , . . . , Xd ) et si les variables alatoires X1 , . . . , Xd sont intgrables, on dit que X est
intgrable et on dnit

E(X) = (E(X1 ), . . . , E(Xd )) .


On a alors les proprits suivantes :

Proposition 7

Soient X et Y deux variables alatoires valeurs relles ou bien toutes deux


positives ou bien toutes deux intgrables. Soit galement R.
1. La variable alatoire X est intgrable si et seulement si E (|X|) < +. De plus, on a
|E(X)| E (|X|) .
21

2. On a E (X + Y ) = E(X) + E(Y ) et E (X) = E(X) (proprits de linarit). En particulier X + Y est intgrable si X et Y sont intgrables.
3. Si pour tout , X() Y (), alors E(X) E(Y ).
4. Si P (X = Y ) = 1 alors E(X) = E(Y ).
5. Si X prend des valeurs positives, alors
E(X) = 0

P(X = 0) = 1.

Preuve.

 Montrons d'abord que E(X + Y ) = E(X) + E(Y ) lorsque X et Y sont valeurs positives
et ne prennent qu'un nombre ni de valeurs notes {x1 , . . . , xm } et {y1 , . . . , yp } respectivement. On peut alors crire

X=

m
X

xi 1X=xi =

i=1

p
m X
X

xi 1{X=xi ,Y =yj } .

i=1 j=1

En dcomposant aussi Y de cette faon, on peut crire

X +Y =

p
m X
X

(xi + yj ) 1{X=xi ,Y =yj } .

i=1 j=1

Par dnition de l'esprance applique aux variables discrtes X , Y et X + Y , on a

E (X + Y ) =
=

p
m X
X

i=1 j=1
p
m X
X

(xi + yj ) P (X = xi , Y = yj )
xi P (X = xi , Y = yj ) +

i=1 j=1

p
m X
X

yj P (X = xi , Y = yj )

i=1 j=1

= E(X) + E(Y ).
Considrons maintenant le cas de deux variables alatoires positives X et Y quelconques.
Soient alors deux suites croissantes (Xn )n et (Yn )n de variables alatoires de D+ et telles
que pour tout ,

lim Xn () = X(),

n+

lim Yn () = Y ().

n+

On voit que la suite Zn = Xn + Yn est une suite croissante d'lments de D+ telle que

lim Zn () = X() + Y ().

n+

Ainsi, en utilisant l'galit E(Zn ) = E(Xn ) + E(Yn ) que nous avons prouve juste avant,
on a par dnition de l'intgrale

E (X + Y ) = lim E(Zn ) = lim E(Xn ) + lim E(Yn ) = E(X) + E(Y ).


n

 Montrons ensuite le point 3.. Supposons d'abord 0 X Y . Soit (Xn )n (resp. (Yn )n )
une suite croissante d'lments de D+ telle que limn Xn = X (resp. limn Yn = Y ).
Alors si p N, on a Xp Y et le Lemme 2 guarantit que

E(Xp ) lim E(Yn ) = E(Y ).


n

En passant la limite sur p, on obtient E(X) E(Y ).


Si maintenant, X et Y sont de signe quelconque, alors X + Y + et Y X . D'aprs
ce qui a t montr juste avant, on a

E(X) = E(X + ) E(X ) E(Y + ) E(Y ) = E(Y ).


22

 Montrons ensuite que E(X + Y ) = E(X) + E(Y ) pour des variables alatoires X et Y
intgrables. On a (X + Y )+ X + + Y + et (X + Y ) X + Y ce qui entraine
l'intgrabilit de X + Y en utilisant l'intgrabilit de X et de Y ainsi que la linarit de
l'esprance pour les variables alatoires positives. On a alors les dcompositions


X + Y = (X + Y )+ (X + Y ) = X + + Y + X + Y ,
ce qui permet d'avoir

(X + Y )+ + X + Y = (X + Y ) + X + + Y + .
En prenant l'esprance dans cette galit et en utilisant la linarit de l'esprance pour les
variables alatoires positives, on trouve



E (X + Y )+ + E(X ) + E(Y ) = E (X + Y ) + E(X + ) + E(Y + ).
On obtient alors E(X + Y ) = E(X) + E(Y ).
 Montrons la n du point 2.. Si X D+ et R+ , alors on a videmment E(X) = E(X).
Si (Xn )n est une suite croissante d'lments de D+ convergeante point par point vers X
alors (Xn )n est une suite croissante d'lments de D+ convergeante point par point vers
X . On en dduit

E(X) = lim E(Xn ) = lim E(Xn ) = E(X).


n

Si maintenant 0 et X est de signe quelconque (avec X intgrable) alors

X = X + X
et on a d'aprs ce qui prcde

E(X) = E(X + ) E(X ) = E(X).


On a le mme rsultat lorsque < 0 en crivant X = ()X ()X + (= (X)+
(X) ) et en appliquant les rsultats dj tablis.
 Prouvons maintenant le point 1. Alors l'intgrabilit de X quivaut celle de |X| car
|X| = X + + X est intgrable si et seulement si X + et X sont intgrables. On a alors

|E(X)| = |E(X + ) E(X )| E(X + ) + E(X ) = E(|X|).


 Prouvons ensuite le point 5. Supposons d'abord que E(X) = 0. Alors pour tout entier
n 1,

1
X X1X 1 1X 1 .
n
n
n

Le point 3. assure que 0 = E(X) n1 P X n1 . En utilisant la continuit suprieure de
la mesure, on obtient

1
P(X > 0) = lim P X
n+
n


=0

et donc P(X = 0) = 1 P(X > 0) = 1.


Si maintenant P(X = 0) = 1, alors toute variable alatoire Y de D+ plus petite que
X vrie P(Y = 0) = 1. Il sut alors de prouver que P
E(Y ) = 0 (ce qui entrainera
E(X) = 0 en utilisant la dnition de l'esprance). Si Y = pi=1 yi 1Y =yi alors on a yi = 0
si P(Y = yi ) > 0. On a donc bien E(Y ) =

p
X
i=1

23

yi P(Y = yi ) = 0.

 Prouvons enn le point 4. Si Y = 0 et X D+ alors le rsultat est une consquence du point


5. Si maintenant Y = 0 et et X est intgrable de signe quelconque, alors P (X + = 0) =
P (X = 0) = 1. On a donc E(X) = E(X + ) E(X ) = 0. Enn si X et Y sont deux
variables alatoires intgrables, on a en notant A = {X 6= Y } l'galit
X Y = (X Y )1A = Z avec P(Z = 0) = 1. D'aprs ce qui prcde, on a E(X Y ) =
E(X) E(Y ) = 0 ce qui entraine que E(X) = E(Y ).

Remarques.

 Soient m et M deux nombres rels. La proposition prcdente montre en particuler que si


X est une variable alatoire intgrable telle que X M (resp. X m) alors E(X) M
(resp. E(X) m).
 Commentons le point 4. Dire que P(X = Y ) = 1 ne signie pas que X() = Y () pour
tout . Par exemple, considrons = [0, 1] muni de la probabilit uniforme. Posons
X() = et Y () = si 6= 0.5, Y (0.5) = 0. Dans ce cas P(X = Y ) = P ([0, 1] \ {0.5}) =
1 et pourtant X(0.5) 6= Y (0.5). Souvent on dit que X = Y presque srement (en abrg
p.s). Ainsi la valeur de l'esprance est inchange si on remplace une variable alatoire X
par une variable Y qui lui est presque srement gale.

La variance d'une variable alatoire X valeurs relles relle mesure la dispersion de X


autour de sa moyenne. Nous rappelons sa dnition.

Dnition 12

Lorsque une variable alatoire X vrie E(X 2 ) < + alors la variance de X


est le rel positif not Var (X) et dni par

Var (X) = E (X E(X))2 = E(X 2 ) (E(X))2 .
On peut vrier la deuxime galit de la dnition prcdente en dveloppant le carr et en
utilisant les proprits de linarit de l'intgrale. Noter que E(X 2 ) < entraine que X est
intgrable : en eet, on a l'ingalit |X| 1 + X 2 et donc

E(|X|) 1 + E(X 2 ) < .


Mentionnons enn que Var (X) = 0 entraine (X E(X))2 = 0 p.s en utilisant le point 5. de la
proposition prcdente. On en dduit facilement que X = E(X) presque srement.

24

Chapitre 2
Indpendance. Variables alatoires
discrtes

Dans tout ce chapitre, on suppose donn un espace probabilis (, A, P).


2.1

Indpendance entre variables alatoires

Dnition 13

Des variables alatoires X1 , X2 , . . . , Xn valeurs dans Rd1 , Rd2 , . . . , Rdn respectivement sont dites indpendantes si
P (ni=1 {Xi Ai }) =

n
Y

P (Xi Ai ) ,

i=1

pour tout (A1 , . . . , An ) B Rd1 B Rdn .




Nous utiliserons souvent la notation

P (X1 A1 , . . . , Xn An ) = P (ni=1 {Xi Ai })


dans la suite. On dnit galement l'indpendance d'une famille quelconque de variables alatoires (de cardinal inni) : une telle famille est dite indpendante si toute sous-famille nie est
indpendante au sens de la dnition ci-dessus.

Remarques
1. Rappelons que de faon gnrale, nous qualions une variable alatoire X : Rd de
discrte lorsque P(X E) = 1 o E est un sous-ensemble ni ou inni dnombrable de
Rd . Pour une variable alatoire X discrte, rappelons la notation
val(X) =

n
o
x Rd /P(X = x) 6= 0 ,

qui est un sous-ensemble ni ou inni dnombrable de Rd . Considrons alors n variables


alatoires discrtes X1 , . . . , Xn . Dans ce cas, on peut montrer que les variables alatoires
X1 , . . . , Xn sont indpendantes si et seulement si

P (X1 = x1 , . . . , Xn = xn ) =

n
Y

P (Xi = xi ) ,

i=1

25

(x1 , . . . , xn ) val(X1 ) val(Xn ).

2. Si n variables alatoires sont indpendantes alors ces variables alatoires sont indpendantes deux deux. Pour le voir il sut de poser Ai = Rdi pour tous les indices i correspondants aux n 2 variables alatoires restantes. En revanche, il faut bien garder l'esprit
que n variables alatoires indpendantes deux deux ne sont pas indpendantes au sens
de la Dnition 13. On pourra vrier en exercice que si X1 et X2 sont deux variables
alatoires discrtes indpendantes et de mme loi donne par

P(X1 = 1) = 1 P(X1 = 1) = P(X2 = 1) = 1 P(X2 = 1) =

1
2

et X3 = X1 X2 alors les variables alatoires X1 , X2 , X3 sont indpendantes deux deux


mais pas au sens de la Dnition 13.

Exemple.

Posons = {1, 2, . . . , N } muni de la probabilit uniforme, c'est dire P ({}) =


1
. Alors les applications coordonnes X1 : 7 1 et X2 : 7 2 sont des variables alatoires
N2
indpendantes et de mme loi uniforme sur l'ensemble 0 = {1, 2, . . . , N }.

Existence d'un

nuplet

de variables alatoires indpendantes et de lois donnes.

On peut justier leur existence en utilisant la notion de mesure produit. Pour 1 i n, soit
(i , Ai , Qi ) un espace probabilisable. Notons = 1 d et munissons de la tribu
produit A (voir Chapitre 1). Alors nous admettrons le rsultat suivant

Proposition 8

telle que

Sur l'espace probabilisable (, A), il existe une unique mesure de probabilit P


P (A1 A2 An ) = Q1 (A1 ) Q2 (A2 ) Qn (An ) ,

pour Ai Ai , 1 i n. On dit que P est une mesure produit.


Donnons un exemple. Il s'agit de la mesure de probabilite uniforme sur = I1 I2 o I1 et I2
sont deux intervalles ferms borns de R. Si pour i = 1, 2, Ai = B(Ii ) et Qi est la mesure de
probabilit uniforme sur (Ii , Ai ), alors la mesure produit P est appele mesure de probabilit
uniforme sur . On peut alors montrer que si A A et x Rd sont tels que x + A A,
alors P(x + A) = P(A) (invariance par translation, ce qui justie le caractre uniforme). P(A)
s'interprte comme le quotient entre l'aire de A et l'aire de .
Voyons maintenant pourquoi ce rsultat permet de construire n variables alatoires X1 , . . . , Xn
indpendantes et de lois respectives Q1 , . . . , Qn . Si pour 1 i n, Qi est une mesure de
probabilit sur Rdi , posons

= Rd1 Rdn
= Rd1 +...+dn .


Soit A la tribu produit des tribus borliennes B Rd1 , . . . , B Rd1 (tribu qui concide en fait
avec la tribu borlienne sur ). Soit alors P est la mesure produit correspondante et posons
Xi () = i Rdi pour (i, ) {1, . . . , d} . Alors les variables alatoires X1 , . . . , Xn sont
indpendantes sous la 
probabilit P et sont bien de lois respectives Q1 , . . . , Qn . En eet si pour
1 i n, Ai B Rdi alors
P (X1 A1 , . . . , Xn An ) = P (A1 An ) =

n
Y
i=1

Qi (Ai ) =

n
Y

P (Xi Ai ) .

i=1

Il existe un rsultat similaire (mais un peu plus compliqu) qui guarantit l'existence de suites
de variables alatoires indpendantes et de lois donnes (plus prcisment il existe un espace
probabilis sur lequel sont dnies une innit de variables alatoires indpendantes et de lois
donnes). Nous admettrons l'existence de ce type de construction dans ce cours.
26

Notation.

Pour une suite de variables alatoires indpendantes et telle que toutes les variables
alatoires aient la mme loi, on dira que la suite est indpendante et identiquement distribue, ce qui sera not en abrg i.i.d.

Etudions maintenant les proprits des variables alatoires indpendantes.

Proposition 9

Pour 1 i n, soient Xi une variable alatoire valeurs dans Rdi et fi : Rdi


une fonction qui dnit galement une variable alatoire lorsque Rdi est muni de sa tribu
borlienne. Supposons les variables alatoires X1 , . . . , Xn indpendantes et posons Yi = f (Xi )
pour 1 i n. Alors les variables alatoires Y1 , . . . , Yn sont galement indpendantes.
Rei

Preuve.

Il sut de remarquer l'galit



{Yi Bi } = Xi f 1 (Bi ) ,
pour 1 i n et pour tout borlien Bi . On applique ensuite la dnition 13 aux borliens
Ai = f 1 (Bi ), 1 i n.

Une consquence fondamentale de l'indpendance entre variables alatoires concerne le calcul


de l'esprance du produit de variables alatoires relles indpendantes.

Proposition 10

Soient X1 , . . . , Xn des variables alatoires indpendantes, toutes valeurs


relles. Alors le produit X1 Xn est intgrable si et seulement si les variables alatoires X1 , . . . , Xn
sont intgrables. Dans ce cas, on a la formule
E (X1 X2 Xn ) =

n
Y

E (Xi ) .

i=1

Preuve.

On peut le montrer pour deux variables alatoires X et Y , le cas gnral s'en dduisant facilement par rcurrence nie. Commenons par prouver ce rsultat lorsque X et Y sont
positives (dans ce cas, les esprances ont toujours un sens). Posons pour n N,

Xn =

2n 1
2X

k=0

k
1 k
k+1 ,
2n { 2n X< 2n }

Yn =

2n 1
2X

k=0

k
1 k
k+1 .
2n { 2n Y < 2n }

On a vu au chapitre prcdent que la suite (Xn )nN est une suite croissante de variables alatoires
positives ne prenant qu'un nombre ni de valeurs et convergeante point par point vers X .
Ainsi la suite (Zn )nN de variables alatoires dnie par Zn = Xn Yn pour tout n N est
aussi une suite croissante de variables alatoires positives ne prenant qu'un nombre ni de
valeurs et convergeante point par point vers Z = XY . D'autre part, il est facile de vrier que
E(Xn Yn ) = E(Xn )E(Yn ) pour tout n N, en utilisant l'indpendance de X et de Y . Ainsi la
dnition de l'esprance d'une variable alatoire positive assure que

E(Z) = lim E(Xn Yn ) = lim E(Xn )E(Yn ) = E(X)E(Y ).


n

Nous avons donc montrer la proposition pour deux variables alatoires indpendantes positives.
Dans le cas gnral, si X et Y sont indpendantes alors |X| et |Y | le sont galement et on a
d'aprs ce qui prcde

E (|XY |) = E (|X|) E (|Y |) .


27

Ceci prouve que la variable alatoire XY est intgrable si et seulement si les variables alatoires
X et Y le sont. La formule pour le calcul de l'esprance de XY se dduit alors facilement, en
utilisant les dcompositions

X = X + X ,

Y = Y + Y .

En eet la partie positive ou ngative de X est indpendante de la partie positive ou ngative


de Y , d'aprs la Proposition 9. Ainsi en utilisant le rsultat de la proposition pour les variables
alatoires positives, on obtient





E(XY ) = E X + Y + + E X Y E X + Y E X Y +








= E X+ E Y + + E X E Y E X+ E Y E X E Y +




= E X+ E X
E Y+ E Y
= E(X)E(Y ).

On peut dduire du rsultat prcdent une formule bien connue pour le calcul de la variance
de la somme de n variables alatoires indpendantes relles.

Corollaire 1

Soient X1 , . . . , Xn des variables alatoires indpendantes, toutes valeurs relles


et de carr intgrable. Alors
Var (X1 + . . . + Xn ) =

n
X

Var (Xi ) .

i=1

Preuve.

En posant Yi = Xi E (Xi ) pour 1 i n, on a

Var (X1 + . . . + Xn )


= E (Y1 + . . . Yn )2
n
X
 X
=
E Yi2 +
E (Yi Yj )
=

i=1
n
X
i=1
n
X

i6=j


E Yi2 +

E (Yi ) E (Yj )

i6=j

E Yi2

i=1

n
X

Var (Xi ) .

i=1

Ces galits proviennent du fait que pour 1 i n, la variables alatoire Yi est centr, de carr
intgrable et indpendante Yj lorsque j 6= i.

2.2
2.2.1

Les variables alatoires discrtes


Les lois discrtes usuelles en modlisation

La loi de Bernoulli de paramtre


une loi de Bernoulli de paramtre p si

p (0 < p < 1). On dit qu'une variable alatoire X suit

P(X = 1) = 1 P(X = 0) = p.
28

On utilise la notation X B(p) pour indiquer que X suit cette loi. On peut ramarquer que
p = E(X) et Var (X) = p(1 p). Cette loi intervient donc systmatiquement lorsqu'il y a
deux ventualits dans l'exprience considre (jeu de pile ou face, individu sain ou malade,...).
Remarquons galement que pour tout venement A A, la variable alatoire 1A suit une loi de
Bernoulli de paramtre P(A).

Loi binomiale.

On dit que X suit une loi binomiale de paramtres n et p (n N et p ]0, 1[)

lorsque

 
n k
P(X = k) =
p (1 p)nk ,
k
o

 
n
=
k

n!
k!(nk)! .

k = 0, 1, . . . , n,

La loi binomiale est aussi la loi d'une somme X1 + X2 + . . . + Xn de n

variables alatoires indpendantes, toutes de loi de Bernoulli de paramtre p. Cette loi sert
modliser le nombre de succs lors de la rptition de n expriences successives et identiques
(e.g n lancers successifs d'une pice de monnaie, on peut aussi y avoir le nombre de rponses
un sondage donn...). L'esprance de cetta loi vaut de E (X1 + . . . + Xn ) = np et d'aprs le
Corollaire 1, la variance de cette loi est Var (X1 + . . . + Xn ) = np(1 p).

Loi de Poisson de paramtre

> 0. On note X P() pour indiquer que la loi d'une

variable alatoire X est dnie par

P(X = k) = exp()

k
,
k!

k N.

La loi de Poisson approxime bien les expriences impliquant des problmes de comptage (e.g
nombre de connexions un serveur entre deux instants), en particulier pour des venements
rares (e.g nombre de suicides par an). Si par exemple on compte le nombre de pices dfectueuses
produites par une machine avec un nombre n de pices produites importantes et une proportion
p de pices dfectueuses petite alors la loi de Poisson approxime bien
la loi binomiale. En eet,
 
on peut montrer que lorsque n +, p 0 et np , le nombre

n k
p (1p)nk s'approche
k

de exp() k! pour k N x.


On a E(X) = Var (X) = si X P().

La loi uniforme.

On dit qu'une variable alatoire X suit une loi uniforme si X() =

{x1 , . . . , xn } Rd et
P(X = xk ) =

1
,
n

k = 1, . . . , n.

On peut par exemple montrer que si on essaie d'ouvrir une porte l'aide de n clefs en choisissant
d'abord une clef au hasard puis une clef au hasard parmi les n1 restantes (si la premire n'ouvre
pas la porte) et ainsi de suite jusqu' ce que la porte soit ouverte, alors la loi du nombre de clefs
utilises suit la loi uniforme sur {1, . . . , n}.
L'esprance d'une variable alatoire X de loi uniforme sur {1, . . . , n} est E(X) = n+1
2 et sa
2 1
variance est Var (X) = n 12
.

Loi gomtrique de paramtre

p ]0, 1[. Il s'agit de la loi du temps de premier succs


dans une suite d'expriences alatoires indpendantes o la probabilit de succs est p. Plus
prcisment, considrons une suite (Xi )i1 de variables alatoires i.i.d suivant toutes la loi B(p).
Alors la variable alatoire
T = inf {i 1/Xi = 1}
29

a sa loi dnie par

P(T = k) = P (X1 = 0, . . . , Xk1 = 0, Xk = 1) = (1 p)k1 p,

k N .

1p

L'esprance vaut E(T ) = p1 et la variance vaut Var (X) = p2 .

La loi hypergomtrique.

Considrons une population compose de N individus parmi


lesquels une proportion p possde un caractre donn. Si on tire au hasard n N individus
dans la population, alors le nombre alatoire X d'individus possdant le caractre envisag
vrie
 


P(X = k) =

Np
k

N Np
nk
 
,
N
n

pour max(0, n N + N p) k min(n, N p). Pour dcrire rigoureusement cette exprience,


on peut considrer l'univers de tous les nuplets contenant uniquement des 0 et des 1 avec
la contrainte que le nombre de 0 soit plus petit que N N p et le nombre de 1 soit plus petit
que N p. On munit alors de l'ensemble de ses parties et de la probabilit uniforme et on pose
P
X() = ni=1 1i =1 si .
n
On peut montrer que E(X) = np et Var (X) = N
N 1 np(1 p) si X H(N, n, p) (notation pour
la loi hypergomtrique). Lorsque N devient grand, on peut aussi montrer que la loi de X est
proche de la loi binomiale de paramtres n et p.

La loi binomiale ngative.

On dit qu'une variable alatoire X suit une loi binomiale ngative


de paramtres n N et p ]0, 1[ si


k1 n
p (1 p)kn ,
P(X = k)
kn


k = n, n + 1, . . . .

On remarquera que lorsque n = 1, on retrouve la loi gomtrique de paramtre p. On peut


aussi reprsenter cette loi l'aide d'une suite (Xi )i1 i.i.d de variables alatoires toutes de loi
de Bernouilli de paramtre p. On dnit alors T0 = 0 et les temps T1 , . . . , Tn par la relation

Ti+1 = inf {j > Ti /Xj = 1} ,

i = 0, . . . , n 1.

On peut alors montrer que les variables alatoires T1 , T2 T1 , . . . , Tn Tn1 sont indpendantes et
toutes de loi gomtrique de paramtre p et que leur somme Tn a la mme loi que X (il s'agit donc
Pn1
de la loi du nime temps de succs). On en dduit facilement que E (X) =
i=0 E (Ti+1 Ti ) =
n
et
p
Var (X) =

n1
X

Var (Ti+1 Ti ) =

i=0

2.3

n(1 p)
.
p2

Loi d'un couple. Loi marginale

 Si X et Y sont deux variables alatoires discrtes valeurs dans E = Rd et F = Re


respectivement, alors la variable alatoire U = (X, Y ) est aussi une variable alatoire
discrte, valeurs dans E F . En gnral, la loi de U n'est pas uniquement dtermine
par les lois des variables alatoires X et Y . Prenons un exemple. Si X B(p), posons
30

Y1 = 1 X et Y2 = X . Alors Y1 et Y2 suivent des lois de Bernoulli de paramtre p. En


revanche la loi du couple (X, Y1 ) ne concide pas avec celle du couple (X, Y2 ) car
1
et P(X = 0, Y2 = 1) = 0.
2
Par contre les lois de X et de Y dterminent la loi du couple (X, Y ) lorsque les deux
P(X = 0, Y1 = 1) = P(X = 0) =

variables sont indpendantes grce aux galits

P(X = x, Y = y) = P(X = x)P(Y = y),

(x, y) E F.

 Si U = (X, Y ) est une variable alatoire discrte valeurs dans E F alors les lois des
variables alatoires X et Y sont appeles les lois marginales de U . On peut les calculer
partir de la loi du couple en utilisant les galits :

P(X = x) =

P(X = x, Y = y),

P(Y = y) =

yval(Y )

2.4

P(X = x, Y = y).

xval(X)

Le thorme de transfert

Nous allons d'abord noncer un rsultat pratique lorsque on somme des termes indexs
l'aide de deux paramtres.

Thorme 2

(Thorme de Fubini pour les suites)


 Si {ui,j /i, j 1} est une famille de nombres rels positifs, alors on a

!
+ X
+
+ X
+
X
X

ui,j =
ui,j .
i=1

j=1

j=1

(2.1)

i=1

Il se peut que ces deux sommes aient pour valeur +.


 Si {ui,j /i, j 1} est une
de nombres rels de signe quelconque et si l'une des quan famille

P+ P+
P+ P+
tits i=1
i=1 |ui,j | est nie (ces deux quantits sont toujours
j=1 |ui,j | ou
j=1
gales d'aprs le premier point), alors l'galit 2.1 est encore vraie.
Ce thorme est de porte assez gnrale. Toutefois, il peut arriver que l'inversion des signes
1
somme ne soit pas possible : le cas de la suite u dnie par ui,j = i2 j
2 si i 6= j et ui,i = 0 pour
tous i et j entiers plus grands que 1 fournit un contre-exemple.

Remarque.

L'esprance mathmatique d'une variable alatoire discrte X intgrable est donne par la formule :
X

E(X) =

xP(X = x).

xval(X)

Lorsque val(X) est inni dnombrable mais n'est pas l'ensemble des entiers naturels N (par
exemple Z), on peut toujours lister les lments de val(X) l'aide d'une suite quelconque, la
valeur de la somme prcdente ne dpendra pas de la suite choisie. En eet les sries positives
ou absolument convergente peuvent tre sommes indpendamment de l'numration choisie
(par exemple 0, 1, 1, 2, 2, 3, 3, . . . et 0, 1, 2, 1, 2, 3, 4, 3, 4, . . . sont deux numrations
direntes de Z).
Le thorme de transfert (ici nonc pour les variables discrtes) permet de calculer l'esprance d'une variable alatoire du type Y = f (X) en utilisant la loi de X uniquement (ce qui
vite de calculer la loi de Y ).
31

Thorme 3

Soient X une variable alatoire discrte telle que val(X) = {x1 , x2 , . . .} et f :


val(X) R une fonction telle que E (|f (X)|) < +. Alors on a la formule :
E (f (X)) =

+
X

f (xi )P(X = xi ).

i=1

Preuve.

Par hypothse, la variable alatoire Y = f (X) est intgrable et vrie F = val(Y ) =


{y1 , y2 , . . .} de R (F est donc compos des rels f (xj ), j N ).
Supposons d'abord f positive. D'aprs la formule de l'esprance pour une variable alatoire
disrte, on a :

E(Y ) =

yj P(Y = yj ).

j1

Mais on a l'galit entre venements : {Y = yj } =


la formule


X f 1 ({yj }) pour j 1. Comme on a

+
 X
P X f 1 ({yj }) =
1f 1 ({yj }) (xi )P(X = xi ),
i=1

on obtient en reportant dans l'expression de E(Y ) :

E(Y ) =

X
j1

yj

+
X

1f 1 ({yj }) (xi )P(X = xi ).

i=1

On peut utiliser le thorme de Fubini pour inverser les sommes (les termes sont positifs), ce
qui donne

E(Y ) =

+
X

P(X = xi )

i=1

yj 1f 1 ({yj }) (xi ).

j1

Enn, on remarque que


j1 yj 1f 1 ({yj }) (xi ) = f (xi ), ce qui prouve le thorme lorsque f est
positive.
Lorsque f est de signe quelconque, on reproduit exactement le calcul prcdent jusqu'au passage
de l'inversion des deux signes sommes. Cette inversion se justie l'aide du thorme de Fubini
pour les termes de signe quelconques : en eet, si on considre la fonction g = |f |, le premire
partie de la preuve appliqu Y = g(X) montre que l'hypothse de sommabilit

+
X
i=1

P(X = xi )

yj 1g1 ({yj }) (xi ) = E(g(X)) = E(|f (X)|) < +

j1

est bien vrie pour pouvoir appliquer le thorme de Fubini.


2.5

Les lois conditionnelles

Dnition 14

Soit X et Y un couple de variables alatoires discrtes valeurs dans Rd et Re


respectivement. Si y val(Y ), on dnit une loi de probabilit discrte Qy sur les parties de
val(X) telle que
P(X = x, Y = y)
Qy ({x}) =
,
x val(X).
P(Y = y)
Qy est appel loi conditionnelle de X sachant Y = y (en abrg loi de X|Y = y ). On note
P(X = x|Y = y) au lieu de Qy ({x}).
32

P(X = x|Y = y) correspond la probabilit conditionnelle P(A|B) des venements A =


{X = x} et B = {Y = y} :
P(A B)
P(A|B) =
.
P(B)
Cette dnition de la loi conditionnelle est en accord avec l'intuition de l'approche frquentiste. Si
on reptait plusieurs fois une exprience alatoire ayant un nombre ni d'issues (u, v) et qu'on
veuille tudier l'inuence d'une valeur v = y sur une valeur u = x, il est naturel de calculer
la frquence d'appartion de la valeur x lorsque y est galement observe. Ceci revient alors
f
calculer le quotient f2 o f1 est la frquence d'apparition de y et f2 la frquence d'apparition
1
de (x, y). D'o la dnition de la probabilit conditionnelle l'aide du quotient des probabilits
correspondantes. On pourra remarquer que lorsque les variables alatoires sont indpendantes
alors la loi conditionnelle de X|Y = y concide avec la loi de X .

Notation.

La moyenne de la loi conditionnelle X|Y = y sera note E (X|Y = y). On a donc

E (X|Y = y) =

xP (X = x|Y = y) ,

xval(X)

qui sera bien dnie lorsque

|x|P (X = x|Y = y) < +.

xval(X)

Proposition 11

Si (X, Y ) est un couple de variables alatoires discrtes tel que X soit intgrable, alors on a la formule
X
E(X) =
E (X|Y = y) P(Y = y).
yval(Y )

Preuve.

A faire en exercice en utilisant la dnition prcdente et le thorme de Fubini.

Exemple de calcul.

Entre deux instants donns, des vhicules arrivent un carrefour en


nombre poissonien Y . Chaque vhicule prend alors sur sa droite ou sur sa gauche avec probabilit
1
2 , et chacun le fait indpendamment des autres. Soit X le nombre de vhicules qui on choisit
de continuer sur leur gauche. On souhaite calculer E(X) (nombre moyen de vhicules ayant pris
sur la gauche). Dans cet exemple, on considrera que
 La loi de X est le loi de Poisson de paramtre > 0.
 Le couple (X, Y ) est tel que la loi de X|Y = y est une loi binomiale de paramtres y et 21 .
y
On a alors E (X|Y = y) = 2 et

E(X) =

Xy
yN

exp()

33

y
1

= E(Y ) = .
y!
2
2

34

Chapitre 3
Mesures et intgration

Lorsque nous avons abord les mesures de probabilit densit, nous avons mentionn que
pour une fonction f : R R+ intgrable et d'intgrale 1, il existait une unique mesure de
probabilit P sur (R, B(R)) telle que pour tout couple de nombres rels (a, b) tel que a b

f (x)dx.

P ([a, b]) =
a

Il est alors
R naturel de se demander si cette mesure de probabilit peut tre dnie par l'galit
P(B) = B f (x)dx pour tout borlien B . Malheureusement, l'intgrale classique (intgrale de
Riemann) ne permet de donner un sens ce type d'galit pour tous les borliens B . Il existe une
autre manire de dnir l'intgrale d'une fonction et qui permet d'crire ce type d'galit. Il s'agit
de l'intgrale au sens de Lebesgue qui permet d'intgrer des fonctions beaucoup plus irrgulires
que la mthode de Riemann. De plus lorsque on intgrera une fonction continue ou continue par
morceaux sur un intervalle ferm born, les deux mthodes d'intgration concideront ; l'intgrale
de Lebesgue apparaitra donc comme plus gnrale. Initialement, l'intgrale de Lebesgue a t
introduite an de faciliter certains des passages la limite du type

Z
lim

Z
fn (x)dx =

lim fn (x)dx,

en particulier lorsque la suite de fonctions (fn )n est une suite croissante de fonctions positives.
Un problme dans l'utilisation de l'intgrale de Riemann rside dans le fait qu'une limite simple
de fonctions intgrables n'est pas forcment intgrable (et ce mme si toutes les fonctions sont
dnies sur [0, 1] et valeurs dans [0, 1] par exemple). L'intgrale au sens de Lebesgue permet de
corriger ce type de problme. Sa construction est base sur la thorie de la mesure et la dnition
de l'esprance des variables alatoires vue au Chapitre 1 est en fait un cas particulier de cette
construction.
3.1

Mesure sur une tribu

Dnition 15

Soit E un ensemble et E une tribu sur E . Une application : E R+ {+}


est appele une mesure si
1. () = 0
2. Pour toute suite (An )nN d'lments de E , disjoints deux deux, on a
X
(nN An ) =
(An )
nN

(proprit de additivit).
35

Toute mesure de probabilit est donc une mesure (la proprit d'additivit peut tre vue comme
un cas particulier de la proprit de additivit en compltant une suite nie d'lments d'une
tribu par l'lment ). On peut remarquer que la proprit P() = 1 a t remplac par la
proprit () = 0. Pour la notion gnrale de mesure, la valeur (E) peut tre positive quelconque et ventuellement innie. Une mesure de probabilit est donc simplement une mesure
dont la masse totale (E) est gale 1. On peut montrer que les proprits de la Proposition
3 du Chapitre 1 restent vraies pour une mesure en gnral, sauf pour la premire qui devient
(A) + (Ac ) = (E). De plus la Proposition 4 reste valable en rajoutant (A0 ) < + pour le
deuxime point.

Exemple des mesures discrtes.

Soit (pn )nN une suite de nombres rels positifs et (xn )nN
une suite de points de Rd . Alors l'application : P(Rd ) R+ {+} dnie par

(A) =

+
X

pn 1A (xn ),

 
A B Rd ,

n=0

est une mesure (la preuve est identique celle donne pour les mesures de probabilit discrte du
P+
Chapitre 1). Comme pour x Rd et A P(Rd ), on a 1A (x) = x (A), on note =
n=0 pn xn .
Dans le cas particulier o pn = 1 pour tout n N, on parle de mesure de comptage sur l'ensemble
D = {x0 , x1 , . . .} car dans ce cas

(A) = |A D|,

A P(Rd ).

La mesure de A est simplement le nombre d'lments de D qui se trouvent aussi dans A. Un cas
particulier important est celui de la mesure de comptage sur N.
Lorsque la suite (pn )nN est sommable et de somme 1, on retrouve les mesures de probabilits
discrtes.

La mesure de Lebesgue
Thorme 4
que

Sur R muni de la tribu des borliens, il existe une unique mesure note telle
([a, b]) = b a,

a < b.

Cette mesure est appele mesure de Lebesgue sur R.


La mesure de Lebesgue correspond une mesure de longeur et (B) est souvent appel la
longueur du borlien B . Comme on le verra, on peut construire n'importe quelle mesure de
probabilit densit partir de la mesure de Lebesgue uniquement. Notons que ({a}) = 0.
On a aussi les galits

([a, b[) = (]a, b[) = b a.


De plus, en utilisant les proprits de base d'une mesure, on peut voir que si I est un intervalle
non born, alors (I) = +. En particulier (R) = +.
3.1.1

Les mesures de Lebesgue-Stieltjes

Cet exemple gnralise la plupart des mesures sur R vues jusqu' prsent. Considrons une
fonction F : R R+ croissante et continue droite.
36

Thorme 5

Il existe une unique mesure F sur R muni de la tribu des borliens telle que
F (]a, b]) = F (b) F (a),

a < b.

Remarquons que si F (x) = x, on retrouve la mesure de Lebesgue. Remarquons que si a < b, on


a en utilisant la continuit infrieure de la mesure






1
1
= F (b) F a ,
F ([a, b]) = lim F ]a , b] = lim F (b) F a
n+
n+
n
n
o F (a ) dsigne la limite gauche de F au point a. Ainsi F ({a}) = F (a) F (a ), quantit
qui vaut 0 si F est continue. Donnons deux exemples fondamentaux.
 Pour une suite (pn )n de rels positifs sommable et une suite (xn )n de nombre rels distincts,
posons

F (x) =

+
X

1xn x pn ,

x R.

n=0

On peut vrier que F est continue droite (et bien sr croissante). L'unicit du Thorme
P+
5 entraine que la mesure F et la mesure discrte
n=0 pn xn concident sur B(R).
 Pour une fonction f : R R+ intgrable (au sens de Riemann), la fonction F dnie par

F (x) =

f (z)dz,

xR

est continue droite. Lorsque f est d'intgrale 1, La mesure F correspond alors la


mesure de probabilit densit f .
En probabilit, on a un lien entre les mesures de Lebesgue-Stieljes et la notion de fonction
de rpartition d'une variable alatoire.

Dnition 16

Soit X une variable alatoire valeurs relles, dnie sur un espace probabilis
(, A, P). La fonction F dnie par
F (x) = P (X x) ,

x R,

est une fonction continue droite appele fonction de rpartition.


Notons que F (x) = PX (] , x]). Ainsi les proprits des mesures (appliques ici la mesure
PX ) entraine que F est bien croissante et continue droite et que

lim F (x) = 0,

lim F (x) = 1.

x+

Nous reparlerons de ces proprits lors du Chapitre 5. Ainsi, si X est une variable alatoire
valeurs relles, alors PX est la mesure de Lebesgue-Stieljes associe F . On a alors la proprit
suivante.

Proposition 12

1. Soit fonction F , croissante et continue droite telle que limx F (x) =


0 et limx+ F (x) = 1. Alors F est la fonction de rpartition d'une mesure de probabilit
(et donc d'une variable alatoire).

2. Deux variables alatoires valeurs relles dont les fonctions de rpartition sont gales ont
la mme loi. La fonction de rpartition caractrise donc compltement la loi d'une variable
alatoire.
37

Preuve.
1. Soit P = F la mesure de Lebesgue-Steljes associe F . D'aprs la proprit de contimuit
suprieure de P , on a

P(R) = lim (F (n) F (n)) = 1


n+

et donc P est une mesure de probabilit. En posant X() = pour , on a

P (X x) = F (x) lim F (n) = F (x),


n+

x R.

Ainsi F est la fonction de rpartition de la variable alatoire X .


2. Supposons que deux variables alatoires X et Y aient la mme fonction de rpartition F .
Alors PX = PY = F et donc X et Y ont la mme loi.
3.1.2

Un exemple qui heurte l'intuition : l'escalier de Cantor

On pourrait penser qu'il n'est pas possible de rejoindre le point (0, 0) au point (1, 1) l'aide
d'une fonction croissante et continue qui n'est strictement croissante sur aucun sous-intervalle
de [0, 1], aussi petit soit-il. Et pourtant...
On construit une suite de fonctions (Fn )n dnies sur [0, 1] et valeurs dans [0, 1] de la faon
suivante. On pose F0 (x) = x pour tout x [0, 1]. On construit ensuite F1 en divisant l'intervalle
[0, 1] en trois. Sur [0, 1/3], F1 est ane et vrie F1 (0) = 0 et F1 (1/3) = 1/2. Sur [1/3, 2/3],
F1 vaut 1/2. Enn F1 est ane sur l'intervalle [2/3, 1] (voir Figure 3.1). On itre ensuite ce
procd : on divise tout intervalle I o Fn est ane et la fonction Fn+1 sera ane par morceaux
max (F )+min (F )

n
n
I
I
sur cet intevalle, constante et gale la valeur
sur l'intervalle du milieu (voir
2
la courbe de F2 sur la Figure 3.2). Plus formellement, on a pour x [0, 1] et n N :

1
1
1
Fn+1 (x) = Fn (3x)1[0, ](x) + Fn (3x)1] 1 , 2 ] (x) +
3 3
2
3
2


1 1
+ Fn (3 2x) 1[ 2 ,1] (x),
3
2 2

ce qui permet d'obtenir la borne

sup |Fn+1 (x) Fn (x)|


x[0,1]

1
.
2n

On peut alors montrer que la suite de fonctions (Fn )n converge uniformment sur [0, 1] vers
une fonction F qui sera ainsi croissante et continue sur [0, 1]. Par contre, il n'existe aucun
sous-intervalle de [0, 1] sur lequel F est strictement croissante. On peut voir sur la Figure 3.3
la courbe de l'approximation F10 de F . En prolongeant F par 0 sur les rels ngatifs et par
1 sur [1, +[, on obtient une fonction de rpartition sur R. Le complmentaire de la runion
des intervalles o F est constante est appel l'ensemble de Cantor C(3). On peut montrer que
C(3) est non dnombrable. De plus, C(3) est un borlien de mesure de Lebesgue nulle (voir
ci-aprs), ce qui fournit un exemple d'ensemble non dnombrable mais de longueur nulle (un
ensemble dnombrable tant forcment de mesure de Lebesgue nulle par additivit). Aussi la
mesure de probabilit F associe F n'admet pas d'atome (F ({x}) = 0 pour tout x car F est
continue) mais n'admet pas de densit non plus (voir un peu plus loin, on peut dj constater
que F 0 (x) = 0 si x C(3)c ) !
En modiant l'ensemble de Cantor, on peut aussi construire un borlien de longueur non nulle
mais d'intrieur vide (c'est dire pour lequel il est impossible d'y inclure un intervalle ouvert,
aussi petit soit-il). Voici un exemple de construction. Soit k un entier plus grand que 3. On part
1 1
1
de l'intervalle [0, 1] et on pose E1 = E1,1 =] 12 2k
, 2 + 2k
[ (intervalle de longueur k1 centr en
1
2 ). L'ensemble [0, 1] \ E1 est compos de deux intervalles disjoints I1 et I2 . On enlve alors deux
38

Fig.

3.1: Graphe de F0

Fig.

3.2: Graphe de F1

Fig.

3.3: Graphe de F10

intervalles ouverts E21 et E22 centr sur I1 et I2 et de longueur k12 . On pose alors E2 = E21 E22 .
[0, 1] \ (E1 E2 ) est compos de 4 intervalles disjoints sur lesquels on enlve des intervalles de
longueur k13 . Ainsi par rcurrence, on peut dnit pour tout n 1 une suite d'intervalles ouverts
n1

2
Eni . Pour
disjoints deux deux (Eni )1i2n1 et tous de longueur k1n et on pose En = i=1
k = 3, En reprsente la runion de tous les intervalles sur lesquels Fn devient constante sans que
Fn1 le soit. Notons alors

C(k) = [0, 1] \
n=1 En .

Cette notation est bien compatible avec le cas k = 3 car on retrouve bien l'ensemble de Cantor.
Calculons la longueur de C(k). Tout d'abord par additivit, on a

(En ) =

n1
2X

(Eni ) =

i=1

2n1
.
kn

Par additivit, on trouve

(C(k)) = 1

+ n1
X
2
n=1

kn

k3
.
k2

Ainsi si k = 3, C(k) est donc bien de longueur nulle, alors que pour k > 3, C(k) a une longueur
strictement positive. De plus C(k) est d'intrieur vide (car la longueur des intervalles conservs
d'une tape la suivante est divise par 2).
3.2

Intgrale d'une fonction mesurable par rapport une mesure

Soit (E, E, ) un espace mesur (c'est dire un triplet compos d'un ensemble, d'une tribu
sur cet ensemble et d'une mesure dnie sur cette tribu). On considrera des fonctions f : E
R {, +} dites mesurables, c'est dire telles que
1. Pour tout couple (a, b) de nombres rels, {x E : a f (x) b} E .
2. {x E : f (x) = } E .
Une fonction mesurable est donc l'analogue d'une variable alatoire dans le cadre la thorie des
probabilits (on rajoute la possibilit pour ce type de fonctions de prendre des valeurs + ou
, ce qui peut parfois s'avrer utile). Comme pour les variables alatoires on peut montrer
que pour tout borlien B B(R), l'ensemble {x E : f (x) B} appartient E .
Dans la suite, on dira qu'une fonction f : E R est tage si elle est mesurable et ne prend
39

qu'un nombre ni de valeurs. Si, on note y1 , . . . , yN les valeurs distinctes d'une fonction tage
f , on convient d'crire dans la suite

f=

N
X

yi 1 A i ,

i=1

o on a pos pour 1 i N , Ai = {f = yi } = {x E : f (x) = yi } qui est un lment de E .


+ = R {+} par une
On peut toujours approcher une fonction mesurable f valeurs dans R
suite croissante de fonctions positives tages. Il sut de modier la suite dnie au Chapitre 1
(cf Proposition 6) en posant pour n N :

fn (x) =

2n 1
2X

k=0

k
n
1k
k+1 + 2 1f 2n ,
2n 2n f < 2n

(3.1)

x E.

La preuve est alors quasiment identique celle de la Proposition 6.


Pour pouvoir additionner ou multiplier des fonctions mesurables, il est ncessaire de prolonger
= R {, +} en adoptant les conventions suivantes.
l'addition et la multiplication R

+ + a = a + (+) = +,

a R {+},

+ a = a + () = ,

a R {},

a (+) = (+) a = +,

a > 0,

a (+) = (+) a = ,

a < 0,

a () = () a = ,

a > 0,

a () = () a = +,

a < 0,

0 (+) = (+) 0 = 0 () = () 0 = 0.
Seule la somme + + () n'est pas dnie.

Lorsque E = R et E = B(R), la plupart des fonctions sont mesurables (les fonctions continues,
continues par morceaux et des fonctions bien plus irrgulires encore). La notion de mesurabilit
est stable par tout un tas d'oprations, comme le montre la proposition suivante.

Proposition 13

deux fonctions mesurables. Alors la fonction f g est


1. Soient f, g : E R
encore mesurable. Si de plus f + g est dnie (c'est dire lorsque la somme + + ()
n'intervient pas) alors f + g est mesurable.

2. Si f : E Rd est une fonction mesurable et g : Rd R est une fonction mesurable


lorsque Rd est muni de la tribu des borliens alors g f : E R est mesurable.
une suite de fonctions mesurables. Alors les applications inf nN fn et
3. Soit fn : E R
supnN fn sont mesurables. Si de plus la suite est convergeante point par point vers une
fonction f , alors f est galement mesurable.
Remarquons que le point 2. permet d'armer que g(X) est une variable alatoire ds que X
est une variable alatoire et g est une fonction mesurable. La preuve de ce point est d'ailleurs
triviale : si A B(R), alors


{g(X) A} = X g 1 (A)

qui est bien un lment de A vu que la mesurabilit de g entraine que g 1 (A) B(Rd ).
Cette stabilit de la notion de mesurabilit est remarquable. Dans l'intgrale de Riemann, les
suites de fonctions Riemann-intgrables peuvent avoir une limite non Riemann-intgrable.
40

Nous allons intgrer les fonctions mesurables partir des fonctions tages (comme pour les
variables alatoires).
PN
Pour une fonction tage f =
i=1 yi 1f =yi , on pose

Z
f d =

N
X

yi (f = yi ).

i=1

On
R retiendra en particulier que 1A d = (A) et que lorsque f est constante gale m, on
a f d = m (E). La dnition de l'intgrale pour une fonction mesurable gnrale se fait
alors comme pour l'esprance des variables alatoires.

Proposition 14

1. Soit f : E R
R + {+} uneR fonction mesurable. L'intgrale de f par
rapport la mesure est note f d ou aussi f (x)d(x) et est dnie par
Z
Z
f d = lim
fn d,
n+

o (fn )n est une suite croissante de fonctions tages positives, convergeante point par
point vers f .
une fonction mesurable. Soient f + et f les parties positives et ngatives
2. Soit f : E R
R
R
de f (voir Chapitre 1). On dit que f est intgrable lorsque f + d < + et f d < +
sont intgrables. Dans ce cas, on pose
Z
Z
Z
f d = f + d f d.
Ainsi si (,R A, P) est un espace probabilis et X : R est une variable alatoire intgrable, on
a E(X) = XdP : l'esprance mathmatique est donc un cas particulier d'intgrale par rapport
une mesure. On dispose alors des proprits suivantes qui se dmontrent de la mme faon que
les proprits de l'esprance des variables alatoires (voir Chapitre 1).

Proposition 15
dans

1.
2.
3.

deux fonctions mesurables ou bien toutes deux valeurs


Soient f, g : E R
R+ {+} ou bien toutes deux intgrables.
R
R
R
On a (f + g)d = f d + gd lorsque la fonction somme f + g est bien dnie. En
particulier, f + g est intgrable lorsque f et g sont intgrables.
R
R
Si a R, alors af d = a f d.
R
R
Si f g alors f d gd.

4. La
R fonction f est intgrable si et seulement si la fonction |f | est intgrable (ce qui s'crit
|f |d < +). On a alors
Z
Z
| f d| |f |d.
, on dnit
Si A E et f : E R
Z

Z
f d =

1A f d.

Autrement dit, on dnit l'intgrale de f sur A comme l'intgrale sur E de la fonction qui
est gale f sur A et qui vaut 0 sur Ac . Remarquons que lorsque f est intgrable, f 1A l'est
galement car sa valeur absolue est intgrable : en eet

|f 1A | = 1A |f | |f |
41

et la proposition prcedente assure que |f 1A |d |f |d < +.


Une autre consquence de la linarit de l'intgrale est la suivante : si A et B sont deux lements
de E disjoints et f une fonction mesurable positive ou intgrable alors

f d.

f d +

f d =

AB

En eet,
R en utilisant l'galit 1AB = 1A + 1B , il est facile de vrier que ces deux quantits
valent (1A + 1B )f d.
3.2.1

Intgration par rapport une mesure discrte.

P+

n=0 pn xn o (pn )n est suite de rels positifs et (xn )n une suite de points distincts
de E = Rd que l'on munit de l'ensemble de ses parties. Alors dans ce cas nous obtenons le
rsultat suivant.

Soit =

Proposition 16

Toute fonction f : E R est mesurable. Lorsque f prend ses valeurs dans


R+ ou que f est intgrable, alors
Z
f d =

+
X

pn f (xn ).

n=0

En particulier f est intgrable si et seulement si

P+

n=0 pn |f (xn )|

< +.

Preuve

Le fait que toute fonction soit mesurable rsulte du choix de la tribu P(Rd ).
 Commenons par le cas d'une fonction tage positive prenant les valeurs y1 , . . . yN et
posons Ai = {f = yi } pour i = 1, . . . , N . Remarquons alors que xn Ai f (xn ) = yi .
Alors on a

Z
f d =

N
X
i=1
N
X

i=1
+
X
n=0
+
X
n=0
+
X

yi (Ai )

yi

+
X

pn 1Ai (xn )

n=0
N
X

pn

pn

i=1
N
X

yi 1Ai (xn )
f (xn )1Ai (xn )

i=1

pn f (xn ).

n=0

La dernire galit est due au fait que xn ne peut appartenir qu' un seul ensemble Ai .
 Passons maintenant au cas d'une fonction positive. Si fk est une fonction tage plus petite
que f , alors on a

Z
fk d =

+
X

pn fk (xn )

n=0

+
X

pn f (xn ).

n=0

P+

Ainsi, par dnition de l'intgrale, on a ncessairement f d


n=0 pn f (xn ). Pour montrer l'ingalit dans l'autre sens, on peut observer que f f 1{x0 ,...,xn } = g . La fonction g
42

PN

ne prend qu'un nombre ni de valeurs et il est facile de prouver que gd =


n=0 pn f (xn )
en utilisant le premier point. En utilisant le point 3. de la proprit 15, on a

Z
f d

gd =

N
X

pi f (xi ).

i=1

En passant la limite sur N , on voit que


+
X

Z
f d

pn f (xn ).

n=0

On a donc bien la formule annonce.


 Considrons enn le cas d'une fonction f de signe quelconque. f est intgrable si et seuleP+
ment si |f | l'est, ce qui signie d'aprs le point prcdent que n=0 |f (xn )|pn < +. Dans
ce cas, on a, en appliquant la dnition de l'intgrale et le point prcdent

Z
f d =

f d

f d =

+
X

pn f (xn ) f (xn ) =

n=0

+
X

pn f (xn ),

n=0

ce qui achve la preuve.


Enn, mentionnons le thorme fondamental suivant.

Thorme 6 (convergence monotone)


fonctions mesurables, on a

Pour tout suite croissante fn : E R+ {+} de

Z
lim fn d = lim

n+

n+

fn d.

Evidemment lorsque une suite de fonctions positives est croissante, sa limite est bien dnie.
Cette limite f est de plus une fonction mesurable positive et l'intgrale est donc bien dnie.
Mentionnons une consquence en probabilit. Supposons que (Xn )nN soit une suite de variables
alatoires toutes positives. Alors on a

+
X

!
Xn

n=0

Pour le voir, il sut de considrer fN =


monotone.
3.2.2

+
X

E (Xn ) .

n=0

PN

n=0 Xn

et d'appliquer le thorme de la convergence

L'intgrale de Lebesgue et l'intgrale de Riemann

Lorsque = (mesure de Lebesgue sur R), on obtient une intgrale appele intgrale
de Lebesgue. Nous allons voir que cette intgrale concide le plus souvent avec l'intgrale de
Riemann lorsque cette dernire a bien un sens. De plus il existe des fonctions intgrables au sens
de Lebesgue mais pas au sens de Riemann. Rappelons la dnition de l'intgrale de Riemann
sur un intervalle ferm born [a, b] de R. Une partie nie de [a, b] contenant les points a et b
est appele une subdivision de [a, b] et sera note

:= a = x1 < x2 < . . . < xn = b.


La nesse d'une subdivision est dnie par || = max |xi+1 xi |.
1in

Soit f : [a, b] R une fonction borne. Pour toute subdivision : a = x1 < x2 . . . < xn , on
pose

mi =

inf

xi xxi+1

f (x),

Mi =

sup
xi xxi+1

43

f (x).

On dnit alors

s =

n
X

mi (xi+1 xi ) ,

S =

i=1

n
X

Mi (xi+1 xi ) .

i=1

L'ide est alors d'encadrer l'aire sous la courbe de f entre celle de g =


P
h = ni=1 Mi 1]xi ,xi+1 ] . On peut remarquer que

Pn

i=1 mi 1]xi ,xi+1 ]

et

0 s s0 S0 S .
On dit alors que f est Riemann-intgrable si sup s = inf S , valeur appele intgrale de f
sur [a, b]. On peut montrer que f est Riemann-intgrable si et seulement si il existe une suite
croissante (k )k de subdivisions dont la nesse tend vers 0 telle que

lim sk = lim Sk .

Il existe des fonctions Lebesgue-intgrables qui ne sont pas Riemann-intgrables. C'est par
exemple le cas pour f = 1Q sur l'intervalle [0, 1]. En eet, pour toute subdivision de [0, 1],
on a Mi = 1 et mi = 0 pour tout i, ce qui entraine s = 0 et S = 1 et f ne peut tre
Riemann-intgrable sur [0, 1]. En revanche f est Lebesgue-intgrable et

f (x)d(x) = (Q [0, 1]) = 0,


0

car Q[0, 1] est dnombrable. Ainsi, le thorme de convergence monotone n'est pas vrai pour les
fonctions Riemann-intgrables : si (rn )n est une numration des nombres rationnels de [0, 1],
la suite de fonctions fn = 1{r0 ,...,rn } est croissante vers f = 1Q[0,1] qui n'est pas Riemann-

R1

intgrable alors que fn l'est et vrie 0 fn (x)dx = 0.


Nous avons en fait le rsultat suivant.

Proposition 17

Soit f : [a, b] R une fonction borne.

1. Si f est Riemann-intgrable, f est Lebesgue-intgrable et les valeurs des deux intgrales


sont les mmes.
2. La fonction f est Riemann-intgrable si et seulement si l'ensemble D des points de discontinuit de f vrie (D) = 0.
On peut vrier que la fonction 1Q n'est continue en aucun point, le point 2. de la proposition
conrme la non-intgrabilit de cette fonction au sens de Riemann.
Au niveau des intgrales impropres, toute fonction positive admettant une intgrale impropre
au sens de Riemann est intgrable au sens de Lebesgue et les intgrales sont gales. Prouvons-le
pour une fonction f : [0, +[ [0, +[. On a

Z
f (x)dx = lim

n+ 0

Z
f (x)dx = lim

n+ 0

Z
f (x)d(x) =

f (x)d(x),
0

o la deuxime galit rsulte de la proposition prcdente et la troisime du thorme de la


convergence monotone (car fn = f 1[0,n] est une suite croissante de fonctions positives).
Il existe nanmoins un cas o une fonction peut admettre une intgrale impropre au sens de Riemann sans tre intgrable au sens de Lebesgue. C'est le cas des fonctions oscillantes. Un exemple
P+
simple est donne par la fonction f =
n=0 an 1[n,n+1[ qui admet une intgrale impropre au sens

P+

de Riemann lorsque la srie n=0 an est convergeante mais qui n'est pas Lebesgue-intgrable sur
[0, +[ lorsque cette srie n'est pas absolument convergeante (l'intgrale de Lebesgue demande
ce que la valeur absolue de f ait une intgrale nie).
44

Notation.

Au vu des rsultats prcdents, nous noterons souvent f (x)dx (au lieu de f (x)d(x))
l'intgrale de la fonction f au sens de Lebesgue. De plus les rsultats utiliss pour les intgrales
de Riemann (intgration par parties, formule du changement de variable) peuvent aussi tre utiliss pour l'intgrale de Lebesgue (nous noncerons la formule du changement de variables dans
Rn un peu plus loin). On pourra noter la dirence fondamentale concernant la construction
de ces deux intgrales : l'intgration au sens de Riemann se base sur l'approximation par des
fonctions dites en escalier construites l'aide de subdivisions sur l'axe des abscisses alors que
l'intgrale de Lebesgue utilise des fonctions tages construites l'aide de subdivisions de l'axe
des ordonnes (voir la suite de fonctions 3.1).

3.2.3

Le presque partout

sont
Soit (E, E, ) un espace mesur. On dira que deux fonctions mesurables f, g : E R
gales presque partout et on note f = g p.p, lorsque (f 6= g) = 0. Lorsque est une mesure
de probabilit, on dit plutt que f et g sont gales presque srement (et on note f = g p.s), ce
qui revient aussi avoir (f = g) = 1.

Proposition 18

deux fonctions mesurables.


Soit f, g : E R

1. Supposons
f =R g p.p. Alors f est intgrable si et seulement
si g est intgrable. Dans ce cas
R
R
on a f d = gd. En particulier, pour A E , on a A f (x)d(x) = 0 lorsque (A) = 0.
R
2. Supposons que f soit valeurs dans R+ {+}. Alors f d = 0 si et seulement si f = 0
p.p.
R
3. Supposons que f soit valeurs dans R+ {+}. De plus si f d < + alors (f =
) = 0. Dans ce cas on dit que f < + p.p.

Remarques.
 Considrons le cas o (E, E, ) = (R, B(R), ). Si f : R R est une fonction intgrable
et g : R R telle que g(x) = f (x) pour x D c . Si (D) = 0 (c'est par exemple le cas si
D est dnombrable), alors le premier point de cette proposition assure que l'intgrale de
g est gale l'intgrale de f .
 Le deuxime point a dj t utilis au Chapitre 1 pour montrer qu'une variable alatoire positive d'esprance nulle est une variable alatoire nulle p.s et donc qu'une variable
alatoire de carr intgrable et de variance nulle tait presque srement gale sa moyenne.
 Illustrons le troisime point dans le cadre des probabilits. Considrons une suite (Xn )nN
de variables alatoires telle que pour tout n N, Xn suive une loi de bernoulli de paramtre
P
P+
pn . Alors si +
n=0 pn < +, la variable alatoire X =
n=0 Xn (qui existe en tant que
limite d'une suite croissante de variables alatoires) est nie presque srement. En eet,
on a par convergence monotone

+
X
n=0

!
Xn

+
X

E(Xn ) =

n=0

+
X

pn < +,

n=0

et la variable alatoire X est nie presque srement d'aprs le troisime point de la proposition prcdente. La variable alatoire X ne peut videmment tre nie en tout point :
elle vaut + lorsque qu'une innit de 1 apparaisse dans la suite ; par contre la probabilit
que cela se produise est nulle.
45

3.3

Mesure produit et thorme de Fubini

Les produits de mesure gnralisent ceux dj vues pour les mesures de probabilit (cf Chapitre 1). Cette notion permet galement de dnir l'aire ou le volume d'un borlien de R2 ou
de R3 , en eectuant un produit de mesure l'aide de la mesure de Lebesgue. Rappelons (voir
Chapitre 1) que si E et F sont deux ensembles, chacun muni d'une tribu note respectivement
E et F alors la tribu produit sur E F est note E F et est dnie par

E F = ({B C : (B, C) E F}) .


On dnit le produit de deux mesures et sur E F lorsque les deux mesures sont nies.
On dit qu'une mesure est nie lorsqu'on peut crire E = nN En avec (En )nN une suite
d'lments de E , croissante pour l'inclusion, et telle que (En ) < + pour tout n N. Toute
mesure de probabilit est nie (en prenant En = E pour tout n). La mesure de Lebesgue est
aussi nie car R = nN [n, n] et ([n, n]) = 2n < +. Plus gnralement, toute mesure
de Lebesgue-Stieljes est nie.

Thorme 7

Si (E, E, ) et (F, F, ) sont deux espaces mesurs avec des mesures et toutes
deux nies, alors il existe une unique mesure, note , dnie sur E F et telle que
(B C) = (B) (C),

(B, C) E F.

(3.2)

On dit que est la mesure produit de et de .


Par rcurrence, on peut aussi dnir la mesure produit de n mesures nies (comme cela a t
directement nonc au Chapitre 1).

Cas particulier fondamental. Supposons que E = F = R est muni de la tribu des borliens
et que = = la mesure de Lebesgue. Dans ce cas est note 2 et est appele mesure
de Lebesgue sur R2 . Ainsi pour deux borliens B et C de R, on a
2 (B C) = (B)(C).
On dit alors que 2 est la mesure d'aire (pour A B(R2 ), on dit que 2 (A) est le volume
du borlien A). Il est galement possible de dnir par rcurrence le produit . . . de n
mesures de Lebesgue, mesure note n et qui est appele la mesure de Lebesgue sur Rn . Pour
n = 3, 4, . . ., on parle de mesure de volume.

Revenons au cas gnral d'un produit . Evidemment un lment A de la tribu E F


ne peut pas toujours s'crire B C avec (B, C) E F (par exemple si A est un disque de
R2 ). Il est alors possible de calculer la mesure de A partir de la mesure de ces sections". Plus
prcisment, si (x, y) E F , on dnit les sections A(x) et A(y) de A par



A(x) = y 0 F : (x, y 0 ) A ,



A(y) = x0 E : (x0 , y) A .

Il est possible de vrier que A(x) F et A(y) E . De plus on peut montrer que

Z
( ) (A) =

Z
(A(y)) d(y) =

(A(x)) d(y).

(3.3)

On peut donc calculer la mesure de A en intgrant la mesure de ses sections. Lorsque = =


, les longueurs de deux sections d'un borlien de R2 sont reprsentes sur la Figure 3.4. La
46

Fig.

3.4: Un borlien et les longueurs de deux de ses sections

possibilit d'intgrer les sections en commenant par une ou l'autre des variables x ou y peut
tre justie : les deux applications 1 : E F R+ {+} et 2 : E F R+ {+}
dnies par
Z
Z

1 (A) =

(A(y)) d(y),

2 (A) =

(A(x)) d(y),

sont en fait deux mesures nies qui satisfont (3.2) et ces mesures sont donc gales par unicit.
On a alors le thorme fondamental dit thorme de Fubini qui permet de calculer l'intgrale
d'une fonction par rapport la mesure produit en utilisant uniquement le calcul intgral sur les
mesures et .

Thorme 8

une application mesurable (par rapport la tribu produit).


Soit f : E F R

1. Si f prend des valeurs positives ou ventuellement + alors




Z
Z Z
Z Z
f (x, y)d(x, y) =
f (x, y)d(x) d(y) =
f (x, y)d(y) d(x). (3.4)
2. Supposons que f prenne des valeurs quelconques. Alors, f est intgrable si et seulement si
l'une

R R ou l'autre des intgrales
R R
|f (x, y)|d(y) d(x),
|f (x, y)|d(x) d(y) est nie (remarquer que ces deux intgrales sont forcment gales d'aprs le point 1.). Dans ce cas on a encore (3.4).
On pourra remarquer que lorsque f = 1A , alors on retrouve bien les galits (3.3).
Ce thorme est extrmement utile. Voyons deux cas particuliers rencontrs couramment.
 Lorsque E = F = R et = = , on a sous les hypothses du thorme

Z Z

Z
f (x, y)d2 (x, y) =


f (x, y)dx dy =

Z Z


f (x, y)dy dx.

L'intgrale sur R2 fournit un calcul du volume situ sous le graphe de la fonction f . Ce


volume peut tre calcul, en commenant d'abord par calculer l'aire situe sous le graphe
des applications partielles x 7 f (x, y) ou y 7 f (x, y) (voir Figure 3.5). Mentionnons deux
cas particuliers fondamentaux. Lorsque f (x, y) = g(x)h(y) pour deux fonctions mesurables
47

Fig.

3.5: Illustration du calcul d'aire

g et h, alors f est intgrable (pour 2 ) si et seulement si g et h sont intgrables (pour ).


De plus, on a dans ce cas

Z
g(x)dx

f (x, y)d2 (x, y) =

h(y)dy,

galit qui est en fait toujours vrie si h et g sont valeurs dans R+ {+}.
Le deuxime cas concerne l'intgration sur un sous-ensemble de R2 . Rappelons que par
dnition
Z
Z

f (x, y)d2 (x, y) =

1A (x, y)f (x, y)d2 (x, y).

Lorsque A = B C et sous les conditions du thorme de Fubini, on a

Z Z

Z
f (x, y)d2 (x, y) =
A

Z Z

f (x, y)dy dx =
B


f (x, y)dx dy.

 Toujours lorsque E = F = R mais que = et est la mesure de comptage sur N, on a


+ Z
X

Z
f (n, y)dy =

n=0

+
X

!
f (n, y) dy,

n=0

lorsque f est positive ou intgrable (ce qui signie que

+ Z
X

|f (n, y)|dy < +).

n=0

 Lorsque et sont toutes deux gales la mesure de comptage sur N, on retrouve le


thorme de Fubini nonc au Chapitre 2.
3.4

Mesure densit et thorme de transfert

Maintenant que l'intgrale d'une fonction par rapport une mesure a t dnie, on peut
construire d'autres mesures appeles mesures densit.

Proposition-Dnition 2

Soit (E, E, ) un espace mesur et soit f : E R+ une fonction


mesurable. Alors l'application : E R+ {+} dnie par
Z
(A) =
f d,
A E,
A

est une mesure appele mesure de densit f par rapport . On note = f .


48

Remarque.

Il est important de remarquer que la densit f de la mesure n'est pas unique.


Supposons qu'une fonction mesurable g soit telle que ({x E : g(x) 6= f (x)}) = 0 (c'est dire
f = g p.p). Alors g est encore une densit car

Z
f (x)d(x)

(A) =
ZA

Z
1f (x)6=g(x) f (x)d(x)

1f (x)=g(x) f (x)d(x) +

ZA
1f (x)=g(x) g(x)d(x) + 0

=
ZA

1f (x)=g(x) g(x)d(x)

=
ZA

g(x)d(x).

=
A

Nous avons utilis le premier point de la Proposition 18. On peut donc modier une densit
sur un ensemble de mesure nulle. Ainsi, si = la mesure de Lebesgue sur R, toute fonction
obtenue en modiant la densit de dpart en un nombre ni ou inni dnombrable de points est
encore une densit. Lorsque = 2 est la mesure de Lebesgue sur R2 , alors on peut modier
une densit le long d'un segment ou d'une droite de R2 : par exemple si D = {(x, y) : x = 0},
on a par le thorme de Fubini

2 (D) =

(Dy )dy =

({0})dy = 0.

Preuve. Vrions que est bien une mesure.


On a () = 0 car la fonction 1 f est nulle. De plus si (An )nN est une suite d'lments de E
disjoints deux deux, alors en utilisant le fait que
1+ An =

+
X

n=0

1An

n=0

et le thorme de la convergence monotone, on a

+
n=0 An

Z
=
=

1+ An f d
n=0

Z X
+
n=0
+
XZ
n=0
+
X

1An f d
1An f d

(An ).

n=0

Ainsi est bien une mesure.

Exemples

 Lorsque (E, E, ) = Rd , B(Rd ), d et f : Rd R+ est une fonction intgrable et d'intgrale 1, on dit que est une mesure de probabilit densit par rapport la mesure
de Lebesgue (lorsque il n'y aura pas d'ambiguit, on parlera simplement de mesure de
probabilit densit).

49

 Supposons (E, E, ) = (R, B(R), ) et soit f : R R+ une fonction intgrable par rapport
. Alors la mesure = f concide avecR la mesure de Lebesgue-Stieltjes F associe
x
la fonction F : R R+ dnie par F (x) = f (z)dz pour tout x R. Pour vrier ceci,
on vrie que et F sont gales sur les intervalles. Il est ensuite possible de montrer que
l'ensemble des borliens A pour lesquels et F concident est une tribu. Comme cette
tribu contient les intervalles, elle est forcment gale B(R), ce qui montre l'galit des
deux mesures sur B(R).
 Lorsque E = R, E = P(R) et dsigne la mesure de dnombrement sur N, toute mesure
P+
discrte =
n=0 pn n possde une densit f par rapport . Il sut de dnir f : R
R+ par f (n) = pn pour n N et f (x) = 0 si x
/ N. En eet, en utilisant l'expression de
intgrales pour les mesures discrtes, on a alors pour A P(R) :

Z
1A f d =

+
X

1A (n)f (n) =

n=0

+
X

1A (n)pn = (A).

n=0

Proposition 19

Soient (E, E, ) un espace mesur et f : E R+ une fonction mesurable.


une fonction mesurable.
Posons = f . Soit enn g : E R
1. Si g prend ses valeurs dans R+ {+}, alors
Z

Z
gd =

f gd.

2. La fonction g est intgrable par rapport si et seulement si f g est intgrable par rapport
. Dans ce cas, on a encore
Z
Z
gd = f gd.

Preuve.
1. L'galit est vrie pour une fonction tage g =

Z
gd =

N
X

yi (Ai ) =

i=1

N
X

PN

Z
yi

positive. En eet, on a

i=1 yi 1Ai

Z
1Ai f d =

gf d,

i=1

en utilisant la linarit de l'intgrale.


Soit maintenant g une fonction mesurable valeurs dans R+ {+} et (gn )n une suite
croissante de fonctions tages positives convergeante point par point vers g . Alors (gn f )n
est une suite croissante de fonctions mesurables positives convergeante point par point
vers la fonction gf . Le thorme de la convergence monotone et la dnition de l'intgrale
entraine alors

Z
gd = lim

n+

Z
gn d = lim

n+

Z
gn f d =

gf d.

2. Si maintenant g prend
R des valeurs quelconques, on sait que g estRintgrableR par rapport
si et seulement si |g|d < +. Or d'aprs le premier point |g|d = |gf |d. On a
donc bien la condition ncessaire et susante annonce pour l'intgrabilit. En appliquant
les formules du point 1. g + et g , on a bien la formule annonce pour l'intgrale.
50

Exemple.

Sur l'espace probabilis


(R, B(R), P) avec P = f (f : R R+ tant une foncR
tion
mesurable telle que f (x)dx = 1), toute variable alatoire X positive vrie E(X) =
R
X(x)f (x)dx.
Passons maintenant au thorme de transfert dans un cadre gnral. Considrons un espace
probabilis (, A, P) et une variable alatoire X : Rd . Si on considre
l'univers des valeurs

d
d
possibles pour X , on a un autre espace probabilis : R , B(R ), PX . Le thorme de transfert
permet de calculer l'esprance d'une variable alatoire fonction de X uniquement partir de la
loi de X .

Thorme 9 (thorme de transfert)

une fonction mesurable.


Soit g : Rd R
1. Si g prend ses valeurs dans R+ {+}, alors on a la formule
Z
E (g(x)) = g(x)dPX (x).

(3.5)

2. Dans le cas gnral, la variable alatoire Y = g(X) est intgrable si et seulement si g est
PX intgrable. Dans ce cas, on a encore la formule (3.5).

Cas particuliers

 Lorsque PX = f d (on dit que la loi de X est densit), on a pour toute fonction
mesurable positive g :
Z

E (g(X)) =

g(x)f (x)dx.

Cette galit est due


R au thorme de transfert et la Proposition 19. La mme galit
vaut aussi lorsque |g(x)|f (x)dx < +.
P+
 Lorsque PX =
n=0 pn xn est une mesure de probabilit discrte (et donc que X est
une variable alatoire discrte) on retrouve le thorme de transfert dj nonc lors du
Chapitre 2.

Preuve du thorme.

Comme auparavant, on prouve ce rsultat en suivant les tapes de la


construction de l'intgrale.
1. Si g =

PN

i=1 yi 1Ai

est une fonction tage, on a

g(X) =

N
X

yi 1XAi .

i=1

Par dnition, on a

E (g(X)) =

N
X

yi P (X Ai ) =

i=1

N
X

Z
yi

1Ai (x)dPX (x).

i=1

En utilisant la linarit de l'intgrale, on a bien E (g(X)) = g(x)dPX (x).


Si maintenant (gn )n est une suite croissante de fonctions tages positives convergeante
point par point vers g alors (gn (X))n est aussi une suite croissante de fonctions tages
positives convergeante point par point vers g(X). On a alors

Z
E (g(X)) = lim E (gn (X)) = lim
n+

Z
gn (x)dPX (x) =

n+

g(x)dPX (x).

2. Comme d'aprs le premier point E (|g(X)|) = |g(x)|dPX (x), la variable alatoire Y =


g(X) est intgrable si et seulement si g est PX intgrable. En dcomposant g = g + g ,
on obtient le rsultat en utilisant le point prcdent et la linarit de l'intgrale.
51

3.5

La formule du changement de variables

Thorme 10

Soient A et B sont deux ensembles ouverts de Rn et : A B une application continument direntiable ainsi que sa rciproque et f : Rn R une fonction mesurable.
Pour
u
A, soit J(u) le Jacobien de au point u, c'est dire le dterminant de la matrice

i
. Alors
xj (u)
1i,jn

f intgrable sur B u 7 f ((u)) |J(u)| intgrable sur A.

Dans ce cas, on a

f ((u)) |J(u)| du.

f (x)dx =
A

Remarques

 Lorsque n = 1, A = [a, b] et B = [c, d], le thorme prcdent entraine


d

Z
f (x)dx =

f ((u)) |0 (u)|du.

Cette formule est bien compatible avec la formule


d

1 (d)

Z
f (x)dx =

f ((u)) 0 (u)du.

1 (c)

En eet si l'application est croissante, il en va de mme de 1 et 0 est positive ce qui


entraine 1 (c) = a, 1 (d) = b et |0 (u)| = 0 (u) pour tout u A.
Si maintenant l'application est dcroissante, il en va de mme de 1 et 0 est ngative
ce qui entraine 1 (c) = b, 1 (d) = a et |0 (u)| = 0 (u) pour tout u A. Ainsi d'aprs
la convention utilise sur les bornes de l'intervalle d'intgration, on a

f ((u)) |0 (u)|du =

f ((u)) 0 (u)du =

f ((u)) 0 (u)du =

1 (d)

f ((u)) 0 (u)du.

1 (c)

 Remarquons aussi que sous rserve des conditions d'intgrabilit, on peut aussi crire la
formule :
Z
Z

f (x)|J1 (x)|dx.

f ((u)) du =
A

On gardera l'esprit que lorsqu'on change la variable u par la variable x = (u), on a


u = 1 (x) et il faut remplacer du par |J1 (x)|dx dans l'intgrale de dpart. On peut
1
voir en drivant l'galite 1 (x) = x que J1 (x) = J(u)
.

L'exemple des coordonnes polaires.

Posons

B = R2 \ {(x, 0) : x 0} ,

A =]0, +[] , [,

et soit : A B dni par

(, ) = ( cos(), sin()) ,

(, ) A.

On peut montrer que vrie les hypothses du changement de variables et que

1 (x, y) =

p
x2 + y 2 , 2 arctan

y
p
x + x2 + y 2
52

!!
,

(x, y) B.

De plus on peut vrier que |J(, )| = .


Appliquons ce changement de variables pour le calcul de I =
drons l'intgrale double

 2
Z
x + y2

exp

x2
2

dx. Pour cela, nous consi-

d2 (x, y) = I 2 ,

o l'galit prcdente est justie par le thorme de Fubini. On voit facilement que


 2

 2
Z
x + y2
x + y2
d2 (x, y) =
1B (x, y) exp
d2 (x, y)
exp
2
2
 2

Z
x + y2
+
1B c (x, y) exp
d2 (x, y)
2

 2
Z
x + y2
d2 (x, y)
=
1B (x, y) exp
2

en remarquant la nullit de la deuxime intgrale (appliquer le thorme de Fubini). En eectuant


le changement de variables avec les coordonnes polaires, on obtient

 2
 2

Z
x + y2

1B (x, y) exp
exp
d2 (x, y) =
dd = 2,
2
2
A

en appliquant de nouveau le thorme de Fubini. On trouve donc I = 2 ce qui justie la


Z

dnition de la loi gaussienne centre rduite.

53

54

Chapitre 4
Les variables alatoires densit

Dans ce chapitre, nous nous replaons dans le cadre de la thorie des probabilits. Soit

(, A, P) un espace probabilis. En utilisant les rsultats du chapitre prcdent, on conviendra


qu'une variable alatoire X : Rd est densit (sous-entendu par rapport la mesure de
Lebesgue sur Rd note d ) lorsque sa loi PX est une mesure densit
par rapport
R
R d . Ceci
signie qu'il existe une fonction mesurable f : Rd R+ telle que f (x)dd (x) = f (x)dx = 1
et
Z
 
P (X A) =
f (x)dx,
A B Rd .
A

4.1

Exemples de lois densit

Voici quelques lois densit classiques rencontres en probabilits et en statistique.

Les lois Gaussiennes sur R.

On dit qu'une variable alatoire X suit une loi gaussienne de


paramtres m R et > 0 (on parle aussi de loi normale ou encore de loi de Laplace-Gauss) et
on note X N m, 2 lorque X est densit par rapport la mesure de Lebesgue et que la
densit est donnes par :



1
(x m)2
f (x) = exp
,
2 2
2

x R.

On peut remarquer que si U N (0, 1) (on parle de loi gaussienne centre rduite) alors la variable alatoire m + U suit la loi N m, 2 (pour le montrer, on peut soit utiliser le thorme
de transfert et eectuer un changement de variable ou calculer la fonction de rpartition, voir
la section sur le calcul de lois). Il est facile de vrier que E(X) = m (en utilisant les proprits
de symtrie de la densit) et que Var (X) = 2 (on peut le dmontrer d'abord pour la loi
gaussienne centr rduite en eectuant une intgration par parties).
Les proprits de symtrie de cette loi permettent de modliser les variations de certaines grandeurs autour d'une valeur donne (par exemple les erreurs de mesure). Cette loi est importante
en statistique du fait de son rle de loi limite (nous en reparlerons lorsque nous noncerons le
thorme central-limite).

Les lois uniformes.

Lorsque [c, d] est un intervalle de R, la loi uniforme sur [c, d] (dj


rencontre au Chapitre 1) est la loi dont la densit f est dnie par

f (x) =

1
1 (x),
d c [c,d]
55

x R.

On peut en fait dnir une loi uniforme sur n'importe quel borlien de mesure de Lebesgue non
nulle. Par exemple sur R2 , la loi uniforme sur le disque unit possde une densit f : R2 R+
dnie par

f (x, y) =

1
1 2 2 ,
x +y 1

(x, y) R2 .

Lois gamma.

On dit qu'une variable alatoire X suit une loi gamma de paramtres k > 0 et
> 0 (notation X (k, )), si la densit de X est donne par


xk1 exp x
1x>0 ,
f (x) =
(k)k
o on a

Z
(k) =

xk1 exp(x)dx.

On a alors E(X) = k et Var (X) = k 2 . On peut remarquer que pour k = 1 on a une loi
exponentielle de paramtre 1 . Lorsque k est entier, on peut montrer que la loi (k, ) correspond
galement la loi de la somme de k variables alatoires indpendantes toutes de loi exponentielle
de paramtre 1 (voir plus loin lorsque nous tudierons la convolution). La loi du 2 , trs utilise
en statistique est un cas particulier de la loi gamma (nous reparlerons de la loi du 2 lors du
chapitre sur les vecteurs gaussiens).

Lois de Weibull.

On dit qu'une variable alatoire X suit une loi de Weibull de paramtres


, , si la densit de X est donne par



 !
x 1
x
f (x) =
exp
1x> .

Cette loi est frquemment utilise en abilit pour modliser le taux de dfaillance d'un matriel
(voir le TD pour des prcisions). Lorsque = 0 et = 1, on retrouve la loi exponetielle de
paramtre 1. Plus gnralement, on peut montrer que Y =

suit une loi exponentielle

de paramtre 1.

Loi de Cauchy.

La densit f est dnie par

f (x) =

1
,
(1 + x2 )

x R.
R

Cette loi a la particularit de ne pas avoir de moyenne, car |x|f (x)dx = +. On peut montrer
que la loi de Cauchy est la loi du quotient de deux variables alatoires gaussiennes, centres
rduites et indpendantes.
4.2

Densits marginales. Indpendance

Dnition 17

Soit Z = (X, Y ) une variable alatoire valeurs dans R2 et dont la loi possde
une densit f par rapport la mesure de Lebesgue sur R2 . Soient f1 : R R+ et f2 : R R+
les fonctions dnies par
Z
f1 (x) =

f (x, y)dy,

x R,

f (x, y)dx,

y R.

Z
f2 (y) =

56

Alors les fonctions f1 et f2 sont des densits de probabilit appeles les densits marginales de
Z et correspondent aux densits des mesures PX et PY respectivement.
La dnition prcdente se gnralisent au cas d'une variable alatoire Z valeurs dans Rd . Dans
ce cas, la iime densit marginale est simplement la fonction obtenue en intgrant la densit
de Z par rapport aux d 1 variables d'indices j 6= i. On notera que deux variables alatoires
relles peuvent avoir une densit sans que ce soit le cas pour le couple : par exemple si Y = X
alors le couple Z = (X, X) ne peut avoir de densit car la diagonale de R2 , D = {(x, y) : x = y},
est de mesure nulle (pour 2 ).

Proposition 20

Soient des variables alatoires X1 , . . . , Xn valeurs respectives dans Rd1 , . . . , Rdn


et admettant des densits notes respectivement f1 , . . . , fd . Alors X1 , . . . , Xd sont indpendantes
si et seulement si la variable alatoire Z = (X1 , . . . , Xn ) ( valeurs dans Rd , d = d1 + . . . + dn )
admet une loi densit f par rapport d , donne par
f (x1 , . . . , xn ) = f1 (x1 ) fn (xn ),

Preuve.


(x1 , . . . , xn ) Rd .

Supposons d'abord les variables alatoires X1 , . . . , Xn indpendantes. Alors si Ai

B Rdi pour 1 i n, on a
P (X1 A1 , . . . , Xn An ) = P (X1 A1 ) P (Xn An )
Z
Z
f (xn )dxn
=
f (x1 )dx1
A1
An
Z
=
f1 (x1 ) fn (xn )dx1 dxn ,
A1 An

la dernire galit rsultant du thorme de Fubini. D'aprs l'unicit de la mesure produit, on


en dduit que la loi de Z vrie

P (Z A) =

Z Y
n

fi (xi )dd (x1 , . . . , xn ),

 
A B Rd .

A i=1

Inversement, supposons que la densit de Z soit donne par le produit des densits f1 , . . . , fn .
Alors l'application du thorme de Fubini entraine automatiquement l'indpendance des variables X1 , . . . , Xn (reprendre l'enchainement des galits ci-dessus mais en sens inverse).

Remarque.

Supposons que la densit f d'un couple (X, Y ) s'crivent sous la forme d'un
produit, c'est dire

f (x, y) = g(x)h(y),

(x, y) R2 ,

pour deux fonctions g et h valeurs positives (mais sans savoir priori qu'il s'agit de densits
de probabilit). Alors le thorme de Fubini permet d'armer que les fonctions g et h sont,
une constante
prs, les densits de X et de Y respectivement. Par exemple, la densit de X
R
est x h(y)dy g(x). De plus les variables alatoires X et Y sont indpendantes. Cette
remarque se gnralise un nombre n 2 de variables alatoires. On retiendra qu'il sut
d'arriver sparer les variables dans la densit jointe pour conclure l'indpendance.

Proposition 21

Soient X et Y deux variables alatoires indpendantes valeurs dans Rd et


dont les lois admettent des densits fX et fY respectivement. Alors la variable alatoire Z =
X + Y admet une densit fZ : Rd R+ donne par
Z
Z
fZ (z) = fX (z y)fY (y)dy = fY (z x)fX (x)dx,
z Rd .
On dit que fZ est le produit de convolution de fX et de fY .
57

Preuve.

Soit h = 1A , A B(Rd )). Nous avons

P ((Z A) = E (h(X + Y ))
Z
=
h(x + y)fX (x)fY (y)d2d (x, y)

Z Z
=
h(x + y)fX (x)dd (x) fY (y)dd (y)


Z Z
=
h(z)fX (z y)dd (z) fY (y)dd (y)
Z

Z
=
h(z)
fX (z y)fY (y)dd (y) dd (z).
La deuxime galit rsulte du thorme de transfert et la troisime du thorme de Fubini. La
quatrime galit est obtenue en eectuant le changement de variables z = x + y (de Jacobien
1). La dernire galit est obtenue en utilisant le thorme de Fubini.

Remarque.

Si on ne suppose pas l'indpendance de X et de Y , alors la somme Z n'a pas


ncessairement une densit (c'est le cas si Y = X par exemple).

Exemple de calcul.

Il est utile de savoir refaire la dmonstration prcdente car celle-ci


permet galement de trouver des densits de variables du type Z = X Y ou encore Z = XY
lorsque les variables X et Y sont indpendantes. Appliquons directement la formule obtenue
lorsque les variables alatoires X et Y suivent toutes les deux la loi exponentielle de paramtre
> 0. Dans ce cas

1R+ (z y)1R+ (y)2 exp(z)dy


 Rz 2
2
0 exp(z)dy = z exp(z), si z 0
=
0 sinon

fZ (z) =

Ainsi on trouve fZ (z) = 1R+ (z)2 z exp(z) pour z R. Z suit donc une loi 2, 1 . On
peut aussi montrer la somme de deux variables alatoires indpendantes et de lois respectives
(a, ) et (b, ) suit une loi (a + b, ). On voit alors immdiatement par rcurrence que la loi
d'une somme de n variables
alatoires indpendantes toutes de loi exponentielle de paramtre

1
est une loi n,
.

Exemple de calcul : la densit des statistiques d'ordre. Soient X1 , . . . , Xn des variables


alatoires i.i.d toutes de loi densit f sur R. Alors on peut montrer que pour i 6= j (1 i, j n),
P (Xi = Xj ) = 0. Pour montrer ceci, on commence par remarquer que le couple (Xi , Xj ) est
une variable alatoire densit qui est donne par (x, y) 7 f (x)f (y). De plus on a l'galit
P(Xi = Xj ) = E (1D (Xi , Xj )) o D = {(x, y) R2 : x = y}. Avec l'abus de notation dj
utilis auparavant, on pourrait aussi crire 1D = 1x=y . Appliquons maintenant le thorme de
transfert. On a
Z
E (1D (Xi , Xj )) =

Z

Z
1D (x, y)f (x)f (y)dxdy =

f (y)


f (x)dx dy,

Ry

la deuxime galit rsultant du throrme de Fubini. Comme pour tout y , y f (x)dx = 0, on


obtient bien P (Xi = Xj ) = 0. On peut mme armer que

P (i6=j {Xi = Xj })

X
i6=j

58

P(Xi = Xj ) = 0.

Posons B = i6=j {Xi = Xj }. Pour B c , les valeurs X1 (), . . . , Xn () sont toutes distinctes.
Pour tout B , soit alors : {1, . . . , n} {1, . . . , n} une permutation telle que X(1) () <
. . . < X(n) () ( dpend de ) et posons

1 i n.

X(i) () = X(i) (),

Si B , on pose X(i) () = 0 pour 1 i n. Nous allons dterminer la densit du vecteur alatoire X(1) , . . . , X(n) . Remarquons au passage que pour B c , on a X(1) () =

min1in Xi () et X(n) () = max1in Xi (). Soit A B(Rn ). Posons X (o) = X(1) , . . . , X(n)
et X = (X1 , . . . , Xn ). On a alors




P X (o) A
= P {X (o) A} B c

X 
=
P {X(1) < . . . < X(n) } {(X(1) , . . . , X( n) ) A

Sn

Z
1x1 <...<xn f (x1 ) f (xn )dn (x1 , . . . , xn ).

= n!
A

Commentons ces galits. La premire galit est due au fait que P(C) = P(C B c ) pour tout
C A car P(B c ) = 1. La deuxime galit est due au fait que



B c = Sn X(1) < . . . < X(n) ,
o on a not Sn comme tant l'ensemble de toutes les permutations de {1, . . . , n}. De plus cette
runion est disjointe. La dernire galit est due au thorme de transfert et au fait que pour
tout Sn donn, le nuplet X(1) , . . . , X(n) a la mme loi que X .
Finalement, on voit que X (o) est densit. Cette densit est donne par

(x1 , . . . , xn ) 7 n!1x1 <...<xn f (x1 ) f (xn ).


4.3

Les calculs de lois en pratique.

Dans cette section, nous donnons quelques exemples de calculs de lois dans diverses situations.
 Variable discrte. Pour connaitre la loi, on calcule la probabilit de chaque valeur possible. Prenons l'exemple de Y = [X] (partie entire de X ) lorsque X suit une loi exponetielle de paramtre . L'ensemble des valeurs possibles pour Y est N. Si n N, on
a

n+1

P (Y = n) = P (n X < n + 1) =

exp(x)dx = exp(n) exp((n + 1)).


n

Ainsi Y suit une loi gomtrique de paramtre p = 1 exp().


Variable relle densit. Si X est une variable alatoire relle densit et que g est
une fonction bijective susamment rgulire, la loi de Y = g(X) sera une loi densit
que l'on peut dterminer en utilisant un changement de variables dans l'intgrale. Prenons
un exemple. On a mentionn sans le prouver qu'une variable alatoire Y suit une loi de
Weibull de paramtres , , si Y = X 1/ + = g(X) o X suit une loi exponentielle de
paramtre 1. Calculons alors la densit de Y . Pour cela, on pose h = 1A pour un borlien
A B(R). Le thorme de transfert donne

Z
E (h(Y )) = E (h g(X)) =
59

h (g(x)) 1x>0 exp(x)dx.

Eectuons ensuite le changement de variables y = g(x) (g est continument drivable ainsi


y 
que sa rciproque de ]0, [ sur ], +[) ce qui donne x = g 1 (y) =
. On obtient

alors
 ! 
1

Z

E (h(Y )) =

h(y)1y> exp

dy.

On retrouve l'expression de la densit d'une loi de Weibull.


Il galement possible de retrouver ce rsultat en calculer la fonction de rpartition FY :
R [0, 1] dnie par FY (y) = P (Y y) partir de la fonction de rpartition de X . Ici,
nous avons pour y > ,

FY (y) = P X

1/

 !

 !

+ y =P X


= 1 exp

 !
.

Ainsi, si y > , FY est drivable en y et on a

FY0 (y)


= exp

1
.

De plus si y < , on a FY (y) = 0 donc FY0 (y) = 0. Lorsque une fonction de rpartition F
est continue, continument drivable sur un intervalle I ouvert et nulle gauche de I (si
la borne infrieure de I est > ) et valantR 1 droite de I (si la borne suprieure de I
z
est < +), on a automatiquement F (z) = F 0 (u)du et F 0 est une densit de la loi.
On retrouve donc bien le rsultat prcdent.
 Calcul d'esprance. On utilise le thorme de transfert et le thorme de Fubini (lorsque
plusieurs variables sont en jeu). Par exemple, si X est une variable alatoire admettant
une densit fX et h une fonction mesurable valeurs relles, on a (sous les hypothses du
thorme de transfert)
Z

E (h(X)) =


h(x)fX (x)dx.

Image d'un couple de variables alatoires densit par une application. Lorsque

l'application est bijective, on peut utiliser la formule du changement de variables. Voici


un exemple de calcul. Soit (X, Y ) un couple de variables alatoires suivant la loi uniforme
sur le disque unit de R2 , c'est dire de densit dnie par

fX,Y (x, y) =

1
1 2 2 .
x +y <1

Soit R et le rayon et l'angle associs au point (X, Y ) (coordonnes polaires du point


(X, Y )). On a

(X, Y ) = (R cos(), R sin()) = (R, ).


Cherchons la loi du couple (R, ). Pour une fonction h : R2 R mesurable borne, on a
en utilisant le thorme de transfert


E (h(R, )) = E h 1 (X, Y )
Z
1
=
h 1 (x, y) 1x2 +y2 <1 dxdy

Z
1
=
h 1 (x, y) 1x2 +y2 <1 dxdy

B
o B = R2 \ (R {0}). On pose (r, ) = 1 (x, y) ce qui donne (x, y) = (r, ). On a
dj voqu au chapitre prcdent que : A B tait continument direntiable que sa
60

rciproque avec A = R+ ] , [ et J(r, ) = r . On remplace alors (x, y) par (r, ) dans


l'intgrale, le domaine d'intgration B par A et dxdy par |J(r, )|drd . On obtient

Z
h(r, )1r2 <1 rdrd =

E (h(R, )) =

h(r, )r10<r<1 1<< drd.

On voit alors que R et sont des variables alatoires indpendantes et en renormalisant, on


1
voit que f = 2
1],[ ce qui signie que suit la loi uniforme sur l'intervalle [, ]. De
plus la denst de R est donne par fR (r) = 2r10<r<1 . Ces densits marginales pouvaient
tre retrouver directement en utilisant la dnition intuitive de la loi uniforme. En eet
(A)
la probabilit d'un borlien A inclus dans le disque est 2 . Ainsi pour 0 < r < 1, la
2
probabilit P(R r) = r (aire du disque de centre 0 et de rayon r ) correspond bien
la fonction de rpartition au point r de la loi trouve. De plus si ] , [, on a
P ( ) = +
2 (aire du secteur angulaire entre et ) ce qui correspond bien la
fonction de rpartition de la loi uniforme sur l'intervalle [, ].
 Loi d'une fonction d'une variable densit et d'une variable discrte. Pour
calculer la loi d'une variable alatoire Z = F (X, Y ) valeurs dans Rd o X est discrte
et Y est une variable densit indpendante de X , on se donne une fonction h mesurable
borne arbitraire (par exemple une indicatrice) et on peut valuer l'esprance de h(Z) de
la faon suivante.

E (h(Z)) = E

h (F (x, Y )) 1X=x )

xval(X)

E (h (F (x, Y )) 1X=x )

xval(X)

E (h (F (x, Y ))) P (X = x) .

xval(X)

La deuxime galit se justie l'aide du thorme de Fubini car h est borne et la


troisime galit est due l'indpendance de X et de Y . On poursuit alors le calcul de la
loi de F (x, Y ) en utilisant ventuellement un changement de variable.
Supposons par exemple que Z = (1X)Y1 +XY2 o Y = (Y1 , Y2 ) est un couple de variables

alatoires relles indpendant de X B(p) et tel que Y1 N 1 , 12 , Y2 N 2 , 22 .
En notant f1 (resp. f2 ) la densit de Y1 (resp. Y2 ), on a alors

E (h(Z)) = (1 p)E (h(Y1 )) + pE (h(Y2 ))


Z
Z
= (1 p) h(z)f1 (z)dz + p h(z)f2 (z)dz
Z
=
h(z) ((1 p)f1 (z) + pf2 (z)) dz.
La loi de Z est donc une loi densit fZ donne par un mlange des deux densits f1 et
f2 (voir Figure 4.1). Remarquons que si f1 = f2 alors on a fZ = f1 et Z N m1 , 12 .
On peut aussi obtenir des lois mixtes : par exemple la variable alatoire X = Y o Y est une
variable alatoire de densit f sur R, indpendante de  B(p), vrie pour une fonction h
mesurable borne,

E (h(X)) = E (h(0)1=0 ) + E (h(Y )1=1 )


Z
= h(0)(1 p) + p h(y)f (y)dy
Z
=
h(y) ((1 p)d0 (y) + pf (y)dy) .
On a donc PX = (1 p)d0 + pf .
61

4.1: Densit mlange de deux densits gaussienne de moyennes respectives 3 et 3 et de


variance 1
Fig.

4.4

Densits conditionnelles.

Dnition 18

Soit (X, Y ) un couple de variables alatoires valeurs dans Rd Rk et dont la


loi admet la densit fX,Y . Soit y Rk tel que fY (y) 6= 0. On appelle loi conditionnelle de X
sachant Y = y (et on note loi de X|Y = y ) la loi de probabilit qui possde la densit note
fX|Y (|y) et qui est dnie par
fX|Y (x|y) =

fX,Y (x, y)
,
fY (y)

x Rd .

On dit que fX|Y (|y) est la densit conditionnelle de X sanchant Y . Lorsque y Rk vrie
fY (y) = 0, on convient de dnir la loi de X|Y = y par une mesure de probabilit de densit
arbitraire g sur Rd et on pose fX|Y (|y) = g .
On dnit de faon analogue la loi de Y |X = x pour x Rd . On peut motiver la dnition
prcdente partir des probabilits conditionnelles entre venements. Pour simplier, suppoP(XA,Y =y)
sosns d = k = 1. On ne peut pas dnir P (X A|Y = y) partir du quotient
, le
P(Y =y)
numrateur et le dnominateur tant tous deux nuls. Un bon moyen pour mesurer l'inuence
d'une valeur y de Y sur celles de X consiste regarder la limite des probabilits conditionnelles

P (X A|y  < Y < y + ) =

P (X A, y  < Y < y + )
,
P (y  < Y < y + )

(4.1)

lorsque  0. Si la densit est non nulle dans un voisinnage arbitrairement petit de y , ces
quotients sont bien dnis. On a alors

R y+ R
P (X A|y  < Y < y + ) =
=

y

A fX,Y (x, v)dx


R y+
y fY (v)dv

G(y + ) G(y )
,
F (x + ) F (x )
62

dv

Rz

o on a pos G(z) = A fX,Y (x, v)dx dv et o F dsigne la fonction de rpartition de X .


En divisant par 2, on a sous rserve de drivabilit

G0 (y)
=
lim P (X A|y  < Y < y + ) = 0
0
F (y)

A fX,Y (x, y)dx

fY (y)

On obtient donc l'intgrale sur A de la densit conditionnelle dnie prcdemment.

Notations.

Vu la remarque prcdente, on notera P (X A|Y = y) = A fX|Y (x|y)dx. La


fonction x 7 P (X x|Y = y) est appele fonction de rpartition
R conditionnelle de X|Y = y .
De plus, lorsque elle est bien dnie, on notera E (X|Y = y) = xfX|Y (x|y)dx la moyenne de
la loi conditionnelle de X|Y = y .

Proposition 22

Si X une variable alatoire intgrable et valeurs relles alors la moyenne


conditionnelle de la loi de X|Y = y est bien dnie, et on a
Z
E(X) = E (X|Y = y) fY (y)dy.

Preuve.

Si X est intgrable, on a en utilisant le thorme de Fubini

Z
E(X) =

xfX (x)dx
Z

xfX,Y (x, y)dxdy


Z

xfX|Y (x|y)fY (y)dxdy


Z

E (X|Y = y) fY (y)dy.

Relation avec l'indpendance. Lorsque X et indpendant de Y , en prenant fX,Y (x, y) =


fX (x)fY (y), on voit que la densit conditionnelle de la loi de X|Y = y ne dpend pas de y .
Exemple de calcul.

Soient X et Y deux variables alatoires indpendantes toutes deux de


loi exponentielle de paramtre > 0. Posons Z = X + Y et calculons une densit de la loi
conditionnelles de X|S = s. Cherchons d'abord une densit pour le couple (X, S). Pour cela, on
se donne une fonction h : R2 R mesurable borne (du type h = 1A pour A B(R2 )). On a
alors

E (h(X, S)) = E (h(X, X + Y ))


Z
=
h(x, x + y)2 exp ((x + y)) 1R+ (x)1R+ (y)dxdy

Z Z
=
h(x, x + y)2 exp ((x + y)) 1R+ (y)dy 1R+ (x)dx

Z Z
2
=
h(x, s) exp (s) 1s>x ds 1R+ (x)dx.
La troisime galit est due un changement de variables (y s = x + y pour x x) ; on aurait
aussi eectuer directement un changement de deux variables (x, y) (u, s) = (x, y) = (x, x+y)
63

qui donnerait J1 (u, s) = 1.


On voit que la densit fX,S du couple (X, S) est donne par

fX,S (x, s) = 2 exp (s) 1sx0 .


Calculons maintenant la densit conditionnelle fX|S (|s). On a dj vu dans ce chapitre que

fS (s) = 2 exp (s) s1R+ (s).


Ainsi pour s > 0 donn, on a fX,S (x, s) = 2 exp(s)1[0,s] (x) et fS (s) = 2 exp(s)s, ce qui
donne

1
fX|S (x|s) = 1[0,s] (x).
s
On reconnait la loi uniforme sur l'intervalle [0, s]. En particulier E (X|S = s) = 2s .

64

Chapitre 5
Les outils analytiques classiques en
probabilit

5.1

La fonction de rpartition

Pour une variable alatoire X prenant des valeurs relles, la fonction FX : R [0, 1] dnie
par FX (x) = P (X x) est appele la fonction de rpartition de X . Donnons deux exemples de
fonction de rpartition.
 Lorsque X suit une loi exponentielle de paramtre , alors FX (x) = (1 exp(x)) 1x>0 .
 Lorsque X suit une loi de Bernoulli de paramtre p, alors FX (x) = (1 p)10x<1 + 1x1 .
Le dernier exemple montre qu'une fonction de rpartition n'est pas toujours une fonction continue. Quelques-unes des proprits des fonctions de rpartion avaient t mentionnes sans dmonstration lors du chapitre Mesure et Intgration.
5.1.1

Proprits gnrales des fonctions de rpartition

Proposition 23

Soit F la fonction de rpartition d'une variable alatoire X . On a les proprits

suivantes.
1. F est une fonction croissante qui vrie 0 F (x) 1, limx+ F (x) = 1 et limx F (x) =
0.
2. F est continue droite. De plus lim F (y) = P (X < x). Par consquent F est continue
<

y x

lorsque pour tout x R, le saut de F au point x, s(x) = P (X = x), est nul.

Preuve.
1. Si x < y , on a {X x} {X y}, ce qui entraine F (x) = P(X x) P(X y) = F (y).
F est donc bien croissante. Soit ensuite (xn )n une suite croissante de nombres rels positifs
et de limite +. Posons pour n N, An =] , xn ]. Alors (An )n est une suite croissante
d'intervalles dont la runion est R. D'aprs la proprit de continuit suprieure de la
mesure PX , on a

lim F (xn ) = lim PX (An ) = PX (R) = 1.

n+

n+

On aurait pu tout aussi bien utiliser la continuit suprieure de P en posant An = {X


xn }. En posant Bn =] , xn ] et en utilisant la continuit infrieure de PX , on obtient

lim F (xn ) = lim PX (Bn ) = PX () = 0.

n+

n+

Ceci prouve bien que les limites annonces pour F .


65

2. La continuit droite est une consquence de la continuit infrieure, car si (xn )n est une
suite dcroissante de limite x, alors

lim F (xn ) = lim PX (] , xn ]) = PX (] , x]) = F (x).

n+

n+

On a utilis le fait que ] , x] = +


n=0 ] , xn ].
Si maitenant (xn )n est une suite strictement croissante de nombres rels convergeante vers
x, alors
+
n=0
] , xn ] =] , x[.

La continuit suprieure de PX entraine que

lim F (xn ) = PX (] , x[) = P (X < x) .

n+

Ainsi le saut s(x) = P(X = x) de F au point x vaut aussi

s(x) = P(X x) P(X < x) = F (x) lim F (y).


<

y x

Ainsi F est continue si et seulement si s(x) = 0 pour tout x R.


On voit donc que la fonction de rpartition d'une variable alatoire densit est toujours
continue. En revanche, la fonction de rpartition d'une variable alatoire X discrte, telle que
P
PX = +
n xn et o (xn )n est une suite strictement croissante de nombres rels, est dnie
n=0 pP
par FX (x) =
n:xn x pn : FX est donc constante entre les xn et le saut au point x est nul sauf
si x = xn auquel cas s(xn ) = pn .
On a dj voqu que la fonction de rpartition permettait d'obtenir la densit en calculant sa
drive. Il faut cependant que la variable alatoire ait une densit (en particulier F doit tre
continue) : driver la fonction de rpartition d'une variable alatoire discrte donne une fonction
nulle entre les valeurs xn telles que P(X = xn ) > 0, ce qui ne correspond videmment pas
une densit de probabilit par rapport la mesure de Lebesgue. En revanche cette approche
peut tre utilise pour toute fonction de rpartition F continue, continument drivable sur un
intervalle I =]a, b[ et gale 1 (resp. 0) sur [b, +[ (resp. ] , a[). Par exemple, si X suit une
loi N (0, 1), quelle est la loi de X 2 ? En notant la fonction de rpartition de X , on a FX 2 (x) = 0
si x 0 et si x > 0 :

FX 2 (x) = P X 2 x = P x X x = ( x) ( x) = 2( x) 1.
En utilisant que 0 (t) = 1 exp(t2 /2), on obtient alors
2

FX0 2 (x) =

1
exp(x/2).
2x

Ainsi X 2 suit une loi (1/2, 2).


5.1.2

Fonction de rpartition inverse et simulation

Soit F : R [0, 1] une fonction de rpartition. On dnit alors une fonction G :]0, 1[ R
par

G(t) = inf{x R : F (x) t},

t ]0, 1[.

G est appele la fonction de rpartition inverse de F . Voici les proprits de base de G.

Proposition 24

1. G est une fonction croissante. Lorsque F est strictement croissante et


continue alors G = F 1 .
66

2. Si F est continue alors on a toujours F (G(t)) = t pour t ]0, 1[.


3. Si F est strictement croissante, alors G (F (x)) = x pour tout x R.
4. Dans le cas gnral, on a toujours l'quivalence
F (x) t x G(t).
Pour voir que G n'est pas toujours l'inverse de F , on peut observer le comportement de la
fonction de rpartition dans deux cas pathologiques : lorsque F est constante juste aprs G(t)
(voir Figure 5.1) ou lorsque F est discontinue en x (Figure 5.2).

Fig.

5.1: F constante au voisinage de x

Fig.

5.2: F discontinue en x

Preuve.
1. Le fait que G soit une fonction croissante est immdiat car si 0 < t1 < t2 < 1,

{x R : F (x) t2 } {x R : F (x) t1 }.
La deuxime assertion rsulte des points 2. et 3..
2. Remarquons que l'on a toujours F (G(t)) t que F soit continue ou pas car si (xn )n est
une suite de points strictement dcroissante vers G(t), alors F (xn ) t par croissance de
F et en utilisant la dnition de G, ce qui donne

lim F (xn ) = F (G(t)) t,

par continuit droite de F .


Ensuite, si x < G(t) alors F (x) t. Si F est continue en G(t), on en dduit que F (G(t))
t en faisant tendre x vers G(t). On a donc bien F (G(t)) = t.
3. Remarquons que l'on a toujours G (F (x)) x pour tout x tel que 0 < F (x) < 1. Ceci
est du la dnition de la borne infrieure car x appartient {u R : F (u) F (x)}.
Supposons de plus F strictement croissante. Alors si x R, F (x) ]0, 1[. Si x0 < x
alors F (x0 ) < F (x) et donc x0 G (F (x)). En faisant tendre x0 vers x, nous obtenons
x G (F (x)). On a donc bien G (F (x)) = x.
67

4. Si F (x) t alors par dnition de la borne infrieure, on a G(t) x. Si maintenant


G(t) x, la croissance de F assure que

F (x) F (G(t)) t,
o la deuxime ingalit a t prouv lors de la preuve du point 2. 
La fonction de rpartition inverse permet de simuler une variable alatoire relle X de loi
donne partir d'une variable alatoire de loi uniforme sur [0, 1].

Proposition 25 Soit U une variable alatoire de loi uniforme sur [0, 1] et F une fonction de
rpartition donne. Alors la variable alatoire G(U ) a pour fonction de rpartition F .
Preuve.

D'aprs la proposition prcdente, on a pour x R

P (G(U ) x) = P (U F (x)) = F (x),


ce qui prouve le rsultat.

Exemple.

Pour simuler une variable alatoire de loi exponentielle de paramtre partir


d'une variable alatoire U de loi uniforme sur [0, 1], on peut remarquer que si F (x) = 1
exp(x) alors pour t ]0, 1[, on a

G(t) = inf{x : F (x) = t} =

ln(1 t)
.

La variable alatoire G(U ) suit alors la loi exponentielle de paramtre . Remarquons que 1 U
suit aussi une loi uniforme sur [0, 1] et on peut tout aussi bien considrer la variable alatoire
ln(U )/.
La fonction de rpartition inverse n'est pas toujours facile calculer et parfois d'autres mthodes
de simulation sont prfrables.

Rciproque partielle de la Proposition 25.

Soit X une variable alatoire de fonction de


rpartition F continue sur R. Alors la variable alatoire F (X) suit une loi uniforme sur [0, 1].
En eet, on a pour 0 < t < 1 :

P (F (X) t) = P (X G(t)) = 1 F (G(t)) = 1 t.


En notant H la fonction de rpartition de F (X), on voit alors que

1
1 H(t) = P (F (X) > t) = lim P F (X) t +
n
n


= 1 t,

en utilisant la continuit suprieure de la mesure. Ainsi H(t) = t pour 0 < t < 1, ce qui prouve
que F (X) a la mme loi qu'une variable alatoire de loi uniforme sur [0, 1].
5.2
5.2.1

Covariance et moments
Moments d'une variable alatoires relle

Soit
alatoire valeurs relles. Les moments
 X une variable
 de X sont les nombres mk =
k

k
E X pour k N . Le nombre mk est bien dni si E |X| < +. Il est possible qu'aucun
moment n'existe (c'est par exemple le cas si X suit une loi de Cauchy). D'autres variables
68

alatoires peuvent au contraire admettre des moments tout


 ordrek k ; c'est le cas si X est une
k
variable alatoire borne par M > 0 car dans ce cas E |X| M .
Si XN (0, 1), alors X admet galement des moments tout ordre car si k N et on peut mme
les calculer : les moments d'ordre k impair sont nuls car la fonction intgrer est impaire, tandis
que si k = 2p pour p 1, une intgration par parties montre que m2p = (2p 1)m2p2 ce qui
(2p)!

donne au nal m2p = 2p p! pour p N (en particulier on a m4 = 3).


Voici quelques proprits importantes concernant les moments.

Proposition 26

Soient X et Y deux variables alatoires toutes deux valeurs relles.

1. Si X admet un moment d'ordre k alors X admet un moment tout ordre j k .


2. Si X et Y admettent un moment d'ordre k , alors Z = X + Y admet galement un moment
d'ordre k .
3. Si X et Y admettent un moment d'ordre 2, alors XY admet un moment d'ordre 1 et on a
l'ingalit suivante appele ingalit de Cauchy-Schwarz :
p
p
E (|XY |) E (X 2 ) E (Y 2 ).
4. Si X et Y sont indpendantes et admettent toutes deux un moment d'ordre k , alors le
produit XY aussi et on a

   

E XkY k = E Xk E Y k .
5. Si X est une variable alatoire intgrable et : R R une fonction convexe telle que (X)
soit intgable, alors on a l'ingalit dite de Jensen :
(E(X)) E ((X)) .
Voici enn deux ingalits classiques faisant intervenir les moments.

Proposition 27

Soit X une variable alatoire valeurs relles et k N . Alors pour tout t > 0,

E |X|k
.
P (|X| t)
tk

Lorsque p = 1 on parle d'ingalit de Markov. Lorsque p = 2 et X est de carr intgrable, on en


dduit l'ingalit dite de Tchebychev :
P (|X E(X)| t)

Var (X)
.
t2

Preuve.

On a l'ingalit |X|p tp 1|X|t et l'ingalit est obtenue en prenant l'esprance


de part et d'autre de cette ingalit. L'ingalit de Tchebychev est une consquence de cette
ingalit applique X E(X) au lieu de X et pour p = 2.
5.2.2

Covariance et corrlation

La covariance entre deux variables alatoires X et Y valeurs relles et toutes deux de carr
intgrable est dni par
Cov (X, Y ) = E ((X E(X))(Y E(Y ))) = E(XY ) E(X)E(Y ).
69

Cette expression a bien un sens en vertu de l'ingalit de Cauchy-Schwarz. Remarquons que


Cov (X, Y ) = Cov (Y, X). On a galement les proprits de bilinarit
Cov (X1 + X2 , Y ) = Cov (X1 , Y )+ Cov (X2 , Y ),

Cov (X, Y1 +Y2 ) = Cov (X, Y1 )+ Cov (X, Y2 ),

valable pour des variables alatoires X1 , X2 , Y1 , Y2 galement de carr intgrable. De plus pour
tous rels a, b, c, d, on a
Cov (aX + b, cY + d) = ac Cov (X, Y ).
En particulier, les translations laissent invariante la covariance. La covariance permet de quantier la liaison entre deux variables alatoires avec le coecient de corrlation.

Proposition-Dnition 3

Le coecient de corrlation linaire de deux variables alatoires X


et Y de carr intgrable est dni par
r(X, Y ) =

Cov (X, Y )
,
(X)(Y )

p
Var (X) dsigne l'cart-type de X . De plus, |r(X, Y )| 1 et r(X, Y ) = 1 si et
o (X) =
XE(X)
E(Y )
seulement si (X) = Y (Y
) presque srement.

Preuve.

On pose T =

XE(X)
(X)

et S =

Y E(Y )
(Y ) .

Alors T et S sont des variables alatoire de

moyenne nulle et de variance 1. De plus Cov (X, Y ) = E(ST ). L'ingalit de Cauchy-Schwarz


guarantit que

|r(X, Y )| E(|ST |) 1.
Supposons que r(X, Y ) = 1. Alors E(ST ) = 1 et donc


E (S T )2 = E(S 2 ) + E(T 2 ) 2E(ST ) = 0.
On en dduit alors que P(S = T )= 1 en utilisant les rsultats du premier chapitre. Si r(X, Y ) =
1, on a de mme E (S + T )2 = 0 ce qui donne P(S = T ) = 1. Le sens rciproque de
l'quivalence est vident. 

Remarque.

Lorsque r(X, Y ) = 0, on parle de variables alatoires dcorrles. L'indpendance


entraine bien sr la dcorrlation mais le contraire est faux : les variables alatoires X et Y = X
o X N (0, 1) et P( = 1) = 1 P( = 1) = 21 sont dcorrles mais pas indpendantes vu
que X 2 = Y 2 .
Le coecient de corrlation sera plutt positif si les deux variables ont tendance s'carter de
leur moyenne dans le mme sens et ngatif si elles ont tendance s'carter de leur moyenne en
sens contraire. En revanche, un coecient de corrlation nul dnote une absence claire de liaison

linaire : avec les notations de la preuve prcdente l'cart quadratique minimal E (T aS)2
est atteint pour a = r(X, Y ) et vaut E(T 2 ) r(X, Y )2 qui est clairement maximale lorsque
r(X, Y ) = Cov (X, Y ) = 0. Cependant il peut exister une liaison non linaire comme dans le
contre-exemple ci dessus.
5.3

Fonction caractristique d'une variable alatoire

Pour deux vecteurs u et v dans Rd reprsents l'aide de matrices colonnes, nous noterons

uT la transpose de u (qui est donc une matrice ligne) et le produit uT v =

d
X
i=1

produit scalaire canonique de u et de v .


70

ui vi dsignera le

Dnition 19
X

Si X est une variable alatoire valeurs dans Rd , sa fonction caractristique


: Rd C est dnie par

X (t) = E exp(itT X) ,
t Rd .

L'esprance d'une variable alatoire Z pouvant prendre des valeurs complexes est dnie par

E ( Re (Z)) + iE ( Im (Z)) .
Ainsi

X (t) = E cos tT X



+ iE sin tT X



est toujours bien dnie car les fonctions cosinus et sinus sont bornes.

Exemples

 Si X suit une loi de Poisson de paramtre > 0. Alors

X (t) =

+
X

exp(itk) exp()

k=0

k
= exp ((exp(it) 1)) .
k!

On rappelle que pour un nombre complexe z , on a exp(z) =

+ k
X
z
k=0

k!

 Supposons maintenant que X suive une loi gaussienne centre rduite. Le calcul direct de
la fonction caractristique est plus dlicat. On peut faire le calcul en drivant X . Nous
admettrons la possibilit de driver sous le signe esprance, ce qui donne

0X (t) = E (iX exp(itX)) .


On calcule alors cette dernire expression l'aide d'une intgration par parties (les calculs
pour des fonctions valeurs complexes sont les mmes que pour des fonctions valeurs
relles). On a alors
Z

ix
exp(itx) exp(x2 /2)dx
2


Z
i +
2
= exp(itx) exp(x /2)
t exp(itx) exp(x2 /2)dx.
2

On trouve donc 0X (t) = tX (t) ce qui donne X (t) = exp t2 /2 .
On peut en dduire la fonction caractristique de la variable Y = m + X N (m, 2 ) :
 2 2
t
Y (t) = exp(itm)X (t) = exp(itm) exp
.
2
0X (t) =

La fonction caractristique et les moments.

Il est possible de montrer (mais nous l'admettrons) que si une variable alatoire valeurs relles X admet un moment d'ordre n N ,
alors la fonction caractristique est n fois drivable et les drives peuvent tre obtenues en
drivant sous le signe E. Ainsi pour k = 1, . . . , n, on a



(k)
X (t) = ik E X k exp(itX) ,
(k)

ce qui donne mk = X (0). On pourra vrier titre d'exercice qu'on retrouve par exemple la
moyenne et la variance d'une loi de Poisson en drivant deux fois la fonction caractristique.
71

Proposition 28

La fonction caractristique d'une variable alatoire valeurs dans Rd est une


fonction continue telle que X (0) = 1. De plus si Y : Rd est une autre variable alatoire telle
que Y (t) = X (t) pour tout t Rd , alors X et Y ont la mme loi. La fonction caractristique
caractrise donc compltement la loi.
Evidemment deux variables alatoires ayant mme loi ont mme fonction caractristique d'aprs
le thorme de transfert. La preuve de l'implication inverse donne dans cette proposition est

Tx
un peu technique
et
sera
admise.
On
retiendra
que
si
les
intgrales
des
fonctions
x

7
cos
t

et x 7 sin tT x concident pour deux lois alors ces lois sont gales. Aussi on peut en dduire
la proprit suivante : si E (h(X)) = E (h(Y )) pour toute fonction h : Rd R continue borne,
alors PX = PY (les variables X et Y ont la mme loi).

La fonction gnratrice des moments.

Pour une variable alatoire X discrte valeurs


dans N, on utilise plutt la fonction gnratrice GX dnie par
X

GX (s) = E s

+
X

sk P (X = k) ,

0 < s < 1.

k=0

Une gnralisation de cette notion est aux variables alatoires valeurs dans Rd est donne par

LX (t) = E exp tT X



t Rd .

Ces deux notions vitent le recours aux nombres complexes et les moments peuvent tre aussi
obtenus par drivation. Le problme est que contrairement la fonction caractristique qui est
toujours dnie, la fonction gnratrice des moments ne l'est pas toujours si la variable alatoire
prend des valeurs ngatives et/ou n'est pas borne.

Proposition 29

Deux variables alatoires X et Y valeurs respectives dans Rd et Rp sont


indpendantes si et seulement si

p
d
X
X
(X,Y ) (u, v) = E exp(
ui Xi +
vj Yj ) = X (u)Y (v),
(u, v) Rp Rd .
i=1

j=1

Evidemment la condition ncessaire


 est videntecar si X et Y sont indpendantes alors il en va
de mme des variables exp iuT X et exp iv T Y et l'esprance de leur produit concide avec le
produit de leur esprance. La preuve de la condition susante est un peu technique et ne sera
pas aborde.

72

Chapitre 6
Loi et esprance conditionnelle

6.1

Gnralisation des lois conditionnelles

Dans cette section, nous gnralisons la notion de loi conditionnelle pour un couple de variables alatoires dont la loi admet une densit par rapport une mesure produit. Soient (X, Y )
un couple de variables alatoires valeurs dans Rd Rp et et deux mesures nies sur
Rd et Rp respectivement. On suppose que la loi de (X, Y ) admet une densit note fX,Y par
rapport la mesure produit , autrement dit

Z
P (X A, Y B) =

fX,Y (x, y)d ( ) (x, y),

 
A B B Rd B(Rp ).

(6.1)

AB

Rappelons que le thorme de Fubini guarantit que

Z Z



Z Z
fX,Y (x, y)d(y) d(x) =
fX,Y (x, y)d(x) d(y)

P (X A, Y B) =
A

et nous remplacerons souvent la notation d ( ) (x, y) par d(x)d(y). Dans ce cas, les lois
de X et de Y sont donnes par

Z Z
P (X A) =


fX,Y (x, y)d(y) d(x),

A B(Rd ).


fX,Y (x, y)d(x) d(y),

B B(Rp ).

Z Z
P (Y B) =
B

Ainsi la loi de X admet une densit fX par rapport qui est donne par

Z
fX (x) =

fX,Y (x, y)d(y),

x Rd .

De mme, la loi de Y admet une densit fY par rapport qui est donne par

Z
fY (y) =

fX,Y (x, y)d(x),

y Rd .

Lorsque et sont les mesures de Lebesgue, on retrouve les lois densit prcdemment
tudies. Lorsque et sont les mesures de comptage sur N, on retrouve les couples de variables
alatoires discrtes : la densit fX,Y peut alors tre dnie par fX,Y (x, y) = P (X = x, Y = y)
pour (x, y) R2 . Un exemple de cas non tudi prcdemment est celui ou dsigne la mesure
de Lebesgue sur R et dsigne la mesure de comptage sur N. Pour ce dernier cas, on pourra
remarquer que
Z

P (X A, Y = y) =

fX,Y (x, y)dx,


A

et que fY (y) = P(Y = y) pour tout y N.


73

A B(R)

Dnition 20

Soit (X, Y ) un couple de variables alatoires dont la loi vrie (6.1). Soit galement g une densit de probabilit quelconque pour la mesure . On dnit alors la loi conditionnelle de X|Y = y comme tant la mesure de probabilit de densit note fX|Y (|y) par rapport
la mesure , densit qui est dnie par
fX|Y (x|y) =

fX,Y (x, y)
,
fY (y)

x Rd ,

lorsque fY (y) est dirent de 0. Si y Rp vrie fY (y) = 0, on dnit fX|Y (|y) = g .


Lorsque et sont ou bien toutes deux des mesures de Lebesgue ou bien toutes deux
la mesure de comptage sur N, on retrouve la dnition des lois conditionnelles donne pour
un couple de variables alatoires densit ou pour un couple de variables discrtes. Donnons
un exemple de situation o on est amen considrer des lois conditionnelles pour un couple
(X, Y ) densit par rapport au produit de la mesure de Lebesgue et de la mesure de comptage.
Supposons que l'on dispose de n machines pour eectuer un tche donne, les machines ont
des dures de vie X1 , . . . , Xn de lois de densits respectives f1 , . . . , fn . La probabilit que la
machine i soit choisie pour eectuer cette tche est pi . On observe uniquement une dure de vie
X sans savoir quelle machine a t choisie. Quelle est alors la probabilit que la machine i ait
t choisie ? On peut remarquer qu'il est possible de reprsenter X sous la forme

X=

n
X

Xi 1Y =i ,

i=1

o Y une variable alatoire indpendante de (X1 , . . . , Xn ) et telle que P (Y = i) = pi pour


i = 1, . . . , n. Si A B(R) et i {1, . . . , n}, on a

Z
P (X A, Y = i) = P (Xi A, Y = i) = P(Xi A)pi =

pi fi (x)dx.
A

En posant fX,Y (x, y) = fy (x)py 1{1,...,n} (y), on voit que (X, Y ) a une densit par rapport ,
o dsigne la mesure de Lebesgue sur R et la mesure de comptage sur N. De plus la loi de
X|Y = i a la densit fi . On cherche ici la loi de Y |X = x. Nous avons

Z
fX (x) =

py fy (x)d(y) =

n
X

pj fj (x)

j=1

(la densit de X est donc donne par un mlange) et d'aprs la dnition de la loi conditionnelle,
on a si i = 1, . . . , n :

P (Y = i|X = x) =

pi fi (x)
n
X

pj fj (x)

j=1

Moyenne conditionnelle

En gardant les notations prcdentes, pour un couple de variable


alatoire (X, Y ) admettant une densit fX,Y par rapport une mesure produit et lorsque
X est une variable alatoire intgrable et valeurs relles, la moyenne conditionnelle est dnie
par
Z

E (X|Y = y) =

xfX|Y (x|y)dx.

Lorsque est la mesure de comptage sur N, on pourra remarquer que si P(Y = y) > 0 alors

E (X|Y = y) =
74

E (X1Y =y )
.
P(Y = y)

6.2

Esprance conditionnelle

L'objectif de la notion d'esprance conditionnelle peut tre rsum grossirement ainsi.


Lorsque une partie de l'information est disponible (des venements ou encore une variable alatoire, ce qui bien souvent revient au mme), on souhaite attribuer une valeur moyenne une
variable alatoire X non observe mais qui tienne compte de cette information (par exemple,
lors du lancer de deux ds, on sait juste que la somme est paire ou pas mais on ne connait pas
les numros sur les ds). L'esprance conditionnelle une sous-tribu est une variable alatoire
qui pourra tre construite partir de l'information disponible et qui sous certaines hypothses
sera la meilleure approximation de X au sens de la perte quadratique. Lorsque l'information disponible se rsumera une variable alatoire Y , la moyenne de la loi conditionnelle de X|Y = y
sera directement l'origine de cette variable alatoire.
6.2.1

Variable alatoire mesurable par rapport une sous-tribu

Soit B une sous-tribu de A. On dira qu'une variable alatoire Z : R est Bmesurable


si pour tous a b, l'venement {a Z b} appartient B . Ainsi la variable alatoire Z peut
tre construite uniquement l'aide des venements de B , en utilisant l'approximation par une
variable alatoire discrte (on renvoit au Chapitre 1 pour cette approximation).
De fa on image, B peut tre vue comme une quantit d'information disponible et les variables
alatoires Bmesurables comme toutes les fonctions qu'il est possible de construire partir de
cette information.
Donnons un premier exemple. Si B est la tribu engendre par un venement A de A, alors

B = {, A, Ac , } .
Si Z est une variable alatoire Bmesurable alors il existe deux nombres rels et tels que

Z = 1A + 1Ac .
En eet, si Z est constante et gale c, on peut prendre = = c. Si Z prend deux valeurs
distinctes a et b, on a la dcomposition

Z = a1Z=a + b1Z=b
et comme {Z = a}, {Z = b} B sont deux venements non vides et de runion , l'un vaut
A l'autre Ac et on pose , = a, b. Ensuite il n'est pas possible que Z prenne trois valeurs
distinctes car il n'y a pas trois lments distincts non vides et dirents de l'univers dans B .
Remarquons que lorsque A = ou A = , alors les variables alatoires Bmesurables sont
simplement les constantes.
Cet exemple se gnralise au cas d'une tribu B = ({A1 , A2 , . . . , An }) engendre par un nombre
ni d'venements A1 , . . . , An disjoints deux deux et de runion . Dans ce cas B est la tribu
constitue de toutes les runions formes partir des Ai et on peut montrer que qu'une variable
alatoire Bmesurable est de la forme

Z=

n
X

i 1Ai .

i=1

Passons maintenant au cas d'une tribu engendre par une variable alatoire.

Dnition 21

Si Y : Rd est une variable alatoire, la tribu engendre par Y est la tribu


note (Y ) et qui est dnie par
n
o
(Y ) = {Y A} : A B(Rd ) .
75

On pourra vrier titre d'exercice que la famille d'venements entre accolades donne dans
la dnition ci-dessus vrie bien la dnition d'une tribu. La tribu B = ({A1 , A2 , . . . , An })
engendre par un nombre ni d'venements A1 , . . . , An disjoints deux deux et de runion ,
est un exemple de ce type de tribu si on pose par exemple

Y =

n
X

(i 1)1Ai .

i=1

En particulier la tribu engendre par l'venement A concide avec la tribu engendre par la
variable alatoire 1A .

Remarque.

En fait, on peut toujours voir une tribu comme engendre par une variable alatoire mais ceci demande une dnition plus gnrale de la notion de variable alatoire qu'il n'est
pas question d'aborder dans ce cours. Par exemple en mathmatiques nancires, il existe la
notion d'une tribu engendre par des variables alatoires Zs , 0 s t qui reprsente l'ensemble
des prix de l'instant initial jusqu'au temps t > 0 : dans ce cas la variable alatoire sous-jacente
est valeurs dans un espace de fonction et pas dans Rd .

Lorsque une tribu B est gnre par une variable alatoire, on a une description plus parlante
des variables alatoires valeurs relles et Bmesurables.

Lemme 3 (lemme de Doob)

Soit Z : R une variable alatoire mesurable par rapport


la tribu B = (Y ) o Y : Rd est une variable alatoire. Alors, il existe une fonction
g : Rd R mesurable et telle que Z = g(Y ).
En d'autres termes, les variables alatoires (Y )mesurables concident avec les fonctionnelles
(mesurables) de Y .
6.2.2

Esprance conditionnelle par rapport une sous-tribu

Le thorme suivant est la base de la dnition de l'esprance conditionnelle. Pour simplier


les noncs nous introduisons l'ensemble L1B (resp. L2B ) constitu des variables alatoires U :
R, Bmesurables et intgrables (resp. dont le carr est intgrable, i.e E(U 2 ) < +).

Thorme 11

Soit X une variable alatoire valeurs relles et intgrable. Soit galement B


une sous-tribu de A. Alors il existe une variable alatoire Z L1B telle que pour tout A B, on
ait
(6.2)

E (1A X) = E (1A Z) .

Cette variable alatoire est unique l'galit presque sre prs : si Z 0 L1B qui vrie (6.2) alors
P (Z = Z 0 ) = 1.
En outre, si E(X 2 ) < + alors Z L2B et dans ce cas on a pour toute variable alatoire U L2B
(6.3)

E (U X) = E (U Z) ,

ainsi que l'ingalit




E (X Z)2 E (X U )2 .
(6.4)

Rciproquement, si E X 2 < + et Z L2B vrie (6.4) pour tout U L2B alors Z vrie (6.3)
(et donc galement (6.2).
76

Dnition 22

Conservons les hypothses du thorme prcdent. Alors toute variable alatoire


Z
satisfaisant (6.2) est appele une version de l'esprance conditionnelle de X sachant B.
Nous noterons alors abusivement E (X|B) toute version de l'esprance conditionnelle.
L1B

Lorsque la variable alatoire


 X est de2carr intgrable, l'esprance conditionnelle minimise l'cart
2
quadratique E (X U ) sur U LB et de plus, d'aprs le thorme prcdent, ce minimum est
unique l'galit presque sre prs. C'est pour cela que cette notion est souvent utilise pour
faire de la prvision en modlisation lorsqu'on souhaite prvoir une variable alatoire X non
observe partir de certains venements (ou variables alatoires) connus. Lorsque la variable
alatoire est simplement intgrable, cette proprit de minimisation n'est plus forcment valable :
l'esprance conditionnelle apparait alors comme une variable alatoire de L1B qui a la mme valeur
moyenne que X sur les venements de B (voir (6.2)). Reste savoir comment calculer l'esprance
conditionnelle en pratique. C'est ce que nous verrons un peu plus loin.

Quelques lments de preuve pour le Thorme 11.

 L'existence de la variable alatoire Z est dicile justier et est admise. Montrons


l'unicit. Si Z et Z 0 sont deux lments de L1B satisfaisant (6.2), alors en posant A =
{Z > Z 0 } qui est bien un venement de B , on a E (1A (Z Z 0 )) = 0 et la variable alatoire
V = 1A (Z Z 0 ) prend des valeurs positives. D'aprs les proprits de l'esprance, on a
P(V = 0) = 1. Mais {V = 0} = {Z Z 0 } et donc P(Z Z 0 ) = 1. En changeant le rle
de Z et Z 0 , on a aussi P(Z 0 Z) = 1. L'intersection de deux venements de probabilit 1
tant de probabilit 1, on conclut que P(Z = Z 0 ) = 1.
 Montrons ensuite que la variable alatoire Z du thorme vrie (6.3) lorsque X est de
carr intgrable. Il faut auparavant montrer que Z est de carr intgrable. Remarquons
qu'il est clair que par linarit, les galits (6.2) entraine que E(XU ) = E(ZU ) pour toute
variable alatoire U , Bmesurable et ne prenant qu'un nombre ni de valeurs. Considrons
alors une suite croissante (Vn )n d'lments de D+ (voir le Chapitre 1), Bmesurables et
convergeante point par point vers |Z|. Posons Un = (1Z0 1Z<0 ) Vn . Alors on a

E(Vn |Z|) = E(Un Z) = E(Un X)

p
p
E(Vn2 ) E(X 2 ),

o on a utilis l'ingalit de Cauchy-Schwarz. Comme Vn |Z| Vn2 , on en dduit E(Vn2 )


E(X 2 ) et comme (Vn2 ) est une suite croissante de D+ convergeante point par point vers
Z 2 , il rsulte de la dnition de l'esprance que :



E(Z 2 ) = lim E Vn2 E X 2 ,

(6.5)

ce qui prouve bien que E(Z 2 ) < +. Remarquons ensuite que si les galits (6.3) sont
valables pour U ne prenant qu'un nombre ni de valeurs alors, elles sont aussi valables
pour U borne : en eet, il est facile d'approcher U borne par une suite (Un ) de variables
alatoires ne prenant qu'un nombre ni de valeurs de sorte que

lim sup |Un () U ()| = 0.

n+

Ceci entraine que

|E(U X) E(U Z)| |E(U X) E(Un X)| + |E(Un Z) E(U Z)|


2 sup |Un () U ()| (E(|X|) + E(|Z|)) .

En faisant tendre n vers + on obtient les galits 6.3 pour des variables alatoires U
bornes. Ces galits s'tendent toutes les variables alatoires U L2B . En eet si U L2B
et n N , la variable alatoire Un = U 1|U |n est borne et on a E(Un X) = E(Un Z).
77

Montrons alors que limn E(Un X) = E(U X) (le mme raisonnement vaudra pour Z ).
Les proprits de l'esprance et l'ingalit de Cauchy-Schwarz assure que

|E(Un X) E(U X)| E (|X| |Un U |)

p
p
E(X 2 ) E ((U Un )2 ).

Montrons pour conclure que limn E (U Un )2 = 0. On a Sn = (U Un )2 = U 2 1|U |>n


et en posant Tn = U 2 1|U |n , on a

E(U 2 ) = E(Tn ) + E(Sn ).


Par convergence monotone (voir le chapitre Mesure et intgration), on a limn E(Tn ) =
E(U 2 ). On conclut alors que limn E(Sn ) = 0. On a de mme limn E(Un Z) = E(U Z)
et on prouve alors facilement (6.3).
 Pour nir montrons qu'une variable alatoire Z L2B satisfait (6.3) pour tout U L2B si
et seulement si elle satisfait 6.4 pour tout U L2B .
Supposons d'abord que Z satisfait 6.3 pour tout U L2B (donc en particulier pour
2
U = Z ). Alors pour
 U donn dans LB , nous avons



E (X U )2 E (X Z)2

= E U 2 2E (XU ) + 2E(XZ) E Z 2



= E U 2 2E (ZU ) + 2E Z 2 E Z 2

= E (U Z)2
0,

ce qui prouve (6.4).


Supposons maintenant que Z satisfait 6.4 pour tout U L2B . Soit alors t > 0. On a
U + tZ L2B et (6.4) entraine que



E (X Z tU )2 E (X Z)2 .
En dveloppant les carr, on voit alors que


t2 E U 2 2tE ((X Z)U ) 0.
En divisant l'ingalit prcdente par t et en faisant tendre t vers 0, on obtient E ((X Z)U )
0. En remplaant U par U dans cette dernire ingalit, on obtient galement E ((X Z)U )
0. Finalement on conclut que E ((X Z)U ) = 0 ce qui prouve (6.3). 

Deux exemples simples.

Lorsque B = {, }, les variables alatoires Bmesurables sont les


constantes. Ce n'est pas surprenant, cette sous-tribu n'apporte pas d'information relle. Dans
ce cas la constante qui vrie (6.2) est E (X|B) = E(X) (on a le choix uniquement entre A =
et A = ). Du point de vue de la minimisation de l'cart quadratique, ce n'est pas
 surprenant :
on sait sans utiliser ce qui prcde que la constante a qui minimise E (X a)2 est a = E(X)
et la valeur minimale est la variance (pour le prouver directement, dvelopper le carr et tudier
le polynme du second dgr en a).
Supposons maintenant que la sous-tribu B soit engendre par un seul venement A non vide et
dirent de . Alors l'esprance conditionnelle est de la forme

Z = 1A + 1Ac ,
pour des nombres rels et dterminer. On utilise les galits (6.2). On a

E (X1A ) = E (Z1A ) = P(A) + 0,


78

ce qui donne =

E(X1A )
P(A) .

De mme,

E (X1Ac ) = E (Z1Ac ) = P (Ac ) ,


et donc =

E(X1Ac )
P(Ac ) .

On en dduit

E (X|B) =

E (X1A )
E (X1Ac )
1A +
1Ac .
P(A)
P (Ac )

Par exemple si on lance deux ds quilibrs, on peut considrer A l'venement la somme est un
nombre pair et X le numro du premier d. Si on observe qu'eectivement la somme est paire,
E(X1 )
on prvoira X par la valeurs P(A)A . Si en revanche la somme est impaire, on utilisera la valeur
E(X1Ac )
P(Ac ) .

Tribu engendre par une variable alatoire discrte

Il s'agit de gnraliser l'exemple


prcdent (qui concernait en fait le cas d'une tribu engendre par une variable alatoire de loi
de Bernoulli). Supposons maintenant que B = (Y ) o Y : Rd est une variable alatoire
discrte. Dans ce cas, on peut chercher l'esprance conditionnelle sous la forme Z = g(Y ) pour
une fonction g : Rd R mesurable et telle que

E (|g(Y )|) =
y

|g(y)| P (Y = y) < +.

val(Y )

Si y val(Y ), on pose A = {Y = y}. On a alors en utilisant (6.2)

E (X1A ) = E (Z1A ) =
w

On obtient alors g(y) =

E(X1Y =y )
P(Y =y)

X
y

g(w)E (1Y =w 1Y =y ) = g(y)P(Y = y).

val(Y )

pour tout y val(Y ). On a

|g(y)| P (Y = y) E (|X|) < +

val(Y )

et on peut poser

E (X|B) = g(Y ) =
y

val(Y )

E (X1Y =y )
1Y =y .
P(Y = y)

Esprance conditionnelle et moyenne conditionnelle.

Voici le lien fondamental entre la


moyenne de la loi conditionnelle et l'esprance conditionnelle lorsque B est une tribu engendre
par une variable alatoire Y : Rd et lorsque le couple (X, Y ) possde une densit fX,Y par
rapport une mesure produit .

Proposition 30

On suppose X intgrable. Soit g(y) = E (X|Y = y). Alors E (X|(Y )) = g(Y ).


79

Preuve.
AB

Rd

On vrie l'galit (6.2). Tout venement de B = (Y ) est de la forme {Y A} pour


. On a alors

E X1{Y A}

Z
=

x1A (y)fX,Y (x, y)d(x)d(y)


Z

=
Z
=

x1A (y)fX|Y (x|y)fY (y)d(x)d(y)


Z

1A (y)
fX|Y (x|y)d(x) fY (y)d(y)

Z
=

g(y)fY (y)d(y)
A

= E (1A (Y )g(Y ))
D'aprs la caractrisation (6.2) de l'esprance conditionnelle, la proposition est prouve.

Notation.

On utilisera plutt la notation E (X|Y ) au lieu de E (X|(Y )).

Remarque.

Reprenons l'exemple de la tribu engendre par une variable alatoire discrte Y


valeurs dans N = val(Y ) et examinons la cas o le couple (X, Y ) admet une densit fX,Y par
rapport une mesure produit avec la mesure de comptage sur N. Alors, on a prouv que

E (X|Y ) =

+
X
E (X1Y =n )
n=0

P(Y = n)

1Y =n .

On a vu aussi (voir le dbut de ce chapitre) que

E (X|Y = n) =

E (X1Y =n )
.
P(Y = n)

Cet exemple conrme donc bien le rsultat de la Proposition 30.


6.2.3

Proprits gnrales de l'esprance conditionnelle

Voici les proprits gnrales de l'esprance conditionnelle.

Proposition 31
U

L1B .

Soient X et X 0 deux variables alatoires intgrables, B une sous-tribu de A et

1. On a E (E (X|B)) = E(X).
2. On a E (U |B) = U .
3. On a les proprits de linarit suivantes (les galits tant valables presque srement)


E X + X 0 |B = E (X|B) + E X 0 |B ,
E (U X|B) = U E (X|B) ,

lorsque U est borne. Si de plus, E X 2 < +, alors la deuxime galit est aussi valable
pour U L2B .

4. Si X est valeurs positives, alors E (X|B) est aussi valeurs positives. De plus si X X 0 ,
alors E (X|B) E (X 0 |B).
5. Si X est indpendante de B, alors E (X|B) = E(X).
80

6. Si C est une tribu telle que C B alors


E (E (X|B) |C) = E (X|C) .
On retiendra aussi les deux cas particuliers suivants du point 2. : E (X|B) = E (X|B) et
E (|B) = pour tout rel . On peut remarquer que les trois premiers points montrent que
l'esprance conditionnelle se comporte en gros comme une esprance mais pour laquelle les
variables alatoires Bmesurables jouent le rle de constantes.
Le point 6. est souvent utilis dans le cas suivant : C = (Y1 ) et B = ((Y1 , Y2 )) o Y1 et Y2 sont
deux variables alatoires, l'inclusion rsultant du fait que toute fonction de Y1 est une fonction
de (Y1 , Y2 ) (voir l'exemple du modle autorgressif).

Preuve.

Pour la plupart de ces proprits, il sut de montrer que la variable alatoire annonce
vrie la caractrisation (6.2) : pour montrer une galit du type E (S|B) = Z , on montre que
Z L1B puis que pour tout A B , on a
(6.6)

E (1A S) = E (1A Z) .
1. Le premier point se dduit de la relation (6.2) en prenant A = .

2. Si A B , alors en posant S = U , on voit que la variable alatoire Z = U , qui appartient


L1B , vrie trivialement (6.6). Par unicit de l'esprance conditionnelle ( l'galit presque
sre prs), on a E (U |B) = U .
3. La variable alatoire S = X +X 0 est intgrable ainsi que la variable alatoire Bmesurable


Z = V1 + V2 = E (X|B) + E X 0 |B .
De plus Z vrie (6.6) car si A B ,

E (1A Z) = E (1A V1 ) + E (1A V2 )



= E (1A X) + E 1A X 0
= E (1A S) .
Toujours par unicit, on conclut



E X + X 0 |B = E (X|B) + E X 0 |B .
Pour prouver que E (U X|B) = U E (X|B) lorsque X est de carr intgrable et U L2B , on
commence par remarquer que la variable alatoire candidate est bien intgrable en tant
que produit de variable alatoire de carr intgrable et qu'elle est de plus Bmesurable. Il
sut ensuite de voir que si A B , on a (en posant Z = E (X|B))

E (1A U Z) = E (1A U X) ,
en utilisant (6.3) que l'on a appliqu la variable alatoire 1A U L2B au lieu de U et
S = U X au lieu de X . Ainsi (6.6) est vrie pour tout A B . Lorsque X est seulement
intgrable, il faut d'abord que la caractrisation (6.2) s'tend en remplant les indicatrices
1A par des variables alatoires Bmesurables bornes (ceci a en fait t dj montr dans
la preuve du Thorme 11) et on procde comme pour le cas X de carr intgrable (cas
prcdent) pour nir la preuve.
81

4. Posons Z = E (X|B). En choisissant A = {Z < 0}, on a Z1A 0 et vu que 0 E (X1A ) =


E (Z1A ), on en dduit que E (Z1A ) = 0 et donc galement que l'esprance de la variable
alatoire positive Z1A est nulle. Les proprits de l'esprance assure que P(A) = 0. On
en dduit P(Z 0) = 1.
La deuxime assertion est une consquence directe de la premire car X 0 X 0 entraine
E (X 0 X|B) 0. La linarit de l'esprance conditionnelle (point 3.) permet alors de
conlure.
5. Lorsque X est indpendante de B , alors Z = E(X) appartient L1B (comme toute
constante). De plus pour A B , (6.6) est vrie car les deux membres sont tous les
deux gaux E(X)P(A).
6. Posons S = E (X|B). La variable alatoire Z = E (S|C) appartient bien L1C (car S est
intgrable). De plus si A C , on a

E (1A Z) = E (1A S) = E (1A X) .


La premire galit utilise la dnition de l'esprance conditionnelle et la deuxime galement car A B . On a conclut alors l'galit annonce.

Exemple d'application pour un modle autorgressif.

On considre une suite i.i.d U


de variables alatoires valeurs relles, intgrables et de toutes de moyenne nulle. Posons alors
X0 = x (variable alatoire constante relle) et dnissons X1 , x2 , . . . de faon rcurssive par

Xn+1 = aXn + b + Un+1 ,

n N.

Ce type de dynamique est frquemment utilis pour modliser l'volution temporelle de certains
phnomnes (volution d'actifs d'un jour au suivant, volution du niveau d'eau dans un lac...).
On pourra remarquer en itrant l'quation que Xn peut s'crire comme une combinaison linaire
des variables U1 , . . . , Un . La variable alatoire Un+1 est donc indpendante de Xn et plus gnralement de Fn = (X1 , . . . , Xn ). Calculons alors l'esprance conditionnelle E (Xn+1 |Fn ). On a
la srie d'galits

E (Xn+1 |Fn ) = E (aXn + b + Un+1 |Fn )


= aE (Xn |Fn ) + b + E (Un+1 |Fn )
= aXn + b + E(Un+1 )
= aXn + b.

Pour la premire galit, on a utilis la linarit de l'esprance conditionnelle et le fait qu'une


constante est Fn mesurable. Pour la deuxime, on a utilis que Xn tait Fn mesurable (et
donc le point 2. de la Proposition 31) et le fait que Un+1 tait indpendante de Fn (et donc le
point 5. de la Proposition 31). On peut alors faire des prvisions horizon h 2. Par exemple,
on a en utilisant ce qui prcde et le point 6. de la Proposition 31

E (Xn+2 |Fn ) = E (E (Xn+2 |Fn+1 ) |Fn )


= E (aXn+1 + b|Fn )
= aE (Xn+1 |Fn ) + b
= a2 Xn + ab + b.

82

On voit alors par rcurrence que pour h 1,

E (Xn+h |Fn ) = ah Xn + ah1 b + . . . + ab + b.


Au passage on pourra remarquer l'galit Fn = (U1 , . . . , Un ) : en eet, pour i = 1, . . . , n, Xi
est une fonction de Ui , . . . , U1 et inversement on a Ui = Xi aXi1 b.
Mentionnons enn deux dernires proprits utiles en pratique aussi bien pour le calcul de
l'esprance conditionnelle que pour celui des lois conditionnelles.

Proposition 32

On considre un couple (X, Y ) de variables alatoires pour lequel nous avons


dni la notion de loi conditionnelle.
1. On suppose que X = F (U, Y ) o F est mesurable et U est une variable alatoire indpendante de Y . Posons g(y) = E (F (U, y)). Alors g(Y ) = E (X|Y ). On a mme plus : la loi
conditionnelle de X|Y = y est aussi la loi de F (U, y).
2. Si est une fonction mesurable et telle que (X) soit intgrable alors
Z
E ((X)|Y = y) = (x)fX|Y (x|y)d(x).
Le point 2. est une sorte de thorme de transfert conditionnel : si on connait la loi conditionnelle
de X|Y = y il n'est pas ncessaire de connaitre celle de (X)|Y = y pour calculer l'esprance
conditionnelle correspondante, il sut d'intgrer par rapport la loi conditionnelle de X|Y =
y.

Exemples de calculs

 Considrons un modle autorgressif de la forme

Xn+1 = f (Xn , Un+1 ) ,

nN

avec U une suite i.i.d, f une fonction connue et X0 = x0 est une constante. On voit que Xn
s'crit comme une fonction des variables alatoires Un , Un1 , . . . , U1 . Un+1 est donc une
variable alatoire indpendante de Xn et mme indpendante de Fn = (X1 , X2 , . . . , Xn ).
D'aprs la proposition prcdente la loi de Xn+1 |Xn = x concident avec la loi de f (x, Un+1 )
(remarquer
qu'il s'agit aussi de la loi de Xn+1 |Xn , . . . , X1 ). Prenons le cas o f (x, y) =

y 1 + ax2 et la suite U est une suite de gaussiennes N (0, 1) : il s'agit d'un exemple de
modle ARCH (autorgressif et conditionnellement
htroscedastique). Dans ce cas, la loi

2
de Xn+1 |Xn = x est la loi N 0, 1 + ax . On remarquera
galement que E (Xn+1 |Fn ) = 0

2 |F
ici. En revanche, on peut regarder E Xn+1
n : un calcul l'aide des proprits de la loi
conditionnelle montre que





2
2
E Xn+1
|Fn = 1 + aXn2 E Un+1
|Fn = 1 + aXn2 E (Un+1 ) = 1 + aXn2 .
On aurait aussi pu obtenir directement ce rsultat en utilisant le point 2. de la proposition
prcdente avec (z) = z 2 et en uilisant la loi conditionnelle N (0, 1 + ax2 ).
 Supposons par exemple qu'une variable alatoire X s'crit sous la forme X = exp(Y U )
avec Y et U deux variables alatoires indpendantes et valeurs relles et densit avec
par exemple U de loi uniforme sur [0, 1]. Calculons E (X|Y ). La proposition prcdente
assure que E(X|Y ) = g(Y ) o g est la fonction dnie par

Z
g(y) = E (exp(yU )) =

exp(yu)du =
0

exp(y) 1
,
y

en convenant que le quotient vaille 1 si y = 0. On obtient alors la formule

E (X|Y ) =
83

exp(Y ) 1
.
Y

 Retrouvons par le conditionnement un rsultat dj obtenu. Si X = Y X1 + (1 Y )X2


avec X1 , X2 et Y indpendantes, Y B(p) et Xi densit fi sur R pour i = 1, 2, alors
on voit que d'aprs la proposition prcdente, la loi de X|Y = 1 est la loi de X1 et que la
loi de X|Y = 0 est la loi de X2 .

Preuve partielle du point

1 de la Proposition 32. Prouvons l'assertion sur l'esprance


conditionnelle. Encore une fois, il sut de vrier que la variable alatoire g(Y ) satisfait (6.2).
Remarquons dj que g(Y ) est intgrable : en eet le thorme de transfert et le thorme de
Fubini assure que
Z
E (|X|) =

Z
|F (u, y)|dPY (y)dPU (u) =

E (|F (U, y)|) dPY (y)

et est un nombre ni par hypothse sur X . Ceci montre que g(Y ) est intgrable. Aussi pour un
venement {Y A} (Y ), nous avons

Z
E (X1A (Y )) =

F (u, y)1A (y)dPU (u)dPY (y)


Z
g(y)dPY (y)

=
A

= E (1A (Y )g(Y )) .
L'galit (6.2) est bien vrie.

84

Chapitre 7
Les lois gaussiennes

7.1

Lois gaussiennes sur

Nous avons dj dni les lois gaussiennes sur R lors du chapitre sur les variables alatoires
densit. On rappelle qu'une variable alatoire X valeurs relles suit une loi gaussienne de
moyenne m R et de variance 2 > 0 si la densit de X est donne par



1
(x m)2
fX (x) =
exp
,
2 2
2

x R.

On inclut aussi dans la dnition le cas dgnre o = 0 : dans ce cas on convient que la
variable alatoire X est presque srement gale sa moyenne m (i.e la loi de X est la masse de
Dirac m ).

Dans tous les cas, on notera X N m, 2 . On rappelle que lorsque m = 0 et = 1, on parle
de loi gaussienne centre rduite.
Une proprit importante de ces lois est leur stabilit vis vis des transformations anes. La
proposition suivante se prouve aisment en eectuant un changement de variable.

Proposition 33

Soient m R et un rel positif.



Si X N (0, 1) alors Y = m + X N m, 2 .

Inversement, si > 0 et Y N m, 2 , alors Y m
N (0, 1).

Lorsque
les fonctions caractristiques, nous avons calcul celle de la loi
 nous avons introduit

2
2
N m, . Si X N m, , alors

2 t2
X (t) = exp(itm) exp
2



,

t R,

cette expression tant aussi valable lorsque = 0. L'utilisation des fonctions caractristiques et
de leurs proprits permet de prouver facilement la proposition suivante (cf TD).

Proposition 34 Une somme de variables alatoires indpendantes et toutes de loi gaussienne


sur R suit encore une loi gaussienne sur R.
Ainsi si X = X1 + . . . Xn est une somme de variables
alatoires indpendantes telle que Xi

2
2
N mi , i pour 1 i n alors X N m, avec ncessairement m = m1 + . . . + mn et
2 = 12 + . . . + n2 .
85

7.2
7.2.1

Les matrices de variance-covariance


Quelques rappels sur les matrices

Soit A une matrice carre de taille d d dont les entres sont des nombres rels. On notera
det(A) son dterminant. Le noyau de A est le sous-espace vectoriel de Rd
n
o
Ker (A) = x Rd : Ax = 0
(on conviendra de noter les vecteurs de Rd par des matrices colonnes). Alors on les quivalences
fondamentales suivantes :
A inversible det(A) 6= 0 Ker (A) = {0}.
Ainsi dire que A n'est pas inversible signie qu'il existe x Rd \ {0} tel que Ax = 0.
On dit que A est matrice symtrique lorsque Aij = Aji pour 1 i, j d.
Dans la suite nous noterons Sd+ l'ensemble des matrices carres A de taille d d qui sont semidnies positives c'est dire telles que xT Ax 0 pour tout x Rd . On notera galement Sd++
l'ensemble des matrices carres A de taille dd qui sont symtriques et dnies positives (c'est-dire telles que xT Ax > 0 pour x Rd \ {0}).
On rappelle que toute matrice symtrique est diagonalisable dans une base orthonorme. Ceci
signie qu'il existe une matrice P de taille d d telle que P T P = P P T = Id (matrice identit) et
A = P DP T o D est une matrice diagonale dont les lments diagonaux sont des nombres rels
appels les valeurs propres de A. Dans ce cas, on a A Sd+ (resp. A Sd++ ) si et seulement si
les valeurs propres notes 1 , . . . , d (avec ventuellement des rptitions) sont toutes positives
(resp. strictement positives). Ainsi on a A Sd++ si et seulement si A Sd+ et det(A) 6= 0.
Toute matrice A de Sd+ admet une unique racine carre dans Sd+ (c'est--dire une matrice B
telle que B 2 = A) : cette racine carre sera note A1/2 . Lorsqu'on parlera de la racine carre
de A, il s'agira de A1/2 . Lorsque A Sd++ , A1/2 appartient aussi Sd++ . Si A = P DP T on a
A1/2 = P D1/2 P T et D1/2 est la matricediagonale
dont les lments diagonaux sont donns par
les racines carres des valeurs propres 1 , . . . , d . Enn lorsque A Sd++ alors A1 Sd++
et de plus la racine carre de A1 est l'inverse de la racine carre de A et sera note A1/2 : on

a A1/2 = P 0

..

0
7.2.2

...

T
0 lorsque A = P DP .

1
d

Vecteurs alatoires, variance et covariance

Soit X une variable alatoire valeurs dans Rd (on parle aussi de vecteur alatoire) pour
d N . Si X = (X1 , . . . , Xd )T est tel que E Xi2 < + pour i = 1, . . . , d, alors on dnit la
matrice de covariance de X par
Var (X) = [ Cov (Xi , Xj )]1i,jn .
Remarquer que si les coordonnes de X sont indpendantes (ou mme dcorrles deux deux
ce qui est plus faible) alors Var (X) est une matrice diagonale. Dans la suite, nous conviendrons
que si K est une matrice p n dont les entres dnissent des variables alatoires Ki,j alors
l'esprance E(K) est la matrice p n telle que E(K)ij = E (Kij ) (on prend l'esprance de
chacune des entres de la matrice). Nous avons alors les proprits fondamentales suivantes.

Proposition 35

1. On a les expressions

Var (X) = E ((X E(X))(Y E(Y ))) = E XX T E(X)E(X)T .
86

2. Si A est une matrice de nombres rels de taille n d, alors le vecteur alatoire Y = AX


vrie
E(Y ) = AE(X),
Var (Y ) = A Var (X)AT .
3. si le dterminant de Var (X)
Pdvrie det ( Var (X)) = 0 si et seulement si il existe x
d
R \ {0} et un rel tel que i=1 xi Xi = presque srement.
4. Toute de matrice de covariance est symtrique et semi-dnie positive (i.e xT Var (X)x
0 pour tout x Rd ). Inversement pour toute matrice symtrique et semi-dnie positive
de taille d, il existe un vecteur alatoire X tel que Var (X) = .

Preuve.
1. Il s'agit d'une simple rcriture matricielle.
2. Soit i {1, . . . , n}. Alors, on a

Yi =

d
X

Aij Xj .

j=1

Par linarit de l'esprance on obtient

E(Yi ) =

d
X

Aij E(Xj ).

j=1

On a donc bien E(Y ) = AE(X). De plus, le calcul de la variance montre que


Var (Yi ) =

d
X

Aij Aij 0 Cov (Xj , Xj 0 ) =

j,j 0 =1

d
X

Aij Var (X)jj 0 ATj0 i .

j,j 0 =1

Var (Yi ) concide bien avec la iime coordonne de A Var (X)AT .


3. Supposons d'abord que det ( Var (X)) = 0. Dans ce cas, il existe x Rd \ {0} tel que
Var (X)x = 0 (le noyau de la matrice n'est
pas rduit 0) donc tel que xT Var (X)x = 0.

Mais comme xT Var (X)x = Var xT X d'aprs la point prcdent, on en dduit que la
variable alatoire xT X =

Pd

i=1 xi Xi

est presque srement gale sa moyenne note .

Inversement, supposons qu'il existe x Rd \{0} et un rel tel que


srement. Alors si 1 j d,
d
X

xi Var (X)ij = Cov

i=1

d
X

Pd

i=1 xi Xi

= presque

!
xi Xi , Xj

= Cov (, Xj ) = 0.

i=1

Comme Var (X)ij = Var (X)ji , on obtient ( Var (X)x)j = 0. Ainsi x 6= 0 appartient au
noyau de Var (X) ce qui entraine que det (v(X)) = 0.
4. Le fait que Var (X) soit symtrique rsulte de sa dnition. De plus cette matrice est
semi-dnie positive car xT Var (X)x = Var xT X d'aprs ce qui prcde. Inversement
toute matrice symtrique tant diagonalisable dans une base orthonorme, on a

=P

..

T
T
P = P DP ,

d
o P T P = P P T = Id (matrice identit de taille d). De plus les valeurs propres sont
positives (car la matrice est semi-dnie positive) et en posant Q = P D 1/2 (o D 1/2 est
87

la matrice diagonale forme par 1 , . . . , d ), on obtient = QQT . Ainsi si Z est un


vecteur alatoire de taille d et dont les entres sont indpendantes et de variance 1 (en
particulier Var (Z) = Id ), alors X = QZ vrie Var (X) = .
On dnit galement la covariance entre deux vecteurs alatoires X et Y valeurs respectives
dans Rd et Rn : il s'agit de la matrice note (X, Y ) de taille (p, n) et dont le terme (i, j) est
donne par Cov (Xi , Yj ). On a alors les expressions matricielles :
Cov (X, Y ) = E (X E(X))(Y E(Y ))T


= E XY T E(X)E(Y )T .

Les proprits suivantes sont immdiates.


Cov (Y, X) = Cov (X, Y )T ,

Cov (X, BY ) = Cov (X, Y )B T ,

Cov (AX, Y ) = A Cov (X, Y ),

si A et B sont deux matrices d colonnes et n colonnes respectivement. Enn, si Z =

 
X
Y

(vecteur alatoire de dimension d + n), on remarquera que la matrice de covariance de Z peut


tre dnie par blocs :
Var (Z) =

7.3

Var (X)
Cov (Y, X)

Cov (X, Y )
Var (Y )


.

Les vecteurs gaussiens

Dnition 23

Un vecteur alatoire X de Rd est appel un vecteur gaussien si pour tout u Rd ,


la variable alatoire uT X suit une loi gaussienne sur R.
En d'autres termes, un vecteur alatoire X est gaussien si et seulement si toute combinaison
linaire de ses coordonnes est une variable alatoire gaussienne dans R. En particulier les
variables alatoires coordonnes X1 , . . . , Xd suivent des loi gaussiennes sur R. Comme pour les
lois gaussiennes sur R, les transformations anes prserve le caractre gaussien.

Proposition 36

Si X est un vecteur gaussien valeurs dans Rd , A une matrice de taille n d


entres relles et b Rn alors Y = AX + b est un vecteur gaussien de Rn .

Preuve.

Si u Rn , on a uT Y = v T X + o on a pos v = AT u et = uT b. Par hypothse


suit une loi gaussienne sur R et donc uT Y aussi d'aprs les proprits d'invariance des lois
gaussiennes sur R.

vT X

Proposition 37

Soit X un vecteur gaussien de Rd . Notons E(X) = m et Var (X) = . Alors


la fonction caractristique de X a l'expression suivante :


1 T
X (t) = exp im t exp t t ,
2
T

t Rd .

Etant donn que la fonction caractritique caractrise compltement la loi, on voit que la loi
d'un vecteur gaussien dpend uniquement de sa moyenne et de sa matrice de covariance. Ainsi
la loi d'un vecteur gaussien de Rd de moyenne m et de variance sera note Nd (m, ).
88

Preuve.

Il sut d'observer que pour t Rd , on a X (t) = tT X (1). Comme la variable


alatoire tT X suit une loi gaussienne sur R, dont la moyenne est donne par tT m et dont la
matrice de covariance vaut Var (X) = tT t, le rsultat est obtenu en utilisant l'expression de
la fonction caractristique des lois gaussiennes sur R.

Proposition 38

Soit X un vecteur gaussien de Rd , de moyenne m et de variance inversible


(on dit alors que le vecteur est non dgnr). Alors X admet une densit par rapport la mesure
de Lebesgue sur Rd et qui est donne par

exp 21 (x m)T 1 (x m)
fX (x) =
,
x Rd .
dp
(2) 2 det()

Preuve.

Commenons pour
 le Tcas
 m = 0 et = Id . Dans ce cas la fonction caractristique de X
t t
est donne par X (t) = exp 2 , pour t Rd , ce qui correspond la fonction caractristique
de d variables alatoires indpendantes toutes de loi N (0, 1). On en dduit que X admet une
densit sur Rd qui est dnie par

fX (x) =

exp 12 xT x
(2)

d
2

x Rd .

ce qui est bien l'expression annonce.


Passons maintenant au cas gnral. La matrice symtrique est inversible, elle est alors dnie
positive et admet une unique racine carre note 1/2 symtrique et dnie positive. Ainsi si
X Nd (m, ) alors X a la mme loi que le vecteur Y = m + 1/2 Z o Z Nd (0, Id ) (car ce
sont deux vecteurs gaussiens qui ont mme moyenne et mme variance). Il sut donc de calculer
la densit du vecteur Y . Si h : Rd R est une fonction mesurable borne, on a

Z
E (h(Y )) =

h m+

1/2

 exp 1 xT x
2
d

dx,

(2) 2

en utilisant le thorme de transfert et la premire partie de la preuve. Pour montrer que l'on
obtient bien la densit annonce, il sut d'eectuer le changement de variable y = m + 1/2 x.
On a alors x = 1/2 (y m) = (y) et le jacobien est donn par



1
J(y) = det 1/2 = p
det()
. Des calculs lmentaires conduisent alors l'expression de la densit.

Remarque sur les vecteurs gaussiens dgnrs.

Reprenons les notations de la proposition prcdente. Lorsque n'est pas inversible, on a vu que le vecteur X appartenait un
hyperplan ane de Rd avec probabilit 1 (on parle de vecteur gaussien dgnr). Dans ce cas,
le vecteur X ne peut pas avoir de densit par rapport la mesure de Lebesgue sur Rd car un
hyperplan ane est de mesure nulle (pour d ).

Indpendance et dcorrlation.

Supposons que les entres d'un vecteur gaussien X soient


dcorrles (i.e Cov (Xi , Xj ) = 0 pour i 6= j ) et que Var (Xi ) = i2 0 pour i = 1, . . . , d. Dans
ce cas, la fonction caractristique est donne par

X (t) =

d
Y
j=1

j2 t2j
exp(itj mj ) exp
2
89

!
=

d
Y
j=1

Xj (tj ).

D'aprs les proprits des fonctions caractristiques, on voit que les variables alatoires X1 , . . . , Xd
sont indpedantes. Cette quivalence entre dcorrlation et indpendance est une proprit typique des vecteurs gaussiens et sera gnralise un peu plus loin dans ce chapitre.

De la loi

Nd (m, ). Soit m Rd et une matrice symtrique semi-dnie


positive. Alors on peut voir qu'un vecteur Y Nd (m, ) a la mme loi que le vecteur Z =
m+1/2 X o X Nd (0, Id ). Cette proprit a dj t voque dans la preuve de la proposition
prcdente. Lorsque est inversible, on peut aussi voir que le vecteur X = 1/2 (Y m) suit
la loi Nd (0, Id ).
Nd (0, Id )

la loi

Des entres gaussiennes ne forment pas toujours un vecteur gaussien.

On a vu
que si X tait un vecteur gaussien alors les variables alatoires coordonnes X1 , . . . , Xd taient
gaussiennes. En revanche, un vecteur alatoire dont toutes les entres suivent des lois gaussiennes
sur R n'est pas forcment un vecteur gaussien (sauf si X1 , . . . , Xd sont indpendantes auquel
cas la fonction caractristique permet de conclure). Par exemple, si X1 N (0, 1) et V est une
variable alatoire indpendante de X et telle que P(V = 1) = P(V = 1) = 21 alors en posant
X2 = V X1 , on peut vrier que X2 N (0, 1). Mais X = (X1 , X2 )T ne peut tre un vecteur
gaussien car la somme X1 + X2 = (1 + V )X1 peut valoir 0 avec probabilit 21 (la somme ne suit
donc pas une loi gaussienne).

 
X
un vecteur gaussien avec X et Y deux vecteurs alatoires
Y
(forcment gaussiens) valeurs respectives dans Rd et Rn . Alors les vecteurs alatoires X et
Y sont indpendants si et seulement si Cov (X, Y ) = 0. En d'autres termes, pour un vecteur
gaussien, l'indpendance de deux sous-vecteurs quivaut leur dcorrlation.

Proposition 39

Soit Z =

Preuve.

Posons m = d + n.
Supposons d'abord que X et Y vrie Cov (X, Y ) = 0. Pour montrer leur indpendance, il
sut d'utiliser le critre d'indpendance bas sur les fonctions
caractristiques.
que
 Remarquons
 

u
Var (X)
0dn

. Soit t =
la variance de Z est donne par blocs par Var (Z) =
v
0nd
Var (Y )
Rm . Alors
tT Var (Z)t = uT Var (X)u + v T v(Y )v.
La fonction caractristique de Z est alors donne par





1 T
T
Z (t) = exp i(u E(X) + v E(Y )) exp u Var (X)u + v v(Y )v
= X (u)Y (v).
2
T

Les vecteurs alatoires X et Y sont donc bien indpendants.


Inversement si X et Y sont indpendants, alors les variables alatoires Xi et Yj sont indpendantes pour 1 i d et 1 j n et donc (Xi , Yj ) = 0. On a donc (X, Y ) = 0.
Une proprit fondamentale des lois gaussiennes sur Rd est leur stabilit vis vis du conditionnement. La proposition suivante est fondamentale pour le calcul des lois conditionnelles
dans un vecteur gaussien. On retiendra surtout l'ide de la preuve car elle permet de retrouver
facilement des formules un peu complexes.

 
Proposition 40 Soit Z = X
un vecteur gaussien avec X un vecteur alatoire valeurs
Y
dans Rd et Y un vecteur alatoire valeurs dans Rn . On suppose que Y est non dgnre (i.e
90

Var (Y ) est inversible). Alors la loi conditionnelle de X|Y = y est une loi gaussienne Nd (m, )
dont les paramtres sont donns par


m = E(X) + Cov (X, Y ) Var (Y )1 (y E(Y ))


= Var (X) Cov (X, Y ) Var (Y )1 Cov (Y, X)

Preuve.

La preuve peut se dcomposer en trois tapes.


 On commence par chercher un matrice C de taille d n telle que le vecteur U = X CY
soit dcorrl avec Y (et donc indpendant car le vecteur form l'aide de U et de Y est
un vecteur gaussien en tant qu'image du vecteur Z par une application linaire). On a

0 = Cov (U, Y ) = Cov (X, Y ) Cov (CY, Y ) = Cov (X, Y ) C Var (Y ).


On trouve alors C = Cov (X, Y ) Var (Y )1 .
 Comme X = U + CY est une fonction de deux variables alatoires indpendantes, les
proprits sur les loi conditionnelles vues au chapitre prcdent montre que la loi de X|Y =
y concide avec la loi de la variable alatoire U + Cy = X + C(y Y ). Il s'agit donc bien
d'une loi gaussienne.
 On dtermine la moyenne et la variance de la loi gaussienne obtenue. On a

E(U + Cy) = E(X) + C (y E(Y )) = E(X) + Cov (X, Y ) Var (Y )1 (y E(Y )) ,


ce qui est bien l'expression attendue.
Pour la variance, on a
Var (U + Cy)

Var (U )

Var (X CY )

Var (X) + Var (CY ) Cov (X, CY ) Cov (CY, X)

Var (X) + C Var (Y )C T Cov (X, Y )C T C Cov (Y, X)

Var (X) + Cov (X, Y ) Var (Y )1 Cov (Y, X) 2 Cov (X, Y ) Var (Y )1 Cov (Y, X)

Var (X) Cov (X, Y ) Var (Y )1 Cov (Y, X).


La proposition est prouve.

Remarque fondamentale.

Sous les hypothses de la proposition prcdente avec d = 1, on

voit que l'esprance conditionnelle E(X|Y ) est une combinaison linaire du type

n
X

i Yi +

i=1

pour des nombres rels 1 , . . . , n , .

 
 
X
1
soit un vecteur gaussien de moyenne m =
Y
1


1
0.5
et de matrice de covariance =
. Le vecteur gaussien est non dgnre. A
0.5
1
priori, on peut aussi calculer la loi conditionnelle de X|Y = y en utilisant le quotient des
densits. Cependant, il faut dj inverser la matrice pour rcuprer la densit de Z et eectuer

Un exemple.

Supposons que Z =

ensuite quelques calculs. Appliquons la mthode de la preuve de la proposition prcdente.


C(X,Y )
L'galit Cov (U, Y ) = Cov (X cY, Y ) = 0 est ralise pour c =
= 0.5. Comme
Var (Y )
91

X = U 0.5Y , la loi de X|Y = y est aussi la loi de U 0.5y = X 0.5(y Y ). La moyenne de


cette loi est donc E(U 0.5y) = 1 0.5(y + 1) = 1.5 0.5y . La variance est donne par
Var (U 0.5y) = Var (X +0.5Y ) = Var (X)+0.25 Var (Y )+ Cov (X, Y ) = 1.250.5 = 0.75.
On obtient donc la loi N (1.5 0.5y, 0.75). Ainsi E(X|Y ) = 1.5 0.5Y . On pourra retrouver
titre d'exercice ces rsultats en utilisant la formule de la densit conditionnelle.
7.4

Quelques lois fondamentales pour la statistique

Nous donnons ici trois exemples de loi qui interviennent assez frquemment en statistique
et qui sont construites partir de variables alatoires X1 , X2 , . . . indpendantes et toutes de loi
N (0, 1).

La loi du 2 .

La loi de X12 est une loi 21 , 2 (voir TD). Ainsi la somme X12 + X22 + .. . + Xn2
est la convole de n variables alatoires toutes de loi et elle suit donc une loi n2 , 2 . Cette
loi est aussi appele loi du 2 (prononcer khi-deux) n degrs de libert.

La loi de Student.

Il s'agit de la loi de la variable alatoire

Xn+1
T =p 2
.
(X1 + . . . + Xn2 )/n
La loi de T correspond donc la loi de Z

o les variables alatoires Z et Y sont indpendantes

Y /n

et de lois respectives N (0, 1) et


densit

n degrs de libert. On peut montrer que la loi de T a pour

t 7

La loi de Fisher.

La loi de

n+1
2

n
2

2
2
Xn+1
+...+Xn+m
m
2 +...+X 2
X1
n
n



1+

t2
n

 n+1 .
2

est appele loi de Fisher m et n degrs de libert.

A une renormalisation prs, cette loi est aussi celle du quotient de deux variables alatoires
indpendantes suivant toutes les deux une loi du 2 , m et n degrs de libert respectivement.
On peut alors montrer que la densit est donne par

z 7 1R+ (z)

m
2

n+m
2

92

n
2

m 2 n 2 z 2 1




(n + mz)

m+n
2

Chapitre 8
Convergence des suites de variables
alatoires

On se xe donc un espace probabilis (, A, P). De plus nous utiliserons la notation || aussi
bien pour la valeur absolue sur R que pour la norme euclidienne sur Rd , d 2.
8.1
8.1.1

Comportement asymptotique d'une suite d'venements


Limite infrieure et suprieure

Pour tudier les problmes asymptotiques lis des suites d'venements, la notion de limite
infrieure et de limite suprieure intervient frquemment. Si (An ) est suite d'lments de A,
la limite infrieure est l'venement not limAn qui est constitu de l'ensemble des preuves
qui appartiennent tous les An partir d'un certain indice p (qui peut dpendre de ). Par
exemple, lorsque = R, en posant An = [ n1 , 1] si n 1, on voit que limAn =]0, 1]. Il existe une
criture ensembliste : on a


lim inf An = pN +
n=p An .
n

En eet dire que limAn signie qu'il existe un entier p tel que pour tout n p, on ait
An .
La limite suprieure de la suite (An ) est l'venement not lim supn An qui est compos des
preuves qui appartiennent une innit d'venements An . Par exemple, si

A1 = [0, 1],

A2 = [1, 2],

A3 = [0, 1],

A4 = [1, 2], . . . ,

on voit que lim supn An = [0, 2] alors que lim inf n An = {1}. On a l'criture ensembliste


lim sup An = pN +
n=p An .
n

En eet dire que pN +


n=p An signie que pour tout entier p, il existe un entier n p tel
que An .
De par la dnition de ces ensembles, on voit aisment que lim inf n An lim supn An . De plus,
on a les relations

lim inf An
n

c


c
lim sup An = lim inf Acn ,

lim sup Acn ,


n

qui peuvent se dmontrer en utilisant les dnitions ensemblistes de la limite infrieure ou


suprieure (ou par le bon sens, par exemple ne pas tre dans tous les An partir d'un certain
rang revient tre une innit de fois dans leur complmentaire).
93

8.1.2

Lemme de Borel-Cantelli

Ce lemme est d'un usage courant lorsque on s'intresse au comportement asymptotique d'une
suite d'vnements. Pour la suite, on rappelle qu'une suite d'vnements indpendants est une
suite (An )nN telle que pour tout k N et tout k-uplet (n1 , . . . , nk ) Nk , les vnements
An1 , . . . , Ank sont indpendants.

Lemme 4

Soit (An )nN une suite d'vnements.

1. On a l'implication :
+
X



P(An ) < + P lim sup An = 0.
n

n=0

2. Si on suppose que les vnements An sont indpendants :




+
X
P(An ) = + P lim sup An = 1.
n

n=0

Remarque.

Ainsi pour des vnements indpendants, on a


+
X

P(An ) < + P lim sup An

= 0.

n=0

Exemples.

Donnons deux illustrations de ce lemme.


 Considrons une suite innie de pile ou face, c'est--dire une suite i.i.d (Xn ) de variables alatoires toutes de loi de Bernoulli de paramtre 21 ainsi qu'un entier N 1.
En utilisant le lemme de Borel-Cantelli, montrons qu'avec probabilit 1, on obtiendra
une innit de fois N piles conscutifs (on pourrait mme montrer que l'on obtiendrait
une
nie donne). Pour cela posons pour n N, An =
 innit de fois toute squence

XnN = 1, . . . , X(n+1)N 1 = 1 . La suite (An ) est une suite d'venements indpendants
chacun tant de probabilit

1
.
2N

Donc

+
X

P (An ) = +. Le deuxime point du lemme de

n=0

Borel-Cantelli assure qu'avec probabilit 1, toute ralisation appartiendra une innit


d'venements An . Il y aura donc une innit de fois N piles conscutifs.
 Maintenant supposons que (Xn )n soit une suite de variables alatoires telles que pour tout
n N, Xn suive la loi de Bernoulli de paramtre 2n , alors les ralisations de cette suite
ne comportent qu'un nombre ni de 1 presque srement. En eet posons An = {Xn = 1}.
Alors
+
X

n=0

+
X
1
P (An ) =
< +.
2n
n=0

Le premier point du lemme de Borel-Cantelli assure qu'avec probabilit 1, une ralisation


appartient au complmentaire de lim supn An donc lim inf n Acn . Il n'y a donc que des 0
au bout d'un moment.

Preuve.

Posons A = lim supn An .

1. Pour le premier point, remarquons que pour tout n N, A pn Ap , ce qui donne les
majorations :
X

P (A) P (pn Ap )

P (Ap ) ,

pn

94

ce qui donne le rsultat car le membre de droite est le reste d'une srie convergente et tend
donc vers 0 lorsque n tend vers +.
2. Pour le deuxime point, on peut se rappeler que P(A) = 1 P(Ac ) = 1 P (lim inf n Acn ).
Il sut donc de prouver que P (lim inf n Acn ) = 0. En posant Bn = pn Acp , on a

n
o
Ac = lim inf Acn = n0 Bn .
n

Les vnements Bn forment une suite croissante d'vnements pour l'inclusion, on a donc
P(Ac ) = limn+ P(Bn ). Nous allons montrer que P(Bn ) = 0 ce qui permettra de conclure.
Remarquons que en posant pour q n, Cq = qp=n Acp , on a P(Bn ) = limq+ P (Cq ),
car les vnements Cq forment une suite dcroissante d'vnements pour l'inclusion. En
utilisant l'indpendance des venements Acn ainsi que l'ingalit ex 1 x, on obtient

P(Cq ) =

q
X

(1 P(Ap )) e

Pq

p=n

P(Ap )

p=n

Ainsi limq+ P(Cq ) = 0 et donc P(Bn ) = 0.


8.2

Les modes de convergence

8.2.1

Convergence presque sre et en probabilit

Dnition 24

On dit qu'une suite (Xn )nN de variables alatoires


converge presque srement

e
e
e , limn+ Xn () =
vers une variable alatoire X si il existe A vriant P = 1 et
X(). Autrement dt, la convergence a lieu point par point en dehors d'un ensemble de mesure
nulle.
En abrg nous noterons Xn X p.s. Il existe un mode de convergence qui est plus faible,
la convergence en probabilit.

Dnition 25

On dit qu'une suite (Xn )nN de variables alatoires valeurs dans Rd converge
en probabilit vers une variable alatoire X si pour tout  > 0,
lim P (|Xn X| > ) = 0.

n+

Remarques
1. La convergence presque sre entrane la convergence en probabilit. En eet la convergence
presque sre entrane que pour  > 0, P (lim supn An ) = 0 avec An = {|Xn X| > }.
Comme

P (An ) P (pn Ap )

et le membre de droite converge vers P lim supq Aq = 0 lorsque n tend vers +, on en
dduit que lim P(An ) = 0.
n+

2. La convergence en probabilit n'entrane pas la convergence presque sre comme le montre


l'exemple suivant. Soit (Xn )nN une suite de variables alatoires indpendantes telles
que P (Xn = 1) = n1 = 1 P (Xn = 0). Cette suite converge en probabilit vers 0 car si
0 <  < 1,

P (|Xn | > ) = P (Xn = 1) =


95

1
n+ 0.
n

Remarquons au passage que pour montrer la convergence en probabilit, on peut se restreindre des valeurs de  plus petite qu'un certain seuil dans la dnition (car si  < 0 ,
P (|Xn | > 0 ) P (|Xn | > )). Remarquons ensuite que
+
X

P(Xn = 1) =

n=1

+
X
1
= +
n

n=1

et donc que P (lim supn {Xn = 1}) = 1 en utilisant le deuxime point du lemme de BorelCantelli. Ainsi p.s, la suite (Xn )n prend une innit de fois la valeur 1, elle ne peut donc
converger vers 0 presque srement.
La convergence presque sre ou en probabilit est stable par composition par une fonction
continue.

Proposition 41

Si Xn X p.s (resp. en probabilit) et f une fonction continue, f : Rd Rk ,


alors f (Xn ) f (X) p.s (resp. en probabilit).

Preuve.

C'est clair pour la convergence presque sre. Pour la convergence en probabilit, soit

 > 0 et > 0. On va montrer qu'il existe n0 N tel que n n0 , P (|f (Xn ) f (X)| > ) < .
Choisissons d'abord r > 0 tel que P (|X| > r) /2, ce qui est toujours possible. Sur {|x| 2r},
f est uniformment continue. Choisissons alors > 0 tel que
|x| , |y| 2r,

|x y| <

|f (x) f (y)| .

Remarquons alors que |x| r et |x y| min(r, ) entraine |f (x) f (y)| . Donc |f (x) f (y)|
 entraine ou bien |x| > r ou bien |x y| > min(r, ). En notant An = {|f (Xn ) f (X)| > },
nous obtenons

P (An ) P (|X| > r) + P (|Xn X| > min(r, )) .


Le premier terme de droite est < /2 et la convergence en probabilit de la suite (Xn ) permet
de trouver n0 N tel que le deuxime terme soit < /2 si n n0 . Ainsi P(An ) si n n0 .
Comme est arbitraire, on en dduit limn P(An ) = 0. La convergence en probabilit de la
suite (f (Xn ))n vers f (X) en dcoule.
Une condition susante pour la convergence presque sre est donne par la proposition
suivante.

Proposition 42

(Critre
de convergence p.s)
P
Si pour tout  > 0, n0 P (|Xn X| > ) < + alors Xn X p.s.
X
En particulier, si il existe p > 0 tel que
E (|Xn X|p ) < +, alors Xn X p.s.
n0

Exemple.

Un exemple simple de suite qui converge p.s vers 0 est par exemple Xn = Yn , n 1
avec Y une variable alatoire donne. Ce critre permet de dire un peu plus en considrant la
suite dnie par
Xn = Ynn avec (Yn )n une suite de variables alatoires toutes de mme loi. En

eet si E Y12 < +, on a
+
X
n=1

P (|Yn | > n) =

+
X
n=1


+
X
E Y12
P (|Y1 | > n)
< +,
2 n2
n=1

96

en utilisant l'ingalit de Markov, ce qui permet de conclure Xn 0 p.s. En fait ce rsultat est
valable si E (|Y1 |) < + seulement en utilisant des majorations plus prcises. On peut d'ailleurs
prouver que dans le cas de variables alatoires indpendantes :

Xn 0 p.s E (|Y1 |) < +.


On trouvera une dmonstration de ces rsultats dans [1] (Exercice 9.12, p. 85).

Remarque.

La proposition prcdente fournit une condition susante de convergence presque


sre mais non ncessaire. Prenons = [0, 1] muni de la tribu des borliens et P la probabilit
uniforme sur . Si on pose pour n N \ {0}, Xn = 1[0, 1 ] alors on voit que pour  > 0,
n



1
1
P (|Xn | > ) = P [0, ] = .
n
n
Ainsi

n=1 P (|Xn | > ) = + alors que (Xn )n1 converge presque srement vers 0 (prendre
e =]0, 1] dans la dnition de la convergence presque sre).

Preuve de la proposition 42.

Pour tout  > 0, posons An, = {|Xn X| > } et A =

lim supn An, . D'aprs le premier point du lemme de Borel-Cantelli, l'hypothse

P (|Xn X| > ) <

n0


+ entrane que P (A ) = 0. Ainsi P kN A1/k = 0 par sous-additivit. Par passage au
complmentaire, on a





P kN Ac1/k = P kN lim inf Acn,1/k = 1,
n

ce qui se lit

(k N , p tel que n p,

|Xn X| 1/k) ,

p.s.

La convergence presque sre de la suite


X(Xn ) en dcoule.

E (|Xn X|p ) < + entrane que pour tout  > 0,

Remarquons de plus que la condition

n0

P (|Xn X| > ) =

n0

P (|Xn X|p > p )

n0

p E (|Xn X|p ) < ,

n0

par application de l'ingalit de Markov. Ceci justie le deuxime point.


Finissons ce paragraphe en donnant un dernier lien entre la convergence en probabilit et la
convergence presque sre.

Proposition 43

Si Xn X en probabilit, alors il existe une sous-suite Xnj


presque srement vers X .


j

qui converge

Preuve. Remarquons tout d'abord que pour  > 0 et > 0, la convergence en probabilit
entrane l'existence d'un entier n0 tel que n n0 , P (|Xn X| > /2) /2. Remarquons
galement que si deux rels y, z vrient |y z| >  alors si x est un rel, on a ou bien |y x| >
/2 ou bien |z x| > /2. Ainsi si p, q n0 , on a l'inclusion
{|Xp Xq | > } {|Xp X| > /2} {|Xq X| > /2} .
97

On en dduit

P (|Xp Xq | > ) P (|Xp X| > /2) + P (|Xq X| > /2) .


Ainsi pour tout , > 0, il existe un entier n0 tel que

p, q n0 ,

P (|Xp Xq | > ) .

Ainsi, il est possible de construire une suite de nombre entiers (nj )j avec n0 = 0 et pour j N ,


nj = inf n > nj1 /p, q n,




1
1
P |Xp Xq | > j < j .
2
2

De plus cette suite tend en croissant vers +. Ainsi

 X
+ 
+
X


1
1


P Xnj+1 Xnj > j
< +.
2
2j
j=0

j=0




1
Le lemme de Borel-Cantelli assure alors que l'vnement lim sup Xnj+1 Xnj > j est de
2
j



1
probabilit 0 et donc que son complmentaire B = lim inf Xnj+1 Xnj j
est de proj
2


babilit 1. Mais si B , la srie de terme gnral Xnj+1 () Xnj () est convergente donc
la suite (Xnj ())j converge. La suite de variables alatoires (Xnj )j converge p.s et la limite est
forcment X car (Xnj )j converge en probabilit vers X .

8.2.2

La convergence en loi

Dnition 26

On dit qu'une suite de variables alatoires (Xn )n converge en loi vers une variable alatoire X si pour toute fonction continue borne h : Rd R,
lim E (h(Xn )) = E (h(X)) .

n+

Remarques.
1. Ce type de convergence ne concerne que la suite des lois des variables alatoires et pas le
comportement des trajectoires n Xn (). Par exemple toute suite de variables alatoires
de mme loi converge en loi puisque la loi des variables est constatnte.
2. Contrairement la convergence p.s ou en probabilit, la convergence en loi de (Xn )n vers
X n'est pas quivalente la convergence en loi de (Xn X)n vers 0, comme le montre
l'exemple Xn = X = Y o Y N (0, 1).
3. Cette dnition entrane automatiquement que si (Xn )n converge en loi vers X et f : Rd
Rk est une application continue, alors la suite (f (Xn ))n converge en loi vers f (X).
L

Dans la suite on notera Xn X pour exprimer la convergence en loi. On peut alors montrer
que la convergence en loi est la plus faible des trois convergences introduites jusqu'ici.

Proposition 44

La convergence en probabilit entrane la convergence en loi.


98

Preuve.

Soit une suite (Xn )n telle que Xn X . Soit h : Rd R une fonction continue
borne. Soit  > 0. Remarquons que pour x, y Rd :

|h(x) h(y)|  + 2 khk 1|h(x)h(y)|> .


Ainsi

|E(h(Xn )) E(h(X))| E (|h(Xn ) h(X)|)  + 2 khk P (|h(Xn ) h(X)| > ) .


La suite (h(Xn ))n convergeant vers h(X) en probabilit (d'aprs la proposition 41), on en dduit
que pour n susamment grand

|E(h(Xn )) E(h(X))|  (1 + 2 khk ) .


Ainsi

lim E (h(Xn )) = E (h(X)). D'o la convergence en loi.

n+

Remarque :

La rciproque de cette proprit est fausse, comme le montre l'exemple suivant.


Soit X une variable alatoire de loi N (0, 1) et Xn = X alors (Xn )n converge en loi vers X
(toutes les variable suivent la loi N (0, 1)) mais pas en probabilit vers X .
Pour les variables alatoires valeurs dans Z, on a la caractrisation suivante :

Proposition 45

Si (Xn )n est une suite de variables alatoires discrtes alors


L

Xn X

k Z,

lim P (Xn = k) = P (X = k) .

n+

Preuve.

La dmonstration de la condition ncessaire est laisse titre d'exercice (on pourra


considrer des fonctions continues hk telles que hk (k) = 1 et hk (x) = 0 si |x k| > 21 ).
Dmontrons la condition susante. On suppose que pour tout k Z, limn+ P(Xn = k) =
P(X = k). Soit h : R R une fonction continue et borne. Il faut montrer que

lim

n+

h(k)P(Xn = k) =

kZ

(8.1)

h(k)P(X = k).

kZ

Cette convergence est immdiate si on suppose l'existence de N N tel que P(Xn = k) =


P(X = k) = 0 pour |k| > N (convergence d'une
P somme nie de suites). Pour le cas gnral, on
commence par choisir N N tel que khk |k|>N P(X = k) <  (ce qui toujours possible car
on considre le reste d'une srie convergente). On a alors

h(k)P(Xn = k)

kZ

h(k)P(X = k)| An + Bn ,

kZ

avec

An = |

|k|N

et

Bn = khk

h(k)P(Xn = k)

h(k)P(X = k)|.

|k|N

P(Xn = k) + khk

|k|>N

P(X = k).

|k|>N

Il est vident que limn An = 0. De plus en crivant

X
|k|>N

P(Xn = k) = 1

|k|N

99

h(k)P(Xn = k),

on voit que

lim

P(Xn = k) =

|k|>N

P(X = k),

|k|>N

et donc que

lim Bn = 2 khk

n+

P(X = k) < 2.

|k|>N

On en dduit l'existence d'un entier n0 tel que si n n0 , An + Bn < 3. Comme  peut tre
arbitrairement petit, on voit que

lim (An + Bn ) = 0.

On a bien limn E (h(Xn )) = E (h(X)), ce qui montre la convergence en loi annonce.

Remarque.

Concernant les variables alatoires Xn densit fXn (par rapport la mesure de


Lebesgue sur Rd ), on peut montrer que si limn+ fXn (x) = f (x) en tout point x Rd avec
f densit de probabilit sur Rd , alors la suite (Xn )n converge en loi vers la loi de densit f . Ce
rsultat constitue le Lemme de Sche. Cependant la rciproque de ce lemme est fausse : (Xn )n
peut converger en loi sans que la suite des densits converge point par point (un exemple de ce
cas de gure est donne dans [1], p. 319).
La convergence en loi peut s'exprimer l'aide de la convergence des fonctions caractristiques
seulement. Nous admettrons le thorme suivant.

Thorme 12

Xn X si et seulement si t Rd ,
lim Xn (t) = X (t).

n+

Remarque.

Il est facile de montrer que dans le cas de vecteurs alatoires la convergence en


loi entrane la convergence en loi des marginales. Cependant la rciproque est fausse en gnral
(sauf dans le cas o les marginales sont indpendantes). En fait, le thorme prcdent permet
de montrer l'quivalence
L

Xn X

t Rd ,

tT Xn tT X.

Mentionnons un dernier critre de convergence en loi trs utile pour le cas des variables
alatoires valeurs relles. Nous admettrons le rsultat suivant.

Proposition 46

Pour une suite de variables alatoires relles, on a Xn X si et seulement si


la suite de leur fonctions de rpartition FXn satisfait lim FXn (t) = FX (t) en tout point t de
n+

continuit de FX .

Remarque.

La convergence des fonctions de rpartition a lieu en tout point si la loi limite


est densit. D'ailleurs si la fonction de rpartition limite est continue, il est mme possible de
prouver que suptR |FXn (t) FX (t)| tend vers 0 (c'est--dire que la convergence est uniforme).
Cependant en gnral, on ne peut esprer avoir la convergence en tout point comme le montre
L

l'exemple suivant. Si Xn = n1 , alors Xn 0 p.s. donc Xn 0, alors que FXn (0) = 0, pour tout
n et FX (0) = 1.
100

8.3
8.3.1

Deux thormes fondamentaux


La loi des grands nombres

Thorme 13

Soit (Xn )nN une suite de variables alatoires relles, indpendantes et identiquement distribues telle que E (|X1 |) < +. Alors
lim

n+

X1 + X2 + . . . + Xn
= E(X1 ),
n

p.s.

Remarques
1. En considrant par exemple le jeu de pile ou face avec des lancers indpendants, on comprend pourquoi la convergence ne peut avoir lieu en tout point = {0, 1}n , puisque
pour toute suite constante partir d'un certain rang, la limite ci dessus vaut 0 ou 1 alors
que la moyenne d'un lancer est 1/2.
2. On peut aussi obtenir ce type de convergence pour certaines suites de variables alatoires
dpendantes (e.g certains processus de type autorgressifs vus dans ce cours).

Preuve.

On va dmontrer le rsultat seulement lorsque E X14 < +. Pour cela posons

Sn = (X1 + . . . Xn ) nE(X1 ) =

n
X

(Xi E(X1 )) .

i=1

Les variables Yi = Xi E(X1 ) possdent aussi un moment d'ordre 4 et elles sont indpendantes
et centres. Pour montrer que
+
X

Sn
= 0 p.s. (qui est le rsultat attendu), on va montrer que
n+ n
lim


n4 E Sn4 < +, ce qui conduira au rsultat, d'aprs le critre donn par la proposition

n=1

42. Nous avons si n 1 (en convenant que S0 = 0),


4
3
2
Sn4 = Sn1
+ Yn4 + 4Sn1
Yn + 6Sn1
Yn2 + 4Sn1 Yn .

En prenant l'esprance dans cette dernire galit, on obtient, vu que les variables alatoires Yn
et Zn1 sont indpendantes et centres :






4
2
E Sn4 = E Sn1
+ E Y14 + 6E Y12 E Sn1
.
2
Remarquons que par indpendance des variables Yi , E Sn1
= (n 1)E Y12 . Ainsi en posant


2
a = 6 E(Y12 ) et b = E Y14 a, nous avons :



4
E Sn4 = E Sn1
+ an + b.


2
En itrant cette galit, on obtient E Sn4 = n2 a + n b + a2 . Il est alors immdiat que
+
X


n4 E Sn4 < +,

n=1

ce qui termine la preuve.


101

Fig.

8.1: Convergence de

1X
Xj pour une suite i.i.d de loi de Bernoulli (p = 21 ).
n
j=1

8.3.2

Le thorme central limite

Thorme 14

Soit (Xn )nN une suite de variables alatoires indpendantes valeurs dans Rd ,
de mme loi et de carr intgrable. Soit = Var(X1 ). Alors



X1 + . . . + Xn
L
n
E (X1 ) Nd (0, ).
n

Remarque.

Ce type de convergence vers une loi Gaussienne peut avoir lieu dans certains cas
pour des variables non identiquement distribues voire dpendantes. Ce thorme exprime qu'une
somme importante de phnomnes indpendants et de faible amplitude suit approximativement
une loi gaussienne, ce qui justie et rend pertinent l'utilisation de cette loi en pratique.

Preuve.

Comme pour la loi des grands nombres, quitte poser Yj = Xj E (Xj ), on peut
supposer les variables centres, ce que nous ferons. Notons qu'il sut de montrer le rsultat pour

1
n

des variables alatoires valeurs dans R. En eet pour le cas vectoriel, en posant Tn = Xi , il
sut de montrer que pour tout u, uT Tn converge en loi vers uT X avec X Nd (0, ) (d'aprs la
remarque juste aprs le thorme 12). Mais ceci rsulte du cas rel appliqu aux variables uT Xi ,
i N .
Considrons donc le cas rel. Nous allons utiliser le thorme 12. Pour cela, en notant pour
une variable alatoire Y , Y sa fonction caractristique, nous avons pour t R x l'galit
suivante :

 

n

Tn (t) = nj=1 Xj

X1

Les deux galits prcdentes rsultent respectivement de l'indpendance et de l'quidistribution


des variables Xj , j N . Remarquons ensuite que l'existence du moment d'ordre 2 pour X1
justie le dveloppement limit l'ordre 2 et en 0 de sa fonction caractristique


X1


t
t2
= 1 + i E (X1 )
E X12 + o
2n
n
102

 
1
.
n

Ainsi nous avons


z n n
Tn (t) = 1 +
,
n
t2 E(X12 )
o la suite de nombres complexes (zn )n converge vers
. Pour montrer que lim Tn (t) =
2
n+

12 t2 E(X12 )

(qui est bien la fonction caractristique au point t de la loi N (0, Var(X1 ))), nous admettrons l'ingalit





z n
|z| n
z
|z|
,
e 1 +
e 1+
n
n

(z, n) Cov N.

Cette ingalit qui se prouve en dveloppant l'exponentielle en srie entire vite l'utilisation du
logarithme complexe. Elle permet d'obtenir les majorations :

12


12

zn n
2
2 t E(X12 )



Tn (t) e 2 t E(X1 ) ezn + ezn 1 +
e

n 



12
|zn | n
2


e 2 t E(X1 ) ezn + e|zn | 1 +
,
n
ce qui montre la convergence dsire en utilisant la continuit de la fonction exponentielle ainsi
que les galits






|zn |
|zn | n
= exp n ln 1 +
= exp (|zn | + o(1)) .
1+
n
n
L

Ainsi le thorme 12 permet de conclure que Tn N (0, Var(X1 )).

Exemple d'utilisation de l'approximation Gaussienne.

Une graine a une probabilit


p = 0.75 de donner naissance une plante. Combien doit-on semer de graines pour tre sr
99% d'obtenir au moins 50 plantes (on utilisera la valeur approche 0.01 pour P (N (0, 1) > 2.3)) ?
Pour rpondre, on doit charcher n tel que

n
X

!
Xi > 49

0.99,

i=1

o (Xi ) est une suite i.i.d de variables alatoires toutes de loi de Bernoulli de paramtre p. On
pourrait alors chercher la valeur minimale de n pour laquelle une binomiale de paramtres n et
p vrie cette ingalit. An de limiter les calculs, on peut aussi se servir de l'approximation
gaussienne car
!
!

n
X
i=1

Xi > 49

=P

Pn
(Xi p)
49 np
pi=1
>p
np(1 p)
np(1 p)

Pn

(X p)
Comme la fonction de rpartition de Tn = i=1 i
converge uniformment vers celle de la loi
np(1p)
N (0, 1), on peut alors rsoudre le problme de faon approche en cherchant n tel que

49 np
P N (0, 1) p
np(1 p)

!
0.01.

Comme P (N (0, 1) 2.3) 0.01, on peut chercher le plus petit entier n tel que

49 np
p
2.3,
np(1 p)
ce qui donne n 77.
103

104

Bibliographie

[1] Ouvrard, J.Y, Probabilits 2. Cassini.

105