Vous êtes sur la page 1sur 94

Probabilités et Statistiques

Raphaël KRIKORIAN
Université Paris 6

Année 2005-2006
2
Table des matières

1 Rappels de théorie des ensembles 5


1.1 Opérations sur les ensembles . . . . . . . . . . . . . . . . . . . 5
1.2 Applications entre ensembles . . . . . . . . . . . . . . . . . . . 6
1.3 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Dénombrabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Espaces Probabilisés et variables aléatoires 13


2.1 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Variables Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Le cas particulier des v.a à valeurs dans un ensemble
fini ou dénombrable . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Loi d’une variable aléatoire . . . . . . . . . . . . . . . 26
2.2.3 Loi des variables aléatoires à valeurs dans un ensemble
fini ou dénombrable . . . . . . . . . . . . . . . . . . . . 27
2.2.4 Loi de variables aléatoires admettant une densité . . . 29
2.3 Espérance d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.1 Espérance d’une v.a. à valeurs dans un ensemble fini
(ou dénombrable) . . . . . . . . . . . . . . . . . . . . . 30
2.3.2 Espérance d’une v.a. positive . . . . . . . . . . . . . . 31
2.3.3 Espérance des v.a intégrables . . . . . . . . . . . . . . 32
2.3.4 Formule de transfert . . . . . . . . . . . . . . . . . . . 35
2.3.5 Application au calcul de densité . . . . . . . . . . . . . 40
2.4 Espaces L2 , variance et Bienaymé-Tchébychev . . . . . . . . . 42
2.4.1 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.2 Calculs de variance . . . . . . . . . . . . . . . . . . . . 44
2.4.3 Inégalité de Markov et de Bienaymé-Tchebychev . . . . 48

3
4 TABLE DES MATIÈRES

3 Vecteurs aléatoires et Indépendance 51


3.1 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Tribu borélienne de Rm . . . . . . . . . . . . . . . . . 51
3.1.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . 52
3.1.3 Loi d’un vecteur aléatoire . . . . . . . . . . . . . . . . 52
3.1.4 Marginales . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1.5 Espérance et variance des vecteurs aléatoires . . . . . . 54
3.1.6 Formule de transfert . . . . . . . . . . . . . . . . . . . 56
3.1.7 Calcul de densité de vecteurs aléatoires . . . . . . . . . 56
3.2 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . 60
3.2.1 Cas des v.a à valeurs dans un ensemble discret . . . . . 61
3.2.2 Cas des v.a admettant des densités . . . . . . . . . . . 63
3.2.3 Espérance des produits de v.a indépendantes . . . . . . 63
3.2.4 Critères d’indépendance . . . . . . . . . . . . . . . . . 66
3.3 Evènements indépendants . . . . . . . . . . . . . . . . . . . . 68

4 Sommes de variables aléatoires indépendantes 71


4.1 Lois des grands nombres dans le cas L2 . . . . . . . . . . . . . 72
4.1.1 Loi faible des grands nombres . . . . . . . . . . . . . . 72
4.1.2 Loi forte des grands nombres . . . . . . . . . . . . . . . 73
4.2 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . 75
4.2.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . 76
4.2.2 Fonctions caractéristiques . . . . . . . . . . . . . . . . 78
4.2.3 Démonstration du théorème de la limite centrale . . . . 83
4.3 Quelques remarques sur les diverses notions de convergence . . 85

5 Espérance conditionnelle 87
5.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . 87
5.2 Espérance conditionnelle : cas discret . . . . . . . . . . . . . . 88
5.3 Cas des v.a admettant des densités . . . . . . . . . . . . . . . 91
5.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Chapitre 1

Rappels de théorie des


ensembles

Nous rappelons dans ce chapitre quelques notions élémentaires de théorie


des ensembles.

1.1 Opérations sur les ensembles


Un ensemble est intuitivement une collection d’éléments. Etant donnés un
ensemble E et un élément a on écrit a ∈ E si a est un élément de E. Il existe
un unique ensemble ne contenant aucun élément ; on le note ∅.
Si E et A sont deux ensembles on dit que F est inclus dans E ou que A
est un sous-ensemble de E si tout élément de A est un élément de E et on
écrit A ⊂ E. On peut alors définir le complémentaire de A dans E qui est
l’ensemble des éléments de E qui n’appartiennent pas à A. On le notera dans
ce cours E − A ou Ac ; cette dernière notation cesse d’être ambigüe si l’on
suppose E fixé une fois pour toute, ce que nous ferons.
Si E est un ensemble, l’ensemble constitué des sous-ensembles de E s’appelle
l’ensemble des parties de E et se note P(E).
Si (Ai )i∈I est
S une collection d’ensembles inclus dans E, la réunion des Ai est
l’ensemble i∈I Ai des a ∈ E pour lesquels T il existe i ∈ I tel que a ∈ Ai . De
même l’intersection des Ai est l’ensemble i∈I Ai des a ∈ E pour lesquels
a ∈ Ai pour tout i ∈ I. On dit que deux ensembles sont disjoints si leur
intersection est vide. On dit que les ensembles Ai , i ∈ I constituent une
partition de l’enemble E si i) ils sont non vides, ii) leur union sur i ∈ I vaut
E iii) ils sont disjoints deux à deux (Ai ∩ Aj = ∅ si i 6= j) ; on dit aussi que
E est union disjointe des Ai , i ∈ I.

5
6 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES

On a les formules
[ c \ \ c [
Ai = Aci , Ai = Aci .
i∈I i∈I i∈I i∈I

Si A1 , . . . , An sont des ensembles on peut définir le produit cartésien de


ces ensembles comme étant l’ensemble des n-uplets (a1 , . . . , an ) où a1 ∈
A1 , . . . , an ∈ An . On note cet ensemble A1 × · · · × An . Quand les Ai sont
finis son cardinal est le produit des cardinaux des Ai .

1.2 Applications entre ensembles


Si A et B sont deux ensembles, une application associe à tout élément a
de A un unique élément noté f (a) de B. On dit que f (a) est l’image de a par
f . Un élément de B peut n’être l’image d’aucun élément de A ou au contraire
être l’image de plusieurs éléments de A. On dit qu’une application est injec-
tive si tout élément de B est l’image d’au plus un élément de A, surjective
si tout élément de B est l’image d’au moins un élément de A et bijective si
elle est injective et surjective. On note B A l’ensemble des applications de A
dans B. Quand A et B son finis son cardinal vaut (#B)#A .
Si E est un ensemble fixé, l’ensemble des parties de E est en bijection avec
l’ensemble des applications de E dans l’ensemble à deux éléments {0, 1}.
Cette bijection est la suivante : à tout ensemble A ⊂ E on associe sa fonction
caractéristique ou fonction indicatrice 1A : E → {0, 1} définie par 1A (e) = 1
si e ∈ A et 1A (e) = 0 sinon. Réciproquement si f est une application de E
dans {0, 1} l’ensemble A des e ∈ E tels que f (e) = 1 est tel que 1A (·) = f (·).
En particulier, ceci démontre que quand E est fini le cardinal de P(E) est
2#E .
Si A1 , . . . , An sont des sous-ensembles de E on a
n
Y
1A1 ∩···∩An = 1Ai .
i=1

Si f est une application de E dans F on définit pour tout B ⊂ F l’ensemble


f −1 (B) comme étant l’ensemble des e ∈ E tels que f (e) ∈ B. (Cette définition
a un sens même si f n’est pas inversible.) On dit que f −1 (B) est la pré-image
de B par f .
On a toujours
[  [ \  \  c
−1
f Ai = f −1 (Ai ), f −1
Ai = f −1
(Ai ), f −1 c
(A ) = f −1
(A) .
i∈I i∈I i∈I i∈I
1.2. APPLICATIONS ENTRE ENSEMBLES 7

Attention le comportement par image directe n’est pas aussi bon.


Exercice i) Montrer que si A, B sont deux sous-ensembles de E on a
1 − 1A∪B = (1 − 1A )(1 − 1B ),
et en déduire que
#(A ∪ B) = #A + #B − #(A ∩ B).
ii) En généralisant la formule précédente montrer que
n
X X
#(A1 ∪ · · · ∪ An ) = (−1)p−1 #(Ai1 ∩ · · · ∩ Aip ).
p=1 1≤i1 <...<ip ≤n

Solution. i) Pour tout ensemble F ⊂ E


1F c = 1 − 1F .
Donc
1 − 1A∪B = 1Ac ∩Bc
= 1Ac 1Bc
= (1 − 1A )(1 − 1B ).
On a donc
1A∪B = 1A + 1B − 1A · 1B
= 1A + 1B − 1A∩B .
Or, pour tout ensemble F ⊂ E
X
#F = 1F (e).
e∈E

On a donc bien la conclusion.


ii) De façon générale,
n
Y
1 − 1A1 ∪···∪An = (1 − 1Ai ),
i=1

et donc
n
X X
1 − 1A1 ∪···∪An = 1 + (−1)p 1Ai1 · · · 1Aip
p=1 1≤i1 <...<ip ≤n
n
X X
=1+ (−1)p 1Ai1 ∩···∩Aip ,
p=1 1≤i1 <...<ip ≤n

et en sommant sur e ∈ E on obtient bien la formule annoncée.


8 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES

1.3 Dénombrement
Cardinal d’une union disjointe finie. Si A1 , . . . , An sont des ensembles
finis disjoints deux à deux tels que A1 ∪ · · · ∪ = E alors E et fini et
n
X
#E = #Ai .
i=1

Cardinal d’un produit. Si A1 , . . . , An sont des ensembles finis le cardinal


du produit A1 × · · · × An est donné par

#(A1 × · · · × An ) = (#A1 ) · · · (#An ).

Cardinal de l’ensemble des applications de A dans B. Si A et B


sont des ensembles finis, l’ensemble des applications de A dans B est fini et
à pour cardinal
#(B A ) = (#B)#A .

Nombre d’injections entre deux ensmbles finis. Si A et B sont deux


ensembles finis avec #A = p, #B = n, l’ensemble des applications injectives
de A vers B a un cardinal égal à
(
0 si #A > #B
n(n − 1) · · · (n − p + 1) si p ≤ n.

En effet, supposons A = {a1 , . . . , ap } ; si p > n, il ne peut y avoir d’appli-


cations injective de A vers B, tandis que si p ≤ n, il y a n choix possibles
pour la valeur f (a1 ), n − 1 choix possibles pour la valeur de f (a2 ) (comme
f est injective f (a2 ) ne peut pas prendre la même valeur que f (a1 )) etc.
n − (p − 1) = n − p + 1 choix possibles pour f (ap )
C’est aussi le nombre de p-uplet (ordonnés) (e1 , . . . , ep ) où ei ∈ E.

Nombre de bijections de A vers A. Si A est un ensemble de cardinal n,


une application de A vers A est bijective si et seulement si elle est injective
et par conséquent le nombre de bijection de A vers A (on dit aussi le nombre
de permutations de A) égale

n! = n(n − 1) · · · 1.
1.3. DÉNOMBREMENT 9

Cardinal de P(E). Si E est fini de cardinal n, le nombre de sous-ensembles


de E est égal au nombre d’applications de E vers {0, 1} et vaut donc

#P(E) = 2n .

Nombre de sous-ensembles de cardinal p d’un ensemble à n éléments.


Si E est un ensemble fini de cardinal n, le nombre de sous-ensemble de E de
cardinal exactement p égale
 
n n(n − 1) · · · (n − p + 1) n!
= Cnp = = .
p p! p!(n − p)!

En effet, un sous-ensemble {a1 , . . . , ap } de E peut être vu comme un p-


uplet d’élément de E où l’on oublie l’ordre des éléments. Or, étant donnés p
éléments de E on peut former p! (nombre de bijections de {a1 , . . . , ap } dans
lui même) p-uplets. Ainsi, le nombre de sous-ensembles de cardinal p d’un
ensemble à n éléments égale le nombre d’injection de l’ensemble {1, . . . , p}
dans E (i.e le nombre de p-uplets de E) divisé par p!.
Une autre preuve de ce résultat est la suivante : considérons le polynôme
(1 + X)n = (1 + X) · · · (1 + X). Quand on développe le produit, on obtient
une somme de produits de 1 et de X et on voit que le coefficient de X p est
égal au nombre de façons de choisir p éléments parmi n. Or, on sait d’après
la formule du binôme de Newton, que le coefficient de X p est Cnp .

Cardinal et fonctions caractristiques Si A ⊂ E on a


X
#A = 1A (x).
x∈E

ExerciceUne urne contient N boules noires et M boules blanches.


i) On effectue n tirages sans remise. Quel est le nombre total de tels tirages ?
Combien de tirages donnent x (x ≤ n) boules noires ?
ii) ) On effectue n tirages avec remise. Quel est le nombre total de tels ti-
rages ? Combien de tirages donnent x (x ≤ n) boules noires ?
Solution.
On note {1, . . . , N} l’ensemble des boules noires et {N + 1, . . . , N + M}
l’ensemble des boules blanches.
i) Un tirage sans remise est équivalent à la donnée d’une injection de {1, . . . , n}
dans {1, . . . , N + M} (ou à une suite ordonnée, un n-uplet (x1 , . . . , xn ),
10 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES

xi ∈ {1, . . . , N + M}). Il y a donc (N + M) · · · (N + M − n + 1) tirages


sans remise.
Un tirage où x boules noires sont tirées est équivalent à la donnée d’un sous-
ensemble A de {1, . . . , n} à x élements (si on pense au tirage comme à une
expérience, A est l’ensemble des temps où le résultat de notre expérience est
“boule noire”) et de deux injections, une de A dans l’ensemble des boules
noires, une seconde du complémentaire de A dans {1, . . . , n} dans l’ensemble
des boules blanches : on a donc
 
n
· N(N − 1) · · · (N − x + 1) · M(M − 1) · · · (M − (n − x) + 1)
x

choix possibles, c’est-à-dire


 
n
· N(N − 1) · · · (N − x + 1) · M(M − 1) · · · (M − n + x + 1)
x

choix possibles.
Remarquons que la proportion du nombre de tirages sans remise où x boules
noires sortent dans l’ensemble des tirages sans remise est
n

x
· N(N − 1) · · · (N − x + 1) · M(M − 1) · · · (M − n + x + 1)
(N + M) · · · (N + M − n + 1)
n N M
  
· x! · (n − x)!
= x x
N +M
n−x

n!
N
 M n
x n−x
= N +M

n

ii) Un tirage avec remise est équivalent à la donnée d’une application (pas
nécessairement injective) de {1, . . . , n} vers {1, . . . , N + M} (ou encore d’un
n-uplet (e1 , . . . , en ) de {1, . . . , N +M}n ) ; il y a donc (N +M)n choix possibles.
Un tirage où x boules noires sont tirées est équivalent à la donnée : d’un sous-
ensemble A de {1, . . . , n} à x élements, d’une application (pas nécessairement
injective) de A dans {1, . . . , N} (ou encore d’un x-uplet de {1, . . . , N}x ) et
d’une application de {1, . . . , n} − A dans {N + 1, . . . , N + M} (ou encore un
(n − x)-uplet de {N + 1, . . . , N + M}). Il y a donc
 
n
· N x · M n−x
x

choix possibles. Remarquons que la proportion du nombre de tirages avec


1.4. DÉNOMBRABILITÉ 11

remise où x boules noires sortent dans l’ensemble des tirages avec remise est
  x n−x  
n N M n x
= p (1 − p)n−x ,
x (N + M)n x
où p = N/(N + M).

1.4 Dénombrabilité
Définition 1.4.1 Un ensemble est dit dénombrable s’il est en bijection avec
l’ensemble N des entiers naturels.
Nous étendrons cette définition en disant qu’un ensemble est dénombrable
s’il est fini ou en bijection avec N.
De façon plus concrète, un ensemble est dénombrable si on peut énumérer
ses éléments.

Proposition 1.4.1 Si A et B sont deux ensembles.


a) S’il existe une injection de A dans B et si B est dénombrable alors A est
dénombrable
b) S’il existe une surjection de A dans B et si A est dénombrable, alors B
est dénombrable.

Théorème 1.4.1 a) Si A1 , . . . , An sont des ensembles dénombrables, le pro-


duit A1 × · · · × An est également dénombrable.
b) Si (Ai )i∈I est une famille dénombrable (c’est-à-dire I est dénombrable)
S dénombrables (pour tout i ∈ I, Ai est dénombrable) alors la
d’ensembles
réunion i∈I Ai est également dénombrable.
Démonstration.—
a) On peut supposer A1 = . . . = An = N. Notons p1 , . . . , pn les n premiers
nombres premiers (p est premier s’il est divisble uniquement par 1 et par
p) et considérons l’application qui à (l1 , . . . , ln ) ∈ Nn associe le nombre 2l1 ·
3l2 · · · plnn est une injection de Nn dans N car la décomposition en facteurs
premiers d’un nombre est unique. La proposition 1.4.1 a) permet de conclure.
S
b) Considérons l’application de N × N dans i∈I Ai qui au couple (n, m)
associe le m-ième élément de l’ensemble Ain où in est le n-ième élément de
I. C’est une surjection. La proposition 1.4.1 b) donne la conclusion.
2

Corollaire 1.4.1 L’ensemble des entiers relatifs Z et l’ensemble des nombres


rationnels Q sont dénombrables.
12 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES

Démonstration.—
L’ensemble Z est dénombrable car l’application de l’ensemble dénombrable
{1, −1} × N dans Z qui au couple (, n) associe le produit n est une surjec-
tion. De même, Q est dénombrable car l’application de l’ensemble dénombrable
Z × (N − {0}) dans Q qui au couple (p, q) associe le rationnel p/q est une
surjection.
2
On peut démontrer que

Théorème 1.4.2 L’ensemble des nombres réels R n’est pas dénombrable.

Corollaire 1.4.2 L’ensemble des nombres irrationnels n’est pas dénombrable.


Démonstration.—
Car sinon, R qui est réunion de Q et de l’ensemble des nombres irration-
nels serait dénombrable (comme union dénombrable d’ensembles dénombrables).
2
Chapitre 2

Espaces Probabilisés et
variables aléatoires

2.1 Espace probabilisé


Un espace probabilisé est la donnée
– d’un espace Ω que l’on appelle l’espace des états. Quand on modélise
une situation concrète Ω est l’ensemble des états du système que l’on
considère. Bien souvent cet espace est inaccessible à l’expérience ;
– d’un sous-ensemble B de P(Ω) qui est l’ensemble des évènements. Dans
une situation concrète c’est l’ensemble de tous les résultats d’expériences
que l’on peut effectuer sur le système. En théorie des probabilités (donc
quand on fait des mathématiques) cet ensemble B sera une tribu ou en-
core (c’est équivalent) une σ-algèbre (cf. définition 2.1.1 ;
– d’une probabilité P : pour tout évènement A ∈ B le réel P(A) est le
degré de vraisemblance de l’évènement A ; c’est un nombre compris
entre 0 et 1. Mathématiquement, une probabilité est une application
P : B → [0, 1] vérifiant les propriétés décrites en dans la définition 2.1.2.
Nous précisons dans la suite les deux derniers points.

2.1.1 Tribus
Soit Ω un ensemble fixé (l’espace des états).

Définition 2.1.1 Une tribu ou encore une σ-algèbre de Ω est un ensemble


de parties de Ω (donc un sous-ensemble de P(Ω), l’ensemble des parties de
Ω) qui contient l’ensemble vide, est stable par passage au complémentaire et
est stable par union dénombrable :
– ∅∈B

13
14CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

– pour tout A ∈ B on a Ac ∈ B
– pour toute famille dénombrable (Ai )i∈N d’éléments de B l’union
[
Ai
i∈N

est également dans B.


Il est clair que Ω est toujours élément de la tribu (c’est le complémentaire
de l’ensemble vide) et qu’une intersection dénombrable d’éléments de la tribu
est encore dans la tribu (car ∩i∈N Ai = (∪i∈N Aci )c ).

Exemples

1) Si Ω est un ensemble quelconque on peut toujours définir deux tribus :


la tribu triviale qui est B = {∅, Ω}
la tribu totale qui est B = P(Ω).

2) Si Ω = {1, 2, 3} le sous-ensemble de P(Ω), B = {∅, {1}, {2, 3}, Ω} est une


tribu de Ω.

3) (Exercice :) Si Ω est un ensemble le sous-ensemble de P(Ω) constitué des


ensembles qui sont dénombrables ou dont le complémentaire est dénombrable
est une tribu.
Sauf dans le cas où l’espace Ω est fini, les exemples précédents de tri-
bus sont trop simples pour être utiles. La proposition donne un moyen très
commode de construire des tribus non-triviales.

Proposition 2.1.1 Soit Ω un ensemble et S un sous-ensemble de parties


de Ω (un sous-ensemble de P(Ω)) sans structure particulière. Il existe une
unique tribu B qui contient S et qui est minimale pour cette propriété c’est-
à-dire :
– (S ⊂ B) : pour tout A ∈ S on a A ∈ B
– (minimale) : si B0 est une autre tribu telle que S ⊂ B0 alors B ⊂ B0 .
On appelle B la tribu engendrée par la partie S et on la note (dans ce cours)
B = B(S).
Démonstration.—
Considérons l’ensemble E des tribus C de Ω tel que S ⊂ C. Cet ensemble
E est non vide puisqu’il contient la tribu P(Ω) et puisque S ⊂ P(Ω). Notons
B l’intersection des C quand C décrit E. C’est un sous-ensemble de P(Ω) qui
contient S mais c’est également une tribu comme il est facile de vérifier (nous
2.1. ESPACE PROBABILISÉ 15

recommandons au lecteur de vérifier ce point). Ainsi, B est une tribu conte-


nant S et appartient donc à E. Comme B est l’intersection des C décrivant
E on a pour toute tribu C contenant S l’inclusion B ⊂ C : ceci qui signifie
que B est la plus petite trbibu contenant S.
2

2.1.2 Probabilité
Définition 2.1.2 Si Ω est un ensemble et B est une tribu de Ω, une proba-
bilité P est une application de B dans [0, 1] telle P(Ω) = 1 et telle que pour
toute famille dénombrable (Ai )i∈N d’évènements de B disjoints 2 à 2 on a
[  ∞
X
P Ai = P(Ai ).
i∈N i=0

où l’égalité précédente signifie la chose suivante : la probabilité P(∪i∈N Ai )


est égale à la limite de la suite croissante de nombres réels N
P
i=0 P(A i ) quand
N tend vers l’infini.( Cette limite existe toujours car la suite en question est
croissante et bornée.)

Remarque L’intérêt d’autoriser la stabilité par unions (intersections) dénombrables


dans la définition d’une tribu permet de construire à partir d’évènements
simples des évènements beaucoup plus intéressants que ceux qu’on obtien-
drait en ne supposant que la stabilité par unions (intersections) finies. En re-
vanche, si on autorisait la stabilité par unions (intersections) quelconques on
ne pourrait pas construire beaucoup de probabilités. La stabilité par unions
(intersections) dénombrable est donc le bon compromis.
Mentionnons tout d’abord deux propriétés immédiates des probabilités :

Proposition 2.1.2 Soit (Ω, B, P) un espace probabilisé.


a) Si A ∈ B,
P(Ac ) = 1 − P(A).

b) P(∅) = 0
c)(Positivité) Si A, B ∈ B vérifient A ⊂ B alors P(A) ≤ P(B).
d) Si A, B ∈ B alors

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).


16CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

Démonstration.—
a) Il suffit décrire Ω comme l’union disjointe finie Ω = A ∪ Ac : comme P est
une probabilité 1 = P(Ω) = P(A) + P(Ac ).
b) suit de la formule précédente et du fait que P(Ω) = 1.
c) On écrit B comme l’union disjointe B = A ∪ (B ∩ Ac ) et P(B) = P(A) +
P(B ∩ Ac ). Comme P(B ∩ Ac ) ≥ 0 on a bien P(B) ≥ P(A).
d) De l’union disjointe A ∪ B = A ∪ (B ∩ Ac ) on déduit P(A ∪ B) = P(A) +
P(B ∩ Ac ). Mais de l’union disjointe B = (B ∩ Ac ) ∪ (B ∩ A) on obtient
P(B) = P(B ∩ Ac ) + P(A ∩ B). De ces deux égalités on déduit la formule d)
2
La preuve des propriétés qui suivent n’est pas difficile mais, à la différence
de la démonstration des propriétés précédentes, ne pourrait se faire sans
autoriser des unions dénombrables :

Proposition 2.1.3 a) Si Ai , i ∈ N est une famille croissante d’éléments


de B dont l’union est A alors A ∈ B et la suite P(An ) (qui est croissante
bornée) converge vers P(A) :
lim P(An ) = P(A);
n→∞

b) Si Ai , i ∈ N est une famille décroissante d’éléments de B dont l’union est


A alors A ∈ B et la suite P(An ) (qui est décroissante positive) converge vers
P(A) :
lim P(An ) = P(A);
n→∞

c) Si Ai , i ∈ N est une famille dénombrable d’ensembles appartenant à B on


a toujours (même si les Ai ne sont pas disjoints deux à deux)
[  X ∞
P Ai ≤ P(Ai ),
i∈N i=0

(où le membre de droite de l’inégalité précédente qui est la limite de la suite


croissante peut éventuellement être infini).
Démonstration.—
a) Définissons les ensembles Bn , n ≥ 0 de la façon suivante : B0 = A0 , et
pour n ≥ 1, Bn = An ∩ Acn−1 . Les Bn constituent une famille dénombrable
d’ensembles disjoints deux à deux d’éléments de B et on peut donc écrire

X [ 
P(Bk ) = P Bk .
k=0 k∈N
2.1. ESPACE PROBABILISÉ 17

c’est-à-dire
N
X [ 
lim P(Bk ) = P Bk ,
N →∞
k=0 k∈N

ou encore, puisque les Bk sont disjoints deux à deux


N
[  [ 
lim P Bk =P Bk ,
N →∞
k=0 k∈N

Mais
N
[ ∞
[
Bk = AN , Bk = A
k=0 k=0

ce qui établit la preuve de a).


b) Il suffit de passer au complémentaire et d’utiliser a)
c) Pour ω ∈ Ω définissons l’entier ν(ω) comme étant le plus petit entier k ≥ 0
pour lequel ω ∈ Ak . L’ensemble Cn des ω ∈ Ω pour lesquels ν(ω) = n est
l’ensemble

Cn = {ω ∈ Ω, ν(ω) = n} = An ∩ (An−1 ∪ · · · ∪ A0 )c

qui est clairement dans B. Les ensembles Cn sont de toute évidence disjoints
deux à deux et leur union pour n ≥ 0 est ∪n∈N An car pour tout ω dans
∪n∈N An il existe un n tel que ν(ω) = n c’est-à-dire il existe un n tel que
ω ∈ Cn . On a donc
[  [  X ∞
P An = P Cn = P(Cn ),
n≥0 n≥0 n=0

et comme P(Cn ) ≤ P(An ) (puisque Cn ⊂ An ) on obtient la conclusion du c).


2
Les deux propriétés précédentes a) et b) sont des propriétés de continuité
(dans un sens à préciser) des probabilités.

2.1.3 Exemples
Mesures de Dirac
Sur tout ensemble Ω muni d’une tribu B il est possible de construire
des mesures de la façon suivante : pour tout α ∈ Ω définissons l’application
δα : B → [0, 1] qui à un ensemble A ∈ B associe le réel 1 si α ∈ A et 0
18CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

sinon. Cette application δα est une mesure de probabilité que l’on appelle la
mesure de Dirac au point α. Vérifions rapidement que c’est bien une mesure :
déjà δα (Ω) = 1 puisque α ∈ Ω ; par ailleurs si Ai ∈ B, i ≥ 0 est une famille
dénombrable d’ensembles de la trbibu disjoints deux à deux on a
[ 
δα Ai = δα (Ai ),
i≥0

car :
– soit α appartient à ∪i≥0 Ai ; mais alors il existe un i ≥ 0 pour lequel α ∈ Ai
et cet indice i est unique car les Ai sont disjoints deux à deux. L’égalité
précédente se réduit à 1 = 1 ;
– soit α n’appartient pas à ∪i≥0 Ai et de ce fait n’apartient à aucun des Ai :
l’égalité se réduit à 0 = 0.

Probabilités sur un ensemble fini


Les espaces probabilisés les plus simples sont ceux où l’espace des états
Ω est fini. On choisit en général comme tribu B l’ensemble P(Ω) de toutes
les parties de Ω (qui est bien une tribu). C’est ce que nous ferons (car le
cas où B est une tribu plus petite que P(Ω) s’y ramène). Ceci étant, il reste
à définir la probabilité. Remarquons que tout ensemble A ∈ B = P(Ω) est
fini (car inclus dans Ω qui est fini) et est par conséquent l’union (finie donc
dénombrable) des singletons {a} où a décrit A :
[
A= {a}.
a∈A

Comme cette union est disjointe et finie on a


X
P(A) = P({a}).
a∈A

Si Ω = {c1 , . . . , cn } et si on note pi = P({ci}) on a


X
P(A) = pi .
i,ci ∈A

Remarquons que les pi sont dans [0, 1] et vérifient


n
X
pi = 1.
i=1
2.1. ESPACE PROBABILISÉ 19

En conclusion : dans le cas où Ω est fini, une probabilité P sur B = P(Ω) est
déterminée par ses valeurs sur les singletons de Ω. Réciproquement si on se
donne n nombres réels positifs p1 , . . . , pn dont la somme vaut 1 (p1 +· · ·+pn =
1) alors, l’application P : P(Ω) → [0, 1] qui à A ∈ P(Ω) associe le réel (dans
[0, 1]) X
P(A) = pi
{i:ci ∈A}

est une probabilité

Exercice : Démontrer l’énoncé précédent.

Probabilités uniformes et lien avec la combinatoire Un cas important


est celui où tous les pi , 1 ≤ i ≤ n précédents sont égaux. Comme leur somme
doit valoir 1 ceci signifie que p1 = · · · = pn = n1 . On dit dans ce cas que la
probabilité P est uniforme. On a alors, pour tout sous-ensemble A de Ω
X 1
P(A) = pi = #{i ∈ {1, . . . , n}, ci ∈ A}.
n
{i:ci ∈A}

soit
#A
P(A) = .
#Ω
Ainsi, quand on travaille avec une probabilité uniforme sur un ensemble fini,
déterminer la probabilité d’un évènement revient à calculer son cardinal : on
voit apparaı̂itre le lien avec la combinatoire.
Exercice : On tire cinq cartes d’un jeu de 32 cartes. Quelle est la probabilité
d’obtenit un full c’est-à-dire deux cartes de même valeur et trois autres cartes
de même valeur. On supposera chaque tirage équiprobable
Exercice : Une urne contient n boules noires et b boules blanches.
a) On effectue N tirages avec remises. Quelle est la probabilité d’obtenir x
boules noires ?
b) Même question si les tirages sont sans remises.
On supposera les tirages équiprobables.

Jeu de n Pile ou Face On se propose de modéliser un jeu où l’on lance n


fois une pièce (Pile/Face). De façon équivalente un expérimentateur réalise
n expérience le résultat de chaqu’une d’entre elles pouvant être positif (1)
ou négatif (0). Il est naturel de décrire le jeu ou l’expérience précédentes de
la façon suivante : on choisit comme espace des états l’ensemble Ω de toutes
les suites de longueur n constituées de 0 ou de 1. Une telle suite est donc un
20CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

n-uplet ω = (ω1 , . . . , ωn ) chaque ωi , 1 ≤ i ≤ n appartenant à l’ensemble à


deux éléments {0, 1}. Ainsi
Ω = {0, 1}n ,
et a 2n éléments. Nous choisirons comme tribu B = P(Ω), l’ensemble des
n
parties de Ω (qui a donc 22 mais cela n’a pas d’importance). Cette tribu nous
permet de décrire des évènements. Par exemple l’évènement (A) “obtenir k
Pile lors des n lancers” est décrit par l’ensemble A ∈ B (Pile=1, Face=0)
n
X
A = {ω = (ω1 , . . . , ωn ), ωi = k.}.
i=1

L’évènement (B) “on tire au moins un Pile” est décrit par l’ensemble

B = {ω = (ω1 , . . . , ωn ), ∃i ∈ {1, . . . , n} ωi = 1}.

L’évènement “(A) et (B)” est décrit par l’intersection A ∩ B, l’evènement


“non A” est décrit par Ac , l’évènement “A ou B” par A ∪ B etc.
Le choix de la probabilité sur notre ensemble est dicté par le jeu ou
l’expérience que l’on modélise. Ainsi, on ne modélisera pas de la même façon
un jeu ou pile et face ont les mêmes chances de sortir qu’un jeu où pile a
deux fois plus de chance de sortir que face. Dans le premier cas, il est naturel
1
de choisir comme probabilité P la probabilité uniforme
#A #A
P(A) = = n .
Ω 2
Noter que la probabilité d’un évènement élémentaire “on a tiré la suite
(1 , . . . , n )” c’est-à-dire la probabilité du singleton {(1 , . . . , n )} vaut 1/2n
(ceci quel que soit 1 , . . . , n ). En revanche, dans le second cas, on définira la
probabilité d’un évènement élémentaire {1 , . . . , n )} comme étant (2/3)k (1/3)n−k
où k est le nombre de 1 dans la suite 1 , . . . , n .

Exercice : Calculer dans chacun des cas précédents les probabibilités des
évènements A et B.

Le jeu infini de pile ou face


Nous présentons dans ce paragraphe la modélisation du jeu de pile ou
face où l’on joue une infinité de fois. Il est naturel d’introduire comme espace
des états l’ensemble Ω des suites ω = (ω1 , ω2 , . . .) où les ωi valent 0 ou 1. On
a ainsi Ω = {0, 1}N−{0} . Un problème plus délicat est de trouver une tribu
1
en fait cela sera encore plus naturel quand on aura défini la notion d’indépendance
2.1. ESPACE PROBABILISÉ 21

raisonnable sur cet ensemble. On aimerait par exemple pouvoir décrire un


évènement du type : “en moyenne pile sort deux fois plus souvent que face”
qui de façon ensembliste est l’ensemble des ω = (ω1 , . . .) ∈ Ω pour lesquels
la limite quand n tend vers l’infini de la suite
n
1X
ωi
n i=1

existe et vaut 2/3. Un moment de réflexion montre que cet évènement n’ap-
partient à aucune des tribus Fn qui modélisent un jeu de n pile/face2 .
Nous définirons la tribu B sur Ω de la façon suivante : la tribu B est la
tribu engendrée (au sens de la proposition 2.1.1) par tous les évènements Ci,
Ci, = {ω ∈ Ω, ωi = },
où i décrit N − {0} et  décrit {0, 1}.
Il reste à présent à construire une probabilité sur B ce qui est assez
délicat. Si on joue avec une pièce qui donne Pile (resp. Face) avec proba-
bilité 1/2 il est naturel d’attribuer à tout évènement Ci, la probablité (1/2)
(indépendamment de la valeur de ) et il est également naturel de demander
que la probabilité d’un évènement de la forme3
{ω ∈ Ω, ωi1 = 1 , . . . , ωir = r } = Ci1 ,1 ∩ · · · ∩ Cir ,r
soit égale à (1/2)r . Il n’est en revanche pas du tout clair que l’on puisse
attribuer à tout évènement de la tribu B une probabilité qui soit compatible
avec ces choix. En fait c’est possible :

Théorème 2.1.1 Il existe une unique mesure de probabilité P définie sur


(Ω, B) telle que pour tous r ≥ 1, i1 , . . . , ir ∈ N − {0}, 1 , . . . , r ∈ {0, 1} on
ait
1
P(Ci1 ,1 ∩ · · · ∩ Cir ,r ) = r .
2

Probabilité sur R
Il est important de savoir décrire des probabilités sur R, l’ensemble des
nombres réels. L’espace des états est alors Ω = R et la tribu que l’on choisit
est la tribu engendrée par les intervalles ouverts de R. On l’appelle la tribu
borélienne et on la note Bor(R). Retenons la définition :
2
On peut toujours considérer un jeu de n pile/face comme un cas particulier d’un jeu
infini de pile/face : Il suffit d’associer à toute suite ω = (ω1 , . . . , ωn ) de {0, 1}n la suite
ω̃ ∈ {0, 1}N − {0} définie par ω̃i = ωi si 1 ≤ i ≤ n et ω̃i = 0 si i ≥ n + 1
3
Cet évènement décrit l’expérience suivante : au temps i1 , . . . , ir , on observe 1 , . . . , r
et on ne précise pas ce qui se passe aux autres temps
22CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

Définition 2.1.3 La tribu borélienne de R est la tribu engendrée par les


intervalles ouverts de R.4 . On la note Bor(R).

Exercice : Montrer que la tribu borélienne de R est également la tribu en-


gendrée par les intervalles de la forme ] − ∞, a].
Solution : Notons C la tribu engendrée par les intervalles de la forme ]−∞, a].
Remarquons pour cela que si ]c, d[ est un intervalle ouvert (c < d peuvent
être infinis) on a
]c, d[=] − ∞, c]c ∩] − ∞, d[.
Mais ] − ∞, d[ s’écrit comme union dénombrable d’intervalles de C :
[ 1
] − ∞, d[= ] − ∞, d − ].
n∈N∗
n

Ainsi, C étant une tribu (donc stable par union dénombrable) ]−∞, d[ appar-
tient à C. Comme ] − ∞, c] est dans C, l’intersection ]c, d[=] − ∞, c]c ∩] − ∞, d[
est également dans C (C est stable par complémentaire et intersections finies
ou dénombrables). Nous avons donc démontré que la tribu C contenait les
intervalles ouverts. Or, la tribu borélienne est la plus petite tribu contenant
les intevalles ouverts. Par conséquent, Bor(R) ⊂ C. L’inclusion récipoque se
démontre de façon similaire (c’est plus facile).

Exercice : 1) Montrer qu’un singleton {a} est borélien.


2) Montrer que Q l’ensemble des rationnels est borélien.
3) L’ensemble des irrationnels est-il borélien.
4) Montrer qu’un intervalle fermé [a, b] est borélien (on observera que [a, b] =
∩p≥1 ]a − 1p , b + 1p [.)

Définition 2.1.4 Si µ est une probabilité sur (R, Bor(R)) on introduit Fµ


la fonction définie par Fµ (x) = µ(] − ∞, x]). On appelle Fµ (·) la fonction de
répartition de la mesure de probabilité µ.

Proposition 2.1.4 La fonction Fµ : R → [0, 1] définie par F (x) = µ(] −


∞, x])
i) est croissante
ii) admet des limites en +∞ et −∞ qui valent :

lim F (x) = 1, lim F (x) = 0


x→∞ x→−∞

4
elle est également engendrée par les intervalles ou les intervalles de la forme ] − ∞, a]
ou encore les intervalles fermés etc.
2.1. ESPACE PROBABILISÉ 23

iii) est continue à droite en tout point x ∈ R c’est-à-dire


lim F (t) = F (x).
t→x,x<t

Démonstration.—
i) Si x ≤ y on a ] − ∞, x] ⊂] − ∞, y] et d’après la proposition 2.2.1 c) on a
bien µ(] − ∞, x]) ≤ µ(] − ∞, y]).
ii) Pour tout suite xn croissant vers ∞ (resp. décroissant vers −∞) la suite de
boréliens ]−∞, xn ] est croissante pour l’inclusion (resp. décroissante pour l’in-
clusion) et leur union vaut Ω (resp. leur intersection vaut ∅). Par conséquent
d’après la proposition 2.1.3 a) (resp. b)) limn→∞ µ(] − ∞, xn ]) = 1 (resp.
limn→∞ µ(] − ∞, xn ]) = 0 ) ce qui démontre ii)
iii) Pour toute suite tn décroissante et convergeant vers x, la suite de boréliens
] − ∞, tn ] est décroissante et leur intersection vaut ] − ∞, x] ce qui démontre
que limn→∞ µ(] − ∞, tn ]) = µ(] − ∞, x]).
2

Remarque : Attention, la fonction de répartition d’une mesure n’est pas


toujours continue à gauche.Considérons en effet la mesure de Dirac en 0 que
nous notons δ0 : par définition c’est la mesure qui à tout borélien A de R
associe 1 si 0 appartient à A et 0 sinon ; on sait que c’est une mesure. Sa
fonction de répartition est : F (x) = 0 si x < 0 et F (x) = 1 si x ≥ 0 (c’est
une fonction en escalier) qui est bien continue à droite en 0 mais n’est pas
continue à gauche en 0.
Le théorème qui suit (dont la démonstration dépasse le cadre de ce cours)
permet de construire de très nombreuses mesures de probabilités sur la droite
réelle munie de sa tribu borélienne.

Théorème 2.1.2 Si F : R → [0, 1] est une fonction croissante, qui admet


une limite nulle en −∞ et une limite égale à 1 en ∞, et qui est continue à
droite en tout point de R alors il existe une unique mesure de probabilité µ
définie sur (R, Bor(R)) qui admet F comme fonction de répartition.
Ce théorème illustre l’équivalence entre la notion de probabilité sur (R, Bor(R))
et celle de fonction de répartition.
Donnons un exemple fondamental et typique d’une telle construction :
la fonction F définie par : F (x) = 0 si x < 0, F (x) = x si 0 ≤ x < 1 et
F (x) = 1 si x ≥ 1 vérifie bien les hypothèses du théorème 2.1.2 et définit
donc une mesure de probabilité λ que l’on appelle la mesure de Lebesgue sur
l’intervalle [0, 1]. Si I est un intervalle de R on a
λ(I) = longueur(I ∩ [0, 1]).
24CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

2.2 Variables Aléatoires


Définition 2.2.1 Une variable aléatoire réelle (en abrégé v.a) est une ap-
plication X : Ω → R telle que pour tout intervalle ouvert I de R l’ensemble
X −1 (I) des ω ∈ Ω tels que X(ω) ∈ I, appartient à B.

En fait

Proposition 2.2.1 Si X : Ω → R est une application alors les trois propo-


sitions suivantes sont équivalentes
a) pour tout borélien A ∈ Bor(R) X −1 (A) ∈ B.
b) X est une variable aléatoire ;
c) pour tout intervalle I de la forme I =] − ∞, a], X −1 (I) appartient à B ;

Démonstration.— Que a) implique b) et que b) implique c) est évident.


Démontrons donc que c) implique a). L’ensemble E des A ⊂ R tels que
X −1 (A) ∈ B est une tribu (exercice). Or, cet ensemble E contient d’après
c) les intervalles de la forme ] − ∞, a] et par conséquent la tribu engendrée
par les intervalles de la forme ] − ∞, a]. Mais on sait, d’après l’exercice qui
suit la définition 2.1.3, que cette tribu égale la tribu borélienne. Ainsi, pour
tout borélien A, X −1 (A) ∈ B.
2

Notation Dans la suite du cours, quand X est une v.a et A un borélien de


R nous noterons {X ∈ A} ou [X ∈ A] ou (X ∈ A) l’ensemble {ω ∈ Ω :
X(ω) ∈ A}.
La proposition qui suit permet de construire de v.a.

Proposition 2.2.2 a) Si Xn , n ≥ 1 est une famille de v.a alors Z =


supn≥1Xn (resp. Z = inf n≥1 Xn ) est une v.a
b) Si X1 , . . . , Xn sont des v.a et f : Rn → R est une application continue
alors Z = f (X1 , . . . , Xn ) est une v.a

Démonstration.—
a) Soit ω tel que supn≥1 Xn (ω) > a. Alors par définition du sup, il existe
un n pour lequel Xn (ω) > a et ω est donc dans l’union ∪n≥1 {Xn > a}.
Réciproquement si ω ∈ ∪n≥1 {Xn > a} alors il existe n tel que Xn (ω) > a et
a fortiori supn Xn (ω) > a. Nous avons donc démontré que les deux ensembles
{Z > a} et ∪n≥1 {Xn > a} sont égaux. Mais ce dernier ensemble est une union
dénombrable d’éléments de la tribu B (car chaque Xi est une v.a). Ainsi pour
2.2. VARIABLES ALÉATOIRES 25

tout a l’évènement {supn≥1 Xn (ω) > a} est dans B et il en est de même de son
complémentaire {supn≥1 Xn (ω) ≤ a}. La proposition ?? permet de conclure.
b) Si I est un intervalle de R, Z −1 (I) est l’ensmble des ω ∈ Ω tels que
(X1 (ω), . . . , Xn (ω)) ∈ f −1 (I). Comme f est continue, f −1 (I) est un en-
semble ouvert de Rn et, par consquent, est une union dénombrable de pavés
ouverts c’est -à-dire d’ensembles P de la forme ]a1 , b1 [× · · · ×]an , bn [. Par
conséquent l’ensmble des ω ∈ Ω tels que (X1 (ω), . . . , Xn (ω)) ∈ f −1 (I) est
une union dénombrable d’ensembles de la forme {ω ∈ Ω, (X1 (ω), . . . , Xn (ω) ∈
]a1 , b1 [× · · · ×]an , bn [} c’est-à-dire d’ensembles de la forme {ω ∈ Ω, X1 (ω) ∈
]a1 , b1 [, . . . , Xn (ω) ∈]an , bn [} = X1−1 (]a1 , b1 [) ∩ · · · ∩ Xn−1 (]an , bn [) qui sont
clairement dans B.
2
En particulier

Proposition 2.2.3 a) Si X : Ω → R est une v.a. et f : R → R est une


application continue, alors la fonction Y : Ω → R définie par Y = f ◦ X
(c’est-à-dire Y (ω) = f (X(ω)) pour tout ω ∈ Ω) est encore une v.a. On la
note Y = f (X).
b) Si X, Y sont deux v.a l’application Z = max(X, Y ) est une v.a
c) Si X et Y sont deux v.a, aX + bY est également une v.a.

2.2.1 Le cas particulier des v.a à valeurs dans un en-


semble fini ou dénombrable
Il s’agit du cas où X(Ω) l’ensemble des valeurs prises par X est un en-
semble fini ou dénombrable de R. Dans ce cas la caractérisation des variables
aléatoires est plus simple :

Proposition 2.2.4 Si X : Ω → R est à valeurs dans un ensemble fini ou


dénombrable E alors X est une variable aléatoire si et seulement si pour tout
e ∈ E, X −1 ({e}) ∈ B.
Démonstration.— Il s’agit de démontrer que pour tout intervalle ouvert
de la forme ]a, b[ (avec a et b finis par exemple) l’ensemble des ω ∈ Ω tels
X(ω) ∈]a, b[ est dans B. On a alors X(ω) ∈]a, b[∩E. Mais ce dernier ensemble
est au plus dénombrable et comme
[
X −1 (]a, b[) = X −1 ({e})
e∈]a,b[∩E

on voit que X −1 (]a, b[) est dans B.


26CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

2
Exemple Revisitons l’exemple du jeu infini de Pile/Face : Ω = {0, 1}N et B
est la tribu engendrée par les ensembles Ci,i = {ω = (ω0 , . . .) ∈ Ω, ωi = i }.
Pour n ∈ N l’application Xn : {0, 1}N → {0, 1} qui à ω = (ω0 , ω1 , . . .) associe
ωn est une variable aléatoire. Il suffit en effet de vérifier que pour  = 0 ou
 = 1 l’ensemble des ω pour lesquels ωn =  appartient à B. Or, cet ensemble
est le cylindre Cn, qui par définition est dans B. En fait, la tribu B a été
construite de façon que toutes les applications Xn : Ω → {0, 1} (n ≥ 0)
soient des variables aléatoires (c’est d’ailleurs la plus petite tribu ayant cette
propriété).
Exercice On considère le jeu infini de Pile/Face (Ω, B, P) et on garde les
notations de l’exemple précédent. Définissons pour tout ω ∈ Ω, l’entier ν(ω)
comme étant le plus petit entier k pour lequel Xk (ω) = 1 (en d’autres termes
ν(ω) est le premier temps où on tire Pile). Démontrer que ν est une variable
aléatoire.
Solution : Si {ν = 0} = {X0 = 1} est dans B car X0 est une v.a et pour tout
n ∈ N, (n ≥ 1)
{ν = n} = {X0 = 0} ∩ · · · ∩ {Xn−1 = 0} ∩ {Xn = 1};
c’est une intersection finie déléments de B (car, puisque chaque Xi est une
v.a, les ensembles {Xi = 0}, 1 ≤ i ≤ n − 1 et {Xn = 1}c sont dans B)

2.2.2 Loi d’une variable aléatoire


Soit X : Ω → R une v.a. On sait que pour tout borélien A de R l’ensemble
X −1 (A) est un évènement (appartient à B). Il est donc possible de parler de
la probabilité P(X ∈ A) de l’évènement {X ∈ A}.

Proposition 2.2.5 L’application µX : Bor(R) → [0, 1] qui à tout borélien


de R associe le réel P (X ∈ A) de [0, 1] est une probabilité sur (R, Bor(R)).
On appelle cette probabilité la loi de la v.a X.
Démonstration.— Il suffit de démontrer que si (Ai )i∈N est une famille
dénombrable de boréliens de R disjoints deux à deux alors
[ ∞
X
P(X ∈ Ai ) = P (X ∈ Ai ),
i∈N i=0

ce qui est clair car l’évènement {X ∈ ∪i∈N Ai } est l’union dénombrable dis-
jointe des évènements {X ∈ Ai }. Enfin la condition P (X ∈ R) = 1 achève
la preuve.
2.2. VARIABLES ALÉATOIRES 27

Il faut retenir que la loi d’une v.a est une probabilité sur R (muni de
sa tribu borélienne). Ceci illustre le fait qu’il est possible de construire de
nombreuses mesures de probablilités sur R muni de sa tribu borélienne.
2

2.2.3 Loi des variables aléatoires à valeurs dans un en-


semble fini ou dénombrable
Si X : Ω → R prend ses valeurs dans un ensemble E = {e0 , e1 , . . .} qui
est fini ou dénombrable la loi µX de X est la mesure sur (R, Bor(R))
X
µX = P(X = e)δe .
e∈E

En effet pour tout borélien (ou tout intervalle) A


X
P(X ∈ A) = P(X ∈ A ∩ E) = P(X = e),
e∈A∩E

et cette somme n’est rien d’autre que


X
P(X = e)δe (A).
e∈E

La loi de X est donc parfaitement déterminée par les réels pX (e) = P(X =
e), (e ∈ E) et dans la pratique quand on demande de déterminer la loi de X
on demande de calculer les réels pX (e) = P(X = e).

Quelques lois classiques de variables aléatoires à valeurs dans un


ensemble fini ou dénombrable
Loi géométrique On dit qu’une v.a X : Ω → N (à valeurs dans N) suit
une loi géométrique de paramètre a (0 < a < 1) si
P(X = n) = (1 − a)an .
On remarquera que l’on a bien ∞ k
P P
k=0 P (X = k) = 1 ( k≥0 a = 1/(1 − a)).
La v.a ν de l’exercice de la section 2.2.1 suit une loi géométrique de
paramètre 1/2. En effet
ν −1 (n) = {ω = (ω0 , ω1 , . . .) ∈ Ω, ω0 = 0, . . . , ωn−1 = 0, ωn = 1}
= C0,0 ∩ · · · ∩ Cn−1,0 ∩ Cn,1
et d’après le théorème 2.1.1
P(ν = n) = (1/2)n .(1/2).
28CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

Loi binomiale On dit qu’une variable aléatoire Z à valeurs dans {0, . . . , n}


suit une loi binomiale (n, p) si
 
n k
P(Z = k) = p (1 − p)n−k .
k

n

où k
est le coefficient binomial

n(n − 1) · · · (n − k + 1)
 
n n!
= Cnk = = .
k (n − k)!k! k!
P∞
On a bien (formule du binôme de Newton) k=0 P (X = k) = (p+1−p)n = 1.
Exemple Jouons n fois au jeu de pile/face où pile sort avec probabilité p et
face avec probabilité 1−p et notons Z la variable aléatoire : Z est le nombre de
pile qui sortent (après avoir joué n fois). Si on note Xi les variables aléatoires
Xi (ω) = ωi (ω = (ω1 , . . . , ωn )) on a

Z = X1 + · · · + Xn .

C’est bien une variable aléatoire Z : B → N à valeurs dans l’ensemble fini


{0, . . . , n} (B = P(Ω)) et
 
n k
P(Z = k) = p (1 − p)n−k .
k

Loi de Poisson Une variable aléatoire Z : Ω → N suit une loi de Poisson


de paramètre λ > 0 si
λk
P(Z = n) = e−λ .
k!
P∞
On vérifie encore que k=0 P (X = k) = 1 (cf. le développement en série de
eλ ).

Exercice Soit Xn une v.a suivant une loi binomiale (n, pn ). Montrer que si
limn→∞ npn = λ on a pour tout k ∈ N

λk
lim P(Xn = k) = e−λ .
n→∞ k!

(On dit que Xn converge en loi vers une loi de Poisson de paramètre λ)
2.2. VARIABLES ALÉATOIRES 29

2.2.4 Loi de variables aléatoires admettant une densité


Définition 2.2.2 On dit que la variable aléatoire X : Ω → R admet une
densité continue (resp. continue par morceaux etc.) si sa loi (qui est une me-
sure de probabilité sur (R, Bor(R))) admet une densité continue (resp. conti-
nue par morceaux etc.) c’est-à-dire s’il existe une fonction positive
R∞ continue
(resp. continue par morceaux etc.) ρX : R → [0, ∞[ telle que −∞ ρX (t)dt = 1
et telle que pour tout intervalle ]a, b[
Z b
µX (]a, b]) = P(X ∈]a, b]) = ρX (t)dt.
a

Faisons une remarque importante : si une v.a. X admet une densité ρX


alors sa fonction de répartition
Z x
FX (x) = µX (] − ∞, x]) = ρX (t)dt
−∞

est continue. Il existe donc des variables aléatoires n’admettant pas de den-
sité : par exemple une v.a X à valeurs dans R ne prenant que deux valeurs
0 ou 1 et telle que P(X = 0) = p avec 0 < p < 1 ne peut posséder de densité
car sa fonction de répartition FX (x) vaut 0 si x < 0, 1/2 si 0 ≤ x < 1 et 1 si
1 ≤ x : elle est discontinue en 0 et en 1 (mais bien continue à droite).

Quelques exemples de loi admettant une densité


Loi uniforme La variable aléatoire X : Ω → R suit une loi uniforme sur
l’intervalle [a, b] si sa densité est donnée par
1
ρX (x) = · 1[a,b] .
b−a
R
On a bien ρX (t) ≥ 0 pour tout t et R ρX (t)dt = 1. Cette loi est caractérisée
par
1
P(X ∈ [c, d]) = longueur([a, b] ∩ [c, d]).
b−a
(En effet,
1
Z
P(X ∈ [c, d]) = · 1[a,b] (x)dx
[c,d] b − a
1
Z
= 1[c,d] (x) · 1[a,b] (x)dx
b−a R
1
Z
= 1[c,d]∩[a,b](x)dx.
b−a R
30CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

Loi exponentielle de paramètre θ La v.a admet une densité ρX expo-


nentielle de paramètre θ si

ρX (x) = θe−θx 1[0,∞[(x).

La fonction de répartition est


Z x
FX (x) = ρX (t)dt = (1 − e−θx )1[0,∞[ (x),
−∞

et converge bien vers 1 en ∞. Intuitivement, la loi uniforme sur l’intervalle


[a, b] modélise une expérience où la probabilité d’un point de tomber dans un
intervalle de taille 2∆x, ]x − ∆x, x + ∆x[⊂ [a, b] ne dépend pas de x (et est
linéaire en ∆x).

Loi normale N(µ, σ) C’est la loi de densité


1 2 /2σ 2
ρX (x) = √ e−(x−µ) .
2πσ 2
R
Il n’est pas complètement évident que R ρX (x)dx = 1 (ce qui est indispen-
sable pour que ρX soit une densité). Ceci résulte, après le changement de
variable u = (x − µ)/σ de l’égalité (cf. *** pour une preuve)
Z ∞
2 √
e−u /2 du = 2π.
−∞

La loi normale N(0, 1), donc de densité,


1 2
√ e−x /2 ,

est dite loi normale centrée réduite.

2.3 Espérance d’une v.a.


2.3.1 Espérance d’une v.a. à valeurs dans un ensemble
fini (ou dénombrable)
Soit X : Ω → R une variable aléatoire ne prenant qu’un nombre fini de
valeurs x1 , . . . xr . On définit l’espérance de X comme étant le nombre réel
r
X
E(X) = xi · P(X = xi ).
i=1
2.3. ESPÉRANCE D’UNE V.A. 31

Remarquons que si X prend ses valeurs dans un ensemble infini dénombrable


la quantité
X∞
E(X) = xi · P(X = xi ),
i=1

qui semble être un bon candidat pour la définition de l’espérance peut ne pas
exister car la série peut ne pas converger. Pour garantir cette convergence il
suffit de demander que la série précédente soit absolument convergente.

2.3.2 Espérance d’une v.a. positive


Nous définissons dans cette section l’espérance d’une variable aléatoire
X : Ω → R qui ne prend que des valeurs positives ou nulles. Pour cela on
définit pour n ≥ 1 la variable aléatoire Xn de la façon suivante : on découpe
[0, ∞) en intervalles [0, 1[, [1, 2[,..., [n−1, n[, [n, ∞) puis on redécoupe chacun
des n intervalles [0, 1[, [n − 1, n[ en 2n intervalles d’égale longueur (on ne
touche pas à [n, ∞[) : on obtient n2n − 1 intervalles de taille 2−n de la forme
[k/2n , (k + 1)/2n [ (0 ≤ k ≤ n2n − 1) ; on pose alors
Xn (ω) = n si Xn (ω) ≥ n
Xn (ω) = (k/2n ) si Xn (ω) ∈ [k/2n , (k + 1)/2n [.
Il n’est pas très difficile de vérifier que pour tout ω la suite de v.a Xn (ω)
est croissante (et converge vers X(ω)) ; la suite de nombre réels E(Xn ) est
donc croissante (mais pas nécessairement bornée). On pose

E(X) = lim E(Xn ),


n→∞

où la limite précédente peut être finie ou infinie.


On peut démontrer

Théorème 2.3.1 L’espérance vérifie les conditions suivantes :


a) si A ∈ B on a E(1A ) = P(A).
b) Si X, Y sont des v.a positives telle que X ≤ Y (c’est-à-dire pour tout
ω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).
c) Si X, Y sont des v.a positives et a, b ∈ R on a (linéarité de l’espérance)

E(aX + bY ) = aE(X) + bE(Y ).

d) Si X est une v.a positive telle que E(X) = 0 alors X est nulle P-presque
sûrement c’est-à-dire que l’ensemble des ω ∈ Ω pour lesquels X(ω) > 0 a une
probabilité nulle.
Notons que E(a) = a si a est une constante.
32CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

Remarque On dit qu’une propriété Pω qui dépend de ω ∈ Ω est vraie P-


presque sûrement si l’ensemble des ω ∈ Omega pour lesquels Pω est fausse
est de P-probabilité nulle (P({ω : Pω fause}) = 0).
Mentionnons le théorème suivant qui permet de calculer l’espérance d’une
v.a obtenue comme limite d’autres v.a

Théorème 2.3.2 (Théorème de convergence monotone) Si Xn est une


suite de v.a Xn : Ω → [0, ∞] qui
i) est croissante : pour tout ω ∈ Ω, Xn (ω) ≤ Xn+1 (ω)
ii) converge vers X : Ω → [0, ∞] : pour tout ω ∈ Ω la suite Xn (ω) converge
vers X(ω).
Alors,
a) l’application X : Ω → [0, ∞] est une v.a ;
b) la suite E(Xn ) converge vers E(X) (limn→∞ E(Xn ) = E(X)).
En particulier, si Yn est une suite de v.a positives ou nulles on a

X ∞
X
E( Yn ) = E(Yn )
n=0 n=0

(on peut intervertir le signe de sommation infini et l’espérance).

2.3.3 Espérance des v.a intégrables


Nous pouvons définir à présent l’espérance de v.a qui ne sont pas nécessairement
positives. Pour cela, on constate que toute v.a X : Ω → R peut s’écrire
comme différence de deux v.a positives X + et X − : si on pose X + = max(0, X)
et X − = max(0, −X) on a bien que X + , X − sont des v.a à valeurs positives et
que X = X + −X − . Il est donc naturel de définir E(X) comme étant la quan-
tité E(X + )−E(X − ). Cependant, si E(X + ) et E(X − ) valent ∞ on obtient de
cette façon une expression indéterminée de la forme ∞−∞. Pour que la quan-
tité E(X + )−E(X − ) ait un sens il faut donc que E(X + ) < ∞ et E(X − ) < ∞
(c’est-à-dire soient des quantités finies). Ceci est équivalent (puisque E(X + )
et E(X − ) sont positives ou nulles) au fait que E(X + ) + E(X − ) < ∞. Or il
est facile de voir que
X + + X − = |X|,
et la quantité E(X + ) + E(X − ) est finie si et seulement si E(|X|) l’est.
Résumons :

Définition 2.3.1 Si X est une v.a telle que E(|X|) < ∞ on définit l’espérance
de X comme étant
E(X) = E(X + ) − E(X − ),
2.3. ESPÉRANCE D’UNE V.A. 33

où X + = max(0, X), X − = max(0, −X). On dit que X est intégrable (sur
l’espace probabilisé (Ω, B, P)) ou encore P-intégrable. L’ensemble des va-
riables aléatoires X qui sont P-intégrable se note L1 (Ω, P).
On a alors les propiétés suivantes

Proposition 2.3.1 a) Si A ∈ B, E(1A ) = P(A).


b) Si X, Y sont des v.a dans L1 (Ω, P) telle que X ≤ Y (c’est-à-dire pour
tout ω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).
c) Si X, Y sont des v.a dans L1 (Ω, P) et a, b ∈ R alors aX + bY ∈ L1 (Ω, P)
et on a
E(aX + bY ) = aE(X) + bE(Y ).

d) Si X ∈ L1 (Ω, B) on a toujours |E(X)| ≤ E(|X|) et on a égalité si et


seulement si P-ps X ≥ 0 ou P-ps X ≤ 0.

ExerciceExpliquer pourquoi une v.a bornée est P-intégrable.


Le théorème de convergence monotone, vrai pour des v.a positives ou nulles,
possède un analogue dans le cas L1 .

Théorème 2.3.3 (Théorème de convergence dominée) Si Xn est une


suite de v.a P-intégrable, Xn : Ω → R (n ∈ N) telle que
i) la suite (Xn ) converge vers X : Ω → R : pour tout ω ∈ Ω la suite Xn (ω)
converge vers X(ω) (on dit que Xn converge simplement vers X)
ii) il existe une v.a Z telle que E(Z) < ∞ (Z est P-intégrable) telle que pour
tout ω ∈ Ω on ait
∀n ∈ N, |Xn (ω)| ≤ Z(ω).
Alors,
a) l’application X : Ω → R est une v.a ;
b) la suite E(Xn ) converge vers E(X) (limn→∞ E(Xn ) = E(X)).
En particulier, si Yn est une suite de v.a positives ou nulles telles que

X
E(|Yn |) < ∞,
n=0

alors,

X ∞
X
E( Yn ) = E(Yn )
n=0 n=0

(on peut intervertir le signe de sommation infini et l’espérance).


34CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

Exercice Soit X une v.a sur (Ω, P) telle que pour tout t ∈ R la v.a Yt =
etX soit intégrable. i) Montrer que l’application t 7→ E(Yt ) est continue. ii)
Supposons que pour tout t ∈ R, E(|X|etX ) < ∞. Démontrer que t 7→ E(etX )
est dérivable et caluler sa dérivée
Solution i) Supposons t fixé. Il suffit de démontrer que pour toute suite tn
tendant vers t la suite E(etn X ) converge vers E(etX ). Or, la suite de v.a
etn X converge simplement vers etX . Par ailleurs, pour tout n assez grand
|etn X | ≤ Z où Z = e(|t|+1)|X| . Le théorème de convergence dominée s’applique
à la suite Ytn et on a donc limn→∞ E(etn X ) = E(etX ).
ii) Fixons t. Notons f (t) = E(etX ). On doit démontrer que pour toute suite
tn tendant vers t la suite
f (tn ) − f (t)
tn − t
admet une limite finie. On constate que
 tn X
f (tn ) − f (t) − etX

e
=E
tn − t tn − t
etn X −etX
et on applique le théorème de convergence dominée à la suite Tn = tn −t
.
Il est clair que pour tout ω

etn X(ω) − etX(ω)


lim = X(ω)etX(ω) .
n→∞ tn − t
Par ailleurs, d’après la formule des accroissements finis, pour tout ω il existe
tω entre t et tn pour lequel

etn X(ω) − etX(ω)


= X(ω)etω X(ω) ;
tn − t
par conséquent pour n assez grand
tn X(ω)
− etX(ω)

e (|t|+1)X(ω)
≤ |X(ω)|e .

tn − t

La v.a Z = |X|e(|t|+1)X est par définition P-intégrable si bien que les hy-
pothèses du théorème de convergence dominée sont satisfaites. On a donc
 tn X(ω)
− etX(ω)

e
lim E = E(XetX ).
n→∞ tn − t

Exercice De façon plus générale démontrer que


2.3. ESPÉRANCE D’UNE V.A. 35

i) si une v.a Xt dépend continuement d’un paramètre réel t, c’est-à-dire si


pour tout ω ∈ Ω Xt (ω) est continue par rapport à t alors E(Xt ) est également
continue par rapport à t pourvu qu’il existe Z ∈ L1 (Ω, P) telle que pour tout
t, |Xt | ≤ Z ;
ii) si une v.a Xt dépend de façon C 1 d’un paramètre réel t c’est-à-dire si
pour tout ω ∈ Ω Xt (ω) est C 1 par rapport à t alors E(Xt ) est également C 1
par rapport
à t pourvu que qu’il existe Z ∈ L1 (Ω, P) telle que pour tout t,
dXt (ω)
dt ≤ Z et montrer que dans ce cas,

d dXt
E(Xt ) = E( ).
dt dt

2.3.4 Formule de transfert


Il est important dans la pratique de savoir caluler des espérances de v.a
aléatoires de la forme Y = f (X) où X : Ω → R est une v.a et f : R → R
est une fonction (disons continue).

Cas des v.a à valeurs dans un ensemble fini

Supposons que X : Ω → R prenne ses valeurs dans un ensemble fini


E ⊂ R et soit f : E → R.

Proposition 2.3.2 L’espérance de la variable aléatoire Y = f (X) est donnée


par
X
E(f (X)) = f (e)P(X = e).
e∈E

Démonstration.—
Comme Y = f (X), la v.a Y ne prend qu’un nombre fini de valeurs e0 qui
sont dans E 0 = f (E). Par définition de l’espérance
X
E(Y ) = e0 P(Y = e0 ).
e0 ∈E 0

Pour chaque e0 ∈ E 0 , notons Ae0 l’ensemble des e ∈ E tels que f (e) = e0


(Ae0 = f −1 ({e0 }) et constatons que E 0 est l’union disjointe des Ae0 , e0 ∈ E 0 .
36CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

On a donc,
X
E(Y ) = e0 P(Y = e0 )
e0 ∈E 0
X
= e0 P(f (X) = e0 )
e0 ∈E 0
X
= e0 P(X ∈ f −1 (e0 ))
e0 ∈E 0
X X
= e0 P(X = e)
e0 ∈E 0 e∈f −1 (e0 )
X X
= f (e)P(X = e)
e0 ∈E 0 e∈f −1 (e0 )
X
= f (e)P(X = e)
e∈E
= E(X).

Corollaire 2.3.1 En particulier,


X
E(X) = eP(X = e).
e∈E

Remarque sur l’intégration des fonctions sur R


Soit X une v.a et µX sa loi. Celle-ci est une probabilité sur l’espace des
états Ω0 = R muni de sa tribu borélienne. Une fonction f : R → R peut
être vue comme une application de Ω0 = R dans R. Cette fonction f sera
une variable aléatoire réelle sur Ω0 = R, B0 = Bor(R) si et seulement si pour
tout intervalle I de R l’ensemble f −1 (I) est dans B0 = Bor(R). Une telle
application est dite mesurable. En particulier, toute application continue de
R dans R est mesurable. Puisque nous avons à notre disposition une pro-
babilité µX sur l’espace probabilisé (R, Bor(R)) il est naturel de considérer
l’espérance de f (pour la probabilité µX ). Nous la noterons EµX (f ). Bien
sur, pour quelle soit définie il faut que EµX (|f |) soit finie et on dit dans ce cas
que f est µX -intégrable. Dans la pratique on préfère noter cette espérance
sous la forme d’une intégrale :
Z
EµX (f ) = f (x)dµX (x).
R
2.3. ESPÉRANCE D’UNE V.A. 37

Quand X admet une densité ρX cette formule devient


Z
EµX (f ) = f (x)ρX (x)dx,
R

et l’intégrale coincide, quand f est continue (ou continue par morceaux ou


encore Riemann intégrable) avec une intégrale classique. Pour ce convaicre
de ce résultat, considérons le cas où f est une fonction en escaliers, c’est-
à-dire
Pconstante sur des intervalles ]ai , b − i] disjoints deux à deux : on a
r
f = i=1 λi 1]a−i,bi ] et donc
r
X
EµX (f ) = λi EµX (1[ai ,bi ] ).
i=1

Or, Z bi
EµX (1[a−i,bi ] ) = µX (]ai , bi ]) = ρX (x)dx.
ai

On a donc
r Z
X bi
EµX (f ) = f (x)ρX (x)dx
i=1 ai
Z
= f (x)ρX (x)dx.
R

Quand f est continue (ou continue par morceaux) on sait qu’on peut l’ap-
procher uniformément par des fonctions en escaliers et il suffit de passer à la
limite dans l’égalité précédente.

Cas des v.a admettant des densités


Dans le cas général des v.a de la forme Y = f (X) où X : Ω → R est une
v.a et f : R → R est continue, la forme générale de la formule de transfert
fait intervenir la loi de X. Afin de simplifier notre exposé nous ne considérons
que le cas où la v.a X admet une densité ρX 5

Théorème 2.3.4 Si X : Ω → R est une v.a admettant une densité ρX et


f : R → R est une fonction continue (resp. continue par morceaux, mesu-
rable) alors la v.a Y = f (X) est P-intégrable si et seulement si l’intégrale
5
Dans le cas général Z
E(f (X)) = f (x)dµX (x)
R
toutes les fois où l’intégrale converge.
38CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
R∞
−∞
|f (x)|ρX (x)dx est finie et dans ce cas l’espérance de Y = f (X) est
donnée par Z
E(f (X)) = f (x)ρX (x)dx.
R

Démonstration.—
i) Démontrons la formule quand f prend un nombre fini de valeurs dans un
ensemble E. La v.a Y = f (X) est donc également à valeurs dans un ensemble
fini et on d’après les résultats des deux sous-sections précédentes
X
E(f (X)) = E(Y ) = eP(Y = e)
e∈E
X
= eP(f (X) = e)
e∈E
X
= eP(X ∈ f −1 ({e})
e∈E
X
= eµX (f −1 ({e})
e∈E
X
= eµX (f = e).
e∈E

On a donc démontré que si f ne prend qu’un nombre fini de valeurs

E(f (X)) = EµX (f ).

ii) Considérons le cas où f est positive. On sait (cf. la section 2.3.2) que si
on note hn
n2n −1
X k
hn (·) = n1[n,∞[ (·) + 1 k k+1 (·),
2n [ 2n , 2n [
k=0

la suite fn = hn ◦ f converge simplement vers f et est croissante. De même


la suite Xn = fn (X) = hn ◦ f (X) converge simplement vers f (X) et est
croissante. Appliquons le théorème de convergence monotone (ou la définition
de l’espérance)
– d’une part à la suite de v.a (de fonctions) fn définies sur l’espace probabilisé
(R, Bor(R), µX )
– d’autre part à la suite de v.a Xn = fn (X) définies sur l’espace probabilisé
(Ω, B, P)
On obtient
– d’une part, limn→∞ EµX (fn ) = EµX (f )
– et d’autre part limn→∞ E(fn (X)) = E(X).
2.3. ESPÉRANCE D’UNE V.A. 39

Or, d’après i) EµX (fn ) = E(fn (X)). Par conséquent,

E(f (X)) = EµX (f ).

iii) Si f est de signe quelconque, décomposons f = f + −f − où f + = max(f, 0)


et f − = max(−f, 0). On a

E(f + (X)) = EµX (f + ), E(f − (X)) = EµX (f − ),

et donc E(|f (X)|) = EµX (|f |). Ainsi, f (X) est P-intégrable
R si et seulement
si f est µX intégrable c’est-à-dire si et seulement si R |f (x)|ρX (x)dx < ∞
et quand c’est le cas
E(f (X)) = EµX (f ),
c’est-à-dire Z
E(f (X)) = f (x)ρX (x)dx,
R

Corollaire 2.3.2 En particulier,


R ∞ si la v.a X admet une densité ρX , X est
1
L (Ω, P) si et seulement si −∞ |x|ρX (x)dx < ∞ et dans ce cas
Z ∞
E(X) = xρX (x)dx.
−∞

Signalons, sans démonstration, la réciproque suivante au théorème 2.3.4

Théorème 2.3.5 Si X est une v.a telle que pour toute fonction continue
bornée φ : R → R on a
Z ∞
E(φ(X)) = φ(x)ρX (x)dx,
−∞

alors X admet ρX pour densité.

Exemple Soit X une v.a suivant une loi normale centrée réduite : Une telle
loi admet une densité
1 2
√ e−x /2 .

Comme Z ∞
1 2
E(|X|) = √ |x|e−x /2 dx
2π −∞
40CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

est finie X est dans L1 (Ω, P). L’espérance de X est donc définie et vaut
Z ∞
1 2
E(X) = x √ e−x /2 dx.
−∞ 2π
Il s’agit de l’intégrale d’une fonction intégrable, impaire sur un intervalle
symétrique : cette intégrale est donc nulle.
Exercice Calculer E(Y ) où Y = X 2 est le carré d’une v.a suivant une loi
normale centrée réduite.
Solution On a
Z ∞
2 1 2
E(X ) = √ x2 e−x /2 dx
2π −∞
Z ∞
1 2
=√ x(xe−x /2 )dx
2π −∞
Z ∞
1 d 2
=√ x (−e−x /2 )dx
2π −∞ dx
Z ∞
1 2
=√ e−x /2 dx
2π −∞
=1
(on a effectué une intégration par parties).

2.3.5 Application au calcul de densité


Le problème qui nous intéresse dans cette section est le suivant : Etant
donnée une v.a X dont on connait la densité ρX , déterminer la densité, si
elle existe de la v.a Y = f (X), où f est une fonction continue de R dans R.
Supposons que Y admette une densité ρY . On doit alors avoir pour toute
fonction continue φ : R → R
Z ∞
E(φ(Y )) = φ(y)ρY (y)dy.
−∞

Mais φ(Y ) = φ(f (X)) = φ ◦ f (X) et on a donc,


Z ∞
E(φ(Y )) = E(φ ◦ f (X)) = φ ◦ f (x)ρX (x)dx.
−∞

Supposons que φ soit une bijection dérivable de R dans R envoyant R sur


R. La formule classique de changement de variable montre que (x = φ−1 (y),
dx = 1/φ0 (f −1 (y))dy)
Z ∞ Z ∞
1
φ ◦ f (x)ρX (x)dx = φ(y) 0 −1 ρX (f −1 (y))dy.
−∞ −∞ |φ (f (y))|
2.3. ESPÉRANCE D’UNE V.A. 41

En conclusion, pour toute fonction φ continue de R → R


Z ∞ Z ∞
1
φ(y)ρY (y)dy = φ(y) 0 −1 ρX (f −1 (y))dy
−∞ −∞ |φ (f (y))|

et il est naturel de penser que

1
ρY (y) = ρX (f −1 (y)),
|φ0 (f −1 (y))|

ce qui est effectivement le cas. Le théorème 2.3.5 justifie le raisonnement


précédent.
On pourrait démontrer de la même manière :

Théorème 2.3.6 Soient X une v.a de densité ρX prennant ses valeurs dans
un intervalle I (fini ou infini) et f : I → J est une application de classe C 1
pas nécessairement bijective mais telle que tout point y ∈ J ait un nombre fini
d’antécédents. Alors, la v.a Y = f (X) admet une densité ρY dont l’expression
est donnée par
X ρX (x)
ρY (y) = · 1J .
|f 0 (x)|
x∈f
−1 (y)

L’expression précédente peut prendre la valeur ∞ mais la fonction positive


ρY restera d’intégrale 1.

Appliquons ce qui précède à un exemple.

Exercice Supposons que X admette une densité ρX . Déterminer la densité,


si elle existe de Y = X 2 . Application au cas où X suit une loi normale
N(0, 1).
Solution On a Y = f (X) où f (x) = x2 est une bijection de I− =]−∞, 0[ sur
]0, ∞[ et de I+ =]0, ∞[ sur ]0, ∞[ (f est une fonction continue strictement
décroissante sur I− =] − ∞, 0] et strictement croissante sur I+ = [0, ∞[.)
Pour toute fonction φ : R → R continue et bornée
Z ∞
E(φ(Y )) = E(φ ◦ f (X)) = φ(f (x))ρX (x)dx.
−∞

Ecrivons,
Z ∞ Z 0 Z ∞
2
φ(f (x))ρX (x)dx = φ(x )ρX (x)dx + φ(x2 )ρX (x)dx
−∞ −∞ 0
42CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

et effectuons dans chacune des intégrales du membre de droite le changement


de variable y = x2 :
Z 0 Z ∞
2 √ dy
φ(x )ρX (x)dx = φ(y)ρ(− y) √ ,
−∞ 0 2 y
Z ∞ Z ∞
2 √ dy
φ(x )ρX (x)dx = φ(y)ρ( y) √ ,
0 0 2 y
si bien que
∞ 
√ √ 1
Z
E(φ(Y )) = φ(y) ρ(− y) + ρ( y) √ dy
0 2 y
√ √
 
1
Z
= φ(y) ρ(− y) + ρ( y) √ .1]0,∞[(y)dy
R 2 y
et comme cette formule est vraie pour toute fonction φ : R → R continue
bornée, on peut conclure que Y admet une densité ρY égale à
 
√ √ 1
ρY (y) = ρ(− y) + ρ( y) √ .1]0,∞[ (y).
2 y
(Ne pas oublier le terme 1]0,∞[ (y).)
√ 2
Si X suit une loi normale N(0, 1) sa densité est ρX (x) = (1/ 2π)e−(x /2)
et la densité de Y = X 2 vaut
1 e−y
ρY (y) = √ √ 1]0,∞[ (y).
2π y

Exercice Si X suit une loi normale centrée réduite, déterminer la loi de


Y = σX + µ.
Solution On a Y = f (X) où f (x) = ax + b. C’est une bijection C 1 de R sur
R. La formule du théorème ?? montre donc que la denstité de Y est
1 2 /2σ 2
√ e−(x−µ) ,
2πσ 2
c’est-à-dire est une loi N(0, σ 2 ).

2.4 Espaces L2, variance et Bienaymé-Tchébychev


Définition 2.4.1 On dit qu’une v.a X est dans L2 (Ω, B, P) si son carré est
P-intégrable,
E(|X|2) < ∞.
2.4. ESPACES L2 , VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 43

Les propriétés des fonctions de carrés intégrables sont les suivantes :

Théorème 2.4.1 a) (Cauchy-Schwarz) Si X et Y sont dans L2 (Ω, P) alors


le produit X · Y est dans L1 (Ω, P) et on a

E(|X · Y |) ≤ E(|X|2)1/2 · E(|Y |2 )1/2 .

En outre, l’inégalité précédente est une égalité si et seulement si il existe


un réel λ tel que P-presque sûrement Y = λX ou X = λY (X et Y sont
colinéaires). b) (Minkowski) L’espace L2 (Ω, P) est un R-espace vectoriel et
on a
E(|X + Y |2 )1/2 ≤ E(|X|2 )1/2 + E(|Y |2 )1/2 .

Démonstration.—
a) Rappelons que pour tous réels a, b on a |a · b| ≤ (1/2)(a2 + b2 ). Par
conséquent, |X · Y | ≤ (1/2)(X 2 + Y 2 ) et en prenant l’ espérance de chaque
membre de l’inégalité on obtient

1
E(|X · Y |) ≤ (E(X 2 ) + E(Y 2 )),
2
ce qui démontre que X · Y est intégrable.
Supposons E(X 2 ) 6= 0 et considérons pour t réel la quantité suivante qui
est clairement toujours positive ou nulle (espérance d’un carré) :

E((tX + Y )2 ) = E(X 2 )t2 + 2E(X · Y )t + E(Y 2 ).

(Si E(X 2 ) = 0 et E(Y 2 ) 6= 0 on échange X et Y ; si E(X 2 ) = E(Y 2 ) = 0 il n’y


a rien à démontrer car X et Y sont nulles P-ps). Vue comme fonction de t c’est
un polynôme quadratique si E(X 2 ) 6= 0. Comme il ne prend que des valeurs
positives ou nulles son discriminant ∆ = 4(E(X ·Y )2 −E(X 2 )E(Y 2 )) doit être
négatif ou nul (sinon ce polynôme admettrait deux racines réelles distinctes
et serait strictement négatif entre les racines). Ceci n’est rien d’autre que
l’inégalité annoncée.
L’égalité a lieu si et seulement si le discriminant s’annule. Or, dans ce cas
le polynôme quadratique E((tX + Y )2 ) admet une racine réelle t0 (et une
seule). On a donc E(t0 X + Y ) = 0 ce qui signifie que t0 X + Y = 0 P-presque
sûrement.
b) Il suffit de démontrer que E((X + Y )2 ) est finie si E(X 2 ) et E(Y 2 ) le sont.
Or,
E((X + Y )2 ) = E(X 2 ) + 2E(X · Y ) + E(Y 2 ),
44CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

et comme E(X · Y ) ≤ E(X 2 )1/2 E(Y 2 )1/2 on a


 2
2 2 2 1/2 2 1/2 2 2 1/2 2 1/2
E((X+Y ) ) ≤ E(X )+2E(X ) E(Y ) +E(Y ) = E(|X| ) +E(|Y | ) ,

ce qui démontre b).


2

2.4.1 Variance
Si X est dans L2 (Ω, P) la v.a X − E(X) est également dans L2 (Ω, P)
puisque c’est une somme de deux v.a de L2 (Ω, P) (une v.a constante est
toujours dans L2 (Ω, P)).

Définition 2.4.2 La variance d’une v.a dans L2 (Ω, P) est la quantité E(|X−
E(X)|2 ). La racine carrée de ce nombre s’appelle l’écart-type de X.
La variance est donc la moyenne (l’espérance) des carrés des écarts de X
par rapport à E(X).
Le calcul suivant

E(|X − E(X)|2 ) = E(X 2 − 2XE(X) + E(X)2 )


= E(X 2 ) − 2E(X)2 + E(X)2
= E(X 2 ) − E(X)2

démontre

Proposition 2.4.1 Si X ∈ L2 (Ω, P), on a V ar(X) = E(X 2 ) − E(X)2 .

Remarque De façon plus générale on peut définir pour tout p ≥ 1 l’espace


Lp (Ω, P) des v.a X dont le moment d’ordre p est fini c’est-à-dire telles que
E(|X|p ) < ∞. Ce sont encore des espaces vectoriels et la quantité E(|X|p)1/p
définit une (semi-)norme sur Lp (Ω, P) qui en fait un espace de Banach (un
espace vectoriel normé complet).

2.4.2 Calculs de variance


Cas des v.a à valeurs dans N,
Un outil très utile pour calculer les moments d’ordre p d’une v.a à valeurs
dans N est d’introduire la fonction génératice de X.
2.4. ESPACES L2 , VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 45

Définition 2.4.3 La fonction génératrice d’une v.a X à valeurs dans N est


la fonction définie par

φX (t) = E(tX )
X
= tk P(X = k).
k∈N

L’intérêt de φX réside dans la proposition suivante :

Proposition 2.4.2 On a toujours


d
lim φX (t) = E(X)
t→1,t<1 dt

et de façon plus générale


dp
lim φX (t) = E(X(X − 1) · · · (X − p + 1)).
t→1,t<1 dtp

Démonstration.—
Afin de simplifier la démonstration nous supposerons que X ne prend
qu’un nombre fini de valeurs dans {0, 1, . . . N}. Il suffit de calculer
 N N
dp X k
 X
t P(X = k) = k(k − 1) · · · (k − p + 1)tk−p P(X = k)
dtp k=0 k=0

En faisant t = 1 on obtient le résultat d’après la formule de transfert.


Dans le cas général où X prend ses valeurs dans N on peut procéder de
la façon suivante : pour 0 ≤ t < 1,
∞ ∞
dp X k
 X
t P(X = k) = k(k − 1) · · · (k − p + 1)tk−p P(X = k),
dtp k=0 k=0

car les séries sont uniformément


P∞convergentes. La série du membre de droite

converge quand t → 1 vers k=0 k(k − 1) · · · (k − p + 1)P(X = k) d’après
le théorème de convergence monotone et cette quantité égale E(X · · · (X −
p + 1)) d’après le théorème de transfert.
2
Le calcul de la variance est alors clair puisque

V ar(X) = E(X 2 ) − E(X)2


= E(X(X − 1)) + E(X) − E(X)2
= φ00X (1) + φ0X (1) − (φ0X (1))2 .
46CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

Loi géométrique Dans ce cas X prend ses valeurs dans N et P (X = k) =


(1 − a)ak (0 ≤ a < 1). Ainsi

X 1
φX (t) = (1 − a) tk ak = (1 − a) ,
k=0
1 − ta

pourvu que 0 ≤ t < a−1 . On a

1−a 1−a
φ0X (t) = a , φ00X (t) = 2a2 ,
(1 − ta)2 (1 − ta)3

et donc
a a
E(X) = , V ar(X) = .
1−a (1 − a)2

Loi binomiale Si la v.a X suit  une loin−k


(p, n) elle prend ses valeurs dans
n k
{0, 1, . . . , n} et P(X = k) = k p (1 − p) . On a

n  
X n k k
φX (t) = t p (1 − p)n−k = (tp + 1 − p)n ,
k=0
k

si bien que

φ0X (t) = pn(tp + 1 − p)n−1 , φ00X (t) = p2 n(n − 1)(tp + 1 − p)n−2 ,

et donc
E(X) = np, V ar(X) = np(1 − p).

Loi de Poisson Si la v.a X suit une loi de Poisson de paramètre λ, elle


k
prend ses valeurs dans N et P(X = k) = e−λ λk! . Il vient


−λ
X 1
φX (t) = e tk λk = e−λ etλ = e(t−1)λ .
k=0
k!

Ainsi,
φ0X (t) = λe(t−1)λ , φ00X (t) = λ2 e(t−1)λ ,
et donc
E(X) = λ, V ar(X) = λ.
2.4. ESPACES L2 , VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 47

Cas des v.a admettant une densité


Si X est une v.a admettant une densité ρX , alors d’après la formule de
transfert, X est dans L2 (Ω, P) si et seulement si
Z ∞
2
E(X ) = x2 ρX (x)dx,
−∞

est finie.

Loi uniforme La variable aléatoire X : Ω → R suit une loi uniforme sur


l’intervalle [a, b] si sa densité est donnée par
1
ρX (x) = · 1[a,b] (x).
b−a
On a
1
Z
E(X) = x· · 1[a,b] (x)dx
R b−a
Z b
1
= xdx
b−a a
1 x2 b
= [ ]
b−a 2 a
a+b
= ,
2
ce qui est conforme à l’intuition : la position en moyenne d’un point jeté au
hasard sur l’intervalle (a, b) sera située au milieu de l’intervalle (a, b).
Calculons la variance
1
Z
2
E(X ) = x2 · · 1[a,b] (x)dx
R b−a
Z b
1
= x2 dx
b−a a
1 b3 − a3
=
b−a b−a
a2 + b2 + ab
= ,
3
(b3 − a3 = (b − a)(b2 + ab + a2 )) et donc
2
a2 + b2 + ab

2 a+b
V ar(X) = E(X ) − E(X) = −
3 2
2
(b − a)
= .
12
48CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES

Loi exponentielle de paramètre θ La v.a admet une densité

ρX (x) = θe−θx 1[0,∞[(x).

On a
Z ∞
E(X) = xθe−θx 1[0,∞[ (x)dx
Z−∞

= xθe−θx dx
0
1 ∞ −u
Z
= ue du
θ 0
1
= ,
θ
(après changement de variable et intégration par parties). Le moment d’ordre
2 s’obtient de façon analogue,
Z ∞
2
E(X ) = x2 θe−θx dx
0
1 ∞ −u
Z
= ue du
θ 0
2
= 2,
θ
(après changement de variable et deux intégrations par parties). On a donc
1
V ar(X) = E(X 2 ) − E(X)2 = .
θ2

Loi normale N(µ, σ 2 ) On sait (cf. l’exercice de la section 2.3.5) que si Y


suit une loi N(µ, σ 2 ) alors elle est de la forme σX + µ où X suit une loi
normale N(0, 1) de densité
1 2
√ e−x /2 .

On sait que pour une telle loi, E(X) = 0 et V ar(X) = 1. Par conséquent,
E(Y ) = σE(X) + µ = µ et V ar(Y ) = σ 2 V ar(X) = σ 2 .

2.4.3 Inégalité de Markov et de Bienaymé-Tchebychev


L’intérêt de considérer les moments d’une v.a X réside dans les proposi-
tions suivantes.
2.4. ESPACES L2 , VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 49

Proposition 2.4.3 Si X est une v.a dans L1 (Ω, P) on a pour tout λ > 0
E(|X|)
P(|X| > λ) ≤ .
λ
Démonstration.— La v.a |X| peut sécrire

|X| = |X| · 1{|X|>λ} + |X| · 1{|X|≤λ} ,

et par additivité et positivité de l’espérance on a

E(|X|) ≥ E(|X| · 1{|X|>λ} ).

Or,
|X| · 1{|X|>λ} ≥ λ · 1{|X|>λ} ,
et par conséquent
E(|X|) ≥ λE(1{|X|>λ} ),
c’est-à-dire
E(|X|) ≥ λP({|X|iλ},
ce qui est la conclusion de la proposition.
2
La proposition précédente est une version quantitative du fait que la proba-
bilité que X prenne de grandes valeurs a tendance à être petite.
Si on a des informations sur les moments d’ordre supérieurs l’estimation
précédente est meilleure :

Proposition 2.4.4 Si X est une v.a dans L2 (Ω, P) on a pour tout λ > 0

E(|X|2 )
P(|X| > λ) ≤ .
λ2
Démonstration.—
Il suffit de remarquer que {X > λ} = {X 2 > λ2 } et d’appliquer la
proposition précédente à la v.a Y = X 2 .
2
Appliquée à la v.a Y = X − E(X) la proposition précédente donne le
théorème de Bienaymé-Tchebychev :

Théorème 2.4.2 Si X est une v.a dans L2 (Ω, P) on a pour tout λ > 0
V ar(|X|)
P(|X − E(X)| > λ) ≤ .
λ2
50CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
p
Si on note σ = V ar(X) l’écart type on a donc

1
P(|X − E(X)| > λσ) < ,
λ2
(d’où le nom d’écart type donné à σ)
Le théorème de Bienaymé-Tchebychev permet d’obtenir les probabilités des
déviations importantes de la v.a X par rapport à sa moyenne.
Chapitre 3

Vecteurs aléatoires et
Indépendance

3.1 Vecteurs aléatoires


3.1.1 Tribu borélienne de Rm
Rappelons qu’un ouvert de Rm est un ensemble U tel que pour tout point
x de U on peut trouver une boule ouverte de centre x et de rayon  > 0,
B(x, ) incluse dans U. Par exemple, un pavé ouvert de Rm , c’est-à-dire un
produit de m intervalles ouverts (de R) ]a1 , b1 [× · · · ×]am , bm [ est un ouvert
de Rm .

Définition 3.1.1 La tribu borélienne de Rm est la plus petite tribu contenant


les ouverts de Rm . Nous la noterons Bor(Rm ). C’est également la plus petite
tribu contenant les pavés ouverts.

Le dernier point de la définition précédente mérite un commentaire. Pour


le justifier il suffit de démontrer (exercice : pourquoi ?) que tout ouvert
de Rm peut s’écrire comme union dénombrable de pavés ouverts. Ceci se
démontre par exemple de la façon suivante. Considérons les pavés P de la
forme ]a1 , b1 [× · · · ×]am , bm [ où tous les ai , bi sont rationnels (i.e tous les som-
mets de P sont à coordonnées rationnelles) et tels que P ⊂ U. L’ensemble
Q de ces pavés est dénombrable et ∪P ∈Q P est égale à U. En effet, il est clair
que cette union est incluse dans U et d’autre part, si y est un point de U,
il existe une boule B(y, ) incluse dans U. Il n’est pas difficile de voir qu’on
peut trouver un pavé P ∈ Q qui contient y et est inclus dans B(y, ) donc
dans U : ceci démontre l’inclusion réciproque.

51
52 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

3.1.2 Vecteurs aléatoires


Définition 3.1.2 Un vecteur aléatoire X est une application de X : Ω →
Rm telle que pour tout borélien A ∈ Bor(Rm ), X −1 (A) ∈ B.
D’après ce qui a été dit précédemment,

Proposition 3.1.1 Les propositions suivantes sont équivalentes :


a) l’application X : Ω → Rm est un vecteur aléatoire
b) pour tout ouvert U de Rm , X −1 (U) ∈ B.
c) pour tout pavé ouvert P =]a1 , b1 [× · · · ×]am , bm [ l’ensemble X −1 (P ) ∈ B
d) les composantes Xi , 1 ≤ i ≤ m de X = (X1 , . . . , Xm ) sont des variables
aléatoires.
Démonstration.—
Il est évident que a) implique b) implique c) et d’après les propriétés
des variables aléatoires que c) est équivalent à d). Il ne reste donc plus qu’à
démontrer que c) implique b) et b) implique a). Comme tout ouvert est union
dénombrable de pavé ouvert c) implique b). D’autre part, soit C l’ensemble
des A ⊂ Rm tels que X −1 (A) ∈ B. Cet ensemble C est une tribu est contient
les ouverts ; par conséquent C contient Bor(Rm ), ce qui démontre que b)
implique a).
2
Le point d) de la proposition précédente montre en particulier que

Proposition 3.1.2 a) Si X : Ω → Rm et Y : Ω → Rm sont des vecteurs


aléatoires alors λX + µY est également un vecteur aléatoire.
b) Si f : Rp → Rm est une application continue et X = (X1 , . . . , Xp ) est
un vecteur aléatoire alors Y = (Y1 , . . . , Ym ) = f (X1 , . . . , Xp ) est un vecteur
aléatoire.

3.1.3 Loi d’un vecteur aléatoire


De la même façon que pour les variables aléatoires on peut définir la
loi d’un vecteur aléatoire X = (X1 , . . . , Xm ) comme étant une mesure de
probabilité sur (Rm , Bor(Rm )). C’est la mesure définie par :

∀A ∈ Bor(Rm), µX (A) = P(X ∈ A).

Donnons quelques exemples :


3.1. VECTEURS ALÉATOIRES 53

Vecteurs aléatoires ne prennant qu’un nombre fini ou dénombrable


de valeurs Si X = (X1 , . . . , Xm ) ne prend qu’un nombre fini de valeurs
dans E1 × · · · × Em la loi de X est déterminée par P (X1 = e1 , . . . , Xm =
em ). En d’autres termes, si on connait tous les réels pX (e1 , . . . , em ), e1 ∈
E1 , . . . em ∈ Em on peut déterminer la probablité de tout évènement X ∈ A :
X
P((X1 , . . . , Xm ) ∈ A) = pX (e1 , . . . , em ).
(e1 ,...,em )∈A

Vecteurs aléatoires admettant une densité On dit que le vecteur


aléatoire X = (X1 , . . . , Xm ) admet une densité ρX : Rm → R si pour tous
intervalles I1 , . . . , Im P(X ∈ I1 × · · · × Im ) = P(X1 ∈ I1 , . . . , Xm ∈ Im ) égale
Z
ρX (x1 , . . . , xm ).
I1 ×...×Im

3.1.4 Marginales
Les lois µX1 , . . . , µXm associées aux variables aléatoires X1 , . . . , Xm (définies
comme d’habitude par µXi (A) = P(Xi ∈ A)) sont appelées les lois marginales
du vecteur X.

Cas des vecteurs aléatoires à valeurs dans un ensemble fini ou


dénombrable Si X = (X1 , . . . , Xm ) prend ses valeurs dans E1 × · · · × Em
la loi de X1 (plus généralement de Xi ) s’exprime de façon simple en fonction
de la loi de X. En effet,
P(X1 = e1 ) = P(X1 = e1 , X2 ∈ E2 , . . . , Xm ∈ Em )
X
= P(X1 = e1 , X2 = e2 , . . . , Xm = em )
e2 ∈E2 ,...em ∈Em
X
= pX (e1 , e2 , . . . , em ).
e2 ∈E2 ,...em ∈Em

Cas des vecteurs aléatoires admettant des densités Dans le cas des
vecteurs aléatoires admettant des densités on a le reésultat suivant

Proposition 3.1.3 Si le vecteur aléatoire X = (X1 , . . . , Xm ) admet une


densité ρ( x1 , . . . , xm ) alors les marginales Xi admettent une densité ρXi (xi ).
qui est obtenue en intégrant ρX (x1 , . . . , xm ) par rapport aux variables xj (cha-
cune intégrée sur R) à l’exception de xi :
Z Z
ρXi (xi ) = ··· ρX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xm )dx1 , . . . dxi−1 dxi+1 , . . . dxm .
R R
54 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

Démonstration.—
Pour simplifier les notations démontrons le dans le cas i = 1 : pour tout
intervalle I1 ⊂ R

µX1 (I1 ) = P(X1 ∈ I1 )


= P(X1 ∈ I1 , X2 ∈ R, . . . , Xm ∈ R)
= P((X1 , X2 , . . . , Xm ) ∈ I1 × R · · · × R)
Z Z
= ··· ρX (x1 , . . . , xm )dx2 . . . dxm .
R R

3.1.5 Espérance et variance des vecteurs aléatoires


Espérance On définit l’espérance de X = (X1 , . . . , Xm ) comme étant le
vecteur de Rm égal à (E(X1 ), . . . , E(Xm )) qui est bien défini quand chaque
composante Xi de X est intégrable ou, ce qui est équivalent, quand E(|X|) <
∞.

Variance De même les composantes p Xi de X sont de carrés intégrables si et


seulement si la norme de X, kXk = X12 + · · · + Xm 2 est de carré intégrable.

On définit alors la variance de X comme étant le réel positif ou nul

V ar(X) = E(kX − E(X)k2 )

et un calul simple montre que

V ar(X) = E(kXk2) − kE(X)k2 .

Covariance Si X et Y sont deux variables aléatoires de carré intégrables,


X − E(X) et Y − E(Y ) sont de carré intégrables (Minkowski) et d’après
Cauchy-Scwharz le produit (X − E(X))(Y − E(Y )) est intégrable.

Définition 3.1.3 Si X et Y sont deux variables aléatoires de carré intégrable


on définit la covariance de X et Y comme étant le réel
 
Cov(X, Y ) = E (X − E(X))(Y − E(Y ) .

On a l’égalité
Cov(X, Y ) = E(X · Y ) − E(X)E(Y ).
3.1. VECTEURS ALÉATOIRES 55

La dernière égalité se démontre très facilement coome suit :


   
E (X − E(X))(Y − E(Y ) = E XY − E(X)Y − XE(Y ) + E(X)E(Y )

= E(XY ) − 2E(X)E(Y ) + E(X)E(Y )


= E(XY ) − E(X)E(Y ).

Notons que Cov(X, X) = V ar(X).


On définit pour des raisons pratiques le coefficient de corrélation de deux
variables aléatoires X et Y de variance non nulles de la façon suivante :
Cov(X, Y )
cor(X, Y ) = p p .
V ar(X) V ar(Y )
Proposition 3.1.4 Si X, Y sont deux v.a de carré intégrable et de variance
non nulle, on a
−1 ≤ cor(X, Y ) ≤ 1,
et si cor(X, Y ) = ±1 alors il existe des réels a, b tels que Y = aX + b ou
X = aY + b (X et Y sont liées par une relation affine).
Démonstration.—
Ceci résulte de Cauchy-Schwarz : si on pose X̃ = X−E(X), Ỹ = Y −E(Y )
on a
p p
|cov(X, Y )| = |E(X̃ Ỹ )| ≤ E(X̃ 2 )1/2 E(Ỹ 2 )1/2 = V ar(X) V ar(Y ),
ce qui est l’inégalité annoncée. Par ailleurs l’égalité a lieu dans l’inégalité
précédente si et seulement si (cas d’égalité dans Cauchy-Scwharz) X − E(X)
et Y −E(Y ) sont colinéaires. Or ceci est équivalent à l’existence d’une relation
affine entre X et Y . En effet, s’il existe a tel que X − E(X) = a(Y − E(Y ))
ou Y − E(Y ) = a(X − E(X)) on a X = aY + b où Y = aX + b avec
b = E(X) − aE(Y ) ou b = E(Y ) − aE(X). Réciproquement, si Y = aX + b
on a E(Y ) = aE(X) + b et donc Y − E(Y ) = a(X − E(X)).
2
Le coefficient de corrélation admet une interprétation géométrique très simple.
Sur l’espace L2 (Ω, P) on peut définir un produit scalaire : pour deux variables
aléatoires U, V de carrés intégrables, la quantité E(UV ) est le produit sca-
laire de U et V . En dimension finie, on sait que le produit scalaire de deux
vecteurs u et v peut s’écrire (u, v) = kukkvk cos α où α est l’angle fait par
les deux vecteurs u et v (le fait que | cos α| ≤ 1 est une manifestation de
Cauchy-Scwharz). Ainsi, le coefficient de corrélation représente le cosinus de
l’angle fait par U, V (disons dans le 2-plan engendré par U, V ).
56 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

Revenons au cas où X = (X1 , . . . , Xm ) est un vecteur aléatoire de carré


intégrable. On peut définir pour tous 1 ≤ i, j ≤ m la covariance de Xi , Xj ,
Cov(Xi, Xj ). L’ensemble de ces m×m nombres forme une matrice (symétrique)
dont le coefficient (i, j) est Cov(Xi , Xj ) que l’on appelle la matrice de cova-
riance des v.a X1 , . . . , Xm et que l’on note ***

3.1.6 Formule de transfert


Etant donné un vecteur aléatoire X = (X1 , . . . , Xm ) et
f : Rm → Rp
(x1 , . . . , xm ) 7→ (f1 (x1 , . . . , xm ), . . . , fp (x1 , . . . , xm ))
une application continue, on cherche à calculer l’espérance de Y = f (X)
c’est-à-dire que l’on veut calculer le vecteur E(Y ) = (E(Y1 ), . . . , E(Yp )) où
Yj = fj (X1 , . . . , Xm ). Le problème se ramène donc au suivant : étant donné
X = (X1 , . . . , Xm ) un vecteur aléatoire calculer E(φ(X1 , . . . , Xm )) où φ est
une application de Rm dans R. Ce problème se résout de la même façon
que dans le cas m = 1 (variables aléatoires). Nous donnons les résultats sans
démonstration (les preuves sont identiques à celles du cas m = 1).

Cas de Vecteurs aléatoires à valeurs dans ensembles finis ou dénombrables


Si X = (X1 , . . . , Xm ) prend ses valeurs dans E1 × · · · × Em on a
X
E(φ(X1 , . . . , Xm )) = φ(e1 , . . . , em )P(X1 = e1 , . . . , Xm = em ).
e1 ∈E1 ,...,em ∈Em

Cas de Vecteurs aléatoires admettant une densité Si le vecteur aléatoire


X = (X1 , . . . , Xm ) admet une densité ρ( x1 , . . . , xm ) on a
Z Z
E(φ(X1 , . . . , Xm )) = ··· φ(x1 , . . . , xm )ρX (x1 , . . . , xm )dx1 · · · dxm .
R R

3.1.7 Calcul de densité de vecteurs aléatoires


Etant donné un vecteur aléatoire X = (X1 , . . . , Xm ) admettant une den-
sité ρX (x1 , . . . , xm ) et
f : Rm → Rp
(x1 , . . . , xm ) 7→ (f1 (x1 , . . . , xm ), . . . , fp (x1 , . . . , xm ))
une application de classe C 1 , on cherche à déterminer si Y admet une densité
et si oui laquelle. Il faut distinguer trois cas suivant que m = p, m > p ou
m < p.
3.1. VECTEURS ALÉATOIRES 57

Cas où m = p Nous avons déjà traité ce cas quand m = p = 1 (variables


aléatoires) et nous avions alors fait usage du théorème de changement de
variables. Nous énonçons une version générale du théorème de changement
de variables quand m = p est plus grand que 1.

Théorème 3.1.1 (Changement de variables) Soient U et V deux ou-


verts de Rm et f : U → V une application bijective de U sur V et de classe
C 1 (on dit que f est un difféomorphisme de U sur V ). Pour toute application
φ : V → R dont le module est d’intégrale finie sur Rm
Z
φ(y1, . . . , ym )dy1 · · · dym =
V
Z
φ(f1 (x1 , . . . , xm ), · · · , fm (x1 , . . . , xm ))|Jacf (x1 , . . . , xm )|dx1 · · · dxm .
U

où Jacf (x) est le jacobien de f au point x c’est-à-dire le déterminant de la


matrice jacobienne de f qui est une matrice m × m et admet pour coefficient
(i, j) le terme ∂fi /∂xj (x1 , . . . , xm ).1
A l’aide de ce théorème, calculons E(φ(Y )) où φ : Rm → R est une appli-
cation continue bornée d’un ouvert U sur R et où f est un difféomorphisme
de U sur un ouvert V de Rm . Supposons en outre que X prenne ses va-
leurs dans U (ce qui implique que ρX est nulle en dehors de U). On a
E(φ(Y )) = E(φ ◦ f (X)) et d’après la formule de transfert
Z
E(φ(Y )) = E(φ ◦ f (X)) = φ ◦ f (x1 , . . . , xm )ρX (x1 , . . . xm )dx1 · · · dxm
U

ce qu’on peut écrire


Z
E(φ(Y )) = φ(f (x))ρX ◦ f −1 (f (x))dx1 · · · dxm
U
ou encore
|(Jacf ) ◦ f −1 (f (x))|
Z
E(φ(Y )) = φ(f (x))ρX ◦ f −1 (f (x)) dx1 · · · dxm .
U |(Jacf ) ◦ f −1 (f (x))|
La formule du changement de variable appliquée à ψ(x) = φ(x)ρX ◦f −1 (Jacf )◦
f −1 (x) donne
ρX ◦ f −1 (y)
Z
E(φ(Y )) = φ(y) dy1 · · · dym
V |(Jacf ) ◦ f −1 (y)|
1
Une façon de retenir ce théorème est la suivante : on fait le changement de variable
y = f (x) dans l’intégrale précédente, on modifie les bornes d’intégration en conséquence
et on observe que l’élément différentiel dy devient dy = (dy/dx)dx, (dy/dx) étant la valeur
absolue du jacobien.
58 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

Ceci étant vrai pour toute fonction continue bornée Y = f (X) admet une
densité et qui vaut

ρX ◦ f −1 (y)
ρY (y1 , . . . , ym ) = · 1V .
|(Jacf ) ◦ f −1 (y)|

On peut généraliser un peu plus ce théorème : dans la pratique, il est


souvent possible de trouver une partition (union disjointe) de l’ensemble
{x : ρX (x) > 0 (ouvert si ρX est continue) en une union finie (ou même
dénombrable) d’ouverts Ui , {x : ρX (x) > 0} = ∪di=1 Ui , tels que f soit injec-
tive sur chaque Ui . Ainsi f est une bijection de chaque ouvert Ui sur son
image Vi . On a alors
Z
E(φ(Y )) = E(φ ◦ f (X)) φ ◦ f (x1 , . . . , xm )ρX (x1 , . . . xm )dx1 · · · dxm
U

ce qu’on peut écrire


d Z
X
E(φ(Y )) = φ(f (x))ρX ◦ f −1 (f (x))dx1 · · · dxm .
i=1 Ui

Après changement de variable dans chacune des intégrales précédentes on


obtient
d Z
X ρX ◦ f −1 (y)
E(φ(Y )) = φ(y) −1 (y)|
dy1 · · · dym
i=1 Vi
|(Jacf ) ◦ f
ou encore
d
ρX ◦ f −1 (y)
Z X 
E(φ(Y )) = φ(y) 1V (y) dy1 · · · dym .
Rm i=1
|(Jacf ) ◦ f −1 (y)| i

Le théorème 3.1.1 montre donc que


d
X ρX ◦ f −1 (y1 , . . . , ym )
ρY (y1 , . . . , ym ) = 1V (y1 , . . . , ym ).
i=1
|(Jacf ) ◦ f −1 (y1 , . . . , ym ))| i

Cas où m > p Afin de simplifier les notations, nous traiterons le cas où
m = 2 et p = 1. Soient donc X = (X1 , X2 ) un vecteur aléatoire de R2 qui
admet une densité ρX (x1 , x2 ) et f : R2 → R une application différentiable.
On cherche à déterminer, si elle existe, la densité de la v.a Y = f (X1 , X2 ).
L’idée pour cela est d’introduire un vecteur aléatoire Z qui est de la forme
3.1. VECTEURS ALÉATOIRES 59

Z = (Y, X2 ) et d’établir qu’il admet une densité ρZ (y, x2 ). On saura alors


que Y admet une densité ρY (y) égale à (cf. section 3.1.4
Z ∞
ρY (y) = ρZ (y, x2)dx2 .
−∞

Le vecteur aléatoire Z peut s’écrire Z = F (X) où F est l’application de


R2 → R2 définie par

F (x1 , x2 ) = (f (x1 , x2 ), x2 ).

Sa matrice jacobienne est


 ∂f ∂f

∂x1
(x1 , x2 ) ∂x2
(x1 , x2 )
0 1
∂f
et son jacobien (le déterminant de la matrice jacobienne) vaut ∂x 1
(x1 , x2 ).
D’après ce qui a été fait dans la section précédente, s’il existe une partition
finie de l’ensemble {(x1 , x2 ) ∈ R2 : ρX (x1 , x2 ) > 0} en ouverts U1 , . . . , Uf tels
que F soit injective sur chaque Ui , on peut dire que la densité de Z existe et
vaut
d
X ρX ◦ F −1 (y, x2 )
ρZ (y, x2 ) = −1 (y, x )|
· 1Vi .
i=1
|(JacF ) ◦ F 2

Cas m < p Dans ce cas le vecteur Y n’admet pas de densité. Illustrons ceci
sur un exemple : supposons que m = 1, p = 2 et soit f : R → R2 définie
par f (x) = (x, 0). Supposons que la variable aléatoire Y = f (X) = (X, 0)
admette une densité ρY (y1 , y2 ). Alors, pour tout pavé C =]a1 , b1 [×]a2 , b2 [ on
devrait avoir : Z Z b1 b2
P(Y ∈ C) = ρY (y1 , y2 )dy1dy2 .
a1 a2

Considérons un pavé C qui n’intersecte pas la droite y2 = 0 ; comme Y =


(f (X), 0) on a P(Y ∈ C) = 0. Si ρY est continue (resp. intégrable), ceci
montre que ρY est nulle en tout point (resp. Lebesgue-presque tout point)
(x1 , x2 ) tel que x2 6= 0. On a donc P(Y ∈ R2 ) = 0 ce qui est impossible
(0 6= 1).

Exercice Soient X et Y deux v.a. Supposons que le vecteur aléatoire (X, Y )


admette une densité égale à ρ( x, y). Montrer que la v.a X + Y admet une
densité que l’on calculera.
Solution
60 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

i) Introduisons le vecteur aléatoire Z = (X + Y, Y ) et calculons sa loi. Pour


toute fonction φ : R2 → R continue bornée,

E(φ(Z)) = E(φ(X + Y, Y )) = E(ψ(X, Y )),

où ψ : R2 → R égale à ψ(x, y) = φ(x + y, y). Comme (X, Y ) admet une


densité ρ on a d’après la formule de transfert
Z
E(ψ((X, Y ))) = ψ(x, y)ρ(x, y)dxdy
R 2
Z
= φ(x + y, y)ρ(x, y)dxdy.
R2

Effectuons le changement de variables f : (x, y) 7→ (u, v)v = (x + y, y) qui


est un difféomorphisme de R2 sur R2 de jacobien égal à

1 1
Jac(f ) = = 1;
0 1

on obtient,
Z Z
φ(x + y, y)ρ(x, y)dxdy = φ(u, v)ρ(u − v, v)dudv
R2 R2

et donc, Z
E(φ(Z)) = φ(u, v)ρ(u − v, v)dudv.
R2
Ceci étant vrai pour toute fonction φ continue bornée on peut dire que Z =
(U, V ) = (X + Y, Y ) admet une densité donnée par ρZ (u, v) = ρ(u − v, v).
ii) La densité de X + Y est donc ρX
Z ∞
ρX (x) = ρ(x − v, v)dv.
−∞

3.2 Variables aléatoires indépendantes


Définition 3.2.1 Une suite X1 , . . . , Xm de variables aléatoires est dite indépendante
si pour tous intervalles I1 , . . . , Im de R,

P(X1 ∈ I1 , . . . , Xm ∈ Im ) = P(X1 ∈ I1 ) · · · P(Xm ∈ Im ).

En d’autres termes la loi du vecteur X = (X1 , . . . , Xm ) est déterminée par


ses marginales :
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 61

Proposition 3.2.1 La suite (X1 , . . . , Xn ) est indépendante si et seulement


si la loi du vecteur aléatoire X = (X1 , . . . , Xn ) est le produit de ses lois
marginales :
µX (I1 × · · · × Im ) = µX1 (I1 ) · · · µXm (Im ).
On peut préciser un peu le résultat précédent :

Proposition 3.2.2 Une suite X1 , . . . , Xm de variables aléatoires est indé-


pendante si et seulement si pour tous boréliens A1 , . . . , Am de R,

P(X1 ∈ A1 , . . . , Xm ∈ Am ) = P(X1 ∈ A1 ) · · · P(Xm ∈ Am ).

Démonstration.—
Traitons le cas où m = 2 (le cas m > 2 est analogie). Fixons un intervalle
ouvert J et considérons l’ensemble CJ des boréliens A pour lesquels

P(X1 ∈ A, X2 ∈ J) = P(X1 ∈ A)P(X2 ∈ J). (3.1)

Il est facile de voir que CJ est une tribu. Comme les intervalles ouverts de
R appartiennent à CJ on peut dire que C contient la tribu engendrée par les
intervalles ouverts, c’est-à-dire les boréliens. Ainsi pour tout intervalle J et
tout borélien A on a (3.1). Fixons à présent A et considérons l’ensemble D
des boréliens B de R pour lesquels

P(X1 ∈ A, X2 ∈ B) = P(X1 ∈ A)P(X2 ∈ B). (3.2)

Il est clair que c’est une tribu et (3.1) montre qu’elle contient les inter-
valles ouverts. Le même argument que celui fait précédemment montre que
D contient les boréliens. Ainsi, pour tous boréliens A et B on a (3.2).
2

Définition 3.2.2 Une famille (Xi )i∈A de v.a est dite indépendante si toute
sous famille finie (Xi )i∈J , J ⊂ A fini est indépendante.

3.2.1 Cas des v.a à valeurs dans un ensemble discret


Si l’on suppose que les Xi sont à valeurs dans Ei ensembles fini ou
dénombrables la définition précédente se simplifie car on a la proposition
suivante dont la preuve est facile :

Proposition 3.2.3 La suite (X1 , . . . , Xn ) est indépendante si et seulement


si pour tout (e1 , . . . , en ) ∈ E1 × · · · × En on a

P(X1 = e1 , . . . , Xm = em ) = P(X1 = e1 ) · · · P(Xm = em ).


62 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

En d’autres termes, la loi ρX (e1 , . . . , en ) est le produit des lois ρXi (ei ) :
∀(e1 , . . . , en ) ∈ E1 × · · · × En , ρX (e1 , . . . , en ) = ρX1 (e1 ) · · · ρXn (en ).
Donnons un exemple important.

Le jeu de Pile/Face fini L’espace des états est Ω = {0, 1}n (on joue n fois)
muni de la tribu totale P(ω) et de la probabilité uniforme : P(A) = #A/2n .
Nous avons déjà rencontés les variables aléatoires Xi : Ω → {0, 1} définies par
Xi (ω) = ωi (ω = (ω1 , . . . , ωn ) ∈ Ω). La famille X1 , . . . , Xn est indépendante.
En effet pour tout (e1 , . . . , en ) ∈ {0, 1}n
P(X1 = e1 , . . . , Xn = en ) = P({ω : ω1 = e1 , . . . , ωn = en })
= P({ω : ω ∈ {(e1 , . . . , en )})
#{(e1 , . . . , en )}
=
#Ω
1
= n
2
Mais d’autre part,
1 1 1
P(X1 = e1 ) · · · P(Xn = en ) =
··· = n.
2 2 2
On a donc bien P(X1 = e1 , . . . , Xn = en ) = P(X1 = e1 ) · · · P(Xn = en ).

Le jeu de Pile/Face infini Ici, Ω = {0, 1}n muni de la tribu B engendrée


par les évènements élémentaires (les cylindres) Ci,e = Xi−1 (e), e ∈ {0, 1},
i ∈ N (où les Xi sont définies par Xi (ω) = ωi) et de la probabilité P décrite
en ***. Pour toute sous famille Xi1 , . . . , Xin de X1 , X2 , . . . , on a comme
précédemment
P(Xi1 = e1 , . . . , Xin = en ) = P({ω : ω1 = e1 , . . . , ωn = en })
= P({ω : ω ∈ Ci1 ,e1 ∩ Cin ,en )
1
= n
2
par définition de la probabilité P. Par ailleurs,
1 1 1
P(Xi1 = e1 ) · · · P(Xin = en ) = ··· = n.
2 2 2
On a donc bien pour tous e1 , . . . , en l’égalité P(Xi1 1 = e1 , . . . , Xin = en ) =
P(Xi1 = e1 ) · · · P(Xin = en ) ce qui démontre l’indépendance de toute sous
famille Xi1 , . . . , Xin .
Nous avons donc démontré que la famille X1 , X2 , . . . est indépendante.
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 63

Remarque Le résultat précédent est beaucoup plus profond qu’il n’ap-


paraı̂t. La vérification de l’indépendance des v.a Xi est facile mais la construc-
tion de le mesure P, qui est justement celle qui rend la famille (Xi )i indépendante,
est loin d’être triviale.
Il existe en fait un résultat plus général : Etant donnée une famille
(Xα )α∈A de v.a à valeurs dans R définies sur un espace probabilisé (Ω0 , B0 , P0 )
, il existe un espace probabilisé (Ω, B, P) et des v.a Yα , α ∈ A telles que pour
tout α ∈ A, Yα a même loi que Xα et telles que la famille (Yα )α∈A soit
indépendante.
Ainsi, la construction de v.a de lois données qui sont indépendantes est
toujours possible.

3.2.2 Cas des v.a admettant des densités


On a la proposition suivante

Proposition 3.2.4 Si les X1 , . . . , Xn sont des v.a indépendantes admettant


des densités ρX1 , . . . , ρXn alors le vecteur aléatoire X = (X1 , . . . , Xn ) admet
une densité ρX égale à

∀(x1 , . . . , xn ) ∈ Rn , ρX (x1 , . . . , xn ) = ρX1 (x1 ) · · · ρXn (xn ).

Démonstration.—
En effet pour tous intervalles I1 , . . . , In ,

P(X ∈ I1 × · · · × In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In )


Z  Z 
= ρX1 (x1 )dx1 · · · ρXn (xn )dxn
I1 In
Z
= ρX1 (x1 ) · · · ρXn (xn )dx1 · · · dxn ,
I1 ×···×In

et le fait que cette identité soit vraie pour tous intervalles I1 , . . . , In implique
que X admet une densité qui est celle annoncée dans l’énoncé de la proposi-
tion.
2

3.2.3 Espérance des produits de v.a indépendantes


Avant de démontrer le théorème fondamental de cette section démontrons
le lemme suivant :
64 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

Lemme 3.2.1 Si X1 , . . . , Xn est une famille de v.a indépendantes et si φ1 , . . . , φn


sont des applications (continues, mesurables...) de R → R alors la famille
de v.a φ1 (X1 ), . . . , φn (Xn ) est indépendante.
Démonstration.—
En effet, pour tous intervalles I1 , . . . , In l’évènement (φi(Xi ) ∈ Ii ) égale
l’évènement Xi ∈ φ−1
i (Ii ). Ainsi

P(φ1 (X1 ) ∈ I1 , . . . , φn (Xn ) ∈ In ) = P(X1 ∈ φ−1 −1


1 (I1 ), . . . , Xn ∈ φn (In ))
= P(X1 ∈ φ−1 −1
1 (I1 )) · · · P(Xn ∈ φn (In )
= P(φ1 (X1 ) ∈ I1 ) · · · P(φn (Xn ) ∈ In ),

d’après la proposition 3.2.2.


2
On a le théorème important suivant :

Théorème 3.2.1 Si X1 , . . . , Xn est une famille de v.a indépendantes et dans


L1 (Ω, P) le produit Y = X1 · · · Xn est également une v.a dans L1 (Ω, P) et
son espérance égale le produit des espérance des Xi :

E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).

Démonstration.—
Traitons le cas n = 2, le cas général se faisant de la même façon.
i) Supposons que X1 , X2 sont à valeurs dans un ensemble fini E. Notons
f : R2 → R l’application définie par f (x1 , x2 ) = x1 · x2 . On a d’après la
formule de transfert
X
E(f (X1 · X2 )) = f (e1 , e2 )P(X1 = e1 , X2 = e2 )
(e1 ,e2 )∈E×E
X
= e1 e2 P(X1 = e1 ), P(X2 = e2 )
(e1 ,e2 )∈E×E
X  X 
= e1 P(X1 = e1 ) e2 P(X2 = e2 )
(e1 ∈E e2 ∈E

= E(X1 )E(X2 ).

ii) Supposons X1 et X2 positives : on sait qu’il existe des suites croissantes


(n) (n)
de v.a X1 , X2 à valeurs dans l’ensemble fini {(k/2n : 0 ≤ k ≤ 2n − 1}
(n) (n)
telles que pour tout ω ∈ Ω, X1 (ω), X2 (ω) convergent respectivement vers
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 65

(n) (n)
X1 (ω), X2 (ω) et telles que E(X1 ) et E(X2 ) convergent respectivement
vers E(X1 ), E(X2 ). D’après i) on a
(n) (n) (n) (n)
E(X1 X2 ) = E(X1 )E(X2 ).
(n) (n)
iii) Comme X1 (ω), X2 (ω) convergent respectivement vers X1 (ω), X2 (ω) en
(n) (n)
croissant, pour tout ω ∈ Ω le produit X1 (ω) · X2 (ω) converge en croissant
vers X1 (ω)X2(ω). Mais d’après le théorème de convergence monotone ceci
implique que
(n) (n)
lim E(X1 · X2 ) = E(X1 · X2 ).
n→∞

iv) Le passage à la limite dans l’équation du ii) donne la conclusion dans le


cas où X1 , X2 sont positives.
v) Si X1 , X2 sont intégrables de signe quelconque on écrit X1 = X1+ − X1− ,
X2 = X2+ − X2− :
X1 X2 = (X1+ − X1− )(X2+ − X2− ) = (X1+ X2+ + X1− X2− ) − (X1+ X2− + X1− X2+ ).
Comme Xi± = h± (Xi ) où h+ (x) = max(x, 0), h− (x) = min(x, 0) sont conti-
nues, le lemme 3.2.1 montre que les quatre familles de variables aléatoires
(X1+ , X2+ ), (X1+ , X2− ), (X1− , X2+ ), (X1− , X2− ) sont indépendantes et donc
E(X1± X2 ±) = E(X1± )E(X2± ), E(X1± X2 ∓) = E(X1± )E(X2∓ ).
On a donc
E(X1+ X2+ + X1− X2− ) = E(X1+ )E(X2+ ) + E(X1− )E(X2− )
E(X1+ X2− + X1− X2+ ) = E(X1+ )E(X2− ) + E(X1− )E(X2+ ).
Comme les E(X1± ), E(X2± ) sont toutes finies, ceci montre que E(X1+ X2+ +
X1− X2− ) et E(X1+ X2− + X1− X2+ ) sont finies. En outre,
E(X1 X2 ) = E(X1+ )E(X2+ ) + E(X1− )E(X2− ) − E(X1+ )E(X2− ) + E(X1− )E(X2+ )
= (E(X1+ ) − E(X1− ))(E(X2+ ) − E(X2− ))
= E(X1 )E(X2 ),
ce qui termine la preuve du théorème.
2
Remarque Dans le cas où les v.a Xi admettent des densités (continues)
ρXi on peut donner une preuve plus simple : D’après la formule de transfert
appliquée à Y = f (X1 , X2 ) = X1 · X2 donne
Z
E(X1 · X2 ) = f (x1 , x2 )ρX (x1 , x2 )dx1 dx2 .
R×R
66 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

Or on sait que ρX (x1 , x2 ) = ρX1 (x1 )ρX2 (x2 ) si bien que


Z
E(X1 · X2 ) = x1 x2 ρX1 (x1 )ρX2 (x2 )dx1 dx2 ,
R×R
Z Z
= x1 ρX1 (x1 ) x2 ρX2 (x2 )
R R
= E(X1 )E(X2 ).

Remarque Attention, la réciproque du résultat précédent est fausse : si deux


v.a X, Y sont telles que E(XY ) = E(X)E(Y ) on ne peut pas conclure que
X, Y sont indépendantes. En revanche, le résultat suivant est vrai :

Théorème 3.2.2 Si X1 , . . . , Xn sont des v.a telles que pour toutes fonctions
continues bornées φ1 , . . . , φn de R → R on a

E(φ1 (X1 ) · · · φn (Xn )) = E(φ1 (X1 )) · · · E(φn (Xn )),

alors la famille de v.a X1 , . . . , Xn est indépendante.

3.2.4 Critères d’indépendance


Dans la pratique il est important de déterminer si une famille de v.a
est indépendantes. Un cas qui se présente fréquemment est le suivant : on
suppose donnée une famille de v.a indépendantes X1 , X2 , . . . et on construit,
à partir des Xi , de nouvelles v.a Y1 , Y2 , . . .. Par exemple, on peut définir
Y1 = X1 , Y2 = X1 + X2 , Yn = X1 + · · · + Xn ...mais on pourrait définir les Yi
par Y1 = X1 + X2 , Y2 = X2 + X3 , Yn = Xn + Xn+1 etc. ou faire des choses
plus compliquées. Le théorème important de cette section est le suivant :

Théorème 3.2.3 Soient (Xi )i∈N une famille de v.a indépendantes et (Ji )
(i = 1, 2, . . .) des sous ensembles finis de N qui forment une partition de
N (i.e les Ji sont non vides, N = ∪i≥1 Ji et Ji ∩ Jj = ∅ si i 6= j). Suppo-
sons données des applications (continues, continues par morceaux,...) fi de
R#Ji → R et posons Yi = fi (Xi1 , . . . , Xi#Ji ) (où i1 < · · · < i#Ji sont les
éléments de Ji ). Alors, la famille de v.a Y1 , Y2, . . . est indépendante.
Démonstration.—
Démontrons un cas particulier de ce théorème (mais la preuve dans le cas
général est la même) : Supposons que X1 , X2 , X3 , X4 soit une famille de v.a
indépendantes et que f, g : R2 → R soient des applications (continues...).
Posons Y1 = f (X1 , X2 ) et Y2 = g(X3, X4 ).
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 67

i) Fixons I3 et I4 des intervalles ouverst de R et considérons l’ensemble CI3 , I4


des boréliens de R2 tels que

P((X1 , X2 ) ∈ A, X3 ∈ I3 , X4 ∈ I4 ) = P((X1, X2 ) ∈ A)P(X3 ∈ I3 )P(X4 ∈ I4 ).

C’est une tribu et elle contient les pavés de la forme I1 × I2 (I1 , I2 intervalles
ouverts de R). Elle contient donc la tribu engendrée par les pavés ouverts et
elle contient donc la tribu borélienne de R2 . On a donc démontré que pour
tout borélien A de R2 et tous intervalles I3 , I4 on a

P((X1 , X2 ) ∈ A, X3 ∈ I3 , X4 ∈ I4 ) = P((X1, X2 ) ∈ A)P(X3 ∈ I3 )P(X4 ∈ I4 ).

Fixons A boélien de R2 et considérons l’ensemble DA des boréliens B de R2


tels que

P((X1 , X2 ) ∈ A, (X3 , X4 ) ∈ B) = P((X1, X2 ) ∈ A)P((X3 , X4 ) ∈ B).

C’est une tribu qui contient les pavés ouverts de la forme I3 × I4 car

P((X1 , X2 ) ∈ A, (X3 , X4 ) ∈ I3 × I4 ) = P((X1 , X2 ) ∈ A)P(X3 ∈ I3 )P(X4 ∈ I4 )


= P((X1 , X2 ) ∈ A)P((X3 , X4 ) ∈ I3 × I4 ).

Par conséquent, la tribu D contient la tribu engendrée par les pavés ouverts
c’est à-dire la tribu borélienne de R2 . On a montré que pour tout borélien A
de R2 et tout borélien B de R2

P((X1 , X2 ) ∈ A, (X3 , X4 ) ∈ B) = P((X1, X2 ) ∈ A)P((X3 , X4 ) ∈ B).

ii) Soient I, J deux intervalles ouverts :

P(Y1 ∈ I, Y2 ∈ J) = P((X1 , X2 ) ∈ f −1 (I), (X3, X4 ) ∈ g −1 (J)).

Les ensembles f −1 (I) et g −1 (J)) sont des boréliens de R2 et on a donc d’après


i)

P((X1 , X2 ) ∈ f −1 (I), (X3, X4 ) ∈ g −1 (J)) =


P((X1 , X2 ) ∈ f −1 (I))P((X3, X4 ) ∈ g −1 (J)),

c’est-à-dire
P(Y1 ∈ I, Y2 ∈ J) = P(Y1 ∈ I)P(Y2 ∈ J).

2
68 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE

3.3 Evènements indépendants


Définition 3.3.1 Une famille d’évènements (Ai )i∈I est dite indépendante
(ou encore les évènements de la famille (Ai )i∈I sont dits mutuellement indépendants)
si pour toute sous famille finie Ai1 , . . . , Ain on a
P(Ai1 ∩ · · · ∩ Ain ) = P(Ai1 ) · · · P(Ain ).

Exercice. Démontrer que si A, B sont deux évènements indépendants les


quatre familles (A, B), (A, B c ), (Ac , B), (Ac , B c ) sont chacune indépendantes.
Solution. a) Montrons par exemple que (Ac , B) est indépendante :
P(Ac ∩ B) = P((E − A) ∩ B) = P(B − (A ∩ B)) = P(B) − P(A ∩ B)
et comme P(A ∩ B) = P(A)P(B)
P(Ac ∩ B) = P(B)(1 − P(A)) = P(B)P(Ac ).

Exercice Trouver un exemple où chacune des familles (A, B), (B, C), (C, A)
est indépendante mais pas la famille (A, B, C).

Théorème 3.3.1 La famille d’évènements (Ai )i∈I est indépendante si et


seulement si la famille de variables aléatoires (1Ai )i∈I est indépendante.
Démonstration.— i) Démontrons que si la famille d’évènements (Ai )i∈I est
indépendante alors la famille de variables aléatoires (1Ai )i∈I est indépendante.
Pour cela il suffit de démontrer, quand I = {1, . . . , n}, que pour tout (1 , . . . , n ) ∈
{0, 1}n ,
n
Y
P(1A1 = 1 , . . . , 1An = n ) = P(1Ai = i ).
i=1
 c
Notons A l’ensemble A si  = 1 et A si  = 0. L’égalité précédente devient
n
Y
E(1A11 · · · 1Ann ) = E(1Ai i ).
i=1

Remarquons que 1Ai i égale soit 1Ai soit 1 − 1Ai . On peut donc écrire 1Ai i =
(i + ˜i 1Ai ) où ˜i = 1 − 2i . Ainsi,
n
Y
1 
A11 ···1 Ann = (i + ˜i 1Ai )
i=1
XY Y
= i ˜i 1Ai .
J⊂I i∈J i∈I−J
3.3. EVÈNEMENTS INDÉPENDANTS 69

Par conséquent,
n
Y 
E(1A11 · · · 1Ann ) = E (i + ˜i 1Ai )
i=1
X Y Y 
= i E ˜i 1Ai )
J⊂{1,...,n} i∈J i∈I−J
XY Y
= i ˜i E(1Ai ),
J⊂I i∈J i∈I−J

puisque comme les A1 , . . . , An sont mutuellement indépendants


Y   \ 
E 1Ai = P Ai
i∈I−J i∈I−J
Y
= P(Ai )
i∈I−J
Y
= E(1Ai ).
i∈I−J

On a donc,
n
Y
E(1A11 · · · 1Ann )) = (i + ˜i E(1Ai ))
i=1
n
Y
= E(i + ˜i 1Ai )
i=1
Yn
= E(1Ai i ),
i=1

ce est ce que nous voulions démontrer.

ii) La réciproque résulte immédiatement de la définition de l’indépendance.


2
70 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE
Chapitre 4

Sommes de variables aléatoires


indépendantes

Soient X1 , . . . , Xn , . . . une famille de v.a indépendantes et introduisons


les v.a Sn = X1 + · · · + Xn . Si par exemple les v.a Xi ont même loi, l’intuition
que nous avons des probabilités nous incite à penser que les moyennes

1 1
Sn = (X1 + · · · + Xn )
n n

convergent quand n tend vers l’infini vers l’espérance E(X1 ) de X1 . En effet,


si par exemple les Xi suivent une loi de Bernoulli (1/2, 1/2) et forment une
famille indépendante de v.a– les Xi modélisent donc un jeu infini de Pile/Face
où les tirages sont indépendants– l’expérience ou l’intuition indique que

1
(X1 + · · · + Xn )
n

convergent vers le nombre (ou la v.a constante) 1/2 qui n’est rien d’autre
que l’espérance de X1 . La première difficulté que nous rencontrons est de
donner un sens à la convergence précédente. Rappelons la définition suivante
qui introduit la notion de convergence presque-sure, pertinente pour notre
propos :

Définition 4.0.1 On dit que la suite de v.a Yn converge P-presque surement


vers la v.a Y l’ensemble des ω ∈ Omega pour lesquels la suite (Yn (ω))n
converge vers Y (ω) est de probabilité 1.

Le théorème fondamental de ce chapitre et qui est à la base de la théorie


mathématique des probabilités est la loi forte des grands nombres qui est

71
72CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Théorème 4.0.2 Soit X1 , . . . , Xn , . . . une famille de v.a indépendante où


les Xi ont même loi et sont dans L1 (Ω, P). Alors, la suite de v.a
1
(X1 + · · · + Xn )
n
converge P-p.s vers la v.a constante E(X1 ).
La démonstration de ce théorème fondamental dans cette généralité sort du
cadre de ce cours, mais nous allons en donner une preuve sous des hypothéses
plus faibles.

4.1 Lois des grands nombres dans le cas L2


4.1.1 Loi faible des grands nombres
Nous savons déjà d’après la linéarité de l’espérance que
E(Sn ) = E(X1 ) + · · · + E(Xn )
et d’après l’indépendance
V ar(Sn ) = V ar(X1 ) + · · · + V ar(Xn ),
et comme les Xi ont même loi
E(Sn ) = nE(X1 ), V ar(Sn ) = nV ar(X1 ).
Le fait que la variance de la somme des n v.a X1 , . . . , Xn se comporte comme
n et non pas comme n2 (c’est ici où intervient l’hypothèse d’indépendance)
est l’observation fondamentale. Appliquons en effet l’inégalité de Bienaymé-
Tchebychev :
nV ar(X1 )
P(|Sn − nE(X1 )| > λ) ≤ ,
λ2
ce qui peut s’écrire
Sn λ nV ar(X1 )
P(| − E(X1 )| > ) ≤ .
n n λ2
Posons à présent λ = n où  est un réel positif :
Sn V ar(X1 )
P(|− E(X1 )| > ) ≤ .
n n2
Nous voyons donc que pour tout  > 0 on a
Sn
lim P(| − E(X1 )| > ) = 0.
n→∞ n
Introduisons la définition suivante :
4.1. LOIS DES GRANDS NOMBRES DANS LE CAS L2 73

Définition 4.1.1 On dit que la suite de v.a (Yn )n converge en probabilité


vers la v.a Y si pour tout  > 0 on a

lim P(|Yn − Y | > ) = 0.


n→inf ty

Nous avons donc démontré la loi faible des grands nombres

Théorème 4.1.1 Si (Xi )i≥1 est une famille de v.a indépendante et si les Xi
ont même loi et sont dans L2 alors la suite Sn /n converge en probabilité vers
E(X1 ).

4.1.2 Loi forte des grands nombres


Rappelons l’énoncé de la loi forte des grands nombres :

Théorème 4.1.2 Soit X1 , . . . , Xn , . . . une famille de v.a indépendante où


les Xi ont même loi et sont dans L1 (Ω, P). Alors, la suite de v.a

1
(X1 + · · · + Xn )
n
converge P-p.s vers la v.a constante E(X1 ).
Nous nous proposons dans ce qui suit d’en donner une preuve dans le cas où
les v.a sont L2 .
Démonstration.— Dans le cas L2 .
Posons X̄k = Xk − E(Xk ) et S̄n = X̄1 + · · · + X̄k . La famille de v.a (X̄i )i
est indépendante et les X̄i sont de même loi et de carré intégrable. En outre,

E(X̄i ) = 0, V ar(X̄i ) = E((X̄i )2 ),

et
E(S̄n ) = 0, E((S̄n )2 ) = V ar(S̄n ) = nV ar(X̄1 ).

i) La dernière égalité montre que


 2 
S̄n 1 2 1
E = = E(( S̄ n ) ) = V ar(X1 ),
n n2 n

et donc la série
∞  2  X ∞
X S̄k2 1
E 2
= 2
V ar(X1 ),
k=1
k k=1
k
74CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

est convergente. D’après le théorème de convergence monotone,


X ∞  2  X ∞  2 
S̄k2 S̄k2
E = E ;
k=1
k2 k=1
k2

mais si l’espérance d’une v.a positive est finie, cette v.a est finie pour P-p.s.
Par conséquent pour P-presque tout ω ∈ Ω
∞  2
X S̄k2 (ω)
< ∞,
k2
k=1

ce qui en particulier implique que

S̄k2 (ω)
lim = 0.
k→∞ k2
Nous avons donc montré que P-p.s la suite S̄k2 /k 2 converge vers 0 quand n
tend vers l’infini.
ii) Montrons à présent que la suite S̄n /n converge vers 0 P-p.s. Pour cela,
notons k(n) l’unique entier pour lequel

k(n)2 ≤ n < (k(n) + 1)2 .

Les mêmes calculs que ceux que l’on a effectués précédemment montrent que
 2   
2
E X̄k(n)2 + · · ·+ X̄n = V ar X̄k(n)2 + · · ·+ X̄n ) = (n−k(n) V ar(X1 ),

et ∞ ∞
X̄k(n)2 + · · · + X̄n 2 n − k(n)2
X   X
E = V ar(X1 ).
n=1
n n=1
n2
Mais, comme
√ √
n − k(n)2 ≤ (k(n) + 1)2 − k(n)2 = 2k(n) + 1 ≤ 2 n + 1 ≤ 3 n

on a
n − k(n)2 3
≤ √ ,
n n n
P∞ n−k(n)
et la série n=1 n2
V ar(X1 ) est donc convergente. Ainsi

X̄k(n)2 + · · · + X̄n 2
X  
E
n=1
n
4.2. THÉORÈME DE LA LIMITE CENTRALE 75

est finie et en raisonnant comme en i)

X̄k(n)2 + · · · + X̄n
n
converge P-p.s vers 0.
iii) Comme

S̄n X̄1 + · · · + X̄k(n)2 X̄k(n)2 + · · · + X̄n


= +
n n n
X̄1 + · · · + X̄k(n)2 k(n) 2 X̄k(n)2 + · · · + X̄n
= 2
· +
k(n) n n
2 X̄k(n)2 + · · · + X̄n
1 k(n)
= S̄ k(n)2 · +
k(n)2 n n

et que k(n)2 /n est borné par 1 on déduit de i) et ii) que S̄n /n converge P-p.s
vers 0. Le fait que
S̄n Sn
= − E(X1 ),
n n
permet de conclure la preuve du théorème.
2

4.2 Théorème de la limite centrale


Nous donnons une première version de ce théorème :

Théorème 4.2.1 Soient X1 , . . . , Xn , . . . une famille de v.a indépendantes et


supposons que les Xi soient de même loi et dans L2 (Ω, P) (c’est-à-dire de
carré intégrable, E(Xi2 ) < ∞). Notons µ = E(X1 ) et σ 2 = V ar(X1 ) (comme
les Xi sont de même loi E(Xi ) = µ et V ar(Xi ) = σ pour tout i). Alors, pour
tout intevalle I de R
Sn − nµ
  Z
1 2
lim P √ ∈ I = √ e−x /2 dx.
n→∞ σ n I 2π
Une autre façon d’énoncer ce théorème est de dire que
√    Z
n Sn 1 2
lim P −µ ∈I = √ e−x /2 dx.
n→∞ σ n I 2π
En d’autres termes, Sn /n − µ converge d’après la loi forte des grans nombres
vers 0, la déviation des moyennes par rapport à l’espérance, “renormalisée”
76CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

par le facteur n/σ, converge dans un certain sens vers une loi gaussienne
normalisée (espérance nulle, variance égale à 1).
Avant de passer à la preuve de ce théorème, nous devons introduire
quelques notions utiles.

4.2.1 Convergence en loi


Définition 4.2.1 On dit qu’une suite de v.a (Yn )n∈N converge en loi vers
une v.a Y si et seulement si pour toute fonction continue bornée f : R → R
lim E(f (Yn )) = E(f (Y )).
n→∞

L’intérêt de cette notion réside dans la proposition suivante :

Théorème 4.2.2 Soient (Yn )n∈N une suite de v.a et Y une v.a. et notons
FYn : R → [0, 1] et FY : R → [0, 1] les fonctions de répartition des v.a Yn ,
Y :
FYn (t) = P(Yn ≤ t), FY (t) = P(Y ≤ t).
La suite (Yn )n∈N converge en loi vers Y si et seulement si en tout point t0
où FY est continue à gauche
lim FYn (t0 ) = FY (t0 ).
n→∞

Démonstration.—
i) Montrons déjà que si (Yn )n∈N converge en loi vers Y alors en tout point t0
où FY est continue à gauche FYn (t0 ) converge vers FY (t0 ). Considérons deux
suites de fonctions gp , hp : R → R qui sont définies de la façon suivante : gp est
la fonction continue : égale à 1 sur ]−∞, t0 −(1/p)], affine sur [t0 −(1/p), t0 ] et
égale à 0 sur [t0 , ∞[ ; hp est la fonction continue : égale à 1 sur ]−∞, t0 ], affine
sur [t0 , t0 + (1/p)] et égale à 0 sur [t0 + (1/p), ∞[. La suite de fonctions gp est
croissante et converge simplement vers 1]−∞,t0 [ tandis que la suite de fonctions
hp est décroissante et converge simplement vers 1]−∞,t0 ] . De l’inégalité
gp ≤ 1]−∞,t0] ≤ hp
on déduit en passant aux espérances,
E(gp (Yn )) ≤ Fn (t0 ) ≤ E(hp (Yn )).
D’après la définition de la convergence en loi E(gp (Yn )) et E(hp (Yn )) convergent
respectivement quand n tend vers l’infini vers E(gp (Y )), E(hp (Y )) et donc
d’après les inégalités précédentes
E(gp (Y )) ≤ lim inf Fn (t0 ) ≤ lim sup Fn (t0 ) ≤ E(hp (Y )). (4.1)
n→∞ n→∞
4.2. THÉORÈME DE LA LIMITE CENTRALE 77

Par ailleurs, quand p tend vers l’infini, le théorème de convergence monotone,


montre que E(gp (Y )) converge vers E(1]−∞,t0 [ (Y )) = P(Y < t0 ) et E(hp (Y ))
converge vers E(1]−∞,t0 [ (Y )) = P(Y ≤ t0 ) = FY (t0 ). Comme FY est continue
à gauche en t0 on a E(1]−∞,t0 [ (Y )) = P(Y < t0 ) = P(Y ≤ t0 ) = FY (t0 ) et
en faisant tendre p vers l’infini dans (4.1) on voit que lim inf n→∞ Fn (t0 ) =
lim supn→∞ Fn (t0 ) = FY (t0 ) ce qui est le résultat annoncé.
ii) Montrons la réciproque : soit  > 0 et A un réel positif tel que P(|Y | > A)
soit plus petit que /12 (exercice : un tel A existe toujours). On aura de
même si n ≥ n1 () P(|Yn | > A) ≤ /12 d’après l’hypothèse. Comme FY (t)
est croissante, elle admet un nombre au plus dénombrable de points de dis-
continuité : notons T cet ensemble. Soit f une fonction continue bornée (nous
supposerons que |f | ≤ 1 pour simplifier) : elle est uniformément continue sur
[−A, A] et on peut donc l’approcher à /6 près uniformément sur [−A, A] par
une fonction en escaliers c(x) dont on peut demander que les discontinuités
soient en dehors de T :

|(f (x) − c(x)) · 1[−A,A] | ≤ /6,

si bien que

|(f (Yn ) − c(Yn )) · 1|Yn |≤A | ≤ /6,


|(f (Y ) − c(Y )) · 1|Y |≤A | ≤ /6,

et finalement
 
|E f (Yn ) − c(Yn ) | ≤ /4 + 2P(|Yn | > A) ≤ /3 (4.2)
 
|E f (Y ) − c(Y ) | ≤ /4 + 2P(|Y | > A) ≤ /3 (4.3)

De telles fonctions c(x) sont des combinaisons linéaires de 1]−∞,t] où t ∈


/ T.
On a donc :
lim E(c(Yn )) = E(c(Y )).
n→∞

Donc dès que n est plus grand qu’un certain entier n2 () on a |E(c(Yn )) −
E(c(Y ))| ≤ /3 et en utilisant (4.2), (4.3) on voit que dès que n ≥ max(n1 (), n2 ())

|E(f (Yn ) − E(f (Y ))| ≤ ,

ce qui est ce que nous voulions démontrer.


2
Un corollaire utile du théorème précédent est le suivant
78CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Corollaire 4.2.1 Si les Yn convergent en loi vers une v.a Y qui admet une
densité ρY alors pour tout intervalle I de R
Z
lim P(Yn ∈ I) = ρY (y)dy
n→∞ I

4.2.2 Fonctions caractéristiques


Définition 4.2.2 Si Y est une v.a.r, la fonction caractéristique de Y est la
fonction φY : R → R définie par

φY (t) = E(eitY ),

(où i = −1).

Remarque i) Pour t fixé la v.a eitY est bornée par 1 (puisque Y est à valeurs
réelles) et est donc intégrable.
ii) La fonction caractéristique d’une v.a ne dépend que de la loi de cette v.a.
iii) On peut démontrer (en utilisant le théorème de convergence dominée)
que la fonction caractéristique d’une v.a.r est continue et tend vers 0 en ±∞.
On peut préciser le résultat de continuité précédent :

Proposition 4.2.1 Si Y est une v.a.r intégrable, alors la fonction caractéristique


de Y est de classe C 1 (dérivable et de dérivée continue) et
 
0 itY
φY (t) = E (iY )e .

De même, si Y est dans Lp (Ω, P) la fonction caractéristique de Y est de


classe C p et on a
dp
 
p itY
φY (t) = E (iY ) e .
dtp
Démonstration.— Soit tn une suite de réels convergeant vers t. Il suffit de
démontrer que pour toute telle suite

φY (tn ) − φY (t)
 
itY
lim = E (iY )e .
n→∞ tn − t

Calculons,  itn Y
φY (tn ) − φY (t) − eitY

e
=E .
tn − t tn − t
4.2. THÉORÈME DE LA LIMITE CENTRALE 79

Pour cela, remarquons que la v.a

eitn Y (ω) − eitY (ω)


Zn (ω) = ,
tn − t
converge simplement (c’est-à-dire pour tout ω fixé) quand n tend vers l’infini
vers (itY (ω))eitY (ω) (la dérivée en s = t de s 7→ eisY (ω) ). En outre, d’après la
formule des accroissement finis, pour tout ω il existe sn,ω ∈ (t, tn ) tel que

eitn Y (ω) − eitY (ω)


= (iY (ω)eisn,ω Y (ω) ,
tn − t
et donc
|Zn (ω)| ≤ |Y (ω)|,
dès que n est assez grand. Or, le membre de droite de l’inégalité précédente
est une fonction integrable. Le théorème de convergence dominée s’applique
et on a donc
lim E(Zn ) = E((iY )eitY ).
n→∞

Ceci conclut la preuve de la proposition quand p = 1. Le cas général ne


présente pas de difficultés supplémentaires.
2
Exercice : Montrer que si Z = aY + b

φZ (t) = eitb φY (ta).

Calculons à présent les fonctions caractéristiques de certaines lois classiques.

v.a discrètes Si Y prend un nombre fini de valeurs y1 , . . . , yr et si on note


pr = P(Y = yr ) on a

φY (t) = E(eitY )
Xr
= eityk P(Y = yk )
k=1
Xr
= (eit )yk P(Y = yk )
k=1

et on reconnait (si Y est à valeurs entières) la fonction génératrice de Y au


point eit . Le calcul des fonctions caractéristiques de v.a discrètes est exacte-
ment le même que celui que nous avons effectué dans un chapitre précédent.
80CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

v.a admettant une densité ρY Dans ce cas

φY (t) = E(eitY )
Z ∞
= eity ρY (y)dy.
−∞

R∞
On habituellement ρ̂Y (t) = −∞ eity ρY (y)dy et on dit que la fonction ρ̂Y est
la transformée de Fourier de la fonction ρY

Exemple : Fonctions caractéristique d’une gaussienne Rappelons que si Z


est une v.a suivant une loi gaussienne N (µ, σ) on peut l’écrire sous la forme
Z = σY + µ où Y suit une loi gaussienne normalisée N (0, 1) de densité

1 2
ρ(y) = √ e−y /2 .

On a donc

1
Z
2 /2
φY (t) = √ eity e−y dy.
2π −∞

On a (cf. exercice) :
2 /2
φY (t) = e−t .
Ainsi, la fonction d’une caractéristique d’une v.a suivant une loi gaussienne
N (µ, σ) est
2 2
φZ (t) = eitµ−σ (t /2) .
Mentionnons que l’on peut étendre la notion de fonction génératrice au
cas des vecteurs aléatoires réeels.

Définition 4.2.3 Si (Y1 , . . . , Yn ) est un vecteur aléatoire, la fonction ca-


ractéristique de Y est la fonction φY : Rn → R définie par

φY (t1 , . . . , tn ) = E(ei(t1 Y1 +···+tn Yn ) ),



(où i = −1).

Liens avec la convergence en loi


Les fonctions caractéristiques jouent un rôle important dans les problèmes
où inteviennent des convergences en loi. Les deux théorèmes qui suivent illus-
trent ce fait.
4.2. THÉORÈME DE LA LIMITE CENTRALE 81

Théorème 4.2.3 La loi d’une v.a.r (resp. d’un vecteur aléatoire) est déterminée
par sa fonction caractéristique : si Y et Z sont deux v.a.r (resp. vecteurs
aléatoires) tel(le)s que pour tout t ∈ R (resp. t ∈ Rn )

φY (t) = φZ (t),

alors la loi de Y et la loi de Z sont les mêmes : pour tout borélien A de R


(resp. de Rn ) :
P(Y ∈ A) = P(Z ∈ A).

Théorème 4.2.4 La suite de v.a.r (resp. de vecteurs aléatoires) (Yn )n∈N


converge en loi vers Y si et seulement si pour tout t ∈ R (resp. t ∈ Rn )

lim φYn (t) = φY (t).


n→∞

Démonstration.— Si Yn converge en loi vers Y , pour toute fonction f


continue bornée et en particulier pour la fonction et (y) = eity (t fixé), on
a limn→∞ E(et (Yn )) = E(et (Y )). La première partie du théorème est donc
facile.
La preuve de l’implication réciproque est plus délicate. Nous ne don-
nons donc qu’un schéma de preuve. La convergence simple des fonctions
carctéristiques est équivalente au fait que pour toute fonction f de la forme
et (y) = eity , E(et (Yn )) converge vers E(et (Y )). Il est évident que le même
résultat est vrai pour les fonctions g qui sont combinaisons linéaires finies des
fonctions et . Or, pour tout  > 0, tout intervalle [−A, A] et toute fonction
continue f on peut trouver une combinaison linéaire finie g des fonctions et
telles que
sup |f (y) − g(y)| < /5,
y∈[−A,A]

On a donc

|E(f (Y )) − E(f (Yn ))| ≤ |E(f (Y )) − E(g(Y ))| + |E(g(Y )) − E(g(Yn ))|+
|E(g(Yn)) − E(f (Yn ))|
≤ (/5) + P(|Y | > A) + |E(g(Y )) − E(g(Yn ))|+
(/5) + P(|Yn | > A).

Il est clair que P(|Y | > A) tend vers 0 quand A tend vers l’infini, et que le
même résultat est vrai si l’on remplace Y par Yn n étant fixé mais il n’est pas
évident que cette convergence soit uniforme en n. Ceci est l’objet du lemme
suivant dont la démonstration sort du cadre de ce cours
82CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Lemme 4.2.1 On a
Z 1/A
P(|Yn | ≥ A) ≤ A (1 − φYn (t))dt.
−1/A

Le théorème de convergence dominée et la continuité de φY en 0 permettent


de démontrer qu’il existe n(A, ) tel que si n ≥ n(A, )

P(|Yn | > A) ≤ /5

(et également P(|Y | > A) ≤ /5). L’inégalité précédant le lemme permet


alors de conclure.
2

Fonctions caractéristiques et indépendance


Théorème 4.2.5 Les v.a.r Y1 , . . . , Yn forment une famille de v.a indépendantes
si et seulement si

φY1 ,...,Yn (t1 , . . . , tn ) = φY1 (t1 ) · · · φYn (tn ).

Démonstration.— 1) Supposons tout d’abord que la famille Y1 , . . . , Yn soit


indépendantes ; on a

E(ei(t1 Y1 +···+tn Yn ) = E(eit1 Y1 · · · eitn Yn ),

et puisque la famille de v.a eit1 Y1 , . . . , eitn Yn est indépendante on a

E(ei(t1 Y1 +···+tn Yn ) = E(eit1 Y1 ) · · · E(eitn Yn ).

C’est bien la formule annoncée.


2) Réciproquement, supposons que

φY1 ,...,Yn (t1 , . . . , tn ) = φY1 (t1 ) · · · φYn (tn ),

et montrons que la famille Y1 , . . . , Yn est indépendante. Pour cela, rappelons


le résultat suivant : Pour toute famille de v.a Y1 , . . . , Yn (on pourrait prendre
une famille infinie), il existe des v.a Ỹ1 , . . . , Ỹn qui constituent une famille
indépendante et telles que pour tout i les lois de Ỹi et de Yi sont les mêmes.
i) Montrons que la loi du vecteur (Ỹ1 , . . . , Ỹn ) est la même que celle du vecteur
(Y1 , . . . , Yn ). Il suffit de démontrer que (Y1 , . . . , Yn ) et (Ỹ1, . . . , Ỹn ) ont même
fonctions caractéristiques. Or, comme la famille (Ỹ1 , . . . , Ỹn ) est indépendante
on a
φ(Ỹ1 ,...,Ỹn ) (t1 , . . . , tn ) = φỸ1 (t1 ) · · · φỸn (tn )
4.2. THÉORÈME DE LA LIMITE CENTRALE 83

et puisque Ỹi et Yi ont même loi


φ(Ỹ1 ,...,Ỹn ) (t1 , . . . , tn ) = φY1 (t1 ) · · · φYn (tn )
(la fonction caractéristique ne dépend que de la loi de la v.a). On voit donc
que
φ(Ỹ1 ,...,Ỹn ) (t1 , . . . , tn ) = φ(Y1 ,...,Yn ) (t1 , . . . , tn ),
ce qu’il fallait démontrer.
ii) Par conséquent pour tous boréliens (ou même intervalles) A1 , . . . , An
P(Y1 ∈ A1 , . . . , Yn ∈ An ) = P(Ỹ1 ∈ A1 , . . . , Ỹn ∈ An )
= P(Ỹ1 ∈ A1 ) · · · P(Ỹn ∈ An )
= P(Y1 ∈ A1 ) · · · P(Yn ∈ An ),
ce qui est bien l’indépendance annoncée.
2
Nous avons également le résultat suivant

Théorème 4.2.6 Si les v.a.r X1 , . . . , Xn forment une famille indépendante


pour tout t ∈ R
φX1 +···+Xn (t) = φX1 (t) · · · φXn (t).
Démonstration.— Il suffit de constater que
φX1 +···+Xn (t) = φ(X1 ,...,Xn ) (t, . . . , t),
et d’appliquer le théorème précédent.
2

4.2.3 Démonstration du théorème de la limite centrale


Rappelons l’énoncé du théorème 4.2.1 dans la version équivalente suivante
(cf. théorème ??)

Théorème 4.2.7 Soient X1 , . . . , Xn , . . . une famille de v.a indépendantes et


supposons que les Xi soient de même loi et dans L2 (Ω, P) (c’est-à-dire de
carré intégrable, E(Xi2 ) < ∞). Notons µ = E(X1 ) et σ 2 = V ar(X1 ) (comme
les Xi sont de même loi E(Xi ) = µ et V ar(Xi) = σ 2 pour tout i). Alors, la
suite de v.a
Sn − nµ

σ n
√ 2
converge en loi vers une loi normale N (0, 1) (de densité (1/ 2π)e−x /2 ).
84CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Nous avons suffisamment d’outils pour démontrer le théorème de la limite


centrale. Soient donc X1 , . . . , Xn , . . . une famille indépendante de v.a qui sont
de même loi et de carré intégrable. Nous posons µ = E(X1 ) et σ = V ar(X1 ).
Notons Sn = X1 + · · · + Xn , Σn = (X1 − µ) + · · · + (Xn − µ) et posons
Sn − nE(X1 ) Σn
Zn = √ = √ .
σ n σ n
La formule de l’exercice du début de la section 4.2.2 montre que
 
t
φZn (t) = φΣn √ ,
σ n
et comme Σn est la somme des v.a indépendantes Xi − µ, 1 ≤ i ≤ n et que
ces v.a ont même loi :
φΣn (t) = φX1 −µ (t)n .
Si on pose φ(t) = φX1 −µ (t) on a donc
 n
t
φZn (t) = φ √ .
σ n
Puisque la v.a est de carré intégrable la fonction φ est de classe C 2 . Par
ailleurs,
φ(0) = E(1), φ0 (0) = iE(X1 − µ), φ00 (0) = −E((X1 − µ)2 ),
c’est-à-dire
φ(0) = 1, φ0 (0) = 0, φ00 (0) = −σ 2 .
D’après la formule de Taylor
σ2 2
φ(t) = 1 − t + o(t2 ),
2
et donc pour t fixé
2
σ2 √ 2 n
  
t
φZn (t) = 1 − √ + o((t/(σ n)) ) ,
2 σ n
ou encore n
t2

1
φZn (t) = 1− + o( ) .
2n n
Pour n suffisamment grand, 1 −(t2 )/(2n) + o(1/n) est dans la boule de centre
1 et de rayon 1/2 et on peut écrire
t2
  
1
φZn (t) = exp n log 1 − + o( ) ,
2n n
4.3. QUELQUES REMARQUES SUR LES DIVERSES NOTIONS DE CONVERGENCE85

où log est la détermination principale du logarithme dans le plan complexe


(qui admet le même développement en série que le logarithme réel). On a
donc  2 
t 2
φZn (t) = exp − + o(1) = e−(t /2) + o(1),
2
et partant,
2 /2
lim φZn (t) = e−t .
n→∞

On reconnait dans le membre de droite la fonction caractéristique d’une v.a


gaussienne normalisée et le théorème 4.2.4 montre que Zn converge en loi
vers une loi gausienne normalisée.

4.3 Quelques remarques sur les diverses no-


tions de convergence
Nous avons rencontré diverses notions de convergence et il est bon de
dégager une hierarchie entre ces notions.

Proposition 4.3.1 a) La convergence p.s et la convergence en moyenne im-


pliquent la convergence en probabilité ; la convergence en probabilité (et donc
la convergence p.s et la convergence en moyenne) implique la convergence en
loi.
b) S’il existe une constante A telle que |Xn | ≤ A la convergence en probabilité
de Xn est équivalente à sa convergence en moyenne.
86CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Chapitre 5

Espérance conditionnelle

Dans tout ce qui suit (Ω, B, P) est un espace probabilisé fixé.

5.1 Probabilités conditionnelles


Définition 5.1.1 Si A et Bsont deux évenements de la tribu Bet si P(B) >
0 on définit la probabilité de A sachant B comme étant

P(A ∩ B)
P(A|B) = .
P(B)

En fait tout évenement B ∈ B définit une nouvelle probabilité sur (Ω, B) :

Proposition 5.1.1 Si B ∈ B est tel que P(B) > 0, l’application PB : B →


[0, 1] qui à A ∈ B associe PB (A) = P(A|B) est une probabilité.

La preuve de cette proposition est laissée en exercice au lecteur.


Supposons à présent que nous ayons une partition de Ω en évènements
B1 , . . . , Br (c’est-à-dire que les évènements B1 , . . . , Br sont disjoints deux à
deux et que leur union soit égale à Ω) et que pour tout i P(Bi ) > 0. On peut
donc définir r probabilités P(·|Bi ).

Théorème 5.1.1 (Formule des causes) Sous les hypothèses précédentes

r
X
P(A) = P(A|Bi )P(Bi).
i=1

87
88 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE

Démonstration.— Il suffit de remarquer que A est l’union disjointe des


(A ∩ Bi ) et donc
r
X
P(A) = P(A ∩ Bi )
k=1
r
X P(A ∩ Bi )
= · P(Bi )
i=1
P(Bi)

ce qui est la formule annoncée.


2
Dans la pratique un problème courant est de calculer P(Bi |A) connaissant
les P(A|Bj ).

Théorème 5.1.2 (Formule de Bayes) Sous les hypothèses précédentes :

P(A|Bi )P(Bi )
P(Bi |A) = Pr .
i=1 P(A|Bj )P(Bj )

Démonstration.— Il suffit d’écrire

P(Bi ∩ A) P(A|Bi )P(Bi)


P(Bi |A) = = ,
P(A) P(A)

et d’utiliser la formule des causes.


2

5.2 Espérance conditionnelle : cas discret


Espérance sachant un évènement Supposons fixé B ∈ B un évènement
tel que P(B) > 0. On sait que P(·|B) est une probablilité sur (Ω, B) et
on obtient donc un espace probabilisé (Ω, B, P(·|B)). Pour toute variable
aléatoire Y : Ω → R on peut définir E(Y |B) comme étant l’espérance de Y
sur l’espace probabilisé (Ω, B, P(·|B)).
Dans le cas où par exemple Y prend un nombre fini de valeurs y1 , . . . , ym
on a
Xm
E(Y |B) = yk P(Y = yk |B).
k=1
5.2. ESPÉRANCE CONDITIONNELLE : CAS DISCRET 89

Loi conditionnelle d’une v.a sachant un évènement

Définition 5.2.1 La loi de la v.a Y vue comme v.a sur l’espace probabilisé
(Ω, B, P(·|B) que nous appelerons la loi conditionnelle de Y sachant B et
noterons p(y|B) est
p(y|B) = P(Y = y|B).

Espérance sachant une tribu (finie) On suppose fixée une partition


B1 , . . . , Br de Ω et on fait l’hypothèse que pour tout i, P(Bi) > 0. Considérons
F la plus petite tribu engendrée par les ensembles B1 , . . . , Br .
Exercice : Montrer que F est l’ensemble des unions finies de Bi :
[
F = { Bi : J ⊂ {1, . . . , r}}.
i∈J

Définition 5.2.2 Si Y : Ω → R est une v.a, on définit l’espérance de Y par


rapport à la tribu (finie) F comme étant la variable aléatoire E(Y |F ) :
Ω → R valant E(Y |Bi ) sur Bi :
r
X
E(Y |F ) = E(Y |Bk ) · 1Bk .
k=1

Espérance suivant une v.a Supposons à présent que X : Ω → R soit


une v.a ne prenant qu’un nombre fini de valeurs x1 , . . . , xr et notons Bi =
X −1 (xi ), 1 ≤ i ≤ r. et F (ou encore F (B1 , . . . , Br )) la tribu engendrée par
les Bi . Nous supposerons que pour tout i, P(X = xi ) > 0.

Définition 5.2.3 On définit l’espérance conditionnelle de Y sachant X comme


étant la variable aléatoire E(Y |X) : Ω → R définie par E(Y |X) =
E(Y |F (X = x1 , . . . , X = xr ). On a donc
r
X
E(Y |X)(ω) = E(Y |X = xk ) · 1X=xk .(ω).
k=1

(C’est la fonction qui associe à ω E(Y |X = xk ) si X(ω) = xk .)


Mentionnons la propriété suivante évidente mais importante

Proposition 5.2.1 Si on note ψ la fonction ψ(x) = E(Y |X = x) on a

E(Y |X) = ψ(X),

(c’est une égalité entre v.a).


90 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE

Loi conditionnelle de Y sachant X Pour tout x ∈ X(Ω) on peut définir


la loi conditionnelle de Y sachant l’évènement (X = x).

Définition 5.2.4 On appelle loi conditionnelle de Y sachant X = x la


loi conditionnelle de Y sachant l’évènement (X = x) et nous la noterons
pY |X (y|x) :
pX,Y (x, y)
pY |X (y|x) = P(Y = y|X = x) = ,
pX (x)
où on a noté pX,Y la loi du couple (X, Y ) et pX la loi de X

Relation entre espérance conditionnelle et loi conditionnelle

Proposition 5.2.2 On a
m
X
E(Y |X = x) = yl pY |X (yl |x).
l=1

Propriété de l’espérance conditionnelle On a alors

Théorème 5.2.1 On a

E(E(Y |X)) = E(Y ).

Démonstration.— Il suffit de calculer

E(E(Y |X)) = E(ψ(X))


Xr
= E(Y |X = xk )P(X = xk )
k=1
r X
X m
= yl P(Y = yl |X = xk )P(X = xk )
k=1 l=1
m X
X r
= yl P(Y = yl |X = xk )P(X = xk )
l=1 k=1
m
X
= P(Y = yl )
l=1
= E(Y )

(on a utilisé la formule des causes).


2
5.3. CAS DES V.A ADMETTANT DES DENSITÉS 91

Remarque : L’espérance conditionnelle E(Y |X) est linéaire par rapport à


Y.
Exercice : Démontrer que si X, Y sont des v.a ne prenant qu’un nombre fini
de valeurs E(f (X, Y )|X) = ψ(X) où
m
X
ψ(xk ) = f (xk , yl )pY |X (yl |xk ).
l=1

Exercice : Soient X et Y deux v.a indépendantes qui suivent des lois de


Poisson de paramètres respectifs λ et µ. Soit S = X + Y
a) Déterminer la loi de S
b) Calculer l’espérance conditionnelle E(X|S).
(Réponse : a) S suit une loi de Poisson de paramètre λ + µ ; b) E(X|S) est
la variable aléatoire S · λ/(λ + µ))

5.3 Cas des v.a admettant des densités


Supposons donnée deux v.a Y et X telles que le couple (X, Y ) admette
une densité ρX,Y . Les v.a X et Y admettent donc des densités respectives ρX
et ρY égales à :
Z ∞ Z ∞
ρX (x) = ρX,Y (x, y)dy, ρY (y) = ρX,Y (x, y)dx.
−∞ −∞

Nous supposerons dans toute la suite que ρX (x) > 0 pour tout x.
Nous allons définir l’espérance E(Y |X) en nous inspirant de la définition
5.2.4, de la proposition 5.2.2 et de la proposition 5.2.1.

Définition 5.3.1 Nous appelerons densité conditionnelle de Y sachant X =


x la fonction ρY |X (y|x) définie par
ρX,Y (x, y)
ρY |X (y|x) = .
ρX (x)
Définition 5.3.2 L’espérance de Y sachant X = x est la fonction de x ∈ R
Z
E(Y |X = x) = yρY |X (y|x)dy.
R

Définition 5.3.3 L’espérance conditionnelle E(Y |X) est la variable aléatoire


E(Y |X) = ψ(X),
où ψ(x) = E(Y |X = x).
92 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE

Exercice : Soient X, Y deux v.a dont la loi du couple (X, Y ) admet une
densité égale à ρX,Y (x, y) = (1/x) · 1T (x, y) où T est le triangle T = {0 <
y < x < 1}. Calculer E(Y |X).
Solution : La densité de X se calcule en intégrant ρX,Y (x, y) par rapport à
y ∈ R. On trouve ρX (x) = 1]0,1[ (x) et donc pour x ∈]0, 1[
1
ρY |X (y|x) = 1]0,x[ (y).
x
On trouve ψ(X) = E(Y |X = x) = (x/2) et donc E(Y |X) = ψ(X) = X/2.

On a encore le théorème important suivant

Théorème 5.3.1
E(E(Y |X)) = E(Y ).
Démonstration.— Notons ψ(x) = E(Y |X = x). Comme par définition
E(Y |X) = ψ(X), la formule de transfert donne
Z
E(E(Y |X)) = E(ψ(X)) = ψ(x)ρX (x)dx
R
Z Z 
= yρY |X (x, y)dy ρX (x)dx
R R
Z Z 
ρX,Y (x, y)
= y dy ρX (x)dx
R R ρX (x)
et comme d’après le théorème de Fubini on peut intervertir l’ordre d’intégration :
Z Z 
ρX,Y (x, y)
E(E(Y |X)) = ρX (x)dx ydy
R R ρX (x)
Z
= ρY (y)ydy
R
= E(Y ).

2
Exercice : Démontrer que E(Y g(X)|X) = g(X)E(Y |X).
On a l’analogue suivant du théorème de transfert que nous donnons sans
démonstration (comparer avec la définition 5.3.2) :

Théorème 5.3.2 Si Z = f (X, Y ) on a E(f (X, Y )|X) = ψ(X) où


Z
ψ(x) = f (x, y)ρY |X (y|x)dy.
R
5.4. INDÉPENDANCE 93

Remarque : L’espérance conditionnelle E(Y |X) est linéaire par rapport à


Y.
Exercice : Démontrer que si on prend l’énoncé du théorème précédent
comme définition de E(f (X, Y )|X) on a bien E(f (X, Y )) = E(E(f (X, Y )|Y )).

5.4 Indépendance
Considérons à présent le cas où les v.a X et Y sont indépendantes. Dans
ce cas on sait que
pX,Y (x, y) = pX (x)pY (y),
dans le cas discret et
ρX,Y (x, y) = ρX (x)ρY (y)
dans le cas continu. Par conséquent

pY |X (y|x) = pY (y)

dans le cas discret et


ρY |X (y|x) = ρY (y)
dans le cas continu. On a donc dans les deux cas

Proposition 5.4.1 Si X et Y sont indépendantes

E(Y |X) = E(Y )

ou en d’autres termes, la variable aléatoire E(Y |X) est constante.


Dans la pratique on a souvent à calculer des espérances de v.a de la forme
Z = f (X, Y ) où X et Y sont des v.a indépendantes. Il est souvent utile pour
cela de conditionner Z par rapport à une des variables (disons X) c’est-à-dire
de faire le calcul en deux étapes :
i) On introduit la v.a E(Z|X) = E(f (X, Y )|X) ;
ii) On utilise ensuite la relation E(Z) = E(E(Z|X)).
Pour l’étape i) on dispose de la proposition suivante :

Proposition 5.4.2 Soient X et Y deux v.a indépendantes. Notons pour x ∈


R, Yx la variable aléatoire Yx = f (x, Y ) (c’est-à-dire l’application de Ω → R
telle que Yx (ω) = f (x, Y (ω))) et soit F : R → R l’application définie par
F (x) = E(Yx ) (F (x) = E(f (x, Y ))). On a

E(f (X, Y )|X) = F (X).


94 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE

Démonstration.—
Nous faisons la démonstration dans le cas de v.a admettant des densités
(le cas discret se traite de la même façon). Notons Z = f (X, Y ). On a d’après
le théorème 5.3.2
E(Z|X) = ψ(X)
où
Z
ψ(x) = f (x, y)ρY |X (y|x)dy
ZR
= f (x, y)ρY (y)dy
R
= E(Yx )
= F (x).

On a donc bien la conclusion.


2
Exercice : Soient N, X1 , . . . , Xn , . . . une famille indépendante de v.a de
même loi, intégrables et à valeurs dans N∗ . Soit S la v.a
X
S= Xi .
1≤i≤N

Calculer E(S).
Solution : On calcule d’abord E(S|N) et pour cela on évalue ψ(n) = E(S|N =
n).
X
E(S|N = n) = E(Xi |N = n)
1≤i≤n
X
= E(Xi ) = nE(X1 ).
1≤i≤n

On a donc E(S|N) = E(X1 ) · N. On utilise ensuite la formule E(S) =


E(E(S|N)) et on trouve E(S) = E(X1 )E(N).