Vous êtes sur la page 1sur 83

Probabilités.

Notes de cours
Année 20222023

Master Actuariat et ingénierie mathématique en assurance et nance


Master Mathématiques et Applications
1ère année

Cours : P. Calka
Travaux dirigés : J.-Y. Brua, M. El Machkouri
Bibliographie

Livres en français (cours et exercices)

Probabilité, P. Barbé et M. Ledoux, EDP Sciences

Probabilités niveau M1, M. Brancovan et T. Jeulin, Ellipses

Exercices de probabilités, M. Cottrell, V. Genon-Catalot, C. Duhamel et T. Meyre, Cassini

Introduction au calcul des probabilités et à la statistique, J.-F. Delmas, Les Presses de

l'ENSTA

Calcul des probabilités : cours, exercices et problèmes corrigés, D. Foata et A. Fuchs,

Dunod

L'essentiel en théorie des probabilités, J. Jacod et P. Protter, Cassini

Probabilités, D. Revuz, Hermann

Livres en anglais

Probability and measure, P. Billingsley, Wiley Series in Probability and Statistics

Probability, L. Breiman, Siam, Classics in Applied Mathematics

A course in probability theory, K. L. Chung, Harcourt, New York

Probability : theory and examples, R. Durrett, Cambridge Series in Statistical and Pro-

babilistic Mathematics
Table des matières

Rappels d'intégration et de théorie de la mesure 5

1 Bases des probabilités : rappels et compléments 9


1.1 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Caractérisation de lois : fonction de répartition, fonction caractéristique . . . . . 15
1.5 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2 Suites et séries de variables aléatoires réelles. Loi des grands nombres 27


2.1 Lemme de Borel-Cantelli. Loi du zéro-un . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Diérentes notions de convergence de suites . . . . . . . . . . . . . . . . . . . . . 31
2.3 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Convergence en loi. Théorème central limite 39


3.1 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Théorème de Lévy et théorème central limite . . . . . . . . . . . . . . . . . . . . 46

4 Espérance conditionnelle 53
4.1 Dénition de l'espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Propriétés de l'espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 59

5 Vecteurs gaussiens 63
5.1 Dénition et fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Indépendance et espérances conditionnelles . . . . . . . . . . . . . . . . . . . . . 68

Annexe 1 : tableaux récapitulatifs des lois classiques 71

Annexe 2 : annales de 20212022 77

3
4
Rappels d'intégration et de théorie de
la mesure

An de simplier l'exposition, on adopte dès maintenant les notations classiquement utilisées
en théorie des probabilités pour les espaces mesurés. On rappelle ici les résultats principaux qui
permettent de dénir et manipuler l'intégrale de Lebesgue. Les énoncés ne sont pas nécessai-
rement formulés de manière optimale. On conclut par les notions de π -systèmes et λ-systèmes
qui, bien que moins essentielles, peuvent intervenir dans certaines démonstrations des chapitres
suivants.

Dénition 0.1 (tribu, tribu engendrée) Soit Ω un ensemble non vide. Une tribu (ou σ-
algèbre) F sur Ω est un ensemble de parties de Ω (c'est-à-dire F ⊂ P(Ω)) vériant :
(i) ∅ ∈ F ;
(ii) si A ∈ F , alors A ∈ F ;
c

(iii) si (A ) est une famille dénombrable d'éléments de F , alors [ A ∈ F .


i i∈N i

On dit alors que le couple (Ω, F) est un espace mesurable. i∈N

Si C ⊂ P(Ω), alors la plus petite tribu contenant C est appelée tribu engendrée par C et notée
σ(C).

Dénition 0.2 (mesure) Soit (Ω, F) un espace mesurable. Une mesure µ sur (Ω, F) est une
application dénie sur F et à valeurs dans [0, +∞] telle que
(i) µ(∅) = 0 ;
(ii) si (A ) ! est une famille dénombrable d'éléments de F deux à deux disjoints, alors
i i∈N

µ(A ) ;
[ X
µ A = i i

On dit alors que le triplet (Ω, F, µ) est un espace mesuré.


i∈N i∈N

Dénition 0.3 (fonction mesurable) Soient (Ω, F) et (E, E) deux espaces mesurables. Une
application f : Ω −→ E est dite mesurable si pour tout A ∈ E , f (A) ∈ F .
−1

Remarque. Lorsque E est un espace topologique (par exemple, R, C, Rn , etc), si on ne précise


pas la tribu associée, on le munit par défaut de la tribu borélienne B(E), c'est-à-dire engendrée
par les ouverts de E . On rappelle en particulier que la tribu B(R) est engendrée par l'ensemble
des intervalles de la forme ]a, b[, a < b ∈ R et on peut remplacer dans l'énoncé précédent ]a, b[
par ]a, b], [a, b], ] − ∞, a], ] − ∞, a[...

5
Dénition 0.4 (intégrale d'une fonction mesurable à valeurs complexes) (i) Soit s :
Ω −→ [0, +∞[. s est dite fonction simple si elle est mesurable et prend un nombre ni de
valeurs positives. En particulier, s est une fonction simple si et seulement si elle s'écrit sous la
forme s = X α 1 , où N ∈ N , α , · · · , α ∈ R , A , · · · , A ∈ F . L'intégrale de s est alors
N

i Ai 1 N + 1 N

dénie comme suit :


i=1

Z N
déf X
s dµ = αi µ(Ai ).
i=1

(ii) Soit f : Ω −→ [0, +∞] une fonction mesurable positive. Alors l'intégrale de f est un nombre
dans [0, +∞] déni comme suit :
Z Z
déf
f dµ = sup{ s dµ : 0 ≤ s ≤ f, s simple}.
Z
(iii) Soit f : Ω −→ C une fonction mesurable à valeurs complexes. Alors si |f |dµ est ni, on
dit que f est intégrable et on dénit l'intégrale de f comme suit :
Z Z Z Z Z
déf
f dµ = max(Re(f ), 0)dµ− max(−Re(f ), 0)dµ+i max(Im(f ), 0)dµ−i max(−Im(f ), 0)dµ.

Théorème 0.5 (théorème de convergence monotone) Soit (f ) une suite croissante


de fonctions mesurables à valeurs dans [0, +∞]. Alors en notant f la limite simple de la suite,
n n∈N

on a Z Z
lim fn dµ = f dµ.
n→+∞

Lemme 0.6 (lemme de Fatou) Soit (f ) une suite de fonctions mesurables positives. Alors
n n∈N
Z Z
lim inf fn dµ ≤ lim inf fn dµ.
n→+∞ n→+∞

Théorème 0.7 (théorème de convergence dominée) Soit (f ) une suite de fonctions


mesurables à valeurs complexes. On suppose que les deux hypothèses ci-dessous sont satisfaites.
n n∈N

(H1) Il existe une fonction mesurable f telle que f (x) converge vers f (x) pour tout x ∈ Ω
sauf éventuellement sur un ensemble négligeable.
n

(H2) Il existe une fonction positive intégrable g telle que |f (x)| ≤ g(x) sauf éventuellement sur
un ensemble négligeable.
n

Alors Z Z
lim fn dµ = f dµ.
n→+∞
(
Théorème 0.8 (intégrales dépendant d'un paramètre) Soit f : I(t,×ω)Ω −→
7−→
R
f (t, ω)
une fonction de deux variables dénie sur I × Ω où I est un intervalle de R. On note
Z
F (t) = f (t, ω)dµ(ω), t ∈ I,

6
lorsque cette intégrale existe.
(a) Soit t ∈ I . On suppose que :
(i) pour tout t ∈ I , f (t, ·) : ω 7−→ f (t, ω) est intégrable sur Ω ;
0

(ii) pour presque-tout ω ∈ Ω, f (·, ω) : t 7−→ f (t, ω) est continue en t ;


(iii) il existe une fonction g : Ω −→ R intégrable sur Ω telle que |f (t, ω)| ≤ g(ω) pour tout
0

t ∈ I et presque-tout ω ∈ Ω.
+

Alors la fonction F est bien dénie sur I et continue en t . 0

(b) On suppose que :


(i) pour tout t ∈ I , f (t, ·) : ω 7−→ f (t, ω) est intégrable sur Ω ;
(ii) pour presque-tout ω ∈ Ω, f (·, ω) : t 7−→ f (t, ω) est de classe C sur I (c'est-à-dire, sa
1

dérivée ∂f∂t (·, ω) existe et est continue par rapport à t);


(iii) il existe une fonction g : Ω −→ R intégrable sur Ω telle que ∂t (t, ω) ≤ g(ω) pour
+
∂f

tout t ∈ I et presque-tout ω ∈ Ω.
Alors la fonction F est bien dénie sur I , de classe C sur I et pour tout t ∈ I ,
1

Z
0 ∂f
F (t) = (t, ω)dµ(ω).
Ω ∂t

Dénition 0.9 (π -système) Soit (Ω, F) un espace mesurable. On appelle π-système tout en-
semble de parties de Ω non vide et stable par intersection nie, c'est-à-dire C ⊂ P(Ω) est un
π -système si
(i) C 6= ∅ ;
(ii) pour tous A, B ∈ C, A ∩ B ∈ C.
Dénition 0.10 ( -système)
λ Soit (Ω, F) un espace mesurable. L'ensemble D de parties de Ω
est dit λ-système (ou système de Dynkin) si
(i) Ω ∈ D ;
(ii) pour tous A, B ∈ D avec A ⊂ B, B \ A ∈ D ;
(iii) pour toute famille (A ) dénombrable croissante d'éléments de D, [ A ∈ D.
i i∈N i

Le plus petit λ-système contenant une partie de P(Ω) donnée est appelé λ-système engendré par
i∈N

cette partie.
Théorème 0.11 (théorème π λ Le λ-système engendré par un π -système est aussi la σ -
- )
algèbre engendré par ce π-système.

7
8
Chapitre 1

Bases des probabilités : rappels et


compléments

La théorie des probabilités est une branche des mathématiques qui consiste à étudier des
phénomènes où intervient le hasard. On pense naturellement aux jeux de hasard mais les phé-
nomènes aléatoires se rencontrent aussi et surtout en sciences expérimentales lorsqu'on fait des
observations à un niveau microscopique (l'agitation de molécules de gaz qui produit la tempé-
rature, la séquence d'un brin d'ADN d'un individu) ou qu'on souhaite modéliser l'imprécision
et le bruitage des mesures (par exemple en télécommunications). Plus étonnamment, les proba-
bilités interviennent aussi dans des domaines où il n'y a pas d'aléatoire, par exemple en théorie
des nombres (théorème des nombres premiers) ou en analyse fonctionnelle (théorème de Stone-
Weierstrass).
La théorie des probabilités telle qu'on la connaît aujourd'hui repose principalement sur l'axio-
matisation introduite par A. N. Kolmogorov en 1933. Elle s'appuie sur la théorie de la mesure
et de l'intégrale de Lebesgue.

1.1 Espace probabilisé


Dénition 1.1 (mesure de probabilité, espace probabilisé) Soit (Ω, F) un espace mesu-
rable. Une mesure de probabilité P sur (Ω, F) est une application dénie sur F et à valeurs dans
[0, 1] telle que
(i) P(∅) = 0 ;
(ii) si (A ) ! est une famille dénombrable d'éléments de F deux à deux disjoints, alors
i i∈N

P(A ) ;
[ X
P A =
i i

(iii) P(Ω) = 1.
i∈N i∈N

On dit alors que le triplet (Ω, F, P) est un espace probabilisé ou espace de probabilité. L'ensemble
Ω est appelé univers et les éléments de la tribu F sont appelés événements.

Remarque. Lorsqu'on réalise une expérience aléatoire (lancer de pièce, attente d'un bus, relevé
du cours d'une action en bourse, etc), le vocabulaire introduit ci-dessus peut être interprété de la

9
manière suivante : l'univers contient l'ensemble de tous les résultats possibles de l'expérience. Un
élément ω de Ω est appelé aléa événement élémentaire
ou . Unévénement est une propriété dont
on peut dire si elle est vraie ou non après réalisation de l'expérience aléatoire. Laprobabilité d'un
événement est le degré de vraisemblance qu'on accorde a priori à l'événement avant de réaliser
l'expérience.
Remarque. On peut réaliser l'univers Ω, c'est-à-dire expliciter l'ensemble des événements élé-
mentaires. Par exemple, lorsque l'expérience est un lancer de pièce (resp. le lancer simultané
d'un dé rouge et d'un dé jaune), on peut prendre Ω = {F, P } (resp. Ω = {1, · · · , 6}2 ). Il y a
aussi de nombreux cas où la réalisation de Ω est dicile. En probabilités, on arrive bien souvent
à se passer d'une dénition précise de Ω et à le manipuler comme un ensemble abstrait contenant
tous les aléas.

1.2 Indépendance
Dénition 1.2 (probabilité conditionnelle, indépendance d'événements) Soient A, B deux
événements. (a) On suppose que P(B) 6= 0. On appelle probabilité conditionnelle de A sachant
B la quantité
P(A ∩ B)
P(A|B) = .
P(B)
(b) A et B sont dits indépendants si
P(A ∩ B) = P(A)P(B). (1.1)

Dénition 1.3 (indépendance de deux ensembles d'événements) Soient deux sous-ensembles


G et H de F . G et H sont dits indépendants si pour tout A ∈ G , B ∈ H, l'égalité (1.1) est sa-
tisfaite.
Proposition 1.4 (indépendance de deux π Soient C, C deux π-systèmes. Si C
-systèmes)
0

et C sont indépendants, alors il en est de même pour σ(C) et σ(C ).


0 0

Démonstration. Etape 1. On xe A ∈ C et on considère


0 0

D = {A ∈ F : P(A ∩ A0 ) = P(A)P(A0 )}.

• On montre que D est un λ-système : il contient Ω, si A, B ∈ D avec A ⊂ B , alors B \ A ∈ D


car

P((B \ A) ∩ A0 ) = P(B ∩ A0 ) − P(A ∩ A0 ) = (P(B) − P(A))P(A0 ) = P(B \ A)P(A0 ).

Enn si (Ai )i∈N est une suite croissante d'éléments de D, alors en passant à la limite lorsque i tend
vers l'inni dans l'égalité P(Ai ∩A0 ) = P(Ai )P(A0 ), on obtient que ∪i∈N Ai est aussi élément de D.

• On sait que D contient le π -système C donc d'après le théorème π -λ, on en déduit que D
contient la σ -algèbre engendrée par C . En conclusion de cette étape, on vient de montrer que

P(A ∩ A0 ) = P(A)P(A0 ) pour tous A ∈ σ(C), A0 ∈ C 0 .

10
Etape 2. On xe A ∈ σ(C) et on considère
D0 = {A0 ∈ F : P(A ∩ A0 ) = P(A)P(A0 )}.

On montre de même que D0 est un λ-système qui contient C 0 donc contient σ(C 0 ). En conséquence,
on obtient bien que

P(A ∩ A0 ) = P(A)P(A0 ) pour tous A ∈ σ(C), A0 ∈ σ(C 0 ).2

Exemple. Si A et B sont deux événements indépendants, alors Ac et B (resp. A et B c , Ac et


B c ) sont aussi indépendants (appliquer la proposition précédente à C = {A} et C 0 = {B}).

Dénition 1.5 (mutuelle indépendance d'une famille quelconque) Soit (A )


(resp. (G ) ) une famille quelconque d'événements (resp. de sous-ensembles de F ) indexée par
i i∈I

un ensemble I non vide. Les A (resp. G ), i ∈ I , sont dits mutuellement indépendants si pour
i i∈I

tout Ini ⊂ I , Ini ni, on a


i i

 
\ Y
P Ai  = P(Ai ) (1.2)
i∈Ini i∈Ini

(resp. l'égalité (1.2) est satisfaite pour toute collection de A ∈ G , i ∈ Ini). i i

Remarque. Attention, la mutuelle indépendance n'est pas impliquée par l'indépendance deux
à deux. On rappelle l'exemple élémentaire suivant : après réalisation d'une expérience aléatoire
consistant à lancer deux fois successivement une pièce équilibrée, on considère les événements
A1 , A2 et A3 correspondant respectivement à le premier lancer a donné Pile, le second lancer
a donné Pile et les deux lancers ont donné deux résultats diérents. On constate alors que A1
et A2 , A1 et A3 , A2 et A3 sont indépendants mais que A1 , A2 et A3 ne sont pas mutuellement
indépendants car P(A1 ∩ A3 ∩ A3 ) = 0 6= P(A1 )P(A2 )P(A3 ).

Proposition 1.6 (mutuelle indépendance de Soit (C ) une famille quel-


π -systèmes)
conque de π-systèmes mutuellement indépendants indexée par un ensemble I non vide. Alors
i i∈I

les σ-algèbres engendrées, σ(C ), i ∈ I , sont aussi mutuellement indépendantes.


i

Démonstration. La démonstration de la proposition 1.4 se généralise à la mutuelle indépen-


dance d'un nombre ni de π -systèmes. Pour une famille quelconque de π -systèmes Ci , i ∈ I , on
montre alors que toute sous-famille nie des σ -algèbres engendrées σ(Ci ), i ∈ I , a la propriété
de mutuelle indépendance, ce qui montre le résultat souhaité.2

Proposition 1.7 (propriété des Soit (C ) une famille de π-systèmes mutuel-


coalitions )
lement indépendants. On considère la partition suivante de I :
i i∈I

I , avec I ∩ I = ∅ si j 6= k ∈ J.
[
(j) (j) (k)
I=
j∈J

On note enn G j = σ(
[
Ci ) pour tout j ∈ J . Alors les tribus G , j ∈ J , sont indépendantes.
j
i∈I (j)

11
Démonstration. Considérons pour tout j ∈ J l'ensemble
 

 \ 

b (j) (j)
Cj = Ai : Ini ⊂ I ni, Ai ∈ Ci ∀ i ∈ Ini .
(j)

 (j) 

i∈Ini

On remarque que Cbj est un π -système qui engendre Gj . De plus, la famille de tous les Cbj , j ∈ J ,
est constituée de π -systèmes mutuellement indépendants. D'après la proposition 1.6, on en dé-
duit alors que les σ -algèbres engendrées sont également mutuellement indépendantes.2

Exemple. Si trois événements A1 , A2 , A3 sont mutuellement indépendants, alors A1 est in-


dépendant de A2 ∪ A3 (appliquer la proposition précédente à Ci = {Ai } pour 1 ≤ i ≤ 3, ainsi
qu'à la partition I = I (1) ∪ I (2) avec I (1) = {1} et I (2) = {2, 3}).

Remarque. Cette propriété est en particulier vraie si les Ci sont déjà des sous-tribus de F .
Ceci pourra être utile lorsque l'on étudiera la mutuelle indépendance des variables aléatoires.

1.3 Variables aléatoires réelles


Dénition 1.8 (variable aléatoire réelle) Soit X : Ω −→ R une application. X est dite
variable aléatoire si X est mesurable (lorsque R est muni de la tribu borélienne), c'est-à-dire
noté
X −1 (A) = {X ∈ A} ∈ F, ∀ A ∈ B(R).

Remarque 1. X représente le résultat numérique obtenu lors d'une expérience aléatoire (résul-
tat d'un lancer de dé, d'un chronomètre à l'issué d'un 100 m, du relevé des précipitations à la
n d'une journée, etc). On demande de pouvoir connaître la valeur de la variable en n'utilisant
que l'information autorisée (c'est-à-dire l'ensemble des événements).

Remarque 2. Compte tenu des ensembles générateurs de B(R) connus, on a notamment les
équivalences

(X est une variable aléatoire) ⇐⇒ {X ≤ a} ∈ F, ∀ a ∈ R


⇐⇒ {X ≥ a} ∈ F, ∀ a ∈ R
⇐⇒ {X ∈ [a, b]} ∈ F, ∀ a ≤ b ∈ R.

La connaissance de la variable X fournit une partie de l'information (c'est-à-dire l'ensemble des


événements dont on peut décider s'ils se sont réalisés ou non en connaissant seulement la valeur
de X ). On appelle cette information partielle la tribu engendrée par X .

Dénition 1.9 (tribu engendrée par une variable) Soit X une variable aléatoire réelle. La
tribu engendrée par X , notée σ(X), est la plus petite tribu qui rend mesurable l'application X ,
c'est-à-dire
σ(X) = σ({{X ∈ A} : A ∈ B(R)}) = {{X ∈ A} : A ∈ B(R)}. (1.3)

12
Démonstration de (1.3). Il faut vérier que G = {X −1 (A) = {X ∈ A} : A ∈ B(R)} forme
bien une tribu. On constate que G contient Ω (Ω = X −1 (R)), est stable par passage au complé-
mentaire (Ω \ X −1 (A) = X −1 (R \ A) pour tout A ∈ B(R)) et par passage à l'union dénombrable
(∪i∈N X −1 (Ai ) = X −1 (∪i∈N Ai ) pour toute suite (Ai )i∈N ∈ B(R)N ).2
Dénition 1.10 (loi d'une variable) Soit X une variable aléatoire réelle. La loi de probabilité
notée P de X est une mesure de probabilité sur B(R) dénie comme la mesure-image de P par
X , c'est-à-dire
X

PX (A) = P(X −1 (A)) = P(X ∈ A), ∀ A ∈ B(R).


Remarque. Appliquons le théorème de Radon-Nikodym et le résultat de décomposition de
Lebesgue : en tant que mesure de probabilité sur l'ensemble des boréliens de R (en particulier
σ -nie), PX peut se décomposer de manière unique comme suit :

P X = µe + µc


- µe est une mesure étrangère à la mesure de Lebesgue λ sur R, c'est-à-dire qu'il existe deux
boréliens A et B vériant A ∩ B = ∅ et A ∪ B = R et tels que µe (A) = 0 et λ(B) = 0 ;
- µc est une mesure absolument continue par rapport à la mesure de Lebesgue λ, c'est-à-dire
que pour tout A ∈ B(R) tel que λ(A) = 0, on a µc (A) = 0.
Partie absolument continue µc : le théorème de Radon-Nikodym montre alors qu'il existe une
fonction mesurable positive fX unique à un ensemble presque-partout près (dite dérivée de
Radon-Nikodym de µC par rapport à λ) telle que
Z
µc (A) = fX (x)dx.
A
On peut aussi noter dµc (x) = fX (x)dx.

Partie étrangère µ e : elle peut à nouveau se décomposer en deux comme suit :

µ e = µd + µs


- µd est une mesure discrète, c'est-à-dire qu'il existe un sous-ensemble D dénombrable de
R tel que µd (R \ D) = 0 ;
- µs est une mesure singulière (c'est-à-dire étrangère à λ) et diuse, c'est-à-dire que µs ({a}) =
0 pour tout a ∈ R. On parle aussi de mesure sans atome.
Il est extrêmement rare de rencontrer des mesures singulières et diuses. Un exemple délicat est
la mesure dont la fonction de répartition (voir section suivante) est ce que l'on appelle l'escalier
de Cantor. Dans la plupart des cas rencontrés en théorie des probabilités, la loi de probabilité
d'une variable aléatoire réelle n'a que deux parties, une à densité et l'autre discrète.
Dénition 1.11 (variable réelle discrète) Une variable aléatoire réelle discrète X est une
variable dont la loi de probabilité P n'a qu'une partie discrète, c'est-à-dire telle qu'il existe un
sous-ensemble dénombrable D de R vériant P (D) = 1 (on dit aussi que le support de X est
X

dénombrable).
X

13
Remarque. En notant D = {ai : i ∈ N} et pi = PX ({ai }) pour tout i ∈ N, la mesure PX s'écrit
X
alors comme combinaison linéaire de mesures de Dirac : PX = pi δai . En particulier, pour
i∈N
tout A ∈ B(R), on a
X
PX (A) = pi 1A (ai ).
i∈N
On rappelle que le support de la mesure PX est l'intersection de tous les fermés A de R tels
que PX (A) = 1. Dans le cas présent, le support de PX est l'ensemble de tous les ai tels que pi 6= 0.

Exemples. Les lois discrètes classiques sont la loi de Dirac en un point (de support un sin-
gleton), la loi de Bernoulli (de support {0, 1}), la loi binomiable (de support {0, · · · , n}, n ∈ N
xé), la loi géométrique (de support N∗ ), la loi de Poisson (de support N), la loi hypergéomé-
trique, la loi binomiale négative... Le lecteur est invité à se reporter au tableau récapitulatif des
lois en n de polycopié.
Dénition 1.12 (variable réelle à densité) Une variable aléatoire réelle à densité est une
variable dont la loi de probabilité P n'a qu'une partie absolument continue, c'est-à-dire telle qu'il
existe une fonction intégrable positive f , d'intégrale 1 sur R, unique à un ensemble négligeable
X

près, telle que dP = f (x)dx, soit Z


X

X X

PX (A) = fX (x)dx, ∀ A ∈ B(R).


A
Remarque. Le support d'une loi de probabilité PX de densité fX est le support de la fonction
fX , c'est-à-dire l'adhérence de l'ensemble {x ∈ R : fX (x) 6= 0}.

Exemples. Les lois à densité classiques sont la loi uniforme sur un intervalle ]a, b[, a < b
(de support [a, b]), la loi exponentielle (de support R+ ), la loi gaussienne ou normale (de sup-
port R), les lois de Cauchy, Gamma, de Student, du χ2 ... Le lecteur est invité à se reporter au
tableau récapitulatif des lois en n de polycopié.

Remarque. Attention, il existe des variables qui ne sont ni discrètes, ni continues. Par exemple,
supposons que le nombre de personnes présentes devant moi à un guichet lorsque j'arrive suit
une loi de Poisson et que le temps de service pour chaque personne suit une loi exponentielle
(les variables étant mutuellement indépendantes). Notons X le temps que je dois attendre avant
de commencer à être servi. Cette variable a une loi de probabilité qui n'est ni discrète, ni à
densité : elle a deux parties et son support est [0, +∞[. La partie discrète comprend uniquement
une mesure de Dirac en zéro (avec un certain coecient multiplicatif p dans ]0, 1[), la partie
continue possède une densité fX dont l'intégrale sur R est égale à (1 − p). En eet, la probabilité
p que X soit nul est égale à la probabilité que la loi de Poisson soit nulle, donc est non nulle.
De plus, on peut calculer directement la densité de X sur l'intervalle ]0, +∞[ en décomposant
suivant la valeur de la loi de Poisson dans N∗ .
Dénition 1.13 (variables identiques en loi) Deux variables réelles X et Y sont dites iden-
tiques en loi ou identiquement distribuées si leurs lois de probabilités sont égales, c'est-à-dire
P = P . On note alors X = Y .
loi
X Y

14
Remarque. Attention, deux variables peuvent être identiques en loi sans être égales. Par
loi
exemple, si X suit une loi gaussienne de moyenne nulle, alors X = −X . Pour autant, P(X =
−X) = P(X = 0) = 0. Il en va de même pour X et (1 − X) si X suit une loi uniforme sur ]0, 1[.
Dénition 1.14 (espérance d'une
Z variable
Z réelle, moments d'ordre (a) Soit X une
k)
variable aléatoire réelle vériant |X|dP = |x|dPX (x) < +∞. Alors on appelle espérance de
X , le réel Z Z
E(X) = XdP = xdPX (x).
Ω R
Z Z
(b) Soit k ∈ N et soit X une variable aléatoire réelle vériant

|X| dP = |x|k dPX (x) < +∞
k
.
Alors on appelle moment d'ordre k de XZ, le réel Z
E(X k ) = X k dP = xk dPX (x).
Ω R
(c) Lorsque le moment d'ordre 2 existe, la variance de X est le réel positif
Var(X) = E[(X − E(X))2 ] = E(X 2 ) − [E(X)]2 .

Remarque. Lorsque X estZune variable aléatoire positive presque-sûrement, il arrive qu'on uti-
lise la notation E(X) pour XdP, même lorsque cette quantité n'est pas nie.

X
Exemples. Lorsque X est une variable discrète de support D = {ai : i ∈ N}, si P(X =
i∈N
ai )|ai |k < +∞ pour k ∈ N∗ , on a
Z Z X
E(X ) = X dP = xk dPX (x) =
k k
P(X = ai )aki .
i∈N
Z
Lorsque X est une variable de densité fX , si |x|k fX (x)dx < +∞ pour k ∈ N∗ , on a
Z Z Z
E(X ) =
k k
X dP = k
x dPX (x) = xk fX (x)dx.
Z
De même, pour toute fonction mesurable h : R −→ R telle que |h(X)|dP < +∞, on a
X
E(h(X)) = P(X = ai )h(ai ) si X discrète
i∈N
Z
E(h(X)) = h(x)fX (x)dx si X à densité.

1.4 Caractérisation de lois : fonction de répartition, fonction ca-


ractéristique
Lorsqu'on souhaite étudier une loi de probabilité sur R connue ou au contraire identier une
loi inconnue, deux fonctions (ou transformations) sont disponibles : la fonction de répartition et
la fonction caractéristique.

15
Dénition 1.15 (fonction de répartition) Soit X une variable aléatoire réelle. La fonction
de répartition de X est l'application
(
R −→ [0, 1]
FX :
t 7−→ P(X ≤ t)

Proposition 1.16 (caractérisation d'une loi par la fonction de répartition) La fonction


de répartition d'une variable aléatoire loiréelle caractérise sa loi, c'est-à-dire que si X et Y ont
même fonction de répartition, alors X = Y .
Démonstration. On considère l'ensemble

D = {A ∈ B(R) : PX (A) = PY (A)}.

Etape 1. On note que D est un λ-système : en eet, Ω ∈ D, si A ⊂ B sont dans D, alors B \A ∈ D


car
PX (B \ A) = PX (B) − PX (A) = PY (B) − PY (A) = PY (B \ A).

Enn, si (Ai )i∈N est une suite croissante d'éléments de D, alors ∪i∈N Ai ∈ D car
! !
[ [
PX Ai = lim PX (Ai ) = lim PY (Ai ) = PY Ai .
i→+∞ i→+∞
i∈N i∈N

Etape 2. D contient tous les intervalles ] − ∞, t], t ∈ R car


PX (] − ∞, t]) = FX (t) = FY (t) = PY (] − ∞, t]).

L'ensemble {] − ∞, t] : t ∈ R} est un π -système qui engendre la tribu borélienne de R. Donc par


le théorème π -λ, D = B(R). Ceci montre l'égalité des mesures PX et PY .2

Proposition 1.17 (propriétés de la fonction de répartition) La fonction de répartition F


de la variable aléatoire réelle X a les propriétés suivantes :
X

(1) F est une fonction croissante.


(2) F est càdlàg, c'est-à-dire continue à droite et limitée à gauche en tout point t de R.
X

(3) lim F (t) = 0 et lim F (t) = 1.


X

Réciproquement, toute fonction satisfaisant les trois conditions ci-dessus est la fonction de ré-
X X
t→−∞ t→+∞

partition d'une certaine variable aléatoire réelle.


Démonstration. La croissance de la fonction FX vient de la croissance de la mesure de proba-
bilité PX . En tant que fonction croissante, FX est limitée à gauche et à droite. Elle est de plus
continue à droite car si (tn )n∈N est une suite qui tend vers t ∈ R en décroissant, on a

lim FX (tn ) = lim PX (] − ∞, tn ]) = PX (∩n∈N ] − ∞, tn ]) = PX (] − ∞, t]) = FX (t).


n→+∞ n→+∞

La propriété utilisée ci-dessus est celle de la mesure d'une intersection dénombrable décroissante
d'ensembles.

16
Montrons enn que lim FX (t) = 1 (la limite en −∞ se traitant de manière analogue) :
t→+∞
pour toute suite (tn )n∈N qui croît vers +∞, on a

lim FX (tn ) = lim PX (] − ∞, tn ]) = PX (∪n∈N ] − ∞, tn ]) = PX (R) = 1.


n→+∞ n→+∞

On a utilisé ci-dessus la propriété de la mesure d'une union dénombrable croissante de boréliens.


2

Proposition 1.18 (points de discontinuité de la fonction de répartition) L'ensemble des


points de discontinuité de F est au plus dénombrable. De plus, pour tout t ∈ R, F est continue
en t si et seulement si P ({t}) = 0. Dans le cas général,
X X

PX ({t}) = FX (t) − FX (t− ), ∀ t ∈ R

où F −
X (t ) désigne la limite à gauche de F en t.
X

Démonstration. L'ensemble des points de discontinuité de la fonction FX croissante et càdlàg


est toujours au plus dénombrable : en eet, les intervalles ]FX (t− ), FX (t)[, pour les points t de
discontinuité de FX sont deux à deux disjoints et non vides. Par conséquent, on peut construire
une injection de l'ensemble des points de discontinuité vers l'ensemble des rationnels Q en choi-
sissant dans chacun de ces intervalles un rationnel (qui existe bien par densité de Q dans R).
Calculons à présent FX (t) − FX (t− ) pour un t ∈ R :
1
FX (t) − FX (t− ) = PX (] − ∞, t]) − lim PX (] − ∞, t − ])
n→+∞ n
1
= lim PX (]t − , t])
n→+∞ n
1
= PX (∩n∈N∗ ]t − , t]) = PX ({t}).
n
L'égalité ci-dessus montre directement l'équivalence souhaitée.2
On en déduit directement la caractérisation suivante des variables réelles discrètes.

Proposition 1.19 (fonction de répartition d'une variable discrète) Xest une variable
réelle discrète si et seulement si sa fonction de répartition F est constante par morceaux.
X est une variable réelle de loi diuse (c'est-à-dire ne chargeant pas de singleton) si F est
X

continue.
X

Dans le cas d'une variable à densité, il existe un lien entre fonction de répartition et densité.

Proposition 1.20 (fonction de répartition d'une variable à densité) Lorsque X est une
variable de densité f , sa fonction de répartition est dérivable presque-partout, de dérivée f .
X X

Remarque. La réciproque est fausse. En eet, on peut montrer que la fonction de répartition
FX est toujours dérivable presque-partout car il s'agit d'une fonction croissante. Pour autant, la
loi de X peut ne pas être à densité. Par exemple, si FX est le célèbre escalier de Cantor, alors
sa dérivée presque-partout est nulle mais la fonction nulle n'est évidemment pas la densité de la
loi.

17
Dénition 1.21 (fonction caractéristique d'une variable réelle) Soit X variable réelle.
Alors la fonction caractéristique de X (ou transformée de Fourier de la loi P ) est X

 R −→ C
Z
ϕX : 
 u 7−→ E e iuX
= eiux dPX (x)

Théorème 1.22 (caractérisation d'une loi par la fonction caractéristique) La fonction


caractéristique d'une variable aléatoire réelle caractérise sa loi, c'est-à-dire que si X et Y ont
même fonction caractéristique, alors X = Y .
loi

Démonstration. On se donne deux variables réelles X et Y telles que ϕX = ϕY et on considère


l'ensemble de fonctions
Z Z
E = {f : R −→ C mesurable et bornée : f dPX = f dPY }.

Notons que E est non vide (il contient les fonctions constantes) et par linéarité de l'espérance,
est un C-sous-espace vectoriel de l'ensemble des applications de R dans C.

Etape 1 : polynômes trigonométriques. Comme ϕ = ϕY , E contient toutes les fonctions du


X
type x −→ e , u ∈ R. Puisque E est un espace vectoriel, il contient toutes les combinaisons
iux

linéaires de fonctions exponentielles, c'est-à-dire tous les polynômes trigonométriques.

Etape 2 : fonctions continues à support compact. Soit f une fonction continue, prenant ses
valeurs dans [0, 1] et de support compact (c'est-à-dire telle qu'il existe N ∈ N avec f (x) = 0 si
|x| > N . Montrons que f est élément de E .
En eet, pour tout n > N , on considère la fonction fen périodique de période 2n et égale à f
sur l'intervalle [−n, n]. Soit ε > 0. D'après le théorème de Féjer, il existe un polynôme trigono-
ε
métrique Pε tel que sup |fen (x) − Pε (x)| ≤ min( , 1). Notons qu'en particulier, cela implique que
x∈R Z Z 4
sup |Pε (x)| ≤ 2. Puisque Pε dPX = Pε dPY d'après l'étape précédente, on obtient alors que
x∈R
Z Z Z Z
| f (x)dPX − f (x)dPY | = | (f (x) − Pε (x))dPx + (Pε (x) − f (x))dPY |
Z Z
≤ |f (x) − Pε (x)|dPX + |Pε (x) − f (x)|dPY . (1.4)

Montrons que chacun des deux termes ci-dessus est inférieur à ε/2 pour n assez grand. En eet,
Z Z n Z
|f (x) − Pε (x)|dPX ≤ e
sup |fn (x) − Pε (x)|dPX + sup |Pε (x)|dPX
−n x∈[−n,n] [−n,n]c x∈R
ε
≤ PX ([−n, n]) + 2PX ([−n, n]c ).
4
Il reste alors à remarquer que PX ([−n, n]) ≤ 1 et que lim PX ([−n, n]c ) = 0 (par utilisation de
n→+∞
ε
la mesure d'une intersection décroissante). Donc pour n assez grand, 2PX ([−n, n]c ) ≤ et
4
Z
ε
|f (x) − Pε (x)|dPX ≤ .
2

18
On
Z obtient doncZ en montrant de même pour le second
Z terme deZ(1.4) que pour tout ε > 0, on a
| f (x)dPX − f (x)dPY | ≤ ε, c'est-à-dire que f (x)dPX = f (x)PY .

Etape 3 : fonctions indicatrices de segments. Soient a < b deux réels. On considère (f ) n n∈N∗une
suite décroissante de fonctions continues à valeurs dans [0, 1] qui converge simplement vers 1[a,b] .
1 1
Pour ce faire, on construit pour tout n ∈ N∗ , la fonction fn nulle à l'extérieur de [a − , b + ],
n n
1 1
égale à 1 sur [a, b] et ane sur les intervalles [a − , a] et [b, b + ]. D'après l'étape précé-
Z Z n n
dente, fn dPX = fn dPY . En utilisant le théorème de convergence dominée, on en déduit
Z Z
que 1[a,b] dPX = 1[a,b] dPY .

Etape 4 : conclusion. L'étape précédente montre que P = PY ([a, b]) pour tous a < b ∈ R.
X ([a, b])
Il reste à remarquer que l'ensemble des boréliens sur lesquels les deux mesures PX et PY coïn-
cident forme un λ-système et qu'il contient l'ensemble des segments [a, b], a < b qui forme un
π -système engendrant B(R). Par le théorème π -λ, les deux mesures coïncident.2

Remarque. Une autre manière de montrer le résultat précédent consiste à établir une formule
explicite d'inversion : pour tous a < b ∈ R,
Z
1 T
e−iua − e−iub P(X = a) + P(X = b)
lim ϕX (u)du = P(X ∈]a, b[) + .
T →+∞ 2π −T iu 2

En particulier, lorsque ϕX est intégrable, on peut montrer que X admet une densité continue
fX qui est donnée par la formule suivante :
Z
1
fX (x) = ϕX (u)e−iux du, x ∈ R. (1.5)

Proposition 1.23 (propriétés de la fonction caractéristique) Soit X une variable aléa-


toire réeelle de fonction caractéristique ϕ .
(i) ϕ (0) = 1 et |ϕ (u)| ≤ 1 pour tout u ∈ R ;
X

(ii) ϕ est uniformément continue sur R ;


X X

(iii) ϕ est réelle (et paire) si et seulement si X a même loi que −X .


X

Démonstration. (i) ϕX (0) = E(1) = 1 et si u ∈ R, par inégalité triangulaire,

|ϕX (u)| ≤ E(|eiuX |) = E(1) = 1.

(ii) Soient u, h ∈ R.

|ϕX (u + h) − ϕX (u)| = |E(eiuX (eihX − 1))| ≤ E(|eihX − 1|).

Il reste à montrer que E(|eihX − 1|) tend vers 0 lorsque h tend vers zéro : ceci est vrai par
application du théorème de convergence dominée. En eet, |eihX − 1| converge presque-sûrement
vers 0 quand h tend vers 0 et est dominé par 2 qui est intégrable. En conclusion, ϕX est bien

19
uniformément continue sur R.

(iii) On raisonne par équivalence :


loi
X = −X ⇐⇒ ϕX (u) = ϕ−X (u), ∀ u ∈ R
⇐⇒ E(eiuX ) = E(e−iuX ), ∀ u ∈ R
⇐⇒ ϕX (u) = ϕX (−u) = ϕX (u), ∀ u ∈ R
⇐⇒ ϕX est réelle et paire.2

Proposition 1.24 (dérivation de la fonction caractéristique) Soit k ∈ N . Si X admet


un moment d'ordre k ni, alors ϕ X est de classe C sur R et pour tout x ∈ R, ϕ (u) =
k (k)
X
ik E(X k eiuX ).

Démonstration. On applique le théorème de dérivation des intégrales dépendant d'un para-


mètre : pour tout ω ∈ Ω, la fonction u 7−→ eiuX(ω) est de classe C ∞ sur R2 et sa dérivée d'ordre
p ≤ k est u 7−→ (iX(ω))p eiuX(ω) . Il reste à noter que |(iX)p eiuX | ≤ |X|p avec |X|p variable ne
dépendant plus de u et intégrable.2

Remarque. La réciproque est fausse en général (on peut construire une variable de fonction
caractéristique de classe C 1 mais dont l'espérance est innie). Elle est cependant vraie pour tous
les moments d'ordre pair.

Exemple 1. Fonction caractéristique de la loi gaussienne N (0, 1) : soit X de loi normale centrée
réduite. On a pour tout u ∈ R,
Z +∞ x2 dx
ϕX (u) = eiux− 2 √ .
−∞ 2π
x2
Considérons g(u, x) = eiux− 2 pour tous u, x ∈ R2 . g est une fonction de classe C ∞ sur R2 . De
∂g x2 ∂g x2 x2
plus, pour tous x, u ∈ R, (u, x) = ixeiux− 2 et (u, x) ≤ xe− 2 . La fonction x 7−→ xe− 2
∂u ∂u
est intégrable sur R et ne dépend pas de u donc d'après le théorème de dérivation des intégrales
dépendant d'un paramètre, ϕX est de classe C 1 sur R et pour tout u ∈ R,
Z +∞
x2 dx
0
ϕX (u) = ixeiux− 2 √
−∞ 2π
 +∞ Z +∞
IPP i iux− x 2 x2 dx
= −√ e 2 −u eiux− 2 √
2π −∞ −∞ 2π
= −uϕX (u).

Ainsi, ϕX est solution de l'équation diérentielle linéaire du premier ordre sans second membre
u2
y 0 = −uy qui a pour solution y(u) = Ce− 2 , u ∈ R. En notant que ϕX (0) = 1, on obtient
u2
ϕX (u) = e− 2 pour tout u ∈ R. On déduit la fonction caractéristique d'une variable Y de loi
gaussienne de moyenne m ∈ R et variance σ 2 > 0 en notant que Y et σX + m ont même loi.

20
Exemple 2. Fonction caractéristique de la loi de Cauchy de paramètre 1 : on considère X
de loi de Cauchy de paramètre 1. Alors pour tout u ∈ R,
Z +∞ iux
e dx
ϕX (u) = 2
. (1.6)
−∞ 1 + x π

Cette intégrale pourrait être calculée par la formule des résidus. Une autre astuce consiste
à utiliser la formule d'inversion (1.5) avec une densité bien choisie. Considérons en eet Y
1
une variable de densité fY (x) = e−|x| pout tout x ∈ R (on parle alors de loi exponentielle
2
symétrisée). On constate que pour tout u ∈ R,
Z Z  
1 +∞ (iu−1)x 1 0 (iu+1)x 1 1 1 1
ϕY (u) = e dx + e dx = − = .
2 0 2 −∞ 2 iu − 1 iu + 1 1 + u2
La fonction obtenue est intégrable donc par la formule d'inversion (1.5), on a pour tout x ∈ R,
Z +∞ −iux
1 −|x| 1 e
fY (x) = e = du.
2 2π −∞ 1 + u2

En comparant à (1.6) et en appliquant la formule précédente à −x, on obtient que ϕX (u) = e−|u|
pour tout u ∈ R.

Remarque. Dans le cas où la variable X est positive (par exemple de loi exponentielle ou
Gamma), on peut remplacer la notion de fonction caractéristique par la transformée de Laplace
LX (u) = E(e−uX ) pour tout u ≥ 0. Dans le cas où la variable X prend ses valeurs dans N
(par exemple de loi binomiale ou de Poisson), on peut utiliser la notion équivalente de fonction
génératrice GX (s) = E(sX ), s ∈ [−1, 1].

1.5 Vecteurs aléatoires


Lors d'une expérience aléatoire, on se retrouve bien souvent contraint de relever plusieurs
données numériques qu'il faut étudier conjointement (taille et poids d'un individu, taux de
globules lors d'une analyse sanguine, etc). On est donc amené à considérer des variables aléatoires
à valeurs dans des espaces plus généraux que l'ensemble des réels.

Dénition 1.25 (variable aléatoire à valeurs dans un espace mesurable, vecteur aléatoire)
(a) Soit (E, A) un espace mesurable. On considère une application X : (Ω, F) −→ (E, A). X est
dite variable aléatoire à valeurs dans E si elle est mesurable.
(b) En particulier, lorsque (E, A) = (R , B(R )), n ≥ 2, X est dit vecteur aléatoire.
n n

Dénition 1.26 (tribu engendrée par un vecteur) Soient n ≥ 2 et X = (X , · · · , X ) :


Ω −→ R un vecteur aléatoire. La tribu engendrée par X , notée σ(X), est la plus petite tribu
1 n
n

qui rend mesurable l'application X (ou de manière équivalente toutes ses coordonnées), c'est-à-
dire
σ(X) = σ({{X ∈ A} : A ∈ B(Rn )}) = σ{{Xi ∈ A} : 1 ≤ i ≤ n, A ∈ B(R)}.

21
Remarque. Il n'y a pas de manière simple d'expliciter tous les éléments de la tribu engendrée
par un vecteur aléatoire (X1 , · · · , Xn ) en fonction des événements du type {Xi ∈ Ai }, 1 ≤ i ≤ n,
Ai ∈ B(R).

Dénition 1.27 (loi d'un vecteur, lois marginales) Soient n ≥ 2 et X = (X , · · · , X ) :


Ω −→ R un vecteur aléatoire. La loi de probabilité notée P de X est une mesure de probabilité
1 n
n

sur B(R ) dénie comme la mesure-image de P par X , c'est-à-dire


X
n

PX (A) = P(X −1 (A)) = P(X ∈ A), ∀ A ∈ B(Rn ).

Les lois marginales de X sont les lois de probabilité des variables aléatoires réelles X , · · · , X
(c'est-à-dire les projections de X sur les n coordonnées successives de R ).
1 n
n

Remarque. Attention, l'égalité en loi des marginales n'implique pas nécessairement l'égalité en
loi des vecteurs. Par exemple, si X et Y sont deux variables uniformes sur ]0, 1[, les vecteurs
(X, Y ) et (X, X) ont mêmes marginales. Pourtant, ils n'ont pas même loi de vecteur car par
exemple, la loi de (X, X) ne charge que la bissectrice (y = x) dans R2 tandis que le couple
(X, Y ) est sur cette bissectrice avec probabilité nulle.

Dénition 1.28 (espérance, matrice de covariance, fonction caractéristique) Soient n ≥


2 et X = (X , · · · , X ) : Ω −→ R un vecteur aléatoire.
n

(a) Si X , · · · , X sont intégrables, l' espérance de X est le vecteur (E(X ), · · · , E(X )).
1 n

(b) Si X , · · · , X ont un moment d'ordre 2 ni, la matrice de covariance de X est la matrice


1 n 1 n

où pour tous 1 ≤ i, j ≤ n,
1 n
C(X) = (Cov(X , X )) i j 1≤i,j≤n

Cov(Xi , Xj ) = E((Xi − E(Xi ))(Xj − E(Xj ))) = E(Xi Xj ) − E(Xi )E(Xj ).

(c) La fonction caractéristique de X est la fonction ϕ X : Rn −→ C dénie par la relation


ϕX (u) = E(eihu,Xi ), ∀ u ∈ Rn ,

h·, ·i désignant le produit scalaire usuel sur R . n

Remarque 1. On rappelle qu'il sut d'avoir des variables Xi et Xj avec des moments d'ordre 2
nis pour pouvoir dénir la covariance de Xi et Xj : en eet, en utilisant l'inégalité de Cauchy-
Schwarz, on a q q
E(Xi Xj ) ≤ E(Xi2 ) E(Xj2 ).

Remarque 2. De même que dans le cas des variables aléatoires réelles, on montre que la fonction
caractéristique d'un vecteur aléatoire caractérise sa loi.

Dénition 1.29 (vecteur aléatoire à densité) Soient n ≥ 2 et X = (X , · · · , X ) : Ω −→


R un vecteur aléatoire. X est dit vecteur aléatoire à densité s'il existe une fonction positive
1 n
n

f : R −→ R , intégrable d'intégrale 1 (et unique à un ensemble négligeable près) telle que


n

dP = f (x)dx, c'est-à-dire telle que


X +

X X
Z
PX (A) = fX (x)dx, ∀ A ∈ B(Rn ).
A

22
Exemple 1. Soit K un borélien de Rn de mesure de Lebesgue non nul (par exemple un pavé
non dégénéré, une boule de rayon non nul). Alors un exemple de loi de vecteur X à densité est
1
la loi uniforme sur K qui a pour densité fX (x) = 1K (x), x ∈ Rn , λn désignant la mesure
λn (K)
de Lebesgue dans Rn .

Exemple 2. Un vecteur dit gaussien (non dégénéré) est un vecteur aléatoire X dans R n
qui
admet une densité de la forme
 
1 1 −1 t
fX (x) = np exp − (x − m)Γ (x − m) , x ∈ Rn ,
(2π) 2 det(Γ) 2

où Γ est une matrice symétrique réelle dénie positive et m est un vecteur de Rn . On montre
alors que m est la moyenne du vecteur X et Γ sa matrice de covariance.

Dénition 1.30 (mutuelle indépendance de variables) Soit (X ) une famille indexée


par un ensemble non vide I de variables aléatoires (à valeurs dans des espaces mesurables qui
i i∈I

peuvent diérer suivant la valeur de i). Les variables sont dites mutuellement indépendantes si
les tribus engendrées σ(X ), i ∈ I , sont mutuellement indépendantes.
i

Proposition 1.31 (caractérisation de l'indépendance de deux variables réelles) Soient


X et Y deux variables aléatoires réelles. Les assertions ci-dessous sont équivalentes.
(i) X et Y sont indépendantes;
(ii) P({X ≤ s} ∩ {Y ≤ t}) = P(X ≤ s)P(Y ≤ t) pour tous s, t ∈ R ;
(iii) E(f (X)g(Y )) = E(f (X))E(g(Y )) pour tous f, g : R −→ R mesurables et telles que
f (X), g(Y ) et (f (X)g(Y )) sont intégrables;
(iv) P = P ⊗ P ;
(v) ϕ (u, v) = ϕ (u)ϕ (v) pour tous u, v ∈ R.
(X,Y ) X Y

(X,Y ) X y

Démonstration. (iv) =⇒ (iii) : soient f, g satisfaisant les hypothèses de (iii). On a alors en


utilisant le théorème de Fubini (qui s'applique car f (X)g(Y ) est intégrable) :
Z Z
E(f (X)g(Y )) = f (x)g(y)dP(X,Y ) (x, y) = f (x)g(y)dPX (x)dPY (y)
ZR R2
2
Z
= f (x)dPX (x) g(y)dPY (y) = E(f (X))E(g(Y )).
R R

(iii) =⇒ (ii) : on applique (iii) à f = 1]−∞,s] et g = 1]−∞,t] .

(ii) =⇒ (iv) : l'assertion (ii) signie que les mesures P(X,Y ) et PX ⊗ PY coïncident sur les
boréliens de R2 de la forme ] − ∞, s]×] − ∞, t], s, t ∈ R. Ces ensembles constituent un π -système
qui engendre la tribu borélienne de R2 . Donc d'après le théorème π -λ, les mesures P(X,Y ) et
PX ⊗ PY sont égales.

(i) =⇒ (ii) : l'indépendance de X et Y signie que pour tous A, B ∈ B(R), on a P({X ∈


A} ∩ {Y ∈ B}) = P(X ∈ A)P(Y ∈ B). On applique l'égalité à A =] − ∞, s] et B =] − ∞, t],

23
s, t ∈ R.

(iii) =⇒ (i) : on applique (iii) à f = 1A et g = 1B , A, B ∈ B(R) pour en déduire l'indé-


pendance de X et Y .

(v) ⇐⇒ (iv) : en remarquant que (u, v) 7−→ ϕX (u)ϕY (v) est la fonction caractéristique de
la mesure PX ⊗ PY , l'équivalence vient directement du fait admis que la fonction caractéristique
d'un vecteur aléatoire caractérise sa loi.2

Remarque 1. Les équivalences ci-dessous se généralisent immédiatement à la mutuelle indé-


pendance de n variables aléatoires réelles, n ≥ 2.

Remarque 2. Le point (iii) de l'équivalence implique en particulier que si X et Y sont in-


dépendantes et de moment d'ordre 2 ni, alors Cov(X, Y ) = 0. La réciproque est fausse en
général (prendre par exemple (X, Y ) de loi uniforme sur le disque-unité) mais elle devient vraie
si (X, Y ) forme un couple gaussien.

Remarque 3. Dans le cas où X et Y sont des variables de densités fX et fY respective-


ment, le point (iv) de l'équivalence peut être remplacé par f(X,Y ) (x, y) = fX (x)fY (y) pour tous
x, y ∈ R, c'est-à-dire que X et Y sont indépendantes si et seulement si le vecteur (X, Y ) a une
densité qui est le produit des densités de X et de Y .

Bilan. Comment déterminer la loi d'une variable aléatoire réelle ou d'un vecteur aléatoire?
Méthode 1. Espérance de fonctions-tests (variables à densité)
Calcul de E(h1 (X1 )h2 (X2 ) · · · hn (Xn )) pour h1 , · · · , hn : R −→ R fonctions mesurables bornées
à l'aide de changements de variables dans les intégrales.
Exemple : pour X, Y variables gaussiennes centrées réduites et indépendantes, les variables
(X 2 + Y 2 ) et X/Y sont indépendantes.

Méthode 2. Utilisation de la fonction caractéristique


Exemple : la fonction caractéristique d'une somme de variables réelles indépendantes est le pro-
duit des fonctions caractéristiques de toutes ces variables. En particulier, la somme de variables
indépendantes de lois de Poisson suit encore une loi de Poisson de paramètre la somme de tous
les paramètres. Attention, la réciproque est fausse : la fonction caractéristique de la somme de
deux variables réelles peut être égale au produit des deux fonctions caractéristiques sans qu'on
ait indépendance (prendre par exemple X = Y de loi de Cauchy).

Méthode 3. Calcul direct ou utilisation de la fonction de répartition


Détermination de P(X1 = t1 , · · · , Xn = tn ) (variables discrètes) ou de P(X1 ≤ t1 , · · · , Xn ≤ tn ),
t1 , · · · , tn ∈ R.

24
Exemple : pour X, Y variables indépendantes uniformes sur ] − 1.1[, X et sgn(XY ) sont indé-
pendantes.

25
26
Chapitre 2

Suites et séries de variables aléatoires


réelles. Loi des grands nombres

On s'attend à ce que la répétition un grand nombre de fois d'une même expérience aléatoire
conduise à des résultats de plus en plus déterministes : ainsi, après 1000 lancers d'une pièce
équilibrée, on imagine avoir dans à peu près tous les cas une proportion de résultats Pile
proche de 1/2. On sait aussi avec grande certitude qu'on va tâcher ses vêtements un jour ou
l'autre. Dans un gaz parfait, même si la température est fonction de l'agitation moléculaire et
des chocs entre molécules, on s'attend à ce qu'elle soit à peu près constante lorsque le gaz est
à l'équilibre. La loi du zéro-un et la loi des grands nombres sont des résultats théoriques qui,
sous certaines conditions d'indépendance, permettent d'expliquer cette disparition de l'aléatoire
pour des événements de type asymptotique.

2.1 Lemme de Borel-Cantelli. Loi du zéro-un


Les événements asymptotiques sont ceux sur lesquels on ne peut pas trancher avant d'avoir
eectué une innité dénombrable d'expériences aléatoires indépendantes. Par exemple, les évé-
nements il y aura toujours de nouveaux tremblements de terre ou les records du monde du
100m seront toujours dépassés sont de type asymptotique. Cependant, l'événement il neigera
tous les ans à Noël à partir de l'année prochaine n'est pas asymptotique car s'il ne neige pas
l'année prochaine, on saura déjà que l'événement ne s'est pas réalisé. On donne ci-dessous une
dénition plus rigoureuse de la notion d'événement asymptotique.

Dénition 2.1 (tribu, événements asymptotiques) Soit (F ) une suite de sous-tribus


de F qui sont mutuellement indépendantes. La tribu asymptotique associée est F = ∩ σ(F :
n n∈N

k ≥ n). Tout élément de la tribu asymptotique est appelé événement asymptotique.


∞ n∈N k

Proposition 2.2 (loi du zéro-un) Soit (F ) une suite de sous-tribus mutuellement indé-
pendantes. Alors pour tout élément A ∈ F de la tribu asymptotique, on a P(A) = 0 ou 1.
n n∈N

Démonstration. On considère la tribu Gn = σ(F0 , · · · , Fn ) pour tout n ∈ N. Alors pour n


xé, par la propriété des coalitions, σ(Fk : k ≥ (n + 1)) est indépendante de Gn . Puisque

27
F∞ ⊂ σ(Fk : k ≥ (n + 1)), F∞ est aussi indépendante de Gn . Ceci étant vrai pour tout n ∈ N,
F∞ est indépendante de ∪n∈N Gn .
Or ∪n∈N Gn est un π -système (si A et B sont dans la réunion avec A ∈ Gn1 et B ∈ Gn2 ,
alors A ∩ B est élément de Gmax(n1 ,n2 ) donc de la réunion). Ainsi, par la propriété relative à
l'indépendance des π -systèmes, F∞ est indépendante de σ(∪n∈N Gn ) = σ(Fn : n ∈ N).
Or F∞ ⊂ σ(Fn : n ∈ N), donc F∞ est indépendante d'elle-même. En particulier, pour tout
A ∈ F∞ , A est indépendant de A donc P(A ∩ A) = P(A)P(A), c'est-à-dire P(A) = P(A)2 .2

Exemple. Soit (Xn )n∈N∗ une suite de variables aléatoires indépendantes et identiquement dis-
tribuées. Alors l'événement
( n
)
1X
A= lim Xk converge
n→+∞ n
k=1

est un événement asymptotique donc de probabilité 0 ou 1.


En eet, appliquons le résultat précédent à la tribu Fn engendrée par la variable Xn pour
tout n ≥ 1. L'événement A est dans la tribu asymptotique associée. En eet, pour tout n ≥ 1,
N
1 X
être dans A signie que Xk a une limite quand N tend vers +∞ donc A est dans
N
k=n+1
σ(Xk : k ≥ (n + 1)).
Enn, lorsque A a pour probabilité 1, la variable aléatoire égale à la limite obtenue est F∞ -
mesurable donc est presque-sûrement constante.

Remarque. La loi du zéro-un n'est utile que lorsqu'on sait discriminer les événements presque-
sûres (de probabilité 1) des événements négligeables (de probabilité 0). Le lemme de Borel-
Cantelli donne des conditions qui permettent de calculer la probabilité de certains événements
asymptotiques, dits limite supérieure limite inférieure
et d'une suite d'événements.)

Dénition 2.3 (limite supérieure, inférieure d'une suite d'événements) Soit (A ) une
suite d'événements. La limite supérieure de (A ) est l'événement
n n∈N

n n∈N

lim sup A = {ω ∈ Ω : {n ∈ N : ω ∈ A } est inni} =


\ [
n n A . k
n∈N k≥n

La limite inférieure de (A ) est l'événement


n n∈N

lim inf A = {ω ∈ Ω : ω ∈ A à partir d'un certain rang} =


[ \
n n A . k
n∈N k≥n

Exemples. On lance une innité de fois un dé à six faces équilibré. An désigne l'événement on
obtient 6 au n-ième lancer. Alors lim sup An est l'événement on obtient 6 un nombre inni de
fois tandis que lim inf An est on obtient 6 tout le temps à partir d'un certain moment.

Remarque 1. Les limites inférieure supérieure sont reliées de la manière suivante :

(lim sup An )c = lim inf Acn .

28
Remarque 2. Les notations lim sup et lim inf renvoient directement aux notions de lim sup et
lim inf de suites de réels. On rappelle que si (an )n∈N est une suite de réels, alors

lim sup an = lim sup ak = inf sup ak


n→+∞ n→+∞ k≥n n∈N k≥n

et
lim inf an = lim inf ak = sup inf ak .
n→+∞ n→+∞ k≥n n∈N k≥n
En faisant l'analogie entre le sup d'un ensemble de réels et l'union ∪ d'un ensemble de parties
(resp. l'inf d'un ensemble de réels et l'intersection ∩ d'un ensemble de parties), on constate que
les dénitions sont semblables.

Proposition 2.4 (lemme de Borel-Cantelli) (a)(partie facile) Soit (A ) une suite d'évé-
nements. Si la série de terme général P(A ) est convergente, alors l'événement lim sup A est
n n∈N

négligeable, c'est-à-dire
n n

!
X
P(An ) < +∞ =⇒ P(lim sup An ) = 0.
n∈N

(b)(partie dicile) Soit (A ) une suite d'événements mutuellement indépendants. Si la série


de terme général P(A ) est divergente, alors l'événement lim sup A arrive presque-sûrement,
n n∈N

c'est-à-dire
n n

!
X
P(An ) = +∞ =⇒ P(lim sup An ) = 1.
n∈N

Démonstration. Partie facile : pour N xé, on constate que lim sup A n ⊂ ∪k≥N Ak donc
 
[ X
0 ≤ P(lim sup An ) ≤ P  Ak  ≤ P(Ak ).
k≥N k≥N

Il reste à remarquer que le terme de droite tend vers 0 quand N tend vers l'inni car il s'agit du
reste d'une série convergente.

Partie dicile :
Etape 1 : se ramener à un calcul d'espérance. Le but est deX
montrer que pour presque-tout aléa
ω ∈ Ω, ω se trouve dans une innité de An . En notant X = 1An , on constate que cela revient
n∈N
à montrer que X prend la valeur +∞ avec probabilité 1. Ceci est aussi équivalent au fait que
la variable e−X soit presque-sûrement constante, égale à 0. Calculons E(e−X ) (qui existe car
e−X ≤ 1 presque-sûrement) :
   PN 
− N
P
−X
E(e ) = E lim e n=0 1 An
= lim E e− n=0 1An . (2.1)
N →+∞ N →+∞

On a permuté ci-dessus limite et espérance par application du théorème de convergence dominée :


PN
en eet, e− n=0 1An est dominé par la constante 1 qui est bien intégrable.
Etape 2 : utilisation de l'hypothèse d'indépendance. On constate que
 PN   
E e− n=0 1An = E ΠN n=0 e
−1An
= ΠNn=0 E e
−1An
. (2.2)

29
On peut eectivement armer que l'espérance du produit ni est le produit des espérances
car les variables e−1An , 0 ≤ n ≤ N , sont mutuellement indépendantes (puisque les événements
An le sont). Remarquons au passage qu'il s'agit du seul argument de la démonstration faisant
intervenir l'indépendance.
Etape 3 : utilisation de l'hypothèse de somme nie. Pour n xé, la variable 1An est de Bernoulli
de paramètre P(An ) donc

E e−1An = e−1 P(An ) + e0 (1 − P(An )) = 1 − (1 − e−1 )P(An ). (2.3)

En utilisant les égalités (2.1), (2.2) et (2.3), on obtient que



ln(E(e−X )) = lim ln ΠN −1
n=0 (1 − (1 − e )P(An )
N →+∞
+∞
X +∞
X
= ln(1 − (1 − e−1 )P(An )) ≤ −(1 − e−1 ) P(An ),
n=0 n=0

la dernière majoration provenant de l'inégalité classique ln(1 + x) ≤ x pour tout x > −1. Il reste
+∞
X
à utiliser le fait que P(An ) = +∞ pour en déduire que ln(E(e−X )) = −∞ et E(e−X ) = 0.
n=0
Comme e−X est positive presque-sûrement et d'intégrale nulle, on obtient e−X = 0 et X = +∞
presque-sûrement.2

Exemple. Application de la partie facile : marche au hasard asymétrique sur Z. un marcheur


se déplace sur l'ensemble des entiers relatifs Z en partant de zéro et en eectuant un pastoutes

1
les secondes, indépendamment des précédents, vers la droite avec probabilité p ∈ (0, 1) \ et
2
vers la gauche avec probabilité (1 − p). Montrons que presque-sûrement, le marcheur ne revien-
dra qu'un nombre ni de fois en zéro. En eet, pour tout n ∈ N, on considère An l'événement
le marcheur est en 0 au bout de 2n pas (il est immédiat qu'on ne peut revenir en zéro qu'au
bout d'un nombre pair de pas). En particulier, une trajectoire de retour en zéro s'obtient en
choisissant les numéros des pas correspondant
  à des déplacements vers la droite. La probabilité
2n n
de l'événement An est donc P(An ) = p (1 − p)n .
n
Pour tout n ∈ N,

P(An+1 ) (2n + 2)(2n + 1)


= p(1 − p) −→ 4p(1 − p) < 1.
P(An ) (n + 1)2 n→+∞

Par le critère de d'Alembert, la série de terme général P(An ) converge donc d'après le lemme
de Borel-Cantelli, P(lim sup An ) = 0 et P(lim inf Acn ) = 1. Autrement dit, presque-sûrement, au
bout d'un certain nombre de pas, on ne repasse plus en zéro.

Exemple 2. Application de la partie dicile : singe typographe. Un singe placé devant une
machine à écrire à T touches tape au hasard une touche après l'autre, indépendamment du
passé et sans s'arrêter. L'÷uvre complète de Shakespeare comprend C caractères. Pour tout
n ∈ N, on note An l'événement le singe a tapé l'÷uvre complète de Shakespeare entre la

30
(nC + 1)-ième touche et la ((n + 1)C)-ième touche. Les événements An sont indépendants et de
1
même probabilité, égale à P(An ) = ( )C > 0. Par conséquent, la série de terme général P(An )
T
diverge grossièrement. Ainsi, d'après la seconde partie du lemme de Borel-Cantelli, l'événement
lim sup An est de probabilité 1, c'est-à-dire que presque-sûrement, le singe va taper une innité
de fois l'÷uvre complète de Shakespeare.

2.2 Diérentes notions de convergence de suites


On considère une suite (Xn )n∈N∗ de variables aléatoires indépendantes et identiquement
Xn
distribuées. On note Sn = Xk pour tout n ∈ N∗ . La loi du zéro-un montre que l'ensemble
k=1
1
des ω pour lesquels la suite Sn (ω) est convergente a pour probabilité 0 ou 1. De plus, si
n
cette probabilité est 1, la limite obtenue est appelée limite presque-sûre et est presque-sûrement
constante.
La convergence presque-sûre est celle que l'on observe en pratique lorsqu'on réalise l'expé-
rience aléatoire. Pour autant, elle est souvent dicile à montrer suivant les informations dont
on dispose. Ceci explique que d'autres types de convergences aient été introduits.

Dénition 2.5 (notions de convergence) Soient (X ) une suite de variables aléatoires


n n∈N∗
réelles (resp. de vecteurs aléatoires à valeurs dans R muni de la distance euclidienne k · k), X
n

une variable réelle (resp. un vecteur aléatoire) et p ≥ 1.


(a) On dit que (X ) converge presque-sûrement vers X si
n n∈N∗

P({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1 ;


n→+∞

(b) on dit que (X )


n n∈N∗ converge en probabilité vers X si
∀ ε > 0, lim P(kXn − Xk > ε) = 0 ;
n→+∞

(c) on dit que (X )


n n∈N∗ converge dans Lp vers X si
lim E(kXn − Xkp ) = 0.
n→+∞

Ces trois notions de convergence sont reliées par les implications suivantes.

Proposition 2.6 (relations entre les notions de convergence) Soient (X ) et X des


n n∈N∗
variables aléatoires réelles (resp. des vecteurs aléatoires) et soient 1 < q < p.
(a) La convergence presque-sûre de X vers X implique la convergence en probabilité vers la
même limite;
n

(b) la convergence dans L de X vers X implique la convergence en probabilité vers la même


p

limite;
n

(c) la convergence dans L de X vers X implique la convergence dans L vers la même limite;
p q

(d) la convergence en probabilité de X vers X implique la convergence presque-sûre d'une sous-


n

suite vers la même limite;


n

31
Démonstration. (a) Pour ε > 0, on a
Z
P(kXn − Xk > ε) = 1kXn −Xk>ε dP.

La convergence presque-sûre de Xn vers X implique la convergence presque-sûre de 1kXn −Xk>ε


vers 0. De plus, pour tout n ∈ N, |1kXn −Xk>ε | ≤ 1 qui est intégrable sous P et indépendant de
n. Ainsi, en appliquand le théorème de convergence dominée, on a
Z Z
lim P(kXn − Xk > ε) = lim 1kXn −Xk>ε dP = lim 1kXn −Xk>ε dP = 0.
n→+∞ n→+∞ Ω Ω n→+∞

(b) Il sut de remarquer qu'en utilisant l'inégalité de Markov, pour tout ε > 0, on a

1
P (kXn − Xk > ε) ≤ E(kXn − Xkp ).
εp
(c) On applique l'inégalité de Hölder :
p p
q
E(kXn − Xkq ) ≤ E(kXn − Xk q )q/p E(1 p−q )1−q/p = E(kXn − Xkp )q/p −→ 0.
n→+∞

1
(d) On note que pour tout k ∈ N∗ , lim P(|Xn − X| > ) = 0. On construit donc une
n→+∞ k
1 1
suite strictement croissante d'entiers (nk )k∈N telle que P(|Xnk − X| > ) ≤ 2 . Notons
k k
1
Ak = {|Xnk − X| > } pour k ∈ N∗ . On constate que la série de terme général P(Ak ) est
k
convergente donc par application du lemme de Borel-Cantelli (partie facile), la probabilité de
1
l'événement lim inf{|Xnk − X| < } est 1, c'est-à-dire pour presque tout ω , il existe un k au-delà
k
1
duquel on a |Xnk (ω) − X(ω)| < , ce qui implique que lim Xnk (ω) = X(ω). Ceci montre bien
k k→+∞
la convergence presque-sûre de Xnk vers X .2

Remarque. Si on rajoute l'hypothèse dite d'uniforme intégrabilité, alors il est possible de passer
de la convergence en probabilité à la convergence dans Lp .

Exemple. On se donne une suite (Xn )n∈N∗ de variables de Bernoulli indépendantes telles que
1
Xn est de paramètre pn = pour tout n ∈ N∗ . Alors (Xn )n∈N∗ converge en probabilité vers 0
n
car pour tout ε > 0,
P(|Xn | > ε) = P(Xn = 1) = pn −→ 0.
n→+∞

De plus, (Xn )n∈N∗ converge aussi dans L vers 0 car


p

E(Xnp ) = E(Xn ) = pn −→ 0.
n→+∞

Pour autant, (Xn )n∈N∗ ne converge pas presque-sûrement vers 0 : en eet, en considérant l'événe-
ment An = {Xn = 1} pour tout n ∈ N∗ , on constate que les An sont mutuellement indépendants
1
et la série de terme général P(An ) = est divergente. Par conséquent, l'application du lemme
n
de Borel-Cantelli (partie dicile) implique que Xn = 1 une innité de fois presque-sûrement.

32
2.3 Loi des grands nombres
L'objet de cette partie est d'établir la loi forte des grands nombres de Kolmogorov, c'est-
à-dire la convergence presque-sûre des moyennes successives d'une suite de variables aléatoires
indépendantes, identiquement distribuées et intégrables. La démonstration de ce résultat étant
longue et délicate, on renvoie aux cours précédents de probabilités pour des lois des grands
nombres faibles (convergence presque-sûre avec une hypothèse L4 , convergence en probabilité
avec une hypothèse L2 ).

Théorème 2.7 (Loi des grands nombres de Kolmogorov) Soit (X ) une suite de va-
riables aléatoires réelles indépendantes et identiquement distribuées. On note S = X + · · · + X
n n≥1

pour tout n ≥ 1.
n 1 n

Si le premier moment de X est ni, alors Sn converge presque-sûrement vers E(X ).


1
n
1

Avant de prouver le théorème 2.7, on établit tout d'abord deux lemmes intermédiaires : le premier
est un résultat fondamental en probabilités qui étend l'inégalité de Bienaymé-Tchebychev et qui
annonce la théorie des martingales. Le second est un résultat purement déterministe sur les séries
numériques, proche du théorème d'Abel.

Lemme 2.8 (lemme maximal) Soit (U ) une suite de variables aléatoires réelles indépen-
dantes, centrées et de second moment ni. Alors pour tout ε > 0 et tout N ∈ N ,
n n≥1

n
! N
X 1 X
P sup | Uk | ≥ ε ≤ 2 E(Uk2 ).
1≤n≤N k=1 ε
k=1
n
X
Démonstration. On pose τ = inf{n ≥ 1 : | Ui | ≥ ε} (avec la convention inf(∅) = +∞).
k=1
N
X
La probabilité recherchée se réécrit alors P({τ ≤ N }). On part de la somme E(Uk2 ) que l'on
k=1
cherche à minorer. Comme les Uk sont indépendantes et centrées, on a
N N N N
!
X X X X
E(Uk2 ) = Var(Uk ) = Var( Uk ) = E [ Uk ]2 .
k=1 k=1 k=1 k=1

De plus,
N
! N
!
X X
E [ Uk ] 2 ≥ E 1τ ≤N [ Uk ] 2
k=1 k=1
N N
!
X X
= E 1{τ =n} [ 2
Uk ]
n=1 k=1
N n
! N N
! N n N
!
X X X X X X X
= E 1{τ =n} [ Uk ]2 + E 1{τ =n} [ Uk ]2 +2 E 1{τ =n} [ Uk ][ Uk ] .
n=1 k=1 n=1 k=n+1 n=1 k=1 k=n+1

Minorons chacun des trois termes obtenus ci-dessus.


Terme 1 Xn
. Sur l'événement {τ = n}, on a presque-sûrement l'inégalité [ Uk ]2 ≥ ε2 donc on
k=1

33
minore la première espérance de la manière suivante :
N n
! N
X X X
E 1{τ =n} [ Uk ]2
≥ E(1{τ =n} ε2 ) = ε2 P(τ ≤ N ).
n=1 k=1 n=1

Terme 2. La variable dans l'espérance est positive donc on peut le minorer violemment par 0.
Terme 3. On note l'égalité d'événements
{τ = n} = {|U1 | < ε, |U1 + U2 | < ε, · · · |U1 + · · · + Un−1 | < ε, |U1 + · · · + Un | ≥ ε}.

Par conséquent, la variable 1{τ =n} est σ(U1 , · · · , Un )-mesurable. D'après le lemme des coalitions,
Xn N
X
on en déduit que 1τ =n [ Uk ] est indépendant de [ Uk ]. Ainsi,
k=1 k=n+1

n N
! n
! N
!
X X X X
E 1{τ =n} [ Uk ][ Uk ] = E 1{τ =n} [ Uk ] E Uk =0
k=1 k=n+1 k=1 k=n+1

N
X
car E( Uk ) = 0. Ainsi, le troisième terme est nul.
k=n+1
En conclusion, on a bien montré
N
X
E(Uk )2 ≥ ε2 P(τ ≤ N ),
k=1

ce qui est le résultat souhaité.2

Lemme 2.9 (lemme de Kronecker) Soit (a ) une suite de réels telle que la série de
n n∈N∗

terme général an soit convergente. Alors lim n1 X a = 0.


n
n
k
n→+∞
k=1

+∞
X ak
Démonstration. On note pour tout n ≥ 0, Rn = le reste de la série convergente de
k
k=n+1
ak
terme général . Alors on note en particulier que ak = k(Rk−1 − Rk ) pour tout k ≥ 1. De plus,
k
pour tout n ≥ 2, on eectue une transformation de type Abel pour obtenir
n
X n
X n
X n−1
X n
X n−1
X
ak = kRk−1 − kRk = (k + 1)Rk − kRk = R0 + Rk − nRn .
k=1 k=1 k=1 k=0 k=1 k=1

Par conséquent,
n n−1
1X R0 1X
ak = + Rk − Rn .
n n n
k=1 k=1
Le premier terme tend vers 0 lorsque n tend vers l'inni. Le troisième terme tend vers 0 en tant
que reste d'une série numérique convergente. Enn, le second terme est quasiment la moyenne
de Césaro de Rk donc tend aussi vers 0 (choisir pour ε > 0 un N tel que |Rk | < ε pour tout

34
k ≥ N , puis couper la somme jusqu'à n en deux sommes de 1 à (N − 1) et de N à n si n ≥ N ).2

Munis de ces deux lemmes, nous sommes à présent capables de démontrer le théorème 2.7.

Démonstration du théorème 2.7.


étape 1 : transformation de
Xn . Le lemme maximal s'applique à des variables centrées et de se-
cond moment ni. Or, les Xn , n ≥ 1, ne sont supposées que de premier moment ni et ne sont pas
nécessairement centrées. L'idée principale est de les tronquer pour obtenir des variables bornées
qui auront en particulier un second moment ni. On pose pour tout n ≥ 1, Yn = Xn 1[−n,n] (Xn ).
On remarque en particulier que E(Yn ) = E(Xn 1[−n,n] (Xn )) = E(X1 1[−n,n] (X1 )) car les Xn sont
identiquement distribués. Il faut à présent centrer les variables Yn : pour tout n ≥ 1, on considère
n
1X
Zn = Yn − E(Yn ). Notre but va être de montrer que Zk tend vers 0 presque-sûrement (puis
n
k=1
n
1X
on montrera la convergence de Yk vers E(X1 ) et il restera enn à en déduire la loi des
n
k=1
grands nombres pour les Xk ).

étape 2 : application du lemme maximal (Lemme 2.8). Le lemme de Kronecker suggère qu'il faut
Zn
montrer que la série de terme général est convergente presque-sûrement. Ceci est équivalent
n
à montrer que la série est de Cauchy presque-sûrement. On applique donc le lemme maximal à
Zk
Uk = . Soient 1 ≤ N < M deux entiers. Alors pour tout ε > 0,
k
Xn
Zk
M
1 X E(Zk2 )

P( sup ≥ ε) ≤ 2 . (2.4)
N ≤n≤M k ε k2
k=N k=N

E(Zk2 )
Vérions que la série de terme général est convergente :
k2
+∞
X +∞
X +∞
X
E(Z 2 )
k Var(Yk ) E(Y 2 )k
= ≤
k2 k2 k2
k=1 k=1 k=1
+∞
X E(X12 1[−k,k] (X1 ))
=
k2
k=1
+∞ X
X k
E(X12 1]p−1,p] (|X1 |))
=
k2
k=1 p=1
+∞
X +∞
X 1
= E(X12 1]p−1,p] (|X1 |))
k2
p=1 k=p
+∞
X 2
≤ E(p|X1 |1]p−1,p] (|X1 |)) ·
p
p=1

= 2E(|X1 |) < +∞.

étape 3 : application du lemme de Kronecker (Lemme 2.9) et loi des grands nombres pour les
35
+∞
X E(Zk2 ) 1
Zn . Soit pour tout p ≥ 1 un entier N (p) tel que < 4 . Alors d'après l'inégalité
k2 p
k=N (p)
1
(2.4) appliquée à ε = , N = N (p) et M → +∞, on a
p
X
n
Zk 1 1

P( sup ≥ ) ≤ 2.
N (p)≤n k p p
k=N (p)

n
X Zk 1
En particulier, la série de terme général P( sup ≥ ) est convergente donc d'après
N (p)≤n k p
k=N (p)
le lemme de Borel-Cantelli (partie facile), on obtient
n
X Zk 1
P(lim inf { sup < }) = 1,
p N (p)≤n k p
k=N (p)

Zk
c'est-à-dire que presque-sûrement, la série de terme général est de Cauchy donc converge.
k
n
1X
D'après le lemme de Kronecker, ceci implique que presque-sûrement Zk tend vers 0.
n
k=1

étape 4 : loi des grands nombres pour les Y . On note que pour tout n ≥ 1,
n
n n n
1X 1X 1X
Yk = Zk + E(X1 1[−k,k] (X1 )).
n n n
k=1 k=1 k=1

Le premier terme converge vers zéro presque-sûrement d'après l'étape précédente. Par conver-
gence dominée, on constate que E(X1 1[−n,n] (X1 )) converge vers E(X1 ) lorsque n tend vers
l'inni. Donc le second terme, qui est la moyenne de Césaro de E(X1 1[−n,n] (X1 )), converge vers
E(X1 ).

étape 5 : loi des grands nombres pour les Xn . Montrons que presque-sûrement Yn = Xn à
partir d'un certain rang : en eet, on vérie d'après le théorème de Fubini que
Z Z Z +∞  Z +∞ Z  Z +∞
E(|X1 |) = X1 dP = 1|X1 |>t dt dP = 1|X1 |>t dP = P(|X1 | > t)dt.
Ω Ω 0 0 Ω 0

En particulier, on en déduit par la relation de Chasles que


+∞ Z
X n +∞
X
E(|X1 |) = P(|X1 | > t)dt ≥ P(|X1 | > n).
n=1 n−1 n=1

Comme E(|X1 |) < +∞, on déduit de l'inégalité précédente que la série de terme général
P(|X1 | > n) = P(|Xn | > n) est convergente. Appliquons le lemme de Borel-Cantelli (partie
facile) : presque-sûrement, pour n assez grand, |Xn | ≤ n, c'est-à-dire Yn = Xn . Dans ce cas, la
n n
1X 1X
convergence de Yk vers E(X1 ) est équivalente à celle de Xk vers la même limite. On
n n
k=1 k=1
n
1X
a donc bien montré que presque-sûrement, Xk converge vers E(X1 ).2
n
k=1

36
Remarque. Les applications de la loi des grands nombres de Kolmogorov sont innombrables :
citons notamment le calcul approché d'une intégrale par la méthode de Monte-Carlo, le théo-
rème de Stone-Weierstrass de densité des polynômes dans l'espace des fonctions continues sur
[0, 1], l'aiguille de Buon, les nombres normaux de Borel ou encore la théorie de l'estimation en
statistique. On renvoie le lecteur aux précédents cours de probabilités et exercices des ches de
travaux dirigés.

37
38
Chapitre 3

Convergence en loi. Théorème central


limite

On considère à nouveau une suite de variables aléatoires réelles ou vecteurs aléatoires (Xn )n∈N .
Déterminer la convergence presque-sûre de la suite nécessite a priori d'avoir des informations
sur la loi jointe du vecteur inni (X0 , X1 , X2 , · · · ) tandis que les convergences en probabilité ou
dans Lp vers une variable X recquièrent de savoir calculer des grandeurs qui mettent en jeu la
loi jointe d'un couple (Xn , X) pour n ≥ 0. On cherche à présent à dénir une nouvelle notion de
convergence moins contraignante, qui ne ferait plus intervenir que la loi de de chaque (Xn )n∈N .
Autrement dit, on s'intéresse à la limite d'une suite de mesures de probabilités (µn )n∈N sur R
et plus généralement sur Rd , d ≥ 1.

3.1 Dénitions
On commence par introduire diérentes notions de convergence de suites de mesures puis on
verra comment celles-ci sont reliées entre elles. Notons par ailleurs qu'on se contente d'étudier
des mesures sur R mais on indiquera en n de partie comment les dénitions et principaux
résultats s'étendent au cas des mesures sur Rd .

Dénition 3.1 (convergences vague, faible, étroite) Soit (µ ) une suite de mesures
bornées sur R. Soit µ une mesure bornée sur R. On dit que Z
n n∈N

Z
 µ converge vaguement vers µ quand n → +∞ si lim f dµ = f dµ pour toute n

fonction f : R −→ R continue à support compact; Z


n→+∞
Z
 µ converge faiblement vers µ quand n → +∞ si lim f dµ = f dµ pour toute fonc-
n

tion f : R −→ R continue de limite nulle en l'inni, c'est-à-dire telle que lim f (x) =
n→+∞

0;
kxk→+∞
Z Z
 µ converge étroitement vers µ quand n → +∞ si lim f dµ = f dµ pour toute n

fonction f : R −→ R continue et bornée.


n→+∞

Remarque. Il est immédiat que la convergence étroite implique la convergence faible qui im-
plique la convergence vague. Les réciproques sont fausses.

39
Considérons pour tout n ∈ N, la mesure de Dirac sur R µnZ= δn . Alors µn converge faiblement
vers la mesure nulle car si f est de limite nulle à l'inni, f dδn = f (n) → 0 lorsque n →
+∞. Cependant µn ne converge pas étroitement vers zéro Z car en prenant pour f la fonction
identiquement égale à 1 qui est continue et bornée, on a 1dµn = 1 6= 0.
Considérons à présent pour tout n ∈ N, la mesure µn = nδn . Alors µn converge vaguement
Z
vers la mesure nulle car si f est continue à support compact, pour n assez grand, f dµn =
nf (n) = 0. Cependant, µn ne converge pas faiblement vers zéro. En eet, soit f la fonction
1
continue de limite nulle à l'inni qui est égale à 1 sur [−1, 1] et telle que f (x) = si x > 1.
Z x
Alors f dµn = nf (n) = 1 6= 0 si n ≥ 1.
Une hypothèse supplémentaire est donc nécessaire pour obtenir les réciproques : la conser-
vation de la masse.

Proposition 3.2 (Lien entre convergences vague et étroite) Soit (µ ) une suite de
mesures de probabilités sur R et soit µ une mesure de probabilité sur R. µ converge vague-
n n∈N

ment vers µ si et seulement si µ converge étroitement vers µ.


n

Démonstration. On suppose que µn converge


Z vaguement
Z vers µ. Soit f une fonction continue
et bornée sur R. Il faut montrer que lim f dµn = f dµ. Soit (ϕp )p∈N une suite de fonctions
n→+∞
continues à support compact qui converge en croissant vers la fonction constante égale à 1 (on
peut prendre par exemple ϕp la fonction égale à 1 sur [−p, p], nulle sur [−(p + 1), (p + 1)]c et
ane sur les intervalles [−(p + 1), −p] et [p, p + 1]). Alors par inégalité triangulaire, on a pour
tout n, p ∈ N
Z Z Z Z Z Z Z Z

f dµn − f dµ ≤ f dµn − f ϕp dµn + f ϕp dµn − f ϕp dµ + f ϕp dµ − f dµ .

(3.1)

Considérons ε > 0.

• Le troisième terme à droite dans (3.1) satisfait l'inégalité suivante :


Z Z Z

f ϕp dµ − f dµ ≤ kf k∞ (1 − ϕp )dµ

où kf k∞ désigne la borne supérieure des valeurs prises par f . On remarque que (1−ϕp ) converge
simplement vers 0 lorsque p tend vers l'inni et de plus, cette fonction
Z est dominée par 1 pour
tout p ∈ N. Donc par théorème de convergence dominée, lim (1 − ϕp )dµ = 0. Fixons donc
Z p→+∞
ε
p tel que kf k∞ (1 − ϕp )dµ < .
4
• Le premier terme à droite de (3.1) vérie en particulier que
Z Z Z Z

f dµn − f ϕp dµn ≤ kf k∞ (1 − ϕp )dµn = kf k∞ (1 − ϕp dµn ).

40
Puisque µn converge
Z vaguement
Z vers µ et puisque ϕp est une fonction continue à support com-
pact, on a lim ϕp dµn = ϕp dµ. En particulier, on xe N1 tel que pour tout n ≥ N1 ,
n→+∞
Z Z
ε

kf k∞ ϕp dµn − ϕp dµ ≤ .
4
Z
En utilisant que 1 = dµ, on obtient ainsi que
Z Z
ε ε
kf k∞ (1 − ϕp dµn ) ≤ kf k∞ (1 − ϕp )dµ + ≤ .
4 2
• Le deuxième terme à droite dans (3.1) vérie
Z Z

lim f ϕp dµn − f ϕp dµ = 0

n→+∞

car f ϕp est une fonction continue à support compact et µn converge vaguement vers µ. Soit
donc N2 ∈ N tel que pour tout n ≥ N2 ,
Z Z

f ϕp dµn − f ϕp dµ ≤ ε .
4

En conclusion, pour N ≥ max(N1 , N2 ), on a


Z Z

f dµn − f dµ ≤ ε,

ce qui montre la convergence souhaitée.2

Remarque. Plus généralement, si (µn )n∈N est une suite de mesures bornées sur R et µ une
mesure bornée sur R, on peut montrer
Z que si µnZ converge vaguement vers µ et la suite (µn )n∈N
préserve la masse, c'est-à-dire lim 1dµn = 1dµ, alors µn converge étroitement vers µ.
n→+∞

Dénition 3.3 (convergence en loi d'une suite de variables réelles) Soient (X ) une
suite de variables aléatoires réelles et X un variable aléatoire réelle. On dit que (X ) converge
n n∈N

en loi vers X (noté X → X ) si pour tout t ∈ R tel que P(X = t) = 0, on a lim P(X ≤ t) =
n n∈N
loi
n n

P(X ≤ t).
n→+∞

Exemple. On considère (Un )n∈N∗ une suite de variables i.i.d. de loi uniforme sur ]0, 1[. On note
Mn = min(U1 , · · · , Un ) si n ≥ 1. Montrons qu'alors Xn = nMn converge en loi vers X où X est
une variable exponentielle de paramètre 1.
En eet, si t ≥ 0, comme les variables Uk sont indépendantes et identiquement distribuées,
     n
t t
P(Xn > t) = P ∩k=1 Uk >
n
= P U1 >
n n
 n
t
= 1− = exp(n ln(1 − t/n))
n
= exp(−t + o(1)).
n→+∞

41
Ainsi, pour tout t ≥ 0, lim P(Xn ≤ t) = 1 − e−t = P(X ≤ t). Il reste à remarquer que pour
n→+∞
t < 0, on a P(Xn ≤ t) = P(X ≤ t) = 0 pour tout n ∈ N. On a ainsi bien montré la convergence
en loi de Xn vers X .

La proposition suivante établit l'équivalence entre la convergence en loi d'une suite de variables
et la convergence étroite de leurs lois de probabilité.

Proposition 3.4 (équivalence entre convergence en loi et convergence étroite) Soient


(X ) une suite de variables aléatoires réelles et X une variable aléatoire réelle. (X )
converge en loi vers X si et seulement si la suite de mesures P converge étroitement vers P .
n n∈N n n∈N

Xn X

Démonstration. On commence
Z par supposer queZ la convergence étroite de PXn vers PX est sa-
tisfaite, c'est-à-dire que lim f (x)dPXn (x) = f (x)dPX (x). Montrons alors la convergence
n→+∞
en loi de Xn vers X . On remarque tout d'abord que pour tout t ∈ R et tout n ∈ N,
Z Z
P(Xn ≤ t) = 1]−∞,t] (x)dPXn (x) et P(X ≤ t) = 1]−∞,t] (x)dPX (x).
Z Z
On ne peut obtenir directement la convergence de 1]−∞,t] (x)dPXn (x) vers 1]−∞,t] (x)dPX (x)
car la fonction 1]−∞,t] n'est pas continue. On va donc l'approcher par une suite de fonctions
continues. Soit pour tout p ∈ N∗ , les fonctions fp et gp qui sont égales à 1 sur ] − ∞, t] (resp.
1 1 1
] − ∞, (t − )]), égales à 0 sur [(t + ), +∞[ (resp. [t, +∞[) et anes sur [t, (t + )] (resp.
p p p
1
[(t − ), t]). On constate alors, en intégrant l'encadrement gp ≤ 1]−∞,t] ≤ fp par rapport à PXn
p
que pour tout p ∈ N∗ ,
Z Z
gp (x)dPXn (x) ≤ P(Xn ≤ t) ≤ fp (x)dPXn (x).

À p xé, puisque fp et gp sont continues et bornées, on a


Z Z Z Z
lim fp (x)dPXn (x) = fp (x)dPX (x) et lim gp (x)dPXn (x) = gp (x)dPX (x).
n→+∞ n→+∞

De plus, par théorème de convergence dominée,


Z Z Z
lim fp (x)dPX (x) = lim gp (x)dPX (x) = 1]−∞,t] (x)dPX = P(X ≤ t).
p→+∞ p→+∞
Z
En fait, gp converge simplement vers 1]−∞,t[ mais comme P(X = t) = 0, on a 1]−∞,t[ (x)dPX =
Z
1]−∞,t] (x)dPX .
Soit ε > 0. On xe p assez grand tel que
Z Z
P(X ≤ t) − ε/2 ≤ gp (x)dPX (x) ≤ fp (x)dPX (x) ≤ P(X ≤ t) + ε/2.

Soit alors N ∈ N tel que pour tout n ≥ N assez grand, on a


Z Z Z Z
gp (x)dPX (x) − ε/2 ≤ gp (x)dPXn (x) ≤ fp (x)dPXn (x) ≤ fp (x)dPX (x) + ε/2.

42
On en déduit alors que pour tout n ≥ N , on a

P(X ≤ t) − ε ≤ P(Xn ≤ t) ≤ P(X ≤ t) + ε.

Ceci montre bien que lim P(Xn ≤ t) = P(X ≤ t), c'est-à-dire que Xn converge en loi vers X .
n→+∞
Réciproquement, on suppose que Xn converge en loi vers X , c'est-à-dire que
Z Z
lim 1]−∞,t] (x)dPXn = 1]−∞,t] (x)dPX (x)
n→+∞

pour tout t ∈ R tel que P(Xn = t) = 0. On veut montrer la convergence étroite de PXn
vers PX et on choisit de prouver la convergence vague qui lui est équivalente.
Z Soit donc f une
fonction continue à support compact sur R. Il sut de vérier que lim f (x)dPXn (x) =
Z n→+∞

f (x)dPX (x).
Soient a < b deux points de continuité de la fonction de répartition de X . Comme 1]a,b] =
1]−∞,b] − 1]−∞,a] , on obtient que
Z Z
lim 1]a,b] (x)dPXn (x) = 1]a,b] (x)dPX (x).
n→+∞

K
X
De même, pour toute combinaison linéaire nie s = αk 1]ak ,bk ] avec K ∈ N∗ , α1 , · · · , αK ∈ R,
k=1
ak < bk pour tout 1 ≤ k ≤ K et P(X = ak ) = P(X = bk ) = 0, on a
Z Z
lim s(x)dPXn (x) = s(x)dPX (x).
n→+∞

Il reste à remarquer que f continue et à support compact est réglée, c'est-à-dire est limite uni-
forme d'une suite de fonctions en escalier du type précédent (on peut bien choisir les extrémités
des intervalles ailleurs que parmi les points de discontinuité de la fonction de répartition de
X car ceux-ci sont en nombre dénombrable). Soit donc (sp )p∈N une telle suite de fonctions en
escalier qui converge uniformément vers f . On xe ε > 0 et on xe p assez grand pour que
kf − sp k∞ = sup |f (x) − sp (x)| ≤ ε/3. On a alors
x∈R
Z Z Z Z Z Z Z Z

f dPXn − f dPX ≤ f dPXn − sp dPXn + sp dPXn − sp dPX + sp dPX − f dPX

Z Z Z Z

≤ |f − sp |dPXn + sp dPXn − sp dPX + |f − sp |dPX
Z Z

≤ kf − sp k∞ + sp dPXn − sp dPX + kf − sp k∞
Z Z
ε
≤ 2 + sp dPXn − sp dPX .
3
Z Z Z


Il reste à remarquer que pour n assez grand, sp dPXn − sp dPX ≤ ε/3 car lim sp dPXn =
n→+∞
Z
sp dPX .

43
Z Z Z

On obtient alors pour n assez grand f dPXn − f dPX ≤ ε, c'est-à-dire lim f dPXn =
n→+∞
Z
f dPX .2

Dans le cas des variables à valeurs entières, on dispose d'un critère plus simple pour montrer la
convergence en loi.

Proposition 3.5 (convergence en loi des variables à valeurs entières) Soient (X ) une
suite de variables aléatoires réelles à valeurs dans N et X un variable aléatoire à valeurs dans
n n∈N

N. Alors X converge en loi vers X si et seulement si pour tout k ∈ N, P(X = k) converge en


loi vers P(X = k).
n n

Démonstration. Supposons qu'on a convergence en loi. Alors si k ∈ N est xé,

1 1
P(Xn = k) = P(Xn ≤ k + ) − P(Xn ≤ k − )
2 2

donc P(Xn = k) converge vers P(X = k).


Réciproquement, si t ∈ R+ , alors

btc
X
P(Xn ≤ t) = P(Xn = k)
k=0

btc
X
donc P(Xn ≤ t) converge vers P(X = k) qui est égal à P(X ≤ t).2
k=0

Exemple. Soit pour tout n ∈ N∗ , Xn une variable de loi binomiale de paramètres n et pn


tels que npn = λn converge vers un réel λ > 0 lorsque n tend vers l'inni. Montrons qu'alors
loi
Xn → X où X est une variable de Poisson de moyenne λ.
En eet, pour tout k ∈ N, on a
   
n k n(n − 1) · · · (n − k + 1)pkn λn n−k
P(Xn = k) = p (1 − pn ) n−k
= 1−
k n k! n
k
  
(npn ) λn
∼ exp −(n − k) ln 1 −
n→+∞ k! n
λk
∼ exp(−λ).
n→+∞ k!

La proposition suivante montre que la convergence en loi est le plus faible de tous les modes
de convergence étudiés jusqu'à présent.

Proposition 3.6 (lien avec la convergence en probabilité) Soient (X ) une suite de


variables aléatoires réelles à valeurs dans R , d ≥ 1 et X un variable aléatoire réelle.
n n∈N
d

(a) Si X converge en probabilité vers X , alors on a aussi convergence en loi.


(b) Si X converge en loi vers une constante a, alors on a aussi convergence en probabilité.
n

44
Démonstration. (a) Méthode 1. On suppose que Xn converge en probabilité vers X . Alors
soit t ∈ R tel que P(X = t) = 0. On a pour tout ε > 0,

P(Xn ≤ t) ≤ P({Xn ≤ t} ∩ {|Xn − X| ≤ ε}) + P({Xn ≤ t} ∩ {|Xn − X| > ε})


≤ P(X ≤ (t + ε)) + P(|Xn − X| > ε).

Soit η > 0. Comme lim P(|Xn − X| > ε) = 0, pour n assez grand, on a P(|Xn − X| >
n→+∞
ε) < η/2. Notons par ailleurs que par continuité à droite de la fonction de répartition de X ,
on a lim P(X ≤ (t + ε)) = P(X ≤ t). Donc pour n assez grand et ε assez petit, on a P(X ≤
ε→0
(t + ε)) + η/2 ≤ P(X ≤ t) + η et

P(Xn ≤ t) ≤ P(X ≤ t) + η.

On s'intéresse à présent à la minoration de la probabilité P(Xn ≤ t). De la même manière, on a

P(X ≤ (t − ε)) − P(|Xn − X| > ε) ≤ P(Xn ≤ t).

Il reste à remarquer que puisque P(X = t) = 0, on a lim P(X ≤ (t − ε)) = P(X < t) = P(X ≤ t).
ε→0
Ainsi, pour n assez grand et ε > 0 assez petit, on obtient

P(X ≤ t) − η ≤ P(Xn ≤ t).

En conclusion, lim P(Xn ≤ t) = P(X ≤ t).


n→+∞
Méthode 2. On suppose que Xn converge en probabilité vers X . Alors supposons par l'absurde
que Xn ne converge pas en loi vers X . On utilise l'équivalence avec la convergence
Z étroite des lois
de probabilités et on se donne une fonction f continue et bornée telle que f dPXn ne converge
Z
pas vers f dPX . Quitte à extraire une sous-suite de PXn , on peut supposer qu'il existe ε > 0
tel que pour tout n ∈ N, on a
Z Z

f dPXn − f dPX > ε.

Or puisque Xn converge en probabilité vers X , soit (Xnk ) une sous-suite qui converge presque-
sûrement vers X . Par continuité de f , on a aussi que (f (Xnk )) converge presque-sûrement vers
f (X). On peut
Z appliquer le théorème de convergence dominée Z (car f est bornée) pour en déduire
que lim f dPXnk = lim E(f (Xnk )) = E(f (X)) = f dPX . Ceci contredit le fait que la
k→+∞ k→+∞
distance entre les deux intégrales est supposée supérieure à ε > 0 pour tout k ∈ N.

(b) On suppose que Xn converge en loi vers une constante a ∈ R. Alors si ε > 0,

P(|Xn − a| > ε) = 1 − P(Xn ≤ (a + ε)) + P(Xn < a − ε).

En particulier, (a + ε) est un point de continuité de la fonction de répartition de la variable


constante X = a donc

lim P(Xn ≤ (a + ε)) = P(a ≤ a + ε) = 1.


n→+∞

45
De plus, (a − ε/2) est aussi un point de continuité de la fonction de répartition de la variable
constante X = a donc

0 ≤ P(Xn < a − ε) ≤ P(Xn ≤ a − ε/2) → P(a ≤ a − ε/2) = 0.


n→+∞

En conclusion, on vient de montrer que lim P(|Xn − a| > ε) = 0, c'est-à-dire que Xn converge
n→+∞
en probabilité vers a.2

Remarque. La réciproque est fausse en général. Considérons par exemple X de loi de Ber-
noulli de paramètre 1/2 et pour tout n ∈ N, Xn = X . Alors Xn converge vers X en loi mais
aussi vers Y = (1 − X). Or Xn ne converge pas en probabilité vers Y car Y − Xn = 1 pour tout
n ∈ N.

Remarque. Passage en dimension supérieure : les convergences étroite, faible et vague se gé-
néralisent immédiatement en dimension supérieure. La dénition de la convergence en loi est la
suivante.

Dénition 3.7 (convergence en loi d'une suite de vecteurs aléatoires) Soient (X )


une suite de vecteurs aléatoires à valeurs dans R , d ≥ 1 et X un vecteur aléatoire. On dit
n n∈N
d

que (X ) converge en loi vers X si pour tout A ∈ B(R ) tel que P(X ∈ ∂A) = 0, on a
d

lim P(X ∈ A) = P(X ∈ A).


n n∈N

n
n→+∞

On peut montrer que les résultats d'équivalence entre convergence étroite et convergence vague
et entre la convergence en loi et la convergence étroite sont toujours vrais. Enn, la convergence
en probabilité implique toujours la convergence en loi.

3.2 Théorème de Lévy et théorème central limite


On a déni la convergence en loi via la convergence point par point des fonctions de ré-
partition. L'objet de cette partie est d'établir un autre critère plus puissant pour montrer la
convergence en loi : le theorème de Paul Lévy. On choisit à présent de caractériser les lois par
leurs fonctions caractéristiques et on va montrer que la convergence point par point des fonctions
caractéristiques est équivalente à la convergence en loi.

Théorème 3.8 (Théorème de P. Lévy) Soit (X ) une suite de variables aléatoires réelles.
On suppose que la fonction caractéristique ϕ converge simplement vers une fonction l continue
n n∈N

en zéro. Alors il existe une mesure de probabilité µ telle que l soit la fonction caractéristique
Xn

d'une variable X de loi µ et X converge en loi vers X .


n

Avant de prouver le théorème ci-dessus, on en déduit le corollaire qui nous sera le plus utile.

Corollaire 3.9 Soient (X ) une suite de variables aléatoires réelles et X une variable aléa-
toire réelle. On a l'équivalence :
n n∈N

loi
Xn → X ⇐⇒ ϕXn (u) → ϕX (u) ∀ u ∈ Rd .
n→+∞

46
Démonstration. On suppose que Xn converge en loi vers X . En particulier, si u ∈ R est xé,
la fonction x 7−→ eiux est continue et bornée sur R. Puisque PXn converge étroitement vers PX ,
on a Z Z
lim ϕXn (u) = lim eiux dPXn (x) = eiux dPX (x) = ϕX (u).
n→+∞ n→+∞

Réciproquement, on suppose que lim ϕXn (u) = ϕX (u). On applique alors le théorème de Lévy
n→+∞
avec le choix l = ϕX pour en déduire que Xn converge en loi vers une variable dont la fonction
caractéristique est ϕX , c'est-à-dire que Xn converge en loi vers X .2

Démonstration du théorème 3.8. La démonstration du théorème de Lévy repose essen-


tiellement sur des arguments d'analyse fonctionnelle. On admettra en particulier le résultat de
relative compacité suivant :

Lemme 3.10 (relative compacité pour la convergence étroite) Soit (µ ) une suite de
mesures de probabilité sur R telle que pour tout ε > 0, il existe A > 0 tel que sup µ ([−A, A] ) ≤
n n∈N
c
n

ε. Alors il existe une sous-suite (µ ) qui converge étroitement vers une certaine mesure de
n∈N

probabilité µ.
nk k∈N

Soit µn = PXn pour tout n ∈ N. Nous allons montrer que la suite de mesures (µn )n∈N converge
étroitement vers une mesure de probabilité µ dont la fonction caractéristique est l.
étape 1. Nous commençons par vérier que (µn )n∈N satisfait les hypothèses du lemme ci-dessus.
Soit donc A > 0. Montrons qu'il existe une constante K > 0 telle que
Z 1  u 
c
µn ([−A, A] ) ≤ K 1 − ReϕXn du. (3.2)
0 A
En eet, on utilise le fait que E est linéaire (donc commute avec la partie réelle) puis le théorème
de Fubini (qui permet de commuter E avec l'intégrale) pour montrer que
Z 1  u  Z 1
1 − ReϕXn du = (1 − E(ReeiuXn /A )du
0 A 0
Z 1   
uXn
= (1 − E cos du
0 A
Z 1    
uXn
=E 1 − cos du
0 A
  
A Xn
=E 1− sin
Xn A
   
sin(x)
≥E inf 1− 1Xn ∈[−A,A]c
x∈[−1,1]c x
1
= P(Xn ∈ [−A, A]c )
K
 
1 sin(x)
en posant = inf 1− > 0. La relation (3.2) est donc bien satisfaite. On re-
K x∈[−1,1]c x
marque à présent que par théorème de convergence dominée (puisque 0 ≤ (1−ReϕXn (u/A)) ≤ 1),
on a Z 1 Z 1
 u   u 
lim 1 − ReϕXn du = 1 − Re l du.
n→+∞ 0 A 0 A

47
Soit ε > 0. Pour n assez grand, on a d'après (3.2) et la convergence précédente
Z 1  u  ε
µn ([−A, A]c ) ≤ K 1 − Re l du + .
0 A 2

Par continuité de l en 0, on note que pour tout u ∈ [0, 1], lim (1 − Re l(u/A)) = (1 − l(0)) = 0
A→+∞
(notons que l(0) = 1 car l(0) = lim ϕXn (0) = lim 1). De plus, la fonction l, limite simple de
n→+∞ n→+∞
ϕXn , est bornée en module par 1. Donc on peut appliquer le théorème de convergence dominée
pour obtenir que
Z 1  u 
lim 1 − Re l du = 0.
A→+∞ 0 A
Pour A assez grand, on en déduit donc que µn ([−A, A]c ) ≤ ε.
étape 2. On montre que la suite (µn )n∈N converge étroitement. Puisque (µn )n∈N satisfait les
hypothèses du lemme 3.10, on en extrait une sous-suite (µnk )k∈N qui converge étroitement vers
une mesure µ. En particulier, pour tout u ∈ R, la fonction x 7−→ eiux est continue et bornée
donc Z Z
lim ϕXnk (u) = lim eiux dPXnk (x) = eiux dµ(x).
k→+∞ k→+∞

Or on a aussi lim ϕXnk (u) = l(u) donc l est la fonction caractéristique de µ.


k→+∞
On raisonne à présent par l'absurde : supposons que (µn )n∈N ne
Z convergeZpas étroitement
vers µ. Soit donc une fonction continue bornée f telle que lim f dµn 6= f dµ. Quitte à
Z n→+∞ Z

extraire, on peut supposer qu'il existe ε > 0 tel que f dµn − f dµ > ε. En utilisant le
lemme 3.10, on extrait une sous-suite (µn0k )k∈N qui converge étroitement vers une mesure ν .
D'après ce qui précède, on constate
Z que l estZla fonction
Z caractéristique de ν et aussi de µ donc
µ = ν . Pourtant, puisque lim f dµn0k = f dν = f dµ, on a
k→+∞
Z Z


0 = f dν − f dµ > ε > 0,

ce qui est absurde.


En conclusion, (µn )n∈N converge étroitement vers µ dont la fonction caractéristique est l.2

Exemple. Pour n ∈ N, soit Xn une variable gaussienne de moyenne mn et de variance σn2


et soit X une variable réelle. Nous allons montrer l'équivalence :

(Xn converge en loi) ⇐⇒ (les suites (mn )n∈N et (σn2 )n∈N convergent dans R). (3.3)

En particulier, (3.3) implique le corollaire suivant : dans le cas où Xn converge en loi, sa limite X
est nécessairement gaussienne de moyenne m = lim mn et de variance σ 2 = lim σn2 (notons
n→+∞ n→+∞
que lorsque σ 2 = 0, X est constante mais est toujours considérée comme une variable gaussienne
dégénérée).
Montrons tout d'abord le sens réciproque de l'équivalence (3.3). Il s'agit d'une conséquence
2 2
du théorème de Lévy : en eet, pour tout n ∈ N et tout u ∈ R, on a ϕXn (u) = eimn u e−σn u /2 .

48
En particulier, si lim mn = m ∈ R et lim σn2 = σ 2 ∈ R+ , on en déduit que lim ϕXn (u) =
n→+∞ n→+∞ n→+∞
2 2
eimu e−σ u /2 . Ceci montre que Xn converge en loi vers une variable de loi gaussienne de moyenne
m et de variance σ 2 .
Réciproquement, supposons que Xn converge en loi vers une variable X et montrons la
convergence des deux suites (mn )n∈N et (σn2 )n∈N . D'après le théorème de Lévy, la suite de
fonctions caractéristiques (ϕXn )n∈N converge simplement vers la fonction caractéristique ϕX .
En particulier,
√ 2 √
|ϕXn ( 2)| = e−σn → |ϕX ( 2)|.
n→+∞

Notons par ailleurs que cette limite ne peut être nulle car sinon, on aurait lim σn2 = +∞ donc
( n→+∞
1 si u = 0
lim ϕXn (u) = Ceci n'est pas possible car la limite simple de (ϕXn )n∈N est
n→+∞ 0 sinon.
supposée être une fonction caractéristique donc continue sur R. Ainsi, lim σn2 = σ 2 ∈ R+ avec
√ n→+∞
σ 2 = − ln(|ϕX ( 2)|).
Il reste à établir la convergence de (mn )n∈N . Notons que pour tout u ∈ R,
2 2 /2 2 u2 /2
eimn u = eσn u ϕXn (u) → eσ ϕX (u) = l(u).
n→+∞

La fonction limite l est continue et non identiquement nulle sur R+ . Donc soit a > 0 tel que
Z a
l(u)du 6= 0. Par théorème de convergence dominée, on remarque que
0
Z a Z a
imn u
e du → l(u)du 6= 0
0 n→+∞ 0
Z a
donc l'intégrale eimn u du est non nulle pour n assez grand. Un calcul direct de primitive
0
montre que Z a
imn eimn u du = eimn a − 1
0
donc
eimn a − 1 l(a) − 1
mn = R a im u → Ra .
i 0 e n du n→+∞
0 l(u)du
2 2
On obtient en conclusion que ϕXn (u) converge vers eimu e−σ u /2 donc par le théorème de Lévy,
la limite en loi de Xn est une variable gaussienne de moyenne m et de variance σ 2 .

Remarque. Pour toute variable X réelle positive presque-sûrement, on peut dénir sa trans-
formée de Laplace de la manière suivante :
(
R+ −→ R+
LX : 
u 7−→ E e−uX .

Cette fonction est bien dénie car si u ≥ 0, e−uX ≤ 1 est intégrable car inférieure à 1.
Lorsque toutes les variables considérées Xn , n ∈ N, sont réelles positives, on peut remplacer
dans le théorème de Lévy les fonctions caractéristiques par les transformées de Laplace, c'est-à-
dire que Xn converge en loi vers X si et seulement si LXn (u) −→ LX (u) pour tout u ≥ 0.

49
On peut par exemple remontrer la convergence d'une loi binomiale de paramètres n et pn où
lim npn = λ > 0 vers une variable de Poisson de moyenne λ en utilisant la version ci-dessus
n→+∞
du théorème de Lévy.

Remarque 2. Le théorème de Lévy s'applique également aux suites de vecteurs aléatoires


avec un énoncé en tout point identique.

Une conséquence fondamentale du théorème de Lévy est le théorème central limite : celui-ci
vient préciser la loi des grands nombres en donnant l'ordre de grandeur de la vitesse de conver-
gence de Sn /n vers E(X1 ) lorsque Sn est la somme de n variables i.i.d. de même loi que X1 .
Non seulement, le théorème central limite montre que cette vitesse est en n−1/2 mais il permet
également de mettre en lumière l'universalité de la loi gaussienne centrée réduite dans la mesure
où celle-ci apparaît naturellement dans les phénomènes qui font intervenir la somme d'un grand
nombre de variables aléatoires indépendantes et de même loi. Par rapport à la loi des grands
nombres de Kolmogorov, le théorème central limite nécessite une condition supplémentaire d'in-
tégrabilité de X12 .
Théorème 3.11 (théorème central limite) Soit (X ) une suite de variables aléatoires
n n∈N∗
i.i.d. de second moment ni (et non constantes). On note E(X ) = m, Var(X ) = σ > 0 et 2

S = X + · · · + X pour tout n ∈ N . Alors lorsque n tend vers l'inni, on a la convergence en


1 1

loi suivante :
n 1 n
√  
n S n loi
−m → N (0, 1)
σ n
où N (0, 1) désigne la loi gaussienne dite centrée réduite, c'est-à-dire de moyenne nulle et de
variance 1. En d'autres termes,
√ 
pour toutt ∈ R,
Z t
n Sn 2 /2 dx
P −m ≤t → e−x √ .
σ n n→+∞ −∞ 2π
Remarque. De manière équivalente, on a aussi la convergence en loi
 
√ Sn loi
n − m → N (0, σ 2 ).
n
√  
n Sn
Démonstration. On commence par calculer la fonction caractéristique de Tn = −m .
σ n
Soit u ∈ R. En utilisant le fait que X1 , · · · , Xn sont i.i.d., on a
  √  
 nu Sn
ϕTn (u) = E e iuTn
= E exp i −m
σ n
n
!
√ Y iuXk

= exp(−im nu/σ)E eσ n
k=1
  n
− σimu
√ u
= e n ϕX1 √ .
σ n
Puisque X1 est de carré intégrable, la fonction ϕX1 est de classe C 2 et il en est de même de la
fonction h : u 7−→ e−imu ϕX1 (u). De plus, on note que h(0) = 1,

h0 (0) = −imϕX1 (0) + ϕ0X1 (0) = −im + iE(X1 ) = 0

50
et
h00 (0) = −m2 ϕX1 (0) − imϕ0X1 (0) − imE(iX1 ) − E(X12 ) = −(E(X12 ) − m2 ) = −σ 2 .

Par conséquent, en appliquant la formule de Taylor-Young à l'ordre 2 en 0 à la fonction h, on


obtient
σ2
h(u) = e−imu ϕX1 (u) = 1 − u2 + o(u2 ).
u→0 2
Ainsi, on en déduit que
  n   n
− imu
√ u u
e σ n ϕX1 √ = h √
σ n σ n
  n
u2 1
= 1− +o .
n→+∞ 2n n
2
 v n n
Pour déduire que lim ϕTn (u) = e−u /2 , on utilise le fait que lim 1 + = el pour toute
n→+∞ n→∞ n
suite (vn )n∈N∗ à valeurs complexes et convergeant vers l. En admettant ce résultat non trivial,
2
on obtient que pour tout u ∈ R, lim ϕTn (u) = e−u /2 . On reconnaît alors la fonction caracté-
n→+∞
ristique de la loi gaussienne centrée réduite qui nous permet d'en déduire la convergence en loi
requise.
Montrons enn le petit résultat analytique utilisé ci-dessus : soit (vn )n∈N∗ une suite à valeurs
complexes convergeant vers l. Alors par la formule du binôme de Newton, on a
 vn n X n(n − 1) · · · (n − k + 1) vnk
n
1+ = .
n nk k!
k=0

On peut voir la somme ci-dessus comme une intégrale de la variable k . L'intégrande converge
lk (2|l|)k
simplement vers et est dominée par pour n assez grand, qui est sommable. Ainsi, en
k! k!
appliquant le théorème de convergence dominée, on obtient

 v n n X l k
+∞
lim 1+ = = el ,
n→+∞ n k!
k=0

ce qui montre le résultat souhaité. 2

On dispose d'une version multidimensionnelle du théorème central limite.

Théorème 3.12 (théorème central limite multidimensionnel) Soit (X ) une suite


n n∈N∗
de vecteurs aléatoires i.i.d. dont la matrice de covariance commune Γ est bien dénie. On note
S = X + · · · + X pour tout n ∈ N . Alors lorsque n tend vers l'inni, on a la convergence en

loi suivante :
n 1 n

 
√ S n loi
n − E(X1 ) → N (0, Γ)
n
où N (0, Γ) désigne la loi gaussienne multidimensionnelle centrée et de matrice de covariance Γ.
Remarque. Le théorème central limite a de nombreuses applications qu'on ne développera pas
ici. À titre indicatif, en voici quelques-unes.

51
 Approximation d'une loi binomiale : il y a deux régimes. En pratique, pour n ∈ N∗ et
p ∈]0, 1[, dès que np ≥ 10 et n(1 − p) ≥ 10, on peut remplacer dans les calculs approchés
une loi binomiale de paramètres n et p par une loi gaussienne de moyenne np et de
variance np(1 − p). Si au contraire, np reste petit (concrètement n ≥ 30 et np ≤ 5), alors
la bonne approximation de la loi binomiale de paramètres n et p est une loi de Poisson
de paramètre np.
 Détermination d'intervalles de conance : le théorème central limite fournit le moyen de
construire un intervalle de conance de taux donné pour l'approximation de la moyenne
théorique par la moyenne empirique d'un n-échantillon. On renvoie aux précédents cours
de probabilités et statistique pour plus de détails.
 Test d'adéquation à une loi du χ2 : on dispose d'un n-échantillon observé (x1 , · · · , xn )
associé à un n-échantillon théorique (X1 , · · · , Xn ). On se donne par ailleurs un candidat µ
pour la loi commune des Xk , 1 ≤ k ≤ n. Ce test permet d'accepter ou rejeter l'hypothèse
que les Xk suivent la loi µ. Il repose sur la donnée d'une statistique de test dont la
convergence vers une loi du χ2 est montrée via l'utilisation du théorème central limite
multidimensionnel. Notons enn que lorsqu'on a aaire à un n-échantillon de couples
réels, il existe un test d'indépendance du χ2 qui permet d'accepter ou rejeter l'hypothèse
que les deux coordonnées sont indépendantes.

52
Chapitre 4

Espérance conditionnelle

Soit (Ω, F, P) une espace de probabilité. La tribu F ou ensemble des événements représente
la totalité de l'information dont on dispose (passée, présente, future). Dans la réalité, personne
n'est omniscient, on ne connaît pas le futur et on ne connaît pas non plus toutes les données
extérieures qui pourraient inuencer la valeur d'une variable aléatoire. Le mieux que l'on puisse
faire est de proposer une prédiction d'une variable aléatoire avec la quantité d'information dont
on dispose. Donnons trois exemples :

 On relève chaque jour le cours d'une action à la fermeture de la Bourse. Que sera le
cours demain, sachant qu'on connaît le cours d'aujourd'hui et des jours passés ainsi que
certaines annonces économiques conjoncturelles ?
 On relève chaque matin la température et le taux de précipitations à Rouen. Peut-on
prédire le temps qu'il fera demain et les jours suivants avec cette seule donnée jusqu'à
aujourd'hui ainsi que la carte des cyclones et anticyclones ?
 Je m'engage dans une partie de roulette au casino. Que puis-je dire de mon résultat à la
prochaine partie en connaissant uniquement les précédents numéros qui sont tombés et
en ignorant si le jeu est truqué ou non ?

Restreindre l'information signie remplacer la tribu F par une sous-tribu G . L'espérance condi-
tionnelle d'une variable X sachant G sera alors le meilleur prédicteur possible de X qui soit
mesurable par rapport à G (c'est-à-dire que la seule donnée de G permet de reconstituer la va-
riable en question) et qui soit susamment proche de X dans un sens à préciser. Reprenons
le premier exemple et notons Xi le cours de l'action au jour i, i ∈ N. L'information dont on
dispose au jour n est la tribu G = σ(X0 , · · · , Xn , H) engendrée par les variables aléatoires Xi ,
0 ≤ i ≤ n, ainsi que par la sous-tribu H des événements économiques conjoncturels. Le meilleur
représentant possible du cours de l'action de demain, noté Xn+1 sera l'espérance conditionnelle
de Xn+1 sachant G , notée E(Xn+1 |G).

Le but de ce chapitre est de construire la notion d'espérance conditionnelle d'une variable


aléatoire et d'en étudier les principales propriétés.

53
4.1 Dénition de l'espérance conditionnelle
Soient X une variable aléatoire réelle et G une sous-tribu de F . Le but est donc de dénir
l'espérance conditionnelle E(X|G). On débute par quelques exemples simples.
 On suppose X G -mesurable. Ceci signie que l'information contenue dans G sut à
reconstituer la variable X (par exemple, si Ω est l'ensemble des individus sur Terre, G
la tribu engendrée par les nationalités des individus, alors on sait retrouver le nom du
continent sur lequel se trouve chaque individu). Le meilleur représentant E(X|G) de X
sachant G est alors X lui-même.
 On suppose X indépendant de la tribu G . Ceci signie que l'information contenue dans
G n'est d'aucune utilité pour reconstituer X (en reprenant l'exemple précédent, on ne
sait rien sur qui est gaucher et qui est droitier lorsqu'on dispose juste des nationalités des
individus). Le meilleur représentant E(X|G) de X sachant G est dans ce cas la variable
constante E(X).
 On suppose G = σ(B) où B est un événement tel que 0 < P(B) < 1 (par exemple, Ω est
à nouveau l'ensemble des individus sur Terre, B = {femmes} et la variable X est la taille
d'un individu). Alors puisque les variables G -mesurables sont celles qui sont constantes
sur B et sur Ω \ B , le meilleur candidat possible pour E(X|G) est

E(X1B ) E(X1B c )
E(X|G) = 1B + 1B c .
P(B) P(B c )

En conclusion, les cas extrêmes sont X lui-même et E(X). Dans le cas général, E(X|G) sera un
intermédiaire entre la situation la plus favorable (X entièrement connu) et la plus défavorable
(X totalement inconnu, hormis via son espérance).
On constate qu'il est plus facile de commmencer par dénir E(X|G) lorsque X a un second
moment ni (c'est-à-dire que E(X 2 ) < +∞) car on peut alors proter de la structure d'espace
de Hilbert de L2 (Ω, F, P) et en particulier de la notion de projection orthogonale.
On rappelle que L2 (Ω, F, P) est l'espace vectoriel des variables aléatoires de carré inté-
grable (quotienté par la relation d'équivalence de l'égalité presque-sûre) muni du produit scalaire
hX, Y i = E(XY ) et de la distance (complète) associée. En particulier, l'ensemble des variables
G -mesurables de carré intégrable, noté L2 (Ω, G, P), est un sous-espace vectoriel de L2 (Ω, F, P)
(car la G -mesurabilité est stable par addition et multiplication par un scalaire)

Dénition 4.1 (espérance conditionnelle dans Soit


L2 ) (c'est-à-dire X
X ∈ L2 (Ω, F, P)
est une variable aléatoire réelle telle que ). L'
E(X 2 ) < +∞ de X sachant
espérance conditionnelle
G , notée E(X|G), est une variable aléatoire de (c'est-à-dire -mesurable et de carré
L (Ω, G, P)
2
G
intégrable) dénie comme l'image de la variable par la projection orthogonale sur le sous-espace
X
vectoriel L (Ω, G, P).
2

Remarque. De manière équivalente, E(X|G) est l'unique variable aléatoire G -mesurable et de


carré intégrable qui satisfait
 
inf E (X − Y )2 = E (X − E(X|G))2 .
Y ∈L2 (Ω,G,P)

54
La variable E(X|G) n'est unique qu'à un ensemble négligeable près. Aussi, tout calcul faisant
intervenir E(X|G) ne peut être eectué que presque-sûrement.

On donne ci-dessous une autre caractérisation de l'espérance conditionnelle d'une variable L2


que nous exploiterons plus tard pour étendre la dénition aux variables de L1 .

Proposition 4.2 (caractérisation de l'espérance conditionnelle dans Soit X une va-


L2 )
riable aléatoire de carré intégrable. Les trois assertions ci-dessous sont équivalentes et caracté-
risent l'espérance conditionnelle E(X|G) parmi les variables G-mesurables et de carré intégrable.
(i) pour toute variable Z ∈ L (Ω, G, P), E(XZ) = E(E(X|G)Z) ;
2

(ii) pour toute variable Z bornée et G-mesurable, E(XZ) = E(E(X|G)Z) ;


(iii) pour tout événement A ∈ G, E(X1 ) = E(E(X|G)1 ).
A A

Démonstration. Caractérisation de E(X|G). Montrons tout d'abord que (i) caractérise l'es-
pérance conditionnelle, c'est-à-dire que E(X|G) est l'unique variable Y G -mesurable et de carré
intégrable telle que pour tout Z ∈ L2 (Ω, G, P), on ait E(XZ) = E(Y Z).
En eet, comme projection orthogonale de X sur L2 (Ω, G, P), E(X|G) est l'unique Y de
L2 (Ω, G, P) qui satisfait h(X −Y ), ZiL2 = 0 pour tout Z ∈ L2 (Ω, G, P). Il sut alors de remarquer
que
h(X − Y ), ZiL2 = 0 ⇐⇒ E((X − Y )Z) = 0 ⇐⇒ E(XZ) = E(Y Z).

équivalence des trois assertions. On souhaite à présent montrer l'équivalence entre (i), (ii) et
(iii). On a tout d'abord les implications immédiates (i) =⇒ (ii) et (ii) =⇒ (iii) puisque toute
variable bornée est de carré intégrable et toute fonction indicatrice est bornée.
Il reste à montrer que (iii) implique (i). On suppose donc que pour tout A ∈ G , la fonction
indicatrice 1A satisfait E(X1A ) = E(E(X|G)1A ). Par combinaison linéaire, on étend l'égalité à
toute fonction simple G -mesurable. Soit Z une variable bornée G -mesurable. Alors Z est limite
presque-sûre d'une suite bornée de fonctions simples (Sn )n∈N G -mesurables. En passant à la
limite dans l'égalité E(XSn ) = E(E(X|G)Sn ) par théorème de convergence dominée, on obtient
que E(XZ) = E(E(X|G)Z). Il reste enn à étendre l'égalité à toute variable Z de L2 (Ω, G, P) : on
constate que Z est limite simple de la suite de variables bornées G -mesurables, Zn = Z1|Z|≤n ,
n ∈ N. À nouveau par théorème de convergence dominée, l'égalité E(XZn ) = E(E(X|G)Zn )
implique lorsque n tend vers l'inni l'égalité E(XZ) = E(E(X|G)Z).2

On établit quelques propriétés fondamentales de l'espérance conditionnelle sur L2 .

Proposition 4.3 (propriétés de l'espérance conditionnelle dans L2 ) (a) . Pour


Linéarité
tous X, Y ∈ L (Ω, F, P), α ∈ R,
2

E(αX + Y |G) = αE(X|G) + E(Y |G) p.s. ;

(b) Positivité . Pour tout X ∈ L (Ω, F, P),


2

X ≥ 0 p.s. =⇒ E(X|G) ≥ 0 p.s. ;

55
(c) Croissance . Pour tous X, Y ∈ L (Ω, F, P),
2

X ≥ Y p.s. =⇒ E(X|G) ≥ E(Y |G) p.s. .

Démonstration. (a) E(αX + Y |G) est la projection orthogonale de (αX + Y ) sur L2 (Ω, G, P).
Or la projection orthogonale est un endomorphisme de L2 (Ω, F, P) donc

E(αX + Y |G) = αE(X|G) + E(Y |G) p.s. .


(b) On considère l'événement A = {E(X|G) < 0}. Comme E(X|G) est G -mesurable, Alors en
appliquant le (ii) de la proposition 4.2, on obtient que

E(X1A ) = E(E(X|G)1A ).

Le terme de gauche est l'espérance d'un produit de variables positives donc est positif. Le terme
de droite est l'espérance d'une variable qui est soit nulle, soit strictement négative donc est
négatif. Ainsi, on a E(E(X|G)1A ) = 0 et puisque la variable à l'intérieur est négative, presque-
sûrement E(X|G)1A = 0. Il reste à remarquer que ceci implique que P(A) = 0 (car sinon le pro-
duit serait strictement négatif sur un événement de probabilité non nulle) et donc E(X|G) ≥ 0
presque-sûrement.
(c) On applique la propriété de positivité à la variable (X −Y ). On obtient que E((X −Y )|G) ≥ 0
p.s., ce qui fournit le résultat voulu en utilisant la linéarité de l'espérance conditionnelle.2

La condition d'être de carré intégrable est trop restrictive et l'on souhaite pouvoir manier une
espérance conditionnelle lorsque la variable est simplement intégrable. On se propose donc de
prolonger la dénition établie dans L2 .

Dénition 4.4 (espérance conditionnelle dans Soit X ∈ L (Ω, F, P) (c'est-à-dire X


L1 ) 1

est une variable aléatoire réelle telle que ). Alors il existe une unique (à un en-
E|X| < +∞
semble négligeable près) variable aléatoire notée et appelée espérance conditionnelle de
E(X|G)
X sachant G satisfaisant les deux conditions ci-dessous.
(C1) E(X|G) ∈ L (Ω, G, P) (c'est-à-dire est une variable G -mesurable et intégrable);
1

(C2) pour tout A ∈ G ,


E(X1A ) = E(E(X|G)1A ).

Démonstration. Existence. On commence par montrer l'existence de l'espérance condition-


nelle avant d'en vérier l'unicité.
Cas 1 : X bornée . Si X est bornée, alors elle est de carré intégrable donc E(X|G) existe et satisfait
bien (C1) et (C2).
Cas 2 : X positive . On suppose X positive et intégrable et on pose Xn = X1[0,n] (X) pour tout
n ∈ N. Alors pour tout n ∈ N, Xn est bornée par n et la suite (Xn )n∈N converge en crois-
sant vers X . On peut donc considérer Yn = E(Xn |G) d'après le cas 1. Pour n ∈ N, comme
Xn ≤ Xn+1 , on a aussi Yn ≤ Yn+1 presque-sûrement par croissance de l'espérance condition-
nelle. Soit alors Y la limite presque-sûre dans [0, +∞] de la suite croissante (Yn )n∈N . La variable

56
Y est G -mesurable comme limite presque-sûre d'une suite de variables G -mesurables. De plus, si
A ∈ G , en appliquant (iii) de la proposition 4.2 à la variable Xn , on a

E(Xn 1A ) = E(E(Xn |G)1A ) = E(Yn 1A ).

Par application du théorème de convergence monotone de Beppo-Levi, on a lim E(Xn 1A ) =


n→+∞
E(X1A ) et lim E(Yn 1A ) = E(Y 1A ). Ainsi,
n→+∞

E(X1A ) = E(Y 1A ),

ce qui montre que Y est intégrable de même espérance que X (en prenant A = Ω) et que Y
satisfait les conditions (C1) et (C2) de la dénition.
Cas 3 : X intégrable de signe quelconque . On considère X+ = max(X, 0) et X− = max(−X, 0) et
on rappelle l'égalité classique X = X+ −X− . Les espérances conditionnelles de X+ et X− existent
d'après le cas 2 et on les note E(X+ |G) et E(X− |G). Montrons qu'alors, Y = E(X+ |G)−E(X− |G)
vérie les conditions (C1) et (C2). En eet, Y est G -mesurable et intégrable comme diérence
de deux variables G -mesurables et intégrables. De plus, si A ∈ G ,

E(X1A ) = E(X+ 1A ) − E(X− 1A ) = E(E(X+ |G)1A ) − E(E(X− |G)1A ) = E(Y 1A ).

La variable Y satisfait donc les deux conditions (C1) et (C2).

Unicité.Soient Y1 et Y2 deux variables qui satisfont (C1) et (C2). Alors considérons l'évé-
nement A = {Y1 ≤ Y2 }. D'après la condition (C2) appliquée à Y1 et à Y2 , on a

E((Y2 − Y1 )1{Y2 ≥Y1 } ) = E(X1A ) − E(X1A ) = 0.

La variable (Y2 − Y1 )1{Y2 ≥Y1 } est positive et d'espérance nulle donc elle est nulle presque-
sûrement. Ainsi, on a avec probabilité 1, Y1 ≤ Y2 . De même, par symétrie, on montre que
Y1 ≥ Y2 avec probabilité 1 donc Y1 = Y2 presque-sûrement.2

Remarque 1. Dans la démonstration précédente, on a en fait également construit E(X|G)


pour X une variable aléatoire positive non nécessairement intégrable. La variable E(X|G) prend
alors ses valeurs dans [0, +∞].

Remarque 2. De manière équivalente, on aurait pu également dénir E(X|G) comme la dérivée


de Radon-Nikodym de la mesure P : F −→ R+ par rapport à la mesure P|G : G −→ R+ .

Exemple 0. Cas où G est la tribu grossière. Si G = {∅, Ω} (ce qui signie qu'aucune information
ne se trouve dans G ), alors pour tout X ∈ L1 (Ω, F, P), E(X|{∅, Ω}) = E(X) presque-sûrement.

Exemple 1. Cas où X est G-mesurable. Si X est intégrable et G-mesurable, alors E(X|G) = X


presque-sûrement. En eet, X satisfait clairement les deux conditions (C1) et (C2).

57
Exemple 2. Cas où G est engendrée par un événement. Soit B un événement tel que P(B) > 0
et P(B ) > 0. Rappelons que σ(B) = {∅, Ω, B, B c }. Alors pour tout X ∈ L1 (Ω, F, P),
c

E(X1B ) E(X1B c )
E(X|σ(B)) = 1B + 1B c p.s. .
P(B) P(B c )
E(X1B ) E(X1B c )
En eet, posons Y = 1B + 1B c et vérions que Y satisfait les conditions (C1)
P(B) P(B c )
et (C2). La variable Y est combinaison linéaire de 1B et 1B c donc est bien σ(B)-mesurable. Elle
prend au plus deux valeurs donc est bornée et intégrable. Enn, l'égalité de (C2) est trivialement
satisfaite lorsque A = ∅ ou A = Ω. Lorsque A = B , on a
E(X1B )
E(Y 1B ) = E (1B ) = E(X1B ).
P(B)
On procède de même lorsque A = B c . En conclusion, Y est bien l'espérance conditionnelle de
X sachant σ(B).

Exemple 3. Cas où G est engendrée par une variable aléatoire Y . Lorsque G = σ(Y ), on
note E(X|G) = E(X|Y ). On rappelle que d'après le lemme de Doob-Dynkin, toute variable
σ(Y )-mesurable s'écrit f (Y ) où f : R −→ R est une fonction mesurable. Donc E(X|Y ) est de la
forme f (Y ) presque-sûrement.

Exemple 3.a. Sous-cas où Y prend un nombre ni ou dénombrable


X
de valeurs. Soit (y ) une
n n∈N
suite de réels telle que P(Y = yn ) > 0 pour tout n ∈ N et P(Y = yn ) = 1. Alors montrons
n∈N
que
X E(X1{Y =yn } )
E(X|Y ) = 1 (Y ) p.s. .
P(Y = yn ) {yn }
n∈N

Notons S la somme à droite de l'égalité ci-dessus. La variable S est bien σ(Y )-mesurable comme
limite presque-sûre d'une suite de combinaisons linéaires de fonctions indicatrices d'événements
σ(Y )-mesurables. De plus, si A ∈ σ(Y ), soit B ∈ B(R) tel que A = {Y ∈ B}. Alors en notant
I = {n ∈ N : yn ∈ B}, on remarque que A est l'union disjointe des événements {Y = yn } pour
n ∈ I . Donc
X X
E(X1A ) = E(X 1{yn } (Y )) = E(X1{yn } (Y )).
n∈I n∈I
D'autre part,
" # ! !
X E(X1{Y =yn } ) X E(X1{Y =yn } )
E(S1A ) = E 1 (Y ) 1A = E 1 (Y )
P(Y = yn ) {yn } P(Y = yn ) {yn }
n∈N n∈I
X E(X1{Y =yn } )
= E(1{yn } (Y ))
P(Y = yn )
n∈I
X
= E(X1{yn } (Y )).
n∈I

On vient donc de montrer que E(X1A ) = E(S1A ) pour tout A ∈ σ(Y ) et en particulier pour
A = Ω, on obtient que S est intégrable de même moyenne que X . Ainsi, S vérie les conditions

58
(C1) et (C2) de la dénition 4.4 donc est bien l'espérance conditionnelle de X .

Exemple 3.b. Sous-cas où le couple (X, Y ) admet une densité. Soit f (X,Y ) une densité du
couple (X, Y ). On suppose que X est intégrable. Alors montrons que
R
xf(X,Y ) (x, Y )dx
E(X|Y ) = R p.s. .
f(X,Y ) (x, Y )dx

Notons S la variable à droite de l'égalité ci-dessus. S s'écrit g(Y ) avec


R
xf(X,Y ) (x, y)dx
g(y) = R , y ∈ R.
f(X,Y ) (x, y)dx

D'après le théorème de Fubini, g est bien mesurable donc S est σ(Y )-mesurable. De plus, si
A ∈ σ(Y ), soit B ∈ B(R) tel que A = {Y ∈ B}. Alors en appliquant le théorème de Fubini, on a
R  ZZ R
xf(X,Y ) (x, Y )dx 0 xf(X,Y ) (x, y)dx
E(S1B (Y )) = E R 1B (Y ) = f(X,Y ) (x , y) R 1B (y)dx0 dy
f(X,Y ) (x, Y )dx f(X,Y ) (x, y)dx
ZZ R
f(X,Y ) (x0 , y)dx0
= xf(X,Y ) (x, y) R 1B (y)dxdy
f(X,Y ) (x, y)dx
ZZ
= xf(X,Y ) (x, y)1B (y)dxdy

= E(X1B (Y )).

Ainsi, S est intégrable (en prenant B = R ci-dessus) et vérie les conditions (C1) et (C2) de la
dénition 4.4 donc est bien E(X|Y ) presque-sûrement.

On conclut cette partie en établissant l'analogue de la proposition 4.2 dans le cas L1 , avec
une démonstration en tout point identique à celle de la proposition 4.2.

Proposition 4.5 (caractérisation de l'espérance conditionnelle dans Soit X une va-


L1 )
riable aléatoire intégrable. Les trois assertions ci-dessous sont équivalentes et caractérisent l'es-
pérance conditionnelle E(X|G) parmi les variables G-mesurables et intégrables.
(i) pour toute variable Z G-mesurable telle que XZ soit intégrable, E(XZ) = E(E(X|G)Z) ;
(ii) pour toute variable Z bornée et G-mesurable, E(XZ) = E(E(X|G)Z) ;
(iii) pour tout événement A ∈ G, E(X1 ) = E(E(X|G)1 ).
A A

4.2 Propriétés de l'espérance conditionnelle


On commence par étendre au cas de l'espérance conditionnelle dans L1 certaines propriétés
vues précédemment dans L2 . On montre par ailleurs que tous les résultats classiques liés à la
théorie de l'intégration (inégalité de Jensen, théorèmes de convergence) ont naturellement des
versions conditionnelles.

Proposition 4.6 (propriétés de l'espérance conditionnelle dans L1 ) Soient X, Y ∈ L (Ω, F, P).


1

59
(a) Linéarité . Pour tout α ∈ R,
E(αX + Y |G) = αE(X|G) + E(Y |G) p.s. ;

(b) Positivité . X ≥ 0 p.s. =⇒ E(X|G) ≥ 0 p.s. ;


(c) Croissance . X ≥ Y p.s. =⇒ E(X|G) ≥ E(Y |G) p.s. ;
(d) Préservation de la moyenne . E [E(X|G)] = E(X) ;
(e) Inégalité de Jensen conditionnelle . Soit h : R −→ R une fonction convexe. Alors
h (E(X|G)) ≤ E(h(X)|G) p.s. ;

(f) Préservation des Lp . Soit p ≥ 1.


X ∈ Lp (Ω, F, P) =⇒ E(X|G) ∈ Lp (Ω, F, P) et E (|E(X|G)|p ) ≤ E (|X|p ) ;

(g) Convergence monotone conditionnelle . Soit (X ) une suite croissante de va-


riables positives convergeant vers X . Alors E(X |G) converge vers E(X|G) presque-sûrement;
n n∈N

(h) . Soit (X ) une suite de variables positives. Alors


n
Lemme de Fatou conditionnel n n∈N

E(lim inf Xn |G) ≤ lim inf E(Xn |G) p.s. ;


n→+∞ n→+∞

(i) Convergence dominée conditionnelle . Soit (X ) une suite de variables qui converge
presque-sûrement vers X et telle qu'il existe Z intégrable avec |X | ≤ Z pour tout n ∈ N.
n n∈N

Alors E(X |G) converge presque-sûrement vers E(X|G).


n

Démonstration. (a) On constate que αE(X|G) + E(Y |G) est une variable G -mesurable comme
combinaison linéaire de variables G -mesurables. De plus, si A ∈ G , on a

E((αX+Y )1A ) = αE(X1A )+E(Y 1A ) = αE(E(X|G)1A )+E(E(Y |G)1A ) = E((αE(X|G)+E(Y |G))1A ).

Donc αE(X|G) + E(Y |G) vérie les deux conditions (C1) et (C2) de la dénition 4.4. Par unicité
de l'espérance conditionnelle, on en déduit que

E(αX + Y |G) = αE(X|G) + E(Y |G) p.s. .


(b)(c) Les preuves déjà vues dans le cas L2 s'adaptent directement.
(d) On applique la condition (C2) de la dénition à A = Ω et on obtient bien E(E(X|G)) = E(X).
(e) La fonction h convexe s'écrit comme la borne supérieure d'une famille dénombrable de fonc-
tions anes (prendre par exemple les équations des tangentes à droite en tous les x rationnels).
Soient donc deux suites réelles (an )n∈N et (bn )n∈N telles que h(x) = sup(an x + bn ) pour tout
n∈N
x ∈ R. Alors pour tout n ∈ N,

an E(X|G) + bn = E(an X + bn |G) ≤ E(h(X)|G) p.s.

en utilisant la linéarité et la croissance de E(·|G). En prenant la borne supérieure dans l'inégalité


précédente, on obtient bien
h(E(X|G)) ≤ E(h(X)|G) p.s. .

60
(f) On applique (f) à la fonction convexe h(x) = |x|p , x ∈ R. On constate alors que

|E(X|G)|p ≤ E(|X|p |G) p.s. .

En prenant l'espérance dans l'inégalité précédente et en appliquant (d) à la variable |X|p , on


obtient
E(|E(X|G)|p ) ≤ E(|X|p ).

Donc si X est dans Lp , il en est de même pour E(X|G).


(g) Par croissance de E(·|G) (voir (c)), la suite de variables positives (E(Xn |G)n∈N est croissante
presque-sûrement. Soit donc Y sa limite presque-sûre dans [0, +∞]. En particulier, Y est G -
mesurable comme limite d'une suite de variables G -mesurables. De plus, si A ∈ G , on a par la
condition (C2) de la dénition 4.4, pour tout n ∈ N,

E(Xn 1A ) = E(E(Xn |G)1A ).

On applique le théorème de convergence monotone classique aux termes de gauche et de droite


pour obtenir à la limite E(X1A ) = E(Y 1A ). Ainsi Y satisfait la condition (C2) et est intégrable
(en prenant A = Ω) donc Y = E(X|G) presque-sûrement.
(h) On applique le théorème de convergence monotone conditionnel à la suite croissante de
variables positives Zn = inf Xk , n ∈ N. En particulier, comme E(Zn ) ≤ inf E(Xk ) pour tout
k≥n k≥n
n ∈ N, On obtient

E(lim inf Xn ) = E( lim inf Xk ) = lim E(Zn ) ≤ lim inf E(Xk ) = lim inf E(Xn ).
n→+∞ n→+∞ k≥n n→+∞ n→+∞ k≥n n→+∞

(i) On note tout d'abord en passant à la limite dans l'inégalité |Xn | ≤ Z que |Xn − X| ≤ 2Z
presque-sûrement et donc que |Xn − X| est intégrable pour tout n ∈ N. On applique alors le
lemme de Fatou conditionnel à la suite de variables positives (2Z − |Xn − X|)n∈N . On obtient

E(2Z|G) = E(lim inf (2Z − |Xn − X|)|G) ≤ lim inf E(2Z − |Xn − X||G)
n→+∞ n→+∞

= E(2Z|G) − lim sup E(|Xn − X||G) p.s. .


n→+∞

Ainsi, on obtient que

0 ≤ lim inf E(|Xn − X||G) ≤ lim sup E(|Xn − X||G) ≤ 0 p.s.


n→+∞ n→+∞

donc E(|Xn − X||G) converge presque-sûrement vers 0. Il reste à remarquer que par application
de (e) à la fonction convexe | · |, on a

|E(X|G) − E(Xn |G)| ≤ E(|Xn − X| |G)

donc E(Xn |G) converge presque-sûrement vers E(X|G).2

On conclut en donnant trois règles de calcul classiques qui interviennent naturellement lors-
qu'on cherche à donner une forme explicite à une espérance conditionnelle dans le cadre de
chaînes de Markov ou de martingales, par exemple.

61
Proposition 4.7 (règles de calcul de E(X|G)) Soit X ∈ L (Ω, F, P).
1

(a) Sortir ce qui est connu . Soit une variable G-mesurable telle que U X ∈ L (Ω, F, P).
U 1

Alors
E(U X|G) = U E(X|G) p.s. ;

(b) Indépendance . Si X est indépendante de la tribu G, alors


E(X|G) = E(X) p.s. ;

(c) Tribus emboîtées . Si H ⊂ G est une sous-tribu de G, alors


E(E(X|G)|H) = E(X|H).

Démonstration. (a) Soit Y = U E(X|G). La variable Y est G -mesurable comme produit de


deux variables G -mesurables. De plus, si A ∈ G ,

E(U X1A ) = E(X · (U 1A )) = E(E(X|G)(U 1A ) = E(Y 1A )

par application du point (i) de la proposition 4.5 avec Z = U 1A . En conclusion, Y est intégrable
(prendre A = Ω) et bien égale à E(U X|G) presque-sûrement.
(b) Soit Y = E(X). La variable Y est G -mesurable et intégrable car constante. De plus, si A ∈ G ,

E(X1A ) = E(X)E(1A ) = E(E(X)1A ) = E(Y 1A )

par indépendance de X et 1A . En conclusion, Y = E(X) est bien égale à E(X|G) presque-


sûrement.
(c) Soit Y = E(E(X|G)|H). La variable Y est H-mesurable et intégrable car est une espérance
conditionnelle par rapport à H. De plus, si A ∈ H,

E(X1A ) = E(E(X|G)1A )

car A est aussi élément de G qui contient H. Ensuite, en utilisant la dénition de l'espérance
conditionnelle par rapport à H, on obtient

E(E(X|G)1A ) = E(E(E(X|G)|H)1A ) = E(Y 1A ).

En conclusion, Y est bien égale à E(X|H) presque-sûrement.2

Remarque. On est dans la situation de (a) lorsque par exemple, U est bornée ou X et U sont
de carré intégrable. L'égalité indique que dès qu'une variable multiplicative est G -mesurable, on
peut la traiter comme une constante dans l'espérance conditionnelle et la sortir.
Le point (b) indique que lorsqu'il y a indépendance entre X et G , la donnée de l'information
contenue dans G ne nous apporte rien sur la variable X . Il s'agit donc du cas le pire où l'espérance
conditionnelle est une constante presque-sûre.
Enn, on peut résumer le point (c) de la manière suivante : restreindre l'information dont
on dispose en deux paliers successifs (c'est-à-dire passer de F à G puis de G à H) ou d'un seul
coup (passer directement de F à H) revient au même.

62
Chapitre 5

Vecteurs gaussiens

On s'intéresse particulièrement aux lois gaussiennes pour plusieurs raisons. D'une part, le
théorème central limite justie leur existence dans la nature et leur rôle universel
par rapport
aux autres lois de vecteurs aléatoires. D'autre part, comme on va le voir, le fait de manipuler des
lois gaussiennes simplie considérablement le travail quand il s'agit d'étudier l'indépendance de
variables ou de calculer des espérances conditionnelles. Enn, les lois gaussiennes sont stables
par passage à la limite pour la convergence en loi (et donc pour les convergences dans L2 , en
probabilité ou presque-sûre).
Dans tout le chapitre, on étudie des vecteurs aléatoires à valeurs dans Rd , d ≥ 1.

5.1 Dénition et fonction caractéristique


Dénition 5.1 (vecteur gaussien canonique) Un vecteur aléatoire X = (X , · · · , X ) de
R est dit vecteur gaussien canonique si ses coordonnées sont indépendantes et identiquement
1 d
d

distribuées de loi normale centrée réduite. Autrement dit, X a une loi qui a pour densité
1 − 21 (x21 +···+x2d ) 1 kxk2
− 2
fX (x1 , · · · , xd ) = e = e , x = (x1 , · · · , xd ) ∈ Rd ,
(2π)d/2 (2π)d/2

et pour fonction caractéristique


kuk2
ϕX (u1 , · · · , ud ) = e− 2 , u ∈ Rd .

Dénition 5.2 (vecteur gaussien) Un vecteur aléatoire X = (X , · · · , X ) de R est dit vec- d

teur gaussien s'il existe un vecteur gaussien canonique X , une matrice carrée A ∈ M (R) et
1 d
(0)

un vecteur b ∈ R tels que X = AX + b. Autrement dit, X est l'image par une transformation
d
d (0)

ane déterministe d'un vecteur gaussien canonique.


Remarque. Dans la dénition précédente, on se permet un léger abus de notation en ne faisant
pas la distinction entre un vecteur-ligne et un vecteur-colonne.

Remarque 2. Lorsque A est la matrice nulle, X est un vecteur constant. En particulier, les
vecteurs constants sont des vecteurs gaussiens et les lois de Dirac sont des lois gaussiennes.

63
Proposition 5.3 (moyenne, covariance, fonction caractéristique, densité) Soit X un vec-
teur gaussien tel que X = AX + b où A ∈ M (R), b ∈ R et X
(0) d (0)
est un vecteur gaussien
canonique.
d

(a) La moyenne de X est m = E(X) = b ;


(b) la matrice de covariance de X est Γ = (Cov(X , X )) = A A; t

(c) la fonction caractéristique de X est


i j 1≤i,j≤d

k t Auk2 hu,Γui
ϕX (u) = eihu,bi e− 2 = eihu,mi e− 2 , u ∈ Rd ;

(d) lorsque la matrice A est inversible, la loi de X admet pour densité


1 −
kA−1 (x−b)k2 1 −
h(x−m),Γ−1 (x−m)i
fX (x) = e 2 = p e 2 , x ∈ Rd .
(2π)d/2 | det(A)| (2π) d/2 det(Γ)

Démonstration. (a) Comme l'espérance est linéaire et E(X (0) ) = 0, on a

E(X) = E(AX (0) ) + b = b.

(b) La matrice de covariance de X est la même que celle de AX (0) . Or si 1 ≤ i, j ≤ n, en notant


(AX (0) )i la i-ème coordonnée du vecteur AX (0) et Ai,j l'élément de A à la i-ème ligne et j-ème
colonne, on a
d d
!
X (0)
X (0)
E((AX )i (AX )j ) = E
(0) (0)
Ai,k Xk Aj,l Xl
k=1 l=1
d
X (0) (0)
= Ai,k Aj,l E(Xk Xl )
k,l=1
d
X
= Ai,k Aj,k = (A t A)i,j
k=1

(0) (0)
car E(Xk Xl ) = 0 si k 6= l et 1 sinon. Ainsi, la matrice de covariance de X est bien Γ = A t A.

(c) Si u ∈ Rd , on a
(0) +b)i t Au,X (0) i 1 t Auk2
ϕX (u) = E(eihu,Xi ) = E(eihu,(AX ) = eihu,bi E(eih ) = eihu,bi e− 2 k ,

la dernière égalité provenant de l'expression de la fonction caractéristique de X (0) obtenue pré-


cédemment. En utilisant enn que

k t Auk2 = h t Au, t Aui = hu, A t Aui = hu, Γui,

on a bien l'égalité recherchée.

(d) Soit h : Rd −→ R une fonction mesurable bornée. Alors


Z
kyk2 dy
E(h(X)) = h(Ay + b)e− 2 .
Rd (2π)d/2

64
Eectuons le changement de variable x = Ay + b, c'est-à-dire y = A−1 (x − b). En particulier, le
jacobien associé est det(A−1 ) = det(A)−1 . Ainsi,
Z
kA−1 (x−b)k2 dx
E(h(X)) = h(x)e− 2
d/2
Rd (2π) | det(A)|

Le vecteur aléatoire X admet donc une densité qui a la forme

1 −
kA−1 (x−b)k2
fX (x) = e 2 , x ∈ Rd .
(2π)d/2 | det(A)|

Pour conclure que fX a bien la forme souhaitée en fonction de m et Γ, il reste à remarquer que
puisque Γ = A t A, on a det(Γ) = det(A)2 et d'autre part

kA−1 (x−b)k2 = hA−1 (x−b), A−1 (x−b)i = h(x−b), ( t A)−1 A−1 (x−b)i = h(x−m), Γ−1 (x−m)i.2

La question de la réciproque est à présent naturelle. étant donnés un vecteur m ∈ Rd et une


matrice Γ ∈ Md (R), à quelle condition existe-t-il un vecteur gaussien X dont la moyenne est m
et la matrice de covariance est Γ ? Ceci est l'objet de la proposition ci-dessous.

Proposition 5.4 (vecteur gaussien à moyenne et covariance xées) Soient un vecteur m ∈


R et une matrice Γ ∈ M (R).
d

(a) Il existe un vecteur gaussien X de moyenne m et de matrice de covariance Γ si et seulement


d

si Γ est une matrice symétrique positive. Dans ce cas, la fonction caractéristique de X est
hu,Γui
ϕX (u) = eihu,mi e− 2 , u ∈ Rd ;

(b) Un tel vecteur gaussien X a une densité si et seulement si Γ est inversible, c'est-à-dire Γ est
symétrique dénie positive. Dans ce cas, une densité de X est
1 h(x−m),Γ−1 (x−m)i
fX (x) = p e− 2 , x ∈ Rd ;
(2π)d/2 det(Γ)

(c) Lorsque Γ n'est pas inversible, X prend presque-sûrement ses valeurs dans Ker(Γ) , c'est-à-

dire
P(X ⊥ Ker(Γ)) = 1.

Remarque. Le point (c) signie que X se trouve presque-sûrement sur un sous-espace de Rd


de dimension au plus (d − 1) donc ne peut avoir de densité. En eet, lorsque Γ n'est pas in-
versible, son noyau est non trivial donc de dimension plus grande que 1 et on rappelle que
dim(Ker(Γ)⊥ ) = d − dim(Ker(Γ)) ≤ d − 1.

Démonstration. (a) Comme Γ est symétrique réelle, il existe une matrice orthogonale P et une
matrice diagonale D (dont la diagonale est (λ1 , · · · , λd )) telles que Γ = P D t P . De plus, Γ est
supposée positive donc ses valeurs propres λ1 , · · · , λd sont toutes positives. Considérons alors
A = P D0 t P où D0 est la matrice diagonale dont les éléments de la diagonale ont pour valeurs
p p
( λ1 , · · · , λd ). En particulier, A est aussi symétrique réelle positive et A2 = A t A = Γ.

65
Soit X (0) un vecteur gaussien canonique. Considérons alors X = AX (0) + b où b = m. Les
calculs précédents montrent que X est un vecteur gaussien de moyenne m et de matrice de
covariance Γ.
Réciproquement, montrons que toute matrice de covariance d'un vecteur aléatoire X doit
être symétrique positive. Soit X un vecteur aléatoire dont les entrées sont de carré intégrable
et quitte à centrer X , on peut supposer que E(X) = 0 sans changer sa matrice de covariance
Γ = (Γi,j )1≤i,j≤d . La matrice Γ est clairement symétrique et de plus. si u = (u1 , · · · , ud ) ∈ Rd ,
on a
d d d
!
X X X
Γi,j ui uj = E( ui Xi · uj Xj ) = E ( ui Xi ) 2
≥ 0.
i,j=1 i,j=1 i=1

Ainsi, Γ est une matrice symétrique positive.

(b) Le calcul de la densité lorsque Γ (et donc A) est inversible provient de la proposition pré-
cédente. L'équivalence sera une conséquence du point (c) car si Γ n'est pas inversible, Ker(Γ)⊥
est au plus de dimension (d − 1).

(c) Soit u = (u1 , · · · , ud ) un vecteur de Ker(Γ). Alors

d
! d
X X
E ( ui Xi )2 = Γi,j ui uj = hu, Γui = 0.
i=1 i,j=1

d
X
Donc la variable ui Xi = hu, Xi est nulle presque-sûrement. On applique ceci à tous les
i=1
vecteurs d'une base de Ker(Γ) et on obtient ainsi que presque-sûrement, X est orthogonal à
Ker(Γ).2

On conclut cette partie avec une dénition équivalente des vecteurs gaussiens qui s'avérera
pratique lorsqu'on entreprendra de dénir des processus gaussiens
.

Proposition 5.5 (dénition des vecteurs gaussiens par combinaisons linéaires) Soit X =
(X , · · · , X ) un vecteur aléatoire de R . X est un vecteur gaussien si et seulement si toute com-
1 d
d

binaison linéaire de ses coordonnées est une loi gaussienne réelle, c'est-à-dire X u X suit une
d
k k

loi gaussienne réelle pour tous u , · · · , u ∈ R.


1 d
k=1

Démonstration. On suppose que X est un vecteur gaussien. Quitte à lui retrancher sa moyenne,
on peut supposer que X est centré. Notons Γ sa matrice de covariance. Alors si u = (u1 , · · · , ud ) ∈

66
d
X
R , notons Y =
d
uk Xk . En particulier, la fonction caractéristique de Y vérie pour tout v ∈ R,
k=1

d
X
ϕY (v) = E(exp(iv uk Xk )) = E(exp(ihvu, Xi))
k=1

= ϕX (vu)
hvu,vΓui hu,Γuiv 2
= e− 2 = e− 2 .

Ainsi, Y suit une loi gaussienne de moyenne nulle et de variance hu, Γui.

Réciproquement, supposons que toute combinaison linéaire du type précédent suit une loi gaus-
sienne. Montrons alors que X est un vecteur gaussien. En particulier, chacune des coordonnées
de X suit une loi gaussienne donc est de carré intégrable. On peut ainsi dénir la matrice de
covariance Γ de X . Pour tout u = (u1 , · · · , ud ) ∈ Rd , on a

Pd
ϕX (u) = E(eihu,Xi ) = E(ei k=1 uk Xk
)
= ϕPd uk Xk (1)
k=1
 P 
E ( dk=1 uk Xk )2
= exp − 
2
hu,Γui
= e− 2 ,

d
X
l'avant-dernière ligne provenant du fait que uk Xk suit une loi gaussienne réelle centrée. Ainsi,
k=1
on en déduit que X suit la loi d'un vecteur gaussien de moyenne nulle et de matrice de covariance
Γ.2

Remarque. Attention ! Il ne sut pas que toutes les coordonnées d'un vecteur suivent une
loi gaussienne pour que le vecteur lui-même soit un vecteur gaussien. Soient par exemple X1 une
variable réelle de loi normale centrée réduite et ε une variable indépendante de X1 qui prend les
valeurs +1 et −1 avec même probabilité 1/2. Alors en notant X2 = εX1 , le vecteur X = (X1 , X2 )
a ses deux coordonnées de loi N (0, 1) mais il n'est pas gaussien. En eet, X1 + X2 est une com-
binaison linéaire de ses coordonnées qui prend la valeur 0 avec probabilité 1/2 exactement donc
(X1 + X2 ) ne suit pas une loi gaussienne.

Remarque 2. La proposition précédente permet de vérier qu'un sous-vecteur


d'un vecteur
gaussien (c'est-à-dire obtenu en ne retenant que certaines des coordonnées) reste un vecteur
gaussien.

67
5.2 Indépendance et espérances conditionnelles
On a vu précédemment que le fait que la covariance de deux variables réelles soit nulle
n'implique pas en général que ces deux variables sont indépendantes. Cependant, dans le cas des
vecteurs gaussiens, la réciproque est heureusement vraie.

Proposition 5.6 (indépendance de vecteurs gaussiens) Soit X = (X , · · · , X ) un vec-


teur gaussien à valeurs dans R , n, m ≥ 1. Alors les vecteurs (X , · · · , X ) et (X , · · · , X )
1 n+m
n+m

sont indépendants si et seulement si Cov(X , X ) = 0 pour tous 1 ≤ i ≤ n, n + 1 ≤ j ≤ n + m.


1 n n+1 n+m

i j

Remarque. Ceci revient à demander que la matrice de covariance de X soit diagonale par blocs.

Démonstration. Le sens direct de l'équivalence a déjà été montré. Montrons la réciproque :


sans perte de généralité, on peut supposer X centré. On note Y = (X1 , · · · , Xn ) et Z =
(Xn+1 , · · · , Xn+m ). On suppose que toutes les covariances entre Xi et Xj , 1 ≤ i ≤ n, n + 1 ≤
j ≤ n + m, sont nulles et on souhaite montrer l'indépendance des vecteurs Y et Z .
Pour ce faire, on considère ϕ(Y,Z) : Rn ×Rm −→ C la fonction caractéristique du couple formé
des vecteurs Y et Z . Pour obtenir l'indépendance, il sut de montrer que ϕ(Y,Z) = ϕY · ϕZ où
ϕY et ϕZ sont les fonctions caractéristiques de Y et Z respectivement. Soient u ∈ Rn et v ∈ Rm .
Alors puisque X = (Y, Z) est un vecteur gaussien centré, on a
 
1
ϕ(Y,Z) (u, v) = exp − h(u, v), Γ(u, v)i
2

où Γ = (Γi,j )1≤i,j≤(n+m) est la matrice de covariance de X . Or puisque tous les termes Γi,j où
1 ≤ i ≤ n et (n + 1) ≤ j ≤ (n + m) sont nuls, on a
n
X n+m
X
h(u, v), Γ(u, v)i = Γi,j ui uj + Γi,j vi−n vj−n .
i,j=1 i,j=n+1

Ainsi, on obtient
   
n
X m
X
1 1
ϕ(Y,Z) (u, v) = exp − Γi,j ui uj  · exp − Γi+n,j+n vi vj  = ϕY (u) · ϕZ (v).
2 2
i,j=1 i,j=1

En conclusion, Y et Z sont bien indépendants.2

On conclut avec une formule relative aux espérances conditionnelles. Toutes les variables réelles
gaussiennes sont de carré intégrable donc sont éléments de L2 (Ω, F, P). On a vu que sur l'es-
pace L2 , calculer une espérance conditionnelle revient à projeter sur le sous-espace des variables
mesurables par rapport à une certaine tribu. Dans le cas des vecteurs gaussiens, le sous-espace
sur lequel on projette est encore plus simple.

Proposition 5.7 (espérance conditionnelle et vecteurs gaussiens) Soit X = (X , · · · , X )


un vecteur gaussien . Alors l'espérance conditionnelle E(X |X , · · · , X ) = E(X |σ(X , · · · , X ))
1 d
centré 1 2 d 1 2 d

68
est la projection orthogonale de X sur le sous-espace Vect(X , · · · , X ) de L (Ω, F, P) engendré
2

par X , · · · , X , c'est-à-dire qu'il existe λ , · · · , λ tels que


1 2 d

2 d 2 d

E(X1 |X2 , · · · , Xd ) = λ2 X2 + · · · + λd Xd p.s. .

Démonstration. Soit Y le projeté orthogonal de X1 sur Vect(X2 , · · · , Xd ). Montrons que


Y = E(X1 |X2 , · · · , Xd ) presque-sûrement. Tout d'abord, Y s'écrit (λ2 X2 + · · · + λd Xd ) avec
λ2 , · · · , λd ∈ R. Ainsi, Y est bien σ(X2 , · · · , Xd )-mesurable et dans L2 donc intégrable.
Le vecteur (X1 − Y, X2 , · · · , Xd ) est un vecteur gaussien car il est obtenu par transformation
linéaire du vecteur (X1 , · · · , Xd ) (on rappelle que Y = λ2 X2 + · · · + λd Xd ). De plus, pour tout
2 ≤ i ≤ d,
Cov(X1 − Y, Xi ) = E((X1 − Y )Xi ) = 0

car (X1 − Y ) est orthogonal à Vect(X2 , · · · , Xd ) dans L2 (Ω, F, P). D'après la proposition 5.6,
ceci implique que (X1 − Y ) est indépendant de σ(X2 , · · · , Xd ). On en déduit que

E(X1 |X2 , · · · , Xd ) − Y = E(X1 |X2 , · · · , Xd ) − E(Y |X2 , · · · , Xd )


= E(X1 − Y |X2 , · · · , Xd ) = E(X1 − Y ) = 0 p.s. .2

Remarque. Les coecients λ2 , · · · , λd sont obtenus en résolvant un système linéaire fourni par
les conditions E((X1 − λ2 X2 − · · · − λd Xd )Xi ) = 0 pour tous 2 ≤ i ≤ d.

Remarque 2. Le résultat de la proposition précédente n'est vrai que si X est un vecteur


gaussien centré. Lorsqu'il n'est pas centré, la projection orthogonale s'eectue sur le sous-espace
Vect(1, X2 , · · · , Xd ), c'est-à-dire qu'il existe λ1 , · · · , λd tels que

E(X1 |X2 , · · · , Xd ) = λ1 · 1 + λ2 X2 + · · · + λd Xd p.s. .


En particulier, λ1 = E(X1 ).

69
70
Annexe 1 : tableaux récapitulatifs des
lois classiques

71
Quelques lois discrètes usuelles

Nom Paramètres Loi Espérance Variance EsX , s ∈ [−1, 1]

∗ n k
Binomiale P(X = k) = np
k
n ∈ N , p ∈ [0, 1] p (1 − p)n−k ∀ k ∈ {0, · · · , n} np(1 − p) (1 − p(1 − s))n
 

1 1−p ps
Géométrique
p p2
p ∈]0, 1[ P(X = k) = p(1 − p)k−1 ∀ k ∈ N∗
1 − (1 − p)s

n+1
s
n2 − 1 1 − sn
Uniforme
2 12
n ∈ N∗ P(X = k) = 1/n ∀ k ∈ {1, · · · , n}
n(1 − s)

µk
Poisson P(X = k) = e−µ µ µ
k!
µ ∈ [0, +∞[ ∀k∈N exp(−µ(1 − s))

n1 n2
k r−k n1 r rn1 n2 (n1 + n2 − r)
Hypergéométrique n1 , n2 , r ∈ N∗ , r ≤ n1 P(X = k) = n1 +n2 ∀ k ∈ {0, · · · , r} compliqué
r
n1 + n2
 

(n1 + n2 )2 (n1 + n2 − 1)

Interprétation de ces lois

Loi de Bernoulli. On joue à pile ou face et on note le résultat du tirage sous la forme : X = 1 si la pièce tombe sur pile et X = 0 si la
pièce tombe sur face. La probabilité de tomber sur pile est alors P(X = 1) = p.
Loi binomiale. On relance cette fois-ci n fois la même pièce et on comptabilise le nombre de fois où elle tombe sur pile. La loi de
cenombre de piles parmi les n lancers est alors une loi binomiale de paramètres n et p : en eet, s'il y a eu exactement k piles au cours
pk ), il y a eu également n − k faces (d'où le (1 − p)n−k ) et il faut tenir compte de tous les ordres de tirages
n
possibles, ce qui explique le .
k
des n premiers lancers (d'oùle 

Loi géométrique. Toujours au jeu de pile ou face, on étudie maintenant le numéro du premier lancer où un pile est obtenu : si le
premier pile arrive au n-ième lancer, c'est que la pièce est tombée sur face lors des n − 1 premiers lancers, et sur pile aun-ième lancer.
La probabilité de cet événement est donc (1 − p)n−1 × p.
Loi uniforme. La loi uniforme sur un ensemble à n éléments intervient dès que ces éléments sont équiprobables, par exemple si l'on joue
avec un dé non pipé ou une pièce équilibrée.
Loi de Poisson. Cette loi permet de modéliser le nombre de personnes se présentant à un guichet au cours d'une journée : si, en moyenne,µ
personnes arrivent dans le service chaque jour, on utilisera la loi de Poisson de paramètre µ.
r boules de l'urne sans remise et on pose
n1 + n2
X =nombre de boules rouges tirées. Le calcul de P(X = k) vient du fait que parmi tirages possibles, on compte les tirages
r
Loi hypergéométrique. Une urne contient n1 boules rouges et n2 boules blanches.On tire 

n1 n2
comprenant k boules rouges ( possibilités).
k
possibilités) et r − k boules blanches (
   

r−k
Quelques lois à densité classiques

Nom Paramètres Densité Espérance Variance EeiαX , α ∈ R

a+b (b − a)2 eiαb − eiαa


Uniforme
2 12
a<b∈R 1[a,b] (x)/(b − a)
iα(b − a)

1 1 λ
Exponentielle λe−λx 1R+ (x)
λ λ2
λ ∈ R∗+
λ − iα

2 σ 2 /2
m σ2 eiαm e−α
exp −((x − m)2 /(2σ 2 ))
Normale m ∈ R, σ 2 ∈ R∗+ √
2π σ

µ
Cauchy non dénie non dénie e−µ|α|
π(µ2 + x2 )
µ ∈ R∗+

xn/2−1 e−x/2
Chi 2 (χ2 ) n ∈ N∗ 1R+ (x) n 2n (1 − 2iα)−n/2
2n/2 Γ(n/2)

λn xn−1 e−λx n n λn
Gamma 1R+ (x)
Γ(n) λ λ2
λ ∈ R∗+ , n ∈ N∗
(λ − iα)n
Interprétation de ces lois

Loi uniforme. Elle correspond par exemple à la loi de la distance au plafond d'une mouche lorsqu'elle se pose sur un mur blanc. La loi
uniforme sur [0, 1] est simulée classiquement par la fonction 'rand' de la plupart des logiciels de calcul et des calculatrices.
Loi exponentielle. Elle représente classiquement des durées de vie ou des temps d'attente en théorie des les d'attente.
Loi normale (ou gaussienne). De par le théorème de la limite centrale, elle apparaît dans tous les phénomènes naturels macroscopiques
qui reposent sur des sommes de phénomènes microscopiques indépendants.
Loi de Cauchy. Le quotient de deux variables normales centrées indépendantes suit une loi de Cauchy. Il s'agit d'un exemple simple d'une
variable à densité dont l'espérance n'existe pas.
2 2
Loi du χ . La somme des carrés de n vaiid normales N (0, 1) suit une loi du χn . Cette loi a un rÃle fondamental en statistique inférentielle
où un test porte son nom.
Loi Gamma. On l'obtient en faisant la somme de variables exponentielles indépendantes de même paramètre.
76
Annexe 2 : annales de 20212022

77
Master 1ère année, parcours AiMAF, MAM et MFA, année 2021-2022
Probabilités 1
Examen, lundi 3 janvier 2022 (durée : 2h)

Les documents et appareils électroniques sont interdits. Il est demandé de soigner la présentation de la

copie. En particulier, les résultats obtenus devront être encadrés.

Dans l'ensemble de l'énoncé, les variables aléatoires considérées sont dénies sur un espace de probabilité (Ω, F, P).

Cours.

1. Donner la dénition d'un vecteur gaussien.


2. Énoncer puis démontrer le lemme de Borel-Cantelli.

Exercice. On considère une suite (Xn )n≥1 de variables aléatoires réelles intégrables et positives ainsi qu'une suite (Fn )n≥1
de sous-tribus de F .
1. Pour n ≥ 1, rappeler la dénition de E(Xn |Fn ) et montrer que E(Xn |Fn ) est positive presque-sûrement.
2. On xe δ > 0 et n ≥ 1. Montrer que E(Xn 1{E(Xn |Fn )≤δ} ) ≤ δ.
1
3. On xe ε > 0. Montrer que pour tout δ > 0 et n ≥ 1, P(Xn ≥ ε) ≤ E(Xn 1{E(Xn |Fn )≤δ} ) + P(E(Xn |Fn ) > δ).
ε
4. Déduire des deux questions précédentes que si la suite (E(Xn |Fn ))n≥1 converge en probabilité vers 0, alors la suite
(Xn )n≥1 converge aussi en probabilité vers 0.
5. On considère une suite (Gn )n≥1 de sous-tribus de F telle que Fn ⊂ Gn pour tout n ≥ 1. Montrer que si la suite
(E(Xn |Fn ))n≥1 converge en probabilité vers 0, alors la suite (E(Xn |Gn ))n≥1 converge aussi en probabilité vers 0.
6. Donner un exemple de suites (Xn )n≥1 et (Fn )n≥1 telles que (Xn )n≥1 converge en probabilité vers 0 mais pas
(E(Xn |Fn ))n≥1 .
Indication. On pourra prendre Fn = {∅, Ω} pour tout n ≥ 1 et choisir une suite (Xn )n≥1 qui converge en probabilité

vers 0 mais pas dans L1 .

Problème. L'objectif du problème est de montrer par une méthode probabiliste la formule asymptotique de Stirling

n! ∼ nn e−n 2πn. (1)
n→+∞

Pour ce faire, on considère une suite (Xn )n≥1 de variables aléatoires indépendantes et identiquement distribuées, de loi
de Poisson de paramètre 1. Pour tout n ≥ 1, on note Sn = X1 + · · · + Xn .
1. Déterminer la loi de Sn .
 
Sn
2. Montrer que la suite converge presque-sûrement vers une limite qu'on précisera.
n n≥1
Sn − n
On pose à présent pour tout n ≥ 1, Tn = √ . On note par ailleurs Tn− = max(−Tn , 0).
n
3. Montrer que la suite (Tn )n≥1 converge en loi vers une variable limite T dont on précisera la loi.
4. En déduire que la suite (Tn− )n≥1 converge en loi vers T − puis que pour tout a > 0, la suite (min(Tn− , a))n≥1
converge en loi vers min(T − , a).

1
5. À l'aide de la question précédente, montrer que pour tout a > 0, lim E(min(Tn− , a)) = E(min(T − , a)).
n→+∞
Indication. 

 0 si x < 0
On remarquera que la fonction f : R −→ R dénie par f (x) = x si 0 ≤ x ≤ a est continue bornée.


a sinon
E(T 2 )
6. Montrer que E(Tn− − min(Tn− , a)) ≤ n
.
a
Indication. On pourra montrer et exploiter l'égalité presque-sûre Tn − min(Tn , a) = (Tn − a)1
{Tn− >a} .
− − −

7. Calculer E(Tn2 ).
8. Déduire des deux questions précédentes que

lim sup(E(Tn− ) − E(min(Tn− , a))) = 0.


a→+∞ n≥1

9. En utilisant les questions 5 et 8, montrer que lim E(Tn− ) = E(T − ).


n→+∞

1 e−n nn
10. Montrer que E(T − ) = √ et que pour tout n ≥ 1, E(Tn− ) = √ .
2π n(n − 1)!
11. Déduire des deux questions précédentes la formule de Stirling (1).

2
Master 1ère année, parcours AiMAF, MAM et MFA, année 2021-2022
Probabilités 1
Correction de l'examen du lundi 3 janvier 2022

Exercice.

1. Pour n ≥ 1, rappeler la dénition de E(Xn |Fn ) et montrer que E(Xn |Fn ) est positive presque-sûrement.

Correction. E(Xn |Fn ) est la variable aléatoire réelle (unique à un presque-sûre près) intégrable, Fn -mesurable
et vériant pour tout A ∈ Fn l'égalité

E(Xn 1A ) = E(E(Xn |Fn )1A ). (1)

En prenant en particulier A = {E(Xn |Fn ) ≤ 0}, on constate que l'espérance à gauche de l'égalité (1) est ≥ 0 tandis
que celle à droite de (1) est ≤ 0. Ceci implique qu'elle est nulle et comme la variable E(Xn |Fn )1A est de signe
constant, elle est donc nulle sur un événement de probabilité 1. On en déduit que P(E(Xn |Fn ) ≥ 0) = 1.

2. On xe δ > 0 et n ≥ 1. Montrer que E(Xn 1{E(Xn |Fn )≤δ} ) ≤ δ.

Correction. On applique (1) à A = {E(Xn |Fn ≤ δ} qui est bien Fn -mesurable puisque E(Xn |Fn ) l'est. On constate
que
E(Xn 1{E(Xn |Fn )≤δ} ) = E(E(Xn |Fn )1{E(Xn |Fn )≤δ} ) ≤ δP(E(Xn |Fn ) ≤ δ) ≤ δ.
1
3. On xe ε > 0. Montrer que pour tout δ > 0 et n ≥ 1, P(Xn ≥ ε) ≤ E(Xn 1{E(Xn |Fn )≤δ} ) + P(E(Xn |Fn ) > δ).
ε

Correction. Soient ε, δ > 0 et n ≥ 1. On obtient

P(Xn ≥ ε) = E(1{Xn ≥ε}∩{E(Xn |Fn )≤δ} ) + P({Xn ≥ ε} ∩ {E(Xn |Fn ) > δ})
Xn
≤ E( 1{Xn ≥ε}∩{E(Xn |Fn )≤δ} ) + P(E(Xn |Fn ) > δ)
ε
1
≤ E(Xn 1{E(Xn |Fn )≤δ} ) + P(E(Xn |Fn ) > δ).
ε
4. Déduire des deux questions précédentes que si la suite (E(Xn |Fn ))n≥1 converge en probabilité vers 0, alors la suite
(Xn )n≥1 converge aussi en probabilité vers 0.

P P
Correction.Supposons que E(Xn |Fn ) → 0. Montrons que Xn → 0, c'est-à-dire que pour tout ε > 0, on a
lim P(Xn ≥ ε) = 0. Fixons donc ε > 0. On se donne également η > 0. On cherche N tel que pour tout
n→+∞
n ≥ N , P(Xn ≥ ε) ≤ η . En combinant les deux questions précédentes, on obtient que pour tout δ > 0 et n ≥ 1,
δ
P(Xn ≥ ε) ≤ + P(E(Xn |Fn ) > δ).
ε
1 P η
Prenons δ = εη . Comme E(Xn |Fn ) → 0, soit N tel que pour tout n ≥ N , P(E(Xn |Fn ) > δ) ≤ . Alors pour
2 2
η η P
tout n ≥ N , on obtient P(Xn ≥ ε) ≤ + = η. Ceci montre que Xn → 0.
2 2

1
5. On considère une suite (Gn )n≥1 de sous-tribus de F telle que Fn ⊂ Gn pour tout n ≥ 1. Montrer que si la suite
(E(Xn |Fn ))n≥1 converge en probabilité vers 0, alors la suite (E(Xn |Gn ))n≥1 converge aussi en probabilité vers 0.

Correction.On pose Yn = E(Xn |Gn ) pour tout n ≥ 1. Alors on remarque que par la propriété des tribus emboîtées,
on a presque-sûrement pour tout n ≥ 1,
E(Yn |Fn ) = E(E(Xn |Gn )|Fn ) = E(Xn |Fn ).

Il reste à appliquer la question précédente à la suite (Yn )n≥1 pour obtenir le résultat voulu.

6. Donner un exemple de suites (Xn )n≥1 et (Fn )n≥1 telles que (Xn )n≥1 converge en probabilité vers 0 mais pas
(E(Xn |Fn ))n≥1 .

Correction.On prend Fn = {∅, Ω} pour tout n ≥ 1. Pour n ≥ 1, on choisit la loi de Xn de la manière sui-
1 1 P
vante : P(Xn = n) = √ = 1 − P (Xn = 0). Alors pour tout ε > 0, P(Xn ≥ ε) = √ → 0 donc Xn → 0. De
n √ n n→+∞
plus, E(Xn |Fn ) = E(Xn ) p.s. mais E(Xn ) = n ne tend pas vers 0.

Problème.

1. Déterminer la loi de Sn .

On rappelle que la fonction caractéristique de X1 est ϕX1 (u) = e−(1−e ) , u ∈ R. En particulier, pour
iu
Correction.

n ≥ 1 et u ∈ R, la fonction caractéristique de Sn est


n
Y
ϕSn (u) = E(eiuSn ) = E( eiuXk )
k=1
n
Y
= E(eiuXk ) car X1 , · · · , Xn sont indépendantes
k=1

= (ϕX1 (u))n car X1 , · · · , Xn sont de même loi


iu
= e−n(1−e )
.

Donc Sn suit une loi de Poisson de paramètre n.

 
Sn
2. Montrer que la suite converge presque-sûrement vers une limite qu'on précisera.
n n≥1

Correction. La suite (Xn )n≥1


 est
 constituée de v.a.i.i.d. intégrables donc on peut appliquer la loi forte des grands
Sn
nombres de Kolmogorov : converge presque-sûrement vers E(X1 ) = 1.
n n≥1

3. Montrer que la suite (Tn )n≥1 converge en loi vers une variable limite T dont on précisera la loi.

2
Correction. La suite (Xn )n≥1 est constituée de v.a.i.i.d. de carré intégrable et non constantes. On peut donc ap-
pliquer le théorème central limite. En remarquant que E(X1 ) = Var(X1 ) = 1, on obtient que (Tn )n≥1 converge en
loi vers une variable T de loi gaussienne centrée réduite N (0, 1).

4. En déduire que la suite (Tn− )n≥1 converge en loi vers T − puis que pour tout a > 0, la suite (min(Tn− , a))n≥1
converge en loi vers min(T − , a).

Correction. On rappelle que si une suite de v.a.r. (Un )n≥1 converge en loi vers une v.a.r. U , alors pour toute
fonction continue ϕ, (ϕ(Un ))n≥1 converge en loi vers ϕ(U ) : en eet, il sut d'utiliser la caractérisation de la
convergence étroite : on se donne une fonction f : R −→ R continue et bornée et on note qu'alors E(f (ϕ(Un )) tend
vers E(f (ϕ(U ))) car f ◦ ϕ est une fonction continue bornée appliquée à Un .
Les fonctions ψ : x 7→ max(−x, 0) et ϕa : x 7→ min(max(−x, 0), a), a > 0 sont continues sur R donc ψ(Tn ) = Tn−
converge en loi vers ψ(T ) = T − et ϕa (Tn ) = min(Tn− , a) converge en loi vers ϕa (T ) = min(T − , a).

5. À l'aide de la question précédente, montrer que pour tout a > 0, lim E(min(Tn− , a)) = E(min(T − , a)).
n→+∞


 0 si x < 0

Correction. La fonction f : R −→ R dénie par f (x) = x si 0 ≤ x ≤ a est continue bornée. Or min(Tn− , a) ∈


a sinon
[0, a] presque-sûrement donc f (min(Tn , a)) = min(Tn , a) et de même, f (min(T − , a)) = min(T − , a). Puisque la
− −

convergence en loi de min(Tn− , a) vers min(T − , a) est équivalente à la convergence étroite, on obtient en particulier
que
lim E(f (min(Tn− , a))) = lim E(min(Tn− , a)) = E(f (min(T − , a))) = E(min(T − , a)).
n→+∞ n→+∞

E(Tn2 )
6. Montrer que E(Tn− − min(Tn− , a)) ≤ .
a

Correction.Montrons tout d'abord l'égalité presque-sûre Tn− − min(Tn− , a) = (Tn− − a)1{Tn− >a} . Soit donc ω ∈ Ω.
Supposons Tn− (ω) > a. Alors le membre de gauche vaut en ω , Tn− (ω) − a et le membre de droite également.
Supposons à présent Tn− (ω) ≤ a. Alors le membre de gauche vaut 0 en ω et de même le membre de droite. On a
donc bien montré l'égalité. Prenons son espérance :

E(Tn− − min(Tn− , a)) = E((Tn− − a)1{Tn− >a} )


≤ E(Tn− 1{Tn− >a} )
q q
≤ E((Tn− )2 ) P(Tn− > a) par l'inégalité de Cauchy-Schwarz
q r
1
≤ E((Tn ) ) − 2
E((Tn− )2 ) par l'inégalité de Markov
a2
E((Tn− )2 )
=
a
E(Tn2 )
≤ ,
a

3
la dernière inégalité provenant du fait que 0 ≤ Tn− ≤ |Tn | presque-sûrement.

7. Calculer E(Tn2 ).

Correction.On se souvient que Sn suit une loi de Poisson de paramètre n. En particulier, E(Sn ) = Var(Sn ) = n.
1
Ceci implique que E(Tn2 ) = Var(Sn ) = 1.
n

8. Déduire des deux questions précédentes que


lim sup(E(Tn− ) − E(min(Tn− , a))) = 0.
a→+∞ n≥1

1
Correction. D'après les 2 questions précédentes, on a sup(E(Tn− ) − E(min(Tn− , a))) ≤ , ce qui montre le résultat.
n≥1 a

9. En utilisant les questions 5 et 8, montrer que lim E(Tn− ) = E(T − ).


n→+∞

Correction. Pour a > 0 et n ≥ 1, on a


|E(Tn− ) − E(T − )| ≤ sup(E(Tk− −) − E(min(Tk− , a))) + |E(min(Tn− , a) − E(min(T − , a))| + (E(T − ) − E(min(T − , a))).
k≥1

Fixons ε > 0. La diérence (E(T − ) − E(min(T − , a))) tend vers 0 quand a → +∞ par théorème de convergence
ε ε
monotone. On xe donc a assez grand tel que 0 ≤ (E(T − )−E(min(T − , a))) ≤ et sup(E(Tk− )−E(min(Tk− , a))) ≤
3 k≥1 3
en utilisant la question précédente. Il reste à utiliser la question 5 en prenant N tel que pour tout n ≥ N ,
ε
|E(min(Tn− , a) − E(min(T − , a))| ≤ . On obtient alors pour tout n ≥ N , |E(Tn− ) − E(T − )| ≤ ε. Ceci montre la
3
convergence demandée.
1 e−n nn
10. Montrer que E(T − ) = √ et que pour tout n ≥ 1, E(Tn− ) = √ .
2π n(n − 1)!

Correction. On rappelle que T suit une loi N (0, 1). Donc


Z 0
2 dx 1 h −x2 /2 i0 1
E(T − ) = (−x)e−x /2
√ =√ e =√ .
−∞ 2π 2π −∞ 2π
En utilisant le fait que Sn suit une loi de Poisson de paramètre n, on a
n−1 n−1 n−1
!
1 1 X nk e−n X nk+1 X nk e−n nn
E(Tn− ) = √ E((n − Sn )1{Sn <n} ) = √ (n − k)e−n = √ − = √ .
n n k! n k! (k − 1)! n (n − 1)!
k=0 k=0 k=1

11. Déduire des deux questions précédentes la formule de Stirling.

e−n nn 1
Correction. D'après les questions 9 et 10, quand n → +∞, √ ∼√ et donc
n (n − 1)! 2π
√ e−n √
n! = n(n − 1)! ∼ n 2π √ nn = nn e−n 2πn.
n

Vous aimerez peut-être aussi