Vous êtes sur la page 1sur 88

Probabilités II

3M290

Yves Coudène, 23 janvier 2021

Licence de mathématiques, Sorbonne Université

Version 1

2020-2021
2
Table des matières

Introduction 5

Notations 6

1 Formalisme de Kolmogorov 7
1.1 Le cas discret : Ω fini ou dénombrable . . . . . . . . . . . . . 7
1.2 Le cas continu : Ω = R ou Rd . . . . . . . . . . . . . . . . . . 8
1.3 Le cas des espaces produits . . . . . . . . . . . . . . . . . . . 9

2 Variables aléatoires 11
2.1 Définition d’une variable aléatoire . . . . . . . . . . . . . . . . 11
2.2 Espérance et variance . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . 14
2.5 Loi d’un multiplet de variables aléatoires . . . . . . . . . . . . 17

3 Indépendance 19
3.1 Indépendance d’évènements et de variables aléatoires . . . . . 19
3.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . 20
3.3 Loi d’un multiplet de variables indépendantes . . . . . . . . . 22

4 Loi des grands nombres 25


4.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . 25
4.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . 26
4.3 Illustration numérique . . . . . . . . . . . . . . . . . . . . . . 32

5 Convergence de suites aléatoires 37


5.1 Les différents types de convergence. . . . . . . . . . . . . . . . 37
5.2 Fonction caractéristique et transformée de Fourier . . . . . . 39
5.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . 41

6 Théorème de la limite centrée 49


6.1 Fonction caractéristique de la loi normale . . . . . . . . . . . 49
6.2 Théorème de la limite centrée . . . . . . . . . . . . . . . . . . 50

3
4 TABLE DES MATIÈRES

6.3 Illustration numérique . . . . . . . . . . . . . . . . . . . . . . 52

7 Vecteurs aléatoires 57
7.1 Variables aléatoires à valeurs vectorielles . . . . . . . . . . . . 57
7.2 Définition des vecteurs gaussiens . . . . . . . . . . . . . . . . 58
7.3 Loi des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . 60
7.4 Théorèmes limites pour les vecteurs aléatoires . . . . . . . . . 63

8 Séries de variables aléatoires indépendantes 65


8.1 Loi du 0-1 de Kolmogorov . . . . . . . . . . . . . . . . . . . . 65
8.2 Convergence des séries aléatoires . . . . . . . . . . . . . . . . 67
8.3 Retour sur la loi des grands nombres . . . . . . . . . . . . . . 70

A Rappels d’intégration 73
A.1 Théorèmes de convergence . . . . . . . . . . . . . . . . . . . . 73
A.2 Intégrales dépendant d’un paramètre . . . . . . . . . . . . . . 74
A.3 Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . 75
A.4 Espaces Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
A.5 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
A.6 Formule d’inversion de Fourier . . . . . . . . . . . . . . . . . 77

B Formulaire 81
B.1 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . 81
B.2 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
B.3 Couples de variables aléatoires . . . . . . . . . . . . . . . . . 83
B.4 Convergence de variables aléatoires . . . . . . . . . . . . . . . 84
B.5 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . 84

C Références 85

Index 87
Introduction

Ces notes accompagnent le cours de probabilités 3M290 probabilités II


donné au second semestre de l’année universitaire 2020-2021.
Ce cours est destiné à des étudiants ayant déjà suivi un cours d’intégrale
de Lebesgue. Une annexe en fin d’ouvrage rappelle les résultats d’intégration
qui sont utilisés dans le corps de ce texte. Un minimum de familiarité avec
la théorie des probabilités discrètes, comme on peut la voir au lycée, est
fortement conseillé.
On s’est concentré sur les théorèmes de convergence classiques, essentiel-
lement dans le cadre indépendant : loi faible et forte des grands nombres,
théorème de la limite centrée, théorème des trois séries, loi du 0-1 de Kol-
mogorov. Un résumé des théorèmes et des formules présentés dans le cours
se trouve en annexe.
Le texte est organisé de façon à parvenir assez rapidement à la preuve
de la loi forte des grands nombres, au chapitre 4, qui est faite pour des
variables de carré intégrable. Le cas intégrable est traité plus tard, dans
le chapitre concernant les séries aléatoires, comme corollaire des théorèmes
de convergence pour ces séries. Le second objectif est le théorème de la
limite centrée, atteint au chapitre 6. Il faut pour cela étudier en détail les
différents types de convergence et les relations qui s’établissent entre eux. On
étudie d’abord le cas unidimensionnel avant de passer à l’étude des vecteurs
gaussiens et à la version multidimensionnelle du TCL. On termine par l’étude
des séries de variables aléatoires indépendantes.
Le second appendice contient des rappels d’intégration qui couvrent les
résultats utilisés dans le cours, énoncés avec le vocabulaire des probabilités.

Yves Coudène, le 12 janvier 2021.

5
6 TABLE DES MATIÈRES

Notations
Les ensembles des nombres entiers, entiers relatifs, réels et complexes sont
notés respectivement N, Z, R, C.
On travaille en genéral sur un espace probabilisé (Ω, T , P ).

1A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction indicatrice de A
B(x, r) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . boule ouverte de centre x de rayon r
C ∞ . . . . . . . . . . . . . . . . . . . . ensemble des fonctions indéfiniment différentiables
Cov(X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .covariance de X et Y
δω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de Dirac au point ω
E(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . espérance de X
FX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction de répartition
Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . espace des classes de fonctions Lp
lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . limite supérieure
lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .limite inférieure
µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure
N∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . nombres entiers non nuls
Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ensemble de résultats
◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . composition
ø . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .ensemble vide
P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de probabilité
PX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi de la variable aléatoire X
P(X,Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi du couple (X, Y )
P ⊗ Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit des probabilités P et Q
p.s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . presque sûrement
Sn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . somme de X1 à Xn
σ(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . écart-type de X
Σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . matrice de covariance
T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tribu
T1 ⊗ T2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit des tribus T1 et T2
V (X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variance de X
X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variable aléatoire
#X, Y $ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit scalaire dans L2
%X%p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . norme Lp de X
Chapitre 1

Formalisme de Kolmogorov

Nous désignons par épreuve une expérience ou une observation réalisée


dans des conditions bien définies (protocole expérimental) reproductible, et
dont le résultat est l’un des éléments d’un ensemble déterminé (univers). Le
but de la théorie des probabilités est d’associer à certains sous-ensembles de
cet univers, appelés évènements, un nombre réel compris entre 0 et 1, qui
reflète notre degré de confiance dans la réalisation de l’évènement une fois
que l’épreuve a eu lieu.
La théorie moderne des probabilités est formalisée par Kolmogorov en
1933, en faisant appel à la théorie de la mesure. La notion clef est celle
d’espace probabilisé.
Définition 1 Un espace probabilisé (Ω, T , P ) est la donnée :
– d’un ensemble Ω appelé univers, dont les éléments sont appelés résultats,
– d’une tribu T de parties de Ω, dont les éléments sont appelés évènements,
– d’une mesure P définie sur la tribu T , qui satisfait P (Ω) = 1.
Commençons par décrire trois exemples importants d’espaces probabili-
sés.

1.1 Le cas discret : Ω fini ou dénombrable


Pour T , on prend l’ensemble des parties de Ω : T = P(Ω). Se donner
une probabilité P : T → [0, 1] revient à se donner une famille de nombres
réels pω , ω ∈ Ω, qui satisfait
– 0 ≤ pω ≤ 1 pour tout ω ∈ Ω,
!
– pω = 1.
ω∈Ω
La correspondance entre P et les pω est donnée par
!
pω = P ({ω}), P (A) = pω .
ω∈A

7
8 CHAPITRE 1. FORMALISME DE KOLMOGOROV

Notons δω la mesure de Dirac au point ω :


"
1 si ω ∈ A
∀A ∈ T , δω (A) =
0 sinon

Cette mesure est supportée par le singleton {ω}.

δω ({ω}) = 1, δω ({ω}c ) = 0.
!
On peut exprimer la probabilité P comme une somme de Dirac : P = pω δω .
On a alors, pour g : Ω → R mesurable, positif ou P -intégrable, ω∈Ω
# !
g dP = pω g(ω).
Ω ω∈Ω

Exemples
– Loi uniforme sur Ω = {1, 2, ..., n} :

#A
pω = 1/n, P (A) = .
#Ω

Le lancé d’un dé à 6 faces bien équilibré est modélisé par un tel espace
probabilisé ( n = 6).
– Loi binomiale de paramètres n ∈ N∗ , p ∈ [0, 1], sur Ω = {0, ..., n} :

pk = P ({k}) = Cnk pk (1 − p)n−k pour k ∈ {0, ..., n}.

pk est la probabilité d’obtenir k succès exactement au cours de n tirages


indépendants, sachant que la probabilité de succès lors d’un tirage est égale
à p.
– Loi de Poisson sur Ω = N de paramètre λ > 0 :

λk −λ
pk = P ({k}) = e pour k ∈ N.
k!

1.2 Le cas continu : Ω = R ou Rd


Ici T est la tribu engendrée par les intervalles de R ou les rectangles
de Rd . Ses éléments sont appelés boréliens. On peut définir une mesure
de probabilité sur Ω à partir d’une densité f : Ω → R+ satisfaisant les
conditions suivantes :
– la fonction f est borélienne,
– pour tout ω ∈ Ω, f (ω) ≥ 0,
$
– Ω f dλ = 1.
1.3. LE CAS DES ESPACES PRODUITS 9

On a noté la mesure de Lebesgue sur Ω avec un λ. La mesure de probabilité


P associée à la densité f est donnée par
# #
P (A) = f dλ = f (x) dx.
A A

On a alors pour toute fonction mesurable g : Ω → R positive ou P -


intégrable, # #
g dP = g(x)f (x) dx.
Ω Ω
Exemples
– Probabilité uniforme sur [a, b], avec a, b ∈ R , a < b :
1
f= 1
b − a [a,b]

– Loi de Laplace-Gauss ou loi normale de paramètres m ∈ R , σ > 0 :


1 (x−m)2
f (x) = √ e− 2σ 2
2πσ 2
Elle est dite centrée si m = 0 et σ = 1. On l’appelle aussi loi gaussienne.
– Probabilité exponentielle de paramètre l > 0 :

f (x) = l e−lx 1R+ (x)

1.3 Le cas des espaces produits


On s’intéresse à une épreuve modélisée par un espace probabilisé (Ω, T , P )
et on veut répéter cette épreuve plusieurs fois de manière indépendante, di-
sons n fois, n ∈ N∗ . Pour cela, on considère :
• l’univers Ωn = Ω×Ω×...×Ω, contenant des multiplets (ω1 , ω2 , ..., ωn ) ∈ Ωn .
L’élément ω1 est le résultat obtenu lors de la première épreuve, ω2 lors de
la seconde épreuve etc.
• La tribu produit T ⊗ T ⊗ ...T = T ⊗n . C’est la tribu engendrée par les
parties de Ωn de la forme A1 × A2 × ... × An , avec Ai ∈ T pour tout i.
• Dans le cas indépendant, la mesure produit P ⊗ ... ⊗ P sur cette tribu.
Cette mesure P ⊗n est l’unique mesure vérifiant

P ⊗n (A1 × A2 × ... × An ) = P (A1 )P (A2 )...P (An )

pour tout A1 , ..., An ∈ T .

On va chercher à étudier le comportement asymptotique d’une répéti-


tion d’épreuves, effectuées de manière indépendante, quand n tend vers l’in-
fini. Pour cela, nous introduisons un nouvel espace probabilisé.
10 CHAPITRE 1. FORMALISME DE KOLMOGOROV

• L’univers ΩN est l’ensemble de toutes les suites d’éléments de Ω.


• On se place sur la tribu produit T ⊗N . C’est la tribu de parties de ΩN
engendrée par les cylindres de la forme

CA0 ,...,An = {(ωi )i∈N | ∀i = 0...n, ωi ∈ Ai }

avec n ∈ N et A0 , ..., An ∈ T .
• Dans le cas indépendant, on considère sur T ⊗N la mesure produit P ⊗N ,
caractérisée de la façon suivante :

Théorème 1 (Kolmogorov) Soit (Ω, T , P ) un espace probabilisé. Alors il


existe une unique mesure de probabilité sur T ⊗N , notée P ⊗N , qui satisfait

P (CA0 ,...,An ) = P (A0 )P (A1 )...P (An )

pour tout n ∈ N et A0 , ..., An ∈ T .

L’exemple le plus simple est donné par la répétition un nombre arbi-


trairement grand de fois du lancer d’une pièce de monnaie. L’univers est
donné par l’ensemble de toutes les suites de pile ou face : {pile, f ace}N . Cet
ensemble est muni de la tribu engendrée par tous les sous-ensembles de la
forme
{(ωi )i∈N | ω0 ∈ A0 , ..., ωm ∈ Am }
avec m ∈ N et Ai ∈ {pile, f ace} pour i allant de 0 à m. Si la pièce est
bien équilibrée, on peut prendre comme probabilité le produit P ⊗N , où
P ({f ace}) = P ({pile}) = 1/2.
Chapitre 2

Variables aléatoires

En pratique, on s’intéresse à certaines quantités numériques attachées


aux résultats obtenus à l’issue de notre épreuve. Pour modéliser cela, on
introduit la notion de variable aléatoire.

2.1 Définition d’une variable aléatoire


Définition 2 Soit (Ω, T , P ) un espace probabilisé. Par définition, une va-
riable aléatoire X : Ω → R est une fonction mesurable définie sur Ω, à
valeurs réelles : pour tout intervalle I ⊂ R, l’image réciproque X −1 (I) de
cet intervalle est dans T .

Pour A ⊂ R borélien, on pose

X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} = (X ∈ A)
X −1 ([a, b]) = (a ≤ X ≤ b)
X −1 ([a, ∞[) = (a ≤ X) = (X ≥ a)

On a alors
P (X −1 (A)) = P (X ∈ A).
C’est la probabilité d’obtenir, à l’issue de l’épreuve, un résultat pour lequel la
valeur de X est dans A. La quantité P (X ∈ A) est bien définie dès que A est
borélien car l’image réciproque d’un borélien par une application mesurable
est mesurable (c’est-à-dire est dans T ).

2.2 Espérance et variance


$
Définition 3 Une variable aléatoire X est dite intégrable si Ω |X| dP < ∞.
Dans ce cas l’intégrale de X est bien définie, c’est l’espérance de X.
#
E(X) = X dP.

11
12 CHAPITRE 2. VARIABLES ALÉATOIRES

La variable aléatoire X est dite de carré intégrable si son carré est inté-
grable : #
E(X 2 ) = X 2 dP < +∞.

Dans ce cas X est intégrable et on définit la variance de X par la formule
% &
V (X) = E (X − E(X))2 .

On remarque qu’une variable aléatoire de carré intégrable est intégrable


en intégrant l’inégalité 2X ≤ 1 + X 2 . On peut aussi faire appel à l’inégalité
de Cauchy-Schwarz : pour toutes variables aléatoires X, Y : Ω → R,
# '# '#
|XY | dP ≤ X 2 dP Y 2 dP .
Ω Ω Ω
(
En prenant Y = 1 dans cette formule, on obtient E(|X|) ≤ E(X 2 ).
Développons le carré qui apparaît dans la définition de la variance.
% & % &
E (X −E(X))2 = E X 2 −2XE(X)+E(X)2 = E(X 2 )−2E(X)2 +E(X)2 .

Nous obtenons la formule suivante, très utile pour calculer V (X) :


Proposition 1 V (X) = E(X 2 ) − E(X)2 .
Dans le cas discret, la variable aléatoire X est intégrable si elle satisfait
! !
pω |X(ω)| < +∞, auquel cas E(X) = pω X(ω).
ω∈Ω ω∈Ω

Dans le cas continu,


$
en notant f la densité de P , la variable aléatoire X
est intégrable si Rd |X(ω)|f (ω)dω < +∞ et dans ce cas
#
E(X) = X(ω)f (ω)dω.
Rd

Propriétés
Soit λ ∈ R et X, Y deux variables aléatoires intégrables.
– E(λX + Y ) = λE(X) + E(Y ). (linéarité)
– Si X ≤ Y , c’est-à-dire si pour tout ω ∈ Ω, X(ω) ≤ Y (ω), alors
E(X) ≤ E(Y ). (monotonie)
– Pour tout évènement A ∈ T , P (A) = E(1A ).
– Soit (Xn ) une suite de variables aléatoires qui converge de manière crois-
sante vers X : pour presque tout ω ∈ Ω, (Xn (ω))n∈N est croissante et
Xn (ω) → X(ω). Alors
E(Xn ) −−−−→ E(X).
n→∞
2.3. INÉGALITÉS 13

– Soit (Xn ) une suite de variable aléatoires qui converge vers X presque
partout. On suppose qu’il existe Y intégrable telle que |Xn | ≤ Y pour tout
n ∈ N. Alors E(Xn ) −−−−→ E(X).
n→∞

– V (λX) = λ2 V (X).
– V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y )
La covariance de X, Y a été notée

Cov(X, Y ) = E(XY ) − E(X)E(Y ),

elle est bien définie dès que X, Y sont de carrés intégrables.

Ces propriétés sont des conséquences immédiates des définitions. Les


deux théorèmes de passage à la limite découlent du théorème de convergence
croissante et du théorème de convergence dominée.

2.3 Inégalités
On s’intéresse maintenant à deux inégalités classiques qui donnent des
informations sur la manière dont les valeurs d’une variable aléatoire se ré-
partissent.

Théorème 2 (Inégalité de Markov) Soit (Ω, T , P ) un espace probabi-


lisé, Y : Ω → R+ une variable aléatoire positive. Alors, pour tout λ > 0,
E(Y )
P (Y ≥ λ) ≤ .
λ
Preuve
On a l’inégalité λ1(Y ≥λ) ≤ Y ce qui donne, par monotonie,

E(λ1(Y ≥λ) ) ≤ E(Y ).

On conclut en remarquant que

E(λ1(Y ≥λ) ) = λ E(1(Y ≥λ) ) = λ P (Y ≥ λ).

Théorème 3 (Inégalité de Bienaymé-Tchebichev) Soit (Ω, T , P ) un es-


pace probabilisé, X : Ω → R une variable aléatoire de carré intégrable. Alors,
pour tout t > 0,
V (X)
P (|X − E(X)| ≥ t) ≤ .
t2
(
Cette inégalité peut se récrire à l’aide de l’écart-type σ(X) = V (X).
% & 1
/ ] E(X) − tσ(X), E(X) + tσ(X) [
P X∈ ≤
t2
14 CHAPITRE 2. VARIABLES ALÉATOIRES

Application
Si X est de carré intégrable, la probabilité d’obtenir à l’issue de l’épreuve
une valeur à plus de 10 fois l’écart-type de l’espérance est inférieure à 1/100.
Preuve
L’égalité de Bienaymé-Tchebichev se déduit de l’inégalité de Markov en pre-
nant Y = (X − E(X))2 et λ = t2 dans cette inégalité. On a alors

P (Y ≥ λ) = P ((X − E(X))2 ≥ t2 ) = P (|X − E(X)| ≥ t),


E(Y ) E((X − E(X))2 ) V (X)
= 2
= .
λ t t2
La formule est démontrée.

2.4 Loi d’une variable aléatoire


À chaque variable aléatoire X définie sur un espace probabilisé (Ω, T , P ),
on peut associer une probabilité PX qui rend compte de la répartition de
ses valeurs, en procédant de la façon suivante.

Définition 4 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable


aléatoire. La loi de X est la probabilité définie sur la tribu des boréliens de
R par la formule

PX (A) = P (X ∈ A) = P (X −1 (A))

pour tout A ⊂ R borélien.

La variable aléatoire X est dite discrète si sa loi PX est discrète : il existe


un ensemble fini ou dénombrable D ⊂ R tel que PX (D) = 1. Indiçons ses
éléments par un ensemble I ⊂ N : D = {xi }x∈I . On est presque sûr d’obtenir
un résultat qui se trouve dans cet ensemble de valeurs {xi }i∈I et on peut
écrire !
PX = pxi δxi
i∈I

où pxi est la probabilité d’obtenir la valeur xi : P (X = xi ) = pxi .


La variable aléatoire X est dite continue si PX est une loi continue,
auquel cas sa densité est notée fX . C’est une fonction borélienne positive
dont l’intégrale vaut un. On a alors
#
PX (A) = P (X ∈ A) = fX (x) dx
A
2.4. LOI D’UNE VARIABLE ALÉATOIRE 15

pour tout A ⊂ R borélien. Dans ce cas, la probabilité P (X = x) est bien


sûr nulle pour tout x ∈ R.
L’espérance et la variance d’une variable aléatoire peuvent s’exprimer en
fonction de sa loi uniquement. En conséquence, deux variables qui ont même
loi ont même espérance et même variance.

Proposition 2 Si X est intégrable,


#
E(X) = x dPX (x).
R

Si X est de carré intégrable,


#
V (X) = (x − E(X))2 dPX (x).
R

Cette proposition se déduit de la formule de transfert.

Proposition 3 (formule de transfert) Soit g : R → R borélienne, posi-


tive ou PX -intégrable. Alors
# #
g(X) dP = g(x) dPX (x).
Ω R

Preuve de la formule de transfert


– C’est vrai pour g = 1A , A borélien de R :
#
1A (X) dP = P (X ∈ A) = P (X −1 (A)),
#
1A (x) dPX (x) = PX (A) = P (X ∈ A).

– C’est vrai pour les combinaisons linéaires de fonctions indicatrices g =


)
ci 1Ai par linéarité de l’intégrale.
– Une combinaison linéaire de fonctions indicatrices s’appelle une fonction
étagée. Toute fonction positive mesurable peut être approchée de manière
croissante par une suite de fonctions étagées. Pour g ≥ 0, borélienne, on
prend gn → g , gn étagées, et on passe à la limite
# #
gn (X) dP −−−−→ g(X) dP
n→∞
# #
gn (x) dPX (x) −−−−→ g(x) dPX (x)
n→∞
$
en appliquant le théorème de convergence croissante, si bien que g(X) dP =
$
g(x) dPX (x).
– Pour g intégrable, on écrit g comme la différence de deux fonctions positives
intégrables et on utilise la linéarité de l’intégrale pour conclure.
16 CHAPITRE 2. VARIABLES ALÉATOIRES

Exemple
Si X est variable aléatoire obéissant à une loi exponentielle de paramètre
l > 0 , PX est associée à la densité fX (x) = le−lx 1R+ (x) et on a :
# # b
PX ([a, b]) = P (X ∈ [a, b]) = fX (x) dx = le−lx dx
[a,b] a

dès que 0 ≤ a ≤ b.
Il est parfois plus pratique de travailler avec des fonctions plutôt qu’avec
des lois de probabilité. Ceci nous amène à la notion de fonction de réparti-
tion.

Définition 5 La fonction de répartition de X est définie par

FX (x) = P (X ≤ x).

On a alors l’égalité, pour tout a, b ∈ R,

P (X ∈ ]a, b]) = FX (b) − FX (a).

Comme une mesure de probabilité définie sur la tribu des boréliens de R


est uniquement déterminée par ses valeurs sur les intervalles, la fonction
de répartition caractérise la loi de X de manière unique : si deux variables
aléatoires ont même fonction de répartition, elles ont même loi.

FX = FY ⇔ PX = PY .

Exemple
La fonction de répartition de la loi uniforme sur l’intervalle [a, b], a < b, est
donnée par
#
1 x 1

FX (x) = 1[a,b] (x) dx


b−a −∞ 0.8


 0 si x < 0
0.6

0.4
x−a
= b−a si a ≤ x ≤ b

 0.2
1 si x > b
0
0 0.5 1 1.5 2

La fonction de répartition possède les propriétés suivantes :


– elle est croissante, à valeur dans l’intervalle [0, 1],
– lim FX (x) = 0, lim FX (x) = 1,
x→−∞ x→+∞
– elle est continue à droite et possède une limite à gauche en tout point,
– l’ensemble des points de discontinuité de FX est composé des x ∈ R tels
que P (X = x) > 0, il est donc dénombrable.
2.5. LOI D’UN MULTIPLET DE VARIABLES ALÉATOIRES 17

2.5 Loi d’un multiplet de variables aléatoires


Les considérations précédentes se généralisent à des couples et des mul-
tiplets de variables aléatoires. Soient X1 , ...Xn des variables aléatoires à
valeurs réelles. On peut considérer ces variables comme une unique variable
aléatoire à valeurs dans Rn .

(X1 , X2 , ..., Xn ) : Ω → Rn .

On parle alors de vecteur aléatoire. On pose, pour A borélien de Rn et A1 ,


..., An des boréliens de R,

((X1 , ..., Xn ) ∈ A) = {ω ∈ Ω | (X1 (ω), X2 (ω), ..., Xn (ω)) ∈ A},

(X1 ∈ A1 , ..., Xn ∈ An ) = ((X1 , ..., Xn ) ∈ A1 × ... × An )


= {ω.∈ Ω | X1 (ω) ∈ A1 , ..., Xn (ω) ∈ An }
= (Xi ∈ Ai ).
1≤i≤n

Définition 6 Soit (Ω, T , P ) un espace probabilisé, X1 , ..., Xn des variables


aléatoires. La loi du multiplet (X1 , ..., Xn ) est la mesure de probabilité définie
sur la tribu des boréliens de Rn par la formule

P(X1 ,...,Xn) (A) = P ((X1 , ..., Xn ) ∈ A) = P ({ω ∈ Ω | (X1 (ω), ..., Xn (ω)) ∈ A})

pour tout A ⊂ Rn borélien.

La loi du multiplet est discrète si la loi de P(X1 ,...,Xn) est discrète : il


existe un ensemble fini ou dénombrable D ⊂ Rn tel que P(X1 ,...,Xn) (D) = 1.
Elle est dite continue si P(X1 ,...,Xn) est une loi continue, auquel cas sa densité
est notée fX1 ,...,Xn . Cette densité est une fonction borélienne, définie de Rn
dans R+ , positive, d’intégrale 1, et nous avons la relation
#
P ((X1 , ..., Xn ) ∈ A) = P(X1 ,...,Xn) (A) = fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxn .
A

La formule de transfert se généralise à n variables.

Proposition 4 (Formule de transfert) Soit g : Rn → R borélienne, po-


sitive ou P(X1 ,...,Xn) -intégrable. Alors
# #
g(X1 , ..., Xn ) dP = g(x1 , ..., xn ) dPX1 ,...,Xn (x1 , ..., xn ).
Ω Rn

La preuve est similaire à celle faite précédemment dans le cas d’une


variable, on procède en approchant g par une fonction étagée.
18 CHAPITRE 2. VARIABLES ALÉATOIRES

Les lois individuelles des Xi peuvent se déduire de la loi de (X1 , ..., Xn )


en remarquant que pour tout borélien A ⊂ R,

P (Xi ∈ A) = P (X1 ∈ R, ..., Xi−1 ∈ R, Xi ∈ A, Xi+1 ∈ R, ..., Xn ∈ R)


= P(X1 ,...,Xn) (R × ... × R × A × R × ... × R).

On dit que les lois PXi sont les lois marginales de la distribution (X1 , ..., Xn ).
Dans le cas continu, la densité des Xi se déduisent de celle de (X1 , ..., Xn )
grâce à la formule suivante :
# %# &
PXi (I) = fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn ) dxi
I R n−1

où I est un intervalle ou un borélien de R, si bien que


#
fXi (xi ) = fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn .
R n−1
Chapitre 3

Indépendance

On a vu comment modéliser une épreuve répétée un nombre fini ou


infini de fois de manière indépendante, en prenant pour univers un espace
produit et pour probabilité une probabilité produit. On va préciser cette
notion d’indépendance en l’appliquant à des évènements, des tribus ou des
variables aléatoires.

3.1 Indépendance d’évènements et de variables aléa-


toires
On commence par définir la notion d’évènements indépendants.

Définition 7 Soit (Ω, T , P ) un espace probabilisé. Deux évènements A, B ∈


T sont dits indépendants entre eux si
P (A ∩ B) = P (A)P (B).
Soit (Ai )i∈I une famille d’évènements. Ces évènements sont dits indépen-
dants dans leur ensemble si
%. & /
∀S ⊂ I fini, P Ai = P (Ai ).
i∈S i∈S

Exemple
Pour une famille de trois évènements {A1 , A2 , A3 }, I = {1, 2, 3}, ces condi-
tions s’écrivent comme suit :
S = {1} P (A1 ) = P (A1 )
S = {2} P (A2 ) = P (A2 )
S = {3} P (A3 ) = P (A3 )
S = {1, 2} P (A1 ∩ A2 ) = P (A1 )P (A2 )
S = {1, 3} P (A1 ∩ A3 ) = P (A1 )P (A3 )
S = {2, 3} P (A2 ∩ A3 ) = P (A2 )P (A3 )
S = {1, 2, 3} P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 )

19
20 CHAPITRE 3. INDÉPENDANCE

Définition 8 Deux variables aléatoires X, Y : Ω → R sont indépendantes


entre elles si pour tous boréliens A, B ⊂ R, les évènements (X ∈ A) et
(Y ∈ B) sont indépendants entre eux :
% &
P (X ∈ A) ∩ (Y ∈ B) = P (X ∈ A) P (Y ∈ B).

Soit (Xi )i∈I une famille de variables aléatoires. Elle sont dites indépendantes
entre elles si pour tout sous-ensemble S ⊂ I fini et (Ai )i∈S des boréliens de
R, les évènements (Xi ∈ Ai ) sont indépendants dans leur ensemble :
%. & /
P (Xi ∈ Ai ) = P (Xi ∈ Ai ).
i∈S i∈S

Introduisons les notations suivantes pour alléger les formules :


(X ∈ A, Y ∈ B) = (X ∈ A) ∩ (Y ∈ B)
= {ω ∈ Ω | X(ω) ∈ A et Y (ω) ∈ B}
% & .
Xi ∈ Ai , i ∈ S = (Xi ∈ Ai )
i∈S
(X1 ∈ A1 , X2 ∈ A2 , ..., Xn ∈ An ) = (X1 ∈ A1 )∩(X2 ∈ A2 )...∩(Xn ∈ An )

Définition 9 Deux tribus T1 ⊂ T , T2 ⊂ T sont indépendantes entre elles


si pour tout A ∈ T1 et B ∈ T2 , A et B sont indépendants entre eux.
Soit (Ti )i∈I une famille de tribus incluses dans T . Elle sont dites indé-
pendantes entre elles si pour tout sous-ensemble S ⊂ I fini et toute famille
(Ai )i∈S satisfaisant Ai ∈ Ti pour tout i ∈ S, les évènements Ai sont indé-
pendants dans leur ensemble :
%. & /
P Ai = P (Ai ).
i∈S i∈S

3.2 Lemme de Borel-Cantelli


Voici une première application de la notion d’indépendance d’évène-
ments.

Lemme 1 (Borel-Cantelli) Soit (Ω, T , P ) un espace probabilisé et (Ai )i∈N


une suite d’évènements.
!
Si P (Ai ) < +∞, presque tout ω ∈ Ω n’appartient qu’à un nombre fini
i∈N
de Ai .
!
Si P (Ai ) = +∞, et si les Ai sont indépendants dans leur ensemble, alors
i∈N
presque tout ω ∈ Ω appartient à une infinité de Ai .
3.2. LEMME DE BOREL-CANTELLI 21

On définit la limite supérieure de la suite d’ensembles Ai comme suit :


. 0 1 2
lim Ai = Ai = {ω ∈ Ω | ω appartient à une infinité de Ai }.
i∈N
N ∈N i≥N

Le lemme se reformule alors de la façon suivante :


! % &
P (Ai ) < +∞ implique P lim Ai = 0.
i∈N
i∈N
! % &
P (Ai ) = +∞ et (Ai )i∈N indépendants implique P lim Ai = 1.
i∈N
i∈N

Preuve du lemme !
Nous avons la relation #{i ∈ N | ω ∈ Ai } = 1Ai (ω). Intégrons cette éga-
lité. i∈N
# # ! !
#{i ∈ N | ω ∈ Ai } dP (ω) = 1Ai dP = P (Ai ) < +∞.
i∈N i∈N

La fonction ω 2→ #{i ∈ N | ω ∈ Ai } est intégrable, donc finie presque


partout ; pour presque tout ω ∈ Ω, #{i ∈ N | ω ∈ Ai } < +∞.
Supposons à présent les (Ai ) indépendants et M, N ∈ N, N ≤ M .

%.
M & M
/ M
/ )M
P Aci = P (Aci ) = (1 − P (Ai )) ≤ e− i=N
P (Ai )

i=N i=N i=N

d’après la majoration 1 − x ≤ e−x , va- 2

lide pour tout x ∈ R. Nous avons donc


1.5

%.
M & )M
P Aci ≤ e− i=N
P (Ai ) 1

i=N
0.5

et en passant à la limite sur M ,


%. & 0

P Aci = 0. -1 -0.5 0 0.5 1 1.5 2

i≥N -0.5

1 .
Ceci entraîne P ( Aci ) = 0 puis en passant au complémentaire,
N ∈N i≥N
% . 1 &
P (lim Ai ) = P Ai = 1.
N ∈N i≥N

Exemple
On considère une suite de variables aléatoires (Xn )n∈N indépendantes entre
elles et x ∈ R tel qu’il existe δ > 0 pour lequel P (Xn = x) ≥ δ pour tout n.
22 CHAPITRE 3. INDÉPENDANCE

Comme application du lemme de Borel-Cantelli, montrons que pour presque


tout ω ∈ Ω, le réel x apparaît consécutivement un nombre arbitrairement
grand de fois dans la suite (Xn )n∈N . Pour cela, on se donne N ∈ N∗ et on
pose
Ai = (XN i+1 = x, XN i+2 = x, ..., XN i+N = x).
Les Ai sont indépendants entre eux et P (Ai ) ≥ δN pour tout i. D’après le
lemme, il existe un ensemble ΩN de complémentaire négligeable, tel que tout
ω ∈ ΩN appartient à une infinité de Ai , si bien que x apparaît consécutive-
ment N fois dans la suite (Xi (ω)). Pour les ω appartenant à l’intersection
des ΩN , N ∈ N∗ , le nombre x apparaît consécutivement un nombre arbi-
trairement grand de fois dans la suite (Xi (ω)).
Comme corollaire, considérons une suite (Xi ) de variables indépendantes
telles que P (Xi = 1) = P (Xi = −1) = 1/2 pour tout i. D’après ce qui
précède, presque sûrement, il existe des suites arbitrairement longues de 1
consécutives dans la suite (Xi ), qui ne peut donc pas être bornée. Dans un
jeu de Pile ou Face, où la fortune des joueurs est bornée, on aboutit donc
presque sûrement à la ruine d’un des deux joueurs.

3.3 Loi d’un multiplet de variables indépendantes


Calculons l’espérance d’un produit de variables aléatoires indépendantes.

Proposition 5 Soit (Ω, T , P ) un espace probabilisé, X, Y : Ω → R deux


variables aléatoires. On se donne f, g : R → R des fonctions boréliennes
telles que f (X) et g(Y ) soient intégrables. On suppose X et Y indépendantes
entre elles. Alors

E(f (X)g(Y )) = E(f (X))E(g(Y )).

Ceci se généralise à un nombre quelconque de variables aléatoires (Xi )i=1...n


indépendantes entre elles :
%/
n & n
/
E fi (Xi ) = E(fi (Xi ))
i=1 i=1

où les fi : R → R sont des fonctions boréliennes telles que les fi (Xi ) sont
intégrables.

Preuve
Si f et g sont des fonctions indicatrices, f = 1A , g = 1B ,
E(f (X)g(Y )) = E(1A (X)1B (Y )) = E(1(X∈A) 1(Y ∈B) )
= E(1(X∈A)∩(Y ∈B) ) = E(1(X∈A, Y ∈B) )
= P (X ∈ A, Y ∈ B)
3.3. LOI D’UN MULTIPLET DE VARIABLES INDÉPENDANTES 23

= P (X ∈ A)P (Y ∈ B) par indépendance,


= E(1A (X))E(1B (Y ))
= E(f (X))E(g(Y )).
On procède ensuite comme pour la preuve de la formule de transfert : on
vérifie la formule pour les fonctions étagées, par linéarité, puis on vérifie la
formule pour f, g ≥ 0 en les approchant de manière croissante par des fonc-
tions étagées, et enfin pourf, g intégrables en les écrivant comme différence
de fonctions positives intégrables.
Le cas d’un nombre quelconque de variables indépendantes s’en déduit de
la même façon. Rappelons que la covariance de deux variables aléatoires est
égale à l’espérance du produit des variables moins le produit des espérances.
On obtient le corollaire suivant :
Corollaire 1 Soit X1 ,..., Xn des variables aléatoires de carré intégrable,
indépendantes entre elles. Alors
Cov(Xi , Xj ) = 0 si i 3= j,
%!
n & n
!
V Xi = V (Xi ).
i=1 i=1

Complément
On montre que la loi d’un couple ou d’un multiplet de variables aléatoires
indépendantes entre elles est égale au produit des lois de chacune des va-
riables aléatoires.
Proposition 6 Soit X, Y deux variables aléatoires indépendantes entre
elles. Alors
P(X,Y ) = PX ⊗ PY ,
# #
E(h(X, Y )) = h(X, Y ) dP = h(x, y) dPX (x) dPY (y)
Ω R2
pour toute fonction h : R2→ R borélienne, positive ou P(X,Y ) -intégrable.
Soit X1 ,..., Xn des variables aléatoires indépendantes entre elles. Alors
P(X1 ,...,Xn) = PX1 ⊗ PX2 ⊗ ... ⊗ PXn ,
#
E(h(X1 , ..., Xn )) = h(x1 , ..., xn ) dPX1 (x1 )...dPXn (xn )
Rn
pour toute fonction h : Rn → R borélienne, positive ou P(X1 ,...,Xn) -intégrable.
La preuve se ramène à celle de la proposition précédente en utilisant le
fait que toute fonction borélienne bornée h : R2 → R peut s’approcher en
norme L1 (R2 , P(X,Y ) + PX ⊗ PY ) par une combinaison linéaire de fonctions
de la forme (x, y) 2→ f (x)g(y), avec f et g boréliennes bornées. On généra-
lise ensuite aux fonctions boréliennes positives en utilisant le théorème de
convergence croissante puis aux fonctions intégrables. Le raisonnement est
le même pour un multiplet de variables aléatoires.
24 CHAPITRE 3. INDÉPENDANCE
Chapitre 4

Loi des grands nombres

On va s’intéresser au comportement asymptotique d’une suite de va-


riables aléatoires. On se donne un espace probabilisé (Ω, T , P ) et pour
chaque entier n ∈ N une variable aléatoire Xn : Ω → R.

Définition 10 La suite de variables aléatoires (Xi )i∈N est dite identique-


ment distribuée si tous les Xi ont même loi :

∀i, j ∈ N, PXi = PXj .

En d’autres termes, pour tout borélien A ⊂ R,

P (Xi ∈ A) = P (Xj ∈ A)

et pour toute fonction f : R → R borélienne positive ou intégrable par


rapport à PX0 ,
E(f (Xi )) = E(f (Xj )).
En particulier, E(Xi ) = E(Xj ) si les Xi sont intégrables, E(Xi2 ) = E(Xj2 )
et V (Xi ) = V (Xj ) si les Xi sont de carrés intégrables.

4.1 Loi faible des grands nombres


Soit (Xi )i∈N une suite de variables aléatoires indépendantes entre elles,
identiquement distribuées (v.a i.i.d). On pose
n
!
Sn = Xi = X1 + X2 + ... + Xn .
i=1

Pour ω ∈ Ω, la quantité Snn (ω) = X1 (ω)+X2 (ω)+...+X


n
n (ω)
est la moyenne
empirique calculée sur l’échantillon donné par le résultat ω ∈ Ω. On cherche
à étudier le comportement asymptotique de la moyenne Snn .

25
26 CHAPITRE 4. LOI DES GRANDS NOMBRES

Théorème 4 (loi faible des grands nombres) Soit (Xi )i∈N une suite de
variables aléatoires indépendantes entre elles, identiquement distribuées, de
carrés intégrables. Alors pour tout ε > 0,
%3 S 3 &
3 n 3
P 3 − E(X0 )3 > ε −−−−→ 0.
n n→∞

La preuve du théorème repose sur le lemme suivant.

Lemme 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes,


identiquement distribuées. Alors E(Sn ) = nE(X0 ), V (Sn ) = nV (X0 ).

Preuve du lemme
E(Sn ) = E(X1 + X2 + ... + Xn ) = E(X1 ) + E(X2 ) + ... + E(Xn ) par linéarité.
)
V (Sn ) = V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn ) + 2 i<j Cov(Xi , Xj ),
où Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ).
La covariance de deux variables aléatoires est nulle dans le cas indépendant.
D’où V (Sn ) = V (X1 ) + ... + V (Xn ) = n V (X0 ).
Preuve du théorème
D’après le lemme,

E(Sn /n) = E(X0 ), V (Sn /n) = V (X0 )/n, σ(Sn /n) = σ(X0 )/ n.

On applique alors l’inégalité de Bienaymé-Tchebichev :


%3 S
3 n Sn 33 & V (S /n)
n σ(X0 )2
P 3 − E( )3 > ε ≤ = −−−−→ 0.
n n ε2 nε2 n→∞

Remarque
On peut montrer que la loi faible des grands nombres est encore vraie
pour des variables aléatoires indépendantes, identiquement distribuées, inté-
grables.

4.2 Loi forte des grands nombres


Théorème 5 (loi forte des grands nombres) Soit (Xi )i∈N une suite de
variables aléatoires intégrables, indépendantes entre elles, identiquement dis-
)
tribuées et Sn = ni=1 Xi . Alors pour presque tout ω ∈ Ω,

Sn
(ω) −−−−→ E(X0 ).
n n→∞

Sn
En d’autres termes, l’ensemble {ω ∈ Ω | n (ω) −−−−→ E(X0 )} est un
n→∞
ensemble dont la probabilité vaut 1.
4.2. LOI FORTE DES GRANDS NOMBRES 27

On dit qu’une propriété est vraie presque sûrement si elle est satisfaite
pour presque tout ω ∈ Ω. Nous utiliserons dans la suite l’abréviation p.s.
pour le terme presque sûrement.

Énonçons un premier corollaire de la loi forte des grands nombres, qui


sera démontré dans la suite. Ce corollaire montre que la probabilité d’un
évènement est presque sûrement égale à la limite du nombre de fois où il est
réalisé sur le nombre total de fois où l’épreuve est répétée, lorsque le nombre
de répétitions tend vers l’infini.

Corollaire 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes


identiquement distribuées et soit A un borélien de R. Alors

#{i ≤ n | Xi (ω) ∈ A}
−−−−→ P (X0 ∈ A) presque sûrement.
n n→∞

Illustrons la loi forte des grands nombres sur un exemple avant de la


démontrer.
Exemple
On lance une pièce de monnaie bien équilibrée un grand nombre de fois
de manière indépendante. Pour modéliser ces épreuves, on commence par
considérer la probabilité P̃ définie sur P({pile, f ace}) par P̃ ({f ace}) =
P̃ ({pile}) = 1/2 et on pose :
– Ω = {pile, f ace}N ,
– T = P({pile, f ace})⊗N ,
– P = P̃ ⊗N .
Les éléments de Ω sont des suites infinies de pile ou face.
On définit maintenant une variable aléatoire X : {pile, f ace} → R par
X(pile) = 0, X(f ace) = 1 et on pose pour tout i ∈ N,
"
1 si ωi = pile
Xi ((ωk )k∈N ) = X(ωi ) =
0 si ωi = f ace

Soit ω = (ωk )k∈N ∈ Ω. L’élément ωk de la suite ω est le résultat obtenu au


kième lancer. La quantité Xk (ω) vaut 1 si ce résultat est face, 0 si il est égal
à pile. Définissons également

Sn X1 (ω) + ... + Xn (ω) X(ω1 ) + X(ω2 ) + ... + X(ωn )


(ω) = = .
n n n
C’est la moyenne des valeurs prises par X au cours des n premières épreuves.
C’est le nombre moyen de fois où Face a été obtenu au cours des n premiers
lancers.
28 CHAPITRE 4. LOI DES GRANDS NOMBRES

Proposition 7 Les variables aléatoires Xi sont indépendantes dans leur


ensemble, identiquement distribuées, intégrables.

Preuve

P (X0 ∈ A0 , ..., Xn ∈ An ) = P̃ ⊗N ({ω ∈ Ω | X(ω0 ) ∈ A0 , ..., X(ωn ) ∈ An })


= P̃ ⊗N (CX −1 (A0 ),...,X −1(An ) )
n
/
= P̃ (X −1 (Ai )).
i=0
De plus, P (X0 ∈ A0 ) = P (CX −1 (A0 ) ) = P̃ (X −1 (A0 )). Nous avons également

P (Xi ∈ Ai ) = P ({ω ∈ Ω | ωi ∈ X −1 (Ai )})


= P (CΩ,...,Ω,X −1(Ai ) )
= P̃ ⊗N (CΩ,...,Ω,X −1(Ai ) )
= P̃ (Ω)...P̃ (Ω)P̃ (X −1 (Ai ))
= P̃ (X −1 (Ai ))
D’où P (X0 ∈ A0 , ..., Xn ∈ An ) = P (X0 ∈ A0 )...P (Xn ∈ An ) pour tout
n ∈ N. On vient de démontrer que les Xi sont indépendants.
On a aussi vu que P (Xi ∈ A) = P̃ (X −1 (A)). La loi PXi ne dépend donc
pas de i et PXi = PXj pour tout i, j. Ceci termine la démonstration de la
proposition.

Dans notre exemple, nous avons PXi = 12 (δ0 +δ1 ) ce qui implique l’égalité
#
E(X1 ) = x dPX1 (x) = 0 × 1/2 + 1 × 1/2 = 1/2.
R

On peut maintenant appliquer la loi forte des grands nombres : pour presque
tout ω ∈ Ω,
#{i ≤ n | ωi = f ace}
−−−−→ 1/2
n n→∞
ou encore
%4 1 5&
P̃ ⊗N (ωi )i∈N ∈ {pile, f ace}N | #{i ≤ n | ωi = f ace} −−−−→ 1/2 = 1.
n n→∞

La fréquence d’apparition de face au cours d’une infinité de lancers est égale


à 1/2 presque sûrement, lorsque la pièce est bien équilibrée.

Nous allons démontrer la loi forte des grands nombres à partir du lemme
suivant.

Lemme 3 Soit (Yi ) une suite de variables aléatoires. Si pour tout ε > 0,

!
P (|Yi | > ε) < ∞
i=1
4.2. LOI FORTE DES GRANDS NOMBRES 29

alors la suite (Yi )i∈N converge presque sûrement vers 0 :

pour presque tout ω ∈ Ω, Yi (ω) −−−−→ 0.


i→∞

Le lemme montre que P ({ω ∈ Ω | Yi (ω) −−−−→ 0}) = 1.


i→∞

Preuve du lemme
On applique le lemme de Borel-Cantelli. La quantité ε étant fixée, on pose

Ai = (|Yi | > ε).


)
Comme P (Ai ) < ∞, presque tout ω ∈ Ω n’appartient qu’à un nombre
fini de Ai . Notons par Cε cet ensemble. Nous avons P (Cε ) = 1.

/ An et |Yn (ω)| < ε.


∀ω ∈ Cε , ∃N ∈ N, ∀n ≥ N, ω ∈

On prend ε = 1/k, k ∈ N∗ et on considère l’intersection des C1/k .


.
C= C1/k , P (C) = 1.
k∈N∗

Pour tout ω ∈ C et tout k ∈ N∗ , le point ω est dans C1/k , si bien qu’il


existe N ∈ N tel que pour tout n ≥ N , |Yn (ω)| < 1/k. Ceci montre que
lim Yn (ω) = 0, comme souhaité.
n→∞

Preuve de la loi forte des grands nombres


Pour simplifier, nous allons supposer que les Xi sont de carrés intégrables
dans la preuve. On donnera une preuve dans le cas intégrable plus tard, dans
le chapitre consacré à la convergence de séries de variables aléatoires.
Nous avons, pour tout i, E(Xi ) = E(X1 ). Quitte à remplacer les Xi
par Xi − E(Xi ), on peut supposer E(Xi ) = 0. On dit qu’on centre les
variables aléatoires. On veut montrer que Snn converge presque sûrement vers
0. Essayons d’appliquer le lemme précédent. Rappelons l’égalité E( Sii ) =
E(X1 ) = 0.
%3 S 3 & V (S /i) V (X1 )
3 i3 i
P 3 3>ε ≤ 2
= 2
par l’inégalité de Bienaymé-Tchebichev.
i ε iε

! %3 S 3 & ∞
V (X1 ) ! 1
3 i3
P 3 3>ε ≤ 2
= +∞.
n=1
i ε i=1
i
La condition du lemme, avec Yi = Si /i, n’est pas vérifiée. Remplaçons i par
S
i2 : Yi = ii22 . Nous avons maintenant
! %3 S 2 3 & V (X1 ) ! 1
3 i 3
P 3 2
3 > ε ≤ 2
.
i
i ε i
i
30 CHAPITRE 4. LOI DES GRANDS NOMBRES

) 1
La série i2 est convergente (sa limite vaut π 2 /6). Le lemme précédent
Si2
donne la convergence de la suite i2 :
Si2
−−−−→ 0 p.s.
i2 i→∞
Pour chaque n ∈ N∗ , on prend i ∈ N le plus grand possible, tel que
2 √
i ≤ n. L’entier i est égal à la partie entière de n et on a les encadrements :

i2 ≤ n ≤ (i + 1)2 − 1, i2 ≤ n ≤ i2 + 2i, 0 ≤ n − i2 ≤ 2i ≤ 2 n.
n i2 n
! ! !
Sn = Xk = Xk + Xk
k=1 k=1 k=i2 +1
3S 3 3S 2 3 1 33 !
n 3
3 n3 3 i 3 3
3 3≤ 3 2 3+ 3 Xk 3.
n i n
k=i2 +1
Pour majorer le dernier terme, on raisonne comme précédemment :
6 7
1 33 !
n 3
3 1 % !n & n − i2 2 V (X1 )
P 3 Xk 3 > ε ≤ 2 2
V Xk ≤ 2 2
V (X1 ) ≤ 3/2 .
n 2
n ε 2
n ε n ε2
k=i +1 k=i +1
) 1
La série n3/2
est convergente. D’après le lemme,
n
1 !
Xk −−−−→ 0 p.s.
n 2
n→∞
k=i +1

Le résultat est démontré.


Preuve du corollaire
On applique la loi des grands nombres à la suite (1A ◦ Xi ).
E(1A ◦ X1 ) = E(1X −1 (A) ) = E(1(X1 ∈A) ) = P (X1 ∈ A).
1

n
!
Sn 1 1
= 1A (Xk (ω)) = #{k ∈ {1, ..., n} | Xk (ω) ∈ A}
n n k=1 n
Cette quantité converge vers E(1A ◦ X1 ) d’après la loi forte des grands
nombres.

Complément
Donnons une généralisation aisée de la loi des grands nombres qui s’avère
utile en pratique.
Proposition 8 Soit (Xi )i∈N une suite de variables aléatoires indépendantes
identiquement distribuées. Soit m ∈ N∗ et f : Rm → R une fonction qui est
P(X1 ,...,Xm) -intégrable. Alors pour presque tout ω ∈ Ω,
N
1 !
f (Xk , ..., Xk+m−1 ) −−−−→ E(f (X1 , ..., Xm )).
N k=1 N →∞
4.2. LOI FORTE DES GRANDS NOMBRES 31

Preuve
On pose Yk = f (Xk , ...Xk+m−1 ) ; les variables Yk ne sont pas indépendantes
dans leur ensemble. Par contre, les variables Y1 , Ym+1 , Y2m+1 , Y3m+1 ... sont
indépendantes entre elles. Plus généralement, pour chaque r ∈ {1, ..., m},
les variables (Ymk+r )k∈N sont intégrables, indépendantes et identiquement
distribuées. On peut donc appliquer la loi des grands nombres à ces m suites
de variables aléatoires et faire la somme des résultats, ce qui donne
mn m
1! !
Yk −−−−→ E(Yi ).
n k=1 n→∞
i=1

Comme les variables Xi sont indépendantes identiquement distribuées, nous


avons
$
E(Yi ) = E(f (Xi , ..., Xm+i−1 )) = $
f (x1 , ..., xm ) dPXi (x1 )...dPXm+i−1 (xm )
= f (x1 , ..., xm ) dPX1 (x1 )...dPX1 (xm )
= E(f (X1 , ..., Xm )).
Ceci montre le résultat pour N multiple de m. Si N n’est pas multiple de m,
on peut l’écrire sous la forme N = mn+i avec 0 < i < m. On remarque alors
que chacun des termes Ymn+i /n converge vers 0 presque sûrement quand n
tend vers l’infini, d’après la loi des grands nombres :

Ymn+i % 1 !n & n − 1 % 1 n−1! &


= Ymk+i − Ymk+i −−−−→ E(Yi )−E(Yi ) = 0.
n n k=1 n n − 1 k=1 n→∞

La proposition s’ensuit.

Application
On revient à l’exemple de pile ou face. Prenons
%1 1 &⊗N
Ω = {pile, face}⊗N , T = P({pile, face})⊗N , P = δpile + δface .
2 2
D’après la loi des grands nombres,
1 1
#{k ∈ {1, ..., n} | ωk = f ace} −−−−→ pour presque tout ω ∈ Ω.
n n→∞ 2
En particulier, pour presque tout ω ∈ Ω, face apparaît une infinité de fois
dans la suite Ω. Soit (a1 , ..., am ) ∈ {pile, f ace}m . Prenons f = 1{(a1 ,...,am)} .
Nous obtenons
E(f (X1 , ..., Xm )) = P (X1 = a1 , ..., Xm = am )
= P (X1 = a1 )...P (Xn = am )
= 1/2m .
Appliquons la proposition précédente.
1 1
#{k ∈ {1, ..., n} | (ωk , ..., ωk+m−1 ) = (a1 , ..., am )} −−−−→ m p.s.
n n→∞ 2
32 CHAPITRE 4. LOI DES GRANDS NOMBRES

Notons par Ω(a1 ,...,am) l’ensemble des ω ∈ Ω pour lesquels on a cette conver-
gence. Cet ensemble est de probabilité 1. On en déduit
% . . &
P Ω(a1 ,...,am) = 1
m∈N∗ (a1 ,...,am )∈{pile,f ace}m

Presque tout ω ∈ Ω appartient à tous les Ω(a1 ,...,am) . Cela signifie que dans
presque toute suite ω ∈ Ω, tous les mots (a1 , ..., am ) apparaissent une infinité
de fois dans la suite ω avec fréquence 1/2m , pour tout m ∈ N∗ .

4.3 Illustration numérique


Pour illustrer la loi des grands nombres, on considère plusieurs suites
numériques, chacune consistant en mille chiffres obtenus de plusieurs façons.
La première a été obtenue en lançant mille fois un dé à dix faces.
9639178071955357849921025101273300480801046 3 5 6 4 3 1
1 2 61327775087105660253370520040446582273287202 4 5 4 9 6 4
2 5 10604555891235973442861465840322867693940082 4 8 9 5 5 5
7 8 05458285668455707010936863034366589342732435 4 1 7 8 6 0
3 8 20006510716864313685528574097171239576079838 3 1 6 9 5 8
5 5 71909032886951596091965787779248619230816622 5 2 3 8 4 8
2 3 02773470337694269961537648365779868125424989 1 7 5 7 2 1
7 2 83321186701201118772422854693468058955802024 9 8 2 7 3 1
1 2 40002526829248389923315315386557966689938172 8 4 4 3 4 7
1 7 03321630237263363770560318893260304325365517 4 0 6 3 3 9
3 9 79827021488658399704346937960049924612787510 2 6 2 2 3 3
5 4 28427940885511253121226801159454887044994500 2 4 1 6 0 1
8 5 76076521668683525015169808999101707953779077 2 6 0 8 1 0
5 4 57091906795941228190543320160538356391974387 4 5 0 9 7 7
3 1 42256208446793582069591398295534817669520584 7 8 1 0 0 8
6 6 80544575138507344413589805372277351865759923 8 7 7 3 9 1
7 9 33896582345746927039130764511708257770135367 4 2 1 5 9 5
7 7 90192856619079737095497673616541864589023496 3 4 0 3 9 2
5 0 63921052780483357656373237561356720507209316 6 9 4 6 7 9
1 0 9441467880686
La seconde est obtenue en utilisant un ordinateur et un générateur de
nombres aléatoires.
0848370245920332941130720550093134256424632 9 2 1 6 8 9
9 7 47619022491753477267238897625707122976490684 0 6 5 3 0 2
2 9 33848541391927692717681139746660032768040277 9 1 7 4 0 5
8 7 48690387597709752501628863755250598234351077 6 8 2 0 9 5
1 8 05788983703446621354475159293124572796817113 4 9 2 4 2 1
9 2 19238406395047361940343144318736007389059166 0 5 8 4 2 2
6 5 32439043455300579734169799238925012559236565 7 5 5 6 2 6
6 2 06121372232898684172179852465634046429334609 8 8 2 2 4 4
0 8 43960518408084824350258724040215923854678790 6 6 5 9 5 3
9 6 68713407025321762789994979875954905548833577 6 9 8 1 1 1
7 0 00499574680960283972297230330375335777339197 4 5 5 1 6 3
6 6 47343300820036885718475510697271682833916997 3 0 9 8 6 2
0 4 78176720282220493013633595996101484437364228 7 2 4 8 8 6
0 1 60216143227057023338118085530208831891486531 5 5 8 0 5 3
4 7 44055220030588691391259941562092607300797979 1 2 1 9 1 1
4 3 11842990721893862490337610988254070152151177 4 6 3 6 9 1
4 6 06300914071948447141772770591943195109757389 2 1 3 7 7 9
0 4 56643243322721077246682417815472143525538002 0 6 4 9 1 9
5 7 50749115601026339878675571367879838239809354 8 0 6 9 5 4
1 7 4212966077024
4.3. ILLUSTRATION NUMÉRIQUE 33

La troisième est constituée des mille premières décimales de π.

1415926535897932384626433832795028 8 4 1 9 7
1 6 9399375105820974944592307816406286 2 0 8 9 9
8 6 2803482534211706798214808651328230 6 6 4 7 0
9 3 8446095505822317253594081284811174 5 0 2 8 4
1 0 2701938521105559644622948954930381 9 6 4 4 2
8 8 1097566593344612847564823378678316 5 2 7 1 2
0 1 9091456485669234603486104543266482 1 3 3 9 3
6 0 7260249141273724587006606315588174 8 8 1 5 2
0 9 2096282925409171536436789259036001 1 3 3 0 5
3 0 5488204665213841469519415116094330 5 7 2 7 0
3 6 5759591953092186117381932611793105 1 1 8 5 4
8 0 7446237996274956735188575272489122 7 9 3 8 1
8 3 0119491298336733624406566430860213 9 4 9 4 6
3 9 5224737190702179860943702770539217 1 7 6 2 9
3 1 7675238467481846766940513200056812 7 1 4 5 2
6 3 5608277857713427577896091736371787 2 1 4 6 8
4 4 0901224953430146549585371050792279 6 8 9 2 5
8 9 2354201995611212902196086403441815 9 8 1 3 6
2 9 7747713099605187072113499999983729 7 8 0 4 9
9 5 1059731732816096318595024459455346 9 0 8 3 0
2 6 4252230825334468503526193118817101 0 0 0 3 1
3 7 8387528865875332083814206171776691 4 7 3 0 3
5 9 8253490428755468731159562863882353 7 8 7 5 9
3 7 5195778185778053217122680661300192 7 8 7 6 6
1 1 1959092164201989

La quatrième est obtenue en conservant les cinq derniers chiffres de deux


cents numéros de téléphone successifs d’un annuaire téléphonique.

4101491401570162374896178512291275 3 5 1 0 3
5 4 4941913308790788423080205915251791 9 8 3 3 8
9 0 1696427991309520468231697440533929 1 9 4 0 5
9 6 1902708577775484231826460352117856 4 9 2 5 0
9 6 7585665136917980576594106851138596 5 4 8 5 8
4 5 8955740985510007285594255899055073 9 7 9 8 5
2 9 8029040985100938373840645914493851 5 9 5 6 1
5 9 1628567694154582582172250984277115 0 0 8 6 5
4 5 9082771575786424525015569158504797 4 3 4 5 9
7 1 0598959285359315420685922739227940 4 5 5 9 0
9 5 9484940115389582628754958592066836 4 5 9 0 0
3 5 7302018765684685437562175923984509 9 6 9 8 8
5 6 4428995441515273448995874061928395 2 6 8 4 5
7 6 2959364580395803359356020818912959 3 8 6 8 5
3 8 5504368031964239578565961305058575 6 7 5 8 9
7 1 9458989562540698543456794592637926 3 8 4 5 3
3 5 5344980343774389367335686783052857 9 2 4 5 9
5 6 0865938154155820041101907575501499 7 4 0 4 5
1 4 3910649526399245759744828213857757 3 1 3 4 7
3 1 3009208997354368543789892098929936 8 6 6 1 4
1 0 2505741056365874391141530854685953 7 8 4 3 3
2 6 5882223289236284318927585916004997 9 4 8 6 9
8 2 2055448157631761858165894376857761 3 7 2 8 5
3 2 4060192089585537826657525328306791 4 3 7 5 5
7 1 9593059587659128

La cinquième s’obtient en concaténant les nombres entiers dans l’ordre


croissant en partant de un.
34 CHAPITRE 4. LOI DES GRANDS NOMBRES

12345678910111213141516171819202122 2 3 2 4
2 5 26272829303132333435363738394041424 3 4 4 4
5 4 64748495051525354555657585960616263 6 4 6 5
6 6 67686970717273747576777879808182838 4 8 5 8
6 8 78889909192939495969798991001011021 0 3 1 0
4 1 05106107108109110111112113114115116 1 1 7 1
1 8 11912012112212312412512612712812913 0 1 3 1
1 3 21331341351361371381391401411421431 4 4 1 4
5 1 46147148149150151152153154155156157 1 5 8 1
5 9 16016116216316416516616716816917017 1 1 7 2
1 7 31741751761771781791801811821831841 8 5 1 8
6 1 87188189190191192193194195196197198 1 9 9 2
0 0 20120220320420520620720820921021121 2 2 1 3
2 1 42152162172182192202212222232242252 2 6 2 2
7 2 28229230231232233234235236237238239 2 4 0 2
4 1 24224324424524624724824925025125225 3 2 5 4
2 5 52562572582592602612622632642652662 6 7 2 6
8 2 69270271272273274275276277278279280 2 8 1 2
8 2 28328428528628728828929029129229329 4 2 9 5
2 9 62972982993003013023033043053063073 0 8 3 0
9 3 10311312313314315316317318319320321 3 2 2 3
2 3 32432532632732832933033133233333433 5 3 3 6
3 3 73383393403413423433443453463473483 4 9 3 5
0 3 51352353354355356357358359360361362 3 6 3 3
6 4 3653663673683693

La sixième est obtenue en concaténant le nombre d’habitants de chacune


des communes de l’Ain, ordonnées par ordre alphabétique (2012, Abergement-
Clémenciat → Vonnas) et en conservant les mille premiers chiffres.

79123914796166011625577583471087393 3 1 9 1
6 5 35664974224322114041218753159321189 0 2 8 9
0 5 68680892384532591193692983505442817 3 8 4 4
1 4 74755271464355627483193029623099531 3 4 2 1
4 6 12793724999149456112488095259321762 7 4 2 7
1 7 48148544863020101224421191145186142 0 8 1 2
4 8 07096448367373682899421933353321416 6 7 5 1
6 6 73065098522181915971591679551381465 1 4 7 2
1 7 71431187209312010945279557012675461 5 3 1 2
2 4 25012288710986796255142752721384379 1 7 6 6
2 0 42851300145873442742248869882122639 5 4 7 6
1 9 29102722111817991893815148754224294 3 3 2 5
8 9 05365201214742019684608100495914910 9 7 9 1
7 5 83612217619998061195362142081740698 5 3 1 4
6 0 51150119174238321364221711110335325 5 2 1 8
9 2 03696011792671081271302156627231141 2 6 9 1
1 2 73155538881011581263034406432682109 4 3 1 2
1 9 93225713216210051026165024596406741 3 1 5 1
3 3 12487516882214739221559274200278018 1 6 5 4
8 3 41124666824767172453910100335132462 1 0 6 6
2 5 33747585150616386532548154212895154 4 1 3 8
2 6 32305365911673712371643112438101441 7 8 8 5
0 5 90386780138545450243216417342722231 5 1 7 0
2 8 80823922274324076591578180276681483 3 7 1 1
8 9 8444299597760114

La dernière est “faite maison”. On a demandé à une personne de réciter


mille chiffres successivement sans réfléchir. Voilà le résultat.
4.3. ILLUSTRATION NUMÉRIQUE 35

1429578416014533328784524444421455 4 1 2 4 0
0 0 0000001002003004014501594578591674 0 4 0 4 4
0 5 5678814579147953325245425444224425 4 4 2 5 2
8 9 5675421157240130402469514523425102 4 5 6 7 9
8 5 5242545651452035423542456891051456 1 0 5 0 1
2 0 1452414279831214241243911451212454 2 2 1 4 9
8 7 4978425129857642114010142541416999 9 1 0 5 2
4 1 4245241429578416014533328784256897 4 2 1 2 4
5 4 4878233354106148759241014202554302 1 6 8 9 1
0 7 1545014124512201520162017201820192 0 2 4 5 8
1 0 1054274562149874145210025041425249 8 7 6 5 2
1 4 5210421255215169879754321059054200 0 0 0 0 0
0 0 0142979542179854312042175024154979 4 1 1 4 7
2 1 4243444503210214424518952114987241 9 2 4 9 5
1 2 9856719249526142511121314567891042 1 2 3 4 1
2 5 9876414243444546474849410424680135 7 9 6 9 8
1 2 4521100024152172101987654321097959 8 9 5 2 4
1 5 2510024162893411142513218675412345 6 7 9 9 1
1 4 2505242157942152052241254152519675 1 2 2 4 1
5 2 4568710245271412452987521251798791 5 2 4 5 2
1 6 8910111254352162484442007042517924 2 1 7 8 9
1 2 5432102803203802648567891042172412 5 7 9 4 1
5 2 1496798475214142515149762152421524 9 4 5 5 2
1 4 2142452342412689346724165224162425 9 2 3 2 4
1 6 5003472164219671

Le tableau qui suit donne, pour chacune des suites qui viennent d’être
présentées, le nombre d’occurrences de chacun des dix chiffres dans la suite
ainsi que de quelques nombres à deux chiffres pris au hasard : 00, 11, 32, 66,
69 et 77.

0 1 2 3 4 5 6 7 8 9 00 11 32 66 69 77

1 104 89 98 107 86 112 100 108 99 97 10 8 11 11 12 16

2 107 94 108 106 99 92 87 112 89 106 12 10 9 11 9 13

3 93 116 103 102 93 97 94 95 101 106 7 16 9 11 6 9

4 85 82 80 87 96 164 80 83 113 130 8 6 4 4 8 8

5 66 177 177 148 77 77 77 67 67 67 3 25 25 5 5 4

6 73 171 132 95 104 93 83 83 84 82 5 25 16 10 5 3

7 92 161 167 39 183 131 45 61 51 70 26 13 10 0 4 0

1 dé à dix faces 5 nombres entiers par ordre crois-


2 générateur de nombres aléatoires sant
3 décimales de π 6 nombre d’habitants par commune
4 numéros de téléphone 7 récitation

Pour les trois premières suites, les occurrences sont proches des valeurs
asymptotiques produites par une suite indépendante identiquement distri-
buée. Chaque chiffre apparaît avec une fréquence proche du dixième, tandis
que les mots de deux lettres ont une fréquence proche du centième. On n’est
pas surpris que les deux premières suites se comportent conformément à la
36 CHAPITRE 4. LOI DES GRANDS NOMBRES

loi des grands nombres. La question reste ouverte de démontrer qu’il en va


vraiment de même pour la troisième suite constituée par les décimales de
π. On ne sait même pas si tous les chiffres apparaissent une infinité de fois
dans le développement décimal de π.
Les chiffres 5 et 9 sont sur-représentés dans la quatrième suite, sans
qu’il soit possible d’en déterminer la raison. On pourrait s’attendre à ce que
l’annuaire produise des valeurs aléatoires uniformément distribuées mais cet
exemple ne permet pas de confirmer cette intuition. Il faudrait une analyse
plus fine pour déterminer si c’est l’échantillon qui est particulier ou si un
ordre se cache derrière la répartition des numéros.
La cinquième suite présente des disparités importantes, avec le chiffre
1 très largement représenté tandis que le 0 est peu fréquent. On n’est pas
surpris que le chiffre 1 apparaisse souvent dans la liste des premiers entiers
naturels. Le nombre dont les décimales sont obtenues en faisant la liste de
tous les entiers par ordre croissant s’appelle la constante de Champernowne.
On peut montrer que la fréquence de chacun des chiffres finit par converger
vers un dixième, contrairement à ce que pourrait laisser penser les premiers
termes de la suite. De manière étonnante, on peut même montrer que la
constante de Champernowne est un nombre normal : pour tout entier n >
0, tous les mots constitués de n chiffres apparaissent dans la suite de ses
décimales avec une fréquence égale à 10−n .
La sixième suite présente aussi des variations importantes avec le chiffre
1 qui apparaît le plus fréquemment. Ce phénomène est parfois observé quand
on étudie des données statistiques concernant des populations humaines et
provient de la croissance exponentielle de ces populations. Il est relié à la loi
de Benford. Cette loi est bien vérifiée par le nombre d’habitants des trente
six mille communes de France et on l’observe déjà sur l’échantillon que nous
avons considéré.
Finalement, la septième suite est loin d’être uniformément répartie, avec
le chiffre 3 sous-représenté tandis que le 4 revient fréquemment. Elle montre à
quel point il est difficile pour un être humain de simuler le hasard. L’absence
de certains mots de longueur deux est typique dans ce genre d’expérimen-
tation et permet de repérer aisément les suites qui sont le produit d’une
intervention humaine plutôt que d’un procédé aléatoire.
Chapitre 5

Convergence de suites
aléatoires

5.1 Les différents types de convergence.


Les résultats précédents font appel à différentes notions de convergence.
On va préciser ces notions et étudier les relations qu’elles entretiennent entre
elles. Rappelons la définition des normes Lp , p ≥ 1.
Soit (Ω, T , P ) un espace probabilisé. Pour p ∈ [1, +∞[, la norme Lp de
la variable aléatoire Y : Ω → R est définie par
#
%Y %p = ( |Y |p dP )1/p .

La norme L∞ de Y est définie par


%Y %∞ = inf{C > 0 | ∃ Ω* tel que P (Ω* ) = 1 et |Y (ω)| ≤ C pour tout ω ∈ Ω* }
Définition 11 Soient Yn , Y des variables aléatoires définies sur (Ω, T , P )
et p ∈ [1, +∞].
– La suite Yn converge en norme Lp vers Y si
%Yn − Y %p −−−−→ 0.
n→∞

– La suite Yn converge en probabilité vers Y si


∀ ε > 0, P (|Yn − Y | > ε) −−−−→ 0.
n→∞

– La suite Yn converge presque sûrement vers Y si


pour presque tout ω ∈ Ω, Yn (ω) −−−−→ Y (ω).
n→∞

– La suite Yn converge en loi vers Y si


# #
pour toute fonction f : R → R continue bornée, f dPYn −−−−→ f dPY .
n→∞

37
38 CHAPITRE 5. CONVERGENCE DE SUITES ALÉATOIRES

Proposition 9 Soient p, q ∈ R tels que 1 ≤ p ≤ q ≤ ∞. On a les implica-


tions

CV L∞ ⇒ CV Lq ⇒ CV Lp ⇒ CV L1 ⇒ CV en proba ⇒ CV en loi.

CV L∞ ⇒ CV p.s. ⇒ CV en proba.
CV L∞ ⇒ CV en proba ⇒ CV p.s. d’une sous-suite.

Remarque
La convergence L2 implique la convergence en probabilité. C’est comme cela
que nous avons démontré la loi faible des grands nombres. Celle-ci affirme
que Snn converge vers E(X0 ) en probabilité si les (Xi ) sont indépendantes,
identiquement distribuées. On avait obtenu ce résultat en montrant que
V ( Snn ) −−−−→ 0. D’après la relation suivante, cela est équivalent à la conver-
n→∞
gence L2 :
0 2 %3 S % S &32 & %3 S 32 & 8 S 82
Sn 3 n n 3 3 n 3 8 n 8
V =E 3 −E 3 =E 3 − E(X0 )3 = 8 − E(X0 )8 .
n n n n n 2

Démonstration de la proposition
• CV Lq ⇒ CV Lp si p ≤ q.
Démontrons l’égalité %Y %p ≤ %Y %q en utilisant l’inégalité de Hölder : pour
tout p, q ≥ 1 tels que 1/p + 1/q = 1,
#
|Y Z| dP ≤ %Y %p %Z%q .

On prend Y constant égal à 1 dans cette inégalité, auquel cas %Y %p = 1


et %Z%1 ≤ %Z%q . Ceci démontre le résultat pour p = 1. Pour p général, on
remplace q par q/p et Z par Y p , ce qui donne :
# %# &p/q
p
Y dP ≤ Y pq/p dP ,

%Y %p ≤ %Y %q .
• CV L∞ ⇒ CV Lp .
On a pour presque tout ω ∈ Ω, |Y (ω)| ≤ %Y %∞ . En intégrant, on obtient
# #
%Y %pp = |Y (ω)|p dP (ω) ≤ %Y %p∞ dP = %Y %p∞ .

• CV L1 ⇒ CV en proba
L1
C’est une conséquence de l’inégalité de Markov. Si Yn −−−−→ Y ,
n→∞

E(|Yn − Y |) %Yn − Y %1
P (|Yn − Y | > ε) ≤ = −−−−→ 0
ε ε n→∞
5.2. FONCTION CARACTÉRISTIQUE ET TRANSFORMÉE DE FOURIER39

• CV L∞ ⇒ CV p.s.
L∞
Si Yn −−−−→ Y , il existe Ω* ⊂ Ω de probabilité 1 tel que
n→∞

sup |Yn (ω) − Y (ω)| −−−−→ 0.


ω∈Ω$ n→∞

On en déduit, pour tout ω ∈ Ω* , Yn (ω) −−−−→ Y (ω).


n→∞
• CV en proba ⇒ CV p.s. d’une sous-suite
Nous savons que pour tout ε > 0, P (|Yn − Y | > ε) −−−−→ 0.
n→∞
Pour tout k ∈ N, on peut donc trouver nk ∈ N aussi grand qu’on veut,
tel que P (|Ynk − Y | > 1/k) ≤ 1/2k . On a alors

!
P (|Ynk − Y | > 1/k) < ∞
k=0
On applique le lemme de Borel-Cantelli : pour presque tout ω ∈ Ω, hormis
pour un nombre fini d’indices k, |Ynk (ω)−Y (ω)| < 1/k. La suite Ynk converge
vers Y presque sûrement.
• CV p.s. ⇒ CV en proba
Nous avons les deux conditions suivantes :
– 1(|Yn −Y |>ε) (ω) −−−−→ 0 pour presque tout ω ∈ Ω car |Yn (ω)−Y (ω)| −−−−→ 0.
n→∞ n→∞
– |1(|Yn −Y |>ε) | ≤ 1Ω et 1Ω est intégrable, ne dépend pas de n.
On peut appliquer le théorème de convergence dominée :
# #
lim P (|Yn − Y | > ε) = lim 1(|Yn −Y |>ε) dP = lim 1 dP = 0.
n→∞ n→∞ n→∞ (|Yn −Y |>ε)

L’implication CV en proba ⇒ CV en loi sera démontrée dans la suite.

5.2 Fonction caractéristique et transformée de Fou-


rier
Pour étudier plus en détail la convergence en loi, on va utiliser la notion
de fonction caractéristique d’une variable aléatoire et de transformée de
Fourier d’une mesure de probabilité.
Définition 12 La fonction caractéristique d’une variable aléatoire Y : Ω →
R est définie par
# #
ϕY (t) = E(eitY ) = eitY dP = eity dPY (y).
Ω R
La transformée de Fourier d’une mesure de probabilité µ définie sur la tribu
des boréliens de R est définie par
#
9(t) =
µ eitx dµ(x).
R
40 CHAPITRE 5. CONVERGENCE DE SUITES ALÉATOIRES

On a donc l’égalité ϕY (t) = P9Y (t).


Propriétés
– |ϕY (t)| ≤ 1 pour tout t ∈ R,
– ϕY (0) = 1,
– t 2→ ϕY (t) est continue sur R,
– si Y est intégrable, alors t 2→ ϕY (t) est dérivable et ϕ*Y (0) = iE(Y ),
– si Y est de carré intégrable, t 2→ ϕY (t) est de classe C 2 et ϕ**Y (0) = −E(Y 2 ).

La continuité et la dérivabilité découlent des théorèmes de continuité et


de dérivabilité sous le signe intégrable. Par exemple, si X est intégrable, on
a la majoration
3∂ 3
3 3
3 eitY 3 = |iY eitY | ≤ |Y |
∂t
%$ & $ $
d ∂ itY
ce qui implique ϕ*Y (t) = dt Ωe
itY dP =
Ω ∂t e dP = Ω iY eitY dP.

La loi d’une variable aléatoire est complètement caractérisée par sa fonc-


tion caractéristique.

Proposition 10 Deux variables aléatoires qui ont même fonction caracté-


ristique ont même loi : ϕX = ϕY implique PX = PY .

Cette proposition sera démontrée à la fin du chapitre. On passe mainte-


nant à quelques calculs explicites de fonctions caractéristiques.

Cas discret
La variable aléatoire Y prend un nombre fini ou dénombrable de valeurs yk ,
k ∈ I, avec I = {1, ..., n} ou I = N.
!
ϕY (t) = E(eitY ) = eityk P (Y = yk ).
k∈I

• Loi de Bernoulli de paramètre p ∈ [0, 1]


Si Y obéit à une telle loi, P (Y = 0) = 1 − p, P (Y = 1) = p. On a alors
ϕY (t) = eit×0 P (Y = 0) + eit×1 P (Y = 1),

ϕY (t) = 1 − p + peit .

• Loi uniforme sur {1, ..., n} , n ∈ N∗


Si Y obéit à une telle loi, P (Y = k) = 1/n pour k ∈ {1, ..., n}, ce qui
) ) )
implique ϕY (t) = nk=1 eitk P (Y = k) = nk=1 n1 (eit )k = n1 eit n−1 it k
k=0 (e ) .

1 it 1 − eitn
ϕY (t) = e si t ∈
/ 2πZ.
n 1 − eit
5.3. CONVERGENCE EN LOI 41

Cas continu
La variable aléatoire
$
Y est associée à la densité fY : R → R+ si bien que
P (Y ∈ A) = A fY (y) dy.
# #
ϕY (t) = E(eitY ) = eity dPY (y) = eity fY (y) dy.

• Loi uniforme sur [a, b], a < b.


$ 1 1 $ b ity 1 eity b
ϕY (t) = R eity b−a 1[a,b] (y) dy = b−a a e dy = b−a [ it ]a .

eitb − eita
ϕY (t) = si t 3= 0.
it (b − a)

• Loi exponentielle de paramètre l > 0


$ $ +∞
ϕY (t) = R eity le−ly 1R (y) dy = 0 le(it−l)y dy = [le(it−l)y /(it − l)]+∞
0 .

l
ϕY (t) = .
l − it

Remarque
on utilise parfois à la place de la fonction caractéristique la notion de fonction
génératrice.

Définition 13 On considère l’ensemble des z ∈ C pour lesquels la fonc-


tion z Y est intégrable. La fonction génératrice d’une variable aléatoire Y est
définie sur cet ensemble par l’expression

z 2→ E(z Y )

Attention, elle n’est pas forcément définie pour tout z ∈ C, la fonction


z 2→ z Y n’étant pas forcément intégrable. Lorsque z = eit , elle est bien
intégrable et on retrouve la fonction caractéristique de la variable Y .

5.3 Convergence en loi


Rappelons que Yn converge en loi vers Y si pour toute fonction f : R →
R continue bornée, # #
f dPYn −−−−→ f dPY .
n→∞

Définition 14 Soit µn et µ des mesures de probabilité définies sur la tribu


des boréliens de R. Nous dirons que µn converge étroitement
# vers µ si pour
$
toute fonction f : R → R continue bornée, f dµn −−−−→ f dµ.
n→∞
42 CHAPITRE 5. CONVERGENCE DE SUITES ALÉATOIRES

La suite Yn converge en loi vers Y si et seulement si PYn converge étroi-


tement vers PY . On va relier la convergence en loi à la convergence simple
des fonctions caractéristiques dans le but de démontrer le théorème de la
limite centrée.

Théorème 6 Soit µ, µn , n ∈ N, des mesures de probabilité définies sur la


tribu des boréliens de R. Les propriétés suivantes sont équivalentes :
# #
– f dµn −−−−→ f dµ pour toute fonction f continue bornée,
n→∞
# #
– f dµn −−−−→ f dµ pour toute fonction f C ∞ à support compact,
n→∞
# #
– f dµn −−−−→ f dµ pour toute fonction f de la forme eitx , t ∈ R.
n→∞

Le premier point correspond à la convergence étroite des µn vers µ. Le


dernier point correspond à la convergence des transformées de Fourier des
µn . On en déduit le corollaire suivant.

Corollaire 3 Soit µ, µn des mesures de probabilité définies sur la tribu des


9 n (t) −−−−→ µ
boréliens de R. Si pour tout t ∈ R, µ 9(t) alors µn converge vers
n→∞
µ étroitement.
Considérons une suite de variables aléatoires (Yn ). Si pour tout t ∈ R,
ϕYn (t) −−−−→ ϕY (t) alors Yn converge vers Y en loi.
n→∞

Rappelons que f : R → R est à support compact s’il existe A > 0 tel que
f est nulle hors de [−A, A]. Un exemple de fonction C ∞ à support compact
est donné par
1

f (x) = e 1−x2 1[−1,1] (x).

0.5
0.4
0.3
0.2
0.1
0
-1 -0.5 -0.1 0 0.5 1

Pour démontrer le théorème, nous allons avoir besoin de la formule d’in-


version de Fourier. Soit f : R → R une fonction intégrable par rapport à la
mesure de Lebesgue. Sa transformée de Fourier est définie par
#
f9(t) = e−itx f (x) dx.
R

On montre que cette fonction est continue en appliquant le théorème de


continuité sous le signe intégral.
5.3. CONVERGENCE EN LOI 43

Théorème 7 (formule d’inversion de Fourier) Soit f une fonction C ∞


à support compact. Alors fˆ est intégrable et
#
1
f (x) = eitx f9(t) dt pour tout x ∈ R.
2π R

La preuve du théorème est donnée en annexe, sous des hypothèses un


peu plus générales. La formule d’inversion de Fourier implique la relation
suivante entre µ et sa transformée de Fourier.

Corollaire 4 Soit µ une mesure de probabilité définie sur la tribu des bo-
réliens de R et f : R → R une fonction C ∞ à support compact. Alors
# #
1
f (x) dµ(x) = f9(t) µ
9(t) dt.

Preuve du corollaire
# # #
1
f (x) dµ(x) = eitx f9(t) dt dµ(x)
R R 2π R
# #
1
= eitx f9(t) dµ(x) dt
2π R R
# 0# 2
1 9 itx
= f (t) e dµ(x) dt
2π R R
#
1
= f9(t) µ
9(t) dt.
2π R
Ici on a utilisé le théorème de Fubini pour intervertir
$$
les deux intégrales.
L’emploi de ce théorème est justifié car l’intégrale R2 |eitx f9(t)| dµ(x) dt est
finie :
# # # # #
|eitx
f9(t)| dµ(x) dt = dµ(x) |f9(t)| dt = |f9(t)| dt < ∞.
R R R R R

La preuve est terminée.


$ $
On commence par démontrer la convergence f dµn −→ f dµ pour
toute fonction f de classe C ∞ à support compact si µ
9n (t) −→ µ
9(t) pour
tout t ∈ R. D’après le corollaire précédent,
# #
1
f (x) dµn (x) = f9(t) µ
9n (t) dt,

# #
1
f9(t) µ
f (x) dµ(x) = 9(t) dt.

Il suffit d’appliquer le théorème de convergence dominée pour conclure :
# #
f9(t) µ
9n (t) dt −−−−→ f9(t) µ
9(t) dt.
n→∞
44 CHAPITRE 5. CONVERGENCE DE SUITES ALÉATOIRES

L’emploi du théorème de convergence dominée est justifié ici car pour tout
t ∈ R, µ 9(t) par hypothèse et f9 µ
9n (t) −−−−→ µ 9n est majorée par f9 qui est
n→∞
intégrable.
$ $
On cherche à présent à démontrer que si f dµn −→ f dµ pour toute
fonction C ∞ à support compact, il en va de même pour toute fonction conti-
nue bornée.

Lemme 4 Pour tout ε > 0, il existe A > 0 tel que pour tout n ∈ N,

µn ([−A, A]) ≥ 1 − ε.

Une suite de mesures de probabilité qui vérifie cette propriété est dite
tendue.
Preuve du lemme
Soit g une fonction C ∞ telle
que 1

• 0 ≤ g ≤ 1,
• g = 1 sur [−A + 1, A − 1],
• g = 0 sur [−A, A]c . 0

Fixons ε > 0. Comme µ([−A + 1, A − 1]) −−−−→ µ(R) = 1, on peut choisir


A→∞
A0 tel que µ[−A0 + 1, A0 − 1] > 1 − ε.
# #
µn ([−A0 , A0 ]) ≥ g dµn −−−−→ g dµ ≥ µ([−A0 + 1, A0 − 1]) > 1 − ε.
n→∞

On peut donc trouver n0 ∈ N tel que pour n ≥ n0 , µn ([−A0 , A0 ]) ≥ 1 − ε.


De plus, pour chaque k ∈ {0, ..., n0 }, on peut trouver un ensemble Ak tel
que µk ([−Ak , Ak ]) ≥ 1 − ε. Pour tout A supérieur à max{A0 , ..., An0 }, on a

∀n ∈ N, µn ([−A, A]) ≥ 1 − ε.

Le lemme est démontré.

Soit f continue bornée. Sur [−A − 1, A + 1] , on peut approcher f uni-


formément par une fonction C ∞ en faisant appel au théorème de Stone-
Weierstraß ou en convolant avec une fonction C ∞ . Cette approximation
peut être prolongée en une fonction C ∞ à support compact définie sur R
tout entier en la multipliant par une fonction de classe C ∞ , comprise entre
0 et 1, qui vaut 1 sur [−A, A] et 0 hors de [−A − 1, A + 1]. Pour tout ε > 0
on peut donc trouver f˜ C ∞ à support compact telle que

sup |f (x) − f˜(x)| < ε.


x∈[−A,A]
5.3. CONVERGENCE EN LOI 45

$ $
On veut montrer que | f dµn − f dµ| est inférieur à ε pour tout n
suffisamment grand. On décompose comme suit :
3# # 3 3# # 3 3# # 3 3# # 3
3 3 3 3 3 3 3 3
3 f dµn − f dµ 3 ≤ 3 f dµn − f˜dµn 3+3 f˜dµn − f˜dµ 3+3 f˜dµ− f dµ 3
$ $
• Comme f˜ est C ∞ à support compact,$
f˜ dµn$ −→ f˜ dµ. On peut
trouver N ∈ N tel que pour tout n ≥ N, | f˜dµn − f˜dµ| < ε.
$ $ $
• | f dµn − f˜dµn | ≤ [−A,A] |f − f˜| dµn + [−A,A]c |f − f˜| dµn

≤ ε µn ([−A, A]) + (supR |f | + supR |f˜|) µn ([−A, A]c )

≤ ε + (supR |f | + supR |f˜|) ε.


Cette majoration est valide pour tout n ∈ N.
$
• Le terme | f − f˜ dµ | se majore de la même façon.
Finalement, on remarque que sup |f˜| ≤ sup |f | + ε ≤ sup |f | + 1 sur R
par construction. On a donc, pour tout n ≥ N,
3# # 3
3 3
3 f dµn − f dµ 3 ≤ (4 + 2 sup |f |) ε.

Le théorème est démontré.

Proposition 11 Soient µn , µ des mesures de probabilités définies sur la


tribu des boréliens de R. On suppose que µn converge étroitement vers µ.
Alors pour tout a, b ∈ R tels que µ({a}) = 0 et µ({b}) = 0, on a

µn ([a, b]) −−−−→ µ([a, b]).


n→∞

De même, pour tout x ∈ R tel que µ({x}) = 0,

µn ([x, +∞[) −−−−→ µ([x, +∞[),


n→∞

µn (] − ∞, x]) −−−−→ µ(] − ∞, x]).


n→∞

Appliquons cette proposition à une suite de variables aléatoires.

Corollaire 5 Soient (Xn )n∈N et X des variables aléatoires définies sur un


espace probabilisé (Ω, T , P ) telles que Xn converge en loi vers X. Alors pour
tout a, b ∈ R tels que P (X = a) = P (X = b) = 0,

P (a ≤ Xn ≤ b) −−−−→ P (a ≤ X ≤ b).
n→∞
46 CHAPITRE 5. CONVERGENCE DE SUITES ALÉATOIRES

De plus, les fonctions de répartition des Xn convergent vers la fonction de


répartition de X en tout point x ∈ R tel que P (X = x) = 0 :

FXn (x) −−−−→ FX (x) si P (X = x) = 0.


n→∞

Remarque
On peut démontrer que la convergence des fonctions de répartition en tout
point x tel que P (X = x) = 0 est en fait équivalente à la convergence en loi
de la suite Xn vers X.
Preuve
Il s’agit d’approcher 1[a,b] par des fonctions continues bornées. Soit hm la
fonction continue bornée, affine par morceaux telle que :
1 1
• hm = 1 sur [a + m ,b − m ],
• hm = 0 hors de [a, b].
1 1
• la pente de hm vaut m sur [a, a + m] et −m sur [b − m , b].

Soit gm la fonction continue bornée, affine par morceaux, telle que


• gm = 1 sur [a, b],
1 1
• gm = 0 hors de [a − m ,b + m ],
1 1
• la pente de gm vaut m sur [a − m , a] et −m sur [b, b + m ].

Nous avons la majoration 0 ≤ gm − hm ≤ 1[a− 1 ,a+ 1 ] + 1[b− 1 ,b+ 1 ] si


m m m m
bien que
# 0: 2 0: 2
1 1; 1 1;
0≤ gm − hm dµ ≤ µ a − ,a + + µ b − ,b +
m m m m

Ce dernier terme converge vers µ({a}) + µ({b}), quantité


$
qui est nulle par
hypothèse. Fixons ε > 0 et choisissons m ∈ N tel que gm − hm dµ ≤ ε.
La suite µn converge vers µ étroitement et hm ≤ 1[a,b] ≤ gm , nous avons
donc pour tout n suffisamment grand,
# # # #
hm dµ − ε ≤ hm dµn ≤ µn ([a, b]) ≤ gm dµn ≤ gm dµ + ε
$
et en vertu des inégalités hm ≤ 1[a,b] ≤ gm , gm − hm dµ ≤ ε,
# # # #
gm dµ − ε ≤ hm dµ ≤ µ([a, b]) ≤ gm dµ ≤ hm dµ + ε,
5.3. CONVERGENCE EN LOI 47

ce qui donne le résultat recherché :

µ([a, b]) − 2ε ≤ µn ([a, b]) ≤ µ([a, b]) + 2ε.

On termine ce chapitre par la preuve de deux résultats énoncés précé-


demment.

Proposition 12 Soit Xn , X des variables aléatoires. Si Xn converge vers


X en probabilité, alors Xn converge vers X en loi.

Preuve
Soit f : R → R C ∞ à support compact. Par le théorème des valeurs inter-
médiaires, pour tout x, y ∈ R,

|f (x) − f (y)| ≤ sup |f * | |x − y|.


R
$ $
On veut montrer que la différence f dPXn − f dPX tend vers 0 quand
n −→ ∞.
$ $
| f dPXn − f dPX |
$ $
= | f (Xn ) dP − f (X) dP |
$
≤ |f (Xn ) − f (X)| dP
$ $
≤ |Xn −X|>δ |f (Xn ) − f (X)| dP + |Xn −X|<δ |f (Xn ) − f (X)| dP

≤ 2 supR |f | P (|Xn − X| > δ) + supR |f * | δ.

Comme Xn converge vers X en probabilité, P (|Xn − X| > δ) −−−−→ 0.


n→∞
Pour tout ε > 0 , on choisit δ telle que sup |f * | δ < ε/2. Il existe alors
N ∈ N tel que pour tout n ≥ N ,
ε
P (|Xn − X| > δ) ≤
4 supR |f |
$ $
ce qui implique | f dPXn − f dPX | < ε. Le théorème est démontré.

Proposition 13 Deux variables aléatoires qui ont même fonction caracté-


ristique ont même loi.

Preuve
Notons µ et ν les lois
$
des variables aléatoires et considérons
$
la suite constante
µn = ν. La suite f dµn est constante égale à f dν, les convergences dans
le
$
théorème
$
6 deviennent des égalités. On a donc équivalence entre l’égalité
f dν = f dµ pour toute fonction f de la forme f (x) = eitx et la même
égalité pour toute fonction f continue bornée. On en déduit que les deux
mesures sont égales dès qu’elles ont même fonction caractéristique.
48 CHAPITRE 5. CONVERGENCE DE SUITES ALÉATOIRES
Chapitre 6

Théorème de la limite
centrée

Pour démontrer le théorème de la limite centrée, nous allons utiliser la


caractérisation de la convergence en loi par le biais des fonctions caracté-
ristiques. On commence par calculer la fonction caractéristique de la loi
normale.

6.1 Fonction caractéristique de la loi normale


Théorème 8 Soit Y une variable aléatoire qui obéit à une loi normale
centrée normalisée (m = 0, σ = 1). Sa densité est donnée par fY (y) =
2
√1 e−y /2 et sa fonction caractéristique vaut

2 /2
ϕY (t) = e−t .

Preuve $ 2
Par définition, ϕY (t) = R eity √12π e−y /2 dy.

)+∞ (ity)k
On sait que eity = k=0 k! pour y ∈ R. Remplaçons dans l’intégrale.
# # +∞
!
2 /2 (ity)k −y2 /2
eity e−y dy = e dy
R R k=0 k!

!#
+∞
(it)k k −y2 /2
= y e dy
k=0 R
k!

+∞
! #
(it)k 2 /2
= y k e−y dy.
k=0
k! R

49
50 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE

Pour justifier l’interversion signe somme intégrale, il faut vérifier que la


$ ) (ity)k y2 /2
quantité R ∞ 0 | k! e | dy est finie.
# ∞
! #
+∞ 2 /2 |ty|k +∞ 2 /2
e−y dy = e−y e|ty| dy < +∞.
−∞ 0
k! −∞
$ 2 /2
Il faut maintenant calculer Ik = R y k e−y dy.
Lorsque k est impair, la fonction y 2→ y k e −y 2 /2
est une fonction impaire, si
bien que son intégrale est nulle : I2l+1 = 0 pour tout l ∈ N. Pour k pair,
k = 2l, on fait une intégration par partie pour obtenir la relation
$ 2
I2l+2 y 2l+1 ye−y /2 dy
= $
2 2l −y 2 /2 dy
[y 2l+1 (−e−y /2 )]+∞
= −∞ + (2l + 1)y e
=
(2l + 1)I2l .
$ 2 √
Nous savons que I0 = R e−y /2 dy = 2π, si bien que

I2l = (2l − 1)(2l − 3)...3 × 1 × 2π.

I2l (2l − 1)(2l − 3)...1 √


= 2π
(2l)! (2l)(2l − 1)(2l − 2)(2l − 3)...1
1 √
= 2π
(2l)(2l − 2)(2l − 4)...2
1 1 √
= l 2π
2 l(l − 1)(l − 2)...1
1 √
= l 2π.
2 l!
Nous pouvons calculer ϕY :
# +∞
! !∞
1 2 /2 I2l (−t2 )l 2
ϕY (t) = √ eity e−y dy = (it)2l √ = = e−t /2 .
2π l=0
(2l)! 2π l=0
2 l!
l

La formule est démontrée.

6.2 Théorème de la limite centrée


Théorème 9 Soit (Ω, T , P ) un espace probabilité, (Xn )n∈N une suite de
variables aléatoires indépendantes, identiquement distribuées, de carrés in-
)
tégrables et de variance non nulle. On pose Sn = ni=1 Xi . Alors la loi de la
variable aléatoire √ %
n Sn &
− E(X0 )
σ(X0 ) n
converge étroitement vers une loi normale d’espérance nulle et d’écart-type
1. En particulier, pour tout intervalle [a, b] ∈ R,
0 √ % & 2 # b
n Sn 1 2
P a≤ − E(X0 ) ≤ b −−−−→ √ e−x /2 dx.
σ(X0 ) n n→∞ 2π a
6.2. THÉORÈME DE LA LIMITE CENTRÉE 51

Remarque
L’évènement ci-dessus peut s’écrire comme suit :
% √ & % √ &
n Sn n Sn
a≤ σ(X0 ) ( n − E(X0 )) ≤ b =
% σ(X 0)
(n − E(X0 )) ∈ [a, b]
&
= E(X0 ) + a σ(X
√ 0) ≤
n
Sn
n ≤ E(X0 ) + b σ(X
√ 0)
n

Sn
Lorsque n est grand, la probabilité que n soit dans l’intervalle
< =
σ(X0 ) σ(X0 )
E(X0 ) − t √ , E(X0 ) + t √
n n
$t −x2 /2 dx.
est proche de √1
2π −t e
$t −x2 /2 dx
• Pour t = 1, 96, √1 = 0, 95.
2π −t e
$ t −x2 /2
• Pour t = 2, 58, √1 = 0, 99.
2π −t e dx

Il y a donc à peu près 99% de chance,: lorsque n est grand, d’avoir


une moyenne empirique Snn dans l’intervalle E(X0 ) − 2, 58 σ(X
√ 0 ) , E(X0 ) +
n
;
2, 58 σ(X
√ 0) .
n

Il est d’usage de noter la convergence des lois d’une suite de variables


aléatoires Yn vers la loi normale de paramètres m, σ comme suit :
loi
Yn −−−−→ N (m, σ 2 )
n→∞

Dans le cas où les Xi sont indépendantes identiquement distribuées d’espé-


rance nulle et d’écart-type égal à un, le théorème de la limite centrée peut
se résumer comme suit :
S loi
√n −−−−→ N (0, 1).
n n→∞

Preuve du théorème
Quitte à remplacer les Xi par Xi − E(Xi ), on peut supposer que les Xi sont
centrées : E(Xi ) = 0. Quitte à diviser par σ(Xi ), on peut aussi supposer que
Sn
σ(Xi ) = 1. On veut montrer que la loi de √ n
converge vers la loi normale.
Il suffit donc de montrer que
2 /2
Sn (t) −
ϕ√ −−−→ e−t pour tout t ∈ R.
n n→∞
52 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE
% Sn &
it √
Sn (t)
ϕ√ = E e n
n
% it
)n &
√ Xk
= E e n 1

%/
n it &
√ X
= E e n k

k=1
n
/ % it &
√ X
= E e n k par indépendance,
k=1
% &n
it
√ X
= E e n 0 car les Xi sont de même loi,
% &n
= ϕX0 √t .
n
Pour calculer la limite de cette expression quand n tend vers +∞ , on
fait un développement limité. Comme X0 est de carré intégrable, ϕX0 est
C 2 et on a :
# # #
itX0
ϕX0 (t) = e dP, ϕ*X0 (t) = iX0 eitX0
dP, ϕ**X0 (t) = −X02 eitX0 dP,

ϕX0 (0) = 1, ϕ*X0 (0) = iE(X0 ) = 0, ϕ**X0 (0) = −E(X02 ) = −1.


x2
D’après la formule de Taylor, ϕX0 (x) = 1 − 2 + x2 ε0 (x), avec ε0 (x) −→ 0
lorsque x → 0. Ceci implique :
% t &n % t2 t2 t &n
Sn (t) = ϕX0 √
ϕ√ = 1− + ε0 ( √ ) ,
n n 2n 2n n
% t2 t2 t & % t2 t2 t 1 1 & t2 1
n ln 1− + ε0 ( √ ) = n − + ε0 ( √ )+ ε1 ( √ ) = − +ε2 ( √ ),
2n n n 2n n n n n 2 n
% t2 t2 t &n 2
t2
− t +ε ( √1 )
Sn (t) = 1 −
ϕ√ + ε0 ( √ ) = e 2 2 n −−−−→ e− 2 .
n 2n n n n→∞

Le théorème de la limite centrée est démontré.

6.3 Illustration numérique


Nous allons illustrer le théorème de la limite centrée à l’aide des graphes
des fréquences de la suite Sn .
Soit X une variable aléatoire discrète. Le graphe des fréquences de X
correspond au graphe de la fonction x 2→ P (X = x), où x varie parmi les
nombres réels tels que P (X = x) > 0.
Considérons le lancer d’un dé à six faces, modélisé par une variable aléa-
toire X0 qui suit une loi uniforme sur l’ensemble {1, 2, 3, 4, 5, 6} : P (X0 =
k) = 1/6 pour k entier compris entre 1 et 6. On répète le lancer n fois,
n ∈ N∗ , ce qui se décrit par une suite de variables aléatoires X1 , ... Xn in-
)
dépendantes entre elles et ayant même loi que X0 . On pose Sn = nk=1 Xk .
Voici les graphes des fréquences de X0 et S2 = X1 + X2 .
6.3. ILLUSTRATION NUMÉRIQUE 53

1 0.16

0.14

0.5 0.12

0.1

0
0.08

0.06

−0.5
0.04

0 2 4 6 8 0 2 4 6 8 10 12 14

Graphe des fréquences de X0 Graphe des fréquences de S2 = X1 + X2


On calcule le graphe des fréquences de Sn pour tout n par récurrence en
utilisant la formule
!
P (Sn+1 = k) = P (Xn+1 = l)P (Sn = k − l)
j

où la somme porte sur l’ensemble des valeurs l que prend Xn+1 . Si n est
suffisamment grand, le graphe des fréquences devrait se rapprocher d’une
gaussienne, une fois renormalisé. On s’est restreint ci-dessous à des valeurs
de x à moins de trois fois l’écart-type de l’espérance de Sn .

0.12
0.1

0.1
0.08
0.08

0.06
0.06

0.04
0.04

0.02
0.02

0
0
5 10 15 5 10 15 20

Graphe de S3 Graphe de S4
0.1

0.06
0.08

0.06
0.04

0.04

0.02
0.02

0 0
10 15 20 25 20 25 30 35 40 45 50

Graphe de S5 Graphe de S10


54 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE

0.0
0.05

0.05
0.04

0.04

0.03
0.03

0.0
0.0

0.01 0.01

0 0
40 50 0 0 50 0 0 0 0

Graphe de S15 Graphe de S20

Dès n = 5, on voit les probabilités s’ordonner selon la fameuse courbe


en cloche, dont la densité est donnée par la gaussienne.

Il est intéressant de regarder ce qu’on obtient lorsqu’on part d’une loi qui
k2
présente plusieurs maxima. Prenons pour X0 la loi P (X0 = k) = 770 pour
k compris entre −10 et 10. Le graphe des fréquences de X0 est ci-dessous.

0.12 0.08

0.1
0.06
0.08

0.06 0.04

0.04

0.02
0.0

0
−10 0 10 20 30 −10 0 10 20 30 40 50

Graphe de X0 Graphe de S2

0.025 0.015

0.02

0.01
0.015

0.01
0.005

0.005

0 0

20 40 60 80 100 40 60 80 100 120 140 160

Graphe de S5 Graphe de S10


6.3. ILLUSTRATION NUMÉRIQUE 55

0.012

0.012
0.01

0.01
0.008
0.008

0.006
0.006

0.004
0.004

0.002 0.002

0 0
100 150 200 150 200 250 300

Graphe de S15 Graphe de S20


La gaussienne met plus de temps à apparaître. Les premiers graphes
présentent des oscillations qui s’amortissent quand n devient grand.
Un autre cas intéressant est donné par une loi fortement dissymétrique.
Considérons un X0 pour lequel

P (X0 = 1) = 0, 95

P (X0 = 2) = P (X0 = 3) = P (X0 = 4) = P (X0 = 5) = P (X0 = 6) = 0, 01.

0.8 0.4

0.6 0.3

0.4 0.2

0.2 0.1

0 0
0 1 2 3 4 5 6 7 10 12 14 16 18 20 22 24

Graphe de X0 Graphe de S15

0.2
0.08

0.1
0.06

0.1
0.04

0.0
0.02

0 0
2 30 3 40 4 4 0 60 6 70

Graphe de S30 Graphe de S50


56 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE

0.06 0.0

0.0
0.04

0.04
0.03
0.03

0.02
0.02

0.01
0.01

0 0
70 80 0 100 100 110 120 130

Graphe de S75 Graphe de S100

Comme nous pouvons le voir sur ces graphiques, la dissymétrie est encore
présente pour n = 100. Cet exemple doit donc inciter à la prudence quant
aux valeurs de n pour lesquelles l’approximation donnée par la loi normale
est pertinente. Il est d’usage en statistique de faire cette approximation dès
que n = 30, mais cela n’est pas toujours valide en pratique.
Chapitre 7

Vecteurs aléatoires

Dans ce chapitre, nous introduisons la notion de vecteur gaussien afin de


généraliser le théorème de la limite centrée au cas multidimensionnel.

7.1 Variables aléatoires à valeurs vectorielles


Définition 15 Soit (Ω, T , P ) un espace probabilisé et X1 , ..., Xd des va-
riables aléatoires définies sur Ω à valeurs réelles. L’application définie sur
Ω à valeurs dans Rd  
X1 (ω)
 
ω 2→  ... 
Xd (ω)
est appelée vecteur aléatoire.

Les notions d’espérance, de covariance et de fonction caractéristique se


généralisent aux vecteurs aléatoires. L’espérance de (X1 , ..., Xd ) est mainte-
nant un vecteur donné par

(E(X1 ), ..., E(Xd )).

Sa matrice de covariance, parfois notée Σ, est de taille d × d et vaut

V (X) = {Cov(Xi , Xj )}i,j .

Sa fonction caractéristique est définie sur Rd par la formule


/ /
∀ u ∈ Rd , ϕX (u) = eiu.X = eiuk Xk = ϕXk (uk ),
k k

)
On emploie dans la suite la notation u.X = ui Xi , u ∈ Rd . Les vecteurs
u et X sont considérés comme des vecteurs colonnes.

57
58 CHAPITRE 7. VECTEURS ALÉATOIRES

Proposition 14 Soit X un vecteur aléatoire à valeurs dans Rd et u =


(u1 , ..., ud ) un vecteur de Rd . Alors

E(u.X) = u.E(X), V (u.X) = t uV (X) u.

Preuve
Ces formules sont une conséquence directe des propriétés de l’espérance et
de la variance.
! !
E(u.X) = E( ui Xi ) = ui E(Xi ) = u.E(X).
! !
V (u.X) = V ( ui Xi ) = ui uj Cov(Xi , Xj ) = t u V (X) u.
i,j

Notons que l’application u 2→ V (u.X) est une forme quadratique définie


sur Rd . Cette forme quadratique est positive : pour tout u ∈ Rd ,
t
u V (X) u = V (u.X) ≥ 0.

La plupart des notions concernant les variables aléatoires admettent un


analogue pour les vecteurs aléatoires. Nous avons vu dans un chapitre précé-
dent comment définir la loi d’un multiplet de variables aléatoires. Un vecteur
gaussien étant un multiplet, ces définitions s’appliquent ici. La loi d’un vec-
teur X = (X1 , ..., Xn ) est donc une mesure de probabilité définie sur la tribu
des boréliens de Rd par la formule

PX (A) = P (X ∈ A), pour tout A ⊂ Rd borélien.

On parle de vecteurs discret ou à densité suivant que cette loi est discrète
ou absolument continue par rapport à la mesure de Lebesgue sur Rd . On
dit également que deux vecteurs X = (X1 , ..., Xd ) et Y = (Y1 , ..., Yd ) sont
indépendants entre eux si P(X,Y ) = PX ⊗ PY , c’est-à-dire si

P(X1 ,...,Xn,Y1 ,...,Yn) = P(X1 ,...,Xn) ⊗ P(Y1 ,...,Yn) .

La notion d’intégrabilité se généralise aussi sans difficulté aux vecteurs


gaussiens. Le vecteur aléatoire X est intégrable si E(%X%) < ∞, où %.%
désigne une norme sur Rd , par exemple la norme euclidienne. Il est de carré
intégrable si E(%X%2 ) < ∞ et ainsi de suite.

7.2 Définition des vecteurs gaussiens


On s’intéresse à la généralisation de la loi normale au cas multidimen-
sionnel.
7.2. DÉFINITION DES VECTEURS GAUSSIENS 59

Définition 16 Un vecteur aléatoire (X1 , ..., Xd ) est dit gaussien si pour tout
u1 ,..., ud ∈ R, la somme
u1 X1 + ... + ud Xd
suit une loi normale ou est constante.

On convient ici de considérer la masse de Dirac δm comme une loi nor-


male de variance nulle et de moyenne égale à m ∈ R. Avec cette convention,
une variables aléatoire constante suit une loi normale d’écart-type nul.
Remarquons que les composantes Xi d’un vecteur gaussien suivent une
loi normale. Il suffit de prendre tous les ui nuls sauf un pour s’en convaincre.
Donnons un premier exemple de vecteur gaussien.

Proposition 15 Soit X1 ,..., Xd des variables aléatoires indépendantes entre


elles, suivant chacune une loi normale. Alors le vecteur (X1 , ..., Xd ) est gaus-
sien et sa matrice de covariance est diagonale.

Lemme 5 Soit a, b, c trois nombres réels et soit Y1 , Y2 deux variables aléa-


toires indépendantes entre elles suivant une loi normale centrée réduite :
E(Y1 ) = E(Y2 ) = 0, V (Y1 ) = V (Y2 ) = 1.
Alors la variable aléatoire aY1 + bY2 + c suit une loi normale d’espérance
égale à c et de variance égale à a2 + b2 .

Preuve du lemme
Posons Z = aY1 + bY2 + c et soit g : R → R une fonction mesurable bornée.
##
E(g(Z)) = g(ay1 + by2 + c) dPY1 (y1 )dPY2 (y2 )
##
1 2 +y 2
y1 2
= g(ay1 + by2 + c) e− 2 dy1 dy2 .

Effectuons le changement de variables
"
z1 = ay1 + by2 + c,
z2 = by1 − ay2 .
Un calcul direct donne les relations
(z1 − c)2 + z22 = (a2 + b2 )(y12 + y22 ), dz1 dz2 = (a2 + b2 ) dy1 dy2
ce qui implique
## (z1 −c)2
2
1 − −
z2

E(g(Z1 )) = g(z1 ) e 2(a2 +b2 ) e 2(a2 +b2 ) dz2 dz1


2π(a + b2 )
2

# (z1 −c)2
1 −
= ( g(z1 ) e 2(a2 +b2 ) dz1 .
2π(a2 + b2 )
60 CHAPITRE 7. VECTEURS ALÉATOIRES

Il s’agit bien d’une loi normale de paramètres c et a2 + b2 .


Preuve de la proposition
On commence par le cas de deux variables aléatoires X1 , X2 d’espérances
m1 , m2 et de variances σ12 et σ22 . Supposons ces variances non nulles et
renormalisons ces variables en posant Yi = Xiσ−m i
i
. Le lemme affirme que
toute combinaison linéaire des variables Y1 , Y2 suit une loi normale. Il en va
donc de même pour la variable
u1 X1 + u2 X2 = u1 m1 + u2 m2 + u1 σ1 Y1 + u2 σ2 Y2 .
Le cas de n variables aléatoires s’en déduit par une récurrence immédiate
sur n. La proposition est démontrée.
On crée de nouveaux vecteurs gaussiens en appliquant une transforma-
tion affine à un vecteur gaussien.
Proposition 16 Soit X = (X1 , ..., Xd ) un vecteur gaussien, A une matrice
$
de taille d* × d et B un vecteur de Rd . Alors le vecteur AX + B est gaussien
$
à valeurs dans Rd et
E(AX) = AE(X), V (AX + B) = A V (X) t A.
Preuve
Toute combinaison linéaire des coordonnées du vecteur AX + B est combi-
naison linéaire des coordonnées des Xi et du vecteur constant égal à 1, on
obtient bien une loi normale. Notons ai,j les coefficients de A.
! !
E(AX) = E( ai,j Xj ) = ai,j E(Xj ) = AE(X),
%! ! &
Cov((AX + B)i , (AX + B)j ) = Cov ai,k Xk + Bk , aj,l Xl + Bl
k l
! .
= ai,k aj,l Cov(Xk , Xl )
k,l

C’est le coefficient i, j de la matrice A V (X) t A. La proposition est démon-


trée.

7.3 Loi des vecteurs gaussiens


Nous allons montrer que la loi d’un vecteur gaussien ne dépend que de son
vecteur espérance et de sa matrice de covariance et nous allons déterminer
explicitement sa densité. Commençons par calculer la fonction caractéris-
tique d’un vecteur gaussien. Rappelons que la fonction caractéristique d’une
loi normale de paramètres m, σ 2 est égale à
2 t2 /2
ϕ(t) = eitm−σ .
7.3. LOI DES VECTEURS GAUSSIENS 61

Proposition 17 Soit X = (X1 , ..., Xd ) un vecteur gaussien d’espérance m


et de matrice de covariance Σ. Alors
1t
ϕX (u) = eiu.m− 2 uΣu
.

Preuve
Nous savons que la variable u.X obéit à une loi normale et nous avons calculé
son espérance et sa variance.

E(u.X) = u.E(X) = u.m, V (u.X) = t uV (X)u = t uΣu.


1t
On en déduit que E(eitu.X ) = eitu.m− 2 uΣu t
pour tout t et le résultat s’ensuit.
Tout comme dans le cas d’une variable aléatoire, on peut montrer que la
fonction caractéristique d’un vecteur aléatoire caractérise de manière unique
la loi d’un vecteur aléatoire. La loi d’un vecteur gaussien est donc unique-
ment déterminée par m et Σ.
Pour calculer la densité d’un vecteur gaussien, nous allons avoir besoin
de quelques propriétés des matrices symétriques. Rappelons qu’une matrice
symétrique Σ est positive si t uΣu ≥ 0 pour tout u ∈ Rd , et définie positive
si t uΣu > 0 pour tout u non nul. Une matrice symétrique positive est définie
positive si et seulement si elle est inversible, c’est-à-dire de déterminant non
nul.

Théorème 10 Tout vecteur gaussien X a même loi qu’un vecteur gaussien


de la forme AY + B, où Y est un vecteur gaussien dont les coordonnées
sont indépendantes, identiquement distribuées et obéissent à la loi normale
N (0, 1).

Preuve
La preuve repose sur le résultat suivant : toute matrice symétrique S positive
est de la forme T D t T , où T est une matrice inversible et D une matrice
diagonale dont les coefficients valent 0 ou 1. La matrice T est obtenue par
l’algorithme de réduction de Gauss appliqué à la forme quadratique u 2→
t uSu. On peut aussi la construire en diagonalisant S en base orthonormée.

Prenons pour matrice symétrique la matrice V (X) qui est bien positive :
t
uV (X)u = V (u.X) ≥ 0.

Considérons un vecteur gaussien Y = (Y1 , ..., Yd ) dont les composantes


sont indépendantes entre elles, centrées et dont la matrice de covariance est
égale à D. Posons Z = T Y + E(X), calculons son espérance et sa variance.

E(Z) = T E(Y ) + E(X) = E(X),

V (Z) = V (T Y ) = T V (Y )t T = T D t T = V (X).
62 CHAPITRE 7. VECTEURS ALÉATOIRES

Les vecteurs Z et X sont gaussiens, ils ont même espérance et même va-
riance. Ils ont donc même fonction caractéristique et même loi. La proposi-
tion est démontrée.
Remarquons que la preuve précédente montre que toute matrice symé-
trique positive est la matrice de covariance d’un vecteur gaussien. Nous
sommes maintenant en mesure de déterminer la densité des vecteurs gaus-
siens dont la matrice de covariance est définie positive, ou de manière équi-
valente, inversible, ou encore de déterminant non nul. On dit qu’elle est non
dégénérée.

Théorème 11 Soit Σ une matrice symétrique d × d définie positive et m


un vecteur de Rd . Le vecteur X = (X1 , ..., Xd ) de densité
1 1 1t −1
fX (x) = ( e− 2 (x−m)Σ (x−m) , x ∈ Rd ,
(2π) d/2 det(Σ)
est un vecteur gaussien d’espérance m et de covariance Σ. Réciproquement,
tout vecteur gaussien dont la matrice de covariance Σ est de déterminant
non nul a pour densité la fonction f précédente.

Preuve
Employons les décompositions X = T Y + E(X) et Σ = T D t T vues dans la
proposition précédente. Comme Σ est définie positive, la matrice D est égale
à l’identité. Utilisons les notations x = (x1 , ..., xd ) ∈ Rd , dx = dx1 ...dxd et
posons m = E(X).

E(g(X)) = E(g(T Y + E(X)))


#
1 1t
= d/2
g(T y + m) e− 2 yy
dy,
(2π)
#
1 t (x−m)(T t T )−1 (x−m) dx
= g(x) e
(2π) d/2 det(T )
grâce au changement de variables x = T y + m, dx = det(T ) dy. Il suffit de
remarquer que det(T )2 = det(Σ) pour conclure.
Comme application du théorème précédent, voici un critère concernant
l’indépendance des composantes d’un vecteur gaussien.

Corollaire 6 Soit X un vecteur gaussien. Ses composantes (X1 , ..., Xd )


sont indépendantes entre elles si et seulement si la matrice de covariance
est diagonale : Cov(Xi , Xj ) = 0 pour tout i, j distincts.

En effet, si la matrice de covariance est diagonale, nous voyons sur l’ex-


pression que nous avons obtenue que la densité de X est égale au produit
des densités des Xi , ce qui montre l’indépendance.
7.4. THÉORÈMES LIMITES POUR LES VECTEURS ALÉATOIRES 63

7.4 Théorèmes limites pour les vecteurs aléatoires


Les théorèmes limites pour les variables aléatoires admettent des ana-
logues dans le cas des vecteurs aléatoires.
Lorsque nous parlons de théorème limite, nous voulons étudier le com-
portement asymptotique d’une suite {Xk }k∈N de vecteurs aléatoires de Rd .
Pour éviter toute confusion, nous noterons dans cette section les compo-
santes du vecteur Xi par
(1) (d)
Xk = (Xk , ..., Xk ).
La notation Xk représente un terme d’une suite de vecteurs aléatoires de
Rd et non une composante d’un vecteur aléatoire.

Loi des grands nombres


On se place sur un espace probabilisé (Ω, T , P ). Rappelons que deux
vecteurs aléatoires X = (X (1) , ..., X (d) ) et Y = (Y (1) , ..., Y (d) ) sont indépen-
dants entre eux si P(X,Y ) = PX ⊗ PY , c’est-à-dire si
P(X (1) ,...,X (d),Y (1) ,...,Y (d) ) = P(X (1) ,...,X (d) ) ⊗ P(Y (1) ,...,Y (d) ) .
De même, une suite (Xk ) de vecteurs aléatoires est indépendante dans son
ensemble si pour tout n ∈ N,
P(X1 ,...,Xn) = PX1 ⊗ ... ⊗ PXn .
Les lois faible et forte des grands nombres se généralisent sans difficulté
au cas des vecteurs aléatoires, il suffit de travailler composante par compo-
sante. Posons Sn = X1 + ... + Xn , il s’agit d’un vecteur aléatoire qui à tout
(i)
résultat ω ∈ Ω associe un vecteur de Rd . Notons Sn sa ième composante.
(i) (i) (i)
Sn = X1 + ... + Xn .
Théorème 12 Soit (Ω, T , P ) un espace probabilisé et (Xn )n∈N une suite
de vecteurs aléatoires à valeurs dans Rd , indépendants, identiquement dis-
tribués, intégrables. Alors
Sn
−−−−→ E(X0 ) presque sûrement.
n n→∞
La convergence précédente est bien sûr équivalente aux convergences
(i)
Sn (i)
−−−−→ E(X0 ) presque sûrement
n n→∞
(i)
qui découlent du cas unidimensionnel appliqué aux suites (Xn )n∈N .

Théorème de la limite centrée multidimensionnel


La limite dans le théorème de la limite centrée pour les vecteurs aléatoires
fait intervenir une loi normale multidimensionnelle. Notons N (0, Σ) la loi
d’un vecteur gaussien de Rd dont la matrice de covariance est égale à Σ.
64 CHAPITRE 7. VECTEURS ALÉATOIRES

Théorème 13 Soit (Ω, T , P ) un espace probabilisé et (Xn )n∈N une suite


de vecteurs aléatoires à valeurs dans Rd , indépendants, identiquement dis-
tribués, de carrés intégrables. Soit m le vecteur espérance de chacun des Xn
et Σ leur matrice de covariance. On suppose Σ inversible. Alors
Sn − m
√ −→ N (0, Σ) en loi.
n

Cela entraîne les convergences


% √ √ &
P mi + ai n ≤ Sn(i) ≤ mi + bi n pour tout i ∈ {1, ..., d}
# #
1 b1 bd 1t
xΣ−1 x
−−−−→ D ... e− 2 dx.
n→∞
(2π)d det(Σ) a1 ad

La preuve procède comme dans le cas unidimensionnel. On caractérise


la convergence en loi grâce aux fonctions caractéristiques.

Proposition 18 Considérons une suite de vecteurs aléatoires (Yn ) définis


sur un espace probabilisé (Ω, T , P ). Si pour tout u ∈ Rd ,

ϕYn (u) −−−−→ ϕY (u)


n→∞

alors Yn converge vers Y en loi.

Puis on fait un développement limité de la fonction caractéristique de


Sn√−m
n
. Les calculs que nous avons fait sur R se généralisent à Rd sans
difficulté.
Chapitre 8

Séries de variables aléatoires


indépendantes

Considérons une suite de variables aléatoires (Xn )n∈N indépendantes


entre elles. Que peut-on dire de la convergence de la série
n
!
Sn = Xk ?
k=1

Si les variables aléatoires ont même loi, la loi des grands nombres affirme
que cette série diverge presque partout dès que leur espérance est non nulle.
Nous allons nous intéresser au cas où les variables aléatoires (Xn ) sont
indépendantes entre elles mais n’ont pas forcément même loi.

8.1 Loi du 0-1 de Kolmogorov


Notons par T(Xk ,m≤k≤n) la tribu engendrée par tous les évènements de
la forme Xk−1 (B), pour tout k compris entre m et n et tout borélien B ⊂ R.
Considérons également la tribu T(Xk ,k≥m) associée à tous les indices k ≥ m.
Cette tribu est engendrée par toutes les tribus T(Xk ,m≤k≤n) , avec n ≥ m.
Rappelons un résultat d’approximation classique de théorie de la mesure
qui s’applique à ces tribus.

Proposition 19 Soit (Ω, T , P ) un espace probabilisé, S, Sn , n ∈ N des


tribus incluses dans T telles que S soit engendrée par les Sn et telles que les
(Sn ) forment une suite croissante pour l’inclusion :

Sn ⊂ Sn+1 pour tout n.

Soit A ∈ S. Alors, pour tout ε > 0, il existe n ∈ N et A* ∈ Tn tels que

P (A∆A* ) < ε.

65
66CHAPITRE 8. SÉRIES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Nous avons noté A∆A* la différence symétrique de A et A* .

A∆A* = (A ∪ A* ) \ (A ∩ A* ).

Un évènement est dit asymptotique s’il appartient aux tribus T(Xk ,k≥m)
pour tout m ∈ N. L’exemple le plus simple d’évènement asymptotique est
)
donné par l’ensemble des ω ∈ Ω pour laquelle la série Xk converge :
4 3 ! 5
3
ω∈Ω3 Xk (ω) converge .
k≥1

En effet, le caractère convergent ne dépend pas des valeurs prises par les n
premières valeurs de la suite Xk (ω). Pour tout n ∈ N,

4 3 ! 5 4 3 ! 5
3 3
ω ∈Ω3 Xk (ω) converge = ω ∈ Ω 3 Xk (ω) converge ∈ T(Xk ,k≥m) .
k≥1 k≥m

La loi du 0-1 de Kolmogorov affirme que les évènements asymptotiques


ont pour probabilité 0 ou 1 si les variables aléatoires sont indépendantes.

Théorème 14 (loi du 0-1 de Kolmogorov) Soit (Ω, T , P ) un espace pro-


babilisé, (Xk )k∈N une suite de variables aléatoires définies sur Ω et indépen-
dantes entre elles. Considérons un évènement A ∈ T tel que
.
A∈ T(Xk ,k≥m) .
m∈N

Alors P (A) vaut 0 ou 1.

Preuve
Soit ε > 0. Comme A est dans T(Xk ,k≥1) , il existe m ∈ N et A* ∈ T(X1 ,...,Xm)
tels que
P (A∆A* ) < ε.
Comme A est aussi dans T(Xk ,k≥m+1) , il existe n ≥ m+1 et A* ∈ T(Xm+1 ,...,Xn)
tels que
P (A∆A** ) < ε.
Les ensembles A* et A** sont indépendants, ce qui montre que

P (A* ∩ A** ) = P (A* )P (A** ) ≤ (P (A) + ε)2 .

Nous avons aussi, en vertu de l’inclusion A∆(A* ∩ A** ) ⊂ (A∆A* ) ∪ (A∆A** ),

P (A* ∩ A** ) ≥ P (A) − P (A∆(A* ∩ A** )) ≥ P (A) − 2ε.

Cela implique l’inégalité P (A) ≤ P (A)2 . L’inégalité inverse découlant du


fait que 0 ≤ P (A) ≤ 1, nous en déduisons que P (A) = P (A)2 puis que
P (A) = 0 ou 1. Le théorème est démontré.
8.2. CONVERGENCE DES SÉRIES ALÉATOIRES 67

Comme corollaire, on voit qu’une série ne peut simultanément converger


pour un ensemble de résultats de probabilité non nulle et diverger pour un
ensemble de résultats de probabilité non nulle.

Corollaire 7 Soit (Xk )k∈N une suite de variables aléatoires indépendantes.


)
Alors la série Xk converge presque sûrement ou diverge presque sûrement.

Il s’agit maintenant de donner des critères permettant de conclure à la


convergence ou à la divergence de la série presque sûrement.

8.2 Convergence des séries aléatoires


Voici un premier critère de convergence dans le cas de variables aléatoires
de carrés intégrables.

Proposition 20 Soit (Xk ) une suite de variables aléatoires indépendantes


centrées et de carrés intégrables : E(Xk ) = 0 et V (Xk ) < ∞ pour tout k ∈ N.
On suppose que !
V (Xk ) < ∞.
k∈N
)
Alors la série Xk converge en norme L2 et presque sûrement.

Preuve de la convergence L2
Pour montrer la convergence de Sn en norme L2 , montrons qu’elle est de
Cauchy. Soit m, n ∈ N avec m < n.
%!
n & n
! n
!
%Sn − Sm %22 = V (Sn − Sm ) = V Xk = V (Xk ) ≤ V (Xk ).
m+1 m+1 m+1
)
La série V (Xk ) est convergente donc de Cauchy. Pour tout ε > 0, il existe
N ∈ N tel que pour tout m, n satisfaisant N < m < n,
n
!
%Sn − Sm %22 ≤ V (Xk ) < ε.
m+1

La suite Sn est de Cauchy et converge en norme L2 .


La démonstration de la convergence presque sûre dans la proposition
précédente repose sur l’inégalité maximale de Kolmogorov.

Lemme 6 (inégalité maximale) Soit (Xn )n∈N une suite de variables aléa-
toires indépendantes entre elles, centrées et de variance finie : E(Xi ) = 0,
V (Xi ) < ∞. Alors pour tout n ∈ N et tout λ > 0,
% & E(Sn2 )
P max |Si | ≥ λ ≤ .
1≤i≤n λ2
68CHAPITRE 8. SÉRIES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Preuve du lemme
On s’intéresse au premier indice pour lequel la série dépasse λ.
A1 = (|S1 | ≥ λ),
A2 = (|S1 | < λ, |S2 | ≥ λ),
Aj = (|S1 | < λ, ..., |Sj−1 | < λ, |Sj | ≥ λ).
Nous avons alors
% & N
E
max |Si | ≥ λ = Aj .
1≤i≤N
j=1
2 1 ) en insérant le terme S dans le carré.
Cherchons à minorer E(SN Aj j

2
SN = (SN − Sj + Sj )2 = (SN − Sj )2 + Sj2 + 2(SN − Sj )Sj

2
E(SN 1Aj ) = E((SN − Sj )2 1Aj ) + E(Sj2 1Aj ) + 2E((SN − Sj )Sj 1Aj ).
Le premier terme à droite de l’égalité est positif, tandis que le second terme
est supérieur à E(λ2 1Aj ) car Sj est supérieur à λ sur Aj . Vérifions que le
dernier terme est nul.

SN − Sj = Xj+1 + ... + XN , E(SN − Sj ) = 0.

La variable Sj 1Aj ne dépend que de X1 ,..., Xj , elle est donc indépendante


de SN − Sj , ce qui implique

E((SN − Sj )Sj 1Aj ) = E(SN − Sj )E(Sj 1Aj ) = 0.

Au final,
2
E(SN 1Aj ) ≥ λ2 E(1Aj ) = λ2 P (Aj ).
On conclut en faisant la somme pour j allant de 1 à n.
! E
2 2
E(SN ) ≥ E(SN 1Aj ) ≥ λ2 P ( Aj ) = λ2 P (max |Si | ≥ λ).

Preuve de la convergence presque sûre


Considérons la variable aléatoire RN = sup{|Sn − SN | | n ≥ N }. D’après
l’inégalité maximale appliquée à la suite (Xn−N )n≥N ,

% 1 !N& 1 !
$

P max $ |Si − SN | ≥ ε ≤ 2 V (Xi ) ≤ 2 V (Xi )
N ≤i≤N ε i=N +1 ε i=N +1

et en passant à la limite quand N * tend vers l’infini,



1 !
P (RN ≥ ε) ≤ V (Xi ).
ε2 i=N +1
8.2. CONVERGENCE DES SÉRIES ALÉATOIRES 69

)
Par hypothèse, la série V (Xi ) converge, son reste tend vers 0. La suite RN
converge en probabilité vers 0. Elle admet donc une sous-suite qui converge
vers 0 presque sûrement et comme elle est décroissante, elle converge vers
0 presque sûrement. Au final, pour presque tout ω ∈ Ω, pour tout ε > 0, il
existe N ∈ N tel que pour tout m, n ≥ N ,

|Sm (ω) − Sn (ω)| ≤ |Sm (ω) − SN (ω)| + |SN (ω) − Sn (ω)| ≤ 2RN (ω) ≤ 2ε.

La suite Sn (ω) est de Cauchy et converge. La proposition est démontrée.

Exemple
) ) k
La série harmonique k1 est divergente. La série alternée (−1) k est conver-
gente. Qu’en est-il lorsque nous choisissons les signes des termes de la série
de manière aléatoire, par exemple en les tirant à pile ou face ?

Proposition 21 Soit (εk )k∈N∗ une suite de variables aléatoires indépen-


dantes identiquement distribuées telles que

P (εk = 1) = P (εk = −1) = 1/2.


! εk
Alors la série converge presque sûrement.
k
k

Ce résultat se déduit de la proposition 8.2. Il suffit de remarquer d’abord


que E( εkk ) = 0 puis que


! %ε & ∞
! 1 ∞
! 1
k
V = V (εk ) = < ∞.
k=1
k k=1
k2 k=1
k2

Le critère de convergence est bien satisfait.

Comme exemple d’une telle suite de variables aléatoires, on peut prendre


%1 1 &⊗N % &
Ω = {−1, 1}⊗N , P = δ−1 + δ1 , εk (xn )n∈N = xk .
2 2

On a alors %4 3 !x 5&
3 k
P (xk )k∈N ∈ Ω 3 converge = 1.
k≥1
k

On se pose maintenant la question générale de la convergence d’une


)
série Xk lorsque les Xk sont indépendantes entre elles. Le théorème suivant
ramène ce problème à la convergence de trois séries réelles, il est dû à Andreï
Kolmogorov (1903-1987).
70CHAPITRE 8. SÉRIES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Théorème 15 (théorème des trois séries) Soit (Xk )k∈N une suite de
variables aléatoires indépendantes entre elles. Posons Yk = Xk 1(|Xk |≤1) .
)
Alors la série Xk converge presque sûrement si et seulement si les trois
séries suivantes convergent :
)
– P (|Xk | ≥ 1),
)
– E(Yk ),
)
– V (Yk ).

Preuve
On se contente de démontrer que la convergence des trois séries implique la
) )
convergence presque sûre de Xk . Comme P (|Xk | ≥ 1) converge, nous
pouvons appliquer le lemme de Borel-Cantelli : pour presque tout ω, il existe
k0 tel que pour tout k ≥ k0 , |Xk (ω)| ≤ 1. On a alors Yk (ω) = Xk (ω). Les
) )
séries Xk et Yk sont donc de même nature.
)
Posons Ỹk = Yk − E(Yk ). Comme E(Yk ) converge, il suffit de dé-
)
montrer la convergence presque sûre de Ỹk . Les Ỹk sont centrées et leur
variance est égale à celle des Yk :

%Ỹk %22 = V (Ỹk ) = V (Yk ).


) )
On sait que la série V (Ỹk ) = V (Yk ) converge. La proposition 8.2 s’ap-
)
plique, la série Ỹk est convergente presque sûrement et le théorème est
démontré.

8.3 Retour sur la loi des grands nombres


Pour terminer ce chapitre, donnons une preuve de la loi des grands
nombres dérivée des théorèmes précédents et valide pour toute suite de
variables aléatoires (Xn )n∈N indépendantes identiquement distribuées in-
tégrables.
On considère les variables Yk = Xk 1(|Xk |≤k) . Montrons que la série
) V (Yk )
k2 est convergente.
! E(Y 2 ) ! 1 # ∞ # ∞0 ! x
2
k 2
= x 1{x≤k} dP|Xk | (x) = 1 x dP|X0 | (x).
k≥1
k2 k≥1
k2 0 0 k≥1
k2 {k≥x}

La somme qui apparaît entre parenthèses sous l’intégrale dans le dernier


)
terme est majorée par 2 k≥1 k12 pour x ∈ [0, 2]. Pour x ≥ 2, on effectue une
comparaison série-intégrale.
! x !# k x
# ∞ x x
1{k≥x} ≤ dt ≤ dt ≤ ≤ 2.
k≥1
k2 k≥x k−1
t2 x−1 t 2 x−1
8.3. RETOUR SUR LA LOI DES GRANDS NOMBRES 71

Nous avons de plus V (Yk − E(Yk )) = V (Yk ) ≤ E(Yk2 ), si bien que la série
) ) Yk −E(Yk )
V ( Yk −E(Y
k
k)
) est convergente. La série k converge donc presque
sûrement, en vertu de la proposition 8.2.
xi )
De manière générale, pour toute suite (xk ) telle que i converge, la
1 )
moyenne n xk converge vers 0. Cela découle de la formule suivante

n %!
1! k
xi & ! n
xi 1! n
= − xi
n k=1 i=1 i i=1
i n i=1

qui se démontre en intervertissant les deux signes sommes. On en déduit


n
1 ! p.s.
(Yk − E(Yk )) −−−−→ 0.
n k=1 n→∞

$
Par convergence dominée, la suite E(Yk ) = x1{|x|≤k} dPX0 (x) converge vers
)
E(X0 ). Il en va donc de même pour n1 E(Yk ). Il reste à remarquer que

! ∞
! # !
∞ #
P (Yk 3= Xk ) = P (|X0 | ≥ k) = 1{k≤x} dP|X0 | (x) ≤ x dP|X0 | (x)
k=1 k=1 k=1

est une somme finie. D’après le lemme de Borel-Cantelli, pour presque tout
ω, les suites Xk (ω) et Yk (ω) coïncident à partir d’un certain rang et la
) )
différence n1 Xk (ω) − n1 Yk (ω) tend vers 0. Le résultat est démontré.
72CHAPITRE 8. SÉRIES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Annexe A

Rappels d’intégration

On rappelle dans cette annexe un certain nombre de résultats d’intégra-


tion utilisés dans le cours. Le cadre est l’intégrale de Lebesgue. On adopte
les notations probabilistes : (Ω, T , P ) est un espace probabilisé, c’est-à-dire
un espace mesuré pour lequel P (Ω) = 1.

A.1 Théorèmes de convergence


Théorème 16 (convergence croissante) Soit fn : Ω → R+ une suite de
fonctions mesurables positives. On suppose que pour presque tout ω ∈ Ω,
la suite (fn (ω))n∈N est croissante et on note f (ω) la limite de cette suite.
Alors # #
lim fn (ω) dP (ω) = f (ω) dP (ω).
n→∞ Ω Ω

Commentaire : la valeur des intégrales peut être égale à +∞.


Cas particulier : en appliquant ce théorème à une suite de fonctions indica-
trices 1An , où (An )n∈N est une suite d’ensembles croissante pour l’inclusion,
on obtient
%1
∞ &
P An = lim P (An ).
n
0

Théorème 17 (lemme de Fatou) Soit fn : Ω → R+ une suite de fonc-


tions mesurables positives. Alors
# #
lim inf fn (ω) dP (ω) ≤ lim inf fn (ω) dP (ω).
Ω n→∞ n→∞ Ω

Théorème 18 (convergence dominée) Soit fn : Ω → R une suite de


fonctions mesurables qui converge presque partout vers une fonction f . On
suppose que la suite fn est dominée par une fonction g : Ω → R+ intégrable :
|fn (ω)| ≤ g(ω) pour presque tout ω ∈ Ω.

73
74 ANNEXE A. RAPPELS D’INTÉGRATION

Alors # #
lim fn (ω) dP (ω) = f (ω) dP (ω).
n→∞ Ω Ω

Commentaire : Nous avons supposé P (Ω) = 1 si bien que toute suite


fn bornée est dominée par une fonction constante, qui est intégrable. Le
théorème s’applique donc à une telle suite.

Théorème 19 (interversion somme intégrale, cas positif) Soit


fn : Ω → R+ une suite de fonctions mesurables positives. Alors
# !
∞ ∞ #
!
fn (ω) dP (ω) = fn (ω) dP (ω).
Ω n=1 n=1 Ω

Commentaire : la somme de la série peut être égale à +∞.

Théorème 20 (interversion somme intégrale, cas intégrable) Soit


fn : Ω → R une suite de fonctions mesurables. On suppose que
∞ #
!
|fn (ω)| dP (ω) < +∞.
n=1 Ω

Alors
# !
∞ ∞ #
!
fn (ω) dP (ω) = fn (ω) dP (ω).
Ω n=1 n=1 Ω

Commentaire : la série qui apparaît dans le second terme est convergente.

A.2 Intégrales dépendant d’un paramètre


Théorème 21 (continuité sous le signe intégral) Soit I un intervalle
de R. Soit f : I × Ω → R une fonction mesurable telle que
– pour P -presque tout ω ∈ Ω, t 2→ f (t, ω) est continue sur I,
– il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I,

|f (t, ω)| ≤ g(ω) pour presque tout ω ∈ Ω.


$
Alors la fonction t 2→ Ω f (t, ω) dP (ω) est continue sur I : pour tout t0 ∈ I
# #
lim f (t, ω) dP (ω) = f (t0 , ω) dP (ω).
t→t0 Ω Ω
A.3. INTÉGRALES MULTIPLES 75

Théorème 22 (dérivée sous le signe intégral) Soit I un intervalle de


R et f : I × Ω → R une fonction mesurable telle que
– pour tout t ∈ I, ω 2→ f (t, ω) est intégrable,
– pour P -presque tout ω ∈ Ω, t 2→ f (t, ω) est dérivable en tout point t ∈ I,
– il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I,
3 3
3∂ 3
3 f (t, ω)3 ≤ g(ω) pour presque tout ω ∈ Ω.
3 ∂t 3

Alors en tout point t ∈ I,


# #
d ∂
f (t, ω) dP (ω) = f (t, ω) dP (ω).
dt Ω Ω ∂t

A.3 Intégrales multiples


Ici, (Ω1 , T1 , P1 ) et (Ω2 , T2 , P2 ) sont des espaces probabilisés.
Théorème 23 (Fubini, cas positif) Soit f : Ω1 × Ω2 → R+ une fonction
T1 ⊗ T2 -mesurable positive. Alors
$$ $ %$ &
Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 ) = Ω2 Ω1 f (ω1 , ω2 ) dP1 (ω1 ) dP2 (ω2 )
$ %$ &
= Ω1 Ω2 f (ω1 , ω2 ) dP2 (ω2 ) dP1 (ω1 )
Commentaire : les intégrales peuvent valoir +∞.
Théorème 24 (Fubini, cas intégrable) Soit f : Ω1 × Ω2 → R une fonc-
tion T1 ⊗ T2 -mesurable. On suppose que
# #
|f (ω1 , ω2 )| dP1 ⊗ P2 (ω1 , ω2 ) < +∞.
Ω1 ×Ω2
Alors
$$ $ %$ &
Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 ) = Ω2 Ω1 f (ω1 , ω2 )dP1 (ω1 ) dP2 (ω2 )
$ %$ &
= Ω1 Ω2 f (ω1 , ω2 )dP2 (ω2 ) dP1 (ω1 ).

Commentaire : la fonction f est dans L1 (Ω1 × Ω2 ).


Théorème 25 (changement de variables) Soient U, V deux ouverts de
Rd , ϕ : U → V un difféomorphisme de classe C 1 , f : V → R une application
mesurable relativement à la mesure de Lebesgue sur V . On suppose f positive
ou intégrable. Alors
# #
f (ϕ(u))Jϕ(u) du = f (v) dv
U V
où Jϕ(u) est le jacobien de ϕ : Jϕ(u) = |det(du ϕ)|.
Commentaire : pour le changement de variables en coordonnées polaires,
u = (r, θ), v = ϕ(u) = ϕ(r, θ) = (r cos(θ), r sin(θ)), du = drdθ, Jϕ(r, θ) = r.
76 ANNEXE A. RAPPELS D’INTÉGRATION

A.4 Espaces Lp
Rappel :
%# &1/p
||f ||p = |f |p dP pour 1 ≤ p < ∞.

||f ||∞ = inf{M ≥ 0 | pour presque tout ω ∈ Ω, |f (ω)| ≤ M }.

Théorème 26 (convergence normale dans Lp ) Soit p ∈ [1, ∞] et (fn )


une suite de fonctions dans Lp (Ω). On suppose que
!
||fn ||p < ∞.
n∈N
)
Alors la série fn converge presque partout et en norme Lp vers une cer-
taine fonction f ∈ Lp (Ω).

Théorème 27 (inclusion des espaces Lp ) Soit p, q ∈ R tels que 1 ≤


p ≤ q ≤ ∞. Alors

L∞ (Ω) ⊂ Lq (Ω) ⊂ Lp (Ω) ⊂ L1 (Ω).

De plus, pour tout f : Ω → R mesurable,

||f ||1 ≤ ||f ||p ≤ ||f ||q ≤ ||f ||∞ .

Commentaire : le cas p = 2 est important : L∞ (Ω) ⊂ L2 (Ω) ⊂ L1 (Ω).

Théorème 28 (extraction de sous-suites) Soit (fn )n∈N une suite de


fonctions de Lp (Ω) qui converge au sens de la norme Lp vers une cer-
taine fonction f dans Lp (Ω). Alors il existe une sous-suite nk telle que fnk
converge presque partout vers f .

Commentaire : en général, la convergence Lp n’implique pas la convergence


presque partout.

A.5 Inégalités
Théorème 29 (inégalité de Minkowski) Soit p ∈ [1, ∞] et f, g ∈ Lp (Ω).
Alors
||f + g||p ≤ ||f ||p + ||g||p .

Commentaire : c’est l’inégalité triangulaire pour les normes Lp .


A.6. FORMULE D’INVERSION DE FOURIER 77

Théorème 30 (inégalité de Cauchy-Schwarz) Soit f, g ∈ L2 (Ω). Alors


f g est intégrable et 3# 3
3 3
3 f g dP 3 ≤ ||f ||2 ||g||2 .

Commentaire : on a égalité si et seulement si f et g sont proportionnelles.

Théorème 31 (inégalité de Hölder) Soit p, q ∈ [1, ∞] tels que 1/p +


1/q = 1/r ainsi que f ∈ Lp (Ω), g ∈ Lq (Ω). Alors f g est dans Lr (Ω) et
||f g||r ≤ ||f ||p ||g||q .

Commentaire : l’inégalité de Cauchy-Schwarz correspond à p = q = 2,


r = 1.

Théorème 32 (inégalité de Jensen) Rappelons que P (Ω) = 1. Soit ϕ :


R → R une fonction convexe et f : Ω → R telle que f et ϕ ◦ f sont
intégrables. Alors # #
% &
ϕ f dP ≤ ϕ ◦ f dP
Ω Ω

A.6 Formule d’inversion de Fourier


Le théorème suivant est une version ponctuelle de la formule d’inversion
de Fourier ; c’est l’analogue du théorème de Dirichlet pour les séries de Fou-
rier. On donne un énoncé est un peu plus général que celui utilisé dans le
cours. La convention utilisée pour la transformée de Fourier est la suivante :
#
fˆ(t) = e−itx f (x) dx.
R

Lorsque f est intégrable, sa transformée fˆ est continue. Elle tend vers 0 en


l’infini, en vertu du lemme de Riemann-Lebesgue.

Lemme 7 (Riemann-Lebesgue) Soit f ∈ L1 . Alors


#
lim e−itx f (x) dx = 0.
t→∞ R

Ce lemme se démontre par un calcul explicite lorsque f est la fonction


indicatrice d’un intervalle. Dans le cas général, il suffit d’approcher en norme
L1 la fonction f par une combinaison linéaire de fonctions indicatrices.

Théorème 33 (formule d’inversion de Fourier) Soit f ∈ L1 (R) et t ∈


R. On suppose que f admet une limite à gauche et une limite à droite en t,
notées f (t− ) et f (t+ ). On suppose également que f est dérivable à droite et
à gauche en t. Alors,
#
1% − & A dx
f (t ) + f (t+ ) = lim eitx fˆ(x) .
2 A→∞ −A 2π
78 ANNEXE A. RAPPELS D’INTÉGRATION

Lorsque f est intégrable de classe C 1 et que fˆ est intégrable, la formule


devient #
1
f (t) = eitx fˆ(x) dx pour tout t ∈ R.
2π R
Remarquons que fˆ est intégrable dès que f est C 2 et f ** est intégrable. En
effet, fˆ est alors continue et majorée par une constante multipliée par 12 , t
comme le montre l’égalité
1
fˆ(t) = − 2 fF** (t), t ∈ R∗ ,
t
qui s’obtient par une intégration par partie. En particulier, la formule d’in-
version est vraie pour toute fonction C ∞ à support compact.

Preuve de la formule d’inversion


Quitte à translater la variable, on peut supposer t = 0. On a
# # #
dx dx 2 sin Ax dx
1[−A,A] (x)fˆ(x) = G (x)f (x)
1[−A,A] = f (x) .
R 2π R 2π R x 2π
0# 2
2 sin Ax dx 1 ∞
On va montrer que lim f (x) − f (0+ ) = 0.
A→∞ 0 x 2π 2
Faisons le changement de variable y = Ax et remarquons que
# #
∞ sin Ax ∞ sin y π
dx = dy = ,
0 x 0 y 2
# #
2 sin Ax
∞ dx 1 ∞ f (x) − f (0+ ) dx
et qu’ainsi f (x) − f (0+ ) = 2 sin(Ax) .
0 x 2π 2 0 x 2π
Sans le facteur 1/x, il suffirait d’appliquer le lemme de Riemann-Lebesgue.
On découpe en deux l’intégrale pour analyser ce qui se passe près de 0 et
loin de 0.
Près de 0, on utilise l’hypothèse suivante :

f (x) = f (0+ ) + xf * (0+ ) + x ε(x), avec lim ε(x) = 0.


x→0

f (x)−f (0+ )
Par conséquent, il existe δ > 0 tel que x est borné sur ]0, δ]. La fonc-
f (x)−f (0+ )
tion x 1]0,δ] (x) est intégrable et par le lemme de Riemann-Lebesgue,
# δ f (x) − f (0+ )
lim sin(Ax) dx = 0.
A→+∞ 0 x
f (x)
Loin de 0, sur [δ, +∞[, on a 0 < 1/x < 1/δ, et la fonction x 1[δ,∞[ (x) est
intégrable. Par Riemann-Lebesgue,
# ∞ f (x)
lim sin(Ax) dx = 0.
A→+∞ δ x
A.6. FORMULE D’INVERSION DE FOURIER 79

Enfin, par définition des intégrales généralisées, on a :


# #
∞ sin(Ax) ∞ sin y
lim f (0+ ) dx = lim dy f (0+ ) = 0.
A→+∞ δ x A→+∞ Aδ y
# 0 2 sin Ax dx 1
On démontre de même que lim f (x) = f (0− ), ce qui
A→∞ −∞ x 2π 2
termine la preuve.
80 ANNEXE A. RAPPELS D’INTÉGRATION
Annexe B

Formulaire

On collecte dans cette annexe les formules vues dans le cours.

B.1 Loi d’une variable aléatoire


Loi d’une variable aléatoire X

PX (A) = P (X ∈ A) = P (X −1 (A)).

Espérance # #
E(X) = X dP = x dPX (x).
Ω R
Variance
% & # #
V (X) = E (X − E(X))2 = (X − E(X))2 dP = (x − E(X))2 dPX (x).
Ω R
# %# &2 # %# &2
V (X) = E(X 2 )−E(X)2 = X 2 dP − X dP = x2 dPX (x)− x dPX (x) .
Ω Ω R R
Formule de transfert
# #
E(g(X)) = g(X) dP = g(x) dPX (x).
Ω R

Fonction de répartition
# x
FX (x) = P (X ≤ x) = dPX (x).
−∞

Fonction caractéristique
# #
ϕX (t) = E(eitX ) = eitX dP = eitx dPX (x).
Ω R

81
82 ANNEXE B. FORMULAIRE

Cas discret
! !
PX = pxk δxk , PX (A) = pxk .
k∈I xk ∈A
# !
E(X) = x dPX (x) = xk P (X = xk ).
R k∈I
! ! %! &2
V (X) = (xk −E(X))2 P (X = xk ) = x2k P (X = xk )− xk P (X = xk ) .
k∈I k∈I k∈I
# # !
E(g(X)) = g(X) dP = g(x) dPX (x) = g(xk )P (X = xk ).
Ω R k∈I
!
FX (x) = P (X = xk ).
xk ≤x
!
ϕX (t) = eitxk P (X = xk ).
k

Cas continu
#
dPX (x) = fX (x) dx, PX (A) = fX (x) dx.
A
#
E(X) = x fX (x) dx.
R
# # %# &2
2 2
V (X) = (x − E(X)) fX (x) dx = x fX (x) dx − x fX (x) dx .
R R R
# # #
E(g(X)) = g(X) dP = g(x) dPX (x) = g(x)fX (x) dx.
Ω R R
# x
FX (x) = fX (x) dx.
−∞
#
ϕX (t) = eitx fX (x) dx.
R

B.2 Inégalités
Inégalité de Cauchy-Schwarz
# '# '#
E(|XY |) = |XY | dP ≤ X 2 dP Y 2 dP = %X%2 %Y %2 .
Ω Ω Ω

Inégalité de Markov

E(Y )
P (Y ≥ λ) ≤ si λ > 0, Y ≥ 0.
λ
B.3. COUPLES DE VARIABLES ALÉATOIRES 83

Inégalité de Bienaymé-Tchebichev
V (X)
P (|X − E(X)| ≥ t) ≤ si t > 0, E(X 2 ) < ∞.
t2
Inégalité maximale de Kolmogorov
% & E(Sn2 )
P max |Si | ≥ λ ≤ .
0≤i≤n λ2

B.3 Couples de variables aléatoires


Soit X, Y deux variables aléatoires. La loi du couple (X, Y ) est donnée par
P(X,Y ) (A) = P ((X, Y ) ∈ A) = P ({ω ∈ Ω | (X(ω), Y (ω)) ∈ A}).
Covariance
# %# &%# &
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = XY dP − X dP Y dP .
Ω Ω Ω
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
Formule de transfert
# #
E(g(X, Y )) = g(X, Y ) dP = g(x, y) dP(X,Y ) (x, y).
Ω R2
Espérance d’un produit de variables indépendantes
E(f (X)g(Y )) = E(f (X)) E(g(Y )).
Loi d’un couple de variables indépendantes
# #
E(g(X, Y )) = g(x, y) dP(X,Y ) (x, y) = g(x, y) dPX (x) dPY (y).
R2 R2
Cas discret !
P(X,Y ) = pxi ,yj δ(xi ,yj ) .
i,j
!
P(X,Y ) (A) = P (X = xi , Y = yj ).
i,j tels que (xi ,yj )∈A
# !
E(g(X, Y )) = g(x, y) dP(X,Y ) (x, y) = g(xi , yj ) P (X = xi , Y = yj ).
R2 i,j
!
P (X = xi ) = P (X = xi , Y = yj ).
j
Cas continu
#
dP(X,Y ) (x, y) = fX,Y (x, y) dxdy, P(X,Y ) (A) = fX,Y (x, y) dxdy.
A
# #
E(g(X, Y )) = g(x, y) dP(X,Y ) (x, y) = g(x, y) fX,Y (x, y) dxdy.
R2 R2
#
fX1 (x1 ) = fX1 ,X2 (x1 , x2 ) dx2 .
R
84 ANNEXE B. FORMULAIRE

B.4 Convergence de variables aléatoires


Convergence presque sûre
p.s.
Xn −−−−→ X si P ({ω ∈ Ω | Xn (ω) −−−−→ X(ω)}) = 1.
n→∞ n→∞

Convergence Lp
Lp
Xn −−−−→ X si %Xn − X%p −−−−→ 0.
n→∞ n→∞

Convergence en probabilité
proba
Xn −−−−→ X si P (|Xn − X| > ε) −−−−→ 0 pour tout ε > 0.
n→∞ n→∞

Convergence en loi
# #
loi
Xn −−−−→ X si f dPXn −−−−→ f dPX pour toute f continue bornée.
n→∞ n→∞

B.5 Théorèmes limites


n
! n
!
On pose Sn = Xk . Alors E(Sn ) = E(Xk ). De plus,
k=1 k=1
n
!
V (Sn ) = V (Xk ) si les Xi sont indépendantes.
k=1

Loi faible des grands nombres


Sn proba
Si les Xi sont i.i.d. intégrables, −−−−→ E(X1 ).
n n→∞
Loi forte des grands nombres
Sn p.s.
Si les Xi sont i.i.d. intégrables, −−−−→ E(X1 ).
n n→∞
Théorème de la limite centrée
S loi
Si les Xi sont i.i.d. centrées telles que 0 < σ(Xi ) < ∞, √n −−−−→ N (0, σ 2 ).
n n→∞
Convergence de la somme dans le cas de variance bornée
!
Si les Xi sont indépendantes centrées et V (Xi ) < ∞, Sn converge p.s. et L2 .

Théorème des trois séries


Soit Yi = Xi 1(|Xi |≤1) . Si les Xi sont indépendantes,
! ! !
Sn converge p.s. ⇔ P (|Xi | ≥ 1), E(Yi ), V (Yi ) convergent.
Annexe C

Références

Références en français concernant les probabilités


Jean Jacod, Philip Protter
L’essentiel en théorie des probabilités
Cassini. ISBN 978-2842250508
Dominique Foata, Aimé Fuchs
Calcul des probabilités
Dunod. ISBN 978-2100574247

Références en anglais concernant les probabilités


Rick Durrett
Probability : theory and examples.
Cambridge University Press. ISBN 978-0-521-76539-8
Patrick Billingsley
Probability and measure.
John Wiley & Sons, Inc. ISBN 0-471-00710-2

Référence en français pour l’intégration


Marc Briane, Gilles Pagès
Théorie de l’intégration, cours et exercices
Vuibert. ISBN 978-2311402261

Référence en anglais pour l’intégration


Richard Mansfield Dudley
Real analysis and probability.
Cambridge University Press. ISBN 0-521-00754-2

85
86 ANNEXE C. RÉFÉRENCES
Index

π, 35 loi uniforme, 42
fonction de répartition, 18
Ain, 36 fonction étagée, 17
annuaire, 35 forme quadratique, 60
formule
borélien, 10
d’inversion de Fourier, 45, 80
continuité sous le signe intégral, 76 de transfert, 17, 19
convergence
en loi, 39, 44, 48, 49, 66 graphe des fréquences, 54
en norme Lp , 39 générateur de nombres aléatoires,
en probabilité, 39, 49 34
normale, 78 identiquement distribué, 27
presque sûre, 39 indépendance
étroite, 44, 47 loi, 25
covariance, 15, 25 tribu, 22
matrice, 59 variable aléatoire, 22
cylindre, 12 vecteur gaussien, 64
définie positive, 64 évènement, 21
densité, 10, 20 interversion somme intégrale, 76
vecteur gaussien, 64 intégrabilité, 13
dé, 34, 54 vecteur gaussien, 60
dérivée sous le signe intégral, 77 inégalité
de Bienaymé-Tchebichev, 15
écart-type, 15 de Cauchy-Schwarz, 14, 79
espace probabilisé, 9 de Hölder, 40, 79
espaces Lp , 78 de Markov, 15, 40
espérance, 13, 24, 59 de Minkowski, 78
évènement, 9 maximale, 70
asymptotique, 68
indépendance, 21 Kolmogorov
formalisme, 9
fonction caractéristique, 41, 49, 59 inégalité, 70
loi de Bernoulli, 42 loi, 68
loi exponentielle, 43 théorème, 12
loi normale, 51, 62 trois séries, 72

87
88 INDEX

lemme identiquement distribuée, 27


de Borel-Cantelli, 23, 31, 41 tendue, 46
de Fatou, 75 support compact, 44
de Riemann-Lebesgue, 79 série
limite supérieure, 23 aléatoire, 67
linéarité, 14 harmonique, 71
loi
binomiale, 10 tendue, 46
continue, 19 théorème
de Bernoulli, 42 de convergence croissante, 75
de Laplace-Gauss, 11 de convergence dominée, 76
de Poisson, 10 de Fubini, 77
des grands nombres, 28, 65, 72 de Kolmogorov, 12
discrète, 19 de la limite centrée, 53, 66
du 0-1 de Kolmogorov, 68 de Stone-Weierstrass, 46
exponentielle, 18, 43 transformée de Fourier, 41, 44
gaussienne, 11 tribu
marginale, 20 indépendance, 22
multiplet, 19 produit, 11, 12
normale, 11, 53
univers, 9
uniforme, 10, 18, 42
variable aléatoire, 16, 42 variable aléatoire, 13
vecteur gaussien, 60 continue, 16
discrète, 16
matrice loi, 16
de covariance, 59 variables aléatoires
symétrique, 64 identiquement distribuées, 27
mesure de Dirac, 10 indépendantes, 22
monotonie, 14 variance, 14, 25
moyenne empirique, 27, 53 vecteur
multiplet, 19 aléatoire, 19, 59
gaussien, 61
norme Lp , 39

pile ou face, 12, 24, 29, 71


presque sûrement, 29
probabilité
continue, 10
discrète, 9
exponentielle, 11
uniforme, 11

résultat, 9

suite

Vous aimerez peut-être aussi