Httpsmoodle Sciences - Upmc.frmoodle 2020pluginfile - Php795875mod Resourcecontent2polycopie 3M290 Probabilites PDF

Probabilités II
3M290
Yves Coudène, 23 janvier 2021
Licence de mathématiques, Sorbonne Université
Version 1
2020-2021
2
Table des matières
Introduction 5
Notations 6
1 Formalisme de Kolmogorov 7
1.1 Le cas discret : Ω fini ou dénombrable . . . . . . . . . . . . . 7
1.2 Le cas continu : Ω = R ou Rd . . . . . . . . . . . . . . . . . . 8
1.3 Le cas des espaces produits . . . . . . . . . . . . . . . . . . . 9
2 Variables aléatoires 11
2.1 Définition d’une variable aléatoire . . . . . . . . . . . . . . . . 11
2.2 Espérance et variance . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . 14
2.5 Loi d’un multiplet de variables aléatoires . . . . . . . . . . . . 17
3 Indépendance 19
3.1 Indépendance d’évènements et de variables aléatoires . . . . . 19
3.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . 20
3.3 Loi d’un multiplet de variables indépendantes . . . . . . . . . 22
4 Loi des grands nombres 25

4.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . 25
4.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . 26
4.3 Illustration numérique . . . . . . . . . . . . . . . . . . . . . . 32
5 Convergence de suites aléatoires 37

5.1 Les différents types de convergence. . . . . . . . . . . . . . . . 37
5.2 Fonction caractéristique et transformée de Fourier . . . . . . 39
5.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . 41
6 Théorème de la limite centrée 49

6.1 Fonction caractéristique de la loi normale . . . . . . . . . . . 49
6.2 Théorème de la limite centrée . . . . . . . . . . . . . . . . . . 50
3
4 TABLE DES MATIÈRES
6.3 Illustration numérique . . . . . . . . . . . . . . . . . . . . . . 52
7 Vecteurs aléatoires 57
7.1 Variables aléatoires à valeurs vectorielles . . . . . . . . . . . . 57
7.2 Définition des vecteurs gaussiens . . . . . . . . . . . . . . . . 58
7.3 Loi des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . 60
7.4 Théorèmes limites pour les vecteurs aléatoires . . . . . . . . . 63
8 Séries de variables aléatoires indépendantes 65

8.1 Loi du 0-1 de Kolmogorov . . . . . . . . . . . . . . . . . . . . 65
8.2 Convergence des séries aléatoires . . . . . . . . . . . . . . . . 67
8.3 Retour sur la loi des grands nombres . . . . . . . . . . . . . . 70
A Rappels d’intégration 73
A.1 Théorèmes de convergence . . . . . . . . . . . . . . . . . . . . 73
A.2 Intégrales dépendant d’un paramètre . . . . . . . . . . . . . . 74
A.3 Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . 75
A.4 Espaces Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
A.5 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
A.6 Formule d’inversion de Fourier . . . . . . . . . . . . . . . . . 77
B Formulaire 81
B.1 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . 81
B.2 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
B.3 Couples de variables aléatoires . . . . . . . . . . . . . . . . . 83
B.4 Convergence de variables aléatoires . . . . . . . . . . . . . . . 84
B.5 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . 84
C Références 85
Index 87
Introduction
Ces notes accompagnent le cours de probabilités 3M290 probabilités II

donné au second semestre de l’année universitaire 2020-2021.
Ce cours est destiné à des étudiants ayant déjà suivi un cours d’intégrale
de Lebesgue. Une annexe en fin d’ouvrage rappelle les résultats d’intégration
qui sont utilisés dans le corps de ce texte. Un minimum de familiarité avec
la théorie des probabilités discrètes, comme on peut la voir au lycée, est
fortement conseillé.
On s’est concentré sur les théorèmes de convergence classiques, essentiel-
lement dans le cadre indépendant : loi faible et forte des grands nombres,
théorème de la limite centrée, théorème des trois séries, loi du 0-1 de Kol-
mogorov. Un résumé des théorèmes et des formules présentés dans le cours
se trouve en annexe.
Le texte est organisé de façon à parvenir assez rapidement à la preuve
de la loi forte des grands nombres, au chapitre 4, qui est faite pour des
variables de carré intégrable. Le cas intégrable est traité plus tard, dans
le chapitre concernant les séries aléatoires, comme corollaire des théorèmes
de convergence pour ces séries. Le second objectif est le théorème de la
limite centrée, atteint au chapitre 6. Il faut pour cela étudier en détail les
différents types de convergence et les relations qui s’établissent entre eux. On
étudie d’abord le cas unidimensionnel avant de passer à l’étude des vecteurs
gaussiens et à la version multidimensionnelle du TCL. On termine par l’étude
des séries de variables aléatoires indépendantes.
Le second appendice contient des rappels d’intégration qui couvrent les
résultats utilisés dans le cours, énoncés avec le vocabulaire des probabilités.
Yves Coudène, le 12 janvier 2021.
5
6 TABLE DES MATIÈRES
Notations
Les ensembles des nombres entiers, entiers relatifs, réels et complexes sont
notés respectivement N, Z, R, C.
On travaille en genéral sur un espace probabilisé (Ω, T , P ).
1A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction indicatrice de A
B(x, r) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . boule ouverte de centre x de rayon r
C ∞ . . . . . . . . . . . . . . . . . . . . ensemble des fonctions indéfiniment différentiables
Cov(X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .covariance de X et Y
δω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de Dirac au point ω
E(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . espérance de X
FX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction de répartition
Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . espace des classes de fonctions Lp
lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . limite supérieure
lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .limite inférieure
µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure
N∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . nombres entiers non nuls
Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ensemble de résultats
◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . composition
ø . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .ensemble vide
P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de probabilité
PX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi de la variable aléatoire X
P(X,Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi du couple (X, Y )
P ⊗ Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit des probabilités P et Q
p.s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . presque sûrement
Sn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . somme de X1 à Xn
σ(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . écart-type de X
Σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . matrice de covariance
T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tribu
T1 ⊗ T2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit des tribus T1 et T2
V (X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variance de X
X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variable aléatoire
#X, Y $ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit scalaire dans L2
%X%p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . norme Lp de X
Chapitre 1
Formalisme de Kolmogorov
Nous désignons par épreuve une expérience ou une observation réalisée

dans des conditions bien définies (protocole expérimental) reproductible, et
dont le résultat est l’un des éléments d’un ensemble déterminé (univers). Le
but de la théorie des probabilités est d’associer à certains sous-ensembles de
cet univers, appelés évènements, un nombre réel compris entre 0 et 1, qui
reflète notre degré de confiance dans la réalisation de l’évènement une fois
que l’épreuve a eu lieu.
La théorie moderne des probabilités est formalisée par Kolmogorov en
1933, en faisant appel à la théorie de la mesure. La notion clef est celle
d’espace probabilisé.
Définition 1 Un espace probabilisé (Ω, T , P ) est la donnée :
– d’un ensemble Ω appelé univers, dont les éléments sont appelés résultats,
– d’une tribu T de parties de Ω, dont les éléments sont appelés évènements,
– d’une mesure P définie sur la tribu T , qui satisfait P (Ω) = 1.
Commençons par décrire trois exemples importants d’espaces probabili-
sés.
1.1 Le cas discret : Ω fini ou dénombrable

Pour T , on prend l’ensemble des parties de Ω : T = P(Ω). Se donner
une probabilité P : T → [0, 1] revient à se donner une famille de nombres
réels pω , ω ∈ Ω, qui satisfait
– 0 ≤ pω ≤ 1 pour tout ω ∈ Ω,
!
– pω = 1.
ω∈Ω
La correspondance entre P et les pω est donnée par
!
pω = P ({ω}), P (A) = pω .
ω∈A
7
8 CHAPITRE 1. FORMALISME DE KOLMOGOROV
Notons δω la mesure de Dirac au point ω :

"
1 si ω ∈ A
∀A ∈ T , δω (A) =
0 sinon
Cette mesure est supportée par le singleton {ω}.
δω ({ω}) = 1, δω ({ω}c ) = 0.
!
On peut exprimer la probabilité P comme une somme de Dirac : P = pω δω .
On a alors, pour g : Ω → R mesurable, positif ou P -intégrable, ω∈Ω
# !
g dP = pω g(ω).
Ω ω∈Ω
Exemples
– Loi uniforme sur Ω = {1, 2, ..., n} :
#A
pω = 1/n, P (A) = .
#Ω
Le lancé d’un dé à 6 faces bien équilibré est modélisé par un tel espace
probabilisé ( n = 6).
– Loi binomiale de paramètres n ∈ N∗ , p ∈ [0, 1], sur Ω = {0, ..., n} :
pk = P ({k}) = Cnk pk (1 − p)n−k pour k ∈ {0, ..., n}.
pk est la probabilité d’obtenir k succès exactement au cours de n tirages

indépendants, sachant que la probabilité de succès lors d’un tirage est égale
à p.
– Loi de Poisson sur Ω = N de paramètre λ > 0 :
λk −λ
pk = P ({k}) = e pour k ∈ N.
k!
1.2 Le cas continu : Ω = R ou Rd

Ici T est la tribu engendrée par les intervalles de R ou les rectangles
de Rd . Ses éléments sont appelés boréliens. On peut définir une mesure
de probabilité sur Ω à partir d’une densité f : Ω → R+ satisfaisant les
conditions suivantes :
– la fonction f est borélienne,
– pour tout ω ∈ Ω, f (ω) ≥ 0,
$
– Ω f dλ = 1.
1.3. LE CAS DES ESPACES PRODUITS 9
On a noté la mesure de Lebesgue sur Ω avec un λ. La mesure de probabilité

P associée à la densité f est donnée par
# #
P (A) = f dλ = f (x) dx.
A A
On a alors pour toute fonction mesurable g : Ω → R positive ou P -

intégrable, # #
g dP = g(x)f (x) dx.
Ω Ω
Exemples
– Probabilité uniforme sur [a, b], avec a, b ∈ R , a < b :
1
f= 1
b − a [a,b]
– Loi de Laplace-Gauss ou loi normale de paramètres m ∈ R , σ > 0 :

1 (x−m)2
f (x) = √ e− 2σ 2
2πσ 2
Elle est dite centrée si m = 0 et σ = 1. On l’appelle aussi loi gaussienne.
– Probabilité exponentielle de paramètre l > 0 :
f (x) = l e−lx 1R+ (x)
1.3 Le cas des espaces produits

On s’intéresse à une épreuve modélisée par un espace probabilisé (Ω, T , P )
et on veut répéter cette épreuve plusieurs fois de manière indépendante, di-
sons n fois, n ∈ N∗ . Pour cela, on considère :
• l’univers Ωn = Ω×Ω×...×Ω, contenant des multiplets (ω1 , ω2 , ..., ωn ) ∈ Ωn .
L’élément ω1 est le résultat obtenu lors de la première épreuve, ω2 lors de
la seconde épreuve etc.
• La tribu produit T ⊗ T ⊗ ...T = T ⊗n . C’est la tribu engendrée par les
parties de Ωn de la forme A1 × A2 × ... × An , avec Ai ∈ T pour tout i.
• Dans le cas indépendant, la mesure produit P ⊗ ... ⊗ P sur cette tribu.
Cette mesure P ⊗n est l’unique mesure vérifiant
P ⊗n (A1 × A2 × ... × An ) = P (A1 )P (A2 )...P (An )
pour tout A1 , ..., An ∈ T .
On va chercher à étudier le comportement asymptotique d’une répéti-

tion d’épreuves, effectuées de manière indépendante, quand n tend vers l’in-
fini. Pour cela, nous introduisons un nouvel espace probabilisé.
10 CHAPITRE 1. FORMALISME DE KOLMOGOROV
• L’univers ΩN est l’ensemble de toutes les suites d’éléments de Ω.

• On se place sur la tribu produit T ⊗N . C’est la tribu de parties de ΩN
engendrée par les cylindres de la forme
CA0 ,...,An = {(ωi )i∈N | ∀i = 0...n, ωi ∈ Ai }
avec n ∈ N et A0 , ..., An ∈ T .
• Dans le cas indépendant, on considère sur T ⊗N la mesure produit P ⊗N ,
caractérisée de la façon suivante :
Théorème 1 (Kolmogorov) Soit (Ω, T , P ) un espace probabilisé. Alors il

existe une unique mesure de probabilité sur T ⊗N , notée P ⊗N , qui satisfait
P (CA0 ,...,An ) = P (A0 )P (A1 )...P (An )
pour tout n ∈ N et A0 , ..., An ∈ T .
L’exemple le plus simple est donné par la répétition un nombre arbi-

trairement grand de fois du lancer d’une pièce de monnaie. L’univers est
donné par l’ensemble de toutes les suites de pile ou face : {pile, f ace}N . Cet
ensemble est muni de la tribu engendrée par tous les sous-ensembles de la
forme
{(ωi )i∈N | ω0 ∈ A0 , ..., ωm ∈ Am }
avec m ∈ N et Ai ∈ {pile, f ace} pour i allant de 0 à m. Si la pièce est
bien équilibrée, on peut prendre comme probabilité le produit P ⊗N , où
P ({f ace}) = P ({pile}) = 1/2.
Chapitre 2
Variables aléatoires
En pratique, on s’intéresse à certaines quantités numériques attachées

aux résultats obtenus à l’issue de notre épreuve. Pour modéliser cela, on
introduit la notion de variable aléatoire.
2.1 Définition d’une variable aléatoire

Définition 2 Soit (Ω, T , P ) un espace probabilisé. Par définition, une va-
riable aléatoire X : Ω → R est une fonction mesurable définie sur Ω, à
valeurs réelles : pour tout intervalle I ⊂ R, l’image réciproque X −1 (I) de
cet intervalle est dans T .
Pour A ⊂ R borélien, on pose
X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} = (X ∈ A)
X −1 ([a, b]) = (a ≤ X ≤ b)
X −1 ([a, ∞[) = (a ≤ X) = (X ≥ a)
On a alors
P (X −1 (A)) = P (X ∈ A).
C’est la probabilité d’obtenir, à l’issue de l’épreuve, un résultat pour lequel la
valeur de X est dans A. La quantité P (X ∈ A) est bien définie dès que A est
borélien car l’image réciproque d’un borélien par une application mesurable
est mesurable (c’est-à-dire est dans T ).
2.2 Espérance et variance

$
Définition 3 Une variable aléatoire X est dite intégrable si Ω |X| dP < ∞.
Dans ce cas l’intégrale de X est bien définie, c’est l’espérance de X.
#
E(X) = X dP.
Ω
11
12 CHAPITRE 2. VARIABLES ALÉATOIRES
La variable aléatoire X est dite de carré intégrable si son carré est inté-
grable : #
E(X 2 ) = X 2 dP < +∞.
Ω
Dans ce cas X est intégrable et on définit la variance de X par la formule
% &
V (X) = E (X − E(X))2 .
On remarque qu’une variable aléatoire de carré intégrable est intégrable

en intégrant l’inégalité 2X ≤ 1 + X 2 . On peut aussi faire appel à l’inégalité
de Cauchy-Schwarz : pour toutes variables aléatoires X, Y : Ω → R,
# '# '#
|XY | dP ≤ X 2 dP Y 2 dP .
Ω Ω Ω
(
En prenant Y = 1 dans cette formule, on obtient E(|X|) ≤ E(X 2 ).
Développons le carré qui apparaît dans la définition de la variance.
% & % &
E (X −E(X))2 = E X 2 −2XE(X)+E(X)2 = E(X 2 )−2E(X)2 +E(X)2 .
Nous obtenons la formule suivante, très utile pour calculer V (X) :

Proposition 1 V (X) = E(X 2 ) − E(X)2 .
Dans le cas discret, la variable aléatoire X est intégrable si elle satisfait
! !
pω |X(ω)| < +∞, auquel cas E(X) = pω X(ω).
ω∈Ω ω∈Ω
Dans le cas continu,

$
en notant f la densité de P , la variable aléatoire X
est intégrable si Rd |X(ω)|f (ω)dω < +∞ et dans ce cas
#
E(X) = X(ω)f (ω)dω.
Rd
Propriétés
Soit λ ∈ R et X, Y deux variables aléatoires intégrables.
– E(λX + Y ) = λE(X) + E(Y ). (linéarité)
– Si X ≤ Y , c’est-à-dire si pour tout ω ∈ Ω, X(ω) ≤ Y (ω), alors
E(X) ≤ E(Y ). (monotonie)
– Pour tout évènement A ∈ T , P (A) = E(1A ).
– Soit (Xn ) une suite de variables aléatoires qui converge de manière crois-
sante vers X : pour presque tout ω ∈ Ω, (Xn (ω))n∈N est croissante et
Xn (ω) → X(ω). Alors
E(Xn ) −−−−→ E(X).
n→∞
2.3. INÉGALITÉS 13
– Soit (Xn ) une suite de variable aléatoires qui converge vers X presque
partout. On suppose qu’il existe Y intégrable telle que |Xn | ≤ Y pour tout
n ∈ N. Alors E(Xn ) −−−−→ E(X).
n→∞
– V (λX) = λ2 V (X).
– V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y )
La covariance de X, Y a été notée
Cov(X, Y ) = E(XY ) − E(X)E(Y ),
elle est bien définie dès que X, Y sont de carrés intégrables.
Ces propriétés sont des conséquences immédiates des définitions. Les

deux théorèmes de passage à la limite découlent du théorème de convergence
croissante et du théorème de convergence dominée.
2.3 Inégalités
On s’intéresse maintenant à deux inégalités classiques qui donnent des
informations sur la manière dont les valeurs d’une variable aléatoire se ré-
partissent.
Théorème 2 (Inégalité de Markov) Soit (Ω, T , P ) un espace probabi-

lisé, Y : Ω → R+ une variable aléatoire positive. Alors, pour tout λ > 0,
E(Y )
P (Y ≥ λ) ≤ .
λ
Preuve
On a l’inégalité λ1(Y ≥λ) ≤ Y ce qui donne, par monotonie,
E(λ1(Y ≥λ) ) ≤ E(Y ).
On conclut en remarquant que
E(λ1(Y ≥λ) ) = λ E(1(Y ≥λ) ) = λ P (Y ≥ λ).
Théorème 3 (Inégalité de Bienaymé-Tchebichev) Soit (Ω, T , P ) un es-

pace probabilisé, X : Ω → R une variable aléatoire de carré intégrable. Alors,
pour tout t > 0,
V (X)
P (|X − E(X)| ≥ t) ≤ .
t2
(
Cette inégalité peut se récrire à l’aide de l’écart-type σ(X) = V (X).
% & 1
/ ] E(X) − tσ(X), E(X) + tσ(X) [
P X∈ ≤
t2
Application
Si X est de carré intégrable, la probabilité d’obtenir à l’issue de l’épreuve
une valeur à plus de 10 fois l’écart-type de l’espérance est inférieure à 1/100.
Preuve
L’égalité de Bienaymé-Tchebichev se déduit de l’inégalité de Markov en pre-
nant Y = (X − E(X))2 et λ = t2 dans cette inégalité. On a alors
P (Y ≥ λ) = P ((X − E(X))2 ≥ t2 ) = P (|X − E(X)| ≥ t),

E(Y ) E((X − E(X))2 ) V (X)
= 2
= .
λ t t2
La formule est démontrée.
2.4 Loi d’une variable aléatoire

À chaque variable aléatoire X définie sur un espace probabilisé (Ω, T , P ),
on peut associer une probabilité PX qui rend compte de la répartition de
ses valeurs, en procédant de la façon suivante.
Définition 4 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable

aléatoire. La loi de X est la probabilité définie sur la tribu des boréliens de
R par la formule
PX (A) = P (X ∈ A) = P (X −1 (A))
pour tout A ⊂ R borélien.
La variable aléatoire X est dite discrète si sa loi PX est discrète : il existe

un ensemble fini ou dénombrable D ⊂ R tel que PX (D) = 1. Indiçons ses
éléments par un ensemble I ⊂ N : D = {xi }x∈I . On est presque sûr d’obtenir
un résultat qui se trouve dans cet ensemble de valeurs {xi }i∈I et on peut
écrire !
PX = pxi δxi
i∈I
où pxi est la probabilité d’obtenir la valeur xi : P (X = xi ) = pxi .

La variable aléatoire X est dite continue si PX est une loi continue,
auquel cas sa densité est notée fX . C’est une fonction borélienne positive
dont l’intégrale vaut un. On a alors
#
PX (A) = P (X ∈ A) = fX (x) dx
A
2.4. LOI D’UNE VARIABLE ALÉATOIRE 15
pour tout A ⊂ R borélien. Dans ce cas, la probabilité P (X = x) est bien

sûr nulle pour tout x ∈ R.
L’espérance et la variance d’une variable aléatoire peuvent s’exprimer en
fonction de sa loi uniquement. En conséquence, deux variables qui ont même
loi ont même espérance et même variance.
Proposition 2 Si X est intégrable,

#
E(X) = x dPX (x).
R
Si X est de carré intégrable,

#
V (X) = (x − E(X))2 dPX (x).
R
Cette proposition se déduit de la formule de transfert.
Proposition 3 (formule de transfert) Soit g : R → R borélienne, posi-

tive ou PX -intégrable. Alors
# #
g(X) dP = g(x) dPX (x).
Ω R
Preuve de la formule de transfert

– C’est vrai pour g = 1A , A borélien de R :
#
1A (X) dP = P (X ∈ A) = P (X −1 (A)),
#
1A (x) dPX (x) = PX (A) = P (X ∈ A).
– C’est vrai pour les combinaisons linéaires de fonctions indicatrices g =

)
ci 1Ai par linéarité de l’intégrale.
– Une combinaison linéaire de fonctions indicatrices s’appelle une fonction
étagée. Toute fonction positive mesurable peut être approchée de manière
croissante par une suite de fonctions étagées. Pour g ≥ 0, borélienne, on
prend gn → g , gn étagées, et on passe à la limite
# #
gn (X) dP −−−−→ g(X) dP
n→∞
# #
gn (x) dPX (x) −−−−→ g(x) dPX (x)
n→∞
$
en appliquant le théorème de convergence croissante, si bien que g(X) dP =
$
g(x) dPX (x).
– Pour g intégrable, on écrit g comme la différence de deux fonctions positives
intégrables et on utilise la linéarité de l’intégrale pour conclure.
Exemple
Si X est variable aléatoire obéissant à une loi exponentielle de paramètre
l > 0 , PX est associée à la densité fX (x) = le−lx 1R+ (x) et on a :
# # b
PX ([a, b]) = P (X ∈ [a, b]) = fX (x) dx = le−lx dx
[a,b] a
dès que 0 ≤ a ≤ b.
Il est parfois plus pratique de travailler avec des fonctions plutôt qu’avec
des lois de probabilité. Ceci nous amène à la notion de fonction de réparti-
tion.
Définition 5 La fonction de répartition de X est définie par
FX (x) = P (X ≤ x).
On a alors l’égalité, pour tout a, b ∈ R,
P (X ∈ ]a, b]) = FX (b) − FX (a).
Comme une mesure de probabilité définie sur la tribu des boréliens de R

est uniquement déterminée par ses valeurs sur les intervalles, la fonction
de répartition caractérise la loi de X de manière unique : si deux variables
aléatoires ont même fonction de répartition, elles ont même loi.
FX = FY ⇔ PX = PY .
Exemple
La fonction de répartition de la loi uniforme sur l’intervalle [a, b], a < b, est
donnée par
#
1 x 1
FX (x) = 1[a,b] (x) dx

b−a −∞ 0.8

 0 si x < 0
0.6

0.4
x−a
= b−a si a ≤ x ≤ b

 0.2
1 si x > b
0
0 0.5 1 1.5 2
La fonction de répartition possède les propriétés suivantes :

– elle est croissante, à valeur dans l’intervalle [0, 1],
– lim FX (x) = 0, lim FX (x) = 1,
x→−∞ x→+∞
– elle est continue à droite et possède une limite à gauche en tout point,
– l’ensemble des points de discontinuité de FX est composé des x ∈ R tels
que P (X = x) > 0, il est donc dénombrable.
2.5. LOI D’UN MULTIPLET DE VARIABLES ALÉATOIRES 17
2.5 Loi d’un multiplet de variables aléatoires

Les considérations précédentes se généralisent à des couples et des mul-
tiplets de variables aléatoires. Soient X1 , ...Xn des variables aléatoires à
valeurs réelles. On peut considérer ces variables comme une unique variable
aléatoire à valeurs dans Rn .
(X1 , X2 , ..., Xn ) : Ω → Rn .
On parle alors de vecteur aléatoire. On pose, pour A borélien de Rn et A1 ,

..., An des boréliens de R,
((X1 , ..., Xn ) ∈ A) = {ω ∈ Ω | (X1 (ω), X2 (ω), ..., Xn (ω)) ∈ A},
(X1 ∈ A1 , ..., Xn ∈ An ) = ((X1 , ..., Xn ) ∈ A1 × ... × An )

= {ω.∈ Ω | X1 (ω) ∈ A1 , ..., Xn (ω) ∈ An }
= (Xi ∈ Ai ).
1≤i≤n
Définition 6 Soit (Ω, T , P ) un espace probabilisé, X1 , ..., Xn des variables

aléatoires. La loi du multiplet (X1 , ..., Xn ) est la mesure de probabilité définie
sur la tribu des boréliens de Rn par la formule
P(X1 ,...,Xn) (A) = P ((X1 , ..., Xn ) ∈ A) = P ({ω ∈ Ω | (X1 (ω), ..., Xn (ω)) ∈ A})
pour tout A ⊂ Rn borélien.
La loi du multiplet est discrète si la loi de P(X1 ,...,Xn) est discrète : il

existe un ensemble fini ou dénombrable D ⊂ Rn tel que P(X1 ,...,Xn) (D) = 1.
Elle est dite continue si P(X1 ,...,Xn) est une loi continue, auquel cas sa densité
est notée fX1 ,...,Xn . Cette densité est une fonction borélienne, définie de Rn
dans R+ , positive, d’intégrale 1, et nous avons la relation
#
P ((X1 , ..., Xn ) ∈ A) = P(X1 ,...,Xn) (A) = fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxn .
A
La formule de transfert se généralise à n variables.
Proposition 4 (Formule de transfert) Soit g : Rn → R borélienne, po-

sitive ou P(X1 ,...,Xn) -intégrable. Alors
# #
g(X1 , ..., Xn ) dP = g(x1 , ..., xn ) dPX1 ,...,Xn (x1 , ..., xn ).
Ω Rn
La preuve est similaire à celle faite précédemment dans le cas d’une

variable, on procède en approchant g par une fonction étagée.
Les lois individuelles des Xi peuvent se déduire de la loi de (X1 , ..., Xn )

en remarquant que pour tout borélien A ⊂ R,
P (Xi ∈ A) = P (X1 ∈ R, ..., Xi−1 ∈ R, Xi ∈ A, Xi+1 ∈ R, ..., Xn ∈ R)

= P(X1 ,...,Xn) (R × ... × R × A × R × ... × R).
On dit que les lois PXi sont les lois marginales de la distribution (X1 , ..., Xn ).
Dans le cas continu, la densité des Xi se déduisent de celle de (X1 , ..., Xn )
grâce à la formule suivante :
# %# &
PXi (I) = fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn ) dxi
I R n−1
où I est un intervalle ou un borélien de R, si bien que

#
fXi (xi ) = fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn .
R n−1
Chapitre 3
Indépendance
On a vu comment modéliser une épreuve répétée un nombre fini ou

infini de fois de manière indépendante, en prenant pour univers un espace
produit et pour probabilité une probabilité produit. On va préciser cette
notion d’indépendance en l’appliquant à des évènements, des tribus ou des
variables aléatoires.
3.1 Indépendance d’évènements et de variables aléa-

toires
On commence par définir la notion d’évènements indépendants.
Définition 7 Soit (Ω, T , P ) un espace probabilisé. Deux évènements A, B ∈

T sont dits indépendants entre eux si
P (A ∩ B) = P (A)P (B).
Soit (Ai )i∈I une famille d’évènements. Ces évènements sont dits indépen-
dants dans leur ensemble si
%. & /
∀S ⊂ I fini, P Ai = P (Ai ).
i∈S i∈S
Exemple
Pour une famille de trois évènements {A1 , A2 , A3 }, I = {1, 2, 3}, ces condi-
tions s’écrivent comme suit :
S = {1} P (A1 ) = P (A1 )
S = {2} P (A2 ) = P (A2 )
S = {3} P (A3 ) = P (A3 )
S = {1, 2} P (A1 ∩ A2 ) = P (A1 )P (A2 )
S = {1, 3} P (A1 ∩ A3 ) = P (A1 )P (A3 )
S = {2, 3} P (A2 ∩ A3 ) = P (A2 )P (A3 )
S = {1, 2, 3} P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 )
19
20 CHAPITRE 3. INDÉPENDANCE
Définition 8 Deux variables aléatoires X, Y : Ω → R sont indépendantes

entre elles si pour tous boréliens A, B ⊂ R, les évènements (X ∈ A) et
(Y ∈ B) sont indépendants entre eux :
% &
P (X ∈ A) ∩ (Y ∈ B) = P (X ∈ A) P (Y ∈ B).
Soit (Xi )i∈I une famille de variables aléatoires. Elle sont dites indépendantes
entre elles si pour tout sous-ensemble S ⊂ I fini et (Ai )i∈S des boréliens de
R, les évènements (Xi ∈ Ai ) sont indépendants dans leur ensemble :
%. & /
P (Xi ∈ Ai ) = P (Xi ∈ Ai ).
i∈S i∈S
Introduisons les notations suivantes pour alléger les formules :

(X ∈ A, Y ∈ B) = (X ∈ A) ∩ (Y ∈ B)
= {ω ∈ Ω | X(ω) ∈ A et Y (ω) ∈ B}
% & .
Xi ∈ Ai , i ∈ S = (Xi ∈ Ai )
i∈S
(X1 ∈ A1 , X2 ∈ A2 , ..., Xn ∈ An ) = (X1 ∈ A1 )∩(X2 ∈ A2 )...∩(Xn ∈ An )
Définition 9 Deux tribus T1 ⊂ T , T2 ⊂ T sont indépendantes entre elles

si pour tout A ∈ T1 et B ∈ T2 , A et B sont indépendants entre eux.
Soit (Ti )i∈I une famille de tribus incluses dans T . Elle sont dites indé-
pendantes entre elles si pour tout sous-ensemble S ⊂ I fini et toute famille
(Ai )i∈S satisfaisant Ai ∈ Ti pour tout i ∈ S, les évènements Ai sont indé-
pendants dans leur ensemble :
%. & /
P Ai = P (Ai ).
i∈S i∈S
3.2 Lemme de Borel-Cantelli

Voici une première application de la notion d’indépendance d’évène-
ments.
Lemme 1 (Borel-Cantelli) Soit (Ω, T , P ) un espace probabilisé et (Ai )i∈N

une suite d’évènements.
!
Si P (Ai ) < +∞, presque tout ω ∈ Ω n’appartient qu’à un nombre fini
i∈N
de Ai .
!
Si P (Ai ) = +∞, et si les Ai sont indépendants dans leur ensemble, alors
i∈N
presque tout ω ∈ Ω appartient à une infinité de Ai .
3.2. LEMME DE BOREL-CANTELLI 21
On définit la limite supérieure de la suite d’ensembles Ai comme suit :

. 0 1 2
lim Ai = Ai = {ω ∈ Ω | ω appartient à une infinité de Ai }.
i∈N
N ∈N i≥N
Le lemme se reformule alors de la façon suivante :

! % &
P (Ai ) < +∞ implique P lim Ai = 0.
i∈N
i∈N
! % &
P (Ai ) = +∞ et (Ai )i∈N indépendants implique P lim Ai = 1.
i∈N
i∈N
Preuve du lemme !
Nous avons la relation #{i ∈ N | ω ∈ Ai } = 1Ai (ω). Intégrons cette éga-
lité. i∈N
# # ! !
#{i ∈ N | ω ∈ Ai } dP (ω) = 1Ai dP = P (Ai ) < +∞.
i∈N i∈N
La fonction ω 2→ #{i ∈ N | ω ∈ Ai } est intégrable, donc finie presque

partout ; pour presque tout ω ∈ Ω, #{i ∈ N | ω ∈ Ai } < +∞.
Supposons à présent les (Ai ) indépendants et M, N ∈ N, N ≤ M .
%.
M & M
/ M
/ )M
P Aci = P (Aci ) = (1 − P (Ai )) ≤ e− i=N
P (Ai )
i=N i=N i=N
d’après la majoration 1 − x ≤ e−x , va- 2
lide pour tout x ∈ R. Nous avons donc

1.5
%.
M & )M
P Aci ≤ e− i=N
P (Ai ) 1
i=N
0.5
et en passant à la limite sur M ,

%. & 0
P Aci = 0. -1 -0.5 0 0.5 1 1.5 2
i≥N -0.5
1 .
Ceci entraîne P ( Aci ) = 0 puis en passant au complémentaire,
N ∈N i≥N
% . 1 &
P (lim Ai ) = P Ai = 1.
N ∈N i≥N
Exemple
On considère une suite de variables aléatoires (Xn )n∈N indépendantes entre
elles et x ∈ R tel qu’il existe δ > 0 pour lequel P (Xn = x) ≥ δ pour tout n.
Comme application du lemme de Borel-Cantelli, montrons que pour presque

tout ω ∈ Ω, le réel x apparaît consécutivement un nombre arbitrairement
grand de fois dans la suite (Xn )n∈N . Pour cela, on se donne N ∈ N∗ et on
pose
Ai = (XN i+1 = x, XN i+2 = x, ..., XN i+N = x).
Les Ai sont indépendants entre eux et P (Ai ) ≥ δN pour tout i. D’après le
lemme, il existe un ensemble ΩN de complémentaire négligeable, tel que tout
ω ∈ ΩN appartient à une infinité de Ai , si bien que x apparaît consécutive-
ment N fois dans la suite (Xi (ω)). Pour les ω appartenant à l’intersection
des ΩN , N ∈ N∗ , le nombre x apparaît consécutivement un nombre arbi-
trairement grand de fois dans la suite (Xi (ω)).
Comme corollaire, considérons une suite (Xi ) de variables indépendantes
telles que P (Xi = 1) = P (Xi = −1) = 1/2 pour tout i. D’après ce qui
précède, presque sûrement, il existe des suites arbitrairement longues de 1
consécutives dans la suite (Xi ), qui ne peut donc pas être bornée. Dans un
jeu de Pile ou Face, où la fortune des joueurs est bornée, on aboutit donc
presque sûrement à la ruine d’un des deux joueurs.
3.3 Loi d’un multiplet de variables indépendantes

Calculons l’espérance d’un produit de variables aléatoires indépendantes.
Proposition 5 Soit (Ω, T , P ) un espace probabilisé, X, Y : Ω → R deux

variables aléatoires. On se donne f, g : R → R des fonctions boréliennes
telles que f (X) et g(Y ) soient intégrables. On suppose X et Y indépendantes
entre elles. Alors
E(f (X)g(Y )) = E(f (X))E(g(Y )).
Ceci se généralise à un nombre quelconque de variables aléatoires (Xi )i=1...n

indépendantes entre elles :
%/
n & n
/
E fi (Xi ) = E(fi (Xi ))
i=1 i=1
où les fi : R → R sont des fonctions boréliennes telles que les fi (Xi ) sont
intégrables.
Preuve
Si f et g sont des fonctions indicatrices, f = 1A , g = 1B ,
E(f (X)g(Y )) = E(1A (X)1B (Y )) = E(1(X∈A) 1(Y ∈B) )
= E(1(X∈A)∩(Y ∈B) ) = E(1(X∈A, Y ∈B) )
= P (X ∈ A, Y ∈ B)
3.3. LOI D’UN MULTIPLET DE VARIABLES INDÉPENDANTES 23
= P (X ∈ A)P (Y ∈ B) par indépendance,

= E(1A (X))E(1B (Y ))
= E(f (X))E(g(Y )).
On procède ensuite comme pour la preuve de la formule de transfert : on
vérifie la formule pour les fonctions étagées, par linéarité, puis on vérifie la
formule pour f, g ≥ 0 en les approchant de manière croissante par des fonc-
tions étagées, et enfin pourf, g intégrables en les écrivant comme différence
de fonctions positives intégrables.
Le cas d’un nombre quelconque de variables indépendantes s’en déduit de
la même façon. Rappelons que la covariance de deux variables aléatoires est
égale à l’espérance du produit des variables moins le produit des espérances.
On obtient le corollaire suivant :
Corollaire 1 Soit X1 ,..., Xn des variables aléatoires de carré intégrable,
indépendantes entre elles. Alors
Cov(Xi , Xj ) = 0 si i 3= j,
%!
n & n
!
V Xi = V (Xi ).
i=1 i=1
Complément
On montre que la loi d’un couple ou d’un multiplet de variables aléatoires
indépendantes entre elles est égale au produit des lois de chacune des va-
riables aléatoires.
Proposition 6 Soit X, Y deux variables aléatoires indépendantes entre
elles. Alors
P(X,Y ) = PX ⊗ PY ,
# #
E(h(X, Y )) = h(X, Y ) dP = h(x, y) dPX (x) dPY (y)
Ω R2
pour toute fonction h : R2→ R borélienne, positive ou P(X,Y ) -intégrable.
Soit X1 ,..., Xn des variables aléatoires indépendantes entre elles. Alors
P(X1 ,...,Xn) = PX1 ⊗ PX2 ⊗ ... ⊗ PXn ,
#
E(h(X1 , ..., Xn )) = h(x1 , ..., xn ) dPX1 (x1 )...dPXn (xn )
Rn
pour toute fonction h : Rn → R borélienne, positive ou P(X1 ,...,Xn) -intégrable.
La preuve se ramène à celle de la proposition précédente en utilisant le
fait que toute fonction borélienne bornée h : R2 → R peut s’approcher en
norme L1 (R2 , P(X,Y ) + PX ⊗ PY ) par une combinaison linéaire de fonctions
de la forme (x, y) 2→ f (x)g(y), avec f et g boréliennes bornées. On généra-
lise ensuite aux fonctions boréliennes positives en utilisant le théorème de
convergence croissante puis aux fonctions intégrables. Le raisonnement est
le même pour un multiplet de variables aléatoires.
Chapitre 4
Loi des grands nombres
On va s’intéresser au comportement asymptotique d’une suite de va-

riables aléatoires. On se donne un espace probabilisé (Ω, T , P ) et pour
chaque entier n ∈ N une variable aléatoire Xn : Ω → R.
Définition 10 La suite de variables aléatoires (Xi )i∈N est dite identique-

ment distribuée si tous les Xi ont même loi :
∀i, j ∈ N, PXi = PXj .
En d’autres termes, pour tout borélien A ⊂ R,
P (Xi ∈ A) = P (Xj ∈ A)
et pour toute fonction f : R → R borélienne positive ou intégrable par

rapport à PX0 ,
E(f (Xi )) = E(f (Xj )).
En particulier, E(Xi ) = E(Xj ) si les Xi sont intégrables, E(Xi2 ) = E(Xj2 )
et V (Xi ) = V (Xj ) si les Xi sont de carrés intégrables.
4.1 Loi faible des grands nombres

Soit (Xi )i∈N une suite de variables aléatoires indépendantes entre elles,
identiquement distribuées (v.a i.i.d). On pose
n
!
Sn = Xi = X1 + X2 + ... + Xn .
i=1
Pour ω ∈ Ω, la quantité Snn (ω) = X1 (ω)+X2 (ω)+...+X

n
n (ω)
est la moyenne
empirique calculée sur l’échantillon donné par le résultat ω ∈ Ω. On cherche
à étudier le comportement asymptotique de la moyenne Snn .
25
26 CHAPITRE 4. LOI DES GRANDS NOMBRES
Théorème 4 (loi faible des grands nombres) Soit (Xi )i∈N une suite de
variables aléatoires indépendantes entre elles, identiquement distribuées, de
carrés intégrables. Alors pour tout ε > 0,
%3 S 3 &
3 n 3
P 3 − E(X0 )3 > ε −−−−→ 0.
n n→∞
La preuve du théorème repose sur le lemme suivant.
Lemme 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes,

identiquement distribuées. Alors E(Sn ) = nE(X0 ), V (Sn ) = nV (X0 ).
Preuve du lemme
E(Sn ) = E(X1 + X2 + ... + Xn ) = E(X1 ) + E(X2 ) + ... + E(Xn ) par linéarité.
)
V (Sn ) = V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn ) + 2 i<j Cov(Xi , Xj ),
où Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ).
La covariance de deux variables aléatoires est nulle dans le cas indépendant.
D’où V (Sn ) = V (X1 ) + ... + V (Xn ) = n V (X0 ).
Preuve du théorème
D’après le lemme,
√
E(Sn /n) = E(X0 ), V (Sn /n) = V (X0 )/n, σ(Sn /n) = σ(X0 )/ n.
On applique alors l’inégalité de Bienaymé-Tchebichev :

%3 S
3 n Sn 33 & V (S /n)
n σ(X0 )2
P 3 − E( )3 > ε ≤ = −−−−→ 0.
n n ε2 nε2 n→∞
Remarque
On peut montrer que la loi faible des grands nombres est encore vraie
pour des variables aléatoires indépendantes, identiquement distribuées, inté-
grables.
4.2 Loi forte des grands nombres

Théorème 5 (loi forte des grands nombres) Soit (Xi )i∈N une suite de
variables aléatoires intégrables, indépendantes entre elles, identiquement dis-
)
tribuées et Sn = ni=1 Xi . Alors pour presque tout ω ∈ Ω,
Sn
(ω) −−−−→ E(X0 ).
n n→∞
Sn
En d’autres termes, l’ensemble {ω ∈ Ω | n (ω) −−−−→ E(X0 )} est un
n→∞
ensemble dont la probabilité vaut 1.
4.2. LOI FORTE DES GRANDS NOMBRES 27
On dit qu’une propriété est vraie presque sûrement si elle est satisfaite
pour presque tout ω ∈ Ω. Nous utiliserons dans la suite l’abréviation p.s.
pour le terme presque sûrement.
Énonçons un premier corollaire de la loi forte des grands nombres, qui

sera démontré dans la suite. Ce corollaire montre que la probabilité d’un
évènement est presque sûrement égale à la limite du nombre de fois où il est
réalisé sur le nombre total de fois où l’épreuve est répétée, lorsque le nombre
de répétitions tend vers l’infini.
Corollaire 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes

identiquement distribuées et soit A un borélien de R. Alors
#{i ≤ n | Xi (ω) ∈ A}
−−−−→ P (X0 ∈ A) presque sûrement.
n n→∞
Illustrons la loi forte des grands nombres sur un exemple avant de la

démontrer.
Exemple
On lance une pièce de monnaie bien équilibrée un grand nombre de fois
de manière indépendante. Pour modéliser ces épreuves, on commence par
considérer la probabilité P̃ définie sur P({pile, f ace}) par P̃ ({f ace}) =
P̃ ({pile}) = 1/2 et on pose :
– Ω = {pile, f ace}N ,
– T = P({pile, f ace})⊗N ,
– P = P̃ ⊗N .
Les éléments de Ω sont des suites infinies de pile ou face.
On définit maintenant une variable aléatoire X : {pile, f ace} → R par
X(pile) = 0, X(f ace) = 1 et on pose pour tout i ∈ N,
"
1 si ωi = pile
Xi ((ωk )k∈N ) = X(ωi ) =
0 si ωi = f ace
Soit ω = (ωk )k∈N ∈ Ω. L’élément ωk de la suite ω est le résultat obtenu au

kième lancer. La quantité Xk (ω) vaut 1 si ce résultat est face, 0 si il est égal
à pile. Définissons également
Sn X1 (ω) + ... + Xn (ω) X(ω1 ) + X(ω2 ) + ... + X(ωn )

(ω) = = .
n n n
C’est la moyenne des valeurs prises par X au cours des n premières épreuves.
C’est le nombre moyen de fois où Face a été obtenu au cours des n premiers
lancers.
Proposition 7 Les variables aléatoires Xi sont indépendantes dans leur

ensemble, identiquement distribuées, intégrables.
Preuve
P (X0 ∈ A0 , ..., Xn ∈ An ) = P̃ ⊗N ({ω ∈ Ω | X(ω0 ) ∈ A0 , ..., X(ωn ) ∈ An })

= P̃ ⊗N (CX −1 (A0 ),...,X −1(An ) )
n
/
= P̃ (X −1 (Ai )).
i=0
De plus, P (X0 ∈ A0 ) = P (CX −1 (A0 ) ) = P̃ (X −1 (A0 )). Nous avons également
P (Xi ∈ Ai ) = P ({ω ∈ Ω | ωi ∈ X −1 (Ai )})

= P (CΩ,...,Ω,X −1(Ai ) )
= P̃ ⊗N (CΩ,...,Ω,X −1(Ai ) )
= P̃ (Ω)...P̃ (Ω)P̃ (X −1 (Ai ))
= P̃ (X −1 (Ai ))
D’où P (X0 ∈ A0 , ..., Xn ∈ An ) = P (X0 ∈ A0 )...P (Xn ∈ An ) pour tout
n ∈ N. On vient de démontrer que les Xi sont indépendants.
On a aussi vu que P (Xi ∈ A) = P̃ (X −1 (A)). La loi PXi ne dépend donc
pas de i et PXi = PXj pour tout i, j. Ceci termine la démonstration de la
proposition.
Dans notre exemple, nous avons PXi = 12 (δ0 +δ1 ) ce qui implique l’égalité
#
E(X1 ) = x dPX1 (x) = 0 × 1/2 + 1 × 1/2 = 1/2.
R
On peut maintenant appliquer la loi forte des grands nombres : pour presque
tout ω ∈ Ω,
#{i ≤ n | ωi = f ace}
−−−−→ 1/2
n n→∞
ou encore
%4 1 5&
P̃ ⊗N (ωi )i∈N ∈ {pile, f ace}N | #{i ≤ n | ωi = f ace} −−−−→ 1/2 = 1.
n n→∞
La fréquence d’apparition de face au cours d’une infinité de lancers est égale

à 1/2 presque sûrement, lorsque la pièce est bien équilibrée.
Nous allons démontrer la loi forte des grands nombres à partir du lemme
suivant.
Lemme 3 Soit (Yi ) une suite de variables aléatoires. Si pour tout ε > 0,
∞
!
P (|Yi | > ε) < ∞
i=1
alors la suite (Yi )i∈N converge presque sûrement vers 0 :
pour presque tout ω ∈ Ω, Yi (ω) −−−−→ 0.

i→∞
Le lemme montre que P ({ω ∈ Ω | Yi (ω) −−−−→ 0}) = 1.

i→∞
Preuve du lemme
On applique le lemme de Borel-Cantelli. La quantité ε étant fixée, on pose
Ai = (|Yi | > ε).

)
Comme P (Ai ) < ∞, presque tout ω ∈ Ω n’appartient qu’à un nombre
fini de Ai . Notons par Cε cet ensemble. Nous avons P (Cε ) = 1.
/ An et |Yn (ω)| < ε.

∀ω ∈ Cε , ∃N ∈ N, ∀n ≥ N, ω ∈
On prend ε = 1/k, k ∈ N∗ et on considère l’intersection des C1/k .

.
C= C1/k , P (C) = 1.
k∈N∗
Pour tout ω ∈ C et tout k ∈ N∗ , le point ω est dans C1/k , si bien qu’il

existe N ∈ N tel que pour tout n ≥ N , |Yn (ω)| < 1/k. Ceci montre que
lim Yn (ω) = 0, comme souhaité.
n→∞
Preuve de la loi forte des grands nombres

Pour simplifier, nous allons supposer que les Xi sont de carrés intégrables
dans la preuve. On donnera une preuve dans le cas intégrable plus tard, dans
le chapitre consacré à la convergence de séries de variables aléatoires.
Nous avons, pour tout i, E(Xi ) = E(X1 ). Quitte à remplacer les Xi
par Xi − E(Xi ), on peut supposer E(Xi ) = 0. On dit qu’on centre les
variables aléatoires. On veut montrer que Snn converge presque sûrement vers
0. Essayons d’appliquer le lemme précédent. Rappelons l’égalité E( Sii ) =
E(X1 ) = 0.
%3 S 3 & V (S /i) V (X1 )
3 i3 i
P 3 3>ε ≤ 2
= 2
par l’inégalité de Bienaymé-Tchebichev.
i ε iε
∞
! %3 S 3 & ∞
V (X1 ) ! 1
3 i3
P 3 3>ε ≤ 2
= +∞.
n=1
i ε i=1
i
La condition du lemme, avec Yi = Si /i, n’est pas vérifiée. Remplaçons i par
S
i2 : Yi = ii22 . Nous avons maintenant
! %3 S 2 3 & V (X1 ) ! 1
3 i 3
P 3 2
3 > ε ≤ 2
.
i
i ε i
i
) 1
La série i2 est convergente (sa limite vaut π 2 /6). Le lemme précédent
Si2
donne la convergence de la suite i2 :
Si2
−−−−→ 0 p.s.
i2 i→∞
Pour chaque n ∈ N∗ , on prend i ∈ N le plus grand possible, tel que
2 √
i ≤ n. L’entier i est égal à la partie entière de n et on a les encadrements :
√
i2 ≤ n ≤ (i + 1)2 − 1, i2 ≤ n ≤ i2 + 2i, 0 ≤ n − i2 ≤ 2i ≤ 2 n.
n i2 n
! ! !
Sn = Xk = Xk + Xk
k=1 k=1 k=i2 +1
3S 3 3S 2 3 1 33 !
n 3
3 n3 3 i 3 3
3 3≤ 3 2 3+ 3 Xk 3.
n i n
k=i2 +1
Pour majorer le dernier terme, on raisonne comme précédemment :
6 7
1 33 !
n 3
3 1 % !n & n − i2 2 V (X1 )
P 3 Xk 3 > ε ≤ 2 2
V Xk ≤ 2 2
V (X1 ) ≤ 3/2 .
n 2
n ε 2
n ε n ε2
k=i +1 k=i +1
) 1
La série n3/2
est convergente. D’après le lemme,
n
1 !
Xk −−−−→ 0 p.s.
n 2
n→∞
k=i +1
Le résultat est démontré.

Preuve du corollaire
On applique la loi des grands nombres à la suite (1A ◦ Xi ).
E(1A ◦ X1 ) = E(1X −1 (A) ) = E(1(X1 ∈A) ) = P (X1 ∈ A).
1
n
!
Sn 1 1
= 1A (Xk (ω)) = #{k ∈ {1, ..., n} | Xk (ω) ∈ A}
n n k=1 n
Cette quantité converge vers E(1A ◦ X1 ) d’après la loi forte des grands
nombres.
Complément
Donnons une généralisation aisée de la loi des grands nombres qui s’avère
utile en pratique.
Proposition 8 Soit (Xi )i∈N une suite de variables aléatoires indépendantes
identiquement distribuées. Soit m ∈ N∗ et f : Rm → R une fonction qui est
P(X1 ,...,Xm) -intégrable. Alors pour presque tout ω ∈ Ω,
N
1 !
f (Xk , ..., Xk+m−1 ) −−−−→ E(f (X1 , ..., Xm )).
N k=1 N →∞
Preuve
On pose Yk = f (Xk , ...Xk+m−1 ) ; les variables Yk ne sont pas indépendantes
dans leur ensemble. Par contre, les variables Y1 , Ym+1 , Y2m+1 , Y3m+1 ... sont
indépendantes entre elles. Plus généralement, pour chaque r ∈ {1, ..., m},
les variables (Ymk+r )k∈N sont intégrables, indépendantes et identiquement
distribuées. On peut donc appliquer la loi des grands nombres à ces m suites
de variables aléatoires et faire la somme des résultats, ce qui donne
mn m
1! !
Yk −−−−→ E(Yi ).
n k=1 n→∞
i=1
Comme les variables Xi sont indépendantes identiquement distribuées, nous

avons
$
E(Yi ) = E(f (Xi , ..., Xm+i−1 )) = $
f (x1 , ..., xm ) dPXi (x1 )...dPXm+i−1 (xm )
= f (x1 , ..., xm ) dPX1 (x1 )...dPX1 (xm )
= E(f (X1 , ..., Xm )).
Ceci montre le résultat pour N multiple de m. Si N n’est pas multiple de m,
on peut l’écrire sous la forme N = mn+i avec 0 < i < m. On remarque alors
que chacun des termes Ymn+i /n converge vers 0 presque sûrement quand n
tend vers l’infini, d’après la loi des grands nombres :
Ymn+i % 1 !n & n − 1 % 1 n−1! &

= Ymk+i − Ymk+i −−−−→ E(Yi )−E(Yi ) = 0.
n n k=1 n n − 1 k=1 n→∞
La proposition s’ensuit.
Application
On revient à l’exemple de pile ou face. Prenons
%1 1 &⊗N
Ω = {pile, face}⊗N , T = P({pile, face})⊗N , P = δpile + δface .
2 2
D’après la loi des grands nombres,
1 1
#{k ∈ {1, ..., n} | ωk = f ace} −−−−→ pour presque tout ω ∈ Ω.
n n→∞ 2
En particulier, pour presque tout ω ∈ Ω, face apparaît une infinité de fois
dans la suite Ω. Soit (a1 , ..., am ) ∈ {pile, f ace}m . Prenons f = 1{(a1 ,...,am)} .
Nous obtenons
E(f (X1 , ..., Xm )) = P (X1 = a1 , ..., Xm = am )
= P (X1 = a1 )...P (Xn = am )
= 1/2m .
Appliquons la proposition précédente.
1 1
#{k ∈ {1, ..., n} | (ωk , ..., ωk+m−1 ) = (a1 , ..., am )} −−−−→ m p.s.
n n→∞ 2
Notons par Ω(a1 ,...,am) l’ensemble des ω ∈ Ω pour lesquels on a cette conver-
gence. Cet ensemble est de probabilité 1. On en déduit
% . . &
P Ω(a1 ,...,am) = 1
m∈N∗ (a1 ,...,am )∈{pile,f ace}m
Presque tout ω ∈ Ω appartient à tous les Ω(a1 ,...,am) . Cela signifie que dans
presque toute suite ω ∈ Ω, tous les mots (a1 , ..., am ) apparaissent une infinité
de fois dans la suite ω avec fréquence 1/2m , pour tout m ∈ N∗ .
4.3 Illustration numérique

Pour illustrer la loi des grands nombres, on considère plusieurs suites
numériques, chacune consistant en mille chiffres obtenus de plusieurs façons.
La première a été obtenue en lançant mille fois un dé à dix faces.
9639178071955357849921025101273300480801046 3 5 6 4 3 1
1 2 61327775087105660253370520040446582273287202 4 5 4 9 6 4
2 5 10604555891235973442861465840322867693940082 4 8 9 5 5 5
7 8 05458285668455707010936863034366589342732435 4 1 7 8 6 0
3 8 20006510716864313685528574097171239576079838 3 1 6 9 5 8
5 5 71909032886951596091965787779248619230816622 5 2 3 8 4 8
2 3 02773470337694269961537648365779868125424989 1 7 5 7 2 1
7 2 83321186701201118772422854693468058955802024 9 8 2 7 3 1
1 2 40002526829248389923315315386557966689938172 8 4 4 3 4 7
1 7 03321630237263363770560318893260304325365517 4 0 6 3 3 9
3 9 79827021488658399704346937960049924612787510 2 6 2 2 3 3
5 4 28427940885511253121226801159454887044994500 2 4 1 6 0 1
8 5 76076521668683525015169808999101707953779077 2 6 0 8 1 0
5 4 57091906795941228190543320160538356391974387 4 5 0 9 7 7
3 1 42256208446793582069591398295534817669520584 7 8 1 0 0 8
6 6 80544575138507344413589805372277351865759923 8 7 7 3 9 1
7 9 33896582345746927039130764511708257770135367 4 2 1 5 9 5
7 7 90192856619079737095497673616541864589023496 3 4 0 3 9 2
5 0 63921052780483357656373237561356720507209316 6 9 4 6 7 9
1 0 9441467880686
La seconde est obtenue en utilisant un ordinateur et un générateur de
nombres aléatoires.
0848370245920332941130720550093134256424632 9 2 1 6 8 9
9 7 47619022491753477267238897625707122976490684 0 6 5 3 0 2
2 9 33848541391927692717681139746660032768040277 9 1 7 4 0 5
8 7 48690387597709752501628863755250598234351077 6 8 2 0 9 5
1 8 05788983703446621354475159293124572796817113 4 9 2 4 2 1
9 2 19238406395047361940343144318736007389059166 0 5 8 4 2 2
6 5 32439043455300579734169799238925012559236565 7 5 5 6 2 6
6 2 06121372232898684172179852465634046429334609 8 8 2 2 4 4
0 8 43960518408084824350258724040215923854678790 6 6 5 9 5 3
9 6 68713407025321762789994979875954905548833577 6 9 8 1 1 1
7 0 00499574680960283972297230330375335777339197 4 5 5 1 6 3
6 6 47343300820036885718475510697271682833916997 3 0 9 8 6 2
0 4 78176720282220493013633595996101484437364228 7 2 4 8 8 6
0 1 60216143227057023338118085530208831891486531 5 5 8 0 5 3
4 7 44055220030588691391259941562092607300797979 1 2 1 9 1 1
4 3 11842990721893862490337610988254070152151177 4 6 3 6 9 1
4 6 06300914071948447141772770591943195109757389 2 1 3 7 7 9
0 4 56643243322721077246682417815472143525538002 0 6 4 9 1 9
5 7 50749115601026339878675571367879838239809354 8 0 6 9 5 4
1 7 4212966077024
4.3. ILLUSTRATION NUMÉRIQUE 33
La troisième est constituée des mille premières décimales de π.
1415926535897932384626433832795028 8 4 1 9 7
1 6 9399375105820974944592307816406286 2 0 8 9 9
8 6 2803482534211706798214808651328230 6 6 4 7 0
9 3 8446095505822317253594081284811174 5 0 2 8 4
1 0 2701938521105559644622948954930381 9 6 4 4 2
8 8 1097566593344612847564823378678316 5 2 7 1 2
0 1 9091456485669234603486104543266482 1 3 3 9 3
6 0 7260249141273724587006606315588174 8 8 1 5 2
0 9 2096282925409171536436789259036001 1 3 3 0 5
3 0 5488204665213841469519415116094330 5 7 2 7 0
3 6 5759591953092186117381932611793105 1 1 8 5 4
8 0 7446237996274956735188575272489122 7 9 3 8 1
8 3 0119491298336733624406566430860213 9 4 9 4 6
3 9 5224737190702179860943702770539217 1 7 6 2 9
3 1 7675238467481846766940513200056812 7 1 4 5 2
6 3 5608277857713427577896091736371787 2 1 4 6 8
4 4 0901224953430146549585371050792279 6 8 9 2 5
8 9 2354201995611212902196086403441815 9 8 1 3 6
2 9 7747713099605187072113499999983729 7 8 0 4 9
9 5 1059731732816096318595024459455346 9 0 8 3 0
2 6 4252230825334468503526193118817101 0 0 0 3 1
3 7 8387528865875332083814206171776691 4 7 3 0 3
5 9 8253490428755468731159562863882353 7 8 7 5 9
3 7 5195778185778053217122680661300192 7 8 7 6 6
1 1 1959092164201989
La quatrième est obtenue en conservant les cinq derniers chiffres de deux

cents numéros de téléphone successifs d’un annuaire téléphonique.
4101491401570162374896178512291275 3 5 1 0 3
5 4 4941913308790788423080205915251791 9 8 3 3 8
9 0 1696427991309520468231697440533929 1 9 4 0 5
9 6 1902708577775484231826460352117856 4 9 2 5 0
9 6 7585665136917980576594106851138596 5 4 8 5 8
4 5 8955740985510007285594255899055073 9 7 9 8 5
2 9 8029040985100938373840645914493851 5 9 5 6 1
5 9 1628567694154582582172250984277115 0 0 8 6 5
4 5 9082771575786424525015569158504797 4 3 4 5 9
7 1 0598959285359315420685922739227940 4 5 5 9 0
9 5 9484940115389582628754958592066836 4 5 9 0 0
3 5 7302018765684685437562175923984509 9 6 9 8 8
5 6 4428995441515273448995874061928395 2 6 8 4 5
7 6 2959364580395803359356020818912959 3 8 6 8 5
3 8 5504368031964239578565961305058575 6 7 5 8 9
7 1 9458989562540698543456794592637926 3 8 4 5 3
3 5 5344980343774389367335686783052857 9 2 4 5 9
5 6 0865938154155820041101907575501499 7 4 0 4 5
1 4 3910649526399245759744828213857757 3 1 3 4 7
3 1 3009208997354368543789892098929936 8 6 6 1 4
1 0 2505741056365874391141530854685953 7 8 4 3 3
2 6 5882223289236284318927585916004997 9 4 8 6 9
8 2 2055448157631761858165894376857761 3 7 2 8 5
3 2 4060192089585537826657525328306791 4 3 7 5 5
7 1 9593059587659128
La cinquième s’obtient en concaténant les nombres entiers dans l’ordre

croissant en partant de un.
12345678910111213141516171819202122 2 3 2 4
2 5 26272829303132333435363738394041424 3 4 4 4
5 4 64748495051525354555657585960616263 6 4 6 5
6 6 67686970717273747576777879808182838 4 8 5 8
6 8 78889909192939495969798991001011021 0 3 1 0
4 1 05106107108109110111112113114115116 1 1 7 1
1 8 11912012112212312412512612712812913 0 1 3 1
1 3 21331341351361371381391401411421431 4 4 1 4
5 1 46147148149150151152153154155156157 1 5 8 1
5 9 16016116216316416516616716816917017 1 1 7 2
1 7 31741751761771781791801811821831841 8 5 1 8
6 1 87188189190191192193194195196197198 1 9 9 2
0 0 20120220320420520620720820921021121 2 2 1 3
2 1 42152162172182192202212222232242252 2 6 2 2
7 2 28229230231232233234235236237238239 2 4 0 2
4 1 24224324424524624724824925025125225 3 2 5 4
2 5 52562572582592602612622632642652662 6 7 2 6
8 2 69270271272273274275276277278279280 2 8 1 2
8 2 28328428528628728828929029129229329 4 2 9 5
2 9 62972982993003013023033043053063073 0 8 3 0
9 3 10311312313314315316317318319320321 3 2 2 3
2 3 32432532632732832933033133233333433 5 3 3 6
3 3 73383393403413423433443453463473483 4 9 3 5
0 3 51352353354355356357358359360361362 3 6 3 3
6 4 3653663673683693
La sixième est obtenue en concaténant le nombre d’habitants de chacune

des communes de l’Ain, ordonnées par ordre alphabétique (2012, Abergement-
Clémenciat → Vonnas) et en conservant les mille premiers chiffres.
79123914796166011625577583471087393 3 1 9 1
6 5 35664974224322114041218753159321189 0 2 8 9
0 5 68680892384532591193692983505442817 3 8 4 4
1 4 74755271464355627483193029623099531 3 4 2 1
4 6 12793724999149456112488095259321762 7 4 2 7
1 7 48148544863020101224421191145186142 0 8 1 2
4 8 07096448367373682899421933353321416 6 7 5 1
6 6 73065098522181915971591679551381465 1 4 7 2
1 7 71431187209312010945279557012675461 5 3 1 2
2 4 25012288710986796255142752721384379 1 7 6 6
2 0 42851300145873442742248869882122639 5 4 7 6
1 9 29102722111817991893815148754224294 3 3 2 5
8 9 05365201214742019684608100495914910 9 7 9 1
7 5 83612217619998061195362142081740698 5 3 1 4
6 0 51150119174238321364221711110335325 5 2 1 8
9 2 03696011792671081271302156627231141 2 6 9 1
1 2 73155538881011581263034406432682109 4 3 1 2
1 9 93225713216210051026165024596406741 3 1 5 1
3 3 12487516882214739221559274200278018 1 6 5 4
8 3 41124666824767172453910100335132462 1 0 6 6
2 5 33747585150616386532548154212895154 4 1 3 8
2 6 32305365911673712371643112438101441 7 8 8 5
0 5 90386780138545450243216417342722231 5 1 7 0
2 8 80823922274324076591578180276681483 3 7 1 1
8 9 8444299597760114
La dernière est “faite maison”. On a demandé à une personne de réciter

mille chiffres successivement sans réfléchir. Voilà le résultat.
1429578416014533328784524444421455 4 1 2 4 0
0 0 0000001002003004014501594578591674 0 4 0 4 4
0 5 5678814579147953325245425444224425 4 4 2 5 2
8 9 5675421157240130402469514523425102 4 5 6 7 9
8 5 5242545651452035423542456891051456 1 0 5 0 1
2 0 1452414279831214241243911451212454 2 2 1 4 9
8 7 4978425129857642114010142541416999 9 1 0 5 2
4 1 4245241429578416014533328784256897 4 2 1 2 4
5 4 4878233354106148759241014202554302 1 6 8 9 1
0 7 1545014124512201520162017201820192 0 2 4 5 8
1 0 1054274562149874145210025041425249 8 7 6 5 2
1 4 5210421255215169879754321059054200 0 0 0 0 0
0 0 0142979542179854312042175024154979 4 1 1 4 7
2 1 4243444503210214424518952114987241 9 2 4 9 5
1 2 9856719249526142511121314567891042 1 2 3 4 1
2 5 9876414243444546474849410424680135 7 9 6 9 8
1 2 4521100024152172101987654321097959 8 9 5 2 4
1 5 2510024162893411142513218675412345 6 7 9 9 1
1 4 2505242157942152052241254152519675 1 2 2 4 1
5 2 4568710245271412452987521251798791 5 2 4 5 2
1 6 8910111254352162484442007042517924 2 1 7 8 9
1 2 5432102803203802648567891042172412 5 7 9 4 1
5 2 1496798475214142515149762152421524 9 4 5 5 2
1 4 2142452342412689346724165224162425 9 2 3 2 4
1 6 5003472164219671
Le tableau qui suit donne, pour chacune des suites qui viennent d’être
présentées, le nombre d’occurrences de chacun des dix chiffres dans la suite
ainsi que de quelques nombres à deux chiffres pris au hasard : 00, 11, 32, 66,
69 et 77.
0 1 2 3 4 5 6 7 8 9 00 11 32 66 69 77
1 104 89 98 107 86 112 100 108 99 97 10 8 11 11 12 16
2 107 94 108 106 99 92 87 112 89 106 12 10 9 11 9 13
3 93 116 103 102 93 97 94 95 101 106 7 16 9 11 6 9
4 85 82 80 87 96 164 80 83 113 130 8 6 4 4 8 8
5 66 177 177 148 77 77 77 67 67 67 3 25 25 5 5 4
6 73 171 132 95 104 93 83 83 84 82 5 25 16 10 5 3
7 92 161 167 39 183 131 45 61 51 70 26 13 10 0 4 0
1 dé à dix faces 5 nombres entiers par ordre crois-

2 générateur de nombres aléatoires sant
3 décimales de π 6 nombre d’habitants par commune
4 numéros de téléphone 7 récitation
Pour les trois premières suites, les occurrences sont proches des valeurs
asymptotiques produites par une suite indépendante identiquement distri-
buée. Chaque chiffre apparaît avec une fréquence proche du dixième, tandis
que les mots de deux lettres ont une fréquence proche du centième. On n’est
pas surpris que les deux premières suites se comportent conformément à la
loi des grands nombres. La question reste ouverte de démontrer qu’il en va

vraiment de même pour la troisième suite constituée par les décimales de
π. On ne sait même pas si tous les chiffres apparaissent une infinité de fois
dans le développement décimal de π.
Les chiffres 5 et 9 sont sur-représentés dans la quatrième suite, sans
qu’il soit possible d’en déterminer la raison. On pourrait s’attendre à ce que
l’annuaire produise des valeurs aléatoires uniformément distribuées mais cet
exemple ne permet pas de confirmer cette intuition. Il faudrait une analyse
plus fine pour déterminer si c’est l’échantillon qui est particulier ou si un
ordre se cache derrière la répartition des numéros.
La cinquième suite présente des disparités importantes, avec le chiffre
1 très largement représenté tandis que le 0 est peu fréquent. On n’est pas
surpris que le chiffre 1 apparaisse souvent dans la liste des premiers entiers
naturels. Le nombre dont les décimales sont obtenues en faisant la liste de
tous les entiers par ordre croissant s’appelle la constante de Champernowne.
On peut montrer que la fréquence de chacun des chiffres finit par converger
vers un dixième, contrairement à ce que pourrait laisser penser les premiers
termes de la suite. De manière étonnante, on peut même montrer que la
constante de Champernowne est un nombre normal : pour tout entier n >
0, tous les mots constitués de n chiffres apparaissent dans la suite de ses
décimales avec une fréquence égale à 10−n .
La sixième suite présente aussi des variations importantes avec le chiffre
1 qui apparaît le plus fréquemment. Ce phénomène est parfois observé quand
on étudie des données statistiques concernant des populations humaines et
provient de la croissance exponentielle de ces populations. Il est relié à la loi
de Benford. Cette loi est bien vérifiée par le nombre d’habitants des trente
six mille communes de France et on l’observe déjà sur l’échantillon que nous
avons considéré.
Finalement, la septième suite est loin d’être uniformément répartie, avec
le chiffre 3 sous-représenté tandis que le 4 revient fréquemment. Elle montre à
quel point il est difficile pour un être humain de simuler le hasard. L’absence
de certains mots de longueur deux est typique dans ce genre d’expérimen-
tation et permet de repérer aisément les suites qui sont le produit d’une
intervention humaine plutôt que d’un procédé aléatoire.
Chapitre 5
Convergence de suites
aléatoires
5.1 Les différents types de convergence.

Les résultats précédents font appel à différentes notions de convergence.
On va préciser ces notions et étudier les relations qu’elles entretiennent entre
elles. Rappelons la définition des normes Lp , p ≥ 1.
Soit (Ω, T , P ) un espace probabilisé. Pour p ∈ [1, +∞[, la norme Lp de
la variable aléatoire Y : Ω → R est définie par
#
%Y %p = ( |Y |p dP )1/p .
La norme L∞ de Y est définie par

%Y %∞ = inf{C > 0 | ∃ Ω* tel que P (Ω* ) = 1 et |Y (ω)| ≤ C pour tout ω ∈ Ω* }
Définition 11 Soient Yn , Y des variables aléatoires définies sur (Ω, T , P )
et p ∈ [1, +∞].
– La suite Yn converge en norme Lp vers Y si
%Yn − Y %p −−−−→ 0.
n→∞
– La suite Yn converge en probabilité vers Y si

∀ ε > 0, P (|Yn − Y | > ε) −−−−→ 0.
n→∞
– La suite Yn converge presque sûrement vers Y si

pour presque tout ω ∈ Ω, Yn (ω) −−−−→ Y (ω).
n→∞
– La suite Yn converge en loi vers Y si

# #
pour toute fonction f : R → R continue bornée, f dPYn −−−−→ f dPY .
n→∞
37
38 CHAPITRE 5. CONVERGENCE DE SUITES ALÉATOIRES
Proposition 9 Soient p, q ∈ R tels que 1 ≤ p ≤ q ≤ ∞. On a les implica-

tions
CV L∞ ⇒ CV Lq ⇒ CV Lp ⇒ CV L1 ⇒ CV en proba ⇒ CV en loi.
CV L∞ ⇒ CV p.s. ⇒ CV en proba.
CV L∞ ⇒ CV en proba ⇒ CV p.s. d’une sous-suite.
Remarque
La convergence L2 implique la convergence en probabilité. C’est comme cela
que nous avons démontré la loi faible des grands nombres. Celle-ci affirme
que Snn converge vers E(X0 ) en probabilité si les (Xi ) sont indépendantes,
identiquement distribuées. On avait obtenu ce résultat en montrant que
V ( Snn ) −−−−→ 0. D’après la relation suivante, cela est équivalent à la conver-
n→∞
gence L2 :
0 2 %3 S % S &32 & %3 S 32 & 8 S 82
Sn 3 n n 3 3 n 3 8 n 8
V =E 3 −E 3 =E 3 − E(X0 )3 = 8 − E(X0 )8 .
n n n n n 2
Démonstration de la proposition
• CV Lq ⇒ CV Lp si p ≤ q.
Démontrons l’égalité %Y %p ≤ %Y %q en utilisant l’inégalité de Hölder : pour
tout p, q ≥ 1 tels que 1/p + 1/q = 1,
#
|Y Z| dP ≤ %Y %p %Z%q .
On prend Y constant égal à 1 dans cette inégalité, auquel cas %Y %p = 1

et %Z%1 ≤ %Z%q . Ceci démontre le résultat pour p = 1. Pour p général, on
remplace q par q/p et Z par Y p , ce qui donne :
# %# &p/q
p
Y dP ≤ Y pq/p dP ,
%Y %p ≤ %Y %q .
• CV L∞ ⇒ CV Lp .
On a pour presque tout ω ∈ Ω, |Y (ω)| ≤ %Y %∞ . En intégrant, on obtient
# #
%Y %pp = |Y (ω)|p dP (ω) ≤ %Y %p∞ dP = %Y %p∞ .
• CV L1 ⇒ CV en proba
L1
C’est une conséquence de l’inégalité de Markov. Si Yn −−−−→ Y ,
n→∞
E(|Yn − Y |) %Yn − Y %1
P (|Yn − Y | > ε) ≤ = −−−−→ 0
ε ε n→∞
5.2. FONCTION CARACTÉRISTIQUE ET TRANSFORMÉE DE FOURIER39
• CV L∞ ⇒ CV p.s.
L∞
Si Yn −−−−→ Y , il existe Ω* ⊂ Ω de probabilité 1 tel que
n→∞
sup |Yn (ω) − Y (ω)| −−−−→ 0.

ω∈Ω$ n→∞
On en déduit, pour tout ω ∈ Ω* , Yn (ω) −−−−→ Y (ω).

n→∞
• CV en proba ⇒ CV p.s. d’une sous-suite
Nous savons que pour tout ε > 0, P (|Yn − Y | > ε) −−−−→ 0.
n→∞
Pour tout k ∈ N, on peut donc trouver nk ∈ N aussi grand qu’on veut,
tel que P (|Ynk − Y | > 1/k) ≤ 1/2k . On a alors
∞
!
P (|Ynk − Y | > 1/k) < ∞
k=0
On applique le lemme de Borel-Cantelli : pour presque tout ω ∈ Ω, hormis
pour un nombre fini d’indices k, |Ynk (ω)−Y (ω)| < 1/k. La suite Ynk converge
vers Y presque sûrement.
• CV p.s. ⇒ CV en proba
Nous avons les deux conditions suivantes :
– 1(|Yn −Y |>ε) (ω) −−−−→ 0 pour presque tout ω ∈ Ω car |Yn (ω)−Y (ω)| −−−−→ 0.
n→∞ n→∞
– |1(|Yn −Y |>ε) | ≤ 1Ω et 1Ω est intégrable, ne dépend pas de n.
On peut appliquer le théorème de convergence dominée :
# #
lim P (|Yn − Y | > ε) = lim 1(|Yn −Y |>ε) dP = lim 1 dP = 0.
n→∞ n→∞ n→∞ (|Yn −Y |>ε)
L’implication CV en proba ⇒ CV en loi sera démontrée dans la suite.
5.2 Fonction caractéristique et transformée de Fou-

rier
Pour étudier plus en détail la convergence en loi, on va utiliser la notion
de fonction caractéristique d’une variable aléatoire et de transformée de
Fourier d’une mesure de probabilité.
Définition 12 La fonction caractéristique d’une variable aléatoire Y : Ω →
R est définie par
# #
ϕY (t) = E(eitY ) = eitY dP = eity dPY (y).
Ω R
La transformée de Fourier d’une mesure de probabilité µ définie sur la tribu
des boréliens de R est définie par
#
9(t) =
µ eitx dµ(x).
R
On a donc l’égalité ϕY (t) = P9Y (t).

Propriétés
– |ϕY (t)| ≤ 1 pour tout t ∈ R,
– ϕY (0) = 1,
– t 2→ ϕY (t) est continue sur R,
– si Y est intégrable, alors t 2→ ϕY (t) est dérivable et ϕ*Y (0) = iE(Y ),
– si Y est de carré intégrable, t 2→ ϕY (t) est de classe C 2 et ϕ**Y (0) = −E(Y 2 ).
La continuité et la dérivabilité découlent des théorèmes de continuité et

de dérivabilité sous le signe intégrable. Par exemple, si X est intégrable, on
a la majoration
3∂ 3
3 3
3 eitY 3 = |iY eitY | ≤ |Y |
∂t
%$ & $ $
d ∂ itY
ce qui implique ϕ*Y (t) = dt Ωe
itY dP =
Ω ∂t e dP = Ω iY eitY dP.
La loi d’une variable aléatoire est complètement caractérisée par sa fonc-

tion caractéristique.
Proposition 10 Deux variables aléatoires qui ont même fonction caracté-

ristique ont même loi : ϕX = ϕY implique PX = PY .
Cette proposition sera démontrée à la fin du chapitre. On passe mainte-

nant à quelques calculs explicites de fonctions caractéristiques.
Cas discret
La variable aléatoire Y prend un nombre fini ou dénombrable de valeurs yk ,
k ∈ I, avec I = {1, ..., n} ou I = N.
!
ϕY (t) = E(eitY ) = eityk P (Y = yk ).
k∈I
• Loi de Bernoulli de paramètre p ∈ [0, 1]

Si Y obéit à une telle loi, P (Y = 0) = 1 − p, P (Y = 1) = p. On a alors
ϕY (t) = eit×0 P (Y = 0) + eit×1 P (Y = 1),
ϕY (t) = 1 − p + peit .
• Loi uniforme sur {1, ..., n} , n ∈ N∗

Si Y obéit à une telle loi, P (Y = k) = 1/n pour k ∈ {1, ..., n}, ce qui
) ) )
implique ϕY (t) = nk=1 eitk P (Y = k) = nk=1 n1 (eit )k = n1 eit n−1 it k
k=0 (e ) .
1 it 1 − eitn
ϕY (t) = e si t ∈
/ 2πZ.
n 1 − eit
5.3. CONVERGENCE EN LOI 41
Cas continu
La variable aléatoire
$
Y est associée à la densité fY : R → R+ si bien que
P (Y ∈ A) = A fY (y) dy.
# #
ϕY (t) = E(eitY ) = eity dPY (y) = eity fY (y) dy.
• Loi uniforme sur [a, b], a < b.

$ 1 1 $ b ity 1 eity b
ϕY (t) = R eity b−a 1[a,b] (y) dy = b−a a e dy = b−a [ it ]a .
eitb − eita
ϕY (t) = si t 3= 0.
it (b − a)
• Loi exponentielle de paramètre l > 0

$ $ +∞
ϕY (t) = R eity le−ly 1R (y) dy = 0 le(it−l)y dy = [le(it−l)y /(it − l)]+∞
0 .
l
ϕY (t) = .
l − it
Remarque
on utilise parfois à la place de la fonction caractéristique la notion de fonction
génératrice.
Définition 13 On considère l’ensemble des z ∈ C pour lesquels la fonc-

tion z Y est intégrable. La fonction génératrice d’une variable aléatoire Y est
définie sur cet ensemble par l’expression
z 2→ E(z Y )
Attention, elle n’est pas forcément définie pour tout z ∈ C, la fonction

z 2→ z Y n’étant pas forcément intégrable. Lorsque z = eit , elle est bien
intégrable et on retrouve la fonction caractéristique de la variable Y .
5.3 Convergence en loi

Rappelons que Yn converge en loi vers Y si pour toute fonction f : R →
R continue bornée, # #
f dPYn −−−−→ f dPY .
n→∞
Définition 14 Soit µn et µ des mesures de probabilité définies sur la tribu

des boréliens de R. Nous dirons que µn converge étroitement
# vers µ si pour
$
toute fonction f : R → R continue bornée, f dµn −−−−→ f dµ.
n→∞
La suite Yn converge en loi vers Y si et seulement si PYn converge étroi-

tement vers PY . On va relier la convergence en loi à la convergence simple
des fonctions caractéristiques dans le but de démontrer le théorème de la
limite centrée.
Théorème 6 Soit µ, µn , n ∈ N, des mesures de probabilité définies sur la

tribu des boréliens de R. Les propriétés suivantes sont équivalentes :
# #
– f dµn −−−−→ f dµ pour toute fonction f continue bornée,
n→∞
# #
– f dµn −−−−→ f dµ pour toute fonction f C ∞ à support compact,
n→∞
# #
– f dµn −−−−→ f dµ pour toute fonction f de la forme eitx , t ∈ R.
n→∞
Le premier point correspond à la convergence étroite des µn vers µ. Le

dernier point correspond à la convergence des transformées de Fourier des
µn . On en déduit le corollaire suivant.
Corollaire 3 Soit µ, µn des mesures de probabilité définies sur la tribu des

9 n (t) −−−−→ µ
boréliens de R. Si pour tout t ∈ R, µ 9(t) alors µn converge vers
n→∞
µ étroitement.
Considérons une suite de variables aléatoires (Yn ). Si pour tout t ∈ R,
ϕYn (t) −−−−→ ϕY (t) alors Yn converge vers Y en loi.
n→∞
Rappelons que f : R → R est à support compact s’il existe A > 0 tel que
f est nulle hors de [−A, A]. Un exemple de fonction C ∞ à support compact
est donné par
1
−
f (x) = e 1−x2 1[−1,1] (x).
0.5
0.4
0.3
0.2
0.1
0
-1 -0.5 -0.1 0 0.5 1
Pour démontrer le théorème, nous allons avoir besoin de la formule d’in-

version de Fourier. Soit f : R → R une fonction intégrable par rapport à la
mesure de Lebesgue. Sa transformée de Fourier est définie par
#
f9(t) = e−itx f (x) dx.
R
On montre que cette fonction est continue en appliquant le théorème de

continuité sous le signe intégral.
Théorème 7 (formule d’inversion de Fourier) Soit f une fonction C ∞

à support compact. Alors fˆ est intégrable et
#
1
f (x) = eitx f9(t) dt pour tout x ∈ R.
2π R
La preuve du théorème est donnée en annexe, sous des hypothèses un

peu plus générales. La formule d’inversion de Fourier implique la relation
suivante entre µ et sa transformée de Fourier.
Corollaire 4 Soit µ une mesure de probabilité définie sur la tribu des bo-
réliens de R et f : R → R une fonction C ∞ à support compact. Alors
# #
1
f (x) dµ(x) = f9(t) µ
9(t) dt.
2π
Preuve du corollaire
# # #
1
f (x) dµ(x) = eitx f9(t) dt dµ(x)
R R 2π R
# #
1
= eitx f9(t) dµ(x) dt
2π R R
# 0# 2
1 9 itx
= f (t) e dµ(x) dt
2π R R
#
1
= f9(t) µ
9(t) dt.
2π R
Ici on a utilisé le théorème de Fubini pour intervertir
$$
les deux intégrales.
L’emploi de ce théorème est justifié car l’intégrale R2 |eitx f9(t)| dµ(x) dt est
finie :
# # # # #
|eitx
f9(t)| dµ(x) dt = dµ(x) |f9(t)| dt = |f9(t)| dt < ∞.
R R R R R
La preuve est terminée.

$ $
On commence par démontrer la convergence f dµn −→ f dµ pour
toute fonction f de classe C ∞ à support compact si µ
9n (t) −→ µ
9(t) pour
tout t ∈ R. D’après le corollaire précédent,
# #
1
f (x) dµn (x) = f9(t) µ
9n (t) dt,
2π
# #
1
f9(t) µ
f (x) dµ(x) = 9(t) dt.
2π
Il suffit d’appliquer le théorème de convergence dominée pour conclure :
# #
f9(t) µ
9n (t) dt −−−−→ f9(t) µ
9(t) dt.
n→∞
L’emploi du théorème de convergence dominée est justifié ici car pour tout
t ∈ R, µ 9(t) par hypothèse et f9 µ
9n (t) −−−−→ µ 9n est majorée par f9 qui est
n→∞
intégrable.
$ $
On cherche à présent à démontrer que si f dµn −→ f dµ pour toute
fonction C ∞ à support compact, il en va de même pour toute fonction conti-
nue bornée.
Lemme 4 Pour tout ε > 0, il existe A > 0 tel que pour tout n ∈ N,
µn ([−A, A]) ≥ 1 − ε.
Une suite de mesures de probabilité qui vérifie cette propriété est dite
tendue.
Preuve du lemme
Soit g une fonction C ∞ telle
que 1
• 0 ≤ g ≤ 1,
• g = 1 sur [−A + 1, A − 1],
• g = 0 sur [−A, A]c . 0
Fixons ε > 0. Comme µ([−A + 1, A − 1]) −−−−→ µ(R) = 1, on peut choisir

A→∞
A0 tel que µ[−A0 + 1, A0 − 1] > 1 − ε.
# #
µn ([−A0 , A0 ]) ≥ g dµn −−−−→ g dµ ≥ µ([−A0 + 1, A0 − 1]) > 1 − ε.
n→∞
On peut donc trouver n0 ∈ N tel que pour n ≥ n0 , µn ([−A0 , A0 ]) ≥ 1 − ε.

De plus, pour chaque k ∈ {0, ..., n0 }, on peut trouver un ensemble Ak tel
que µk ([−Ak , Ak ]) ≥ 1 − ε. Pour tout A supérieur à max{A0 , ..., An0 }, on a
∀n ∈ N, µn ([−A, A]) ≥ 1 − ε.
Le lemme est démontré.
Soit f continue bornée. Sur [−A − 1, A + 1] , on peut approcher f uni-

formément par une fonction C ∞ en faisant appel au théorème de Stone-
Weierstraß ou en convolant avec une fonction C ∞ . Cette approximation
peut être prolongée en une fonction C ∞ à support compact définie sur R
tout entier en la multipliant par une fonction de classe C ∞ , comprise entre
0 et 1, qui vaut 1 sur [−A, A] et 0 hors de [−A − 1, A + 1]. Pour tout ε > 0
on peut donc trouver f˜ C ∞ à support compact telle que
sup |f (x) − f˜(x)| < ε.

x∈[−A,A]
$ $
On veut montrer que | f dµn − f dµ| est inférieur à ε pour tout n
suffisamment grand. On décompose comme suit :
3# # 3 3# # 3 3# # 3 3# # 3
3 3 3 3 3 3 3 3
3 f dµn − f dµ 3 ≤ 3 f dµn − f˜dµn 3+3 f˜dµn − f˜dµ 3+3 f˜dµ− f dµ 3
$ $
• Comme f˜ est C ∞ à support compact,$
f˜ dµn$ −→ f˜ dµ. On peut
trouver N ∈ N tel que pour tout n ≥ N, | f˜dµn − f˜dµ| < ε.
$ $ $
• | f dµn − f˜dµn | ≤ [−A,A] |f − f˜| dµn + [−A,A]c |f − f˜| dµn
≤ ε µn ([−A, A]) + (supR |f | + supR |f˜|) µn ([−A, A]c )
≤ ε + (supR |f | + supR |f˜|) ε.

Cette majoration est valide pour tout n ∈ N.
$
• Le terme | f − f˜ dµ | se majore de la même façon.
Finalement, on remarque que sup |f˜| ≤ sup |f | + ε ≤ sup |f | + 1 sur R
par construction. On a donc, pour tout n ≥ N,
3# # 3
3 3
3 f dµn − f dµ 3 ≤ (4 + 2 sup |f |) ε.
Le théorème est démontré.
Proposition 11 Soient µn , µ des mesures de probabilités définies sur la

tribu des boréliens de R. On suppose que µn converge étroitement vers µ.
Alors pour tout a, b ∈ R tels que µ({a}) = 0 et µ({b}) = 0, on a
µn ([a, b]) −−−−→ µ([a, b]).

n→∞
De même, pour tout x ∈ R tel que µ({x}) = 0,
µn ([x, +∞[) −−−−→ µ([x, +∞[),

n→∞
µn (] − ∞, x]) −−−−→ µ(] − ∞, x]).

n→∞
Appliquons cette proposition à une suite de variables aléatoires.
Corollaire 5 Soient (Xn )n∈N et X des variables aléatoires définies sur un

espace probabilisé (Ω, T , P ) telles que Xn converge en loi vers X. Alors pour
tout a, b ∈ R tels que P (X = a) = P (X = b) = 0,
P (a ≤ Xn ≤ b) −−−−→ P (a ≤ X ≤ b).
n→∞
De plus, les fonctions de répartition des Xn convergent vers la fonction de

répartition de X en tout point x ∈ R tel que P (X = x) = 0 :
FXn (x) −−−−→ FX (x) si P (X = x) = 0.

n→∞
Remarque
On peut démontrer que la convergence des fonctions de répartition en tout
point x tel que P (X = x) = 0 est en fait équivalente à la convergence en loi
de la suite Xn vers X.
Preuve
Il s’agit d’approcher 1[a,b] par des fonctions continues bornées. Soit hm la
fonction continue bornée, affine par morceaux telle que :
1 1
• hm = 1 sur [a + m ,b − m ],
• hm = 0 hors de [a, b].
1 1
• la pente de hm vaut m sur [a, a + m] et −m sur [b − m , b].
Soit gm la fonction continue bornée, affine par morceaux, telle que

• gm = 1 sur [a, b],
1 1
• gm = 0 hors de [a − m ,b + m ],
1 1
• la pente de gm vaut m sur [a − m , a] et −m sur [b, b + m ].
Nous avons la majoration 0 ≤ gm − hm ≤ 1[a− 1 ,a+ 1 ] + 1[b− 1 ,b+ 1 ] si

m m m m
bien que
# 0: 2 0: 2
1 1; 1 1;
0≤ gm − hm dµ ≤ µ a − ,a + + µ b − ,b +
m m m m
Ce dernier terme converge vers µ({a}) + µ({b}), quantité

$
qui est nulle par
hypothèse. Fixons ε > 0 et choisissons m ∈ N tel que gm − hm dµ ≤ ε.
La suite µn converge vers µ étroitement et hm ≤ 1[a,b] ≤ gm , nous avons
donc pour tout n suffisamment grand,
# # # #
hm dµ − ε ≤ hm dµn ≤ µn ([a, b]) ≤ gm dµn ≤ gm dµ + ε
$
et en vertu des inégalités hm ≤ 1[a,b] ≤ gm , gm − hm dµ ≤ ε,
# # # #
gm dµ − ε ≤ hm dµ ≤ µ([a, b]) ≤ gm dµ ≤ hm dµ + ε,
ce qui donne le résultat recherché :
µ([a, b]) − 2ε ≤ µn ([a, b]) ≤ µ([a, b]) + 2ε.
On termine ce chapitre par la preuve de deux résultats énoncés précé-

demment.
Proposition 12 Soit Xn , X des variables aléatoires. Si Xn converge vers

X en probabilité, alors Xn converge vers X en loi.
Preuve
Soit f : R → R C ∞ à support compact. Par le théorème des valeurs inter-
médiaires, pour tout x, y ∈ R,
|f (x) − f (y)| ≤ sup |f * | |x − y|.

R
$ $
On veut montrer que la différence f dPXn − f dPX tend vers 0 quand
n −→ ∞.
$ $
| f dPXn − f dPX |
$ $
= | f (Xn ) dP − f (X) dP |
$
≤ |f (Xn ) − f (X)| dP
$ $
≤ |Xn −X|>δ |f (Xn ) − f (X)| dP + |Xn −X|<δ |f (Xn ) − f (X)| dP
≤ 2 supR |f | P (|Xn − X| > δ) + supR |f * | δ.
Comme Xn converge vers X en probabilité, P (|Xn − X| > δ) −−−−→ 0.

n→∞
Pour tout ε > 0 , on choisit δ telle que sup |f * | δ < ε/2. Il existe alors
N ∈ N tel que pour tout n ≥ N ,
ε
P (|Xn − X| > δ) ≤
4 supR |f |
$ $
ce qui implique | f dPXn − f dPX | < ε. Le théorème est démontré.
Proposition 13 Deux variables aléatoires qui ont même fonction caracté-

ristique ont même loi.
Preuve
Notons µ et ν les lois
$
des variables aléatoires et considérons
$
la suite constante
µn = ν. La suite f dµn est constante égale à f dν, les convergences dans
le
$
théorème
$
6 deviennent des égalités. On a donc équivalence entre l’égalité
f dν = f dµ pour toute fonction f de la forme f (x) = eitx et la même
égalité pour toute fonction f continue bornée. On en déduit que les deux
mesures sont égales dès qu’elles ont même fonction caractéristique.
Chapitre 6
Théorème de la limite
centrée
Pour démontrer le théorème de la limite centrée, nous allons utiliser la

caractérisation de la convergence en loi par le biais des fonctions caracté-
ristiques. On commence par calculer la fonction caractéristique de la loi
normale.
6.1 Fonction caractéristique de la loi normale

Théorème 8 Soit Y une variable aléatoire qui obéit à une loi normale
centrée normalisée (m = 0, σ = 1). Sa densité est donnée par fY (y) =
2
√1 e−y /2 et sa fonction caractéristique vaut
2π
2 /2
ϕY (t) = e−t .
Preuve $ 2
Par définition, ϕY (t) = R eity √12π e−y /2 dy.
)+∞ (ity)k
On sait que eity = k=0 k! pour y ∈ R. Remplaçons dans l’intégrale.
# # +∞
!
2 /2 (ity)k −y2 /2
eity e−y dy = e dy
R R k=0 k!
!#
+∞
(it)k k −y2 /2
= y e dy
k=0 R
k!
+∞
! #
(it)k 2 /2
= y k e−y dy.
k=0
k! R
49
50 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE
Pour justifier l’interversion signe somme intégrale, il faut vérifier que la

$ ) (ity)k y2 /2
quantité R ∞ 0 | k! e | dy est finie.
# ∞
! #
+∞ 2 /2 |ty|k +∞ 2 /2
e−y dy = e−y e|ty| dy < +∞.
−∞ 0
k! −∞
$ 2 /2
Il faut maintenant calculer Ik = R y k e−y dy.
Lorsque k est impair, la fonction y 2→ y k e −y 2 /2
est une fonction impaire, si
bien que son intégrale est nulle : I2l+1 = 0 pour tout l ∈ N. Pour k pair,
k = 2l, on fait une intégration par partie pour obtenir la relation
$ 2
I2l+2 y 2l+1 ye−y /2 dy
= $
2 2l −y 2 /2 dy
[y 2l+1 (−e−y /2 )]+∞
= −∞ + (2l + 1)y e
=
(2l + 1)I2l .
$ 2 √
Nous savons que I0 = R e−y /2 dy = 2π, si bien que
√
I2l = (2l − 1)(2l − 3)...3 × 1 × 2π.
I2l (2l − 1)(2l − 3)...1 √

= 2π
(2l)! (2l)(2l − 1)(2l − 2)(2l − 3)...1
1 √
= 2π
(2l)(2l − 2)(2l − 4)...2
1 1 √
= l 2π
2 l(l − 1)(l − 2)...1
1 √
= l 2π.
2 l!
Nous pouvons calculer ϕY :
# +∞
! !∞
1 2 /2 I2l (−t2 )l 2
ϕY (t) = √ eity e−y dy = (it)2l √ = = e−t /2 .
2π l=0
(2l)! 2π l=0
2 l!
l
La formule est démontrée.
6.2 Théorème de la limite centrée

Théorème 9 Soit (Ω, T , P ) un espace probabilité, (Xn )n∈N une suite de
variables aléatoires indépendantes, identiquement distribuées, de carrés in-
)
tégrables et de variance non nulle. On pose Sn = ni=1 Xi . Alors la loi de la
variable aléatoire √ %
n Sn &
− E(X0 )
σ(X0 ) n
converge étroitement vers une loi normale d’espérance nulle et d’écart-type
1. En particulier, pour tout intervalle [a, b] ∈ R,
0 √ % & 2 # b
n Sn 1 2
P a≤ − E(X0 ) ≤ b −−−−→ √ e−x /2 dx.
σ(X0 ) n n→∞ 2π a
6.2. THÉORÈME DE LA LIMITE CENTRÉE 51
Remarque
L’évènement ci-dessus peut s’écrire comme suit :
% √ & % √ &
n Sn n Sn
a≤ σ(X0 ) ( n − E(X0 )) ≤ b =
% σ(X 0)
(n − E(X0 )) ∈ [a, b]
&
= E(X0 ) + a σ(X
√ 0) ≤
n
Sn
n ≤ E(X0 ) + b σ(X
√ 0)
n
Sn
Lorsque n est grand, la probabilité que n soit dans l’intervalle
< =
σ(X0 ) σ(X0 )
E(X0 ) − t √ , E(X0 ) + t √
n n
$t −x2 /2 dx.
est proche de √1
2π −t e
$t −x2 /2 dx
• Pour t = 1, 96, √1 = 0, 95.
2π −t e
$ t −x2 /2
• Pour t = 2, 58, √1 = 0, 99.
2π −t e dx
Il y a donc à peu près 99% de chance,: lorsque n est grand, d’avoir

une moyenne empirique Snn dans l’intervalle E(X0 ) − 2, 58 σ(X
√ 0 ) , E(X0 ) +
n
;
2, 58 σ(X
√ 0) .
n
Il est d’usage de noter la convergence des lois d’une suite de variables

aléatoires Yn vers la loi normale de paramètres m, σ comme suit :
loi
Yn −−−−→ N (m, σ 2 )
n→∞
Dans le cas où les Xi sont indépendantes identiquement distribuées d’espé-

rance nulle et d’écart-type égal à un, le théorème de la limite centrée peut
se résumer comme suit :
S loi
√n −−−−→ N (0, 1).
n n→∞
Preuve du théorème
Quitte à remplacer les Xi par Xi − E(Xi ), on peut supposer que les Xi sont
centrées : E(Xi ) = 0. Quitte à diviser par σ(Xi ), on peut aussi supposer que
Sn
σ(Xi ) = 1. On veut montrer que la loi de √ n
converge vers la loi normale.
Il suffit donc de montrer que
2 /2
Sn (t) −
ϕ√ −−−→ e−t pour tout t ∈ R.
n n→∞
% Sn &
it √
Sn (t)
ϕ√ = E e n
n
% it
)n &
√ Xk
= E e n 1
%/
n it &
√ X
= E e n k
k=1
n
/ % it &
√ X
= E e n k par indépendance,
k=1
% &n
it
√ X
= E e n 0 car les Xi sont de même loi,
% &n
= ϕX0 √t .
n
Pour calculer la limite de cette expression quand n tend vers +∞ , on
fait un développement limité. Comme X0 est de carré intégrable, ϕX0 est
C 2 et on a :
# # #
itX0
ϕX0 (t) = e dP, ϕ*X0 (t) = iX0 eitX0
dP, ϕ**X0 (t) = −X02 eitX0 dP,
ϕX0 (0) = 1, ϕ*X0 (0) = iE(X0 ) = 0, ϕ**X0 (0) = −E(X02 ) = −1.

x2
D’après la formule de Taylor, ϕX0 (x) = 1 − 2 + x2 ε0 (x), avec ε0 (x) −→ 0
lorsque x → 0. Ceci implique :
% t &n % t2 t2 t &n
Sn (t) = ϕX0 √
ϕ√ = 1− + ε0 ( √ ) ,
n n 2n 2n n
% t2 t2 t & % t2 t2 t 1 1 & t2 1
n ln 1− + ε0 ( √ ) = n − + ε0 ( √ )+ ε1 ( √ ) = − +ε2 ( √ ),
2n n n 2n n n n n 2 n
% t2 t2 t &n 2
t2
− t +ε ( √1 )
Sn (t) = 1 −
ϕ√ + ε0 ( √ ) = e 2 2 n −−−−→ e− 2 .
n 2n n n n→∞
Le théorème de la limite centrée est démontré.
6.3 Illustration numérique

Nous allons illustrer le théorème de la limite centrée à l’aide des graphes
des fréquences de la suite Sn .
Soit X une variable aléatoire discrète. Le graphe des fréquences de X
correspond au graphe de la fonction x 2→ P (X = x), où x varie parmi les
nombres réels tels que P (X = x) > 0.
Considérons le lancer d’un dé à six faces, modélisé par une variable aléa-
toire X0 qui suit une loi uniforme sur l’ensemble {1, 2, 3, 4, 5, 6} : P (X0 =
k) = 1/6 pour k entier compris entre 1 et 6. On répète le lancer n fois,
n ∈ N∗ , ce qui se décrit par une suite de variables aléatoires X1 , ... Xn in-
)
dépendantes entre elles et ayant même loi que X0 . On pose Sn = nk=1 Xk .
Voici les graphes des fréquences de X0 et S2 = X1 + X2 .
1 0.16
0.14
0.5 0.12
0.1
0
0.08
0.06
−0.5
0.04
0 2 4 6 8 0 2 4 6 8 10 12 14
Graphe des fréquences de X0 Graphe des fréquences de S2 = X1 + X2

On calcule le graphe des fréquences de Sn pour tout n par récurrence en
utilisant la formule
!
P (Sn+1 = k) = P (Xn+1 = l)P (Sn = k − l)
j
où la somme porte sur l’ensemble des valeurs l que prend Xn+1 . Si n est
suffisamment grand, le graphe des fréquences devrait se rapprocher d’une
gaussienne, une fois renormalisé. On s’est restreint ci-dessous à des valeurs
de x à moins de trois fois l’écart-type de l’espérance de Sn .
0.12
0.1
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
0
0
5 10 15 5 10 15 20
Graphe de S3 Graphe de S4
0.1
0.06
0.08
0.06
0.04
0.04
0.02
0.02
0 0
10 15 20 25 20 25 30 35 40 45 50

0.0
0.05
0.05
0.04
0.04
0.03
0.03
0.0
0.0
0.01 0.01
0 0
40 50 0 0 50 0 0 0 0
Dès n = 5, on voit les probabilités s’ordonner selon la fameuse courbe

en cloche, dont la densité est donnée par la gaussienne.
Il est intéressant de regarder ce qu’on obtient lorsqu’on part d’une loi qui
k2
présente plusieurs maxima. Prenons pour X0 la loi P (X0 = k) = 770 pour
k compris entre −10 et 10. Le graphe des fréquences de X0 est ci-dessous.
0.12 0.08
0.1
0.06
0.08
0.06 0.04
0.04
0.02
0.0
0
−10 0 10 20 30 −10 0 10 20 30 40 50
Graphe de X0 Graphe de S2
0.025 0.015
0.02
0.01
0.015
0.01
0.005
0.005
0 0
20 40 60 80 100 40 60 80 100 120 140 160

0.012
0.012
0.01
0.01
0.008
0.008
0.006
0.006
0.004
0.004
0.002 0.002
0 0
100 150 200 150 200 250 300

La gaussienne met plus de temps à apparaître. Les premiers graphes
présentent des oscillations qui s’amortissent quand n devient grand.
Un autre cas intéressant est donné par une loi fortement dissymétrique.
Considérons un X0 pour lequel
P (X0 = 1) = 0, 95
P (X0 = 2) = P (X0 = 3) = P (X0 = 4) = P (X0 = 5) = P (X0 = 6) = 0, 01.
0.8 0.4
0.6 0.3
0.4 0.2
0.2 0.1
0 0
0 1 2 3 4 5 6 7 10 12 14 16 18 20 22 24
Graphe de X0 Graphe de S15
0.2
0.08
0.1
0.06
0.1
0.04
0.0
0.02
0 0
2 30 3 40 4 4 0 60 6 70

0.06 0.0
0.0
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0 0
70 80 0 100 100 110 120 130
Comme nous pouvons le voir sur ces graphiques, la dissymétrie est encore
présente pour n = 100. Cet exemple doit donc inciter à la prudence quant
aux valeurs de n pour lesquelles l’approximation donnée par la loi normale
est pertinente. Il est d’usage en statistique de faire cette approximation dès
que n = 30, mais cela n’est pas toujours valide en pratique.
Chapitre 7
Vecteurs aléatoires
Dans ce chapitre, nous introduisons la notion de vecteur gaussien afin de

généraliser le théorème de la limite centrée au cas multidimensionnel.
7.1 Variables aléatoires à valeurs vectorielles

Définition 15 Soit (Ω, T , P ) un espace probabilisé et X1 , ..., Xd des va-
riables aléatoires définies sur Ω à valeurs réelles. L’application définie sur
Ω à valeurs dans Rd  
X1 (ω)
 
ω 2→  ... 
Xd (ω)
est appelée vecteur aléatoire.
Les notions d’espérance, de covariance et de fonction caractéristique se

généralisent aux vecteurs aléatoires. L’espérance de (X1 , ..., Xd ) est mainte-
nant un vecteur donné par
(E(X1 ), ..., E(Xd )).
Sa matrice de covariance, parfois notée Σ, est de taille d × d et vaut
V (X) = {Cov(Xi , Xj )}i,j .
Sa fonction caractéristique est définie sur Rd par la formule

/ /
∀ u ∈ Rd , ϕX (u) = eiu.X = eiuk Xk = ϕXk (uk ),
k k
)
On emploie dans la suite la notation u.X = ui Xi , u ∈ Rd . Les vecteurs
u et X sont considérés comme des vecteurs colonnes.
57
58 CHAPITRE 7. VECTEURS ALÉATOIRES
Proposition 14 Soit X un vecteur aléatoire à valeurs dans Rd et u =

(u1 , ..., ud ) un vecteur de Rd . Alors
E(u.X) = u.E(X), V (u.X) = t uV (X) u.
Preuve
Ces formules sont une conséquence directe des propriétés de l’espérance et
de la variance.
! !
E(u.X) = E( ui Xi ) = ui E(Xi ) = u.E(X).
! !
V (u.X) = V ( ui Xi ) = ui uj Cov(Xi , Xj ) = t u V (X) u.
i,j
Notons que l’application u 2→ V (u.X) est une forme quadratique définie

sur Rd . Cette forme quadratique est positive : pour tout u ∈ Rd ,
t
u V (X) u = V (u.X) ≥ 0.
La plupart des notions concernant les variables aléatoires admettent un

analogue pour les vecteurs aléatoires. Nous avons vu dans un chapitre précé-
dent comment définir la loi d’un multiplet de variables aléatoires. Un vecteur
gaussien étant un multiplet, ces définitions s’appliquent ici. La loi d’un vec-
teur X = (X1 , ..., Xn ) est donc une mesure de probabilité définie sur la tribu
des boréliens de Rd par la formule
PX (A) = P (X ∈ A), pour tout A ⊂ Rd borélien.
On parle de vecteurs discret ou à densité suivant que cette loi est discrète
ou absolument continue par rapport à la mesure de Lebesgue sur Rd . On
dit également que deux vecteurs X = (X1 , ..., Xd ) et Y = (Y1 , ..., Yd ) sont
indépendants entre eux si P(X,Y ) = PX ⊗ PY , c’est-à-dire si
P(X1 ,...,Xn,Y1 ,...,Yn) = P(X1 ,...,Xn) ⊗ P(Y1 ,...,Yn) .
La notion d’intégrabilité se généralise aussi sans difficulté aux vecteurs

gaussiens. Le vecteur aléatoire X est intégrable si E(%X%) < ∞, où %.%
désigne une norme sur Rd , par exemple la norme euclidienne. Il est de carré
intégrable si E(%X%2 ) < ∞ et ainsi de suite.
7.2 Définition des vecteurs gaussiens

On s’intéresse à la généralisation de la loi normale au cas multidimen-
sionnel.
7.2. DÉFINITION DES VECTEURS GAUSSIENS 59
Définition 16 Un vecteur aléatoire (X1 , ..., Xd ) est dit gaussien si pour tout
u1 ,..., ud ∈ R, la somme
u1 X1 + ... + ud Xd
suit une loi normale ou est constante.
On convient ici de considérer la masse de Dirac δm comme une loi nor-

male de variance nulle et de moyenne égale à m ∈ R. Avec cette convention,
une variables aléatoire constante suit une loi normale d’écart-type nul.
Remarquons que les composantes Xi d’un vecteur gaussien suivent une
loi normale. Il suffit de prendre tous les ui nuls sauf un pour s’en convaincre.
Donnons un premier exemple de vecteur gaussien.
Proposition 15 Soit X1 ,..., Xd des variables aléatoires indépendantes entre

elles, suivant chacune une loi normale. Alors le vecteur (X1 , ..., Xd ) est gaus-
sien et sa matrice de covariance est diagonale.
Lemme 5 Soit a, b, c trois nombres réels et soit Y1 , Y2 deux variables aléa-

toires indépendantes entre elles suivant une loi normale centrée réduite :
E(Y1 ) = E(Y2 ) = 0, V (Y1 ) = V (Y2 ) = 1.
Alors la variable aléatoire aY1 + bY2 + c suit une loi normale d’espérance
égale à c et de variance égale à a2 + b2 .
Preuve du lemme
Posons Z = aY1 + bY2 + c et soit g : R → R une fonction mesurable bornée.
##
E(g(Z)) = g(ay1 + by2 + c) dPY1 (y1 )dPY2 (y2 )
##
1 2 +y 2
y1 2
= g(ay1 + by2 + c) e− 2 dy1 dy2 .
2π
Effectuons le changement de variables
"
z1 = ay1 + by2 + c,
z2 = by1 − ay2 .
Un calcul direct donne les relations
(z1 − c)2 + z22 = (a2 + b2 )(y12 + y22 ), dz1 dz2 = (a2 + b2 ) dy1 dy2
ce qui implique
## (z1 −c)2
2
1 − −
z2
E(g(Z1 )) = g(z1 ) e 2(a2 +b2 ) e 2(a2 +b2 ) dz2 dz1

2π(a + b2 )
2
# (z1 −c)2
1 −
= ( g(z1 ) e 2(a2 +b2 ) dz1 .
2π(a2 + b2 )
Il s’agit bien d’une loi normale de paramètres c et a2 + b2 .

Preuve de la proposition
On commence par le cas de deux variables aléatoires X1 , X2 d’espérances
m1 , m2 et de variances σ12 et σ22 . Supposons ces variances non nulles et
renormalisons ces variables en posant Yi = Xiσ−m i
i
. Le lemme affirme que
toute combinaison linéaire des variables Y1 , Y2 suit une loi normale. Il en va
donc de même pour la variable
u1 X1 + u2 X2 = u1 m1 + u2 m2 + u1 σ1 Y1 + u2 σ2 Y2 .
Le cas de n variables aléatoires s’en déduit par une récurrence immédiate
sur n. La proposition est démontrée.
On crée de nouveaux vecteurs gaussiens en appliquant une transforma-
tion affine à un vecteur gaussien.
Proposition 16 Soit X = (X1 , ..., Xd ) un vecteur gaussien, A une matrice
$
de taille d* × d et B un vecteur de Rd . Alors le vecteur AX + B est gaussien
$
à valeurs dans Rd et
E(AX) = AE(X), V (AX + B) = A V (X) t A.
Preuve
Toute combinaison linéaire des coordonnées du vecteur AX + B est combi-
naison linéaire des coordonnées des Xi et du vecteur constant égal à 1, on
obtient bien une loi normale. Notons ai,j les coefficients de A.
! !
E(AX) = E( ai,j Xj ) = ai,j E(Xj ) = AE(X),
%! ! &
Cov((AX + B)i , (AX + B)j ) = Cov ai,k Xk + Bk , aj,l Xl + Bl
k l
! .
= ai,k aj,l Cov(Xk , Xl )
k,l
C’est le coefficient i, j de la matrice A V (X) t A. La proposition est démon-

trée.
7.3 Loi des vecteurs gaussiens

Nous allons montrer que la loi d’un vecteur gaussien ne dépend que de son
vecteur espérance et de sa matrice de covariance et nous allons déterminer
explicitement sa densité. Commençons par calculer la fonction caractéris-
tique d’un vecteur gaussien. Rappelons que la fonction caractéristique d’une
loi normale de paramètres m, σ 2 est égale à
2 t2 /2
ϕ(t) = eitm−σ .
7.3. LOI DES VECTEURS GAUSSIENS 61
Proposition 17 Soit X = (X1 , ..., Xd ) un vecteur gaussien d’espérance m

et de matrice de covariance Σ. Alors
1t
ϕX (u) = eiu.m− 2 uΣu
.
Preuve
Nous savons que la variable u.X obéit à une loi normale et nous avons calculé
son espérance et sa variance.
E(u.X) = u.E(X) = u.m, V (u.X) = t uV (X)u = t uΣu.

1t
On en déduit que E(eitu.X ) = eitu.m− 2 uΣu t
pour tout t et le résultat s’ensuit.
Tout comme dans le cas d’une variable aléatoire, on peut montrer que la
fonction caractéristique d’un vecteur aléatoire caractérise de manière unique
la loi d’un vecteur aléatoire. La loi d’un vecteur gaussien est donc unique-
ment déterminée par m et Σ.
Pour calculer la densité d’un vecteur gaussien, nous allons avoir besoin
de quelques propriétés des matrices symétriques. Rappelons qu’une matrice
symétrique Σ est positive si t uΣu ≥ 0 pour tout u ∈ Rd , et définie positive
si t uΣu > 0 pour tout u non nul. Une matrice symétrique positive est définie
positive si et seulement si elle est inversible, c’est-à-dire de déterminant non
nul.
Théorème 10 Tout vecteur gaussien X a même loi qu’un vecteur gaussien

de la forme AY + B, où Y est un vecteur gaussien dont les coordonnées
sont indépendantes, identiquement distribuées et obéissent à la loi normale
N (0, 1).
Preuve
La preuve repose sur le résultat suivant : toute matrice symétrique S positive
est de la forme T D t T , où T est une matrice inversible et D une matrice
diagonale dont les coefficients valent 0 ou 1. La matrice T est obtenue par
l’algorithme de réduction de Gauss appliqué à la forme quadratique u 2→
t uSu. On peut aussi la construire en diagonalisant S en base orthonormée.
Prenons pour matrice symétrique la matrice V (X) qui est bien positive :
t
uV (X)u = V (u.X) ≥ 0.
Considérons un vecteur gaussien Y = (Y1 , ..., Yd ) dont les composantes

sont indépendantes entre elles, centrées et dont la matrice de covariance est
égale à D. Posons Z = T Y + E(X), calculons son espérance et sa variance.
E(Z) = T E(Y ) + E(X) = E(X),
V (Z) = V (T Y ) = T V (Y )t T = T D t T = V (X).
Les vecteurs Z et X sont gaussiens, ils ont même espérance et même va-
riance. Ils ont donc même fonction caractéristique et même loi. La proposi-
tion est démontrée.
Remarquons que la preuve précédente montre que toute matrice symé-
trique positive est la matrice de covariance d’un vecteur gaussien. Nous
sommes maintenant en mesure de déterminer la densité des vecteurs gaus-
siens dont la matrice de covariance est définie positive, ou de manière équi-
valente, inversible, ou encore de déterminant non nul. On dit qu’elle est non
dégénérée.
Théorème 11 Soit Σ une matrice symétrique d × d définie positive et m

un vecteur de Rd . Le vecteur X = (X1 , ..., Xd ) de densité
1 1 1t −1
fX (x) = ( e− 2 (x−m)Σ (x−m) , x ∈ Rd ,
(2π) d/2 det(Σ)
est un vecteur gaussien d’espérance m et de covariance Σ. Réciproquement,
tout vecteur gaussien dont la matrice de covariance Σ est de déterminant
non nul a pour densité la fonction f précédente.
Preuve
Employons les décompositions X = T Y + E(X) et Σ = T D t T vues dans la
proposition précédente. Comme Σ est définie positive, la matrice D est égale
à l’identité. Utilisons les notations x = (x1 , ..., xd ) ∈ Rd , dx = dx1 ...dxd et
posons m = E(X).
E(g(X)) = E(g(T Y + E(X)))

#
1 1t
= d/2
g(T y + m) e− 2 yy
dy,
(2π)
#
1 t (x−m)(T t T )−1 (x−m) dx
= g(x) e
(2π) d/2 det(T )
grâce au changement de variables x = T y + m, dx = det(T ) dy. Il suffit de
remarquer que det(T )2 = det(Σ) pour conclure.
Comme application du théorème précédent, voici un critère concernant
l’indépendance des composantes d’un vecteur gaussien.
Corollaire 6 Soit X un vecteur gaussien. Ses composantes (X1 , ..., Xd )

sont indépendantes entre elles si et seulement si la matrice de covariance
est diagonale : Cov(Xi , Xj ) = 0 pour tout i, j distincts.
En effet, si la matrice de covariance est diagonale, nous voyons sur l’ex-

pression que nous avons obtenue que la densité de X est égale au produit
des densités des Xi , ce qui montre l’indépendance.
7.4. THÉORÈMES LIMITES POUR LES VECTEURS ALÉATOIRES 63
7.4 Théorèmes limites pour les vecteurs aléatoires

Les théorèmes limites pour les variables aléatoires admettent des ana-
logues dans le cas des vecteurs aléatoires.
Lorsque nous parlons de théorème limite, nous voulons étudier le com-
portement asymptotique d’une suite {Xk }k∈N de vecteurs aléatoires de Rd .
Pour éviter toute confusion, nous noterons dans cette section les compo-
santes du vecteur Xi par
(1) (d)
Xk = (Xk , ..., Xk ).
La notation Xk représente un terme d’une suite de vecteurs aléatoires de
Rd et non une composante d’un vecteur aléatoire.
Loi des grands nombres

On se place sur un espace probabilisé (Ω, T , P ). Rappelons que deux
vecteurs aléatoires X = (X (1) , ..., X (d) ) et Y = (Y (1) , ..., Y (d) ) sont indépen-
dants entre eux si P(X,Y ) = PX ⊗ PY , c’est-à-dire si
P(X (1) ,...,X (d),Y (1) ,...,Y (d) ) = P(X (1) ,...,X (d) ) ⊗ P(Y (1) ,...,Y (d) ) .
De même, une suite (Xk ) de vecteurs aléatoires est indépendante dans son
ensemble si pour tout n ∈ N,
P(X1 ,...,Xn) = PX1 ⊗ ... ⊗ PXn .
Les lois faible et forte des grands nombres se généralisent sans difficulté
au cas des vecteurs aléatoires, il suffit de travailler composante par compo-
sante. Posons Sn = X1 + ... + Xn , il s’agit d’un vecteur aléatoire qui à tout
(i)
résultat ω ∈ Ω associe un vecteur de Rd . Notons Sn sa ième composante.
(i) (i) (i)
Sn = X1 + ... + Xn .
Théorème 12 Soit (Ω, T , P ) un espace probabilisé et (Xn )n∈N une suite
de vecteurs aléatoires à valeurs dans Rd , indépendants, identiquement dis-
tribués, intégrables. Alors
Sn
−−−−→ E(X0 ) presque sûrement.
n n→∞
La convergence précédente est bien sûr équivalente aux convergences
(i)
Sn (i)
−−−−→ E(X0 ) presque sûrement
n n→∞
(i)
qui découlent du cas unidimensionnel appliqué aux suites (Xn )n∈N .
Théorème de la limite centrée multidimensionnel

La limite dans le théorème de la limite centrée pour les vecteurs aléatoires
fait intervenir une loi normale multidimensionnelle. Notons N (0, Σ) la loi
d’un vecteur gaussien de Rd dont la matrice de covariance est égale à Σ.
Théorème 13 Soit (Ω, T , P ) un espace probabilisé et (Xn )n∈N une suite

de vecteurs aléatoires à valeurs dans Rd , indépendants, identiquement dis-
tribués, de carrés intégrables. Soit m le vecteur espérance de chacun des Xn
et Σ leur matrice de covariance. On suppose Σ inversible. Alors
Sn − m
√ −→ N (0, Σ) en loi.
n
Cela entraîne les convergences

% √ √ &
P mi + ai n ≤ Sn(i) ≤ mi + bi n pour tout i ∈ {1, ..., d}
# #
1 b1 bd 1t
xΣ−1 x
−−−−→ D ... e− 2 dx.
n→∞
(2π)d det(Σ) a1 ad
La preuve procède comme dans le cas unidimensionnel. On caractérise

la convergence en loi grâce aux fonctions caractéristiques.
Proposition 18 Considérons une suite de vecteurs aléatoires (Yn ) définis

sur un espace probabilisé (Ω, T , P ). Si pour tout u ∈ Rd ,
ϕYn (u) −−−−→ ϕY (u)

n→∞
alors Yn converge vers Y en loi.
Puis on fait un développement limité de la fonction caractéristique de

Sn√−m
n
. Les calculs que nous avons fait sur R se généralisent à Rd sans
difficulté.
Chapitre 8
Séries de variables aléatoires

indépendantes
Considérons une suite de variables aléatoires (Xn )n∈N indépendantes

entre elles. Que peut-on dire de la convergence de la série
n
!
Sn = Xk ?
k=1
Si les variables aléatoires ont même loi, la loi des grands nombres affirme
que cette série diverge presque partout dès que leur espérance est non nulle.
Nous allons nous intéresser au cas où les variables aléatoires (Xn ) sont
indépendantes entre elles mais n’ont pas forcément même loi.
8.1 Loi du 0-1 de Kolmogorov

Notons par T(Xk ,m≤k≤n) la tribu engendrée par tous les évènements de
la forme Xk−1 (B), pour tout k compris entre m et n et tout borélien B ⊂ R.
Considérons également la tribu T(Xk ,k≥m) associée à tous les indices k ≥ m.
Cette tribu est engendrée par toutes les tribus T(Xk ,m≤k≤n) , avec n ≥ m.
Rappelons un résultat d’approximation classique de théorie de la mesure
qui s’applique à ces tribus.
Proposition 19 Soit (Ω, T , P ) un espace probabilisé, S, Sn , n ∈ N des

tribus incluses dans T telles que S soit engendrée par les Sn et telles que les
(Sn ) forment une suite croissante pour l’inclusion :
Sn ⊂ Sn+1 pour tout n.
Soit A ∈ S. Alors, pour tout ε > 0, il existe n ∈ N et A* ∈ Tn tels que
P (A∆A* ) < ε.
65
66CHAPITRE 8. SÉRIES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Nous avons noté A∆A* la différence symétrique de A et A* .
A∆A* = (A ∪ A* ) \ (A ∩ A* ).
Un évènement est dit asymptotique s’il appartient aux tribus T(Xk ,k≥m)
pour tout m ∈ N. L’exemple le plus simple d’évènement asymptotique est
)
donné par l’ensemble des ω ∈ Ω pour laquelle la série Xk converge :
4 3 ! 5
3
ω∈Ω3 Xk (ω) converge .
k≥1
En effet, le caractère convergent ne dépend pas des valeurs prises par les n
premières valeurs de la suite Xk (ω). Pour tout n ∈ N,
4 3 ! 5 4 3 ! 5
3 3
ω ∈Ω3 Xk (ω) converge = ω ∈ Ω 3 Xk (ω) converge ∈ T(Xk ,k≥m) .
k≥1 k≥m
La loi du 0-1 de Kolmogorov affirme que les évènements asymptotiques

ont pour probabilité 0 ou 1 si les variables aléatoires sont indépendantes.
Théorème 14 (loi du 0-1 de Kolmogorov) Soit (Ω, T , P ) un espace pro-

babilisé, (Xk )k∈N une suite de variables aléatoires définies sur Ω et indépen-
dantes entre elles. Considérons un évènement A ∈ T tel que
.
A∈ T(Xk ,k≥m) .
m∈N
Alors P (A) vaut 0 ou 1.
Preuve
Soit ε > 0. Comme A est dans T(Xk ,k≥1) , il existe m ∈ N et A* ∈ T(X1 ,...,Xm)
tels que
P (A∆A* ) < ε.
Comme A est aussi dans T(Xk ,k≥m+1) , il existe n ≥ m+1 et A* ∈ T(Xm+1 ,...,Xn)
tels que
P (A∆A** ) < ε.
Les ensembles A* et A** sont indépendants, ce qui montre que
P (A* ∩ A** ) = P (A* )P (A** ) ≤ (P (A) + ε)2 .
Nous avons aussi, en vertu de l’inclusion A∆(A* ∩ A** ) ⊂ (A∆A* ) ∪ (A∆A** ),
P (A* ∩ A** ) ≥ P (A) − P (A∆(A* ∩ A** )) ≥ P (A) − 2ε.
Cela implique l’inégalité P (A) ≤ P (A)2 . L’inégalité inverse découlant du

fait que 0 ≤ P (A) ≤ 1, nous en déduisons que P (A) = P (A)2 puis que
P (A) = 0 ou 1. Le théorème est démontré.
8.2. CONVERGENCE DES SÉRIES ALÉATOIRES 67
Comme corollaire, on voit qu’une série ne peut simultanément converger

pour un ensemble de résultats de probabilité non nulle et diverger pour un
ensemble de résultats de probabilité non nulle.
Corollaire 7 Soit (Xk )k∈N une suite de variables aléatoires indépendantes.

)
Alors la série Xk converge presque sûrement ou diverge presque sûrement.
Il s’agit maintenant de donner des critères permettant de conclure à la

convergence ou à la divergence de la série presque sûrement.
8.2 Convergence des séries aléatoires

Voici un premier critère de convergence dans le cas de variables aléatoires
de carrés intégrables.
Proposition 20 Soit (Xk ) une suite de variables aléatoires indépendantes

centrées et de carrés intégrables : E(Xk ) = 0 et V (Xk ) < ∞ pour tout k ∈ N.
On suppose que !
V (Xk ) < ∞.
k∈N
)
Alors la série Xk converge en norme L2 et presque sûrement.
Preuve de la convergence L2
Pour montrer la convergence de Sn en norme L2 , montrons qu’elle est de
Cauchy. Soit m, n ∈ N avec m < n.
%!
n & n
! n
!
%Sn − Sm %22 = V (Sn − Sm ) = V Xk = V (Xk ) ≤ V (Xk ).
m+1 m+1 m+1
)
La série V (Xk ) est convergente donc de Cauchy. Pour tout ε > 0, il existe
N ∈ N tel que pour tout m, n satisfaisant N < m < n,
n
!
%Sn − Sm %22 ≤ V (Xk ) < ε.
m+1
La suite Sn est de Cauchy et converge en norme L2 .

La démonstration de la convergence presque sûre dans la proposition
précédente repose sur l’inégalité maximale de Kolmogorov.
Lemme 6 (inégalité maximale) Soit (Xn )n∈N une suite de variables aléa-
toires indépendantes entre elles, centrées et de variance finie : E(Xi ) = 0,
V (Xi ) < ∞. Alors pour tout n ∈ N et tout λ > 0,
% & E(Sn2 )
P max |Si | ≥ λ ≤ .
1≤i≤n λ2
Preuve du lemme
On s’intéresse au premier indice pour lequel la série dépasse λ.
A1 = (|S1 | ≥ λ),
A2 = (|S1 | < λ, |S2 | ≥ λ),
Aj = (|S1 | < λ, ..., |Sj−1 | < λ, |Sj | ≥ λ).
Nous avons alors
% & N
E
max |Si | ≥ λ = Aj .
1≤i≤N
j=1
2 1 ) en insérant le terme S dans le carré.
Cherchons à minorer E(SN Aj j
2
SN = (SN − Sj + Sj )2 = (SN − Sj )2 + Sj2 + 2(SN − Sj )Sj
2
E(SN 1Aj ) = E((SN − Sj )2 1Aj ) + E(Sj2 1Aj ) + 2E((SN − Sj )Sj 1Aj ).
Le premier terme à droite de l’égalité est positif, tandis que le second terme
est supérieur à E(λ2 1Aj ) car Sj est supérieur à λ sur Aj . Vérifions que le
dernier terme est nul.
SN − Sj = Xj+1 + ... + XN , E(SN − Sj ) = 0.
La variable Sj 1Aj ne dépend que de X1 ,..., Xj , elle est donc indépendante

de SN − Sj , ce qui implique
E((SN − Sj )Sj 1Aj ) = E(SN − Sj )E(Sj 1Aj ) = 0.
Au final,
2
E(SN 1Aj ) ≥ λ2 E(1Aj ) = λ2 P (Aj ).
On conclut en faisant la somme pour j allant de 1 à n.
! E
2 2
E(SN ) ≥ E(SN 1Aj ) ≥ λ2 P ( Aj ) = λ2 P (max |Si | ≥ λ).
Preuve de la convergence presque sûre

Considérons la variable aléatoire RN = sup{|Sn − SN | | n ≥ N }. D’après
l’inégalité maximale appliquée à la suite (Xn−N )n≥N ,
% 1 !N& 1 !
$
∞
P max $ |Si − SN | ≥ ε ≤ 2 V (Xi ) ≤ 2 V (Xi )
N ≤i≤N ε i=N +1 ε i=N +1
et en passant à la limite quand N * tend vers l’infini,

∞
1 !
P (RN ≥ ε) ≤ V (Xi ).
ε2 i=N +1
8.2. CONVERGENCE DES SÉRIES ALÉATOIRES 69
)
Par hypothèse, la série V (Xi ) converge, son reste tend vers 0. La suite RN
converge en probabilité vers 0. Elle admet donc une sous-suite qui converge
vers 0 presque sûrement et comme elle est décroissante, elle converge vers
0 presque sûrement. Au final, pour presque tout ω ∈ Ω, pour tout ε > 0, il
existe N ∈ N tel que pour tout m, n ≥ N ,
|Sm (ω) − Sn (ω)| ≤ |Sm (ω) − SN (ω)| + |SN (ω) − Sn (ω)| ≤ 2RN (ω) ≤ 2ε.
La suite Sn (ω) est de Cauchy et converge. La proposition est démontrée.
Exemple
) ) k
La série harmonique k1 est divergente. La série alternée (−1) k est conver-
gente. Qu’en est-il lorsque nous choisissons les signes des termes de la série
de manière aléatoire, par exemple en les tirant à pile ou face ?
Proposition 21 Soit (εk )k∈N∗ une suite de variables aléatoires indépen-

dantes identiquement distribuées telles que
P (εk = 1) = P (εk = −1) = 1/2.

! εk
Alors la série converge presque sûrement.
k
k
Ce résultat se déduit de la proposition 8.2. Il suffit de remarquer d’abord

que E( εkk ) = 0 puis que
∞
! %ε & ∞
! 1 ∞
! 1
k
V = V (εk ) = < ∞.
k=1
k k=1
k2 k=1
k2
Le critère de convergence est bien satisfait.
Comme exemple d’une telle suite de variables aléatoires, on peut prendre

%1 1 &⊗N % &
Ω = {−1, 1}⊗N , P = δ−1 + δ1 , εk (xn )n∈N = xk .
2 2
On a alors %4 3 !x 5&
3 k
P (xk )k∈N ∈ Ω 3 converge = 1.
k≥1
k
On se pose maintenant la question générale de la convergence d’une

)
série Xk lorsque les Xk sont indépendantes entre elles. Le théorème suivant
ramène ce problème à la convergence de trois séries réelles, il est dû à Andreï
Kolmogorov (1903-1987).
Théorème 15 (théorème des trois séries) Soit (Xk )k∈N une suite de
variables aléatoires indépendantes entre elles. Posons Yk = Xk 1(|Xk |≤1) .
)
Alors la série Xk converge presque sûrement si et seulement si les trois
séries suivantes convergent :
)
– P (|Xk | ≥ 1),
)
– E(Yk ),
)
– V (Yk ).
Preuve
On se contente de démontrer que la convergence des trois séries implique la
) )
convergence presque sûre de Xk . Comme P (|Xk | ≥ 1) converge, nous
pouvons appliquer le lemme de Borel-Cantelli : pour presque tout ω, il existe
k0 tel que pour tout k ≥ k0 , |Xk (ω)| ≤ 1. On a alors Yk (ω) = Xk (ω). Les
) )
séries Xk et Yk sont donc de même nature.
)
Posons Ỹk = Yk − E(Yk ). Comme E(Yk ) converge, il suffit de dé-
)
montrer la convergence presque sûre de Ỹk . Les Ỹk sont centrées et leur
variance est égale à celle des Yk :
%Ỹk %22 = V (Ỹk ) = V (Yk ).

) )
On sait que la série V (Ỹk ) = V (Yk ) converge. La proposition 8.2 s’ap-
)
plique, la série Ỹk est convergente presque sûrement et le théorème est
démontré.
8.3 Retour sur la loi des grands nombres

Pour terminer ce chapitre, donnons une preuve de la loi des grands
nombres dérivée des théorèmes précédents et valide pour toute suite de
variables aléatoires (Xn )n∈N indépendantes identiquement distribuées in-
tégrables.
On considère les variables Yk = Xk 1(|Xk |≤k) . Montrons que la série
) V (Yk )
k2 est convergente.
! E(Y 2 ) ! 1 # ∞ # ∞0 ! x
2
k 2
= x 1{x≤k} dP|Xk | (x) = 1 x dP|X0 | (x).
k≥1
k2 k≥1
k2 0 0 k≥1
k2 {k≥x}
La somme qui apparaît entre parenthèses sous l’intégrale dans le dernier

)
terme est majorée par 2 k≥1 k12 pour x ∈ [0, 2]. Pour x ≥ 2, on effectue une
comparaison série-intégrale.
! x !# k x
# ∞ x x
1{k≥x} ≤ dt ≤ dt ≤ ≤ 2.
k≥1
k2 k≥x k−1
t2 x−1 t 2 x−1
8.3. RETOUR SUR LA LOI DES GRANDS NOMBRES 71
Nous avons de plus V (Yk − E(Yk )) = V (Yk ) ≤ E(Yk2 ), si bien que la série
) ) Yk −E(Yk )
V ( Yk −E(Y
k
k)
) est convergente. La série k converge donc presque
sûrement, en vertu de la proposition 8.2.
xi )
De manière générale, pour toute suite (xk ) telle que i converge, la
1 )
moyenne n xk converge vers 0. Cela découle de la formule suivante
n %!
1! k
xi & ! n
xi 1! n
= − xi
n k=1 i=1 i i=1
i n i=1
qui se démontre en intervertissant les deux signes sommes. On en déduit

n
1 ! p.s.
(Yk − E(Yk )) −−−−→ 0.
n k=1 n→∞
$
Par convergence dominée, la suite E(Yk ) = x1{|x|≤k} dPX0 (x) converge vers
)
E(X0 ). Il en va donc de même pour n1 E(Yk ). Il reste à remarquer que
∞
! ∞
! # !
∞ #
P (Yk 3= Xk ) = P (|X0 | ≥ k) = 1{k≤x} dP|X0 | (x) ≤ x dP|X0 | (x)
k=1 k=1 k=1
est une somme finie. D’après le lemme de Borel-Cantelli, pour presque tout
ω, les suites Xk (ω) et Yk (ω) coïncident à partir d’un certain rang et la
) )
différence n1 Xk (ω) − n1 Yk (ω) tend vers 0. Le résultat est démontré.
Annexe A
Rappels d’intégration
On rappelle dans cette annexe un certain nombre de résultats d’intégra-

tion utilisés dans le cours. Le cadre est l’intégrale de Lebesgue. On adopte
les notations probabilistes : (Ω, T , P ) est un espace probabilisé, c’est-à-dire
un espace mesuré pour lequel P (Ω) = 1.
A.1 Théorèmes de convergence

Théorème 16 (convergence croissante) Soit fn : Ω → R+ une suite de
fonctions mesurables positives. On suppose que pour presque tout ω ∈ Ω,
la suite (fn (ω))n∈N est croissante et on note f (ω) la limite de cette suite.
Alors # #
lim fn (ω) dP (ω) = f (ω) dP (ω).
n→∞ Ω Ω
Commentaire : la valeur des intégrales peut être égale à +∞.

Cas particulier : en appliquant ce théorème à une suite de fonctions indica-
trices 1An , où (An )n∈N est une suite d’ensembles croissante pour l’inclusion,
on obtient
%1
∞ &
P An = lim P (An ).
n
0
Théorème 17 (lemme de Fatou) Soit fn : Ω → R+ une suite de fonc-

tions mesurables positives. Alors
# #
lim inf fn (ω) dP (ω) ≤ lim inf fn (ω) dP (ω).
Ω n→∞ n→∞ Ω
Théorème 18 (convergence dominée) Soit fn : Ω → R une suite de

fonctions mesurables qui converge presque partout vers une fonction f . On
suppose que la suite fn est dominée par une fonction g : Ω → R+ intégrable :
|fn (ω)| ≤ g(ω) pour presque tout ω ∈ Ω.
73
74 ANNEXE A. RAPPELS D’INTÉGRATION
Alors # #
lim fn (ω) dP (ω) = f (ω) dP (ω).
n→∞ Ω Ω
Commentaire : Nous avons supposé P (Ω) = 1 si bien que toute suite

fn bornée est dominée par une fonction constante, qui est intégrable. Le
théorème s’applique donc à une telle suite.
Théorème 19 (interversion somme intégrale, cas positif) Soit

fn : Ω → R+ une suite de fonctions mesurables positives. Alors
# !
∞ ∞ #
!
fn (ω) dP (ω) = fn (ω) dP (ω).
Ω n=1 n=1 Ω
Commentaire : la somme de la série peut être égale à +∞.
Théorème 20 (interversion somme intégrale, cas intégrable) Soit

fn : Ω → R une suite de fonctions mesurables. On suppose que
∞ #
!
|fn (ω)| dP (ω) < +∞.
n=1 Ω
Alors
# !
∞ ∞ #
!
fn (ω) dP (ω) = fn (ω) dP (ω).
Ω n=1 n=1 Ω
Commentaire : la série qui apparaît dans le second terme est convergente.
A.2 Intégrales dépendant d’un paramètre

Théorème 21 (continuité sous le signe intégral) Soit I un intervalle
de R. Soit f : I × Ω → R une fonction mesurable telle que
– pour P -presque tout ω ∈ Ω, t 2→ f (t, ω) est continue sur I,
– il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I,
|f (t, ω)| ≤ g(ω) pour presque tout ω ∈ Ω.

$
Alors la fonction t 2→ Ω f (t, ω) dP (ω) est continue sur I : pour tout t0 ∈ I
# #
lim f (t, ω) dP (ω) = f (t0 , ω) dP (ω).
t→t0 Ω Ω
A.3. INTÉGRALES MULTIPLES 75
Théorème 22 (dérivée sous le signe intégral) Soit I un intervalle de

R et f : I × Ω → R une fonction mesurable telle que
– pour tout t ∈ I, ω 2→ f (t, ω) est intégrable,
– pour P -presque tout ω ∈ Ω, t 2→ f (t, ω) est dérivable en tout point t ∈ I,
– il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I,
3 3
3∂ 3
3 f (t, ω)3 ≤ g(ω) pour presque tout ω ∈ Ω.
3 ∂t 3
Alors en tout point t ∈ I,

# #
d ∂
f (t, ω) dP (ω) = f (t, ω) dP (ω).
dt Ω Ω ∂t
A.3 Intégrales multiples

Ici, (Ω1 , T1 , P1 ) et (Ω2 , T2 , P2 ) sont des espaces probabilisés.
Théorème 23 (Fubini, cas positif) Soit f : Ω1 × Ω2 → R+ une fonction
T1 ⊗ T2 -mesurable positive. Alors
$$ $ %$ &
Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 ) = Ω2 Ω1 f (ω1 , ω2 ) dP1 (ω1 ) dP2 (ω2 )
$ %$ &
= Ω1 Ω2 f (ω1 , ω2 ) dP2 (ω2 ) dP1 (ω1 )
Commentaire : les intégrales peuvent valoir +∞.
Théorème 24 (Fubini, cas intégrable) Soit f : Ω1 × Ω2 → R une fonc-
tion T1 ⊗ T2 -mesurable. On suppose que
# #
|f (ω1 , ω2 )| dP1 ⊗ P2 (ω1 , ω2 ) < +∞.
Ω1 ×Ω2
Alors
$$ $ %$ &
Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 ) = Ω2 Ω1 f (ω1 , ω2 )dP1 (ω1 ) dP2 (ω2 )
$ %$ &
= Ω1 Ω2 f (ω1 , ω2 )dP2 (ω2 ) dP1 (ω1 ).
Commentaire : la fonction f est dans L1 (Ω1 × Ω2 ).

Théorème 25 (changement de variables) Soient U, V deux ouverts de
Rd , ϕ : U → V un difféomorphisme de classe C 1 , f : V → R une application
mesurable relativement à la mesure de Lebesgue sur V . On suppose f positive
ou intégrable. Alors
# #
f (ϕ(u))Jϕ(u) du = f (v) dv
U V
où Jϕ(u) est le jacobien de ϕ : Jϕ(u) = |det(du ϕ)|.
Commentaire : pour le changement de variables en coordonnées polaires,
u = (r, θ), v = ϕ(u) = ϕ(r, θ) = (r cos(θ), r sin(θ)), du = drdθ, Jϕ(r, θ) = r.
A.4 Espaces Lp
Rappel :
%# &1/p
||f ||p = |f |p dP pour 1 ≤ p < ∞.
Ω
||f ||∞ = inf{M ≥ 0 | pour presque tout ω ∈ Ω, |f (ω)| ≤ M }.
Théorème 26 (convergence normale dans Lp ) Soit p ∈ [1, ∞] et (fn )

une suite de fonctions dans Lp (Ω). On suppose que
!
||fn ||p < ∞.
n∈N
)
Alors la série fn converge presque partout et en norme Lp vers une cer-
taine fonction f ∈ Lp (Ω).
Théorème 27 (inclusion des espaces Lp ) Soit p, q ∈ R tels que 1 ≤

p ≤ q ≤ ∞. Alors
L∞ (Ω) ⊂ Lq (Ω) ⊂ Lp (Ω) ⊂ L1 (Ω).
De plus, pour tout f : Ω → R mesurable,
||f ||1 ≤ ||f ||p ≤ ||f ||q ≤ ||f ||∞ .
Commentaire : le cas p = 2 est important : L∞ (Ω) ⊂ L2 (Ω) ⊂ L1 (Ω).
Théorème 28 (extraction de sous-suites) Soit (fn )n∈N une suite de

fonctions de Lp (Ω) qui converge au sens de la norme Lp vers une cer-
taine fonction f dans Lp (Ω). Alors il existe une sous-suite nk telle que fnk
converge presque partout vers f .
Commentaire : en général, la convergence Lp n’implique pas la convergence

presque partout.
A.5 Inégalités
Théorème 29 (inégalité de Minkowski) Soit p ∈ [1, ∞] et f, g ∈ Lp (Ω).
Alors
||f + g||p ≤ ||f ||p + ||g||p .
Commentaire : c’est l’inégalité triangulaire pour les normes Lp .

A.6. FORMULE D’INVERSION DE FOURIER 77
Théorème 30 (inégalité de Cauchy-Schwarz) Soit f, g ∈ L2 (Ω). Alors

f g est intégrable et 3# 3
3 3
3 f g dP 3 ≤ ||f ||2 ||g||2 .
Ω
Commentaire : on a égalité si et seulement si f et g sont proportionnelles.
Théorème 31 (inégalité de Hölder) Soit p, q ∈ [1, ∞] tels que 1/p +

1/q = 1/r ainsi que f ∈ Lp (Ω), g ∈ Lq (Ω). Alors f g est dans Lr (Ω) et
||f g||r ≤ ||f ||p ||g||q .
Commentaire : l’inégalité de Cauchy-Schwarz correspond à p = q = 2,

r = 1.
Théorème 32 (inégalité de Jensen) Rappelons que P (Ω) = 1. Soit ϕ :

R → R une fonction convexe et f : Ω → R telle que f et ϕ ◦ f sont
intégrables. Alors # #
% &
ϕ f dP ≤ ϕ ◦ f dP
Ω Ω
A.6 Formule d’inversion de Fourier

Le théorème suivant est une version ponctuelle de la formule d’inversion
de Fourier ; c’est l’analogue du théorème de Dirichlet pour les séries de Fou-
rier. On donne un énoncé est un peu plus général que celui utilisé dans le
cours. La convention utilisée pour la transformée de Fourier est la suivante :
#
fˆ(t) = e−itx f (x) dx.
R
Lorsque f est intégrable, sa transformée fˆ est continue. Elle tend vers 0 en

l’infini, en vertu du lemme de Riemann-Lebesgue.
Lemme 7 (Riemann-Lebesgue) Soit f ∈ L1 . Alors

#
lim e−itx f (x) dx = 0.
t→∞ R
Ce lemme se démontre par un calcul explicite lorsque f est la fonction

indicatrice d’un intervalle. Dans le cas général, il suffit d’approcher en norme
L1 la fonction f par une combinaison linéaire de fonctions indicatrices.
Théorème 33 (formule d’inversion de Fourier) Soit f ∈ L1 (R) et t ∈

R. On suppose que f admet une limite à gauche et une limite à droite en t,
notées f (t− ) et f (t+ ). On suppose également que f est dérivable à droite et
à gauche en t. Alors,
#
1% − & A dx
f (t ) + f (t+ ) = lim eitx fˆ(x) .
2 A→∞ −A 2π
Lorsque f est intégrable de classe C 1 et que fˆ est intégrable, la formule

devient #
1
f (t) = eitx fˆ(x) dx pour tout t ∈ R.
2π R
Remarquons que fˆ est intégrable dès que f est C 2 et f ** est intégrable. En
effet, fˆ est alors continue et majorée par une constante multipliée par 12 , t
comme le montre l’égalité
1
fˆ(t) = − 2 fF** (t), t ∈ R∗ ,
t
qui s’obtient par une intégration par partie. En particulier, la formule d’in-
version est vraie pour toute fonction C ∞ à support compact.
Preuve de la formule d’inversion

Quitte à translater la variable, on peut supposer t = 0. On a
# # #
dx dx 2 sin Ax dx
1[−A,A] (x)fˆ(x) = G (x)f (x)
1[−A,A] = f (x) .
R 2π R 2π R x 2π
0# 2
2 sin Ax dx 1 ∞
On va montrer que lim f (x) − f (0+ ) = 0.
A→∞ 0 x 2π 2
Faisons le changement de variable y = Ax et remarquons que
# #
∞ sin Ax ∞ sin y π
dx = dy = ,
0 x 0 y 2
# #
2 sin Ax
∞ dx 1 ∞ f (x) − f (0+ ) dx
et qu’ainsi f (x) − f (0+ ) = 2 sin(Ax) .
0 x 2π 2 0 x 2π
Sans le facteur 1/x, il suffirait d’appliquer le lemme de Riemann-Lebesgue.
On découpe en deux l’intégrale pour analyser ce qui se passe près de 0 et
loin de 0.
Près de 0, on utilise l’hypothèse suivante :
f (x) = f (0+ ) + xf * (0+ ) + x ε(x), avec lim ε(x) = 0.

x→0
f (x)−f (0+ )
Par conséquent, il existe δ > 0 tel que x est borné sur ]0, δ]. La fonc-
f (x)−f (0+ )
tion x 1]0,δ] (x) est intégrable et par le lemme de Riemann-Lebesgue,
# δ f (x) − f (0+ )
lim sin(Ax) dx = 0.
A→+∞ 0 x
f (x)
Loin de 0, sur [δ, +∞[, on a 0 < 1/x < 1/δ, et la fonction x 1[δ,∞[ (x) est
intégrable. Par Riemann-Lebesgue,
# ∞ f (x)
lim sin(Ax) dx = 0.
A→+∞ δ x
A.6. FORMULE D’INVERSION DE FOURIER 79
Enfin, par définition des intégrales généralisées, on a :

# #
∞ sin(Ax) ∞ sin y
lim f (0+ ) dx = lim dy f (0+ ) = 0.
A→+∞ δ x A→+∞ Aδ y
# 0 2 sin Ax dx 1
On démontre de même que lim f (x) = f (0− ), ce qui
A→∞ −∞ x 2π 2
termine la preuve.
Annexe B
Formulaire
On collecte dans cette annexe les formules vues dans le cours.
B.1 Loi d’une variable aléatoire

Loi d’une variable aléatoire X
PX (A) = P (X ∈ A) = P (X −1 (A)).
Espérance # #
E(X) = X dP = x dPX (x).
Ω R
Variance
% & # #
V (X) = E (X − E(X))2 = (X − E(X))2 dP = (x − E(X))2 dPX (x).
Ω R
# %# &2 # %# &2
V (X) = E(X 2 )−E(X)2 = X 2 dP − X dP = x2 dPX (x)− x dPX (x) .
Ω Ω R R
Formule de transfert
# #
E(g(X)) = g(X) dP = g(x) dPX (x).
Ω R
Fonction de répartition
# x
FX (x) = P (X ≤ x) = dPX (x).
−∞
Fonction caractéristique
# #
ϕX (t) = E(eitX ) = eitX dP = eitx dPX (x).
Ω R
81
82 ANNEXE B. FORMULAIRE
Cas discret
! !
PX = pxk δxk , PX (A) = pxk .
k∈I xk ∈A
# !
E(X) = x dPX (x) = xk P (X = xk ).
R k∈I
! ! %! &2
V (X) = (xk −E(X))2 P (X = xk ) = x2k P (X = xk )− xk P (X = xk ) .
k∈I k∈I k∈I
# # !
E(g(X)) = g(X) dP = g(x) dPX (x) = g(xk )P (X = xk ).
Ω R k∈I
!
FX (x) = P (X = xk ).
xk ≤x
!
ϕX (t) = eitxk P (X = xk ).
k
Cas continu
#
dPX (x) = fX (x) dx, PX (A) = fX (x) dx.
A
#
E(X) = x fX (x) dx.
R
# # %# &2
2 2
V (X) = (x − E(X)) fX (x) dx = x fX (x) dx − x fX (x) dx .
R R R
# # #
E(g(X)) = g(X) dP = g(x) dPX (x) = g(x)fX (x) dx.
Ω R R
# x
FX (x) = fX (x) dx.
−∞
#
ϕX (t) = eitx fX (x) dx.
R
B.2 Inégalités
Inégalité de Cauchy-Schwarz
# '# '#
E(|XY |) = |XY | dP ≤ X 2 dP Y 2 dP = %X%2 %Y %2 .
Ω Ω Ω
Inégalité de Markov
E(Y )
P (Y ≥ λ) ≤ si λ > 0, Y ≥ 0.
λ
B.3. COUPLES DE VARIABLES ALÉATOIRES 83
Inégalité de Bienaymé-Tchebichev
V (X)
P (|X − E(X)| ≥ t) ≤ si t > 0, E(X 2 ) < ∞.
t2
Inégalité maximale de Kolmogorov
% & E(Sn2 )
P max |Si | ≥ λ ≤ .
0≤i≤n λ2
B.3 Couples de variables aléatoires

Soit X, Y deux variables aléatoires. La loi du couple (X, Y ) est donnée par
P(X,Y ) (A) = P ((X, Y ) ∈ A) = P ({ω ∈ Ω | (X(ω), Y (ω)) ∈ A}).
Covariance
# %# &%# &
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = XY dP − X dP Y dP .
Ω Ω Ω
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
Formule de transfert
# #
E(g(X, Y )) = g(X, Y ) dP = g(x, y) dP(X,Y ) (x, y).
Ω R2
Espérance d’un produit de variables indépendantes
E(f (X)g(Y )) = E(f (X)) E(g(Y )).
Loi d’un couple de variables indépendantes
# #
E(g(X, Y )) = g(x, y) dP(X,Y ) (x, y) = g(x, y) dPX (x) dPY (y).
R2 R2
Cas discret !
P(X,Y ) = pxi ,yj δ(xi ,yj ) .
i,j
!
P(X,Y ) (A) = P (X = xi , Y = yj ).
i,j tels que (xi ,yj )∈A
# !
E(g(X, Y )) = g(x, y) dP(X,Y ) (x, y) = g(xi , yj ) P (X = xi , Y = yj ).
R2 i,j
!
P (X = xi ) = P (X = xi , Y = yj ).
j
Cas continu
#
dP(X,Y ) (x, y) = fX,Y (x, y) dxdy, P(X,Y ) (A) = fX,Y (x, y) dxdy.
A
# #
E(g(X, Y )) = g(x, y) dP(X,Y ) (x, y) = g(x, y) fX,Y (x, y) dxdy.
R2 R2
#
fX1 (x1 ) = fX1 ,X2 (x1 , x2 ) dx2 .
R
84 ANNEXE B. FORMULAIRE
B.4 Convergence de variables aléatoires

Convergence presque sûre
p.s.
Xn −−−−→ X si P ({ω ∈ Ω | Xn (ω) −−−−→ X(ω)}) = 1.
n→∞ n→∞
Convergence Lp
Lp
Xn −−−−→ X si %Xn − X%p −−−−→ 0.
n→∞ n→∞
Convergence en probabilité
proba
Xn −−−−→ X si P (|Xn − X| > ε) −−−−→ 0 pour tout ε > 0.
n→∞ n→∞
Convergence en loi
# #
loi
Xn −−−−→ X si f dPXn −−−−→ f dPX pour toute f continue bornée.
n→∞ n→∞
B.5 Théorèmes limites

n
! n
!
On pose Sn = Xk . Alors E(Sn ) = E(Xk ). De plus,
k=1 k=1
n
!
V (Sn ) = V (Xk ) si les Xi sont indépendantes.
k=1
Loi faible des grands nombres

Sn proba
Si les Xi sont i.i.d. intégrables, −−−−→ E(X1 ).
n n→∞
Loi forte des grands nombres
Sn p.s.
Si les Xi sont i.i.d. intégrables, −−−−→ E(X1 ).
n n→∞
Théorème de la limite centrée
S loi
Si les Xi sont i.i.d. centrées telles que 0 < σ(Xi ) < ∞, √n −−−−→ N (0, σ 2 ).
n n→∞
Convergence de la somme dans le cas de variance bornée
!
Si les Xi sont indépendantes centrées et V (Xi ) < ∞, Sn converge p.s. et L2 .
Théorème des trois séries

Soit Yi = Xi 1(|Xi |≤1) . Si les Xi sont indépendantes,
! ! !
Sn converge p.s. ⇔ P (|Xi | ≥ 1), E(Yi ), V (Yi ) convergent.
Annexe C
Références
Références en français concernant les probabilités

Jean Jacod, Philip Protter
L’essentiel en théorie des probabilités
Cassini. ISBN 978-2842250508
Dominique Foata, Aimé Fuchs
Calcul des probabilités
Dunod. ISBN 978-2100574247
Références en anglais concernant les probabilités

Rick Durrett
Probability : theory and examples.
Cambridge University Press. ISBN 978-0-521-76539-8
Patrick Billingsley
Probability and measure.
John Wiley & Sons, Inc. ISBN 0-471-00710-2
Référence en français pour l’intégration

Marc Briane, Gilles Pagès
Théorie de l’intégration, cours et exercices
Vuibert. ISBN 978-2311402261
Référence en anglais pour l’intégration

Richard Mansfield Dudley
Real analysis and probability.
Cambridge University Press. ISBN 0-521-00754-2
85
86 ANNEXE C. RÉFÉRENCES
Index
π, 35 loi uniforme, 42
fonction de répartition, 18
Ain, 36 fonction étagée, 17
annuaire, 35 forme quadratique, 60
formule
borélien, 10
d’inversion de Fourier, 45, 80
continuité sous le signe intégral, 76 de transfert, 17, 19
convergence
en loi, 39, 44, 48, 49, 66 graphe des fréquences, 54
en norme Lp , 39 générateur de nombres aléatoires,
en probabilité, 39, 49 34
normale, 78 identiquement distribué, 27
presque sûre, 39 indépendance
étroite, 44, 47 loi, 25
covariance, 15, 25 tribu, 22
matrice, 59 variable aléatoire, 22
cylindre, 12 vecteur gaussien, 64
définie positive, 64 évènement, 21
densité, 10, 20 interversion somme intégrale, 76
vecteur gaussien, 64 intégrabilité, 13
dé, 34, 54 vecteur gaussien, 60
dérivée sous le signe intégral, 77 inégalité
de Bienaymé-Tchebichev, 15
écart-type, 15 de Cauchy-Schwarz, 14, 79
espace probabilisé, 9 de Hölder, 40, 79
espaces Lp , 78 de Markov, 15, 40
espérance, 13, 24, 59 de Minkowski, 78
évènement, 9 maximale, 70
asymptotique, 68
indépendance, 21 Kolmogorov
formalisme, 9
fonction caractéristique, 41, 49, 59 inégalité, 70
loi de Bernoulli, 42 loi, 68
loi exponentielle, 43 théorème, 12
loi normale, 51, 62 trois séries, 72
87
88 INDEX
lemme identiquement distribuée, 27

de Borel-Cantelli, 23, 31, 41 tendue, 46
de Fatou, 75 support compact, 44
de Riemann-Lebesgue, 79 série
limite supérieure, 23 aléatoire, 67
linéarité, 14 harmonique, 71
loi
binomiale, 10 tendue, 46
continue, 19 théorème
de Bernoulli, 42 de convergence croissante, 75
de Laplace-Gauss, 11 de convergence dominée, 76
de Poisson, 10 de Fubini, 77
des grands nombres, 28, 65, 72 de Kolmogorov, 12
discrète, 19 de la limite centrée, 53, 66
du 0-1 de Kolmogorov, 68 de Stone-Weierstrass, 46
exponentielle, 18, 43 transformée de Fourier, 41, 44
gaussienne, 11 tribu
marginale, 20 indépendance, 22
multiplet, 19 produit, 11, 12
normale, 11, 53
univers, 9
uniforme, 10, 18, 42
variable aléatoire, 16, 42 variable aléatoire, 13
vecteur gaussien, 60 continue, 16
discrète, 16
matrice loi, 16
de covariance, 59 variables aléatoires
symétrique, 64 identiquement distribuées, 27
mesure de Dirac, 10 indépendantes, 22
monotonie, 14 variance, 14, 25
moyenne empirique, 27, 53 vecteur
multiplet, 19 aléatoire, 19, 59
gaussien, 61
norme Lp , 39
pile ou face, 12, 24, 29, 71

presque sûrement, 29
probabilité
continue, 10
discrète, 9
exponentielle, 11
uniforme, 11
résultat, 9
suite

Httpsmoodle Sciences - Upmc.frmoodle 2020pluginfile - Php795875mod Resourcecontent2polycopie 3M290 Probabilites PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Httpsmoodle Sciences - Upmc.frmoodle 2020pluginfile - Php795875mod Resourcecontent2polycopie 3M290 Probabilites PDF

Transféré par

Droits d'auteur :

Formats disponibles

Probabilités II

Yves Coudène, 23 janvier 2021

Licence de mathématiques, Sorbonne Université

4 Loi des grands nombres 25

5 Convergence de suites aléatoires 37

6 Théorème de la limite centrée 49

6.3 Illustration numérique . . . . . . . . . . . . . . . . . . . . . . 52

8 Séries de variables aléatoires indépendantes 65

Ces notes accompagnent le cours de probabilités 3M290 probabilités II

Yves Coudène, le 12 janvier 2021.

Nous désignons par épreuve une expérience ou une observation réalisée

1.1 Le cas discret : Ω fini ou dénombrable

Notons δω la mesure de Dirac au point ω :

Cette mesure est supportée par le singleton {ω}.

pk = P ({k}) = Cnk pk (1 − p)n−k pour k ∈ {0, ..., n}.

pk est la probabilité d’obtenir k succès exactement au cours de n tirages

1.2 Le cas continu : Ω = R ou Rd

On a noté la mesure de Lebesgue sur Ω avec un λ. La mesure de probabilité

On a alors pour toute fonction mesurable g : Ω → R positive ou P -

– Loi de Laplace-Gauss ou loi normale de paramètres m ∈ R , σ > 0 :

f (x) = l e−lx 1R+ (x)

1.3 Le cas des espaces produits

P ⊗n (A1 × A2 × ... × An ) = P (A1 )P (A2 )...P (An )

pour tout A1 , ..., An ∈ T .

On va chercher à étudier le comportement asymptotique d’une répéti-

• L’univers ΩN est l’ensemble de toutes les suites d’éléments de Ω.

CA0 ,...,An = {(ωi )i∈N | ∀i = 0...n, ωi ∈ Ai }

Théorème 1 (Kolmogorov) Soit (Ω, T , P ) un espace probabilisé. Alors il

P (CA0 ,...,An ) = P (A0 )P (A1 )...P (An )

pour tout n ∈ N et A0 , ..., An ∈ T .

L’exemple le plus simple est donné par la répétition un nombre arbi-

En pratique, on s’intéresse à certaines quantités numériques attachées

2.1 Définition d’une variable aléatoire

Pour A ⊂ R borélien, on pose

2.2 Espérance et variance

On remarque qu’une variable aléatoire de carré intégrable est intégrable

Nous obtenons la formule suivante, très utile pour calculer V (X) :

Dans le cas continu,

Cov(X, Y ) = E(XY ) − E(X)E(Y ),

elle est bien définie dès que X, Y sont de carrés intégrables.

Ces propriétés sont des conséquences immédiates des définitions. Les

Théorème 2 (Inégalité de Markov) Soit (Ω, T , P ) un espace probabi-

E(λ1(Y ≥λ) ) ≤ E(Y ).

On conclut en remarquant que

E(λ1(Y ≥λ) ) = λ E(1(Y ≥λ) ) = λ P (Y ≥ λ).

Théorème 3 (Inégalité de Bienaymé-Tchebichev) Soit (Ω, T , P ) un es-

P (Y ≥ λ) = P ((X − E(X))2 ≥ t2 ) = P (|X − E(X)| ≥ t),

2.4 Loi d’une variable aléatoire

Définition 4 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable

pour tout A ⊂ R borélien.

La variable aléatoire X est dite discrète si sa loi PX est discrète : il existe

où pxi est la probabilité d’obtenir la valeur xi : P (X = xi ) = pxi .

pour tout A ⊂ R borélien. Dans ce cas, la probabilité P (X = x) est bien

Proposition 2 Si X est intégrable,

Si X est de carré intégrable,

Cette proposition se déduit de la formule de transfert.

Proposition 3 (formule de transfert) Soit g : R → R borélienne, posi-

Preuve de la formule de transfert

– C’est vrai pour les combinaisons linéaires de fonctions indicatrices g =

Définition 5 La fonction de répartition de X est définie par

On a alors l’égalité, pour tout a, b ∈ R,

P (X ∈ ]a, b]) = FX (b) − FX (a).

Comme une mesure de probabilité définie sur la tribu des boréliens de R