Vous êtes sur la page 1sur 57

MA105 : Probabilité

Chargé de cours : Alexandre Génadot


2023-2024

Table des matières


1 Quelques mots avant de commencer 3

2 Du discret au continu avec une pièce de monnaie 4


2.1 Un seul lancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Une série finie de lancers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Une série infinie de lancers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Les variables aléatoires discrètes à connaître . . . . . . . . . . . . . . . . . . 14
Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Loi uniforme sur un ensemble fini . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 Vers la loi uniforme sur [0, 1] . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Les lois à densité à connaître . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Loi uniforme sur un intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Un tableau récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7 Appendices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Appendice A : un exemple de variable ni discrète, ni continue . . . . . . . . 21
Appendice B : de l’impossibilité de construire une probabilité satisfaisante sur
les parties de {0, 1}N . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Convergences de variables aléatoires 24


3.1 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Convergences en probabilité, presque-sûre et dans Lp . . . . . . . . . . . . . 26
3.3 Convergence en loi et théorème central limit . . . . . . . . . . . . . . . . . . 33

1
4 Vecteurs aléatoires (et retour sur les variables aléatoires) 41
4.1 Loi d’un vecteur aléatoire, densité . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Vecteurs à densité : transformation et indépendance . . . . . . . . . . . . . . 46
4.3 Moments, fonctions caractéristique et génératrice . . . . . . . . . . . . . . . 48
4.4 Quelques remarques sur le conditionnement . . . . . . . . . . . . . . . . . . 51

5 Les vecteurs gaussiens 53


5.1 Matrice de variance-covariance . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Vecteurs gaussiens et indépendance. . . . . . . . . . . . . . . . . . . . . . . . 56
5.4 Le cas non dégénéré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2
1 Quelques mots avant de commencer
Le cours de Probabilités MA105 comprend :
1. 9 séances de cours de 1h20 ;
2. 9 séances de TD de 1h20 (2 groupes, l’un avec Pierre Minvielle et l’autre avec Pascal
Vallet) ;
3. 5 séances de TP de 1h20 (avec Luc de Montella) ;
4. 3 évaluations : 1 devoir maison (0,25) + 1 TP noté (0,25) + 1 devoir sur table (0,5).
Les différents support pour le cours (cours, TDs, TPs...) sont disponibles sur la page
moodle du cours.
Les TPs seront fait à l’aide de python. Dans ce cours, nous donnons déjà quelques com-
mandes utiles. Les abréviations python utilisées sont les suivantes :
import numpy as np
import numpy . random as npr
import matplotlib . pyplot as plt
import scipy . stats as sps

Beaucoup de preuves seront omises lors des séances de cours et aussi dans ces notes, princi-
palement parce qu’elles demanderaient de connaître un peu la théorie de la mesure, que je
ne souhaite pas exposer ici. Les plus curieux d’entre vous pourront consulter sur ce sujet le
livre :
Philippe Barbe et Michel Ledoux.
Probabilité (L3M1).
EDP Sciences, 2012.
Un autre très bon cours, très complet, qui rassemble les probabilités que l’on peut voir au
moins jusqu’à la troisième année de licence ou la première année d’école d’ingénieur est
Quentin Berger, Francesco Caravenna, Paolo Dai Pra.
Introduction aux probabilités.
Dunod, 2021.
Le cours que vous avez entre les mains (ou devant vos yeux) comporte très certainement de
nombreuses coquilles, n’hésitez pas à me les signaler : alexandre.genadot@u-bordeaux.fr.

3
2 Du discret au continu avec une pièce de monnaie
Les notions abordées dans cette section sont normalement, pour les premières sections 2.1
à 2.4 incluse, des rappels du lycée ou des premières années post-bac puisqu’elles concernent
les variables aléatoires discrètes. Les sections suivantes introduisent les variables aléatoires
continues.

2.1 Un seul lancer


Considérons l’expérience (probabiliste) suivante : « lancer une pièce de monnaie ». Si on
note P l’évènement « faire pile » et F l’évènement « faire face », l’ensemble des résultats
possibles, appelé univers et souvent noté Ω, est
Ω = {P, F }.
L’évènement « faire pile » correspond donc à l’ensemble {P } et l’évènement « faire face » à
l’ensemble {F }. Ainsi, Ω correspond à l’évènement « faire pile ou face », et l’évènement « ne
faire ni pile, ni face » correspond à l’ensemble vide ∅. L’ensemble des évènements est donc
{∅, {P }, {F }, Ω}.
C’est en fait l’ensemble des parties de Ω, que l’on note P(Ω) : l’ensemble des sous-ensembles
de Ω. Si Ω possède n éléments, alors P(Ω) possède 2n éléments 1 . L’ensemble des parties
P(Ω) possède les propriétés suivantes, qui sont celles des tribus.
Definition 1. Une tribu A sur un ensemble Ω est un sous-ensemble de P(Ω) tel que
1. A contient l’ensemble vide : ∅ ∈ A.
2. A est stable par passage au complémentaire : A ∈ A ⇒ A ∈ A.
S
3. A est stable par union dénombrable : (An )n∈N ⊂ A ⇒ n∈N An ∈ A.
Les éléments de A sont appelés évènements ou ensembles mesurables. On dira que A est un
ensemble d’événements.
La notion de tribu formalise la notion d’ensemble des évènements : cet ensemble est
parfois (souvent), plus petit que P(Ω). C’est-à-dire qu’il peut exister des sous-ensembles de
Ω qu’il n’est pas souhaitable de considérer comme des évènements, c’est une question qui
dépasse le cadre de ce cours 2 . Retenons que
— lorsque Ω est un ensemble fini, on peut toujours prendre A = P(Ω).
— pour des raisons assez fondamentales, on considère sur R la tribu des boréliens B(R)
qui est la plus petite tribu, au sens de l’inclusion, qui contient tous les ouverts de R :
\
B(R) = A,
A∈TO

1. qui sont des ensembles.


2. mais nous pourrons revenir sur cette notion si vous êtes intéressés... Vous pouvez aussi consulter le
livre [BL] en introduction.

4
où TO est l’ensemble des tribus contenant tous les ouverts de R. Il n’est pas question
dans ce cours de mener l’étude de cette tribu.
Lorsque la pièce n’est pas truquée, on associe naturellement aux évènements « faire pile
» et « faire face » la même probabilité 1/2. On définit ainsi la probabilité uniforme sur
l’univers Ω :
#A
P : A ∈ P(Ω) 7→ ∈ [0, 1].
#Ω
Notation. La notation #A désigne le cardinal de l’ensemble A, c’est-à-dire son nombre
d’éléments.
On a bien, par exemple,
#{F } 1
P({F }) = = .
#{P, F } 2
Comme toutes les probabilités, la probabilité uniforme vérifie les propriétés suivantes.

Definition 2. Soit A une tribu sur un univers Ω. Une probabilité sur (Ω, A) est une appli-
cation
P : A → [0, 1],
telle que :
1. la probabilité associée à l’univers est 1,

P(Ω) = 1.

2. pour toute famille finie ou dénombrable d’évènements (Ai )i∈I deux à deux disjoints 3 ,
!
[ X
P Ai = P(Ai ).
i∈I i∈I

Les propriétés élémentaires des probabilités sont les suivantes. Il faut les connaître.

Proposition 1. Soit (Ω, A, P) un espace probabilisé.


1. P(∅) = 0 ;
2. Pour un évènement A,
P(Ac ) = 1 − P(A);
3. Pour deux évènements A et B avec A ⊂ B,

P(B \ A) = P(B) − P(A).

4. Pour deux évènements A et B,

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).


3. On appelle cette propriété la σ-additivité

5
5. Si (An )n∈N est une suite d’évènements,
X
P (∪n∈N An ) ≤ P(An ).
n∈N

6. Si (An )n∈N est une suite croissante 4 d’évènements,

P (∪n∈N An ) = lim P(An ).


n→∞

7. Si (An )n∈N est une suite décroissante d’évènements,

P (∩n∈N An ) = lim P(An ).


n→∞

Démonstration. Voir [BDC, Section 1.1.5].


On associe souvent une quantité au résultat d’une expérience aléatoire. Une telle cor-
respondance s’appelle une variable aléatoire. Par exemple, on peut considérer la variable
aléatoire 
1 si ω = P,
Z : ω ∈ Ω 7→
0 si ω = F.
Une telle variable aléatoire, prenant les valeurs 0 et 1, ce que l’on note Z(Ω) = {0, 1},
s’appelle une variable de Bernoulli 5 . Elle a pour paramètre la probabilité d’obtenir 1, qu’on
appelle aussi probabilité de succès :
1
P(Z = 1) = P({P }) = .
2
Notation. On note Z ∼ B( 12 ), ce qui se lit « Z suit la loi de Bernoulli de paramètre 1/2 » .
Lorsque la pièce est truquée, c’est-à-dire lorsque la probabilité d’obtenir pile est p ∈ [0, 1],
alors Z suit la loi de Bernoulli de paramètre p, et l’on note B(p) 6 .
Pour être exact, une application de Ω dans R est une variable aléatoire réelle sous cer-
taines conditions.

Definition 3. Soit (Ω, A) un espace probabilisable, c’est-à-dire un ensemble muni d’une


tribu, et X : Ω → R une application. L’application X est une variable aléatoire réelle 7 si
pour tout intervalle I de R, on a

X −1 (I) ∈ A, où X −1 (I) = {ω ∈ Ω ; X(ω) ∈ I} = {X ∈ I}.

Nous admettrons la proposition suivante.


4. pour l’inclusion. Cette proposition est le lemme de convergence monotone pour les probabilités.
5. Voir aussi Section 2.4.
6. En python, la simulation d’une variable aléatoire suivant une loi de Bernoulli de paramètre p s’effectue
de la façon suivante : X=npr.binomial(1,p)
7. Un synonyme de variable aléatoire, que l’on emploiera parfois, est fonction mesurable

6
Proposition 2 (Admis). Les fonctions continues ou seulement continues par morceaux sont
des variables aléatoires.

On peut donner la même définition en considérant X à valeurs dans Rd et en remplaçant


les intervalles par des pavés. La définition formelle de la loi d’une variable aléatoire est alors
la suivante.

Definition 4. Soit (Ω, A) un espace probabilisable et X une variable aléatoire réelle. On


appelle loi de X la mesure de probabilité PX sur (R, B(R)) donnée, pour A ∈ B(R), par

PX (A) = P(X −1 (A)),

où X −1 (A) = {ω ∈ Ω, X(ω) ∈ A} ce que l’on notera souvent {X ∈ A}.

Cette définition cache une proposition simple à démontrer : PX ainsi définie est en effet
une probabilité sur R.
Notation. On notera souvent P(X ∈ A) pour P({X ∈ A}).

Exemple. Soit X ∼ B(p) et A ∈ B(R). On a

PX (A) = P(X ∈ A) = P({1 ∈ A}∩{X = 1})+P({0 ∈ A}∩{X = 0}) = p1A (1)+(1−p)1A (0).

La loi de X est ainsi déterminée.

Une bonne partie du cours consiste à donner des outils qui permettent de caractériser,
ou résumer, la loi d’une variable aléatoire.

2.2 Une série finie de lancers


On peut avoir envie de jouer plusieurs fois de suite à « pile ou face ». Si l’on joue n fois,
l’univers est alors
Ωn = {P, F }n = {P, F } × . . . × {P, F },
et l’ensemble des évènements est
P(Ωn ).
2n
Il y a donc 2 évènements différents. On peut encore munir le couple (Ωn , P(Ωn )), qui est
un espace probabilisable, de la probabilité uniforme P,
#A
P : A ∈ P(Ωn ) 7→ ∈ [0, 1].
#Ωn
L’évènement « faire pile au deuxième lancer » a par exemple pour probabilité

2 × 1 × 2n−2 1
P({P, F } × {P } × {P, F }n−2 ) = n
= ,
2 2

7
70
60
50
40
30
20
10
0
0 1

Figure 1 – Diagramme en bâton correspondant aux fréquences des réalisations obtenues.

ce qui est conforme à l’intuition. Pour i ∈ {1, . . . , n}, soit Zi la variable aléatoire valant 1 si
l’on obtient pile au i-ième lancer et 0 sinon. Soit (ω1 , . . . , ωn ) ∈ {0, 1}n , on a
n
\
P((Z1 , . . . , Zn ) = (ω1 , . . . , ωn )) = P( {Zi = ωi })
i=1
= P({(ϵ1 , . . . , ϵn )})
1
= n
2
= P(Z1 = ω1 ) × . . . × P(Zn = ωn ).

Dans cette écriture, ϵi = P si et seulement si ωi = 1 et donc ϵi = F si et seulement si ωi = 0.


La famille de variables aléatoires {Zi , i ∈ {1, . . . , n}} est une famille de variables aléatoires
indépendantes.

Definition 5. Deux variables alétoires discrètes X et Y , c’est-à-dire prenant un nombre fini


ou dénombrable de valeurs, sont dites indépendantes si, pour tout x ∈ X(Ω) et y ∈ Y (Ω),
on a
P({X = x} ∩ {Y = y}) = P({X = x}) × P({Y = y}).

Si l’on souhaite simuler une centaine de variables de Bernoulli indépendantes, on peut


s’y prendre de la façon suivante :
X = npr . binomial (1 , 1 /3 , size = 100 )
plt . bar ( [0 , 1 ] , height = [ sum ( X = = 0 ) , sum ( X = = 1 ) ] )
plt . xticks ( [0 , 1 ] , [0 , 1 ] )
plt . show ()

Le résultat est en Figure 1.


Considérons maintenant la variable aléatoire Bn comptant le nombre de fois où l’on a
obtenu pile au cours des n lancers. Cette variable aléatoire est à valeurs dans {0, . . . , n} et

8
0.200
loi empirique
0.175 loi theorique
0.150
0.125
0.100
0.075
0.050
0.025
0.000
0 5 10 15 20

Figure 2 – Comparaison des distributions empiriques et théoriques pour la loi binomiale.

pour k dans cet ensemble on a


[
P(Bn = k) = P(Z1 + . . . + Zn = k) = P( {(Z1 , . . . , Zn ) = (ω1 , . . . , ωn )})
(ω1 ,...,ωn )∈{0,1}n
ω1 +...+ωn =k
X
= P((Z1 , . . . , Zn ) = (ω1 , . . . , ωn ))
(ω1 ,...,ωn )∈{0,1}n
ω1 +...+ωn =k
 
X 1 n 1
= = .
(ω1 ,...,ωn )∈{0,1}n
2n k 2n
ω1 +...+ωn =k

On a utilisé le fait que nk compte le nombre de n-uplets (ωi )1≤i≤n ∈ {0, 1}n tels que ω1 +


. . . + ωn = k. En effet, il suffit de choisir la place des 1 et l’ordre n’a pas d’importance. On


dit que Bn suit la loi binomiale de paramètre n et 1/2. Lorsque la probabilité de faire pile
est p, pour k ∈ {0, . . . , n}, l’on a
 
n k
P(Bn = k) = p (1 − p)n−k .
k

Notation. On note Bn ∼ B(n, p).


Bn compte le nombre de succès lors de n expériences de Bernoulli indépendantes (et de
même paramètre). En python, la simulation d’une variable aléatoire suivant une loi binomiale
de paramètre n et p s’effectue de la façon suivante :
import scipy . stats as sps
n , p , N = 20 , 0 .3 , int ( 1e4 )
B = npr . binomial (n , p , N )
f = sps . binom . pmf ( np . arange ( n + 1 ) , n , p )
plt . hist (B , bins = n +1 , normed =1 , range = ( - .5 , n + . 5 ) , color = " lightskyblue " , label = "
loi empirique " )
plt . stem ( np . arange ( n + 1 ) ,f , " r " , label = " loi theorique " )
plt . legend ()

9
Le résultat est en Figure 8 2.
Dans le cas, comme dans le cas d’une variable aléatoire suivant une loi binomiale, où le
nombre de valeurs possibles pour la variable aléatoire est dénombrable, la caractérisation de
la loi de celle-ci se ramène à la proposition suivante.

Proposition 3. Soit X une variable aléatoire discrète, c’est-à-dire prenant un nombre fini
ou dénombrable de valeurs que l’on note X(Ω). Donner la loi de X c’est décrire X(Ω) et
pour tous les x ∈ X(Ω) donner la valeur de P(X = x).
Démonstration. En effet, dans ce cas, pour tout borélien de R,
X
PX (A) = P(X = x)1A (x).
x∈X(Ω)

La valeur moyenne d’une variable aléatoire discrète se calcule de la façon suivante.

Definition 6. Soit X une variable aléatoire discrète, c’est-à-dire prenant un nombre fini ou
dénombrable de valeurs que l’on note X(Ω). Si X est positive ou si
X
|x|P(X = x) < ∞
x∈X(Ω)

l’espérance de X est définie par


X
E(X) = xP(X = x).
x∈X(Ω)

Lorsque l’espérance de la valeur absolue de la variable aléatoire est finie, E(|X|) < ∞,
on dit que X est intégrable. Plus généralement, on a la définition suivante.

Definition 7. Une variable aléatoire discrète X admet un moment d’ordre p ∈ R, p ≥ 1 si


X
|x|p P(X = x) < ∞.
x∈X(Ω)

L’espace des variables aléatoires admettant un moment d’ordre p est noté Lp . Si l’on identifie
les variables aléatoires presque sûrement égales, on écrit alors Lp . Deux variables X et Y
sont presque-sûrement égale lorsque

P(X = Y ) = 1.

Proposition 4 (Admis). Pour p ≥ 1, l’espace Lp est un espace vectoriel normé complet 9 .


8. Empirique : Qui s’attache exclusivement à l’observation et au classement des données sans l’intervention
d’un système ou d’une théorie a priori. D’après le dictionnaire Larousse consultable en ligne.
9. C’est donc un espace de Banach.

10
Proposition 5 (Linéarité de l’espérance). Soit X et Y deux variables aléatoires intégrables 10 .
Alors, pour tout réels α et β,

E(αX + βY ) = αE(X) + βE(Y ).

On remarquera aussi que E(0) = 0 et E(1) = 1. Si l’espérance décrit la valeur moyenne


d’une distribution, la dispersion autour de celle-ci est caractérisée par la variance.
Definition 8. Soit X une variable aléatoire. La variance de X, lorsqu’elle est définie, est
donnée par
V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2 .
C’est la moyenne des carrés des écarts à la moyenne. Dans le cas discret, on a
X
E(X 2 ) = x2 P(X = x).
x∈X(Ω)

La variance est bien définie dès lors que cette quantité est finie.
Si X suit une loi binomiale de paramètre n et p alors X est une variable aléatoire à
valeurs discrètes puisqu’elle est à valeurs dans {0, . . . , n}. Son espérance est donnée par
n n  
X X n k
E(X) = kP(X = k) = k p (1 − p)n−k
k=0 k=0
k
n
X n!
= k pk (1 − p)n−k
k=1
k!(n − k)!
n
X (n − 1)!
= np pk−1 (1 − p)n−1−(k−1)
k=1
(k − 1)!(n − 1 − (k − 1)!
n−1  
X n−1 k
= np p (1 − p)n−1−k
k=0
k
= np(p + 1 − p)n−1 = np.

Le calcul de la variance est laissé en exercice.

2.3 Une série infinie de lancers


Lorsqu’on lance n fois une pièce de monnaie, on peut se demander si celle-ci est biaisée
ou pas, c’est-à-dire si l’on a autant de chance d’obtenir pile que face. Pour cela, on peut
considérer la fréquence, ou proportion empirique, des piles :
n
1X
Fn = Zi
n i=1

10. la preuve de cette proposition découle directement de la définition de l’espérance

11
Loi des grands nombres
0.6 Espérance

0.5

0.4

Sn/n
0.3

0.2

0.1
0 200 400 600 800 1000
n

Figure 3 – Loi des grands nombres.

où Zi est la variable aléatoire valant 1 si l’on fait pile au i-ième lancer et 0 sinon. Notons
p la probabilité de faire pile, qui nous est a priori inconnue. On peut espérer que lorsque n
grandit, la fréquence Fn se rapproche de p. C’est ce que nous indique le théorème fondamental
suivant 11 .

Proposition 6 (Loi des grands nombres). Soit (Zi )i∈N une suite de variables aléatoires
indépendantes et de même loi telle que E(|Z1 |) < ∞. Alors, au sens de la convergence
presque sûre,
n
1X
lim Zi = E(Z1 .
n→∞ n
i=1

On dit souvent que la moyenne empirique ( n1 ni=1 Zi ) converge vers la moyenne théorique
P
(l’espérance).

Voici un code python illustrant la loi des grands nombres pour une suite de variables
aléatoires uniformes sur [0, 1] et qui permet d’obtenir la Figure 3 et sert de base pour obtenir
la Figure 4.
n = int ( 1e3 )
S = np . cumsum ( npr . rand ( n ) ) / np . arange (1 , n + 1 )
plt . plot ( range (1 , n + 1 ) ,S , ’r ’ , label = " S_n " )
plt . plot (( 1 , n ) ,(.5 ,. 5 ) ,"b - - " , label = " Esperance " )
plt . ylabel ( ’ S_n ’)
plt . xlabel ( " n " )
plt . legend ( loc = ’ best ’)
plt . title ( " LGN " )

Les termes au sens de la convergence presque sûre signifient que l’évènement considéré
se produit avec probabilité 1, c’est-à-dire que
n
!
1X
P lim Zi = E(Z1 ) = 1.
n→∞ n
i=1

11. Nous le démontrerons au prochain chapitre, au moins dans un cas particulier.

12
Loi des grands nombres
1.0
Espérance
Tube d'ordre 1/ n
0.8

0.6

Sn/n
0.4

0.2

0.0
0 200 400 600 800 1000
n

Figure 4 – Loi des grands nombres : 100 trajectoires avec Sn = ni=1 Ui où√les Ui sont
P
uniformes sur [0, 1] et indépendants. On observe une dispersion de l’ordre de 1/ n. C’est la
bonne renormalisation pour obtenir une approximation à un ordre supérieur (donnée par le
théorème central limit).

Dans notre cas, E(Z1 ) = p, et donc (Fn )n≥1 converge bien presque-sûrement vers p.
Une remarque sur la modélisation. Remarquons que lorsque l’on dit que n tend vers
l’infini, cela veut dire que l’on joue à pile ou face une infinité de fois... Comment formaliser
cela, c’est-à-dire trouver un espace probabilisé modélisant cette expérience ?

Il est naturel de prendre pour Ω l’ensemble {P, F }N . Est-ce que l’ensemble des évène-

ments est P({P, F }N ) ? Pourquoi pas... mais est-ce que l’on peut construire une probabilité
∗ ∗
sur ({P, F }N , P({P, F }N )) ? Ce n’est en fait pas possible... 12
On peut construire un ensemble d’événements plus satisfaisant de la façon suivante. Pour
n ≥ 1, on note Fn l’ensemble des évènements que l’on peut décrire en ne considérant que les
n premiers lancers :
∗ ∗
Fn = {A ∈ {P, F }N ; ∃An ⊂ {P, F }n , A = {ω ∈ {P, F }N ; (ω1 , . . . , ωn ) ∈ An }}.
La suite d’ensembles (Fn ) est une suite croissante de tribus. En notant
[
F∞ = Fn ,
n∈N∗

un ensemble d’évènements satisfaisant est σ(F∞ ), la plus petite tribu (au sens de l’inclusion),
contenant F∞ . La probabilité P sur cette tribu est entièrement définie par sa donnée sur les
cylindres
Ci,ϵ = {ω ; ωi = ϵ}, i ∈ N∗ , ϵ ∈ {P, F },
par
1
P(Ci,ϵ ) = .
2
En termes simples, P est entièrement définie par le fait de dire que la probabilité de faire
pile (ou face) au i-ème lancer est 1/2.
La tribu que l’on a construite ici (σ(F∞ )) est fortement reliée à celle des boréliens.
12. Cela dépasse le cadre de ce cours et fait l’objet de l’Appendice 2.7.

13
2.4 Les variables aléatoires discrètes à connaître
Nous avons vu dans les sections précédentes les variables de Bernoulli et binomiale.
Nous allons les rappeler ici et rappeler aussi la définition des lois géométrique, de Poisson,
et uniforme sur un ensemble discret. Les lois binomiale négative et hypergéométrique sont
d’autres lois classiques qui ne sont pas rappelées ici.

Loi de Bernoulli
Elle modélise le résultat d’une expérience aléatoire à deux issues, qui l’on appelle souvent
« succès » et « échec ». Une telle expérience est dite de Bernoulli. Si l’on écrit 0 pour « échec
» et 1 pour « succès », alors une variable aléatoire X suit une loi de Bernoulli de paramètre
p ∈ [0, 1] si elle est à valeurs dans {0, 1} avec
P(X = 1) = p et P(X = 0) = 1 − p.
On a
E(X) = p et V(X) = p(1 − p).
On note X ∼ B(p).

Loi binomiale
Si l’on répète de façon indépendante n fois une expérience de Bernoulli de paramètre
p ∈[ 0, 1], on peut s’intéresser on nombre de succès X que l’on a obtenu. On dit que X suit
une loi binomiale de paramètre n et p et on note X ∼ B(n, p). La variable X est alors à
valeurs dans {0, . . . , n} et
 
n k
∀k ∈ {0, . . . , n}, P(X = k) = p (1 − p)n−k .
k
On a
E(X) = np et V(X) = np(1 − p).
Si {X1 , . . . , Xn } est une famille de variables aléatoires indépendantes et de même loi de
Bernoulli de paramètre p, alors
X1 + . . . + Xn ∼ B(n, p).
La loi binomiale est stable par addition lorsqu’il y a indépendance : si X ∼ B(n, p) et
Y ∼ B(m, p) alors X + Y ∼ B(n + m, p).

Loi géométrique
On note X le rang du premier succès lors de n expériences de Bernoulli indépendantes
de paramètre p ∈ [0, 1]. On dit que X suit une loi géométrique de paramètre p et on note
X ∼ G(p). La variable X est à valeurs dans N∗ et on a
∀k ∈ N, P(X = k) = (1 − p)k−1 p.

14
On a, lorsque p > 0,
1 1−p
E(X) = et V(X) = .
p p2
La loi géométrique est stable par passage au minimum lorsqu’il y a indépendance : si X ∼
G(p1 ) et Y ∼ G(p2 ) alors min(X, Y ) ∼ G(p1 + p2 ).

Loi de Poisson
Une variable aléatoire X qui suit une loi de Poisson de paramètre λ > 0 est à valeurs
dans N avec
λk
∀k ∈ N, P(X = k) = e−λ .
k!
On note X ∼ P(λ). On a, lorsque p > 0,

E(X) = λ et V(X) = λ.

La loi de Poisson est stable par addition lorsqu’il y a indépendance : si X ∼ P(λ) et Y ∼ P(µ)
alors X + Y ∼ P(λ + µ). Une variable aléatoire de Poisson compte, comme la loi binomiale,
un nombre de succès. On peut d’ailleurs la voir comme une limite de cette dernière lorsque
la probabilité de succès est petite. Vous montrerez en travaux dirigés le résultat suivant.
Proposition 7. Soit n ∈ N∗ , λ > 0 et Xn ∼ B(n, λ/n). On a,

λk −λ
lim P(Xn = k) = e .
n→∞ k!

Loi uniforme sur un ensemble fini


Une variable aléatoire X suit une loi uniforme sur un ensemble fini {x1 , . . . , xn }, n ∈ N∗ ,
si
1
∀k ∈ {1, . . . , n}, P(X = xk ) = .
n
Est-il possible de considérer une loi uniforme sur N ?

2.5 Vers la loi uniforme sur [0, 1]


Comment tirer un réel au hasard uniformément dans l’intervalle [0, 1] ? Une façon de
faire est de tirer au hasard chaque chiffre de la partie décimale du réel que l’on veut tirer
au hasard. Et si l’on ne possède qu’une pièce de monnaie pour faire ça, on peut écrire son
développement en écriture binaire. Pour rappel, en utilisant l’écriture binaire, 439 s’écrit
110110111 car

439 = 1 × 20 + 1 × 21 + 1 × 22 + 0 × 23 + 1 × 24 + 1 × 25 + 0 × 26 + 1 × 27 + 1 × 28 .

Ainsi, tirer un réel au hasard entre 0 et 1 revient à lancer une infinité de fois un pièce de
monnaie... Si on veut tirer un réel au hasard avec un développement binaire de longueur n,

15
on peut lancer n fois une pièce de monnaie équilibrée avec pour résultats Z1 , Z2 ,..., Zn et
considérer n
X Zk
Xn = k
.
k=1
2
La variable aléatoire Xn est bien à valeurs dans [0, 1]. Peut-on décrire, caractériser, la limite
de Xn lorsque n tend vers l’infini ? Il nous faut pour cela d’abord caractériser la loi de Xn
pour n fini.
Proposition 8 (Caractérisation de la loi d’une variable aléatoire). La loi d’une variable
aléatoire réelle X est caractérisée par la donnée d’une des fonctions suivantes :
1. sa fonction de répartition :

FX : x ∈ R 7→ P(X ≤ x).

La fonction FX est croissante et telle que 13

lim FX (x) = 1, et lim FX (x) = 0.


x→∞ x→−∞

Elle est aussi continue à droite :

lim FX (xn ) = FX (x).


xn ↘x

et limité à gauche : limxn ↗x FX (xn ) existe dans R.


2. sa fonction caractéristique 14 :

ϕX : t ∈ R 7→ E(eitX ).

Deux variables aléatoires réelles X et Y qui ont même fonction de répartition ou bien même
fonction caractéristique ont la même loi : pour tout intervalle I de R, on a

P(X ∈ I) = P(Y ∈ I).

Les propriétés de base de la fonction de répartition sont les suivantes :


Proposition 9. Soit X : Ω → R une variable aléatoire et F sa fonction de répartition.
Soient x ≤ y des réels. On a
13. la fonction de répartition relie 0 à 1 de façon croissante.
14. c’est une fonction à valeurs complexes :

E(eitX ) = E(cos(tX) + i sin(tX))

On la notera toujours à l’aide de la lettre ϕ. Remarquez que

ϕ′ (0) = E(iX), ϕ′ (0) = −E(X 2 ).

16
i) P(X > x) = 1 − F (x),
ii) P(x < X ≤ y) = F (y) − F (x),
iii) P(X < x) = F (x−),
iv P(X = x) = F (x) − F (x−).
En particulier, F est continue en x si et seulement si P(X = x) = 0.
Démonstration. Les propriétés i) et ii) découlent directement de la définition de F . Pour iii), on remarque
que {X ≤ x − n1 } ↗ {X < x} donc par convergence monotone,

1 1
F (x − ) = P(X ≤ x − ) ↗ P(X < x).
n n
Comme on a aussi limn→∞ F (x − n1 ) = F (x−), iii) est démontrée.
On obtient alors iv) en écrivant P(X = x) = P(X ≤ x) − P(X < x).

Dans notre cas, on peut calculer 15 la fonction caractéristique de Xn . Pour tout t ∈ R,

t n) sin(t/2)
ϕXn (t) = E(eitXn ) = ei 2 (1−(1/2) .
2n sin(t/2n+1 )

Lorsque n tend vers l’infini, ϕXn (t) converge vers

sin(t/2) eit − 1
eit/2 = = ϕ(t).
t/2 it

Est-ce que ϕ est la fonction caractéristique d’une variable aléatoire réelle ? Il suffit de remar-
quer que Z 1
eit − 1
Z
itx
= e dx = eitx 1[0,1] (x)dx = E(eitU ),
it 0 R

où U est une variable aléatoire de densité 1[0,1] , appelée loi uniforme sur [0, 1].

Definition 9 (Variable aléatoire à densité). Une variable aléatoire réelle X a pour densité
fX une fonction, disons continue par morceaux de R dans R, positive et telle que
Z
fX (x)dx = 1,
R

si pour toute fonction continue par morceaux et bornée (ou positive) g 16 ,


Z
E(g(X)) = g(x)fX (x)dx.
R

On dit que X est une variable aléatoire continue ayant pour densité fX . La densité caractérise
la loi.
15. vous le ferez en exercice.
16. Ou plus généralement mesurable sur R.

17
1.0

0.8

0.6

0.4

0.2

0.0
1.0 0.5 0.0 0.5 1.0 1.5 2.0

Figure 5 – Fonction de répartition de la loi uniforme sur [0, 1].

Lorsque U a pour densité 1[0,1] , on a donc, pour toute fonction g continue par morceaux
et bornée Z Z 1
E(g(U )) = g(x)1[0,1] (x)dx = g(x)dx.
R 0
En particulier, l’espérance et la variance sont caractérisées de la façon suivante dans le cas
continu.
Proposition 10 (Théorème de transfert pour une variable aléatoire à densité). Soit X une
variable aléatoire réelle ayant pour densité fX et g une fonction continue par morceaux.
Alors, si Z
|g(x)|fX (x)dx < ∞
R
ou si g est positive, on a Z
E(g(X)) = g(x)fX (x)dx.
R

La fonction de répartition de la loi uniforme est donc, pour x ∈ R :


Z
FU (x) = P(U ≤ x) = E(1]−∞,x] (U )) = 1]−∞,x] (t)1[0,1] (t)dt
R
 1 si x ≥ 1,
= x si x ∈ [0, 1],
0 sinon.

Traçons cette fonction de répartition (Figure 5) :


x = np . linspace ( -1 ,2 , 1000 )
f_x = sps . uniform . cdf ( x )
plt . plot (x , f_x , " r " , label = " Theorie " , color = " blue " )

On remarque que cette fonction de répartition est continue. C’est un fait général pour les
variables aléatoires à densité, et c’est pour cela qu’elles sont dites continues 17 . Remarquez
17. Néanmoins il existe des variables aléatoires continues qui ne sont pas à densité. Et évidemment, il
existe des variables qui ne sont ni continues, ni discrètes.

18
que dans ce cas :
∀x ∈ R, P(X = x) = 0.
Proposition 11. La fonction de répartition d’une variable aléatoire X de densité fX s’écrit,
pour tout réel x, Z x
FX (x) = P(X ≤ x) = fX (t)dt.
−∞

Si FX est dérivable 18 en x, on a donc FX′ (x) = fX (x).


Proposition 12. La fonction de répartition d’une variable aléatoire à densité est continue.
On a montré que la fonction caractéristique de Xn converge ponctuellement vers la fonc-
tion caractéristique de la loi uniforme sur [0, 1] : pour tout t ∈ R,
lim ϕXn (t) = ϕU (t),
n→∞

On dit que (Xn ) converge en loi vers la loi uniforme comme indiqué dans la définition-
proposition suivante.
Proposition 13 (Convergence en loi). Une suite de variable aléatoire réelle (Xn ) converge
en loi vers une variable aléatoire X∞ si l’une des deux conditions suivantes (équivalentes)
est satisfaite :
1. il y a convergence ponctuelle des fonctions caractéristiques :
∀t ∈ R, lim ϕXn (t) = ϕX∞ (t).
n→∞

2. il y a convergence des fonctions de répartition, là où la fonction de répartition FX∞


de X∞ est continue 19 :
∀x ∈ R tel que FX∞ est continue en x, lim FXn (x) = FX∞ (x).
n→∞

2.6 Les lois à densité à connaître


Loi uniforme sur un intervalle
Une variable aléatoire U suit la loi uniforme sur l’intervalle [a, b], avec a < b deux réels,
si elle a pour densité
1
fU : x ∈ R 7→ 1[a,b] (x).
b−a
On note U ∼ U([a, b]). Sa fonction de répartition est donnée par

 1 si x ≥ b,
x−a
FU : x ∈ R 7→ si x ∈ [a, b[,
 b−a
0 si x < a.
18. est-ce que FX peut ne pas l’être ?
19. si on enlève cette dernière condition, est-ce que la suite (1/n) converge en loi vers 0 ?

19
On a
a+b (b − a)2
E(U ) = , V(U ) = .
2 12
La loi uniforme est stable par affinité : si U suit une loi uniforme sur [a, b] alors, pour α et
β deux réels avec alhpa non nul, αU + β suit encore une loi uniforme. Sur quel intervalle ?

Loi exponentielle
Une variable aléatoire E suit la loi exponentielle de paramètre λ > 0, si elle a pour densité

fE : x ∈ R 7→ λe−λx 1[0,+∞[ (x).

On note E ∼ E(λ). Sa fonction de répartition est donnée par

1 − e−λx si x ≥ 0,

FE : x ∈ R 7→
0 si x < 0.

On a
1 1
E(E) = , V(E) = 2 .
λ λ
La loi exponentielle est l’analogue continu de la loi géométrique. Elle est comme elle stable
par rapport au minimum : si E1 et E2 sont deux variables aléatoires indépendantes de lois
E(λ1 ) et E(λ2 ) alors min(E1 , E2 ) ∼ E(λ1 + λ2 ).

Loi Gamma
Une variable aléatoire G suit la loi gamma de paramètre p et λ strictement positifs, si
elle a pour densité
1 p−1 p −λx
fG : x ∈ R 7→ x λ e 1[0,+∞[ (x),
Γ(p)
où la renormalisation est donnée par la fonction gamma :
Z ∞
1 p−1 −x
Γ(p) = x e dx.
0 Γ(p)

Cette fonction vérifie Γ(1) = 1 et pour p > 0, Γ(p + 1) = pΓ(p). On note G ∼ γ(p, λ).
Remarquez que pour p = 1 on retrouve la loi exponentielle. On a :
p p
E(G) = , V(G) = .
λ λ2
La loi gamma est stable par addition lorsqu’il y a indépendance : si X ∼ γ(p, λ) et Y ∼
γ(p′ , λ) sont indépendantes alors X + Y ∼ γ(p + p′ , λ).

20
Loi Normale
Une variable aléatoire Z suit la loi normale de paramètres µ ∈ R et σ > 0 si elle a pour
densité
1 1 x−µ 2
fZ : x ∈ R 7→ √ e− 2 ( σ ) .
2πσ 2
On a
E(Z) = µ et V(Z) = σ 2 .
Nous reviendrons à plusieurs reprises sur cette loi dans le cours.

Un tableau récapitulatif
Pour terminer cette section, le tableau suivant rassemble l’espérance, la variance et la
fonction caractéristique des usuelles présentées dans cette section.

Nom Paramètre(s) Espérance Variance ϕX (t)


a+b (a−b)2 eitb −eita
Uniforme a < b deux réels 2 12 it(b−a)
1 1 1
Exponentielle λ ∈]0, +∞[ λ λ2 it
 1− λ p
p p 1
Gamma (p, λ) ∈]0, +∞[×]0, +∞[ λ λ2 1− it
λ
σ 2 t2
Normale (m, σ 2 ) ∈ R×]0, +∞[ m σ2 eitm− 2
Bernoulli p ∈ [0, 1] p p(1 − p) 1 − p + peit
Binomiale (n, p) ∈ N∗ × [0, 1] np np(1 − p) (1 − p + peit )n
1 1−p peit
Géométrique p ∈ [0, 1] p p2 1−(1−p)eit
λ(eit −1)
Poisson λ ∈]0, ∞[ λ λ e

2.7 Appendices
Appendice A : un exemple de variable ni discrète, ni continue
Terminons cette section en donnant un exemple de variable ni discrète, ni continue. Soit
Θ un variable aléatoire suivant une loi uniforme sur [0, 2π]. Posons X = max(Θ, π). La
fonction de répartition de X a le graphe suivant :

π 2π

La variable X n’est donc pas continue puisque P(X = π) = 12 . Elle n’est pas non plus
discrète puisque sa fonction de répartition n’est pas en escalier. Plus précisément, on voit
sur le graphe que P(X = x) = 0 pour tout x ̸= π. Par conséquent, si D est un ensemble
dénombrable, alors P(X ∈ D) vaut 0 ou 21 selon que π appartienne à D ou pas. Dans tous les

21
cas P(X ∈ D) < 1 et X ne peut pas être discrète. On peut néanmoins calculer l’espérance
de X. Remarquons que max(Θ, π) = π1Θ<π + Θ1Θ≥π . Par linéarité de l’espérance on a donc

E(X) = πE(1Θ<π ) + E(Θ1Θ≥π ).

Comme Θ est une variable uniforme sur [0, 2π], on a


Z 2π
1 1
E(1Θ<π ) = 1x<π dx = ,
2π 0 2
Z 2π
1 3π
E(Θ1Θ≥π ) = x1x≥π dx = .
2π 0 4
π 3π 5π
Donc E(X) = 2
+ 4
= 4
.

Appendice B : de l’impossibilité de construire une probabilité satisfaisante sur


les parties de {0, 1}N
Nous présentons ce résultat sous forme d’exercice. On se place dans le cadre d’un « pile

ou face »infini. L’univers est {0, 1}N , l’ensemble des suites à valeurs dans {0, 1}, avec 0 pour
face et 1 pour pile.

Soit P une probabilité éventuelle sur P({0, 1}N ). Il est naturel de demander que P assigne
la même probabilité aux singletons

{(ωi )i≥1 } et {(ωσ(i) )i≥1 }

où σ est une permutation qui échange un nombre fini d’indices.


On souhaite par exemple que la probabilité de faire pile au lancer i puis face au lancer j soit
égal à la probabilité de faire pile au lancer j et face au lancer i.
On dit que la permutation σ est une permutation à support fini lorsqu’il existe un sous-
ensemble S de N∗ , tel que #S < ∞ et σ(i) = i pour tout i ∈ N∗ \ S. On note Σ<∞
l’ensemble des permutations à support fini, il y a un nombre dénombrable de telles permu-
tations (ceci n’est pas évident).

Supposons donc qu’il existe une probabilité P sur P({0, 1}N ) qui soit invariante par per-
mutation à support fini. On considère la relation d’équivalence suivante :

ω ∼ ω ′ ⇐⇒ ω, ω ′ ∈ P({0, 1}N ), ∃σ ∈ Σ<∞ , ωσ = ω ′ .

C’est-à-dire que ω et ω ′ sont dans la même classe d’équivalence si l’on peut transformer l’un
en l’autre en échangeant un nombre fini d’indices. En utilisant l’axiome du choix, on peut
construire l’ensemble V qui contient un et un seul représentant de chaque classe.
1. Montrer que

[
{0, 1}N = {ωσ ; ω ∈ V }.
σ∈Σ<∞

22
2. En déduire que

X
P({0, 1}N ) = P(V ).
σ∈Σ<∞

puis une contradiction.


3. Bonus : Montrer que l’ensemble des permutations à support fini est dénombrable.

23
3 Convergences de variables aléatoires
Dans toute la section, les variables aléatoires sont définies sur un espace probabilisé
(Ω, A, P) et sont, sauf mention contraire, à valeurs dans R.

3.1 Indépendance
Definition 10. Une famille quelconque de variables aléatoires Xi , i ∈ I, sur Ω et à valeurs
dans R est une famille de variables aléatoires indépendantes si pour tout sous-ensemble
J ⊂ I fini et tous les intervalles Bj ⊂ R, j ∈ J,
!
\ Y
P {Xj ∈ Bj } = P(Xj ∈ Bj ).
j∈J j∈J

Si on a seulement,
P(Xi ∈ A; Xj ∈ B) = P(Xi ∈ A)P(Xj ∈ B)
pour tout i ̸= j et A, B deux intervalles de R, on dit que les variables Xi , i ∈ I, sont deux
à deux indépendantes.

Proposition 14 (Cas des variables discrètes). Soient X et Y des variables discrètes, X et


Y sont indépendantes si et seulement si

P(X = x; Y = y) = P(X = x)P(Y = y), ∀x, y ∈ R.

Démonstration. On suppose que l’égalité a lieu. Soient A et B des intervalles de R, on a


X
P(X ∈ A; Y ∈ B) = P(X = i; Y = j)
i∈A∩X(Ω),j∈B∩Y (Ω)
X
= P(X = i)P(Y = j)
i∈A,j∈B
X X
= P(X = i) P(Y = j)
i∈A∩X(Ω) j∈B∩Y (Ω)

= P(X ∈ A)P(Y ∈ B),

ce qui montre que X et Y sont indépendantes. La réciproque est évidente.

Exemple. On lance deux dés, on appelle X et Y les résultats respectifs du premier et du


deuxième dé. On a
1
P(X = 2; Y = 3) = = P(X = 2)P(Y = 3).
36
Donc {X = 2} est indépendant de {X = 3} et de même pour les autres valeurs de X et Y .
Ainsi X est indépendant de Y .

24
Attention, ceci n’est vrai que pour les variables discrètes. Par exemple, si X et Y sont
continues, on a toujours,

P(X = x; Y = y) = 0 = P(X = x)P(Y = y).

L’indépendance permet de transformer l’espérance d’un produit en produit d’espérances.

Proposition 15 (Admise). Une famille quelconque de variables aléatoires Xi , i ∈ I, est


indépendante si et seulement si pour tout sous-ensemble J ⊂ I et toute famille de fonctions,
disons continues par morceaux 20 , ϕj , j ∈ J, telles que ϕj (Xj ), j ∈ J soient intégrables,
!
Y Y
E ϕj (Xj ) = E(ϕj (Xj )).
j∈J j∈J

On en déduit le corollaire suivant.

Corollaire 1 (Admis). La famille {X1 , . . . , Xn } de variables aléatoires réelles est indépen-


dante si et seulement si pour tout (t1 , . . . , tn ) ∈ Rn ,
Pn
ϕ(X1 ,...,Xn ) (t1 , . . . , tn ) := E(e i=1 ti Xi ) = ϕX1 (t1 ) . . . ϕXn (tn ).

Proposition 16. Soient X et Y des variables réelles indépendantes alors ϕX+Y = ϕX ϕY .


Démonstration. En effet, par indépendance, pour t ∈ R :
ϕX+Y (t) = E(eit(X+Y ) ) = E(eitX eitY ) = E(eitX )E(eitY ) = ϕX (t)ϕY (t).

Exemple. Soit X et Y des variables aléatoires indépendantes suivant des lois de Poisson
de paramètres λ et µ respectivement. On a, pour t ∈ R :

ϕX+Y (t) = ϕX (t)ϕY (t)


it −1) it −1)
= eλ(e eµ(e
it −1)
= e(λ+µ)(e .

On reconnaît la fonction caractéristique d’une loi de Poisson de paramètre λ + µ. Comme


la fonction caractéristique caractérise la loi, la variable X + Y suit la loi de Poisson de
paramètre λ + µ.

Rappelons la définition de la covariance.

Definition 11. On appelle covariance de deux variables de carré intégrable la quantité

Cov(X, Y ) = E(XY ) − E(X)E(Y ).


20. Ou plus généralement pour toute fonction f mesurable sur R.

25
Comme 2|XY | ≤ X 2 + Y 2 , la covariance de X et Y est bien définie dès que X et Y sont
de carré intégrable.
La covariance sert notamment à calculer la variance d’une somme :
n
! n
X X X
V Xi = V(Xi ) + 2 Cov(Xi , Xj )
i=1 i=1 1≤i<j≤n

pour toute famille X1 , . . . , Xn de variables de carré intégrable.

Proposition 17. Si X, Y sont indépendantes et de carré intégrable alors Cov(X, Y ) = 0.

Démonstration. En effet, dans ce cas, on a E(XY ) = E(X)E(Y ).


Attention, la réciproque n’est pas vraie, on peut avoir Cov(X, Y ) = 0 sans que X et Y
soient indépendantes 21 .

Definition 12. On dit que deux variables de carré intégrable sont non corrélées si Cov(X, Y ) =
0. Dans le cas contraire, elles sont dites corrélées.

Donc si X1 , . . . , Xn est une suite de variables indépendantes on a


n
! n
X X
V Xi = V(Xi ).
i=1 i=1

Exemple. On peut retrouver la variance de la loi binomiale de cette façon. Soient X1 , . . . , Xn


Pn une suite de variables indépendantes suivant toutes la loi de Bernoulli B(p). Alors Z =
est
i=1 Xi a pour variance :

n
! n n
X X X
V(Z) = V Xi = V(Xi ) = p(1 − p) = np(1 − p).
i=1 i=1 i=1

Notation. Des variables aléatoires indépendantes suivant toutes la même loi sont dite i.i.d.
(pour « indépendantes identiquement distribuées »).

3.2 Convergences en probabilité, presque-sûre et dans Lp


Revenons sur une situation déjà rencontrée au chapitre précédent. Soit (Xi )i≥1 une suite
de variables indépendantes et de même loi de Bernoulli de paramètre p ∈]0, 1[. En utilisant
21. On peut par exemple considérer le couple (X, Y ) de loi uniforme sur le disque unité, voir Section 4.

26
l’inégalité de Tchebychev 22 , on a, pour tout ε > 0,
n
!
V n1 ni=1 Xi
P 
1X p(1 − p)
P Xi − p ≥ ε ≤ = .
n i=1 ε2 nε2

Ceci montre que, !


n
1X
∀ε > 0, lim P Xi − p ≥ ε = 0.
n→∞ n i=1

On dit que la suite de variables aléatoires n1 ni=1 Xi n≥1 converge vers p en probabilité.
P 

Definition 13. On dit qu’une suite (Zn )n≥1 de variables aléatoires converge vers Z en pro-
babilité si
∀ε > 0, lim P (|Zn − Z| ≥ ε) = 0.
n→∞

Proposition 18. La limite en probabilité, si elle existe, est presque sûrement unique.
Démonstration. En effet, considérons Z1 et Z2 deux variables aléatoires étant limites en probabilité d’une
suite (Zn )n≥1 . Pour tout ε > 0 on a :

P(|Z1 − Z2 | ≥ ε) ≤ P(|Z1 − Zn | + |Z2 − Zn | ≥ ε) ≤ P(|Z1 − Zn | ≥ ε/2) + P(|Z2 − Zn | ≥ ε/2) −→ 0.


n→∞

Donc P(|Z1 − Z2 | ≥ ε) = 0 pour tout ε > 0 et


∞  ! ∞   X∞
[ 1 X 1
P(|Z1 − Z2 | > 0) ≤ P |Z1 − Z2 | ≥ ≤ P |Z1 − Z2 | ≥ = 0 = 0.
k k
k=1 k=1 k=1

Donc P(|Z1 − Z2 | = 0) = 1 et donc Z1 = Z2 P-p.s.

Remarquons que pourPnl’exemple considéré, on a déduit la convergence


Pn en probabilité de
1 1
 
la suite de variable n i=1 Xi n≥1 de la convergence vers 0 de V n i=1 Xi c’est à dire
de la convergence de 
n
!2 
1 X
E Xi − p 
n i=1
1
Pn 
vers 0. On dit que la suite de variables aléatoires n i=1 Xi n≥1
converge vers p dans
L2 ((Ω, A, P)).
22. Vu en prépa, mais on ne sait jamais : soit X une variable aléatoire admettant une variance, alors pour
tout réel strictement positif a,
V(X)
P(|X − E(X)| ≥ a) ≤ .
a2
Cette inégalité découle de celle de Markov : pour toute variable aléatoire X positive, on a

E(X)
P(X ≥ a) ≤ .
a
Il est indispensable de bien connaître l’inégalité de Markov.

27
Definition 14. Pour p ≥ 1, on dit qu’une suite (Zn )n≥1 de variables aléatoires de Lp ((Ω, A, P))
converge vers Z dans Lp ((Ω, A, P)) si

lim E (|Zn − Z|p ) = 0.


n→∞

Pour simplifier, on parlera de convergence dans Lp .


La limite Z est alors forcément dans Lp 23 .
Proposition 19. La convergence dans Lp implique la convergence en probabilité. En parti-
culier, la limite Z dans Lp est donc encore unique P-p.s.
Démonstration. L’inégalité de Markov montre que pour tout ε > 0 et n ≥ 1,
1 p
P (|Zn − Z| ≥ ε) ≤ E (|Zn − Z| ) .
εp
La convergence dans Lp implique donc la convergence en probabilité. La limite Z dans Lp est donc encore
unique P-p.s.
1
Pn 
Dans l’exemple considéré, à t-on P-p.s. convergence ponctuelle de la suite n i=1 Xi n≥1
?
C’est-à-dire, peut-on montrer que l’ensemble des ω ∈ Ω tels que
n
1X
lim Xi (ω) = 1
n→∞ n
i=1

est de probabilité 1 ?
Definition 15. On dit qu’une suite (Zn )n≥1 de variables aléatoires converge presque-sûrement
vers Z si  
P lim Zn = Z = 1.
n→∞

Voici une caractérisation de la convergence presque-sûre.


Proposition 20. Une suite (Zn )n≥1 de variables aléatoires converge presque-sûrement vers
Z si et seulement si
!
[
∀ε ≥ 0, lim P {|Zn − Z| ≥ ε} = 0.
N →∞
n≥N

Démonstration. Remarquons que \


{ lim Zn = Z} = Aε
n→∞
ε>0
S T
où Aε = N ∈N n≥N {|Zn − Z| < ε}. Les ensembles Aε étant croissants en ε, on montre facilement que
\ \
Aε = A k1 ,
ε>0 k≥1

23. Pour p ≥ 1, on rappelle que Lp est l’espace des variables aléatoires réelles X telles que E(|X|p ) < ∞
un espace de Banach : un espace vectoriel normé complet.

28
ce qui a l’avantage de nous ramener à une intersection dénombrable. Une intersection dénombrable d’événe-
ments quasi-certains 24 étant quasi-certaine, on a
 
P lim Zn = Z = 1 ⇐⇒ ∀k ≥ 1, P(A k1 ) = 1.
n→∞

En passant au complémentaire, on obtient,


 
  \ [
P lim Zn = Z = 1 ⇐⇒ ∀k ≥ 1, P {|Zn − Z| ≥ 1/k} = 0.
n→∞
N ∈N n≥N

T S
L’événement N ∈N n≥N {|Zn − Z| ≥ 1/k} se note

lim sup{|Zn − Z| ≥ 1/k}.


n→∞

Dire que ω ∈ lim supn→∞ {|Zn − Z|S


≥ 1/k} équivaut à dire que |Zn (ω) − Z(ω)| ≥ 1/k pour une infinité de
n. Remarquons que les événements n≥N {|Zn − Z| ≥ 1/k} sont décroissants en N de tel sorte que
   
\ [ [
P {|Zn − Z| ≥ 1/k} = lim P  {|Zn − Z| ≥ 1/k} .
N →∞
N ∈N n≥N n≥N

Donc  
  [
P lim Zn = Z = 1 ⇐⇒ ∀k ≥ 1, lim P  {|Zn − Z| ≥ 1/k} = 0.
n→∞ N →∞
n≥N

On en déduit facilement le résultat suivant.

Proposition 21. La convergence presque-sûre implique la convergence en probabilité. Par


conséquent, la limite presque-sûre d’une suite de variables aléatoires est presque-sûrement
unique.

Retournons à l’exemple, comment montre-t-on la convergence presque-sûre de la suite


1
P n 
n i=1 Xi n≥1 vers p ? Un outil très utile est le lemme de Borel-Cantelli.

Lemme 1P(Lemme de Borel-Cantelli). Soit (An )n≥1 une suite d’événements.


— Si n≥1 P(An ) < ∞, alors P(lim supn→∞ AP n) = 0 ;
— Si les événements An sont indépendants et si n≥1 P(An ) = ∞ alors P(lim supn→∞ An ) =
1.
Démonstration. Si
P
n≥1 P(An ) < ∞, on a
\ [ [ X
P(lim sup An ) = P( An ) = lim P( An ) ≤ lim P(An ) = 0
n→∞ N →∞ N →∞
N ∈N n≥N n≥N n≥N

24. A ∈ A est quasi-certain si P(A) = 1.

29
car la série est convergente. P
Si les événements An sont indépendants et si n≥1 P(An ) = ∞, on a, en utilisant en premier qu’une
intersection d’événements quasi-certains est quasi-certaine, puis l’indépendance des Acn :
[
P(lim sup An ) = 1 ⇐⇒ ∀N ≥ 1, P( An ) = 1
n→∞
n≥N
\
⇐⇒ ∀N ≥ 1, P( Acn ) = 0
n≥N
m
\
⇐⇒ ∀N ≥ 1, lim P( Acn ) = 0
m→∞
n=N
m
Y
⇐⇒ ∀N ≥ 1, lim P(Acn ) = 0
m→∞
n=N
m
Y
⇐⇒ ∀N ≥ 1, lim (1 − P(An )) = 0.
m→∞
n=N
Qm Qm Pm
Or n=N (1 − P(An )) ≤ n=N e−P(An ) = e− n=N P(An )
et puisque la série diverge :
m
Y Pm
lim (1 − P(An )) ≤ lim e− n=N P(An )
= 0.
m→∞ m→∞
n=N

D’où le résultat.

Dans l’exemple, en utilisant l’inégalité de Markov, pour tout ε > 0, on a


 
∞ n
! ∞ n 4
X 1 X X 1  1 X
P Xi − p ≥ ε ≤ 4
E Xi − p  .
n=1
n i=1 n=1
ε n i=1

Le lecteur montrera qu’il existe une constante positive C telle que


 
n 4
1 X C
E Xi − p  ≤ 2 .
n i=1 n

Ainsi, par comparaison, la série ∞


P 1
Pn 
n=1 P n i=1 Xi − p ≥ ε converge. D’après le lemme
de Borel-Cantelli, on en déduit que pour tout ε > 0
n
1X
P(lim sup Xi − p ≥ ε) = 0,
n→∞ n i=1

c’est à dire que pour tout εP> 0 l’événement n1 ni=1 Xi − p ≥ ε a lieu pour un nombre
 P

fini de n et donc limn→∞ n1 ni=1 Xi = p, P-p.s. Ce résultat ce généralise. On énonce ainsi la


loi (forte) des grands nombres 25 .
25. Nous avons déjà énoncé et illustré (Figure 3) la loi forte des grands nombres dans la section précédente,
je vous invite à retourner voir l’illustration.

30
1.0 Z_n

0.8

0.6

0.4

0.2

0.0
0 2000 4000 6000 8000 10000

Figure 6 – Une une suite qui ne converge pas presque-sûrement mais qui converge en
probabilité.

Théorème 1 (Admis dans le cas général). Soit (Zn )n≥1 une suite de variables aléatoires
indépendantes et de même loi telle que E(|Z1 |) < ∞. On a
n
1X
lim Zi = E(Z1 ), P − p.s.
n→∞ n
i=1

Exemple. Soit (Rn )n∈N∗ une suite de variables aléatoires indépendantes et de même loi de
Rademacher de paramètre p ∈]0, 1[, c’est-à-dire que pour tout n ∈ N∗ ,

P(Rn = 1) = p et P(Rn = −1) = 1 − p.

Soit S0 = x avec x ∈ Z et pour n ∈ N∗ , Sn = x + nk=1 Rk . On dit que (Sn ) est la marche


P
aléatoire simple sur Z partant de x et de paramètre p. D’après la loi forte des grands nombres,
au sens de la convergence presque-sûre,
 
Sn 1
lim = E(R1 ) = p × 1 + (1 − p) × (−1) = 2p − 1 = 2 p − .
n→∞ n 2
Donc, si p > 1/2, (Sn ) tend vers +∞ presque sûrement et si p < 1/2, (Sn ) tend vers −∞
presque sûrement. Et lorsque p = 1/2 ? Ce sera une application du théorème central limit
que nous allons voir dans la suite.
Nous avons vu que la convergence dans Lp (resp. la convergence presque-sûre) implique
la convergence en probabilité. Les deux exemples suivant montrent que la réciproque est
fausse.
Exemple. Soit (Zn )n≥1 une suite de variables indépendantes telles que, pour n ≥ 1,
1 1
P(Zn = 0) = 1 − , P(Zn = 1) = .
n n
Pour tout ε > 0, on a
1
P(|Zn | ≥ ε) = P(Zn = 1) = −→ 0.
n n→∞

31
6
4
2
0
2
4
6

0 200 400 600 800 1000

Figure 7 – Cinq trajectoires d’une suite qui ne converge pas dans Lp mais qui converge en
probabilité.

Donc la suite (Zn )n≥1 tend vers 0 en probabilité. Mais comme


∞ ∞
X X 1
P(Zn = 1) = = ∞,
n=1 n=1
n

d’après le lemme de Borel-Cantelli (cas où l’on a indépendance), l’événement {Zn = 1} a


lieu pour une infinité de n, P-p.s. Donc la suite (Zn )n≥1 ne tend pas presque-sûrement vers
0.

Exemple. Soit, pour n ≥ 1, Tn suivant une loi de Cauchy de paramètre n1 , c’est-à-dire ayant
pour densité
1/n
∀x ∈ R, fn (x) = .
π((1/n)2 + x2 )
Remarquons que Tn n’est pas dans Lp pour p ≥ 1 et donc las suite (Tn )n≥1 ne peut pas
converger dans Lp . Néanmoins, pour tout ε > 0,
Z ε
2
P(|Tn | ≥ ε) = 1 − fn (x)dx = 1 − arctan(nε) −→ 0.
−ε π n→∞

D’où la convergence en probabilité de la suite (Tn )n≥1 vers 0.

Le première exemple inspire le critère de convergence presque-sûre suivant, qui découle


donc du lemme de Borel-Cantelli.

Proposition 22. Soit (Zn )n≥1Pune suite de variables aléatoires et Z une autre variable
aléatoire. Si, pour tout ε > 0, n≥1 P(|Zn − Z| > ε) < ∞ alors la suite (Zn )n≥1 converge
presque-sûrement vers Z.

32
3.3 Convergence en loi et théorème central limit
La convergence la plus faible que nous ayons vu jusqu’alors est la convergence en proba-
bilité. Cette convergence implique une certaine convergence des fonctions de répartitions.

Proposition 23. La convergence en probabilité implique la convergence de la fonction de


répartition en tous les points où la fonction de répartition limite est continue.
Démonstration. En effet, soit (Zn )n≥1 une suite de variables aléatoires réelles convergeant en probabilité
vers Z. Soit x un point de continuité de la fonction de répartition F de Z. Si on note Fn la fonction de
répartition de Zn , on a, pour tout ε > 0,

Fn (x) = P(Zn ≤ x) = P(Zn ≤ x ; Z ≤ x + ε) + P(Zn ≤ x ; Z > x + ε)


≤ P(Z ≤ x + ε) + P(Z − Zn ≥ ε)
≤ F (x + ε) + P(|Z − Zn | ≥ ε).

Donc Fn (x) − F (x) ≤ F (x + ε) − F (x) + P(|Zn − Z| ≥ ε). D’autre part,

F (x − ε) = P(Z ≤ x − ε) = P(Zn ≤ x ; Z ≤ x − ε) + P(Zn > x ; Z ≤ x − ε)


≤ P(Zn ≤ x) + P(Zn − Z ≥ ε)
≤ Fn (x) + P(|Zn − Z| ≥ ε).

Donc F (x) − Fn (x) ≤ F (x) − F (x − ε) + P(|Zn − Z| ≥ ε). Finalement,

F (x − ε) − F (x) − P(|Zn − Z| ≥ ε) ≤ Fn (x) − F (x) ≤ F (x + ε) − F (x) + P(|Zn − Z| ≥ ε).

Soit η > 0, par continuité de F en x, on peut choisir ε tel que


η η η η
− ≤ F (x − ε) − F (x) ≤ , et − ≤ F (x + ε) − F (x) ≤ .
2 2 2 2
On a alors
η η
− − P(|Zn − Z| ≥ ε) ≤ Fn (x) − F (x) ≤ + P(|Zn − Z| ≥ ε).
2 2
Pour ce ε, par convergence en probabilité, on peut trouver n0 tel que pour tout n ≥ n0 ,
η η
− ≤ P(|Zn − Z| ≥ ε) ≤
2 2
et donc
−η ≤ Fn (x) − F (x) ≤ η.

Donc limn→∞ Fn (x) = F (x).

Ceci nous conduit à la notion de convergence en loi.

Definition 16. On dit qu’une suite (Zn )n≥1 de variables aléatoires réelles converge en loi
vers Z si pour tout point de continuité x de FZ on a

lim FZn (x) = FZ (x).


n→∞

33
Pourquoi, dans la définition de la convergence en loi, ne demander la convergence des
fonctions de répartition qu’en les points où la fonction de répartition limite est continue ?
Si on demandait la convergence en tout point de R, la définition serait trop restrictive. En
effet, soit Zn de loi uniforme sur [0, 1/n], pour n ≥ 1. Alors, P-p.s.
1
0 ≤ Zn ≤ .
n
Donc (Zn )n≥1 converge presque-sûrement vers 0 et donc en loi vers 0. Par contre, la fonction
de répartition de la variable aléatoire Z constante égale à 0 est

FZ = 1[0,∞[

qui n’est pas continue en 0 et telle que FZ (0) = 1. On a FZn (0) = 0 pour tout n et donc
limn→∞ FZn (0) ̸= FZ (0).
Nous avons vu que la convergence en probabilité implique la convergence en loi. Par
conséquent, les convergences presque-sûre et dans Lp impliquent aussi la convergence en loi.
Il existe de nombreuses caractérisations de la convergence en loi. La suivante porte le
nom de théorème Portmanteau.

Théorème 2. Soit (Zn )n≥1 et Z des variables aléatoires réelles. Il y a équivalence entre les
points suivants :
1. La suite (Zn )n≥1 converge en loi vers Z au sens où pour tout point de continuité x de
la fonction de répartition de Z :

lim FZn (x) = FZ (x).


n→∞

2. Pour tout ouvert O de R,

lim inf P(Zn ∈ O) ≥ P(Z ∈ O).


n→∞

3. Pour tout fermé F de R,

lim sup P(Zn ∈ F ) ≤ P(Z ∈ F ).


n→∞

4. Pour tout borélin A de R tel que P(X ∈ ∂A) = 0, on a

lim P(Zn ∈ A) = P(Z ∈ A).


n→∞

Démonstration. La lecture de cette preuve n’est pas obligatoire.


1. ⇒ 2. : Soit O un ouvert de R. Alors O est réunion dénombrable d’intervalles ouverts deux à deux disjoints :
il existent deux suites (an ) ⊂ R̄ et (bn ) ⊂ R̄ telles que pour tout n ∈ N∗ , an < bn et
[
O= ]ai , bi [
i∈N∗

34
avec les intervalles ]ai , bi [ deux à deux disjoints.
On a alors, en utilisant le lemme de Fatou :
X X
lim inf P(Zn ∈ O) = lim inf P(Zn ∈]ai , bi [) ≥ lim inf P(Zn ∈]ai , bi [).
n→∞ n→∞ n→∞
i∈N∗ i∈N∗

Il suffit donc de montrer que pour tout a < b, on a

lim inf P(Zn ∈]a, b[) ≥ P(Z ∈]a, b[).


n→∞

Pour cela on remarque que pour tout n, k ∈ N∗ ,

P(Zn < b) ≥ P(Zn ≤ b − εk ),

où (εk ) est une suite de réels strictement positifs, décroissant vers 0 et telle que FX est continue en
b − εk pour tout k. Ces réels existent car FX possède au plus un nombre dénombrables de points de
discontinuités (car un fonction de répartition est croissante). On a donc, par convergence en loi :

lim P(Zn ≤ b − εk ) = P(Z ≤ b − εk ),


n→∞

puis par monotonie :


lim P(Z ≤ b − εk ) = P(Z < b).
k→∞

Au final :
lim inf P(Zn < b) ≥ P(Z < b).
n→∞

On prouve de façon très similaire (en passant par des a + εk ) que

lim sup P(Zn ≤ a) ≤ P(Z ≤ a).


n→∞

On a donc :

lim inf P(Zn ∈]a, b[) = lim inf P(Zn < b) − P(Zn ≤ a)
n→∞ n→∞
= lim inf P(Zn < b) − lim sup P(Zn ≤ a)
n→∞ n→∞
≥ P(Z < b) − P(Z ≤ a)
= P(Z ∈]a, b[).

2. ⇒ 3. : Soit F fermé dans R. Alors F c est un ouvert et donc en utilisant le point 2. :

lim sup P(Zn ∈ F ) = 1 − lim inf P(Zn ∈ F c )


n→∞ n→∞

≤ 1 − P(Z ∈ F c )
= P(Z ∈ F ).

2. + 3. ⇒ 4. : Soit A un borélien de R tel que P(Z ∈ ∂A) = 0. On remarque que

Å ⊂ A ⊂ Ā = Å ∪ ∂A.

En particulier, puisque P(X ∈ ∂A) = 0,

P(Z ∈ A) = P(Z ∈ Å) = P(Z ∈ Ā).

On a donc d’une part en utilisant 2.,

lim inf P(Zn ∈ A) ≥ lim inf P(Zn ∈ Å) ≥ P(Z ∈ Å) = P(Z ∈ A)
n→∞ n→∞

35
et d’autre part en utilisant 3.,
lim sup P(Zn ∈ A) ≤ lim sup P(Zn ∈ Ā) ≤ P(Z ∈ Ā) = P(Z ∈ A).
n→∞ n→∞

Donc lim P(Zn ∈ A) = P(Z ∈ A).


4. ⇒ 5. : Si FZ est continue en x alors
P(Z ∈ ∂] − ∞, x]) = P(Z = x) = 0.
D’après 4., on a donc
lim P(Zn ≤ x) = P(Z ≤ x).
n→∞
D’où le résultat.

La notion de convergence en loi se généaralise à Rd où l’on utilise plutôt l’une des carac-
térisations suivantes.
Théorème 3. Soit (Zn )n≥1 et Z des variables aléatoires dans Rd . Il y a équivalence entre
les trois points suivants :
1. (Zn )n≥1 converge en loi vers Z,
2. pour toute fonction f continue bornée de Rd dans R, on a
lim E(f (Zn )) = E(f (Z)),
n→∞

3. pour toute fonction f continue et telle que lim|x|→+∞ f (x) = 0, on a


lim E(f (Zn )) = E(f (Z)),
n→∞

4. il y a convergence ponctuelle de la fonction caractéristique : pour tout t ∈ R,


lim ϕZn (t) = ϕZ (t).
n→∞

Démonstration. Ici encore, la lecture de la preuve n’est pas obligatoire. Nous allons faire la preuve dans
le cas réel (d = 1).
2. ⇒ 1. Soit x un point de continuité de FZ . Pour k ∈ N∗ , on considère la fonction continue et bornée ϕk
valant 1 sur ] − ∞, x], 0 sur [x + 1/k, +∞[ et telle que ϕk (y) = k(x + 1/k − y) pour y ∈]x, x + 1/k[.
On a par construction (faire un dessin)
1]−∞,x] ≤ ϕk ≤ 1]−∞,x+1/k] .
Pour n, k ∈ N∗ , cela implique que
P(Zn ≤ x) ≤ E(ϕk (Zn )) →n→∞ E(ϕk (Z)) ≤ P(Z ≤ x + 1/k) →k→∞ P(Z ≤ x).
Donc
lim sup P(Zn ≤ x) ≤ P(Z ≤ x).
n→∞
On montre de façon similaire que
lim inf P(Zn ≤ x) ≥ P(Z < x)
n→∞

et on utilise alors le fait que FZ est continue en x pour dire que P(Z < x)P(Z ≤ x) et conclure.

36
1. ⇒ 2. Soit ϕ continue et bornée. On peut toujours supposer que ϕ est à valeurs dans ]0, 1[. On a alors (c’est
une inversion entre l’espérance et l’intégrale que l’on peut faire grâce au théorème de Tonelli),
Z
E(ϕ(Zn )) = P(ϕ(Zn ) > x)dx.
R

On sait que
lim P(ϕ(Zn ) > x) = P(ϕ(Z) > x)
n→∞

si P(Z ∈ ∂ϕ−1 (] − ∞, x]) = 0 d’après le théorème Portmanteau. Comme ϕ est continue, ∂ϕ−1 (] −
∞, x]) ⊂ ϕ−1 ({x}) d’où
P(Z ∈ ∂ϕ−1 (] − ∞, x]) ≤ P(ϕ(Z) = x),
et P(ϕ(Z) = x) = 0 sauf éventuellement en un nombre dénombrable de points. En effet, x 7→
P(ϕ(Z) ≤ x) est croissante donc admet un nombre dénombrable de points de discontinuités qui sont
les points pour lesquels P(ϕ(Z) = x) > 0.
On a donc,
lim P(ϕ(Zn ) > x) = P(ϕ(Z) > x)
n→∞
pour presque tout x et donc par convergence dominée :
Z
lim E(ϕ(Zn )) = P(ϕ(Z) > x)dx = E(ϕ(Z)).
n→∞ R

2. ⇒ 3. Une fonction continue qui tend vers 0 en plus et moins l’infini est en particulier continue et bornée.
Le résultat s’en suit.
3. ⇒ 2. Soit f une fonction continue bornée. Soit ε > 0, il existe Kε > 0 tel que P(|Z| > Kε ) ≤ ε. Soit ϕε
la fonction telle que pour tout x ∈ R,
2Kε − |x|
ϕε (x) = 1[0,Kε ] (|x|) + 1]Kε ,2Kε ] (|x|).

Cette fonction est continue et a pour limite 0 lorsque |x| tend vers +∞. On a
|E(f (Zn ))−E(f (Z))| ≤ |E(f (Zn )(1−ϕ(Zn )))|+|E(f (Zn )ϕ(Zn ))−E(f (Z)ϕ(Z))|+|E(f (Z)(1−ϕ(Z)))|.
On remarque que la fonction f ϕ est continue et tend vers 0 lorsque |x| tend vers +∞ puisque f est
bornée. Donc par hypotèse
lim |E(f (Zn )ϕ(Zn )) − E(f (Z)ϕ(Z))| = 0.
n→∞

De plus, par hypothèse,


|E(f (Zn )(1 − ϕ(Zn ))| ≤ ∥f ∥∞ |E(1 − ϕ(Zn )))| → ∥f ∥∞ |E(1 − ϕ(Z)))| ≤ ∥f ∥∞ P(|Z| > K) ≤ ε∥f ∥∞ .
Donc
lim sup |E(f (Zn )) − E(f (Z))| ≤ 2ε∥f ∥∞ .
n→∞
Le réel ε > 0 étant quelconque, on a bien que
lim E(f (Zn )) = E(f (Z)).
n→∞

2. ⇒ 4. On écrit, pour t ∈ R et n ∈ N∗ ,
ϕZn (t) = E(cos(tZn )) + iE(sin(tZn )).
Les fonctions x 7→ cos(tx) et x 7→ sin(tx) étant continues et bornées, on peut appliquer le point 2.
pour obtenir que
lim ϕZn (t) = ϕZ (t).
n→∞

37
4. ⇒ 3. Soit f continue et tendant vers 0 en plus et moins l’infini. Pour tout ε > 0, on peut montrer qu’il
existe une fonction g de classe C ∞ et à support compact, telle que
∥f − g∥∞ ≤ ε.
Or, par propriété de la transformée de Fourier, comme g est C ∞ et à support compact, il existe une
fonction ϕ intégrable telle que pour tout x dans R,
Z
g(x) = eitx ϕ(t)dt.
R

On a donc pour tout n ∈ N ,
|E(f (Zn )) − E(f (Z))| = |E(f (Zn ) − g(Zn ))| + |E(g(Zn ) − g(Z))| + |E(g(Z) − f (Z))|
Le premier et le troisième termes sont majorés par ε. Pour le deuxième, on écrit, en utilisant l’hy-
pothèse, le théorème de Fubini et celui de convergence dominée :
Z  Z
itZn
E(g(Zn )) = E e ϕ(t)dt = E(eitZn )ϕ(t)dt
R R
Z
→ E(eitZ )ϕ(t)dt
R
Z 
itZ
=E e ϕ(t)dt
R
= E(g(Z)).
D’ où le résultat.

Remarquons que pour la convergence en loi, il n’y a pas unicité presque sûre de la limite.
Ceci vient du fait que deux variables aléatoires peuvent avoir même loi tout en étant très
différentes. En général 26 , si (Zn )n≥1 converge en loi vers Z1 et (Zn )n≥1 converge en loi vers
Z2 alors
P(Z1 = Z2 ) < 1.
Achevons ce chapitre avec l’énoncé et la preuve du théorème central limit, qui explicite de
quelle façon se distribue les fluctuations de la moyenne empirique autour de l’espérance 27 .
Théorème 4. Soit (Xn )n≥1 une suite de variables aléatoires dans R indépendantes et de
même loi telle que E(|X1 |2 ) < ∞. On pose µ = E(X1 ) et σ 2 = V(X1 ) ). Alors la suite de
variables aléatoires !
n
√ 1X
n Xi − µ
n i=1
converge en loi vers une variable aléatoire normale 28 de loi N (0, σ 2 ) ayant pour fonction
caractéristique
σ2 2
∀t ∈ R, ϕ(t) = e− 2 t .
26. Vous aller voir un exemple simple en TD.
27. Dans l’illustration
√ de la loi des grands nombres (Figure 4), nous avons vu que ces fluctuations sont de
l’ordre de 1/ n.
28. On dit que la loi normale à un caractère universel au sens où le théorème précédent ne dépend pas de
la loi de départ des Xi .

38
Démonstration. On peut supposer, par translation, que µ = 0. En utilisant l’indépendance des Xi , on a,
pour tout t ∈ R,   n
t
ϕ √1 Pn
i=1 Xi
(t) = ϕX1 √ .
n n
  n
Remarquant que ϕ(t) = ϕ √tn et qu’une fonction caractéristique est toujours de module plus petit que
1, on a, grâce à l’inégalité,
|z1n − z2n | ≤ n|z1 − z2 |
valable pour z1 et z2 de modules plus petits que 1, que
  n   n    
t t t t
ϕ √1 ni=1 Xi (t) − ϕ(t) = ϕX1 √
P − ϕ √ ≤ n ϕX1 √ −ϕ √ .
n n n n n

On effectue ensuite un développement de ϕX1 et ϕ autour de 0 :


   ′  2 2  
t t 1 t t t
ϕX1 √ = ϕX1 (0) + ϕ′X1 (0) + ϕ′′X1 (0) √
√ + √ ε1 √
n n 2 n n n
 ′  2 2  
t 1 t |t| t
=1+ √ iµ − σ 2 √ + ε1 √
n 2 n n n
 2 2  
1 t |t| t
= 1 − σ2 √ + ε1 √
2 n n n

où ε1 est une fonction continue au voisinage de 0 telle que ε1 (0) = 0. De même


   2 2  
t 1 t |t| t
ϕ √ = 1 − σ2 √ + ε2 √
n 2 n n n

où ε2 est une fonction continue au voisinage de 0 telle que ε2 (0) = 0. Donc


2     !
|t| t t
ϕ √1 Pn
i=1 Xi
(t) − ϕ(t) ≤ n ε1 √ + ε2 √
n n n n
    
t t
= |t|2 ε1 √ + ε2 √
n n
−→ 0.
n→∞

D’où le résultat.

Une illustration du théorème central limit s’obtient en python de la façon suivante :


n ,m , sigma = int ( 1e3 ) , int ( 1e4 ) ,3 ** ( - . 5 )
X = 2 * np . random . rand (m , n ) - 1
S = np . sum (X , axis = 1 ) / ( np . sqrt ( n ) * sigma )
M = max ( np . abs ( S ) )
x = np . linspace ( -M ,M , 1000 )
y = sps . norm . pdf ( x )
plt . plot (x ,y , ’r ’ , label = " densite " )
plt . hist (S , bins = int ( round ( m ** ( 1 . / 3 ) * M * . 5 ) ) , density =1 , histtype = ’ step ’ , label
= " Histogramme " )
plt . legend ( loc = ’ best ’)
plt . title ( " TCL " )

39
TCL
0.40 densite
Histogramme
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
4 3 2 1 0 1 2 3 4

Figure 8 – Illustration du TCL.

La densité de la loi normale centrée réduite, c’est-à-ire d’espérance 0 et de variance 1 est


1 x2
x ∈ R 7→ √ e− 2 .

Vous verrez quelques propriétés de bases de la loi normale en TD 29 .

Exemple. Considérons la marche aléatoire simple (Sn ) partant de x ∈ Z et de paramètre


p = 1/2. Dans ce cas, la loi forte des grands nombres nous indique que, presque sûrement,

Sn
lim = 0.
n→∞ n

Le théorème central limit nous permet, en un certain sens, de préciser cette convergence
puisque il nous indique que pour tout z ∈ R,
  Z z
Sn 1 x2
lim P √ ≤ z = √ e− 2 dx.
n→∞ n −∞ 2π

Donc au sens de la convergence en loi, asymptotiquement Sn ≃ nZ où Z est une loi
normale centrée réduite. Ceci peut nous donner l’intuition que (Sn ) doit autant partir vers
+∞ que vers −∞. On peut montrer 30 en effet que, presque sûrement,

lim sup Sn = +∞ et lim inf Sn = −∞.


n→+∞ n→+∞

29. et nous reviendrons dessus dans la section consacrée au vecteurs gaussiens.


30. Ce n’est pas immédiat.

40
4 Vecteurs aléatoires (et retour sur les variables aléa-
toires)
On se donne un espace probabilisé (Ω, A, P) et un espace mesurable (E, E) = (Rd , B(Rd ))
pour un certain d ∈ N∗ . Ici, B(Rd ) est la plus petite tribu 31 qui contient les ouverts de Rd .
Une application X de (Ω, A) dans (E, E) est dite mesurable 32 si pour tout intervalle I de
R, X −1 (I) ∈ E. Les applications continues par morceaux sont mesurables.

4.1 Loi d’un vecteur aléatoire, densité


Commençons avec un exemple simple.

Exemple. On lance deux pièces. On appelle X le nombre de « pile » obtenus et on pose


Y = 1 si on obtient au moins un face et 0 sinon. Les quantités X et Y sont des variables
aléatoires et le couple (X, Y ) forme un vecteur aléatoire. De manière formelle, on a Ω =
{P P, P F, F P, F F } muni de la probabilité uniforme, et X et Y sont définies par

X(P P ) = 2, Y (P P ) = 0, X(P F ) = 1, Y (P F ) = 1,
X(F P ) = 1, Y (F P ) = 1, X(F F ) = 0, Y (F F ) = 1.

Le vecteur (X, Y ) est lui défini par

(X, Y )(P P ) = (2, 0), (X, Y )(P F ) = (1, 1), (X, Y )(F P ) = (1, 1), (X, Y )(F F ) = (0, 1).

Definition 17. Une application, X : Ω → E est


— une variable aléatoire si E = R,
— un vecteur aléatoire si E = Rd avec d ≥ 2. Dans ce cas, X = (X1 , . . . , Xd )T où les
Xi sont des variables aléatoires appelées composantes ou marginales de X.
On dira simplement variable aléatoire si il n’y a pas lieu de distinguer le cas réel du cas
vectoriel.

Dans le cas vectoriel, la loi du vecteur aléatoire est encore caractérisée par sa fonction de
répartition, qui devient une fonction de plusieurs variables.

Definition 18. On appelle fonction de répartition


— de la variable aléatoire X, la fonction FX : R → [0, 1] donnée, pour x ∈ R, par

FX (x) = PX (] − ∞, x])
= P(X ≤ x).
31. On appelle les éléments de cette tribu les boréliens, nous avons déjà défini cet ensemble d’événements
en Section 2.
32. Nous avons déjà vu cette notion en Section 2 aussi.

41
— du vecteur aléatoire X = (X1 , . . . , Xd )T , pour d ≥ 2, l’application F(X1 ,...,Xd ) : Rd →
[0, 1] donnée, pour (x1 , . . . , xd ) ∈ Rd , par

F(X1 ,...,Xd ) (x1 , . . . , xd ) = P(X1 ,...,Xd ) (] − ∞, x1 ] × · · · ×] − ∞, xd ])


= P(X1 ≤ x1 ; . . . ; Xd ≤ xd ).

On a déjà vu des exemples de fonctions de répartition dans le cas réel. Voici un exemple
dans le cas vectoriel.

Exemple. Si on considère le vecteur aléatoire (X, Y ) de l’exemple précédent, sa fonction de


répartition est une fonction de deux variables donnée, pour (x, y) ∈ R2 par
1 1 3
F(X,Y ) (x, y) = 1[0,1[×[1,+∞[ (x, y)+ 1[2,+∞[×[0,1[ (x, y)+ 1[1,2[×[1,+∞[ (x, y)+1[2,+∞[×[1,+∞[ (x, y).
4 4 4
Remarquons que
1 3
lim F(X,Y ) (x, y) = 1[0,1[ (x) + 1[1,2[ (x) + 1[2,+∞[ (x) = FX (x).
y→∞ 4 4
Ce qui, comme nous le verrons, est un fait général.

On peut toujours retrouver la loi des marginales à partir de la loi du vecteur. La propo-
sition suivante explicite le lien entre la fonction de répartition d’un vecteur aléatoire et la
fonction de répartition de ses marginales.

Proposition 24. Pour d ∈ N∗ , soit (X1 , . . . , Xd )T un vecteur aléatoire et F(X1 ,...,Xd ) sa fonc-
tion de répartition. Alors la fonction de répartition de la composante Xi pour i ∈ {1, . . . , d}
est donnée, pour x ∈ R par

FXi (x) = lim F(X1 ,...,Xd ) (x1 , . . . , xi−1 , x, xi+1 , . . . , xd ).


(x1 ,...,xi−1 ,xi+1 ,...,xd )→(∞,...,∞)

Démonstration. Soit x(k) (k) (k) (k)


1 , . . . , xi−1 , xi+1 , . . . , xd , d−1 suites croissantes tendant toutes vers l’infini. Alors

(k) (k) (k) (k)


{X1 ≤ x1 , . . . Xi−1 ≤ xi−1 , Xi ≤ x, Xi+1 ≤ xi+1 , . . . , Xd ≤ xd } ↗ {Xi ≤ x}.

Donc, par convergence monotone,

F(X1 ,...,Xd ) (x1 , . . . , xi−1 , x, xi+1 , . . . , xd )


(k) (k) (k) (k)
= P(X1 ≤ x1 , . . . Xi−1 ≤ xi−1 , Xi ≤ x, Xi+1 ≤ xi+1 , . . . , Xn ≤ xd )
↗ P(Xi ≤ x)
= FXi (x).

Le théorème suivant, déjà vu dans le cas unidimensionnel, est fondamental.

42
Théorème 5 (Admis dans le cas vectoriel). La fonction de répartition caractérise la loi : si
X et Y ont même fonction de répartition alors PX = PY .

Attention, rappelons que le fait que X et Y aient la même loi ne dit rien sur P(X = Y ).
En fait, X et Y peuvent avoir la même loi tout en étant définies sur des espaces de probabilités
différents, auquel cas la quantité P(X = Y ) n’a aucun sens.
Nous en venons maintenant au variables à densité. On rappelle la définition dans le cas
unidimensionnel et on la généralise au cas vectoriel.

Definition 19. Soit X : Ω → R une variable aléatoire et F sa fonction de répartition. On


dira que la variable X est à densité s’il existe une fonction mesurable positive f : R →
[0, +∞[ telle que pour tout x ∈ R
Z x
F (x) = f (t)dt.
−∞

Dans le cas vectoriel, X : Ω → Rd est à densité si il existe une fonction mesurable positive
f : Rd → [0, +∞[ telle que pour tout (x1 , . . . , xd ) ∈ Rd ,
Z
F (x1 , . . . , xd ) = f (t1 , . . . , td )dt1 . . . dtd .
]−∞,x1 ]×···×]−∞,xd ]

La fonction f est appelée densité de X.

Proposition 25 (Admis). Soit X : Ω → Rd un vecteur aléatoire à densité, alors


i) P(X = (x1 , . . . , xd )) = 0 pour tout (x1 , . . . , xd ) ∈ Rd ,
ii) On a
Z b1 Z bd
d
P(X ∈ Πi=1 [ai , bi ]) = ··· f (t1 , . . . , td )dt1 . . . dtd
a1 ad

pour tous réels ai ≤ bi , i ∈ {1, . . . , d}.


iii) Pour tout borélien B de Rd ,
Z
P(X ∈ B) = f (t1 , . . . , td )dt1 . . . dtd .
B

iv) Pour tout x dans R, on retrouve la densité des marginales en intégrant la densité du
vecteur selon toutes les autres directions :
Z
∀1 ≤ i ≤ d, fXi (x) = f (t1 , . . . , ti−1 , x, ti+1 , . . . , td )dt1 . . . dti−1 dti+1 . . . dtd .
Rd−1

Exemple. Soit (X, Y ) ayant pour densité


1
∀(x, y) ∈ R2 , f(X,Y ) (x, y) = 1D (x, y)
π

43
30 réalisations de (X,Y)

1.0
0.5
0.0
y
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
x

Figure 9 – 30 réalisation d’un loi uniforme sur le disque unité.


D = {(x, y) ∈ R2 ; x2 + y 2 ≤ 1}.
Le couple (X, Y ) suit la loi uniforme sur le disque D. On souhaite calculer la densité de X.
Pour x ∈ R,
Z +∞
1
fX (x) = 1D (x, y)dy
−∞ π
Z +∞
1 √
= 1[− 1−x2 ,√1−x2 ] (y)dy1[−1,1] (x)
−∞ π
Z √1−x2
1
= dy1[−1,1] (x)
π −√1−x2

2 1 − x2
= 1[−1,1] (x).
π
On a utilisé le fait que (x, y) est dans le disque si et seulement si
√ √
x ∈ [−1, 1] et y ∈ [− 1 − x2 , 1 − x2 ].

Soit maintenant D un sous-ensemble fini ou dénombrable de Rd . Alors, si X est à den-


sité 33 , on a X
P(X ∈ D) = P(X = x) = 0.
x∈D

Par conséquent, une variable aléatoire ne peut pas être à la fois discrète et à densité.
On a vu que la fonction de répartition d’une variable à densité est continue. La réciproque
n’est pas vraie. On a néanmoins le résultat suivant.
33. ou plus généralement continue

44
Densité de X

0.6
0.5
0.4
y
0.3
0.2
0.1
0.0
−2 −1 0 1 2
x

Figure 10 – Densité de X.

Proposition 26. Soit F : R → [0, 1] une fonction de répartition. Si F est continue sur R et
de classe C 1 sur R privé éventuellement d’un nombre fini de points, alors F est la fonction de
répartition d’une variable aléatoire à densité. Une densité associée est donnée par la fonction
f (x) = F ′ (x) si F est dérivable en x et f (x) = 0 sinon.
Rx
Démonstration. Sous ces hypothèse on a F (x) = −∞ f (t)dt pour tout x ∈ R.
La valeur 0 attribuée à f là où F ′ n’est pas définie n’a pas d’importance. De manière
générale, changer la valeur de la densité de X en un nombre fini de points ne change rien à
la répartition 34 de X.
Dans le cas vectoriel 35 , on dit qu’un vecteur X = (X1 , . . . , Xd )T est intégrable si chacune
de ses composantes est intégrable. Son espérance est alors définie comme le vecteur de Rd

E(X) = (E(X1 ), . . . , E(Xd ))T .

Voyons maintenant comment le calcul d’une espérance d’une variable aléatoire X par
rapport à la probabilité P se ramène à un calcul d’intégrale contre la loi de X.

Théorème 6 (Transfert, Admis). Soit X : Ω → Rd une variable aléatoire et h : Rd → R


une fonction mesurable. Si h(X) est positive ou intégrable pour la mesure P, alors
Z
E(h(X)) = h(t)PX (dt).
Rd

Soit X : Ω → Rd , d ≥ 1, une variable de densité f . La loi de X peut alors s’écrire :

PX = f dx
34. répartition est un synonyme de loi ici
35. Par exemple, si Y = (Y1 , . . . , Yd ) est un vecteur aléatoire constitué de d variables de Bernoulli de
paramètre p ∈ [0, 1] alors
E(Y ) = (p, . . . , p).

45
où dx = dx1 . . . dxd est la mesure de Lebesgue 36 sur Rd . Alors
Z Z
E(h(X)) = h(x)PX (dx) = h(x)f (x)dx.
Rd Rd

R E(h(X)) est donc bien définie dès que h est mesurable et est soit positive soit
L’espérance
telle que Rd |h(x)|f (x)dx < ∞.

Proposition 27 (Inégalité de Jensen). Soit X une variable aléatoire et ϕ une fonction


convexe de classe C 1 . On suppose que X et ϕ(X) sont intégrables. On pose m = E(X). En
utilisant le fait que ϕ est au-dessus de sa tangente en m, montrer que

ϕ(E(X)) ≤ E(ϕ(X)).

Démonstration. En exercice.

4.2 Vecteurs à densité : transformation et indépendance


Supposons que X : Ω → Rd est une variable aléatoire et qu’il existe une fonction f
mesurable telle que pour toute fonction h mesurable et disons positive, on ait
Z Z
E(h(X)) = h(x)PX (dx) = h(x)f (x)dx.
Rd Rd

Alors en particulier, pour tout borélien B de Rd


Z
P(X ∈ B) = E(1B (X)) = f (x)dx.
B

Donc f est la densité de X. Donnons une application importante de ce principe. Remarquons


d’abord qu’une fonction d’une variable continue n’est pas forcément une variable continue.
En effet, si ϕ est la fonction nulle et X une variable continue, alors ϕ(X) est la fonction
constante égale à 0 qui n’est pas une variable continue (sa fonction de répartition fait un
saut en 0).
Soient U et V des ouverts de Rd et ϕ : U → V une fonction. On dit que ϕ est un C 1 -
difféomorphisme si ϕ est de classe C 1 , bijective, et si sa réciproque est de classe C 1 . On
notera Jϕ le jacobien de ϕ, c’est à dire le déterminant de la matrice jacobienne de ϕ.

Théorème 7. Soit X une variable aléatoire continue à valeurs dans un ouvert U de Rd et


soit ϕ : U → V un C 1 -difféomorphisme. Alors Y = ϕ(X) est une variable aléatoire continue
de densité
g(y) = f ◦ ϕ−1 (y)|detJϕ−1 (y)|1ϕ(U ) (y).
où f est une densité de X.
36. L’unique mesure (Rd , B(Rd ) invariante par translation. Dans tout le cours, vous pouvez considérer que
les intégrales sur Rd sont de Riemann.

46
Démonstration. Par hypothèse, la densité f de X est nulle en dehors de U . Soit h une fonction mesurable
positive. En appliquant la formule de changement de variable à ϕ−1 on obtient :
Z
E(h(Y )) = E(h(ϕ(X))) = h ◦ ϕ(x)f (x)dx
ZU
= h(y)f ◦ ϕ−1 (y)|detJϕ−1 (y)|dy
ϕ(U )
Z
= h(y)g(y)dy.
Rd

En appliquant la remarque précédente, on en déduit que Y est une variable continue de densité g.

La fonction h utilisée dans le raisonnement précédent est souvent appelée fonction test,
on parle de méthode de la fonction test.
Exemple. Soit X une variable aléatoire réelle de densité f et soient a, b des réels, avec
a ̸= 0. Alors Y = aX + b est une variable continue de densité
 
1 y−b
y 7→ f .
a a
Exemple. On dit que le vecteur (X1 , X2 ) suit un loi normale de paramètre 0R2 et IM2 (R) si
sa densité est, pour (x, y) ∈ R2 ,
1 − x2 +y2
f (x, y) = e 2 .

Posons Z = (X1 , X1 + X2 ). Nous allons chercher la densité de Z par la méthode de la
fonction test. Soit h une fonction mesurable positive de R2 dans R, on a
E(h(Z)) = E(h(X1 , X1 + X2 ))
Z
1 x2 +y 2
= h(x, x + y) e− 2 dxdy
2 2π
ZR
1 x2 +y 2
= h(ϕ(x, y)) e− 2 dxdy.
R2 2π
L’application ϕ est définie sur R2 par ϕ(x, y) = (x, x + y). Elle est bijective de R2 dans
lui même et d’application réciproque définie sur R2 par ϕ−1 (u, v) = (u, v − u). Sa matrice
jacobienne est donc  
1 0
.
−1 1
Le jacobien vaut donc 1. Ainsi
Z
1 − u2 +(v−u)2
E(h(Z)) = h(u, v) e 2 dudv.
R2 2π
La densité de Z est donc donnée sur R2 par
1 − 2u2 +v2 −2uv
fZ (u, v) = e 2 .

47
Proposition 28 (Indépendance : cas des variables à densité). Si le vecteur aléatoire (X1 , . . . , Xd )
possède une densité f : Rd → R qui s’écrit sous forme produit :
∀(x1 , . . . , xd ) ∈ R2 f (x1 , . . . , xd ) = g1 (x1 ) . . . gd (xd ),
où les fonctions gi sont mesurables positives, alors les variables aléatoires Xi sont indépen-
dantes de densités
gi
R .
g (x)dx
R i
Réciproquement, si les variables réelles Xi sont indépendantes de densités respectives fi , alors
le vecteur aléatoire (X1 , . . . , Xd ) admet pour densité
f(X1 ,...,Xd ) = f1 . . . fd .
Exemple. Si X et Y sont deux variables aléatoires indépendantes de lois respectives U[a,b]
et U[c,d] , alors le vecteur (X, Y ) est un vecteur de densité
1
∀(x, y) ∈ R2 , f(X,Y ) (x, y) = 1[a,b]×[c,d] (x, y).
(b − a)(d − c)

4.3 Moments, fonctions caractéristique et génératrice


Definition 20 (Moments). Soit X : Ω → R une variable aléatoire et soit k un entier naturel.
La quantité E(X k ) est appelé moment d’ordre k de X. Le moment d’ordre k de X est défini
si X ≥ 0 presque sûrement 37 ou si X k est intégrable 38 . Si X est de moment absolu d’ordre
k fini, c’est-à-dire si E(|X|k ) < ∞, on dit que X est dans Lk (Ω).
Dans le cas vectoriel, on dit que X est dans Lk (Ω) si chacune de ses composantes est dans
Lk (Ω).
Pour une mesure de probabilité, les espaces Lp sont emboités : si p ≤ q alors Lq (Ω) ⊂
Lp (Ω).
Definition 21 (Variance). Soit X : Ω → R une variable aléatoire de carré intégrable. Sa
variance est définie par
V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2 .
Dans le cas vectoriel, si X = (X1 , . . . , Xd ), à la variance se substitue la matrice de variance-
covariance définie par
Cov(X) = (E((Xi − E(Xi ))(Xj − E(Xj ))))1≤i,j≤d = (E(Xi Xj ) − E(Xi )E(Xj ))1≤i,j≤d .
On appelle aussi cette matrice la matrice de dispersion de X.
Pour 1 ≤ i, j ≤ d, la quantité
E(Xi Xj ) − E(Xi )E(Xj )
s’appelle la covariance entre Xi et Xj et se note Cov(Xi , Xj ).
37. dans ce cas il peut prendre la valeur +∞
38. dans ce cas il est forcément fini

48
Exemple. Soit Y une variable aléatoire telle que P(Y = 0) = P(Y = 1) = 21 . On pose
Z = (Y, −Y ). Alors
1 1
E(Z) = ( , − ),
2 2
1
et V(Y ) = V(−Y ) = 4 . De plus E(Y (−Y )) − E(Y )E(−Y ) = −E(Y 2 ) + E(Y )2 = −V(Y ) =
− 41 , de sorte que  
1 1 −1
Cov(Z) = .
4 −1 1
Proposition 29. Soit X un vecteur aléatoire et soient λ et c deux réels. On a,

V(λX + c) = λ2 V(X).

La démonstration est laissée en exercice. Nous verrons diverses propriétés de la matrice


de dispersion d’un vecteur aléatoire dans la section sur les vecteurs gaussiens.
La variance mesure la déviation de X à sa moyenne. Plus la variance est grande, plus X a de
chances d’être loin de sa moyenne : c’est ce que nous dit l’inégalité de Bienaymé-Tchebychev.

Definition 22 (Fonction caractéristique). Soit X : Ω → Rd un vecteur aléatoire 39 . On


appelle fonction caractéristique de X, ou de la loi de X et on note ϕX , la fonction à valeurs
complexes :

ϕX : t ∈ Rd 7→ E(ei<t,X> ) = E(cos(< t, X >)) + iE(sin(< t, X >)).

Nous désignons par < ·, · > le produit scalaire dans Rd . En analyse, la fonction caracté-
ristique correspond à la transformée de Fourier de la loi de X.

Exemple. Soit X une variable aléatoire de loi E(1). Alors, par le théorème de transfert,
pour tout t ∈ R, Z ∞
1
itX
ϕX (t) = E(e ) = eitx e−x dx = .
0 1 − it
Exemple. Soit X une variable aléatoire de loi B(n, p). Alors, pour tout t ∈ R,
n n
 
X
itk n k
X
itk
ϕX (t) = e P(X = k) = e p (1 − p)n−k = (1 − p + peit )n .
k=0 k=0
k

Comme son nom l’indique, la fonction caractéristique caractérise la loi.

Théorème 8. Si X et Y sont deux vecteurs aléatoires de lois PX et PY telle que ϕX = ϕY ,


alors PX = PY .

Proposition 30. Soit X une variable aléatoire réelle, de fonction caractéristique ϕX .


Pd
39. Pour le produit scalaire, on notera indifféremment < t, X >= (t, X) = t′ X = tT X = i=1 ti Xi .

49
i) Si E(|X|n ) < ∞, alors ϕX est n-fois dérivable, de dérivée k-ième (k ≤ n),
(k)
ϕX (t) = ik E(X k eitX ).
(k)
En particulier, ϕX (0) = ik E(X k ).
ii) Réciproquement, si n est pair et si ϕX est n fois dérivable en 0, alors X admet tout
moment d’ordre plus petit ou égal à n.
Démonstration. Nous démontrons une partie du point i), le reste de la preuve est laissée au lecteur.
Démontrons donc que ϕX est dérivable en tout point t de R lorsque E(|X|) < ∞. Pour tout h ̸= 0,
ϕX (t + h) − ϕX (t) eihx − 1
Z
= eitx PX (dx).
h R h
Or,
eihx − 1
eitx ≤ |x|
h
qui est intégrable pour Px , indépendamment de h. D’après le théorème de convergence dominée,
ihx
−1
Z Z
′ itx e
ϕX (t) = lim e PX (dx) = ixeitx PX (dx) = iE(XeitX ).
h→0 R h R

La définition suivante est une variante de ce celle des fonctions caractéristiques. Elle
impose cependant des conditions d’intégrabilité sur la loi de la variable aléatoire.
Definition 23. Si X : Ω → Rd est une vecteur aléatoire, on appelle fonction génératrice
des moments la fonction
MX : t ∈ Rd 7→ E(e<t,X> ),
définie pour les valeurs de t où e<t,X> est intégrable.
La fonction génératrice des moments, si elle est définie dans un voisinage de 0 caractérise
la loi, comme la fonction caractéristique.
Proposition 31. Soit X : Ω → R une variable aléatoire telle que etX est intégrable pour t
dans un intervalle ouvert contenant 0. Alors la fonction génératrice des moments est définie
sur un intervalle ouvert contenant 0. De plus elle est analytique dans un voisinage de 0 et
X tn
MX (t) = E(X n )
n∈N
n!
pour tout t dans ce voisinage. En particulier, pour tout n ∈ N,
(n)
MX (0) = E(X n ).
Démonstration. Supposons MX définie sur ] − ε, ε[, pour un ε > 0. Puisque
X |tx|n
= e|tx| ≤ etx + e−tx ,
n!
n∈N

le théorème de convergence dominée montre que pour tout |t| < ε,


X 1 X tn
MX (t) = E(etX ) = E((tX)n ) = E(X n ),
n! n!
n∈N n∈N

ce qui démontre l’analycité de MX dans un voisinage de 0.

50
4.4 Quelques remarques sur le conditionnement
Dans cette section, pour simplifier l’exposé, on considère un couple de variable aléatoire
(X, Y ).
Proposition 32. Soit un événement A tel que P(Y ∈ A) > 0. La loi de X sachant Y ∈ A
est caractérisée par la donnée de la fonction de répartition conditionnelle :
P({X ≤ x} ∩ {Y ∈ A})
∀x ∈ R, FX|Y ∈A (x) = P(X ≤ x|Y ∈ A) = .
P(Y ∈ A)
Lorsque le couple (X, Y ) est à densité, pour x dans R, on peut ré-écrire la dernière
expression sous la forme
Z x R
f
A R (X,Y )
(a, b)db
FX|Y ∈A (x) = da
−∞ A Y
f (b)db

On peut donc définir la densité conditionnelle de X sachant Y ∈ A :


R
f(X,Y ) (x, b)db
∀x ∈ R, fX|Y ∈A (x) = A R .
f (b)db
A Y

Soit maintenant y ∈ R tel que fY (y) > 0 et h > 0. En choisissant l’évènement A = [y, y + h],
on a : R y+h 1 y+h
R
y
f(X,Y ) (x, b)db h y
f(X,Y ) (x, b)db
∀x ∈ R, fX|Y ∈[y,y+h] (x) = R y+h = .
1 y+h
R
y
fY (b)db h y
fY (b)db
Or, si y est un point où FY est dérivable, on a :

1 y+h FY (y + h) − FY (y)
Z
lim fY (y)dy = lim = fY (y).
h→0 h y h→0 h

De la même manière, sous conditions de dérivabilité,

1 y+h
Z
lim f(X,Y ) (x, y)dx = f(X,Y ) (x, y).
h→0 h y

Donc
f(X,Y ) (x, y)
∀x ∈ R, lim fX|Y ∈[y,y+h] (x) = .
h→0 fY (y)
Cela nous amène à la définition suivante.
Definition 24. Soit (X, Y ) un couple à densité.
— Si fY (y) ̸= 0, on appelle densité conditionnelle de X sachant Y = y la quantité définie
par
f(X,Y ) (x, y)
fX|Y =y (x) = .
fY (y)

51
10 réalisations de Y sachant X=1/4

1.0
0.5
0.0
y
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
x

— De même, si fX (x) ̸= 0, on appelle densité conditionnelle de Y sachant X = x la


quantité définie par
f(X,Y ) (x, y)
fY |X=x (y) = .
fX (x)
Si y est tel que fY (y) ̸= 0, on peut alors calculer l’espérance conditionnelle de X sachant
Y = y de la façon suivante :
Z
E(X|Y = y) = xfX|Y =y (x)dx,
R

si, bien sûr, cette dernière expression a du sens 40 . On peut calculer de la même façon la
variance conditionnelle, l’écart-type conditionnel, etc...
Exemple. Soit (X, Y ) ayant pour densité
1
∀(x, y) ∈ R2 , f(X,Y ) (x, y) = 1D (x, y)
π

D = {(x, y) ∈ R2 ; x2 + y 2 ≤ 1}.
Le couple (X, Y ) suit la loi uniforme sur le disque D. On a vu que l’on a :
2√
∀x ∈ R, fX (x) = 1 − x2 1[−1,1] (x).
π
Donc si x ∈] − 1, 1[ on peut considérer :
1
1 (x, y)
π D
∀y ∈ R, fY |X=x (y) = 2

π
1 − x2
1
= √ 1[−√1−x2 ;

1−x2 ] (y).
2 1 − x2

√ √
La loi de Y sachant X = x est donc uniforme sur l’intervalle [− 1 − x2 ; 1 − x2 ].
R
40. c’est-à-dire si R
|x|fX|Y =y (x)dx < ∞ ou si X est à valeurs positives.

52
5 Les vecteurs gaussiens
5.1 Matrice de variance-covariance
Rappelons la définition de la matrice de variance-covariance pour un vecteur aléatoire,
notion fondamentale dans ce chapitre.

Definition 25. Soit X : Ω → R une variable aléatoire de carré intégrable. Sa variance est
définie par
V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2 .
Dans le cas vectoriel 41 , si X = (X1 , . . . , Xd )T , à la variance se substitue la matrice de
variance-covariance définie par

Cov(X) = (E((Xi − E(Xi ))(Xj − E(Xj ))))1≤i,j≤d


= (E(Xi Xj ) − E(Xi )E(Xj ))1≤i,j≤d .

On appelle aussi cette matrice la matrice de dispersion de X.


Pour 1 ≤ i, j ≤ d, la quantité

E(Xi Xj ) − E(Xi )E(Xj )

s’appelle la covariance entre Xi et Xj et se note Cov(Xi , Xj ).

Proposition 33. Listons quelques propriétés quasi-immédiate de cette matrice :


1. La matrice de covariance est symétrique ; ses éléments diagonaux sont les variances
et les éléments extra-diagonaux sont les covariances des couples de variables.
2. La matrice de covariance est semi-définie positive 42 . En particulier, elle est diagona-
lisable dans une base orthonormée et ses valeurs propres sont positives ou nulles.
3. Soit une application linéaire F de Mm,n (R) de matrice M . Soit X = (X1 , . . . , Xn )T
un vecteur aléatoire de matrice de covariance K de Mn (R). Alors le vecteur aléatoire
F (X) a pour matrice de covariance M K M T .
Démonstration. Le point 2 implique que
K = O∆OT

avec OOT = OT O = In . Comme ∆ est diagonale avec des termes diagonaux positifs ou nuls, on peut définir
∆1/2 en prenant la racine des éléments diagonaux. On a alors

K = (O∆1/2 )(O∆1/2 )T = CC T

41. X est alors de carré intégrable si E(∥X∥2 ) < ∞ pour ∥ · ∥ une norme sur Rd (la norme euclidienne par
exemple).
42. xT Kx ≥ 0 pour tout x.

53
avec C = O∆1/2 .
Montrons le dernier point. On calcule, pour 1 ≤ i, j ≤ n,
n n
!
X X
Cov((M X)i , (M X)j ) = Cov Mik Xk , Mjk′ Xk′
k=1 k′ =1
n
X Xn
= Mik Mjk′ Cov (Xk , Xk′ )
k=1 k′ =1
Xn X n
= Mik Mjk′ Kk′ k
k=1 k′ =1

et
X
(M K M T )ij = Mik (KM T )kj
k=1
X n
X
= Mik Kk′ k Mjk′ .
k=1 k′ =1

5.2 Définition
On dit qu’une variable aléatoire Z sur R est gaussienne si elle a pour densité
1 1 (x−m) 2
x 7→ √ e− 2 ( σ )
σ 2π
où µ ∈ R et σ ∈]0, ∞[ ou si X est constante 43 égale à m (dans ce cas σ = 0).
La fonction caractéristique de Z est donnée par :
σ2 2
t 7→ eitm− 2
t
.

On note X ∼ N (m, σ 2 ). Il est normal d’adjoindre les constantes aux lois gaussiennes car
une variable aléatoire de loi N (m, σ 2 ) converge en loi vers m lorsque σ tend vers 0. En effet,
pour tout réel x,
Z x
1 1 (t−m) 2
P(X ≤ x) = √ e− 2 ( σ ) dt
−∞ σ 2π
Z (x−m)/σ
1 1 2
= √ e− 2 y dt
−∞ 2π
1
→σ→0 0Ix<m + Ix=m + 1Ix>m.
2
Cette dernière fonction est égale, sauf en son point de discuité x = m, à la fonction de
répartition de la variable aléatoire constante égale à m. On a donc bien convergence en loi.
43. dans ce cas elle n’est pas à densité.

54
Definition 26. Un vecteur aléatoire X = (X1 , . . . , Xd )T est dit gaussien si, pour tout a ∈ Rd ,
le produit scalaire aT X = a1 X1 + . . . + ad Xd est une variable aléatoire réelle gaussienne.
En particulier chaque composante Xk d’un vecteur gaussien est une variable aléatoire
réelle gaussienne mais cela ne suffit pas à assurer que le vecteur X soit gaussien. On appelle
loi gaussienne sur Rd toute loi d’un vecteur gaussien.
Exemple. 1. X = 0 ∈ Rd est un vecteur gaussien.
2. Soit X = (X1 , . . . , Xd )T avec X1 , . . . , Xd indépendants de même loi N1 (0, 1). Alors
a1 X1 + . . . + ad Xd ∼ N1 (0, a21 + . . . + a2d ) et X est un vecteur gaussien.
Cette notion est invariante par transformation linéaire, plus précisément :
Lemme 2. Soit X un vecteur gaussien à valeurs Rd de moyenne m et de matrice de cova-
riance K. Pour tous b ∈ Rr et M matrice r × d, Y = b + M X est un vecteur gaussien à
valeurs Rr de moyenne b + M m et de matrice de covariance M KM T .
Démonstration. En effet aT Y = aT b + (aT M )X est une variable aléatoire réelle gaussienne. On a E(Y ) =
b + M E(X) = b + M m et V(Y ) = V(M X) = M V(X)M T = M KM T .

Théorème 9. Soit Xun vecteur aléatoire de moyenne m et de matrice de covariance K. Le


vecteur X est gaussien si et seulement si sa fonction caractéristique est donnée par
1
ϕX (t) = exp(itT m − tT Kt). (1)
2
T
Démonstration. Supposons X gaussien. Alors tT X ∼ N1 (tT m, tT Kt) et ϕtT X (1) = E(eit X
) = exp(itT m−
1 T
2 t Kt).
T
Réciproquement, supposons que la fonction de répartition est de la forme (1). Alors ϕaT X (u) = E(eiua X ) =
ϕX (ua) = exp(iuaT m − 12 u2 aT Ka) donc aT X est une variable aléatoire réelle gaussienne et X un vecteur
gaussien.

Toute loi gaussienne sur Rd est donc déterminée par sa moyenne m et sa matrice de
covariance K. On note Nd (m, K) une telle loi. On parle aussi de loi normal multivariée
lorsque d ≥ 2 (et univariée lorsque d = 1). On a vu en exemple que Nd (0, Id ) existe mais l’on
n’a pas établi l’existence dans le cas général. On a,
Lemme 3. Soit K une matrice d × d symétrique semi-définie positive. Il existe une matrice
d × d symétrique semi-définie positive A telle que K = AAT .
Démonstration. Soient λ1 , . . . , λd les valeurs propres de K qui son ≥ 0. Il existe une matrice orthogonale 44
C telle que C T KC = D = diag(λ1 , . . . , λd ) où diag(λ1 , . . √
. , λd ) désigne
√ la matrice diagonale ayant λ1 , . . . , λd
sur la diagonale. On a alors CDC T = K. Soit ∆ = diag( λ1 , . . . , λd ). On pose A = C∆C T . On a,

AAT = C∆C T (C∆C T )T = C∆CC T ∆C T = CDC T = K.

44. CC T = I

55
10.0
7.5
5.0
2.5
0.0
2.5
5.0
7.5
4 2 0 2

On a donc que, si X ∼ Nd (0, Id ), alors Y = m + AX ∼ Nd (m, K). On a montré

Théorème 10. Etant donnés m ∈ Rd et une matrice d × d symétrique semi-définie positive


K, il existe une et une seule loi gaussienne sur Rd de moyenne m et de matrice de covariance
K.

Si l’on souhaite simuler des points selon une loi normale multivariée , on peut s’y prendre
de la façon suivante :
mean = [ -1 , 1 ]
cov = [ [2 , 4 ] , [4 , 10 ] ]
x , y = npr . m ul t iv a r ia t e_ n or m a l ( mean , cov , 500 ) . T
plt . plot (x , y , ’x ’)

5.3 Vecteurs gaussiens et indépendance.


Théorème 11. Soient X = (X1 , . . . , Xd )T un vecteur gaussien.
1. Les variable aléatoire réelle X1 , . . . , Xd sont indépendantes si et seulement si la matrice
de covariance V(X) est diagonale.
2. On pose

Y1 = (X1 , . . . , Xd1 )T , Y2 = (Xd1 +1 , . . . , Xd2 )T , . . . Yr = (Xdr−1 +1 , . . . , Xd )T

Les vecteurs (Y1 , . . . , Yr ) sont indépendants si et seulement si Ki j (X) = Cov(Xi , Xj ) =


0 pour tous i, j n’appartenant pas au même intervalle [1, d1 ], [d1 +1, d2 ], . . . , [dr−1 +1, d]
Démonstration. Seule la suffisance demande une preuve.
1. Supposons K(X) diagonale. On a K(X) = diag(σ12 , . . . , σd2 ) où σk2 = Var(Xk ). Alors, notant m =
E(X),
d d d
X 1X 2 2 Y 1
ϕX (t) = exp(i mk tk − σk tk ) = exp(imk tk − σk2 t2k ) = ϕX1 (t1 ) . . . ϕXd (td )
2 2
k=1 k=1 k=1

et donc les Xk sont indépendantes.

56
2. Supposons la condition sur les covariances réalisées. Elle implique, pour tous u1 ∈ Rd1 , u2 ∈
Rd2 −d1 , . . . et p ̸= q, Cov(uTp Yp , uTq Yq ) = 0. Donc, d’après le point précédent, les variable aléatoire
réelle uT1 Y1 , . . . , uTr Yr sont indépendantes. On a alors
T T T T
E(ei(u1 Y1 +...+ur Yr ) ) = E(eiu1 Y1 ) . . . E(eiur Yr )

et les variables aléatoires (Y1 , . . . , Yr ) sont indépendantes.

Attention à l’utilisation de ce théorème. On peut avoir X et Y deux variables aléatoires


réelles gaussiennes telles que Cov(X, Y ) = 0 sans que X et Y soient indépendantes. Par
exemple si X ∼ N1 (0, 1) et U est une variable aléatoire indépendante de X telle que P(U =
1) = P(U = −1) = 12 et si Y = U X, on vérifie facilement que Y ∼ N1 (0, 1). On a
Cov(X, Y ) = E(XY ) = E(U X 2 ) = E(U )E(X 2 ) = 0 et |X| = |Y | donc X et Y ne sont
pas indépendantes. En fait le couple (X, Y ) n’est pas gaussien.

5.4 Le cas non dégénéré


On dit que la loi Nd (m, K) est non dégénéré si det(K) ̸= 0. Dans ce cas :

Théorème 12. Si X ∼ Nd (m, K) et si det(K) ̸= 0, alors X admet la densité


d 1 1
hm,K (x) = (2π)− 2 (det(K))− 2 exp(− (x − m)T K −1 (x − m)).
2
Démonstration. Soit A tel que K = AAT , on a det(A) = (det(K))1/2 et A est inversible. Soit Y ∼
2
Nd (0, Id ) un vecteur gaussien de densité (2π)−d/2 exp(− |y|2 ). On a X = m + AY ∼ Nd (m, K) et, pour f
une fonction mesurable positive

|y|2
Z
d
E(f (X)) = E(f (m + AY )) = (2π)− 2 f (m + Ay) exp(− ) dy.
2
D(y)
On effectue le changement de variable y = A−1 (x − m), on a D(x) = det(A−1 ) et
Z
−d −1 1
E(f (X)) = (2π) 2 det(A ) f (x) exp(− (x − m)T (A−1 )T A−1 (x − m)) dx.
2

Comme K −1 = (AAT )−1 = (A−1 )T A−1 , on a la formule annoncée.

57

Vous aimerez peut-être aussi