Vous êtes sur la page 1sur 114

Probabilités 5

29 août 2022
Table des matières

1 Rappels sur le modèle probabiliste 1

1.1 Espace fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.4 Événement négligeable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.5 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Variables aléatoires réelles 7

2.1 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1 Loi discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.2 Lois discrètes classiques . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2.1 Loi de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.2.5 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.3 Espérance d’une variable aléatoire discrète . . . . . . . . . . . . . . . 11

2.2 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.1 Loi à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.2 Espérance d’une variable aléatoire à densité . . . . . . . . . . . . . . 15

2.3 Complément : théorèmes d’interversion pour l’espérance . . . . . . . . . . . . 17

2.4 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.4.1 Espérance et positivité . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.4.2 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4.3 Inégalité de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

iii
3 Caractériser une loi 23

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1 Densités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 Fonctionnelles caractérisant une loi : méthode générale . . . . . . . . . . . . 25

3.3 La fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3.1 Premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3.2 Exemples : fonctions de répartition de lois classiques . . . . . . . . . 29

3.3.2.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3.2.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3.3 Propriétés caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . 32

3.4 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.4.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.4.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4.3 Caractérisation d’une loi par ses moments . . . . . . . . . . . . . . . 36

3.4.4 Variables aléatoires bornées . . . . . . . . . . . . . . . . . . . . . . . 38

3.5 La fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.5.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . 40

3.5.2 Fonctions caractéristiques de lois classiques . . . . . . . . . . . . . . . 41

3.5.3 Propriétés caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . 43

3.5.4 Relations avec la densité . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.5.5 Relations avec les moments . . . . . . . . . . . . . . . . . . . . . . . 46

4 Vecteurs aléatoires 49

4.1 Vecteurs aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.1.2 Fonctions de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . 51

4.1.3 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

iv
4.1.4 Indépendance et lois produits . . . . . . . . . . . . . . . . . . . . . 55

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.1.4.1 Indépendance de variables aléatoires . . . . . . . . . . . . . 55

4.1.4.2 Lois produits . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2 Vecteurs aléatoires : propriétés générales . . . . . . . . . . . . . . . . . . . 59

4.2.1 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2.1.1 Inégalité de Cauchy-Schwarz . . . . . . . . . . . . . . . . . . 59

4.2.1.2 Inégalités de Hölder et Minkowski . . . . . . . . . . . . . . . 60

4.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.2.3 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.2.4 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.3.1 Loi gaussienne sur R . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.3.2 Définition d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . 73

4.3.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.3.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5 Convergences 85

5.1 Le lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.2 Convergences d’une suite de variables aléatoires . . . . . . . . . . . . . . . 87

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.2.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . 87

5.2.2 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . 89

5.2.3 Convergence en moyenne d’ordre p . . . . . . . . . . . . . . . . . . . 92

5.2.4 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.3.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.3.2 Caractériser la convergence en loi . . . . . . . . . . . . . . . . . . . . 101

5.3.3 Le théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . 106

v
1
Rappels sur le modèle probabiliste

1.1 Espace fondamental

Le choix d’un modèle probabiliste, qui fixe un cadre formel où pourra se déployer la théorie
mathématique, commence par la donnée d’un « espace fondamental », appelé aussi « ensemble
des possibles », et souvent noté Ω. Il décrit l’ensemble des résultats possibles d’une expérience
aléatoire, que celle-ci soit précisée ou non. Ce peut être R+ si l’on mesure la durée de vie
d’une lampe, R3 si l’on observe la position d’une molécule de gaz, la population d’un pays
si l’on effectue des sondages, ou {1, . . . , 6}N si l’on suit une suite infinie de jets de dé. Très
souvent aussi, cet espace fondamental n’est que cité sans être décrit.

1.2 Événements

La deuxième notion constitutive de la théorie probabiliste est l’« événement ». Un événement


est un sous-ensemble de l’espace fondamental Ω, mais tout sous-ensemble de Ω n’est pas
nécessairement un événement. Intuitivement, un sous-ensemble A ⊂ Ω est un événement si
l’on peut répondre à la question : « A a-t-il eu lieu ou non ? » ; question préalable avant de
chercher à déterminer avec quelle probabilité A se produit.
Selon la situation que l’on cherche à modéliser, un sous-ensemble de l’espace fondamental
pourra être un événement ou non. Voyons un exemple. Si l’on fait défiler des signaux de
couleur devant un daltonien, celui-ci ne pourra pas évaluer la fréquence d’apparition du
rouge, qu’il confondra le plus souvent avec du vert, alors qu’une personne avec une vue
normale le pourrait. Dans le premier cas, l’assertion « le signal est de couleur rouge » n’est
pas une information accessible et l’on modélise cette situation en l’excluant de la famille des
événements ; dans le second cas, la même assertion correspond bien à un événement dont on
peut calculer la fréquence.
Lorsque Ω = N ou Z, on considère le plus souvent que tout sous-ensemble de Ω est un
événement. Lorsque Ω = R, il n’est plus approprié de considérer tout sous-ensemble de Ω
comme un événement, et l’on introduit la notion de « tribu des boréliens » B(R) ( P(R).
Dans le cadre de ce cours, nous n’aurons pas besoin de préciser davantage cette notion
d’événement ni d’en donner une caractérisation mathématique. En pratique, tous les ensembles
dont nous chercherons la probabilité seront bien des événements.

1
2 Rappels sur le modèle probabiliste

1.3 Probabilité

Après s’être donné un espace fondamental Ω et des événements, il reste à définir une
« probabilité » (ou « mesure de probabilité », ou « loi ») pour compléter le modèle probabiliste.
C’est une notion qui n’a émergé que relativement récemment alors que mathématiques d’un
côté, jeux de hasard ou systèmes d’assurance de l’autre, se sont développés depuis des
millénaires. L’idée intuitive que l’on peut en avoir est celle de fréquence : fréquence d’un
chiffre dans la suite des lancers d’un dé, ou fréquence d’un caractère donné (yeux bleus,...)
dans une population. La plupart des propriétés d’une probabilité s’en inspirent.

Définition-proposition 1 : Probabilité
On appelle probabilité sur l’espace Ω toute application P définie sur les événements de Ω et à
valeurs dans [0, 1] telle que :

– P(∅) = 0 et P(Ω) = 1 : la fréquence d’un événement qui ne se produit jamais est


évidemment 0, celle d’un événement qui se produit toujours est naturellement 1.
– soit A, B des événements de Ω ; si A ∩ B = ∅, alors P(A ∪ B) = P(A) + P(B) ; par
exemple, la fréquence d’apparition de 1 ou 2 dans une suite de lancers de dé est la
somme de la fréquence du 1 et de la fréquence du 2.

Ces deux premières propriétés


 ont déjà un certain nombre de conséquences pratiques. Par
exemple, on peut déduire P {A = 1 − P(A). Par une récurrence immédiate, elles permettent
aussi de calculer la probabilité d’une réunion finie d’événements A1 , . . . , An disjoints deux à
deux :

P (A1 ∪ · · · ∪ An ) = P (A1 ) + · · · + P (An )


Formule que l’on peut généraliser avec la « formule du crible » (cf infra). Néanmoins, elles
ne suffisent pas pour caractériser une probabilité. On a besoin de pouvoir déterminer la
probabilité d’une réunion dénombrable (ou d’une intersection dénombrable) d’événements.
D’où la propriété de « continuité » suivante :

– soit (An , n ∈ N) une famille d’événements ; alors


 
k
!
[ [
P An  = lim P An
k→+∞
n∈N n=0

Par passage au complémentaire, on a bien sûr la formule analogue pour l’intersection :

 
k
!
\ \
P An  = lim P An
k→+∞
n∈N n=0

Cette propriété de continuité connaît d’autres formulations équivalentes (cf cours d’Introduc-
tion aux probabilités) :

– si les événements An , n ∈ N sont disjoints deux à deux, alors P (


S P
n∈N An ) = n∈N P (An ) ;
– (continuité croissante) si les événements An , n ∈ N forment une suite croissante An ⊂
An+1 pour tout n ∈ N, alors P ( n∈N An ) = limn→+∞ P (An ) ;
S
1.4 Événement négligeable 3

– (continuité décroissante) si les événements An , n ∈ N forment une suite décroissante


An+1 ⊂ An pour tout n ∈ N, alors P ( n∈N An ) = limn→+∞ P (An ).
T

Muni de la probabilité P, l’espace Ω est alors appelé espace de probabilité.

Remarque
Pour caractériser une probabilité, on peut se contenter de vérifier un sous-ensemble de ces
propriétés, par exemple P(Ω) = 1 et P ( n∈N An ) = n∈N P (An ) pour toute famille (An , n ∈ N)
S P

d’événements disjoints. Cf propriété 1.15 du cours d’Introduction aux probabilités.

Citons quelques conséquences connues de cette définition :


– P(A) ≤ P(B) si A et B sont deux événements tels que A ⊂ B ;
– P(A ∪ B) + P(A ∩ B) = P(A) + P(B) pour tous événements A, B de Ω ;
– P(A ∪ B) ≤ P(A) + P(B), conséquence de la propriété précédente ;
– par récurrence immédiate : P (A1 ∪ · · · ∪ An ) ≤ P (A1 ) + · · · + P (An ) pour tous événe-
ments A1 , . . . , An de Ω ;
An ) ≤
S P
– en passant à la limite : P ( n∈N n∈N P (An ) pour toute famille d’événements
(An , n ∈ N).
Vérifions rapidement cette dernière propriété. Comme pour tout n ≥ 0
n n
!
[ X
P Ak ≤ P (Ak ) ,
k=0 k=0

on en déduit en passant à la limite :


 
n +∞
!
[ [ X
P An  = lim P Ak ≤ P (Ak )
n→+∞
n∈N k=0 k=0

Rappelons enfin la « formule du crible » attribuée à Henri Poincaré, dont la démonstration,


par récurrence ou avec les fonctions indicatrices, est laissée en exercice. Pour tous événements
A1 , . . . , An :
n n
!
 
(−1)p+1
[ X X
P Ak = P Ak1 ∩ Ak2 ∩ · · · ∩ Akp
k=1 p=1 1≤k1 <k2 <···<kp ≤n

1.4 Événement négligeable

Jetons une pièce de monnaie équilibrée une infinité de fois. L’événement « la pièce tombe
toujours sur face » est un événement non vide de probabilité nulle ; il s’agit d’un événement
négligeable. La notion d’événements négligeables joue un rôle important en théorie des
probabilités.

Définition 1.1 : Événement négligeable, événement presque sûr


Soit (Ω, P) un espace de probabilité.

1. Un événement A de Ω est dit P-négligeable si P(A) = 0 ;


2. Il est dit P-presque sûr ou certain si {A est négligeable ; autrement dit si P(A) = 1 ;
4 Rappels sur le modèle probabiliste

3. Une propriété Π(ω) qui dépend de ω ∈ Ω est dite vraie P-presque sûrement si l’ensemble
{ω ∈ Ω / Π(ω) est fausse} est P-négligeable.

Exemple
Soit (Ω, P) un espace de probabilité.

1. Un sous-ensemble d’un événement négligeable est négligeable.


2. Deux variables aléatoires X et Y sont « égales presque sûrement » si {ω ∈ Ω / X(ω) 6= Y (ω)}
est négligeable.
3. Une suite de variables aléatoires (Xn )n∈N « converge presque sûrement » vers X s’il
existe un événement négligeable N tel que

∀ω ∈ Ω, ω ∈
/ N =⇒ lim Xn (ω) = X(ω)
n→+∞

Proposition 1.2
Soit (Ω, P) un espace de probabilité.

1. Une réunion finie ou dénombrable d’événements négligeables est un événement négli-


geable.
2. Une intersection finie ou dénombrable d’événements presque sûrs est un événement
presque sûr.

Preuve
C’est une conséquence immédiate des propriétés d’une probabilité et notamment des propriétés
de continuité. Montrons la première assertion, la deuxième assertion s’en déduisant par passage
au complémentaire.

Soit (An , n ≥ 1) une famille finie ou dénombrable d’événements négligeables. Alors

 
[ X X
P An  ≤ P (An ) = 0=0
n≥1 n≥1 n≥1

Exemple
Soit P la loi gaussienne centrée réduite définie sur R. Alors la probabilité de tout singleton
est nulle et l’on en déduit :

 
[ X
P(Z) = P  {n} = P({n}) = 0
n∈Z n∈Z

Il faut faire attention à ce que la réunion ne concerne qu’un nombre au plus dénombrable
d’événements de probabilité nulle. À défaut, il est facile de trouver des contre-exemples,
comme celui-ci :

 
[
P(R) = P  {x} = 1 6= 0
x∈R
1.5 Variable aléatoire 5

1.5 Variable aléatoire

Définition 1.3 : Variable aléatoire


Une variable aléatoire est une fonction définie sur un espace de probabilité (Ω, P) à valeurs
dans un ensemble E, en général un espace vectoriel.

Lorsque E = R, on dit que X est une variable aléatoire réelle ; si E = Rd , on parle aussi de
vecteur aléatoire.

La définition suivante permet de définir la loi d’une variable aléatoire :

Définition-proposition 2 : Loi d’une variable aléatoire


Soit X une variable aléatoire définie sur un espace de probabilité (Ω, P) et à valeurs dans un
espace E. L’application PX qui a tout événement A de E associe

 
PX (A) = P {ω ∈ Ω/X(ω) ∈ A}
définit sur E une mesure de probabilité appelée loi de X.

Remarque
L’ensemble {ω ∈ Ω/X(ω) ∈ A} est aussi noté {X ∈ A} ou X −1 (A) : c’est l’image réciproque
de A par X.

Preuve
Cf propriété 3.5 du cours d’Introduction aux probabilités

Proposition 1.4
Soit X et Y deux variables aléatoires définies sur un même espace de probabilité (Ω, P) et
à valeurs dans un même espace E. Si X et Y sont égales presque sûrement, alors elles ont
même loi. On dit qu’elles sont égales en loi.

Attention
La réciproque n’est pas vraie ! Si X est une variable de Bernoulli de paramètre 1/2, alors X
est égale en loi à Y = 1 − X, mais P(X = Y ) = P(0 = 1) = 0.

Preuve
Soit N = {X 6= Y } = {ω ∈ Ω/X(ω) 6= Y (ω)} ; c’est par hypothèse un événement négligeable.
Soit A un événement quelconque de E. Alors

PX (A) = P(X ∈ A) = P(X ∈ A et Y ∈ A) + P(X ∈ A et Y ∈


/ A)
Or l’événement {X ∈ A et Y ∈
/ A} est inclus dans N et donc est négligeable. On en déduit :

PX (A) = P(X ∈ A et Y ∈ A)
De même :

PY (A) = P(X ∈ A et Y ∈ A)
D’où PX (A) = PY (A). Comme l’égalité est vraie pour tout événement A de E, cela prouve
que les lois de X et Y sont égales.
2
Variables aléatoires réelles

2.1 Variables aléatoires discrètes

2.1.1 Loi discrète

Proposition 2.1
Soit (Ω, P) un espace de probabilité. Soit S ⊂ Ω défini par :

n o
S = ω ∈ Ω | P({ω}) > 0
Alors S est fini ou dénombrable.

Preuve
Remarquons que :

[  1
n o 
ω ∈ Ω | P({ω}) > 0 = ω ∈ Ω | P({ω}) > .
n≥1 n
n o
1
Or pour tout n ≥ 1, il ne peut y avoir plus de n éléments dans l’ensemble ω ∈ Ω | P({ω}) > no
,
n
sinon sa probabilité serait supérieure strictement à 1. L’ensemble ω ∈ Ω | P({ω}) > 0
s’écrit donc comme une réunion dénombrable et croissante d’ensembles finis : il ne peut être
que fini ou dénombrable.

Définition 2.2 : Loi discrète et support


Avec les notations précédentes, si P(S) = 1, la loi P est dite discrète et S est appelé son
support.

Fondamental
La famille {ps = P({s}), s ∈ S} caractérise la loi P. En effet, la probabilité de tout événement
A de Ω s’écrit :

7
8 Variables aléatoires réelles

P(A) = P(A ∩ S) + P(A \ S)


L’événement A \ S est inclus dans {S qui est un événement négligeable. Il est donc de
probabilité nulle. D’autre part, A ∩ S est la réunion disjointe, finie ou dénombrable, des
singletons {s}, s ∈ A ∩ S. D’où :

X X
P(A) = P({s}) = ps (2.1)
s∈A∩S s∈A∩S
La famille {ps = P({s}), s ∈ S} permet donc de déterminer la probabilité de tout événement.

2.1.2 Lois discrètes classiques

2.1.2.1 Loi de Dirac

Définition 2.3
On dit que X suit la loi de Dirac en a ∈ R si P(X = a) = 1. Autrement dit, X est alors
déterministe (non aléatoire).
Son support est réduit au singleton {a}.

2.1.2.2 Loi de Bernoulli

Définition 2.4
On dit que X suit la loi de Bernoulli de paramètre p ∈ [0, 1] si

P(X = 1) = p, et P(X = 0) = 1 − p.
Son support est la paire {0, 1} si p ∈]0, 1[. Toute loi ayant pour support {0, 1} est une loi de
Bernoulli.
Exemple
On lance une pièce de monnaie non équilibrée (univers Ω = {P ile, F ace} et P(P ile) = p =
1 − P(F ace). Alors X(P ile) = 1 et X(F ace) = 0 suit une loi de Bernoulli de paramètre p.

2.1.2.3 Loi binomiale

Définition 2.5 : Loi binomiale


On dit que X suit une loi binomiale de paramètres n ∈ N∗ et p ∈ [0, 1] si pour tout
k = 0, . . . , n

!
n k
P(X = k) = p (1 − p)n−k .
k
Son support est l’ensemble {0, . . . , n} si p ∈]0, 1[.

Exemple
Si X est le nombre de Pile dans un lancer de n pièces indépendantes de probabilité de succès
p, alors X suit une loi binomiale de paramètres (n, p).
2.1 Variables aléatoires discrètes 9

Loi de Bernoulli de paramètre p=\frac{1}{2}


(pièce équilibrée) : on attribue la même proba-
bilité à l’échec 0 qu’au succès 1.

Figure 2.1 – Loi de Bernoulli

Loi de Bernoulli de paramètre p=0,8 (pièce tru-


quée) : on attribue une probabilité plus faible
(1-p=0,2) à l’échec 0 qu’au succès 1 (p=0,8).

Figure 2.2 – Loi de Bernoulli

Loi binomiale de paramètres p=\frac{1}{2} et


n=30.

Figure 2.3 – Loi binomiale (30, 0.5)

2.1.2.4 Loi de Poisson

Définition 2.6
On dit que X suit une loi de Poisson de paramètre λ ∈]0, +∞[ si pour tout k ≥ 0

λk
P(X = k) = e−λ .
k!
Son support est N.
10 Variables aléatoires réelles

Loi binomiale de paramètres p=0.8 et n=30.

Figure 2.4 – Loi binomiale (30, 0.8)

Loi de Poisson de paramètre \lambda=2.5. At-


tention : les valeurs de \mathbb{P}(X=k) pour
k\geq 10 sont trop faibles pour être visibles
sur le graphe. Cependant, elles sont toutes non
nulles : le support de la loi de X est \mathbb{N}
tout entier.

Figure 2.5 – Loi de Poisson

Loi de Poisson de paramètre \lambda=8. At-


tention : les valeurs de \mathbb{P}(X=k) pour
k\geq 20 sont trop faibles pour être visibles
sur le graphe. Cependant, elles sont toutes non
nulles : le support de la loi de X est \mathbb{N}
tout entier.

Figure 2.6 – Loi de Poisson

2.1.2.5 Loi géométrique

Définition 2.7
On dit que X suit une loi géométrique de paramètre p ∈]0, 1[ si

P(X = k) = p(1 − p)k−1 , k ≥ 1.

Son support est N∗ .


2.1 Variables aléatoires discrètes 11

Remarque
La loi géométrique modélise le nombre de lancers successifs et indépendants d’une pièce de
probabilité de Pile égale à p qu’il est nécessaire d’effectuer pour obtenir le premier Pile.

Loi géométrique de paramètre p=\frac{1}{2}.


Attention : les valeurs de \mathbb{P}(X=k)
pour k\geq 10 sont trop faibles pour être vi-
sibles sur le graphe. Cependant, elles sont
toutes non nulles : le support de la loi de X est
\mathbb{N}^\ast tout entier.

Figure 2.7 – Loi géométrique p=0.5

Loi géométrique de paramètre p=0.2. Atten-


tion : les valeurs de \mathbb{P}(X=k) pour
k\geq 15 sont trop faibles pour être visibles sur
le graphe. Cependant, elles sont toutes non
nulles : le support de la loi de X est \ma-
thbb{N}^\ast tout entier.

Figure 2.8 – Loi géométrique p=0.2

2.1.3 Espérance d’une variable aléatoire discrète

Définition 2.8 : Variable aléatoire discrète


Une variable aléatoire réelle X définie sur un espace de probabilité (Ω, P) est dite discrète si
sa loi est discrète.

On notera alors SX le support de sa loi. C’est l’ensemble des valeurs prises par X avec une
probabilité strictement positive.

Pour définir l’espérance de X, on est amené à considérer des sommes finies, toujours définies,
ou des séries dont la somme peut ne pas être définie. Cela conduit à considérer deux situations,
le cas des variables positives et celui des variables d’espérance absolument convergente.

Exemple
Soit Y la variable aléatoire discrète à valeurs dans Z∗ telle que :
12 Variables aléatoires réelles

3
∀k ∈ Z∗ , P(Y = k) =
π2k2
3

P
Peut-on évaluer E[Y ] avec la formule habituelle k∈Z∗ π 2 k2
? Si l’on somme de façon
symétrique, alors :

X 3
lim k× = lim 0 = 0
n→+∞
k=−n,...,n π2k2 n→+∞
k6=0

Si l’on somme d’abord les entiers positifs puis négatifs, alors :

 
 X 3 
lim 
 lim k×  = lim +∞ = +∞
m→−∞ n→+∞
k=m,...,n π2k2  m→−∞
k6=0

En changeant l’ordre de sommation, on obtient deux résultats différents. Avec un ordre de


sommation bien choisi, on pourrait même obtenir n’importe quel réel comme limite.

Pour pouvoir définir correctement l’espérance comme somme, il faut que le résultat de cette
somme ne dépende pas de l’ordre de sommation. Or on sait que c’est vrai dans deux cas, s’il
s’agit d’une somme de termes positifs ou s’il s’agit d’une somme absolument convergente.

Définition 2.9 : Espérance d’une variable discrète positive


Si SX est un sous-ensemble de R+ — c’est-à-dire si X est une variable presque sûrement
positive —, alors on définit

X
E[X] = xPX ({x}) ∈ [0, +∞[∪{+∞}.
x∈SX

Il faut bien remarquer que la somme écrite ci-dessus est définie sans ambiguïté, que sa valeur
ne dépend pas de l’ordre dans lequel on effectue la somme, mais que cette valeur peut être
infinie. On dit que « X admet une espérance finie ou infinie ».

Définition 2.10 : Espérance d’une variable discrète quelconque


Si E[|X|] < +∞, alors on définit comme précédemment

X
E[X] = xPX ({x}) ∈] − ∞, +∞[.
x∈SX

Dans ce cas, l’espérance de X est absolument convergente, sa valeur ne dépend pas de l’ordre
dans lequel on effectue la somme, et cette valeur est finie. On dit que « X admet une espérance
finie ».
Dans les autres cas, l’espérance de X n’est pas définie.

Soit ψ une fonction réelle définie sur SX . Alors ψ(X) est aussi une variable discrète et l’on
peut calculer son espérance à l’aide des définitions précédentes. On peut aussi utiliser la
formule de transfert.

Propriété 2.11 : Formule de transfert


Avec les hypothèses et notations précédentes :
2.2 Variables aléatoires continues 13

– si ψ est à valeurs positives, alors

X
E [ψ(X)] = ψ(x)PX ({x}) ∈ [0, +∞] ;
x∈SX

– à défaut, si E[|ψ(X)|] < +∞, alors


X
E [ψ(X)] = ψ(x)PX ({x}) ∈] − ∞, +∞[.
x∈SX

Preuve
Cf le cours d’Introduction aux probabilités, propriété 3.13.

2.2 Variables aléatoires continues

2.2.1 Loi à densité

Définition 2.12 : Loi à densité


Une loi définie sur R est dite à densité s’il existe une fonction réelle f telle que :

– f est suffisamment régulière pour être localement intégrable ;


– f est positive (sauf éventuellement sur un ensemble R
de longueur nulle — on dit aussi
presque partout positive) et d’intégrale égale à 1 : R f (x) dx = 1 ;
Rb
– Pour tous a, b ∈] − ∞, +∞[∪{−∞, +∞} tels que a ≤ b, alors P(]a, b]) = a f (x) dx.

Remarque
– Qu’entend-on par « suffisamment régulière pour être localement intégrable » ? Simple-
ment qu’on doit pouvoir évaluer l’intégrale de f (ou plus exactement de ses parties
positive f+ = max(f, 0) et négative f− = max(−f, 0)) sur des intervalles bornés. La
régularité demandée dépend de la définition de l’intégrale : intégrale de Riemann,
intégrale de Lebesgue, ou autre. En pratique, il suffit par exemple que la fonction
soit continue sauf sur un ensemble fini ou dénombrable de points pour qu’elle soit
suffisamment régulière, quelle que soit la théorie de l’intégration utilisée.
Dans ce cours, nous admettrons que toutes les fonctions rencontrées sont
suffisamment régulières.
R
– Par « ensemble de longueur nulle », il s’agit d’ensembles A tels que R 1A (x) dx = 0.

Fondamental
Par définition de la densité, on a pour tout intervalle A de la forme ]a, b] :

Z Z
P(A) = f (x) dx = 1A (x)f (x) dx
A R
On peut montrer que cette formule reste vraie pour tout événement A de R. Cela implique
en particulier que la densité d’une probabilité caractérise cette probabilité.

Comparons la formule ci-dessus avec la formule de calcul 2.1 de la probabilité d’un événement
pour une loi discrète :
14 Variables aléatoires réelles

X X
P(A) = ps = 1A (s)P({s})
s∈A∩S s∈S
On peut établir une correspondance formelle entre chaque terme des deux formules :

1A (s) ←→ 1A (x)
P({s}) ←→ fR (x)
s∈S ←→
P
R dx
   
La densité f = f (x), x ∈ R a pour correspondant la famille P({s}), s ∈ S que l’on peut
considérer comme une sorte de densité discrète. Cette correspondance nous sera utile lorsqu’il
s’agira de passer d’une propriété vue dans le cadre discret à la propriété équivalente dans le
cadre à densité, et inversement.
La proposition suivante rappelle a contrario que pour une loi à densité les probabilités des
singletons n’apportent aucune information.

Proposition 2.13
Avec les notations précédentes, si la loi P est à densité, alors P({x}) = 0 pour tout x ∈ R.

Preuve
Cf le cours d’Introduction aux probabilités, propriété 4.10.

Attention
La proposition précédente ne caractérise pas les lois à densité. Il existe des lois P qui ne sont
pas à densité (et encore moins discrètes !) et vérifiant néanmoins P({x}) = 0 pour tout x ∈ R.

Corollaire 2.14
Avec les notations précédentes, pour tous a, b ∈ R tels que a ≤ b,

P(]a, b[) = P([a, b[) = P(]a, b]) = P([a, b])

Pour définir le support S d’une loi admettant la densité f — intuitivement, l’ensemble des
valeurs que peut effectivement prendre une variable aléatoire ayant cette loi — on peut
s’inspirer de la définition donnée pour une loi discrète. Si très naïvement on pose :

S = {x ∈ R/P({x}) > 0}
alors S = ∅ d’après la proposition précédente.
 Un peu plus subtilement, inspirons-nous
 de la
correspondance entre P({s}), s ∈ S pour une loi discrète et la densité f = f (x), x ∈ R
pour poser

S = {x ∈ R/f (x) > 0}


Mais avec une telle définition, une même loi pourrait avoir plusieurs supports différents,
car il existe plusieurs densités possibles pour P. Par exemple, les fonctions x 7→ e−x 1x>0 et
x 7→ e−x 1x≥0 sont deux densités de la loi exponentielle de paramètre 1. L’une serait associée
au support R∗+ , l’autre à R+ . Pour lever l’ambiguïté, on considère plutôt l’adhérence de
l’ensemble précédent, ce qui revient (peu ou prou) à « fermer » les intervalles :

S = {x ∈ R/f (x) > 0}

Exemple
Le support d’une loi gaussienne de variance strictement positive est R, celui d’une loi
exponentielle est R+ , celui d’une loi uniforme sur [a, b] est [a, b].
2.2 Variables aléatoires continues 15

Propriété 2.15
Soit P une loi continue de support S. Alors P(S) = 1.
Preuve
Il est clair que la densité f est nulle sur {S. On en déduit :

  Z Z
P {S = 1{S f (x) dx = 0 dx = 0
R R
Le résultat s’en déduit.

2.2.2 Espérance d’une variable aléatoire à densité

Définition 2.16 : Variable à densité


Une variable aléatoire X définie sur une espace de probabilité (Ω, P) et à valeurs réelles est
dite continue ou à densité si sa loi est à densité.
On notera SX le support de sa loi.
Comme pour l’espérance des variables discrètes, on est amené à distinguer deux cas, celui
des variables positives et celui des variables d’espérance absolument convergentes.
Définition 2.17 : Espérance d’une variable à densité
Soit X une variable aléatoire réelle admettant la densité fX .

– Si le support de la loi de X est inclus dans R+ , autrement dit si fX est nulle sur R−
(sauf éventuellement sur un ensemble de longueur nulle), alors la fonction x 7→ xfX (x)
est positive (sauf éventuellement sur un ensemble intégrale nulle) et l’on peut définir
Z Z +∞
E [X] = xfX (x) dx = xfX (x) dx ∈ [0, +∞[∪{+∞}
R 0
On dit que X admet une espérance finie ou infinie.

– Si E[|X|] < +∞, autrement dit si l’intégrale de la fonction x 7→ xfX (x) est absolument
convergente, alors on peut définir
Z
E [X] = xfX (x) dx ∈] − ∞, +∞[
R
On dit que X admet une espérance finie.
Fondamental
Quelle que soit la loi de X, discrète, à densité, ou autre, on admet que son espérance est
définie si X est positive, ou si E[|X|] < +∞.
Remarque
Si X et Y sont des variables aléatoires admettant des espérances finies, alors pour tous
α, β ∈ R

E [αX + βY ] = αE[X] + βE[Y ]


Dans le cas où on suppose seulement X et Y positives, cette propriété reste vraie pour tous
α et β positifs.
Cette remarque est évidemment valable pour les lois continues comme discrètes, et toutes les
autres.
16 Variables aléatoires réelles

Soit ψ une fonction réelle définie sur R. Alors ψ(X) est aussi une variable aléatoire réelle.
Ce peut être une variable discrète (penser à ψ = 1 !) ou à densité (penser à ψ = Id). Pour
calculer son espérance, on peut chercher à déterminer sa loi ou utiliser la formule de transfert.

Propriété 2.18 : Formule de transfert


Avec les hypothèses et notations précédentes :

– si ψ est à valeurs positives, alors


Z
E [ψ(X)] = ψ(x)fX (x) dx ∈ [0, +∞[∪{+∞} ;
R

– si E[|ψ(X)|] < +∞, alors


Z
E [ψ(X)] = ψ(x)fX (x) dx ∈] − ∞, +∞[.
R

La méthode de la fonction muette est une sorte de réciproque à la formule de transfert.

Règle 2.19 : Fonction muette


Soit X une variable aléatoire réelle. S’il existe une fonction positive f telle que

Z
E[ϕ(X)] = ϕ(x)f (x) dx
R
pour toute fonction ϕ continue bornée ou pour toute fonction continue positive, alors la loi
de X admet la densité f .

Exemple
Soit X une variable aléatoire gaussienne centrée réduite. On souhaite déterminer la loi de
Y = X 2 . Soit ϕ une fonction continue bornée sur R. Alors, en utilisant la formule de transfert :

x2
2 e− 2 Z
2
E[ϕ(Y )] = E[ϕ(X )] = ϕ(x ) √ dx
R 2π
On ne peut faire directement le changement de variables y = x2 dans l’intégrale : s’il est C 1 ,
il n’est cependant pas injectif sur l’intervalle d’intégration. Pour contourner ce problème, il
suffit de couper l’intervalle d’intégration en parties sur lesquelles le changement de variables
sera bien injectif :

x2 x2 x2
− 2 − 2
Z
2 e
Z 0
2 e
Z +∞
e− 2
ϕ(x ) √ dx = ϕ(x ) √ dx + ϕ(x2 ) √ dx
R 2π −∞ 2π 0 2π
x2
Z 0
e− 2
Calculons d’abord ϕ(x2 ) √ dx.
−∞ 2π

Sur ] − ∞, 0[, la fonction x 7→ x2 est C 1 et injective, plus précisément bijective de ] − ∞, 0[


sur ]0, +∞[ : on peut donc effectuer le changement de variables correspondant.

– Calcul de l’inverse : pour tous x ∈] − ∞, 0[, y ∈]0, +∞[,


y = x2 ⇐⇒ x = − y
2.3 Complément : théorèmes d’interversion pour l’espérance 17

– Calcul de l’élément différentiel : pour tous x ∈] − ∞, 0[, y ∈]0, +∞[, comme x = − y,
alors
√ 1
dx = (− y)0 dy = − √ dy
2 y
– Calcul des nouvelles bornes : comme y = x2 , alors
lim x2 = +∞, lim− x2 = 0
x→−∞ x→0
D’où :

x2 y y
Z 0
2 e− 2 Z 0
e− 2 1 1 Z +∞ e− 2
ϕ(x ) √ dx = ϕ(y) √ × − √ dy = ϕ(y) √ dy
−∞ 2π +∞ 2π 2 y 2 0 2πy
R +∞ − x2
Le changement de variables dans l’intégrale 0 ϕ(x2 ) e√2π2 dx donnant le même résultat, on
en déduit :

y
e− 2
Z +∞
E[ϕ(Y )] = ϕ(y) √ dy
0 2πy
On peut alors conclure que la loi de Y admet une densité donnée par la formule :

y
e− 2
fY (y) = √ 1y>0
2πy
 
1 1
On reconnaît une loi Gamma de paramètres ,
2 2
.

2.3 Complément : théorèmes d’interversion pour l’espé-


rance

Soit (Xn , n ≥ 0) une suite de variables aléatoires définies sur un même espace de probabilité
(Ω, P). Si ces variables sont positives ou si l’espérance de chacune est absolument convergente,
alors la linéarité de l’espérance signifie que l’on peut intervertir somme et espérance : quel
que soit n ≥ 0
 
n
X n
X
E Xp  = E [Xp ] .
p=0 p=0

Qu’en est-il lorsque la somme est infinie ? Autrement dit, quand peut-on intervertir série et
espérance ? Une question à peu près équivalente est de savoir quand on peut intervertir limite
et espérance : à quelle condition a-t-on E [limn→+∞ Xn ] = limn→+∞ E [Xn ] ? Les théorèmes
suivants résument les conditions suffisantes les plus utilisées en probabilité.

Théorème 2.20 : Interversion série et espérance


Avec les notations précédentes :

 
+∞
X +∞
X
E Xp  = E [Xp ]
p=0 p=0
P+∞
si les variables aléatoires (Xn , n ≥ 0) sont positives ou si p=0 E [|Xp |] < +∞.
18 Variables aléatoires réelles

Théorème 2.21 : Convergence monotone, convergence dominée


Avec les notations précédentes, supposons qu’il existe une variable aléatoire X définie sur
(Ω, P) telle que la suite (Xn , n > 0) converge vers X P-presque sûrement. Alors

 
E lim Xn = lim E [Xn ]
n→+∞ n→+∞

si les variables aléatoires (Xn , n > 0) sont positives et leur suite croissante :

∀n > 0, 0 6 Xn 6 Xn+1 P-p.s.


on parle alors de convergence monotone ; ou s’il existe Y variable aléatoire positive telle que :

∀n > 0, |Xn | 6 Y p.s., et E[Y ] < +∞


on parle alors de convergence dominée.

Remarque
Si les variables aléatoires sont des fonctions indicatrices, autrement dit si pour tout n ≥ 0 il
existe An ∈ A tel que Xn = 1An , alors la suite de variables aléatoires (Xn , n ≥ 0) est positive
et croissante si la suite d’événements (An , n ≥ 0) est croissante, et dans ce cas :

   
E
n→+∞
lim Xn = E 1S n≥0
An
 
[
= P An 
n≥0
= lim P (An ) d’après la propriété de continuité de la probabilité
n→+∞
= lim E [1An ]
n→+∞
= lim E [Xn ]
n→+∞

Autrement dit, dans le cas particulier des variables aléatoires à valeurs dans {0, 1}, le théorème
de convergence monotone se réduit à la propriété de continuité de la probabilité.

Démonstration
Il n’y aura pas ici de démonstration générale des théorèmes précédents, seulement quelques
exemples où l’on reconnaîtra des résultats classiques.

Supposons d’abord que Ω = N. Alors :

   
+∞ +∞ +∞ +∞ +∞ +∞
!
X X X X X X
E Xp  =  Xp (n) P({n}) et E [Xp ] = Xp (n)P({n})
p=0 n=0 p=0 p=0 p=0 n=0

Il est alors bien connu que les deux sommes ci-dessus sont égales — i.e. on peut changer l’ordre
de sommation — s’il s’agit de séries à termes positifs ou de séries absolument convergentes.
On retrouve les conditions du théorème 2.20.

Supposons ensuite que Ω = R et que P admette la densité f . Alors :


2.4 Inégalités 19

   
+∞
X Z +∞
X +∞
X +∞
X Z 
E Xp  =  Xp (x) f (x) dx et E [Xp ] = Xp (x)f (x) dx
p=0 R p=0 p=0 p=0 R

Là encore, les conditions du théorème 2.20 sont bien celles dont on sait qu’elles permettent
d’intervertir série et intégrale.

Remarquons maintenant le théorème de convergence monotone est équivalent au théorème 2.20


dans le cas où les variables aléatoires sont positives. En effet, pour passer d’une formulation
à l’autre, il suffit de poser Xn0 = X0 + · · · + Xn pour tout n ≥ 0. Alors la suite de variables
(Xn , n ≥ 0) est positive si et seulement si la suite (Xn0 , n ≥ 0) est positive et croissante et :

   
+∞ n  
lim Xn0
X X
E Xp  = E  lim Xp  = E
n→+∞ n→+∞
p=0 p=0
+∞ n
E [Xp ] = lim E [Xn0 ]
X X
E [Xp ] = lim
n→+∞ n→+∞
p=0 p=0

Avec la même astuce, on remarque que le théorème de convergence dominée implique le


théorème 2.20 dans le cas où les variables aléatoires ne sont pas positives, mais qu’il n’y a
pas cette fois équivalence. La preuve générale du théorème de convergence dominée excède le
cadre de ce cours. Comme exercice, on peut le démontrer dans le cas où toutes les variables
aléatoires sont définies sur N ; il suffit de remarquer que la suite (de suites) (Xp , p ≥ 0) est
uniformément convergente sous les conditions du théorème de convergence dominée (du moins
sur le support de P), ce qui permet alors d’intervertir limite et série.

2.4 Inégalités

2.4.1 Espérance et positivité

Les inégalités classiques qui suivent font partie des outils standard de la théorie des probabilités.
Elles servent par exemple à déterminer des intervalles de confiance ou à établir des résultats
de convergence. Elles se déduisent de la positivité de la probabilité et de sa conséquence, à
savoir que l’espérance d’une variable positive est positive, éventuellement infinie :

Propriété 2.22 : Positivité de l’espérance


Soit X et Y deux variables aléatoires réelles définies sur un même espace de probabilité
(Ω, P).

– Si X est positive, alors E[X] est positive ;


– si X ≥ Y presque sûrement, alors E[X] ≥ E[Y ] dès que les espérances sont définies,
autrement dit dès que X et Y admettent une espérance (finie ou infinie).

Cette propriété se vérifie facilement si X et Y sont des variables aléatoires discrètes (resp.
continues), auquel cas il s’agit d’une simple conséquence des propriétés de la somme (resp. de
l’intégrale). Elle est vraie plus généralement, que les lois de X et Y soient un mélange de lois
discrètes et continues, ou qu’elles soient tout autres.
20 Variables aléatoires réelles

Tirons-en une première conséquence, souvent utile : si X est une variable aléatoire bornée
presque sûrement, alors X admet une espérance finie. En effet :

|X| ≤ K p.s. ⇒ E [|X|] ≤ E[K] = K < +∞

Autre conséquence, importante pour cette section : si X est une variable aléatoire réelle et
f, g deux fonctions continues par morceaux telles que 0 ≤ f ≤ g, alors

0 ≤ E[f (X)] ≤ E[g(X)] (2.2)


Cette simple inégalité sera à la base des résultats de la prochaine section.

2.4.2 Inégalité de Markov

Proposition 2.23 : Inégalité de Markov


Soit X une variable aléatoire réelle. On note X+ = max(0, X). Alors l’inégalité suivante est
vérifiée pour tout t > 0 :

E [X+ ] E [|X|]
P(X ≥ t) ≤ ≤
t t
Preuve
Pour tout x ∈ R, on a les inégalités

x max(0, x) |x|
1[t,+∞[ (x) ≤ 1[t,+∞[ ≤ ≤
t t t
h i
La proposition s’en déduit en utilisant l’inégalité 2.2 et le fait que P(X ≥ t) = E 1[t,+∞[ (X) .

Corollaire 2.24
Soit X une variable aléatoire réelle. Alors l’inégalité suivante est vérifiée pour tous t > 0 et
p>0:

E [|X|p ]
P(X ≥ t) ≤ P(|X| ≥ t) ≤
tp
Preuve
Comme la fonction x 7→ xp est strictement croissante sur R+ , on a :

{X ≥ t} ⊂ {|X| ≥ t} = {|X|p ≥ tp }
D’où :

P (X ≥ t) ≤ P (|X| ≥ t) = P (|X|p ≥ tp )
Il reste à appliquer l’inégalité de Markov à |X|p et tp pour en déduire la dernière inégalité :

E [|X|p ]
P (|X|p ≥ tp ) ≤
tp
Le corollaire en résulte.
2.4 Inégalités 21

Une première application de l’inégalité de Markov est la preuve de l’équivalence suivante :

Proposition 2.25
Soit X une variable aléatoire presque sûrement positive (P(X ≥ 0) = 1). Alors

P(X = 0) = 1 ⇐⇒ E[X] = 0

Preuve
L’implication P(X = 0) = 1 =⇒ E[X] = 0 est évidente. Vérifions la réciproque. Remarquons
d’abord que

P(X = 0) = P(X ≥ 0) − P(X > 0) = 1 − P(X > 0)


et, en utilisant la propriété de continuité croissante de P :

1 1
    
P(X > 0) = P ∪n≥1 X > = lim P X >
n n→+∞ n
Or d’après l’inégalité de Markov :

1
 
0≤P X> ≤ nE[X] = 0
n
 
1
pour tout n ≥ 1. On en déduit que limn→+∞ P X > n
= 0, puis que P(X = 0) = 1.

2.4.3 Inégalité de Jensen

Soit X une variable aléatoire de support SX et admettant une espérance finie. Cette espérance
n’appartient pas nécessairement à SX (considérons par exemple une variable de Bernoulli de
paramètre 1/2 qui a pour support {0, 1} et pour espérance 1/2). Mais si I est un intervalle qui
contient SX , alors E[X] appartient à I. En effet, supposons par exemple que SX ⊂ I = [a, b] ;
alors :

a ≤ X ≤ b p.s.
D’où :

a ≤ E[X] ≤ b
autrement dit :

E[X] ∈ I
Le même raisonnement peut être suivi pour toutes les autres formes d’intervalles, par exemple
si I = [a, +∞[. Cette remarque préliminaire justifie la cohérence de l’énoncé suivant :

Théorème 2.26 : Inégalité de Jensen


Soit X une variable aléatoire admettant une espérance finie, à valeurs dans un intervalle I
de R. Soit ϕ une fonction réelle, définie et convexe sur I. On suppose que ϕ(X) est presque
sûrement positive ou d’espérance finie. Alors

ϕ (E[X]) ≤ E [ϕ(X)]
22 Variables aléatoires réelles

Par définition, ϕ est convexe sur I si pour tous a, b ∈ I et p ∈ [0, 1], alors

ϕ(pa + (1 − p)b) ≤ pϕ(a) + (1 − p)ϕ(b)


Soit Y la variable aléatoire à valeurs dans {a, b} telle que P(Y = a) = p et P(Y = b) = 1 − p.
Alors E[Y ] = pa + (1 − p)b et E [ϕ(Y )] = pϕ(a) + (1 − p)ϕ(b). L’inégalité précédente peut
donc se récrire

ϕ (E[Y ]) ≤ E [ϕ(Y )]
Autrement dit, ϕ est une fonction convexe si elle vérifie l’inégalité de Jensen pour tout variable
aléatoire qui ne prend que deux valeurs. L’inégalité de Jensen nous apprend que dans ce cas,
elle la vérifie aussi pour n’importe quelle variable aléatoire admettant une espérance finie.

Si l’on applique l’inégalité de Jensen à la valeur absolue qui est une fonction convexe sur
R, on retrouve l’inégalité bien connue |E[X]| ≤ E [|X|]. Voyons-en une autre application,
importante :

Corollaire 2.27
Soit X une variable aléatoire réelle et p, q ∈ R∗+ tels que p < q. Alors

1 1
E [|X|p ] p ≤ E [|X|q ] q

Preuve
Appliquons l’inégalité de Jensen à la variable aléatoire |X|p à valeurs dans l’intervalle [0, +∞[
q
et à la fonction x 7→ x p qui est bien définie et convexe sur [0, +∞[ dès lors que pq > 1 :

q h q i
E [|X|p ] p ≤ E (|X|p ) p
1
Comme la fonction x 7→ x q est croissante sur R+ , le corollaire en résulte.

Le cas particulier de l’inégalité précédente avec p = 1 et q = 2 est connu sous le nom


d’inégalité de Cauchy-Schwarz (cas univarié) :
q
|E[X]| ≤ E [|X|] ≤ E [|X|2 ] (2.3)
3
Caractériser une loi

Introduction

Pour caractériser la loi d’une variable aléatoire réelle X, c’est-à-dire d’une probabilité sur R,
il y a bien sûr la densité pour les lois continues, ou la famille des probabilités des singletons
pour les lois discrètes. Mais il y a des lois qui ne sont ni continues ni discrètes, et quand
ce serait le cas, il y a des fois où le calcul de la densité ou de certaines probabilités est
inutilement compliqué. Il existe d’autres fonctions pour caractériser une loi, à l’instar de la
fonction génératrice d’une loi sur N. Nous en verrons trois, la fonction de répartition, la suite
des moments et la fonction caractéristique.

3.1 Densités

La façon sans doute la plus intuitive de caractériser une loi est d’utiliser sa densité, lorsque
celle-ci existe. Pour une loi discrète, cela correspond à la donnée des probabilités des singletons.
Rappelons quelques résultats bien connus.

Proposition 3.1 : Cas discret


Soit X et Y deux variables aléatoires à valeurs dans un même ensemble S au plus dénombrable.
Alors X et Y ont même loi si et seulement si

∀s ∈ S, P(X = s) = P(Y = s).

Les masses ponctuelles caractérisent une loi discrète. Rappelons ce qui caractérise une famille
de masse ponctuelle :

Proposition 3.2
Soit S un ensemble au plus dénombrable. Soit (ps , s ∈ S) une famille de réels tels que :

X
∀s ∈ S, ps > 0 et ps = 1.
s∈S

23
24 Caractériser une loi

Alors il existe une variable aléatoire X à valeurs dans S telle que :

∀s ∈ S, P(X = s) = ps .

Considérons maintenant les variables aléatoires à densité.

Proposition 3.3
Soit f une fonction suffisamment régulière sur R, presque partout positive, et d’intégrale
égale à 1. Alors il existe une variable aléatoire dont la loi admet la densité f .

Preuve
Il
R
s’agit simplement de remarquer que l’application qui à tout événement A de R associe
A f (x) dx vérifie bien les propriétés d’une probabilité. Cela est à peu près évident, quelle que
soit la notion d’intégrale utilisée.

Supposons que f et g soient deux densités pour la loi d’une variable aléatoire X et posons

A+ = {x ∈ R/f (x) > g(x)} A0 = {x ∈ R/f (x) = g(x)} A− = {x ∈ R/f (x) < g(x)}

|f (x) − g(x)| dx :
R
Calculons R

Z Z
|f (x) − g(x)| 1A+ (x) + 1A0 (x) + 1A− (x) dx
 
|f (x) − g(x)| dx =
R ZR Z
= |f (x) − g(x)|1A+ (x) dx + |f (x) − g(x)|1A0 (x) dx
RZ R

+ |f (x) − g(x)|1A− (x) dx


R
Z Z
= (f (x) − g(x))1A+ (x) dx + 0 + (g(x) − f (x))1A− (x) dx
ZR Z R Z Z
= f (x)1A+ (x) dx − g(x)1A+ (x) dx + g(x)1A− (x) dx − f (x)1A− (x) dx
R R R R
= P(X ∈ A+ ) − P(X ∈ A+ ) + P(X ∈ A− ) − P(X ∈ A− )
= 0

L’intégrale d’une fonction positive est nulle si et seulement si la fonction est nulle sauf sur
un ensemble d’intégrale (ou de longueur) nulle (le résultat équivalent en probabilité est la
deuxième assertion de la propriété 2.22). On entend par là un ensemble A tel que :
Z
dx = 0
A
C’est le cas par exemple si A est fini ou dénombrable.
On en déduit que |f − g| = 0 sauf sur un ensemble de longueur nulle. D’où la proposition
suivante :

Proposition 3.4
Soit X et Y deux variables aléatoires réelles, dont les lois admettent les densités fX et fY .
Alors X et Y ont même loi si et seulement si

fX = fY
sauf éventuellement sur un ensemble de longueur nulle.
3.2 Fonctionnelles caractérisant une loi : méthode générale 25

Montrer que les lois de deux variables aléatoires sont distinctes lorsqu’on en connaît des
densités est donc souvent assez évident mais pas toujours simple à démontrer rigoureusement :
il faut montrer que les densités diffèrent sur un ensemble non négligeable de points et pas
seulement en quelques points. Le critère suivant permet de faciliter la preuve.

Proposition 3.5
Soit X et Y de variables aléatoires réelles de densités fX et fY . S’il existe x0 ∈ R tel que fX
et fY soient continues en x0 , et fX (x0 ) 6= fY (x0 ), alors les lois de X et Y sont distinctes.

Nous en verrons la preuve dans la section suivante.

3.2 Fonctionnelles caractérisant une loi : méthode générale

Soit X, Y deux variables aléatoires réelles de lois respectives PX et PY . On sait que pour tout
événement A de R, alors

PX (A) = E [1A (X)] et PY (A) = E [1A (Y )]


De cette remarque simple, on déduit que PX = PY si et seulement si pour toute fonction
ψ ∈ F = {1A , A événement de R} alors E[ψ(X)] = E[ψ(Y )].
C’est le schéma général d’un ensemble de méthodes destinées à caractériser des probabilités
à partir de calculs d’espérances. Il faut voir l’ensemble F comme un ensemble de fonctions
tests, et si cet ensemble est assez riche, il permet de caractériser une loi au sens où :

PX = PY ⇐⇒ ∀ψ ∈ F, E[ψ(X)] = E[ψ(Y )]
De tels ensembles sont nombreux. Il y a l’ensemble des fonctions indicatrices d’événements,
comme on vient de le voir ; il y a aussi l’ensemble de fonctions continues bornées ou l’ensemble
des fonctions continues positives que l’on utilise pour la méthode de la fonction muette 2.19.
Supposons de plus que l’on puisse paramétrer les fonctions de F :

F = {ψλ , λ ∈ Λ}
Et pour tout λ ∈ Λ, définissons ϕX (λ) = E [ψλ (X)], et de façon similaire ϕY (λ). Alors :

PX = PY ⇐⇒ ∀ψ ∈ F, E[ψ(X)] = E[ψ(Y )]
⇐⇒ ∀λ ∈ Λ, E[ψλ (X)] = E[ψλ (Y )]
⇐⇒ ∀λ ∈ Λ, ϕX (λ) = ϕY (λ)

On dispose ainsi de fonctions ϕX et ϕY définies sur Λ et qui caractérisent les lois de X et Y .

Exemple : La fonction génératrice


La fonction génératrice GX associée à une variable aléatoire X à valeurs dans N est un
exemple déjà connue de fonctionnelle caractérisant une loi. Rappelons qu’elle est définie
comme la série entière :

+∞
sk P (X = k)
X
GX (s) =
k=0
26 Caractériser une loi

pour tout s ∈ [−1, 1] (cf définition 3.47 du cours d’Introduction aux probabilités).
 Comme le 
développement en série entière est unique, elle détermine bien les probabilités P(X = k), k ∈ N
dont on sait qu’elles caractérisent la loi de X. Enfin, d’après la formule de transfert :

h i
GX (s) = E sX
n o
Elle suit donc bien le schéma général énoncé plus haut avec F = x 7→ sx , s ∈ [−1, 1]

C’est ce schéma général qui va se déployer dans les sections suivantes avec trois ensembles
paramétrés de fonctions tests :
– L’ensemble F = 1]−∞,x] , t ∈ R conduira à l’étude des fonctions de répartition ;
n o

– L’ensemble F = {x 7→ xn , n ∈ N} conduira à l’étude des moments ;


– L’ensemble F = {x 7→ eitx , t ∈ R} conduira à l’étude de la fonction caractéristique.

3.3 La fonction de répartition

3.3.1 Premières propriétés

Définition 3.6 : Fonction de répartition


Soit X une variable aléatoire réelle définie sur un espace de probabilité (Ω, P). La fonction de
répartition FX de X est définie par :

FX : R −→ [0, 1]
x 7−→ FX (x) = P(X ≤ x) = PX (] − ∞, x])
avec PX la loi de X.

Propriété 3.7
Avec les notations précédentes :

1. La fonction FX est croissante ; lim−∞ FX = 0 et lim+∞ FX = 1.


2. En tout point x ∈ R, elle est continue à droite et possède une limite à gauche ;
P(X = x) = FX (x) − limy→x− FX (y).

Preuve
– Soit x, x0 ∈ R. Si x est inférieur à x0 , alors ] − ∞, x] est inclus dans ] − ∞, x0 ], ce qui
implique FX (x) = PX (] − ∞, x]) ≤ P(] − ∞, x0 ]) = FX (x0 ). La fonction FX est donc
bien croissante sur R.
– Elle admet donc des limites en −∞ et en +∞. On les détermine grâce à la pro-
priété de continuité 1 (monotone) de PX . En effet, comme les suites d’événements
(] − ∞, −n], n ≥ 1) et (] − ∞, n], n ≥ 1) sont respectivement décroissante et croissante,
on en déduit :
3.3 La fonction de répartition 27

lim FX = lim FX (−n)


−∞ n→+∞
= lim PX (] − ∞, −n])
n→+∞
 
\
= PX  ] − ∞, −n]
n≥1
= PX (∅) = 0

lim FX = lim FX (n)


+∞ n→+∞
= lim PX (] − ∞, n])
n→+∞
 
[
= PX  ] − ∞, n]
n≥1
= PX (R) = 1

– Soit x ∈ R. Comme FX est croissante, elle possède une limite à droite et une limite
à gauche en x. Là encore, on déterminei ces limites igrâce à la propriété
i de continuité
i 
de PX . Comme les suites d’événements −∞, x − n , n ≥ 1 et −∞, x + n1 , n ≥ 1
1

sont respectivement croissante et décroissante, on en déduit :

1
 
lim FX (y) = lim FX x−
y→x− n→+∞ n
1
 
= lim PX −∞, x −
n→+∞

n
1
[  
= PX  −∞, x − 
n≥1 n
= PX (] − ∞, x[)
= PX (] − ∞, x]) − PX ({x}) = FX (x) − P(X = x)

1
 
lim FX (y) = lim FX x+
y→x+ n→+∞ n
1
 
= lim PX −∞, x +
n→+∞

n
1
\  
= PX  −∞, x + 
n≥1 n
= PX (] − ∞, x])
= FX (x)

Cela montre que FX est bien continue à droite en x et achève la preuve de la propriété.

Corollaire 3.8
Soit a, b ∈ R avec a < b. Alors, avec les notations précédentes :
28 Caractériser une loi

PX (] − ∞, a] = FX (a)
PX (] − ∞, a[) = lim− FX (x)
x→a
PX (]a, +∞[) = 1 − FX (a)
PX ([a, +∞[) = 1 − lim− FX (x)
x→a
PX (]a, b]) = FX (b) − FX (a)
PX ([a, b]) = FX (b) − lim− FX (x)
x→a
PX (]a, b[) = lim FX (x) − FX (a)
x→b−
PX ([a, b[) = lim FX (x) − lim− FX (x)
x→b− x→a

La preuve est immédiate.

Corollaire 3.9
Avec les notations précédentes, la fonction de répartition FX admet au plus un nombre
dénombrable de discontinuités.

C’est d’ailleurs le cas de toutes les fonctions croissantes sur R.

Preuve
D’après la propriété précédente, FX n’a de discontinuité que là où elle n’est pas continue à
gauche, c’est-à-dire en tout x ∈ R tel que P(X = x) > 0. Or de tels x ne peuvent être qu’en
nombre fini ou dénombrable, d’après la proposition 2.1.

Corollaire 3.10
Si X est une variable à densité, sa fonction de répartition FX est continue sur R.

Preuve
Il suffit de se rappeler que P(X = x) = 0 en tout x ∈ R si X est une variable à densité (cf
Proposition 2.13). Cela implique que la fonction de répartition FX est continue à gauche, et
donc continue, sur tout R.

Attention
Une fonction de répartition peut être continue sans que la loi soit à densité. Il faut davantage
pour que l’on puisse déduire de régularité de la fonction de répartition le fait que la loi admet
une densité, comme la proposition suivante l’illustre.

Proposition 3.11
Soit X une variable aléatoire réelle.

– Si sa fonction de répartition est continue sur R, et continûment dérivable par morceaux,


alors X est une variable aléatoire à densité et FX0 est une densité de la loi de X ;
– Si X est une variable aléatoire à densité, et si la densité fX est continue en x0 , alors
FX est dérivable en x0 et FX0 (x0 ) = fX (x0 ).

Preuve
La preuve
Rx
découle des résultats classiques reliant intégrale et dérivée, et de la relation
FX (x) = −∞ fX (y) dy.
3.3 La fonction de répartition 29

3.3.2 Exemples : fonctions de répartition de lois classiques

3.3.2.1 Lois discrètes

Loi uniforme

Figure 3.1 – Loi uniforme sur {0,...,5}

Loi binomiale

Figure 3.2 – Loi binomiale p=0.6, n=6

Loi de Poisson
30 Caractériser une loi

Figure 3.3 – Loi de Poisson l=3

Loi géométrique

Figure 3.4 – Loi géométrique p=0.4

3.3.2.2 Lois continues

Loi uniforme
3.3 La fonction de répartition 31

Figure 3.5 – Loi uniforme sur [0,5]

Loi exponentielle

Figure 3.6 – Loi exponentielle l=1

Loi normale
32 Caractériser une loi

Figure 3.7 – Loi gaussienne centrée réduite

Loi de Cauchy

Figure 3.8 – Loi de Cauchy

3.3.3 Propriétés caractéristiques

Il s’agit ici de répondre à deux questions :


– Étant donné une fonction réelle, s’agit-il de la fonction de répartition d’une variable
aléatoire réelle ?
– Et si tel est le cas, permet-elle de déterminer (ou de caractériser) la loi de cette variable
aléatoire ?

Théorème 3.12
Soit F une fonction réelle. C’est la fonction de répartition d’une variable aléatoire réelle si et
seulement si

– elle est croissante ;


3.4 Moments 33

– lim−∞ F = 0 et lim+∞ F = 1 ;
– elle est continue à droite.

La condition nécessaire a déjà été établie à la propriété 3.7, la condition suffisante est admise.
Sa preuve fait appel à la théorie de la mesure.

Théorème 3.13
Soit X et Y deux variables aléatoires réelles. Elles ont même loi si et seulement si leurs
fonctions de répartition coïncident sur R.

Reprenons le schéma général évoqué à la fin de la section 3.2. Connaître la fonction de


répartition FX d’une variable aléatoire oréelle X, c’est connaître E[f (X)] pour toute fonction
f de l’ensemble F = 1]−∞,x] , x ∈ R . Il s’agit donc d’un ensemble de fonctions tests
n

paramétrées par x ∈ R suffisamment riche pour caractériser la loi de X.

Démonstration
La condition nécessaire est évidente : si X et Y ont même loi, alors en tout x ∈ R :

FX (x) = PX (] − ∞, x]) = PY (] − ∞, x]) = FY (x)


La condition suffisante est moins élémentaire à démontrer et nous n’en donnerons qu’un
schéma de preuve. D’après le corollaire 3.8, PX et PY coïncident sur tous les intervalles de
R, fermés, ouverts ou non, bornés ou non, dès que FX = FY . Grâce aux propriétés de PX et
PY , cette coïncidence s’étend à tous les événements que l’on peut obtenir par réunion finie
ou dénombrable d’intervalles disjoints, par passage au complémentaire et par réunion d’une
suite croissante. Cet ensemble d’événements n’est pas exhaustif, mais il est suffisamment
important pour que cela suffise à établir que les deux probabilités coïncident nécessairement
sur tous les événements.

Preuve : (corollaire du théorème précédent)


Soit X et Y de variables aléatoires réelles de densités fX et fY . Soit x0 ∈ R tel que fX et fY
soient continues en x0 , et fX (x0 ) 6= fY (x0 ). Alors FX et FY sont dérivables en x0 et

FX0 (x0 ) = fX (x0 ) 6= fY (x0 ) = FY0 (x0 )


d’après la proposition 3.11. Les fonctions de répartition de X et Y sont donc distinctes.
Comme elles caractérisent les lois de X et Y , on en déduit que ces lois sont différentes.

3.4 Moments

3.4.1 Définition et exemples

Définition 3.14 : Moment d’une variable réelle


Soit X une variable réelle et n ∈ N∗ . On dit que X admet un moment d’ordre n si

E [|X|n ] < +∞
Le moment d’ordre n de X vaut alors E [X n ], et est souvent noté mn (X).

Si X admet un moment d’ordre n pour tout n ∈ N∗ , on dit qu’elle admet des moments de
tout ordre.
34 Caractériser une loi

Remarque
1. Le moment d’ordre 1 de X est son espérance.
2. On peut étendre la définition précédente à n ∈ R∗+ , voire à n ∈ Z ou n ∈ R.
3. Enfin, rappelons que si X est une variable aléatoire presque sûrement positive (P(X ≥
0) = 1), alors l’espérance E [X n ] est toujours bien définie, mais peut valoir +∞.

Exemple
Soit X une variable aléatoire admettant la densité x 7→ x34 1x≥1 . C’est un exemple de variable
dite « de Pareto », du nom de l’économiste italien qui l’introduisit à la fin du XIXème siècle
pour modéliser la distribution des richesses. Elle est positive presque sûrement. Déterminons
ses moments, s’ils existent, avec la formule de transfert. Soit n ∈ N∗ :

E [|X|n ] = E [X n ]
Z
3
= xn 4 1x≥1 dx
R x
Z +∞
= 3 xn−4 dx
1
= +∞ si n ≥ 3
#+∞
xn−4+1
"
3
= 3 = si n < 3
n−4+1 1 3−n
On dit que X n’a pas de moment supérieur ou égal à 3.

Fondamental
Si une variable aléatoire possède un moment d’ordre q > 0, alors elle possède un moment
d’ordre p pour tout p ∈]0, q[ (cf corollaire 2.27).

Ainsi, pour vérifier qu’une variable aléatoire possède des moments de tout ordre, il suffit
de s’assurer qu’elle possède des moments d’ordre pair. Autre conséquence de la remarque
précédente :

Corollaire 3.15
Si X possède un moment d’ordre n, alors aX + b aussi pour tous a, b ∈ R.

Preuve
En effet :

" n ! n
# !
n k n−k n k n−k h k i
E [|aX + b|n ] ≤ E |a b | × |X|k =
X X
|a b |E |X| < +∞
k=0 k k=0 k
car X possède un moment d’ordre k pour tout k inférieur ou égal à n. Notons que l’on a
pu intervertir somme et espérance pour l’une ou l’autre de ces deux raisons : il s’agit d’une
combinaison linéaire à coefficients positives de variables aléatoires positives ; il s’agit d’une
combinaison linéaire de variables aléatoires admettant une espérance finie.

3.4.2 Variance

Définition 3.16 : Variance et écart-type


Soit X une variable aléatoire réelle possédant un moment d’ordre 2, et dont l’espérance est
donc bien définie. La variance de X est définie par :
3.4 Moments 35

h i
var(X) = E X 2 − E[X]2
Son écart-type est égal à la racine carrée de sa variance.

Propriété 3.17
Sous les hypothèses précédentes, la variance de X est positive et vaut :

h i
var(X) = E (X − E[X])2

Preuve
La positivité résulte de la formule annoncée, que l’on établit en la développant :

h i h i
E (X − E[X])2 = E X 2 − 2XE[X] + E[X]2
h i
= E X 2 − 2E[X]2 + E[X]2
h i
= E X 2 − E[X]2 = var(X)

Corollaire 3.18
Soit a, b ∈ R, X une variable aléatoire réelle possédant un moment d’ordre 2. Alors

var(aX + b) = a2 var(X)

Preuve
C’est une conséquence immédiate de la propriété précédente et de la linéarité de l’espérance.

Corollaire 3.19
Une variable aléatoire de variance nulle est constante presque sûrement (elle ne varie pas...).

Preuve
Soit X une variable aléatoire de variance nulle. D’après la propriété précédente, (X − E[X])2
est une variable aléatoire positive d’espérance nulle. D’après la propriété 2.22, elle est nulle
presque sûrement, ce qui signifie

P (X = E[X]) = 1
La variable aléatoire X est donc bien constante presque sûrement.

Proposition 3.20 : Inégalité de Bienaymé-Tchebycheff


Soit X une variable aléatoire réelle ayant un moment d’ordre 2. Alors l’inégalité suivante est
vérifiée pour tout t > 0 :

var(X)
P (|X − E[X]| ≥ t) ≤
t2
h i
avec var(X) = E (X − E[X])2 la variance de X.

Preuve
Il suffit d’appliquer le corollaire 2.24 de l’inégalité de Markov à la variable aléatoire |X − E[X]|
et p = 2.
36 Caractériser une loi

3.4.3 Caractérisation d’une loi par ses moments

Cette section répond à deux questions :

– étant donné une suite de réels, existe-t-il une loi dont elle soit la suite des moments ?

– et si tel est le cas, est-ce que cette loi est unique ?

Théorème 3.21
Soit (mn , n ≥ 1) une suite de réels ; on pose m0 = 1. Il existe une variable aléatoire X ayant
des moments de tous ordres telle que

∀n ≥ 1, E [X n ] = mn

si et seulement si pour tout k ≥ 1 la matrice symétrique, dite de Hankel,

 
1 m1 m2 ··· mk−1
m1 m2 m3 ··· mk
 
 
 
(mp+q−2 )kp,q=1 =

 m2 m3 m4 ··· mk+1 

 .. .. .. .. .. 

 . . . . . 

mk−1 mk mk+2 · · · m2k−2

est positive.

Remarque
Si la condition précédente est vérifiée, alors pour tout k ≥ 1 le déterminant de la matrice
(mp+q−2 )kp,q=1 est positif. Pour k = 2, ce déterminant est égal à

!
1 m1
det = m2 − m21 .
m1 m2

Si m1 et m2 sont les deux premiers moments d’une variable aléatoire X, alors ce déterminant
n’est autre que la variance de X, et il est bien positif.

Plus généralement, si la matrice (mp+q−2 )kp,q=1 est positive, les déterminants de ses mineurs
symétriques par rapport à la diagonale principale sont positifs. Notons qu’un résultat classique
d’algèbre linéaire donne une réciproque partielle : si pour tout k ≥ 1 le déterminant de la
matrice (mp+q−2 )kp,q=1 est strictement positif, alors pour tout k ≥ 1 la matrice (mp+q−2 )kp,q=1
est définie positive.

Démonstration
Nous ne démontrerons que la condition nécessaire. Soit X une variable aléatoire réelle dont
les moments sont décrits par la suite (mn , n ≥ 1). Soit k ≥ 1 et (α0 , . . . , αk−1 ) des réels
quelconques. Alors, comme m0 = 1 = E[X 0 ], on peut écrire :
3.4 Moments 37

 2    
k−1 k−1 k−1
αp X p   αp X p   αq X q 
X X X
0≤ E
  = E 
p=0 p=0 q=0
 
k−1
αp αq X p+q 
X
= E
p,q=0
k−1
X
= αp mp+q αq
p,q=0
  
m0 ··· mk−1 α0
.. .. .. 
  
= α0 · · · αk−1 
 . . 
 . 

mk−1 · · · m2k−2 αk−1

Cela montre que la matrice (mp+q−2 )kp,q=1 est positive.

Lorsque l’on connaît les moments d’une loi, celle-ci n’est pas nécessairement caractérisée
par ses moments. Cette indétermination apparaît lorsque la suite des moments (mn , n ≥ 1)
croît trop vite vers l’infini. Il n’est pas facile de décrire l’ensemble des suites de moments qui
caractérisent une loi, mais il existe un critère simple qui permet de s’en assurer.

Théorème 3.22 : Critère de Carleman


Soit X et Y deux variables aléatoires ayant des moments de tous ordres.

– Si elles ont même loi, leurs moments sont égaux.


– Si leurs moments sont égaux, et si, en notant mn = E[X n ] = E[Y n ] pour tout n,

X 1
1 = +∞,
n≥1 (m2n ) 2n
alors leurs lois sont égales.
1
Si le critère de Carleman est vérifié, cela signifie que 1 ne tend pas "trop" vite vers 0, et
(m2n ) 2n
donc que m2n ne tend pas "trop" vite vers l’infini.

Démonstration
La première assertion est une conséquence immédiate des formules de transfert, la seconde
assertion est admise.

Exemple
Une
 variable aléatoire
 X de loi exponentielle de paramètre θ > 0 a pour moments la suite
mn (X) = θn!n , n ≥ 1 dont on peut majorer simplement la croissance :

nn
∀n ≥ 1, mn (X) ≤
θn
D’où :

1 θ
∀n ≥ 1, 1 ≥
m2n 2n 2n
P 1
On en déduit que la série n≥1 1 diverge vers +∞ et que le critère de Carleman est vérifié.
2n
m2n
La loi exponentielle est donc caractérisée par ses moments.
38 Caractériser une loi

Remarque
Si la loi d’une variable aléatoire X est caractérisée par ses moments, alors il en est de même
pour αX + β, quels que soient α, β ∈ R. En effet, connaître les moments de X permet d’en
déduire ceux de αX + β et inversement.

Complément : Variables aléatoires positives


Soit X une variable aléatoire ayant des moments de tous ordres. Il ne suffit pas que tous ses
moments soient positifs pour que X soit presque sûrement à valeurs positives. Considérons
par exemple une variable aléatoire Y qui suit une loi de Poisson de paramètre λ > 1. Alors
les moments de Y − 1 sont tous strictement positifs et P(Y − 1 = −1) > 0.

Il est néanmoins possible de caractériser la positivité de X à partir de ses moments. Préci-


sément : X est à valeurs presque sûrement positives si et seulement si pour tout k ≥ 1 la
matrice symétrique de Hankel

 
m1 m2 m3 ··· mk
m2 m3 m4 ··· mk+1
 
 
 
(mp+q−1 )kp,q=1 =

 m3 m4 m5 ··· mk+2 

 .. .. .. .. .. 

 . . . . . 

mk mk+1 mk+3 · · · m2k−1
est positive. La condition nécessaire est facile à vérifier et vient de ce que

 
k−1 2
 
∀α0 , . . . , αk−1 ∈ R, E X α0 + α1 X + · · · + αk−1 X ≥0

si X est à valeurs positives presque sûrement.

3.4.4 Variables aléatoires bornées

Soit X une variable aléatoire réelle. Son support SX est borné s’il existe α, β ∈ R tels que
−∞ < α ≤ β < +∞ et P(X ∈ [α, β]) = 1.

Exemple
– La loi uniforme sur [0, 1] ou sur {1, . . . , n}, les lois binomiales sont des exemples de loi
à support borné.
– Ni la loi géométrique, ni la loi gaussienne, ni la loi exponentielle ne sont à support
borné.

Plusieurs critères permettent de déterminer si la loi de X est à support borné.


– En utilisant la fonction de répartition : s’il existe α, β ∈ R tels que −∞ < α ≤ β < +∞,
FX (α) = 0 et FX (β) = 1, alors
P(X ∈]α, β]) = FX (b) − FX (a) = 1
– En utilisant la densité : si X admet la densité fX et s’il existe α, β ∈ R tels que
−∞ < α ≤ β < +∞ et fX est nulle sur ] − ∞, α[∪]β, +∞[, alors
Z β Z +∞
P(X ∈ [α, β]) = fX (x)dx = fX (x)dx = 1
α −∞
3.4 Moments 39

– Si X est valeurs entières, la loi de X est à support borné si et seulement si X ne prend


presque sûrement qu’un nombre fini de valeurs.
Il est également possible de déterminer si le support est borné ou non à l’aide des moments,
comme le résume le théorème suivant.

Théorème 3.23
Soit X une variable aléatoire réelle. Soit α ≥ 0. Les trois assertions suivantes sont équivalentes :

1. P(X ∈ [−α, α]) = 1


2. X possède des moments de tous ordres et E [|X|n ] ≤ αn pour tout n ≥ 1
1
3. X possède des moments de tous ordres et lim supn→+∞ E [X 2n ] 2n ≤ α

Démonstration
Nous allons montrer ces équivalences par implications circulaires. Les deux premières ne
posent aucune difficulté.

1 =⇒ 2. Soit n ∈ N∗ . Si P(X ∈ [−α, α]) = 1, alors |X| ≤ α presque sûrement, ce qui implique
|X|n ≤ αn presque sûrement, puis E [|X|n ] ≤ E [αn ] = αn .

2 =⇒ 3. C’est immédiat.

3 =⇒ 1. La preuve utilise l’inégalité de Markov, plus exactement son corollaire 2.24. Soit
ε > 0 et n ≥ 1. D’après ce corollaire, on a l’inégalité :

 1 2n
E [X 2n ] E [X 2n ] 2n 
P(|X| > α + ε) ≤ = 
(α + ε)2n α+ε
D’après l’hypothèse,

1
E [X 2n ] 2n
lim sup <1
n→+∞ α+ε
Autrement dit :

 1 
E [X 2n ] 2n 
lim  sup <1
N →+∞ n≥N α+ε
ce qui implique qu’il existe β < 1 et N ≥ 0 tels que :

1
E [X 2n ] 2n
sup <β
n≥N α+ε
D’où :

 1 2n
E [X 2n ] 2n 
∀n ≥ N,  < β 2n
α+ε
40 Caractériser une loi

et

P(|X| > α + ε) ≤ lim β 2n = 0


n→+∞

Il reste maintenant à utiliser la propriété de continuité monotone de la probabilité P pour en


déduire :

1 1
    
P(|X| > α) = P ∪n≥1 |X| > α + = lim P |X| > α + =0
n n→+∞ n
Nous avons ainsi bien démontré que

P(|X| ≤ α) = 1 − P(|X| > α) = 1

Proposition 3.24
Si X est une variable aléatoire bornée, alors ses moments caractérisent sa loi.

Preuve
On peut le démontrer de différentes façons, directement en utilisant le théorème de Stone-
Weierstrass, ou en calculant la fonction caractéristique qui sera étudiée à la section suivante.
1
On peut aussi utiliser le critère de Carleman 3.22. D’après le théorème 3.23, m2n 2n
est borné
par α si X est presque sûrement à valeurs dans [−α, α]. On en déduit immédiatement que
1 1
1 ≥ α et
2n
m2n

X 1
1 = +∞.
m2n
2n
n≥1

Le critère de Carleman est vérifié, les moments caractérisent donc la loi de X.

3.5 La fonction caractéristique

3.5.1 Définition et premières propriétés

Avec la fonction caractéristique, nous allons définir l’outil le plus utilisé pour caractériser une
loi. Comme la fonction de répartition, elle peut être définie pour toutes les lois de probabilité
et elle est particulièrement bien adaptée lorsque l’on traite de sommes de variables aléatoires
indépendantes - nous le verrons dans un chapitre ultérieur.
Du point de vue du cadre général, cela consiste à utiliser la famille de fonctions test
n o
F = x 7→ eitx , t ∈ R .
Il hs’agit ide fonctions à valeurs complexes
h i et bornées ; pour toute variable aléatoire réelle X,
itX iuX
E e = E[1] = 1 et donc E e est bien définie. Cela autorise la définition suivante :

Définition 3.25 : Fonction caractéristique


Soit X une variable aléatoire réelle définie sur un espace de probabilité (Ω, F, P). Sa fonction
caractéristique ϕX est définie par :

h i
∀t ∈ R, ϕX (t) = E eitX = E [cos(tX)] + iE [sin(tX)] ∈ C
3.5 La fonction caractéristique 41

Propriété 3.26
Avec les hypothèses et les notations précédentes :

1. ϕX (0) = 1 ;
2. ∀t ∈ R, |ϕX (t)| ≤ 1 ;
3. ∀a, b, t ∈ R, ϕaX+b (t) = ϕX (at)eibt ;
4. ϕX est uniformément continue sur R ;
5. Si la loi de X admet une densité, alors ϕX tend vers 0 en ±∞.

Preuve
Les trois premières propriétés sont évidentes :

1. ϕX (0) = E [e0 ] = 1 ;
h i h i
2. ∀t ∈ R, |ϕX (t)| = E eitX ≤ E eitX = 1;
3. ∀a, b, t ∈ R, h i h i
ϕaX+b (t) = E eit(aX+b) = E eiatX eitb = ϕX (at)eibt ;
4. Soit t, u ∈ R ; il s’agit de montrer que l’on peut majorer |ϕX (t + u) − ϕX (t)| uniformé-
ment en t par une fonction h
de u qui tendi vers 0h quand
u tendvers
i
0 :h i
i(t+u)X itX itX iuX
|ϕX (t + u) − ϕX (t)| = E e −e ≤E e e − 1 = E eiuX − 1
D’où : h i
supt∈R |ϕX (t + u) − ϕX (t)| ≤ E eiuX − 1
h i
Pour montrer la continuité uniforme, ne reste plus qu’à montrer que E eiuX − 1
 0. Soit (un , n ≥1) une suite quelconque qui tende vers
tend vers 0 quand u tend vers
0. Les variables aléatoires eiun X − 1 , n ≥ 1 sont uniformément bornées par 2 et
limn→+∞ eiun X − 1 = 0. On peut donc appliquer le théorème de convergence dominée
2.21 : h i h i
limn→+∞ E eiun X − 1 = E limn→+∞ eiun X − 1 = 0.
Comme c’est
h
vrai pour
i
toute suite convergeant vers 0, on en déduit :
limu→0 E eiuX − 1 = 0
Puis :
limu→0 (supt∈R |ϕX (t + u) − ϕX (t)|) = 0
Cela établit la continuité uniforme de ϕX .
5. La cinquième propriété est une conséquence du théorème de Riemann-Lebesgue et est
admise.

3.5.2 Fonctions caractéristiques de lois classiques

Loi de Bernoulli
Soit X suivant une loi de Bernoulli de paramètre p ∈ [0, 1] ; alors sa fonction caractéristique
est égale à : pour tout t ∈ R

ϕX (t) = eit×0 P(X = 0) + eit×1 P(X = 1) = 1 − p + peit


42 Caractériser une loi

Loi binomiale
Soit X suivant une loi binomiale de paramètres p ∈ [0, 1] et n ∈ N ; alors sa fonction
caractéristique est égale à : pour tout t ∈ R
n n
!
itk n  n
pk (1 − p)n−k eikt = 1 − p + peit
X X
ϕX (t) = e P(X = k) =
k=0 k=0
k

Loi uniforme discrète


Soit X suivant une loi uniforme sur {1, . . . , n} ; alors sa fonction caractéristique est égale à :
pour tout t ∈ R∗
 
n
eit 1 − eitn it n+1
sin nt2
eitk P(X = k) =
X
ϕX (t) = × it
= e 2 ×  
k=1 n 1 − e n sin 2t

Loi géométrique
Soit X suivant une loi géométrique de paramètre p ∈]0, 1] ; alors sa fonction caractéristique
est égale à : pour tout t ∈ R
+∞ +∞
peit
eitk P(X = k) = eitk p(1 − p)k−1 =
X X
ϕX (t) =
k=1 k=1 1 − (1 − p)eit

Loi de Poisson
Soit X suivant une loi de Poisson de paramètre λ ≥ 0 ; alors sa fonction caractéristique est
égale à : pour tout t ∈ R
+∞ +∞
λk −λ it it
itk
eitk e = eλe e−λ = eλ(e −1)
X X
ϕX (t) = e P(X = k) =
k=0 k=0 k!

Loi uniforme sur [a,b]


Soit X suivant une loi uniforme sur [a, b], avec a < b ; alors sa fonction caractéristique est
égale à : pour tout t ∈ R∗

eitb − eita
!
1 Z b itx a+b b−a
ϕX (t) = e dx = = et 2 sinc t
b−a a it(b − a) 2
sin x
avec sinc(x) = x
la fonction sinus cardinal.

Loi exponentielle
Soit X suivant une loi exponentielle de paramètre θ > 0 ; alors sa fonction caractéristique est
égale à : pour tout t ∈ R
Z +∞
θ
ϕX (t) = eitx θe−θx dx =
0 θ − it
Loi gamma
Soit X suivant une loi gamma de paramètres θ > 0 (paramètre d’échelle) et p > 0 (paramètre
de forme) ; rappelons qu’elle admet pour densité :
θp p−1 −θx
x e 1x>0
fθ,p (x) =
Γ(p)
D’après la formule de transfert, sa fonction caractéristique est égale à : pour tout t ∈ R
Z
itx
Z +∞
θp p−1 −θx
ϕX (t) = e fθ,p (x) dx = eitx x e dx
R 0 Γ(p)
3.5 La fonction caractéristique 43

Si p = 1, on retrouve la loi exponentielle et sa fonction caractéristique ; si p est un entier


strictement supérieur à 1, alors, par une intégration par parties et sachant que Γ(p) =
(p − 1)! = (p − 1)Γ(p − 1), on vérifie que :

#+∞
θp p−1 e(it−θ)x 1 Z +∞ θp
"
ϕX (t) = x − (p − 1)xp−2 e(it−θ)x dx
Γ(p) it − θ 0 it − θ 0 Γ(p)
Z +∞ p−1
θ θ
= 0+ xp−2 e(it−θ)x dx
θ − it 0 Γ(p − 1)
θ Z +∞ itx
= e fθ,p−1 (x) dx
θ − it 0
Par une récurrence immédiate, on en déduit :
!p−1 Z !p
θ +∞ θ
itx
ϕX (t) = e fθ,1 (x) dx =
θ − it 0 θ − it
Cette formule, établie pour p entier, reste vraie pour tout p ∈ R∗+ .

Loi gaussienne
Soit X suivant une loi gaussienne de moyenne µ et de variance σ 2 ; alors sa fonction caracté-
ristique est égale à : pour tout t ∈ R
σ 2 t2
ϕX (t) = eiµt− 2

Nous l’établirons dans le chapitre sur les lois gaussiennes.

Loi de Cauchy
a
Soit X suivant une loi de Cauchy, de densité x 7→ π(a2 +(x−x 2 avec un facteur d’échelle a > 0
0) )
et une médiane x0 ∈ R ; alors sa fonction caractéristique est égale à : pour tout t ∈ R

ϕX (t) = eix0 t−a|t|


C’est un résultat que nous admettrons, qui peut se démontrer avec l’analyse complexe ou
l’analyse de Fourier.

3.5.3 Propriétés caractéristiques

Cette section répond à deux questions :


– étant donné une fonction à valeurs complexes, existe-t-il une loi dont elle soit la fonction
caractéristique ?
– et si tel est le cas, est-ce que cette loi est unique ?

Théorème 3.27
Soit ϕ une fonction définie sur R et à valeurs dans C. Il existe une variable aléatoire réelle
dont elle est la fonction caractéristique si et seulement si :

1. ϕ(0) = 1 ;
2. ϕ est continue en 0 ;
3. ϕ est symétrique au sens où ϕ(−t) = ϕ(t) pour tout t ∈ R ;
44 Caractériser une loi

4. ϕ est "positive" au sens où : pour tout k ≥ 1, tous t1 , . . . , tk ∈ R, la matrice hermitienne


(ϕ(tp − tq ))kp,q=1 est positive.

Démonstration
Nous n’établirons que la condition nécessaire. Supposons qu’il existe une variable aléatoire
réelle X dont ϕ soit la fonction caractéristique. Les assertions 1 et 2 ont déjà été vues à la
propriété 3.26. La troisième est évidente : soit t ∈ R ; alors

h i h i
ϕ(−t) = E e−itX = E eitX = E [eitX ] = ϕ(t)
Montrons la quatrième assertion. Soit k ≥ 1, t1 , . . . , tk ∈ R, α1 , . . . , αk ∈ C ; alors

 
2   
k k k
αp eitp X  = E  αp eitp X  
X X X
0 ≤ E αq eitq X 


p=1 p=1 p=1
  
k k
αp eitp X   ᾱq e−itq X 
X X
= E 
p=1 p=1
 
k
αp ᾱq ei(tp −tq )X 
X
= E
p,q=1
k
X
= αp ᾱq ϕ(tp − tq )
p,q=1
 
ᾱ1

.. 
 

= α1 · · · αk 
 ϕ(tp − tq ) 
 . 

ᾱk

On établit ainsi la positivité de la matrice hermitienne (ϕ(tp − tq ))kp,q=1 .

Considérons désormais la question de la caractérisation d’une loi par sa fonction caractéris-


tique.

Théorème 3.28
Soit X et Y deux variables aléatoires. Elles ont même loi si et seulement si leurs fonctions
caractéristiques sont égales.

Démonstration
La condition nécessaire est une simple conséquence de la formule de transfert. La condition
suffisante est admise.

3.5.4 Relations avec la densité

Si X est une variable aléatoire discrète et que l’on connaît les probabilités des singletons
{X = x} pour tout x dans le support SX , ou si elle est à densité et que l’on en connaisse
une densité, on peut calculer sa fonction caractéristique à l’aide de la formule de transfert.
Réciproquement, il est souvent possible de calculer les probabilités d’une variable discrète ou
la densité d’une variable continue à partir de sa fonction caractéristique.
3.5 La fonction caractéristique 45

Proposition 3.29
Soit X une variable aléatoire à valeurs dans Z, de fonction caractéristique ϕX . Alors

1 Z 2π
∀k ∈ Z, P(X = k) = ϕX (t)e−itk dt
2π 0

Dans ce cas particulier, cela montre que la fonction caractéristique caractérise bien la loi de
X.

Preuve
Notons pn = P(X = n) pour tout n ∈ Z. Alors ϕX est une fonction continue bornée sur
[0, 2π] et pour tout k ∈ Z

   
Z 2π Z 2π Z 2π
ϕX (t)e−ikt dt = eitn pn  e−ikt dt = eit(n−k) pn  dt
X X
 
0 0 n∈Z 0 n∈Z

Comme

   
Z 2π Z 2π Z 2π
eit(n−k) pn  dt =
X X
  pn  dt = dt < +∞,
0 n∈Z 0 n∈Z 0

nous pouvons intervertir somme et intégrale et en déduire :

Z 2π X Z 2π
−ikt
ϕX (t)e dt = eit(n−k) pn dt
0 n∈Z 0
R 2π it(n−k)
Calculons 0 e p n dt :

– si n 6= k, alors

" #2π
Z 2π
it(n−k) 1
e pn dt = eit(n−k) pn =0;
0 i(n − k) 0

– si n = k, alors
Z 2π
eit(n−k) pn dt = 2πpk
0

D’où

Z 2π X Z 2π
ϕX (t)e−ikt dt = eit(n−k) pn dt = 2πpk
0 n∈Z 0

Ce qui établit la proposition.

Remarque
Le résultat précédent ressort de l’étude des séries de Fourier : ϕX est une fonction continue
et périodique, développable en série de Fourier et dont les coefficients de Fourier sont
(ck = P(X = k), k ∈ Z)
46 Caractériser une loi

Lorsque la loi d’une variable aléatoire admet une densité, il est également possible de
déterminer cette densité par un calcul direct utilisant la fonction caractéristique, mais sous
conditions.
Théorème 3.30
Soit X une variable aléatoire réelle admettant une densité fX et de fonction caractéristique
ϕX . Si ϕX est intégrable, i.e. si

Z +∞
|ϕX (t)| dt < +∞
−∞
alors en tout point x0 où fX est continue :

1 Z +∞
fX (x0 ) = ϕX (t)e−itx0 dt
2π −∞
La preuve est admise.

3.5.5 Relations avec les moments

Soit X une variable aléatoire réelle ayant des moments de tous ordres, ϕX sa fonction
caractéristique :
 
h i (it)n n 
∀t ∈ R, ϕX (t) = E eitX
X
= E X
n≥0 n!

À supposer que l’on puisse intervertir somme et espérance, au moins pour certaines valeurs
de t dans un voisinage de 0, par exemple si

|t|n
E [|X|n ] est fini,
X

n≥0 n!
alors

(it)n
E [X n ] .
X
ϕX (t) =
n≥0 n!
Dans ce cas, les moments permettent de calculer la fonction caractéristique dans un voisinage
de 0 et, réciproquement, l’unicité du développement en série entière de ϕX permet d’en
déduire les moments.
La proposition suivante décrit plus généralement les relations entre la fonction caractéristique
de X et ses moments lorsque X possède seulement un moment d’ordre n.
Proposition 3.31
Soit X une variable aléatoire réelle, de fonction caractéristique ϕX et possédant un moment
d’ordre n ∈ N∗ . Alors ϕX est continûment dérivable jusqu’à l’ordre n et pour tout p = 1, . . . , n
et t ∈ R :

h i
(p)
ϕX (t) = ip E X p eitX
(p)
En particulier, ϕX (0) = ip E [X p ] et

(it)n
ϕX (t) = 1 + itE[X] + · · · + E [X n ] + o (tn )
n!
3.5 La fonction caractéristique 47

Preuve
Supposons d’abord que la loi de X admet la densité fX et montrons le résultat pour n = 1.
Posons

g(x, t) = eitx fX (x)


C’est une fonction intégrable en x :

Z +∞ Z +∞
|g(x, t)| dx = fX (x) dx = 1 < +∞ ;
−∞ −∞

continûment dérivable en t :

∂g
(x, t) = ixeitx fX (x) ;
∂t
et sa dérivée partielle en t est uniformément majorée (en t) par |x|fX (x) qui est intégrable :

Z +∞
|x|fX (x) dx = E[|X|] < +∞.
−∞

D’après
R +∞
le théorème de dérivation sous l’intégrale, on en déduit que la fonction ϕX (·) =
−∞ g(x, ·) dx est dérivable sur R, de dérivée :

Z +∞ Z +∞
∂g h i
∀t ∈ R, ϕ0X (t) = (x, t) dx = ixeitx fX (x) dx = iE XeitX
−∞ ∂t −∞

La continuité, et même l’uniforme continuité, de ϕ0X se démontre alors de façon analogue à


l’uniforme continuité de ϕX (cf Propriété 3.26).

La proposition est donc démontrée pour X à densité et n = 1. On obtient le résultat pour n


quelconque par récurrence, en itérant la preuve précédente. Si X est une variable discrète, la
preuve est analogue, en utilisant le théorème de dérivation pour les séries de fonctions au lieu
du théorème de dérivation sous l’intégrale.

Attention
La réciproque est fausse. Il existe des variables aléatoires dont la fonction caractéristique est
continûment dérivable et qui n’ont pas de moment d’ordre 1.

Exemple
Si X suit la loi de densité fX (x) = cte × 1|x|>2 x2 ln1 |x| , alors X ne possède aucun moment et
sa fonction caractéristique est continûment dérivable.
4
Vecteurs aléatoires

4.1 Vecteurs aléatoires à densité

4.1.1 Définition

Soit X une variable aléatoire définie sur un espace de probabilité (Ω, P) et à valeurs dans Rn .
Si n est strictement plus grand que 1, on parle habituellement de vecteur aléatoire. On note
X = (X1 , . . . , Xn ) et PX la loi de X, autrement dit la probabilité définie sur Rn telle que,
pour tout événement B de Rn :

PX (B) = P(X ∈ B).

Définition 4.1
On dit que X est un vecteur aléatoire à densité s’il existe une fonction définie sur Rn , presque
partout positive, suffisamment régulière pour être localement intégrable, telle que pour tout
événement B de Rn :

Z
PX (B) = 1B (x1 , . . . , xn ) f (x1 , . . . , xn ) dx1 · · · dxn
Rn

Propriété 4.2
Une fonction f définie sur Rn est une densité de probabilité si :

– f est suffisamment régulière pour être localement intégrable ;


– f est presque partout positive ;
f (x1 , . . . , xn ) dx1 · · · dxn = 1.
R
– Rn

Preuve
Vérifions que sous ces conditions l’application B 7→ B f définit bien une probabilité sur Rn .
R

R
– Comme f est presque partout positive et localement intégrable, on peut calculer B f
n
pour tout événement B de R , et B f ≥ 0
R

49
50 Vecteurs aléatoires

– Si B = Rn , alors
R
B f = 1;
– Soit (An , n) une famille finie ou dénombrable d’événements disjoints ; alors 1S An =
n
n 1An et
P

Z Z X XZ XZ
S f= 1A n f = 1An f = f
n
An n n n An

où l’on a pu se servir du théorème de Fubini-Tonelli, car 1An f est presque partout positif.

D’après la définition 1, cela caractérise bien une probabilité sur Rn .

Remarque
Comme pour les densités sur R, il n’y a pas unicité de la densité associée à une loi de
probabilité. Il suffit (et il faut) que deux densités soient égales presque partout pour qu’elles
soient associées à la même loi.

Conseil
Comme dans le cas réel (cf proposition 3.5), il suffit de montrer que deux densités prennent
des valeurs distinctes en un point de Rn où elles sont toutes les deux continues pour prouver
qu’elles sont associées à des lois distinctes.

Méthode : Théorèmes de Fubini


On a souvent besoin de calculer des intégrales multiples en se ramenant à des intégrales plus
simples, sur R par exemple. C’est l’objet des théorèmes de Fubini. Soit une fonction réelle ϕ
définie sur Rn et suffisamment régulière pour être localement intégrable. Si ϕ est positive
(théorème de Fubini-Tonelli) ou si Rn |ϕ(x)| dx < +∞ (théorème de Fubini), alors pour tout
R

p ∈ J1, nK :

Z Z Z 
ϕ (x1 , . . . , xn ) dx1 · · · dxn = ϕ (x1 , . . . , xn ) dx1 · · · dxp dxp+1 · · · dxn
Rn R n−p Rp
Z Z Z  
= ··· ϕ (x1 , . . . , xn ) dx1 · · · dxn−1 dxn
R R R

Exemple
Soit la fonction définie par

n o
f (x, y) = 3(x + y)1(x,y)∈D avec D = (x, y) ∈ R2 | x ≥ 0, y ≥ 0, x + y ≤ 1 .
C’est une fonction positive, suffisamment régulière etc. Calculons son intégrale :

Z Z
f (x, y) dxdy = 3(x + y)10≤x,0≤y,x+y≤1 dxdy
R2 R2

On
R R
souhaite appliquer le théorème de Fubini-Tonelli et mettre l’intégrale sous la forme
( (x + y) dx) dy. Il faut déterminer avec soin les bornes des intégrales, en utilisant des
équivalences et en vérifiant que chaque inégalité dans le système initial est bien
R R
présente, éven-
tuellement transformée, dans le système final. Bien noter que si l’on calcule ( (x + y) dx) dy
en intégrant d’abord en x puis en y, le calcul des bornes se fait dans l’ordre inverse : on
détermine d’abord les bornes de y, puis, à y fixé, on détermine les bornes de x :
4.1 Vecteurs aléatoires à densité 51



 0 ≤ x
0 ≤ y ⇐⇒ 0 ≤ y ≤ x + y ≤ 1
x+y ≤ 1


(
0 ≤ y ≤ 1
⇐⇒
0 ≤ x ≤ 1−y

Il est utile de contrôler le résultat, et même de le prévoir, avec un dessin. On en déduit :

Z Z 1 Z 1−y 
3(x + y)1x+y≤1 dxdy = 3 (x + y) dx dy
R2+ 0 0
1−y
Z 1
1 2
= 3 (x + y) dy
20 0
1
Z 1 
= 3 1 − y 2 dy
0 2
1 1
 
= 3 −
2 6
= 1

Il s’agit donc bien d’une densité.

4.1.2 Fonctions de vecteurs aléatoires

Soit X = (X1 , . . . , Xn ) un vecteur aléatoire défini sur un espace de probabilité (Ω, P) et dont
la loi admet la densité f . Soit ϕ une fonction réelle définie sur Rn . Alors Y = ϕ(X) est une
variable aléatoire réelle. L’objet de cette section est de définir l’espérance de Y à partir de la
loi de X en utilisant une formule de transfert.

Définition-proposition 3
Supposons d’abord ϕ ≥ 0. Alors Y admet une espérance finie ou infinie et

Z
E[Y ] = E [ϕ(X)] = ϕ (x1 , . . . , xn ) f (x1 , . . . , xn ) dx1 · · · dxn
Rn

Cette intégrale existe toujours et est à valeurs dans R+ ∪ {+∞}.

Si ϕ n’est pas de signe constant, mais si E[|Y |] < +∞, alors Y admet une espérance finie et
on définit E[Y ] avec la même formule que précédemment. Cette fois, l’intégrale converge et
est à valeurs dans R.

Remarque
Si ϕ = 1B , avec B un événement de Rn , alors

Z
E [ϕ(X)] = f (x1 , . . . , xn ) dx1 · · · dxn = P(X ∈ B)
B

Exemple
Reprenons l’exemple de la section précédente, avec (X, Y ) couple de variables aléatoires dont
52 Vecteurs aléatoires

la loi admet la densité f (x, y) = 3(x + y)10≤x,0≤y,x+y≤1 . Calculons E[XY ]. Remarquons que
cette espérance est bien définie car XY est une variable positive presque sûrement. Elle l’est
aussi parce que XY est une variable aléatoire bornée presque sûrement. D’après la formule
de transfert, et en utilisant le théorème de Fubini comme précédemment :

Z
E[XY ] = xyf (x, y) dxdy
RZ2

= 3 xy(x + y)10≤x,0≤y,x+y≤1 dxdy


R2
Z 1 Z 1−y 
= 3 xy(x + y) dx dy
0 0
" #1−y
x3 x2
Z 1
= 3 y + y dy
0 3 2 0
Z 1
y 4 3y 3 5y
= 3 − + − 2y 2 + dy
0 3 2 6
1 3 2 5 7
 
= 3 − + − + =
15 8 3 12 40
Le critère de la fonction muette est, comme d’habitude, une sorte de réciproque à la formule
de transfert précédente.

Méthode : Critère de la fonction muette


S’il existe g fonction réelle définie sur Rn telle que pour toute fonction réelle ϕ continue et
bornée sur Rn on ait

Z
E [ϕ(X)] = ϕ (x1 , . . . , xn ) g (x1 , . . . , xn ) dx1 · · · dxn
Rn
alors la loi de X admet g comme densité.

Dans la pratique, on est amené à effectuer des changements de variables dans des intégrales
multiples de la forme :
Z
I= ϕ(ψ(x1 , . . . , xn ))f (x1 , . . . , xn ) dx1 · · · dxn
D
avec ϕ et f fonctions réelles définies sur Rn . On souhaite faire le changement de va-
riables (u1 , . . . , un ) = ψ(x1 , . . . , xn ). On suppose que D est un ouvert et que ψ est un
C 1 -difféomorphisme de D sur ψ(D) — c’est-à-dire que
– ψ est injective sur D ;
– ψ et sa réciproque ψ −1 de ψ(D) sur D sont C 1 ;
ou de façon équivalente :
– ψ est injective sur D ;
– ψ est C 1 et son jacobien Jψ ne s’annule pas sur D.
Alors

Z
I = ϕ(u1 , . . . , un )f (ψ −1 (u1 , . . . , un )) |Jψ−1 (u1 , . . . , un )| du1 · · · dun
ψ(D)
Z
1
= ϕ(u1 , . . . , un )f (ψ −1 (u1 , . . . , un )) du1 · · · dun
ψ(D) |Jψ ◦ ψ −1 (u 1 , . . . , un )|
4.1 Vecteurs aléatoires à densité 53

Exemple
Reprenons encore l’exemple précédent et tâchons de déterminer la loi du vecteur aléatoire
(U, V ) = (X + Y, X − Y ). Utilisons la méthode de la fonction muette. Soit ϕ une fonction
réelle, continue et bornée sur R2 . Calculons E[ϕ(U, V )] :

Z
E[ϕ(U, V )] = E[ϕ(X + Y, X − Y )] = ϕ(x + y, x − y) × 3(x + y) dxdy
D
On souhaite effectuer le changement de variables (u, v) = ψ(x, y) = (x + y, x − y).
Première étape : inverser le changement de variables.
Le changement de variables est clairement injectif sur D̊ = {x > 0, y > 0, x + y < 1} et même
sur R2 car l’on a : pour tous (x, y), (u, v) ∈ R2 :

( (
u+v
u = x+y x =
⇐⇒ 2
u−v
v = x−y y = 2
Dans l’intégrale, on remplacera donc ϕ(x + y, x − y) × 3(x + y) par ϕ(u, v) × 3u.
Deuxième étape : exprimer dxdy en fonction de dudv.
Il faut calculer le jacobien du changement de variables :

dxdy = Jψ−1 (u, v) dudv


!
∂x ∂x
= det ∂u ∂v dudv
∂y ∂y
∂u ∂v
!
1 1
= det 2 2 dudv
1
2
− 12
1
= dudv
2
Dans l’intégrale, on remplacera donc dxdy par 21 dudv.
Troisième étape : déterminer le nouveau domaine d’intégration.
Reste à calculer D0 = ψ(D), sans doute le point le plus délicat dans ce genre d’exercices.
Il faut bien prendre à procéder par équivalence et non par implication (erreur tellement
fréquente !). En particulier, lorsque le domaine D est défini par des inégalités, il importe de
vérifier qu’elles trouvent toutes leur traduction dans le nouveau domaine ψ(D).
Soit (x, y), (u, v) ∈ R2 ; alors


0 ≤ x


(x, y) ∈ D ⇐⇒  0 ≤ y

x+y ≤ 1
0 ≤ u+v

2


⇐⇒ 0 ≤ u−v
2
u ≤ 1



−v ≤ u


⇐⇒  v ≤ u

u ≤ 1
54 Vecteurs aléatoires

Le nouveau domaine d’intégration est donc défini par D0 = {(u, v) ∈ R2 | |v| ≤ u ≤ 1}.

On peut maintenant effectuer le changement de variables :

1
Z
I= dudvϕ(u) × 3u ×
2D0
On en déduit que la loi du couple (U, V ) admet la densité 3u 1
2 (u,v)∈D
0.

Remarquons pour conclure que D n’est pas un domaine ouvert, comme demandé dans le
rappel qui précède cet exemple. Mais c’est sans importance, car on a pu le remplacer par son
intérieur D̊ sans modifier la valeur de l’intégrale.

4.1.3 Lois marginales

Soit X = (X1 , . . . , Xn ) un vecteur aléatoire défini sur un espace de probabilité (Ω, P). La loi
de X est aussi appelée « loi jointe », et les lois de X1 , . . . , Xn (ou de tout sous-vecteur de X)
sont appelées « lois marginales ». Voyons d’abord sur un exemple comment on peut calculer
une loi marginale à partir d’une loi jointe.

Exemple
On reprend l’exemple déjà étudié d’un vecteur aléatoire (X, Y ) dont la loi admet la densité
f (x, y) = 3(x + y)10≤x,0≤y,x+y≤1 . On cherche à déterminer la loi de X en utilisant la méthode
de la fonction muette. Soit ϕ une fonction réelle, continue et bornée, définie sur R. Calculons
E[ϕ(X)] :

Z
E[ϕ(X)] = ϕ(x)f (x, y) dxdy
2
ZR Z 
= ϕ(x) f (x, y) dy dx en utilisant le théorème de Fubini
R R
Z 1 Z 1−x 
= ϕ(x) 3(x + y) dy dx
0 0
Z 1
3
= ϕ(x) (1 − x2 ) dx
0 2
f (x, y) dy = 23 (1 − x2 )10≤x≤1 .
R
La loi de X admet donc la densité fX (x) = R

Ce calcul se généralise aisément :

Proposition 4.3
Soit X = (X1 , . . . , Xn ) un vecteur aléatoire dont la loi admet la densité f . Pour tout p ∈ J1, nK,

– la loi de la variable aléatoire Xp admet la densité


Z
fXp (xp ) = f (x1 , . . . , xn )dx1 · · · dxp−1 dxp+1 · · · dxn
Rn−1
– la loi du vecteur aléatoire (X1 , . . . , XZp ) admet la densité
f(X1 ,...,Xp ) (x1 , . . . , xp ) = f (x1 , . . . , xn )dxp+1 · · · dxn
Rn−p

Attention
Si la loi jointe admet une densité, les lois marginales aussi. Mais l’inverse n’est pas vrai.
Considérons par exemple X de loi uniforme sur [0, 1]. Alors la loi (jointe) du vecteur (X, X)
n’admet pas de densité, à l’opposé de ses marginales (strictes).
4.1 Vecteurs aléatoires à densité 55

4.1.4 Indépendance et lois produits

Introduction

Soit (X, Y ) un couple de variables aléatoires à valeurs discrètes, définies sur un même espace
de probabilité (Ω, P). Elles sont indépendantes si et seulement si pour tous (x, y)

P(X = x, Y = y) = P(X = x)P(Y = y)


Qu’en est-il si (X, Y ) est à densité ? La correspondance entre les probabilités des singletons
dans le cas discret et les densités dans le cas continu (cf section 2.2.1) nous incite à penser
que X et Y sont indépendantes si et seulement si pour (presque) tout (x, y)

fX,Y (x, y) = fX (x)fY (y)


C’est l’objet de cette section que d’établir ce résultat. Commençons par quelques rappels ( ?)
sur les variables aléatoires indépendantes.

4.1.4.1 Indépendance de variables aléatoires

Les résultats de cette partie sont valables pour des vecteurs aléatoires discrets ou continus.

Définition 4.4
Soit X1 , . . . , Xp des vecteurs aléatoires définis sur un même espace de probabilité (Ω, P) et à
valeurs dans Rd1 , . . . , Rdp respectivement. Ils sont indépendants si et seulement si pour tous
événements B1 ⊂ Rd1 , . . . , Bp ⊂ Rdp , les événements (de Ω) {X1 ∈ B1 }, . . . , {Xp ∈ Bp } sont
indépendants.

Propriété 4.5
Avec les notations précédentes, X1 , . . . , Xp sont indépendants si et seulement si pour tous
événements B1 ⊂ Rd1 , . . . , Bp ⊂ Rdp :

P (X1 ∈ B1 , . . . , Xp ∈ Bp ) = P (X1 ∈ B1 ) · · · P (Xp ∈ Bp ) (4.1)

Preuve
Notons d’abord que la définition implique la caractérisation 4.1. Supposons maintenant que
cette caractérisation soit vérifiée. Soit B1 ⊂ Rd1 , . . . , Bn ⊂ Rdp des événements quelconques.
Pour montrer que {X1 ∈ B1 }, . . . , {Xp ∈ Bp } sont indépendants, il faut vérifier que pour
tout (i1 , . . . , ip ) tel que 1 ≤ i1 < i2 < · · · < ik ≤ p on a

P (Xi1 ∈ Bi1 , . . . , Xik ∈ Bik ) = P (Xi1 ∈ Bi1 ) · · · P (Xik ∈ Bik )


Or c’est bien une conséquence de la caractérisation 4.1 en choisissant Bi = Rdi pour tout
i∈
/ {i1 , . . . , ik }.

Proposition 4.6
Soit X1 , . . . , Xp des vecteurs aléatoires indépendants, à valeurs dans Rd1 , . . . , Rdp respective-
ment. Soit ϕ1 , . . . , ϕp des fonctions de Rd1 , . . . , Rdp dans Re1 , . . . , Rep respectivement. Alors
les vecteurs aléatoires ϕ1 (X1 ) , . . . , ϕp (Xp ) sont indépendants.
56 Vecteurs aléatoires

Preuve
Soit B1 ⊂ Re1 , . . . , Bp ⊂ Rep des événements. Alors pour tout i,

ϕi (Xi ) ∈ Bi ⇐⇒ Xi ∈ ϕ−1
i (Bi )

Or Ci = ϕi−1 (Bi ) est un événement de Rdi . On en déduit :

P (ϕ1 (X1 ) ∈ B1 , . . . , ϕp (Xp ) ∈ Bp )


 
= P X1 ∈ ϕ−1 −1
1 (B1 ) , . . . , Xp ∈ ϕp (Bp )
   
= P X1 ∈ ϕ−1 −1
1 (B1 ) · · · P Xp ∈ ϕp (Bp ) car X1 , . . . , Xp sont indépendants

= P (ϕ1 (X1 ) ∈ B1 ) · · · P (ϕp (Xp ) ∈ Bp )


D’après la proposition prédédente, les vecteurs aléatoires ϕ1 (X1 ) , . . . , ϕp (Xp ) sont bien
indépendants.

4.1.4.2 Lois produits

Une loi jointe n’est pas caractérisée par ses lois marginales, et les lois marginales peuvent
être à densité tandis que la loi jointe ne l’est pas. Mais si l’on se donne des lois à densités, on
peut construire une loi jointe à densité dont elles sont les marginales.

Proposition 4.7
Soit f1 , . . . , fn des densités de lois réelles. Soit f la fonction définie par

f (x1 , . . . , xn ) = f1 (x1 ) · · · f (xn )


n
pour tout (x1 , . . . , xn ) ∈ R .

Alors f est une densité de probabilité sur Rn dont f1 , . . . , fn sont les densités des lois
marginales unidimensionnelles associées. Elle est appelée densité produit ou densité de la loi
produit et on la note f = f1 ⊗ · · · ⊗ fn .

Preuve
Il est clair que f est une fonction positive presque partout. On peut donc calculer son intégrale.
Il reste à vérifier qu’elle vaut 1 grâce au théorème de Fubini-Tonelli :

Z Z Z 
f (x1 , . . . , xn ) dx1 · · · dxn = f1 (x1 ) · · · fn−1 (xn−1 ) fn (xn )dxn dx1 · · · dxn−1
Rn Rn−1 R
d’après le théorème de Fubini-Tonelli
Z Z
= f1 (x1 ) dx1 · · · fn (xn ) dxn en réitérant l’opération précédente
R R
= 1 × ··· × 1 = 1
La fonction f est donc bien une densité de probabilité. Déterminons les lois marginales. Soit
(X1 , . . . , Xn ) un vecteur aléatoire de densité f . Alors la loi de X1 admet la densité :

Z Z
fX1 (x1 ) = f (x1 , . . . , xn ) dx2 · · · dxn = f1 (x1 ) f2 (x2 ) · · · fn (xn ) dx2 · · · dxn = f1 (x1 )
Rn−1 Rn−1

De même, on a fXi = fi pour tout i, ce qui achève la preuve.


4.1 Vecteurs aléatoires à densité 57

Remarque
Ce théorème reste vrai si l’on suppose que fi est une densité sur Rdi et que l’on définit f
comme précédemment, mais cette fois comme densité d’une loi sur Rd1 +···+dn .

La densité ainsi construite a partie liée avec la notion d’indépendance de variables aléatoires.

Théorème 4.8
Soit X = (X1 , . . . , Xn ) un vecteur aléatoire de densité f . Soit fX1 , . . . , fXn les densités des
lois marginales. Alors il y a équivalence entre les assertions suivantes :

1. X1 , . . . , Xn sont indépendants ;
2. f = fX1 ⊗ · · · ⊗ fXn presque partout ;
3. il existe g1 , . . . , gn fonctions positives telles que f = g1 ⊗ · · · ⊗ gn presque partout ;
4. quelles que soient les fonctions réelles ϕ1 , . . . , ϕn , toutes positives ou telles que ϕ1 (X1 ), . . . , ϕn (Xn )
admettent toutes une espérance finie :

E [ϕ1 (X1 ) · · · ϕn (Xn )] = E [ϕ1 (X1 )] · · · E [ϕn (Xn )]

Remarque
Il ressort du théorème que si X1 , . . . , Xn sont des variables aléatoires réelles indépendantes
d’espérance finie, alors X1 · · · Xn est aussi d’espérance finie. Il est important de noter que
c’est bien sûr faux si X1 , . . . , Xn ne sont pas indépendants. Pour un contre-exemple, il suffit
de choisir X1 = X2 = · · · = Xn .

Démonstration
Montrons d’abord que les assertions 2 et 3 sont équivalentes. L’implication 2 =⇒ 3 est
évidente. Supposons l’assertion R3 vérifiée, c’est-à-dire f = g1 ⊗ · · · ⊗ gn presque partout, avec
g1 , . . . , gn ≥ 0. On note Ci = R gi (x) dx. On voit que Ci est positif pour tout i. De plus,
grâce au théorème de Fubini-Tonelli :

Z Z Z
1= f (x1 , . . . , xn ) dx1 · · · dxn = g1 (x1 )dx1 · · · gn (xn )dxn = C1 · · · Cn
Rn R R
En particulier on a 0 < Ci < +∞ pour tout i. Calculons fX1 grâce à la proposition précédente :
pour presque tout x1 ∈ R

Z
g1 (x1 )
fX1 (x1 ) = f (x1 , . . . , xn ) dx2 · · · dxn = · · · = g1 (x1 )C2 · · · Cn =
Rn−1 C1
où l’on a encore appliqué le théorème de Fubini-Tonelli. D’où pour presque tout (x1 , . . . , xn ) :

g1 (x1 ) · · · gn (xn )
f (x1 , . . . , xn ) = g1 (x1 ) · · · gn (xn ) = = fX1 (x1 ) · · · fXn (xn )
C1 · · · Cn
Ce qui établit l’assertion 2.

Vérifions maintenant que l’assertion 2 implique l’assertion 4. C’est une simple conséquence
des théorèmes de Fubini (comme d’ailleurs tous les résultats de cette section !). Si l’assertion
2 est vraie, c’est-à-dire si f = fX1 ⊗ · · · ⊗ fXn presque partout, alors, avec les notations de
l’énoncé et en supposant ϕ1 , . . . , ϕn positives :
58 Vecteurs aléatoires

Z
E [ϕ1 (X1 ) · · · ϕn (Xn )] = ϕ1 (x1 ) · · · ϕn (xn )fX1 (x1 ) · · · fXn (xn ) dx1 · · · dxn
n
ZR Z
= ϕ1 (x1 )fX1 (x1 ) dx1 × · · · × ϕn (xn )fXn (xn ) dxn
R R
en utilisant le théorème de Fubini-Tonelli
= E [ϕ1 (X1 )] · · · E [ϕn (Xn )]

Si ϕ1 (X1 ), . . . , ϕn (Xn ) admettent une espérance finie, alors leur produit ϕ1 (X1 ), . . . , ϕn (Xn )
aussi. Il suffit d’appliquer ce qui précède à |ϕ1 (X1 )| , . . . , |ϕn (Xn )| :

E [|ϕ1 (X1 ) · · · ϕn (Xn )|] = E [|ϕ1 (X1 )|] · · · E [|ϕn (Xn )|] < +∞
On peut donc reprendre les calculs précédents en utilisant cette fois le théorème de Fubini à
la place de Fubini-Tonelli. D’où

E [ϕ1 (X1 ) · · · ϕn (Xn )] = E [ϕ1 (X1 )] · · · E [ϕn (Xn )]


Ce qui établit l’assertion 4.

Vérifions maintenant que l’assertion 4 implique l’assertion 1. Il suffit de prendre B1 , . . . , Bn


des événements quelconques de R et de poser ϕi = 1Bi . Alors, si l’assertion 4 est vérifiée :

(
E [1B1 (X1 ) · · · 1Bn (Xn )] = P (X1 ∈ B1 , . . . , Xn ∈ Bn )
E [ϕ1 (X1 ) · · · ϕn (Xn )] =
E [ϕ1 (X1 )] · · · E [ϕn (Xn )] = P (X1 ∈ B1 ) · · · P (Xn ∈ Bn )

Cela montre que X1 , . . . , Xn sont indépendants d’après la propriété 4.5.

Ne reste plus qu’à montrer que l’assertion 1 implique l’assertion 2. On se contentera d’une
preuve partielle. Supposons l’assertion 1 vérifiée, c’est-à-dire X1 , . . . , Xn indépendants et
considérons B1 , . . . , Bn des événements de R. Alors, d’une part :

P (X1 ∈ B1 ) · · · P (Xn ∈ Bn ) = P (X1 ∈ B1 , . . . , Xn ∈ Bn )


Z
= 1B1 ×···×Bn (x1 , . . . , xn )f (x1 , . . . , xn ) dx1 · · · dxn
Rn

D’autre part :

Z Z
P (X1 ∈ B1 ) · · · P (Xn ∈ Bn ) = 1B1 (x1 )fX1 (x1 ) dx1 × · · · × 1Bn (xn )fXn (xn ) dxn
ZR R

= 1B1 (x1 )fX1 (x1 ) · · · 1Bn (xn )fXn (xn ) dx1 · · · dxn
Rn
Zen utilisant le théorème de Fubini-Tonelli
= 1B1 ×···×Bn (x1 , . . . , xn )fX1 (x1 ) · · · fXn (xn ) dx1 · · · dxn
Rn

Cela montre que les deux lois déterminées par les densités f et fX1 ⊗ · · · ⊗ fXn coïncident sur
les « pavés », c’est-à-dire sur les événements de la forme B1 × · · · × Bn . Il resterait à montrer
4.2 Vecteurs aléatoires : propriétés générales 59

rigoureusement que cela implique qu’elles coïncident sur n’importe quel événement de Rn .
On peut néanmoins s’en convaincre en songeant qu’en utilisant les propriétés des probabilités,
cette coïncidence reste vraie pour des réunions et intersections dénombrables de pavés, et que
l’on peut construire ainsi un très grand nombre d’événements... Une fois admis que les deux
lois coïncident, cela signifie que leurs densités sont égales presque partout, autrement dit que
l’assertion 2 est vérifiée.

Remarque
– Le théorème précédent se généralise sans difficulté si l’on considère des marginales
de dimension supérieure à 1. En particulier, supposons que (X1 , . . . , Xp ) ait f1 pour
densité, et (Xp+1 , . . . , Xn ) ait f2 pour densité. Alors les vecteurs aléatoires (X1 , . . . , Xp )
et (Xp+1 , . . . , Xn ) sont indépendants si et seulement si la loi du vecteur aléatoire
(X1 , . . . , Xn ) admet f1 ⊗ f2 pour densité.
– L’équivalence entre la première et la quatrième assertion est valable pour tout vecteur
aléatoire, qu’il soit à densité ou non.

4.2 Vecteurs aléatoires : propriétés générales

4.2.1 Inégalités

4.2.1.1 Inégalité de Cauchy-Schwarz

Proposition 4.9 : Inégalité de Cauchy-Schwarz


– (X, Y ) vecteur aléatoire à valeurs dans R2
– E[X 2 ] < +∞ et E[Y 2 ] < +∞
Alors XY admet une espérance finie et :

q
|E[XY ]| ≤ E [|XY |] ≤ E [X 2 ] E [Y 2 ]

Preuve
Remarquons d’abord que

X2 + Y 2
|XY | ≤
2
Ce dont on déduit :

1  h 2i h i
E X + E Y 2 < +∞
E[|XY |] ≤
2
La variable aléatoire XY admet donc bien une espérance finie.

Si E [Y 2 ] = 0, alors Y , et partant XY , est nulle presque sûrement. On en déduit que l’inégalité


de Cauchy-Schwarz est vérifiée trivialement.

Supposons E [Y 2 ] > 0 et posons


60 Vecteurs aléatoires

h i
P (t) = E (X + tY )2 ≥ 0
h i
= E X 2 + 2tXY + t2 Y 2
h i h i
= E X 2 + 2tE[XY ] + t2 E Y 2

Notons que l’on a pu développer linéairement l’espérance car chaque terme est bien fini.

Il s’agit donc d’un polynôme du second degré toujours positif. Cela implique que son
discriminant est négatif ou nul :

h i h i
∆ = 4E[XY ]2 − 4E X 2 E Y 2 ≤ 0
On en déduit l’inégalité :

q
|E [XY ]| ≤ E [X 2 ] E [Y 2 ]
Il reste à l’appliquer à |X| et |Y | pour retrouver celle annoncée dans l’énoncé.

Remarque : Cas d’égalité


Il y a égalité dans l’inégalité de Cauchy-Schwarz si Y = 0 presque sûrement ou si le
discriminant précédent est nul, c’est-à-dire s’il existe une (et une seule) racine t0 au polynôme
P ; auquel cas

h i
0 = P (t0 ) = E (X + t0 Y )2
Autrement dit, s’il existe t0 tel que X + t0 Y = 0 presque sûrement (ou l’inverse Y + t0 X = 0 :
n’oublions pas le cas Y = 0 presque sûrement).

Exemple
Avec Y = 1, on retrouve l’inégalité de Cauchy-Schwarz déjà vue.

4.2.1.2 Inégalités de Hölder et Minkowski

Théorème 4.10 : Inégalité de Hölder


– (X, Y ) vecteur aléatoire à valeurs dans R2
1 1
– p, q ∈]1, +∞[ tels que p
+ q
=1
Alors

1 1
E[|XY |] ≤ E [|X|p ] p E [|Y |q ] q

En conséquence, si E [|X|p ] < +∞ et E [|Y |q ] < +∞, alors E[|XY |] < +∞, l’espérance de
XY est bien définie et l’on a
1 1
|E[XY ]| ≤ E [|X|p ] p E [|Y |q ] q
4.2 Vecteurs aléatoires : propriétés générales 61

Remarque
Cette inégalité s’étend au cas p = +∞ et q = 1 dans la façon suivante : si X est une variable
aléatoire bornée (presque sûrement), posons

1
K∞ = lim E[X 2n ] 2n
n→+∞

On sait alors que :

|X| 6 K∞ p.s.
D’où :

|XY | 6 K∞ |Y | p.s. et E[|XY |] ≤ K∞ E[|Y |]

Remarque
Dans le cas particulier Y = 1, on retrouve le corollaire de l’inégalité de Jensen.

Théorème 4.11 : Inégalité de Minkowski


– (X, Y ) vecteur aléatoire à valeurs dans R2
– p ∈ [1, +∞[
Alors

1 1 1
E [|X + Y |p ] p ≤ E [|X|p ] p + E [|Y |p ] p

L’inégalité de Minkowski a comme conséquence que l’ensemble des variables aléatoires ayant
un moment d’ordre k est un espace vectoriel.

Remarque
– Pour p = 1, c’est une conséquence de l’inégalité triangulaire habituelle :
|X + Y | 6 |X| + |Y |
– Pour p = 2, c’est une conséquence de l’inégalité de Cauchy-Schwarz :
q q q 2
2 2 2 2
E[|X+Y | ] = E[X ]+2E[XY ]+E[Y ] 6 E[X ]+2 E[X 2 ]E[Y 2 ]+E[Y 2 ] = E[X 2 ] + E[Y 2]

– Pour p → +∞, l’inégalité dit simplement que :


|X| 6 C p.s. et |Y | 6 D p.s. =⇒ |X + Y | 6 C + D p.s.

Complément
Ces inégalités peuvent être généralisées en plus grande dimension. Soit (X1 , . . . , Xn ) un vecteur
aléatoire à valeurs dans Rn . La généralisation de l’inégalité de Minkowski est immédiate :
pour tout p ≥ 1

1 1 1
E [|X1 + · · · + Xn |p ] p ≤ E [|X1 |p ] p + · · · + E [|Xn |p ] p
1 1
Pour généraliser l’inégalité de Hölder, considérons p1 , . . . , pn > 1 tels que p1
+ ··· + pn
= 1.
Alors

1 1
E[|X1 · · · Xn |] ≤ E [|X1 |p1 ] p1 · · · E [|Xn |pn ] pn
62 Vecteurs aléatoires

4.2.2 Fonction de répartition

Définition 4.12
– X = (X1 , . . . , Xn ) vecteur aléatoire à valeurs dans Rn .
On appelle fonction de répartition de X la fonction FX définie par :

∀t = (t1 , . . . , tn ) ∈ Rn , FX (t) = P (X1 ≤ t1 , . . . , Xn ≤ tn )

Cette fonction est moins utilisée que pour des variables aléatoires réelles. Ses propriétés sont
similaires à celles qui ont déjà été vues. Indiquons-en deux d’importance.

Théorème 4.13
– X et Y deux vecteurs aléatoires à valeurs dans Rn
Alors

loi
X = Y ⇐⇒ FX = FY

Propriété 4.14
– X un vecteur aléatoire à valeurs dans Rn
– ayant une densité fX
Si fX est continue en x, alors

∂ ∂
··· FX (x) = fX (x)
∂x1 ∂xn

Corollaire 4.15
– X et Y deux vecteurs aléatoires à valeurs dans Rn ,
– ayant des densités fX et fY
S’il existe x ∈ Rn tel que

1. fX et fY sont continues en x
2. fX (x) 6= fY (x)

alors X et Y n’ont pas même loi.

4.2.3 Fonction caractéristique

Définition 4.16
– X = (X1 , . . . , Xn ) un vecteur aléatoire à valeurs dans Rn ,
– t = (t1 , . . . , tn ) ∈ Rn
Pn
– hX, ti = k=1 tk Xk le produit scalaire usuel
4.2 Vecteurs aléatoires : propriétés générales 63

La fonction caractéristique ϕX de X est définie par :

h i
∀t ∈ Rn , ϕX (t) = E eiht,Xi

Les propriétés vues dans le cas des variables aléatoires réelles s’étendent ici aussi facilement.
1. La fonction caractéristique est définie et uniformément continue sur Rn .
2. Elle est bornée par 1 qu’elle atteint en 0.

Théorème 4.17
Deux vecteurs aléatoires ont même loi si et seulement s’ils ont même fonction caractéristique.

Démonstration
Si deux vecteurs ont même loi, la formule de transfert implique qu’ils aient même fonction
caractéristique. La réciproque est admise.

Corollaire 4.18
– X = (X1 , . . . , Xn ) vecteur aléatoire à valeurs dans Rn
X1 , . . . , Xn sont indépendantes si et seulement si

∀(t1 , . . . , tn ) ∈ Rn , ϕX (t1 , . . . , tn ) = ϕX1 (t1 ) · · · ϕXn (tn )


Autrement dit, si et seulement si

ϕX = ϕX1 ⊗ · · · ⊗ ϕXn

Cette proposition reste vraie si X1 , . . . , Xn sont eux-mêmes des vecteurs aléatoires.

Preuve
Supposons que X = (X1 , . . . , Xn ) soit un vecteur à densité, de densité fX . Si X1 , . . . , Xn sont
indépendants, alors pour tout t = (t1 , . . . , tn ) ∈ Rn :

h i
ϕX (t) = E ei(t1 X1 +···+tn Xn )
h i
= E eit1 X1 · · · eitn Xn
h i h i
= E eit1 X1 · · · E eitn Xn
= ϕX1 (t1 ) · · · ϕXn (tn )

où l’on s’est servi de l’assertion 4 du théorème 4.8 : l’espérance d’un produit de fonctions de
variables indépendantes est égale au produit des espérances.

Réciproquement, supposons ϕX = ϕX1 ⊗ · · · ⊗ ϕXn . Soit Y = (Y1 , . . . , Yn ) un vecteur aléatoire


ayant la densité fX1 ⊗ · · · ⊗ fXn avec fXi la densité de la loi marginale de Xi : d’après la
proposition 4.7, c’est bien une densité ; d’après le théorème 4.8, Y1 , . . . , Yn sont indépendants ;
d’après ce qui précède :
64 Vecteurs aléatoires

ϕY = ϕY1 ⊗ · · · ⊗ ϕYn
loi
= ϕX1 ⊗ · · · ⊗ ϕXn car Xi = Yi pour tout i
= ϕX par hypothèse.

Comme la fonction caractéristique caractérise la loi, on en déduit que X et Y ont même loi,
donc que fX est égale à fX1 ⊗ · · · ⊗ fXn presque partout et que X1 , . . . , Xn sont indépendants
comme le sont Y1 , . . . , Yn .

Si X = (X1 , . . . , Xn ) est un vecteur discret, la démonstration est similaire.

Remarque
On pourrait montrer de façon très similaire, avec les fonctions de répartition, que X1 , . . . , Xn
sont indépendantes si et seulement si FX = FX1 ⊗ · · · ⊗ FXn .

Corollaire 4.19
– X et Y deux vecteurs aléatoires indépendants et à valeurs dans Rn
Alors

∀t ∈ Rn , ϕX+Y (t) = ϕX (t)ϕY (t)

Preuve
Si X et Y sont indépendants, alors pour tout t ∈ Rn :

h i h i
ϕX+Y (t) = E eiht,X+Y i = E ei(ht,Xi+ht,Y i) = ϕ(X,Y ) (t, t) = ϕX (t)ϕY (t)

Attention
Il ne s’agit pas d’une équivalence. On peut avoir ϕX+Y = ϕX ϕY sans que X et Y ne soient
indépendants. Considérons par exemple X de loi de Cauchy de paramètre λ, de fonction
caractéristique ϕX (t) = e−λ|t| . Alors :

ϕX (t)ϕX (t) = e−2λ|t| = ϕX (2t) = ϕ2X (t) = ϕX+X (t)


Pour autant, X n’est pas indépendant de lui-même.

4.2.4 Covariance

Définition 4.20
– (X, Y ) vecteur aléatoire à valeurs dans R2
– E[X 2 ] < +∞ et E[Y 2 ] < +∞
Alors E[|X|], E[|Y |], E[|XY |] < +∞ et on définit la covariance de X et Y par :

cov(X, Y ) = E[XY ] − E[X]E[Y ]


4.2 Vecteurs aléatoires : propriétés générales 65

Propriété 4.21
Sous les hypothèses précédentes :

1. cov(X, X) = var(X)
2. cov(X, Y ) = cov(Y, X)
3. cov(X, Y ) = E [(X − E[X]) (Y − E[Y ])]

Preuve
Les propriétés 1 et 2 sont évidentes. La propriété 3 se vérifie en développant l’expression :

E [(X − E[X]) (Y − E[Y ])] = E [XY − XE[Y ] − Y E[X] + E[X]E[Y ]] = E[XY ] − E[X]E[Y ]

Corollaire 4.22
Sous les mêmes hypothèses :

1. ∀a, b ∈ R, cov(X + a, Y + b) = cov(X, Y )


q
2. | cov(X, Y )| ≤ var(X) var(Y ) (inégalité de Cauchy-Schwarz)
3. Si X et Y sont indépendantes, alors cov(X, Y ) = 0.

Preuve
Ces trois propriétés sont des conséquences de la formulation précédente de la covariance.

– Pour la première propriété, il suffit de remarquer que :

(X + a) − E[X + a] = X − E[X] et (Y + b) − E[Y + b] = Y − E[Y ]


La deuxième propriété est une conséquence de l’inégalité de Cauchy-Schwarz ?? :

| cov(X, Y )| = |E [(X − E[X]) (Y − E[Y ])]|


r h i h i
≤ E (X − E[X])2 E (Y − E[Y ])2
q
= var(X) var(Y )
Enfin la troisième propriété est également une conséquence du résultat sur l’espérance d’un
produit de variables aléatoires indépendantes :

cov(X, Y ) = E [(X − E[X]) (Y − E[Y ])] d’après la propriété précédente


= E [(X − E[X])] E [(Y − E[Y ])] à cause de l’indépendance de X et Y
= (E[X] − E[X]) (E[Y ] − E[Y ])
= 0

Attention
Cette implication fait partie de celles que les étudiants transforment inexorablement en
équivalence, en dépit de tous les contre-exemples qui leur auront été présentés. Insistons
donc, vainement certes, sur le fait que deux variables de covariance nulle (on dit décorrélées)
peuvent ne pas être indépendantes.
66 Vecteurs aléatoires

Exemple
Soit X et Y deux variables aléatoires indépendantes, X suivant une loi de Bernoulli de
paramètre 12 et Y à valeurs dans {−1, 1} telle que

1
P(Y = 1) = P(Y = −1) =
2
Posons Z = XY . On vérifie facilement que X et Z ne sont pas indépendants car la coïncidence
des événements {X = 0} = {Z = 0} implique :

 2
1 1
P(X = 0, Z = 0) = 6= P(X = 0)P(Z = 0) =
2 2
Les variables X et Z sont néanmoins décorrélées :

1
  
cov(X, Z) = E X− Z
2
1
 
= E X− XY
2 
1

= E X− X E [Y ] à cause de l’indépendance de X et Y
2 
1

= E X− X ×0=0
2
Proposition 4.23
On note L2 (Ω, R, P) l’espace des variables aléatoires réelles ayant un moment d’ordre 2.

La covariance est une forme bilinéaire symétrique positive sur L2 (Ω, R, P) dont la variance
est la forme quadratique associée.

Preuve
Rappelons d’abord que L2 (Ω, R, P) est bien un espace vectoriel grâce à l’inégalité de Min-
kowski : quels que soient X, Y ∈ L2 (Ω, R, P), ∀a, b ∈ R :

h i1 h i1 h i1 h i1 h i1
E (aX + bY )2 2
6 E (aX)2 2
+ E (bY )2 2
= |a|E X 2 2
+ |b|E Y 2 2
< +∞
Vérifions la bilinéarité :

– l’application (X, Y ) → XY est bilinéaire ;


– l’espérance est linéaire ;

Donc l’application (X, Y ) → E[XY ] est bilinéaire.

– l’application (X, Y ) → (E[X], E[Y ]) est linéaire ;


– l’application (x, y) → xy est bilinéaire ;

Donc l’application (X, Y ) → E[X]E[Y ] est bilinéaire.

La covariance, qui est la différence de deux formes bilinéaires, est donc aussi bilinéaire.

Le fait qu’elle soit symétrique et que la variance en soit la forme quadratique associée a déjà
été vu. Comme la variance est positive, il s’agit d’une forme bilinéaire positive.
4.2 Vecteurs aléatoires : propriétés générales 67

Corollaire 4.24
– (X, Y, Z) vecteur aléatoire à valeurs dans R3
– E[X 2 ] < +∞, E[Y 2 ] < +∞ et E[Z 2 ] < +∞
– a, b ∈ R
Alors :

cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z)


cov(X, aY + bZ) = a cov(X, Y ) + b cov(X, Z)
var(aX + bY ) = a2 var(X) + 2ab cov(X, Y ) + b2 var(Y )

Preuve
Montrons d’abord la linéarité à gauche de la covariance :

cov(aX + bY, Z) = E[(aX + bY )Z] − E[aX + bY ]E[Z]


= aE[XZ] − aE[X]E[Z] + bE[Y Z] − bE[Y ]E[Z]
= a cov(X, Z) + b cov(Y, Z)

La linéarité à droite s’en déduit par symétrie. Il ne reste plus qu’à vérifier la première égalité,
conséquence de la bilinéarité de la covariance :

var(aX + bY ) = cov(aX + bY, aX + bY )


= a2 cov(X, X) + ab cov(X, Y ) + ab cov(Y, X) + b2 cov(Y, Y )
= a2 var(X) + 2ab cov(X, Y ) + b2 var(Y )

Si l’on se restreint au sous-espace vectoriel engendré par une famille finie de variables, on
peut associer à la covariance, en tant que forme bilinéaire, une matrice qu’on appelle alors
matrice de covariance.

Définition 4.25 : Matrice de covariance


– X = (X1 , . . . , Xn ) vecteur aléatoire à valeurs dans Rn
– E[X12 ] < +∞,..., E[Xn2 ] < +∞
La matrice de covariance de X est définie par :

cov(X1 , X2 ) · · · cov(X1 , Xn )
 
var(X1 )

cov(X2 , X1 ) var(X2 ) cov(X2 , Xn ) 
(cov(Xi , Xj ))ni,j=1
 
ΓX = =  .. .. .. 

 . . .


cov(Xn , X1 ) cov(Xn , X2 ) · · · var(Xn )

Proposition 4.26
– ΓX est une matrice symétrique et positive
– ∀(α1 , . . . , αn ), (β1 , . . . , βn ) ∈ Rn :
68 Vecteurs aléatoires
n n
!
αi2 var (Xi ) + 2
X X X
var α i Xi = αi αj cov(Xi , Xj )
i=1 i=1 i,j=1,...,n
i<j
n n
!
X X X
cov αi Xi , βi Xi = αi βj cov(Xi , Xj )
i=1 i=1 i,j=1,...,n
 
β1
   . 
= α1  .. 
· · · αn ΓX  
βn

Preuve
La symétrie et la positivité de la matrice de covariance sont la conséquence de la positivité
de la variance comme forme quadratique et de la symétrie de la covariance comme forme
bilinéaire. Les formules de calcul proposées sont également standard pour toute matrice
associée à une forme bilinéaire. Vérifions-le :

 
n n n n
!
X X X X
cov α i Xi , βi Xi = cov  αi Xi , βj Xj  pour éviter les collisions de variables
i=1 i=1 i=1 j=1
 
n
X n
X
= αi cov Xi , βj Xj  par linéarité à gauche
i=1 j=1
n X
X n
= αi βj cov (Xi , Xj ) par linéarité à droite
i=1 j=1
 
β1
   . 
= α1 · · · αn ΓX  .. 


βn

La formule donnant var ( ni=1 αi Xi ) s’en déduit. La symétrie de la matrice de covariance est
P

évidente. Pour vérifier sa positivité, il faut montrer que pour tout (α1 , . . . , αn ) ∈ Rn , on a

 
α1
   . 
α1  ..  ≥ 0
· · · αn ΓX  
αn
Or

 
α1 n n
! n
!
   .  X X X
α1 · · · αn ΓX  ..  = cov
  α i Xi , αi Xi = var αi X i ≥ 0
i=1 i=1 i=1
αn

La matrice de covariance de (X1 , . . . , Xn ) est positive, mais pas nécessairement définie positive.
Si elle n’est pas définie positive, cela signifie qu’elle est de rang strictement inférieur à n, que
son noyau n’est pas trivial, et qu’il existe donc (a1 , . . . , an ) ∈ Rn \ {(0, . . . , 0)} tel que
   
a1 0
 .  .. 
ΓX  .. 

= . 
 

an 0
4.2 Vecteurs aléatoires : propriétés générales 69

ce qui implique
 
n
! a1
X    . 
var ai X i = a1 · · · an  ..  = 0
ΓX  
i=1
an
Pn
La variable aléatoire i=1 ai Xi est donc constante presque sûrement : il existe b ∈ R tel que

a1 X1 + · · · + an Xn = b p.s.
La matrice de covariance ΓX n’est donc pas définie positive si et seulement s’il existe une
liaison affine non triviale entre X1 , . . . , Xn .

Corollaire 4.27
– X = (X1 , . . . , Xn ) vecteur aléatoire à valeurs dans Rn
– E[X12 ] < +∞,..., E[Xn2 ] < +∞
– On note µX le vecteur moyenne et ΓX la matrice de covariance
Soit A une matrice m × n et Y = AX. Alors :

µY = AµX et ΓY = AΓX tA

Preuve
Rappelons d’abord que toute combinaison linéaire de variables aléatoires ayant un moment
d’ordre 2 possède aussi un moment d’ordre 2. Les composantes du vecteur Y ont donc bien
des moments d’ordre 2 et l’on peut en calculer la moyenne et la matrice de covariance.

Notons (ap,q )1≤p≤m les coefficients de la matrice A. Le calcul de la moyenne de Y ne pose


1≤q≤n
guère de problème : pour tout k ∈ {1, . . . , m}

" n # n
X X
E [Yk ] = E ak,l Xl = ak,l E [Xl ]
l=1 l=1

Autrement dit, on a bien µY = AµX .

Le calcul de sa matrice de covariance est une conséquence de la proposition précédente. Soit


i, j ∈ J1, mK. Alors

ΓY (i, j) = cov ((AX)i , (AX)j )


n n
!
X X
= cov ai,k Xk , aj,l Xl
k=1 l=1
n
X
= ai,k aj,l cov (Xk , Xl )
k,l=1
Xn
= ai,k ΓX (k, l)aj,l
k,l=1

= (AΓX t A)(i, j)

D’où le résultat attendu ΓY = AΓX tA.


70 Vecteurs aléatoires

Définition 4.28 : Corrélation


– (X, Y ) vecteur aléatoire à valeurs dans R2
– E[X 2 ] < +∞ et E[Y 2 ] < +∞
– var(X) > 0 et var(Y ) > 0
On définit la corrélation de X et Y par :

cov(X, Y )
cor(X, Y ) = q
var(X) var(Y )

Propriété 4.29

∀(a, b, c, d) ∈ R4 , a, c 6= 0, cor(aX + b, cY + d) = signe(ac) × cor(X, Y )

Preuve
Laissée au lecteur.

Proposition 4.30
1. cor(X, Y ) ∈ [−1, 1]
2. cor(X, Y ) = ±1 si et seulement s’il existe une liaison affine presque sûre entre X et Y .

Preuve
La première assertion est une conséquence de l’inégalité de Cauchy-Schwarz. La seconde vient
du cas d’égalité dans cette inégalité :

cor(X, Y ) = ±1 ⇐⇒ cov(X, Y )2 = var(X) var(Y )


⇐⇒ ∃(a, b) ∈ R2 \ {(0, 0)} var(aX + bY ) = 0
⇐⇒ ∃(a, b, c) ∈ R3 \ {(0, 0, 0)} aX + bY = c p.s.

4.3 Vecteurs gaussiens

4.3.1 Loi gaussienne sur R


Avant d’étudier les lois gaussiennes multivariées, rappelons certaines des propriétés de la loi
gaussienne sur R. Soit f la fonction définie par :
x2
e− 2
∀x ∈ R, f (x) = √

Propriété 4.31
La fonction f est une densité de probabilité sur R.

Preuve
Il est clair que c’est une fonction positive et continue. Vérifions que son intégrale sur R est
égale à 1 :
4.3 Vecteurs gaussiens 71

Z 2 Z
f (x) dx = f (x)f (y) dxdy d’après le théorème de Fubini-Tonelli
R R2
1 Z
x2 +y 2
= e− 2 dxdy
2π R2
1 Z
ρ2
= e− 2 ρ dρdθ après un changement de variables en polaires
2π [0,2π]×R+
1 Z 2π Z +∞
ρ2
= dθ × ρe− 2 dρ d’après le théorème de Fubini-Tonelli
2π 0 0
+∞
2π 2

− ρ2
= −e =1
2π 0

La fonction f est donc bien une densité de probabilité sur R.

Propriété 4.32
Soit X une variable aléatoire admettant la densité f . Alors X admet des moments de tous
ordres et pour tout k ≥ 0 :

h i (2k)! h i
E X 2k = et E X 2k+1
=0
2k k!
En particulier, E[X] = 0 et var(X) = 1.

Preuve
Soit k ≥ 1. Comme X 2k est positive, elle admet une espérance finie ou infinie que l’on peut
calculer par récurrence, grâce à une intégration par parties :

h i Z
E X 2k = x2k f (x) dx
R
1 Z A 2k−1 x2
= lim √ x × xe− 2 dx
A→+∞ 2π −A
A !
1 1 Z A

x2 x2
= lim √ −x2k−1 e− 2 +√ (2k − 1)x2k−2 e− 2 dx
A→+∞ 2π −A 2π −A
Z +∞
= 0 + (2k − 1) × x2k−2 f (x) dx
−∞
h i
2k−2
= (2k − 1) × E X
h i
= (2k − 1) × (2k − 3) × · · · × 3 × 1 × E X 0
= (2k − 1) × (2k − 3) × · · · × 3 × 1
(2k)!
=
2k × (2k − 2) · · · × 2
(2k)!
= < +∞
2k k!
Comme on sait que si X admet un moment d’ordre n, il admet aussi des moments pour tous
les ordres inférieurs,
h oni en déduit que X admet bien des moments de tous ordres. On peut
2k+1
donc calculer E X pour tout k ≥ 0 :

h i Z +∞
E X 2k+1 = x2k+1 f (x) dx = 0
−∞
car il s’agit de l’intégrale sur R d’une fonction impaire.
72 Vecteurs aléatoires

Corollaire 4.33
Avec les notations précédentes, la loi de X est caractérisée par ses moments.

Preuve
C’est une conséquence immédiate du critère de Carleman. On remarque en effet que pour
tout k ≥ 1 :

h i
E X 2k = (2k − 1) × (2k − 3) × · · · × 3 × 1 ≤ (2k)k
D’où :

X 1 X 1
1 ≥ √ = +∞
k≥1 E [X 2k ] 2k
k≥1 2k

Propriété 4.34
Avec les notations précédentes, pour tout λ ∈ C :

λ2
h i h i
E eλX < +∞ et E eλX = e 2

On dit que X possède un moment exponentiel de tout ordre.

En particulier, la fonction caractéristique de X est égale à :


t2
∀t ∈ R, ϕX (t) = e− 2

Preuve
Remarquons d’abord que pour tout x ∈ R et λ ∈ C :

λn xn X |λn xn | X |λ|2k x2k


eλx = = e|λx| ≤ e|λ|x + e−|λ|x = 2
X

n≥0 n! n≥0 n! k≥0 (2k)!

D’où :

   
h i |λn X n |  X |λ|2k X 2k X |λ|2k h i X |λ|2k |λ|2
E eλX E X 2k = 2
X
≤ E ≤ E 2 =2
k
= 2e 2 < +∞
n≥0 n! k≥0 (2k)! k≥0 (2k)! k≥0 2 k!

en utilisant le fait que l’espérance d’une somme de variables aléatoires positives est égale à la
somme des espérances. On en déduit :

 
h
λX
i λ X  X λn
n n
E [X n ]
X
E e = E =
n≥0 n! n≥0 n!
 
n n
|λ X | 
X
car d’après les calculs précédents E  < +∞
n≥0 n!
X λ2k λ2
= k k!
= e 2

k≥0 2
4.3 Vecteurs gaussiens 73

Définition-proposition 4
Soit m ∈ R, σ > 0. Alors Y = m + σX est une variable aléatoire d’espérance m et de variance
σ 2 . Sa loi est dite gaussienne ou normale et est notée N (m, σ 2 ).
λ2 σ 2
Pour tout λ ∈ C, eλY admet une espérance finie égale à eλm+ 2 . En particulier, la fonction
caractéristique vaut :

σ 2 t2
∀t ∈ R, ϕY (t) = eimt− 2

Preuve
Les quelques assertions sont à peu près évidentes. Par exemple :

h i h i (λσ)2 λ2 σ 2
E eλY = E eλm e(λσ)X = eλm e 2 = eλm+ 2

Notons que les variables aléatoires constantes font partie de la famille de variables aléatoires
gaussiennes, celles de variance nulle.

Propriété 4.35
Avec les notations précédentes, si σ est strictement positive, alors la loi de Y admet la densité
fY définie par :

(y−m)2
e− 2σ2
∀y ∈ R, fY (y) = √
2πσ 2
Preuve
On peut le vérifier avec l’aide de la fonction muette ou en dérivant la fonction de répartition :
pour tout y ∈ R

FY (y) = P(Y ≤ y) = P(m + σX ≤ y)


y−m
 
= P X≤ car σ > 0
σ
y−m

= FX
σ
avec FX fonction de répartition de X, qui est C 1 sur R car la densité f est continue sur R.
On en déduit que FY est C 1 sur R, donc que la loi de Y admet la densité :

(y−m)2
1 y−m 1 y−m e− 2σ2
   
∀y ∈ R, fY (y) = FY0 (y) = FX0 = f = √
σ σ σ σ 2πσ 2

4.3.2 Définition d’un vecteur gaussien

Proposition 4.36 : Somme de gaussiennes indépendantes


Soit (Ω, P) espace de probabilité, X1 , . . . , Xn variables gaussiennes indépendantes telles que
Xi ∼ N (µi , σi2 ) pour tout i = 1, . . . , n. Alors, pour tous α1 , . . . , αn ∈ R :

n n n
!
αi2 σi2
X X X
α i Xi ∼ N α i µi ,
i=1 i=1 i=1
74 Vecteurs aléatoires

Preuve
On peut le vérifier en utilisant la fonction caractéristique : soit t ∈ R

n
Y
ϕPn
k=1
αk Xk (t) = ϕαk Xk (t) car les variables sont indépendantes
k=1
n α2 σ 2 t2
Y
iαk µk t− k k
= e 2

k=1
Pn Pn
αk µk )t− 12 (
= e i( k=1 k=1
α2k σk2 )t2

Pn
On reconnaît la fonction caractéristique d’une loi gaussienne de moyenne k=1 αk µk et de
variance nk=1 αk2 σk2 .
P

D’autres preuves sont possibles, par un calcul de densité ou de moment. Commençons par
remarquer qu’il suffit de prouver la proposition pour la somme de deux variables gaussiennes
indépendantes : une simple récurrence permet de passer au cas général. Soit donc X, X 0
deux gaussiennes indépendantes de moyennes m, m0 ∈ R et de variances σ, σ 0 ≥ 0 respectives.
Notons que si σ ou σ 0 est nul, alors X + X 0 est la somme d’une gaussienne et d’une constante,
et l’on sait déjà que c’est une gaussienne. On peut donc également supposer σ, σ 0 > 0 et
m = m0 = 0. Alors X et X 0 sont de variables à densité, et la loi de leur somme admet la
densité définie par : pour tout x ∈ R

fX+X 0 (x) = fX ∗ fX 0 (x)


Z
= fX (y)fX 0 (x − y) dy
R
y2 (x−y)2
Z
e− 2σ2 − 2σ02
= dy
R 2πσσ 0
x2
− 2
s 
2 02 σ2
e 2(σ 2 +σ 02 )
Z
σ 2 + σ 02 − σ2σ+σ y− x
= q e 2 σ02 σ 2 +σ 02
dy
2π(σ 2 + σ 02 ) R 2πσ 2 σ 02
x2

e 2(σ 2 +σ 02 )
= q
2π(σ 2 + σ 02 )

L’intégrale est égale à 1 car c’est l’intégrale de la densité d’une loi gaussienne de moyenne
σ2 2 σ 02
σ 2 +σ 02
x et de variance σσ2 +σ 02 .

On reconnaît ainsi dans fX+X 0 la densité d’une loi gaussienne centrée de variance σ 2 + σ 02 .

La méthode des moments est aussi efficace : pour tout n ≥ 0

n n
! !
0 n
X n h k 0n−k i X n h k i h 0n−k i
E [(X + X ) ] = E X X = E X E X
k=0 k k=0 k
l’espérance du produit étant égale au produit des espérances car les variables sont indépen-
dantes.

Comme les moments impairs sont nuls, on en déduit E [(X + X 0 )n ] = 0 si n est impair, et, si
n = 2p,
4.3 Vecteurs gaussiens 75

p !
0 n
X 2p h 2l i h 02(p−l) i
E [(X + X ) ] = E X E X
l=0 2l
p
(2p)! (2l)! 2(p − l)!
× σ 2l l × σ 02(p−l) p−l
X
=
l=0 (2l)!(2(p − l))! 2 l! 2 (p − l)!
p
(2p)! X p!
= p
σ 2l σ 02(p−l)
2 p! l=0 l!(p − l)!
(2p)!  2 02 p

= σ + σ
2p p!
On reconnaît les moments d’une variable gaussienne centrée de variance σ 2 + σ 02 . Comme la
loi gaussienne est caractérisée par ses moments, cela permet également de conclure.

Définition 4.37
Un vecteur aléatoire X = (X1 , . . . , Xn ) est dit « gaussien » si pour tout α = (α1 , . . . , αn ) ∈ Rn
la variable aléatoire

n
X
hα, Xi = α i Xi
i=1

suit une loi gaussienne.

Remarque
– D’après la proposition précédente, il existe bien des vecteurs gaussiens.
– Les vecteurs constants sont gaussiens.

4.3.3 Propriétés

Propriété 4.38
Si X = (X1 , . . . , Xn ) est un vecteur gaussien, alors Xi suit une loi gaussienne pour tout
i = 1, . . . , n.

Preuve
C’est évident d’après la définition car, quel que soit i ∈ J1, nK, Xi est une combinaison linéaire
(simple !) de X1 , . . . , Xn et suit donc une loi gaussienne.

Remarque
Plus généralement, et pour les mêmes raisons, tout sous-vecteur (Xi1 , . . . , Xik ) d’un vecteur
gaussien est un vecteur gaussien.

Attention
La réciproque est fausse ! Considérons par exemple X variable gaussienne centrée réduite et
Y variable aléatoire indépendante telle que P(Y = 1) = P(Y = −1) = 12 . Posons Z = XY .
On voit facilement que les moments de X et Z sont égaux :

( )
n n n 0×0 si n est impair
∀ ∈ N, E [Z ] = E [X ] × E [Y ] = (2p)! = E [X n ]
2p p!
× 1 si n = 2p
76 Vecteurs aléatoires

Comme la loi de X est caractérisée par ses moments, on en déduit que Z est également
une variable gaussienne centrée réduite. Pour autant, le vecteur (X, Z) n’est pas un vecteur
gaussien. En effet, on remarque que la combinaison linéaire X + Z ne suit pas une loi
gaussienne :

1
P(X + Z = 0) = P(X(1 + Y ) = 0) = P(Y = −1) =
2
La variable aléatoire X + Z n’est donc ni une constante, ni à densité : ce ne peut être une
variable gaussienne.

Une conséquence de la propriété précédente est que tout vecteur gaussien possède un vecteur
moyenne et une matrice de covariance.

Proposition 4.39
La fonction caractéristique d’un vecteur gaussien X = (X1 , . . . , Xn ), de vecteur moyenne µX
et de matrice de covariance ΓX , est égale à :

1
 
n
∀t = (t1 , . . . , tn ) ∈ R , ϕX (t) = exp iht, µX i − ht, ΓX ti
2
Preuve
Soit t = (t1 , . . . , tn ) ∈ Rn . Alors ht, Xi = nk=1 tk Xk est une variable gaussienne, d’après la
P

définition d’un vecteur gaussien. Elle est de moyenne :

" n # n
X X
E tk Xk = tk E [Xk ] = ht, µX i
k=1 k=1

et de variance :

 
n
! t1
X    . 
var tk Xk = t1 · · · tn ΓX  .. 

 = ht, ΓX ti
k=1
tn
On en déduit :

1
h i
ϕX (t) = E eiht,Xi = ϕht,Xi (1) = eiht,µX i− 2 ht,ΓX ti

Corollaire 4.40
La loi d’un vecteur gaussien X est caractérisée par sa moyenne µX et sa matrice de covariance
ΓX ; elle est notée N (µX , ΓX ).

Preuve
C’est une simple conséquence du fait que la fonction caractéristique caractérise la loi d’un
vecteur aléatoire.

Propriété 4.41
Soit X = (X1 , . . . , Xn ) ∼ N (µX , ΓX ). Soit A une matrice de dimensions p × n et b ∈ Rp .
Alors AX + b est un vecteur gaussien, de vecteur moyenne AµX + b et de matrice de covariance
AΓX tA.
4.3 Vecteurs gaussiens 77

Preuve
Toute combinaison linéaire de AX + b est la somme d’une combinaison linéaire de X — qui
est une gaussienne car X est un vecteur gaussien — et d’une constante : c’est donc une
gaussienne, ce qui montre que AX + b est un vecteur gaussien. Ne reste donc qu’à déterminer
sa moyenne et sa matrice de covariance pour finir de caractériser sa loi. Leur calcul découle
directement du corollaire 4.27.

Proposition 4.42
Soit µ ∈ Rn et Γ matrice symétrique positive de dimensions n × n. Alors il existe un vecteur
gaussien de moyenne µ et de matrice de covariance Γ.

Preuve
Comme Γ est une matrice symétrique, elle est diagonalisable : soit D = diag (λ1 , . . . , λn ) la
matrice diagonale des valeurs propres de Γ et soit O matrice orthogonale telle que Γ = ODO−1 .

Comme Γ est positive, ses valeurs propres sont positives. On peut donc définir X1 , . . . , Xn
des variables gaussiennes centrées indépendantes de variances λ1 , . . . , λn . Le vecteur moyenne
du vecteur gaussien X = (X1 , . . . , Xn ) est nul et sa matrice de covariance est égale à D car
les variables X1 , . . . , Xn sont décorrélées.

Posons Y = OX + µ. D’après la propriété précédente, Y est un vecteur gaussien de vecteur


moyenne O × E[X] + µ = µ et de matrice de covariance OΓX t O = ODO−1 = Γ.

Dans la construction précédente, supposons λ1 , . . . , λk > 0 et λk+1 = · · · = λn = 0. Alors


Xk+1 = · · · = Xn = 0 p.s. et (X1 , . . . , Xk ) est un vecteur gaussien dont le support est Rk :
en effet, sa matrice de covariance est la matrice diagonale de déterminant λ1 · · · λk ; elle est
donc inversible et d’après la prochaine proposition, la loi de (X1 , . . . , Xk ) admet une densité
strictement positive sur Rk . Autrement dit, le support de (X1 , . . . , Xn ) est le sous-ensemble
SX = Rk × {0}n−k . Le support de Y = OX + µ est donc le sous-ensemble OSX + µ où l’on
reconnaît Im(Γ) + µ et qui est un sous-espace affine de dimension k, le rang de Γ.
On en déduit que si le rang de Γ est strictement inférieur à n, alors Y est à valeurs dans un
sous-ensemble de volume (ou mesure de Lebesgue) nul et que sa loi ne peut être à densité.
La proposition suivante établit la réciproque, à savoir que la loi de Y admet une densité si le
rang de Γ est égal à n.

Proposition 4.43
Soit X ∼ N (µX , ΓX ). Si ΓX est définie positive, alors la loi de X admet la densité :

1 1
 
∀x ∈ Rn , fX (x) = q exp − hx − µX , Γ−1
X (x − µX )i
(2π)n det ΓX 2

Preuve
On reprend la décomposition de la matrice de covariance utilisée dans la preuve de la
proposition précédente. Soit O matrice orthogonale et D = diag(λ1 , . . . , λn ) matrice diagonale
des valeurs propres, cette fois strictement positives, telles que ΓX = ODO−1 . Soit U1 , . . . , Un
variables gaussiennes centrées indépendantes de variances λ1 , . . . , λn respectivement. Alors
U = (U1 , . . . , Un ) est un vecteur gaussien admettant fU = fU1 ⊗ · · · ⊗ fUn pour densité
d’après le théorème 4.8, avec fUi la densité de la variable gaussienne Ui centrée de variance
strictement positive.

Nous avons vu que X est égale en loi à OU + µX . Utilisons cela pour déterminer la loi de
X à l’aide de la méthode de la fonction muette. Soit ϕ une fonction réelle continue bornée
définie sur Rn . Alors :
78 Vecteurs aléatoires

Z
E[ϕ(X)] = E [ϕ (OU + µX )] = ϕ(Ou + µX )fU1 (u1 ) · · · fUn (un ) du1 · · · dun
Rn
Effectuons le changement de variables x = Ou + µx . Il s’agit d’un changement de variables
affine clairement inversible de Rn sur Rn : pour tous x, u ∈ Rn

x = Ou + µx ⇐⇒ u = O−1 (x − µX )
Il est tout aussi évidemment C 1 dans les deux sens : c’est bien un C 1 -difféomorphisme de Rn
sur Rn .

Le nouveau domaine d’intégration est donc Rn . Remplaçons du1 · · · dun :

 
du1 · · · dun = det O−1 dx1 · · · dxn = dx1 · · · dxn
En effet, det O−1 est égal à 1 ou −1 car O est orthogonale. Il reste à exprimer fU1 (u1 ) · · · fUn (un )
en fonction de (x1 , . . . , xn ) :

u2 u2
− 2λ1 n
e 1 e− 2λn
fU1 (u1 ) · · · fUn (un ) = √ ··· √
2πλ1 2πλn
u2 2
 
− 12 1 +···+ un
λ1 λn
e
= q
(2π)n λ1 · · · λn

Remarquons alors que :

 
λ1 · · · λn = det D = det ODO−1 = det (ΓX )
Puis que :

u21 u2
+ · · · + n = hu, D−1 ui
λ1 λn
= hO−1 (x − µX ), D−1 O−1 (x − µX )i
= hx − µX , OD−1 O−1 (x − µX )i car O−1 = t O
 −1
= hx − µX , ODO−1 (x − µX )i
= hx − µX , Γ−1
X (x − µX )i
D’où la formule intégrale suivante pour E[ϕ(X)] :

1 −1
Z
e− 2 hx−µX ,ΓX (x−µX )i
E[ϕ(X)] = ϕ(x) q dx1 · · · dxn
Rn (2π)n det (ΓX )
Cela montre que la loi de X admet bien la densité annoncée.

Propriété 4.44
Soit X = (X1 , . . . , Xn ) un vecteur gaussien. Alors les variables X1 , . . . , Xn sont indépendantes
si elles sont décorrélées.
4.3 Vecteurs gaussiens 79

Remarque
Ce résultat se généralise aux sous-vecteurs d’un vecteur gaussien : si (X1 , . . . , Xn ) est un
vecteur gaussien, alors (X1 , . . . , Xp ) et (Xp+1 , . . . , Xn ) sont indépendants si et seulement si

∀k ∈ J1, pK, ∀l ∈ Jp + 1, nK, cov (Xk , Xl ) = 0

Preuve
Notons µi = E [Xi ] et σi2 = var (Xi ) pour tout i = 1, . . . , n. Si X1 , . . . , Xn sont décorrélées, la
matrice de covariance de X est diagonale :

 
σ12 0
..
 
ΓX = diag σ12 , . . . , σn2 = 
 
 . 

0 σn2
On en déduit que la fonction caractéristique de X s’écrit comme le produit des fonctions
caractéristiques de X1 , . . . , Xn : pour tout t = (t1 , . . . , tn ) ∈ Rn

1
ϕX (t) = eiht,µX i− 2 ht,ΓX ti
Pn Pn
t µ −1 t2 σ 2
= ei k=1 i i 2 k=1 i i
n t2 σ 2
itk µk − k2 k
Y
= e
k=1
Yk
= ϕXk (tk )
k=1

D’après la proposition 4.18, cela prouve que X1 , . . . , Xn sont indépendantes.

Attention
C’est faux si l’on suppose seulement que X1 , . . . , Xn sont des variables aléatoires gaussiennes.
Reprenons l’exemple vu précédemment avec X variable normale centrée réduite, Y indépen-
dante et uniforme sur {−1, 1}, et Z = XY . Nous avons vu que Z est également une variable
gaussienne centrée réduite, mais que (X, Z) n’est pas un vecteur gaussien. Elles ne sont donc
pas indépendantes d’après la proposition 4.36. Elles sont néanmoins décorrélées :

cov(X, Z) = E[XZ] − E[X]E[Z]


h i
= E X 2Y car X et Z sont centrées
h i
= E X 2 E[Y ] car X et Z sont indépendantes
= 0 car Y est centrée

Il faut bien se rappeler qu’en règle générale la décorrélation n’implique pas l’indépendance,
et que les vecteurs gaussiens constituent l’exception à cette règle.

4.3.4 Exemples

Représentations 2D et 3D de la densité gaussienne sur R2 , de moyenne µ et de matrice de


covariance Γ avec :
80 Vecteurs aléatoires

! !
0 1
µ = ,
0 2
!
1 0
Γ = λ avec λ = 1, 0.5, 2
0 1
! !
0.5 0 1.8 −0.4
= ,
0 2 −0.4 1.2
!
1 1 1−α
= √ avec α = 0, 0.5, 0.1, 0.01
2α − α2 1−α 1

Figure 4.1 – m=(0,0), G=Id : lignes de niveau

Figure 4.2 – Cercle de prévision


4.3 Vecteurs gaussiens 81

Figure 4.3 – Translation : m=(1,2)

Figure 4.4 – Dilatation : Gamma=0.5 Id, Id, 2 Id


82 Vecteurs aléatoires

Figure 4.5 – Gamma = diagonale(0.5,2)

Figure 4.6 – Ellipse de prévision


4.3 Vecteurs gaussiens 83

Figure 4.7 – Gamma non diagonale

Figure 4.8 – Axes principaux

Figure 4.9 – Gamma -> singulière


84 Vecteurs aléatoires

Figure 4.10 – Gamma -> singulière


5
Convergences

5.1 Le lemme de Borel-Cantelli

Le « lemme de Borel-Cantelli » est un lemme célèbre, simple à démontrer, et surtout très


utile pour nombre de résultats de convergence.

Lemme 5.1 : Lemme de Borel-Cantelli X


Soit (An )n∈N une suite d’événements d’un espace de probabilité (Ω, P). Si P(An ) < +∞,
n∈N
alors

!
P lim sup An = 0.
n∈N

+∞
\ +∞
[
Rappelons ( ?) que lim supn∈N An = Ak est l’événement : « une infinité des événements
n=0 k=n
An ont lieu ».

Preuve
Pour tout N ≥ 1 :

+∞
\ +∞ +∞ +∞
! !
[ [ X
P Ak ≤ P Ak ≤ P (An )
n=0 k=n k=N n=N
X
Si la série P (An ) est convergente, alors
n∈N

+∞
X
lim P (An ) = 0.
N →+∞
n=N
On en déduit le résultat annoncé :

+∞
\ +∞
!
[
P Ak = 0.
n=0 k=n

85
86 Convergences

Sous l’hypothèse d’indépendance, le lemme de Borel-Cantelli admet une réciproque.

Lemme 5.2 : Lemme de Borel-Cantelli (2ème partie)


Soit (An )n∈N une suite d’événements de (Ω, P). Si les ensembles An , n ∈ N, sont indépendants
X
et si P(An ) = +∞, alors
n∈N

+∞
\ +∞
! !
[
P lim sup An = P Ak = 1.
n∈N n=0 k=n

Remarque
Si les événements ne sont pas indépendants, cette réciproque est fausse. Pour un contre-
exemple élémentaire, il suffit de prendre An = A avec P(A) ∈]0, 1[.

Preuve
Supposons que les ensembles An , n ∈ N soient indépendants et que

X
P(An ) = +∞
n∈N

Soit n ∈ N et m ≥ n. Par indépendance des Ap , p ∈ N,

m m m m
! !
Ack P (Ack )
[ \ Y Y
P Ak = 1 − P =1− =1− (1 − P (Ak )) .
k=n k=n k=n k=n

Étant donné que pour tout x ∈ [0, 1], 0 ≤ 1 − x ≤ e−x , alors

m n
!
Y X
(1 − P (Ak )) ≤ exp − P (Ak )
k=n k=m
et donc

m m
! !
[ X
P Ak ≥ 1 − exp − P (Ak ) .
k=n k=n
En faisant tendre m vers +∞, on obtient par continuité monotone de P :

+∞
!
[
∀n ∈ N, P Ak ≥ 1
k=n
et donc

+∞
!
[
∀n ∈ N, P Ak = 1
k=n
S 
+∞
Par ailleurs, la suite k=n Ak , n ∈ N est une suite décroissante d’événements. Donc par
continuité monotone (décroissante) de P :

+∞
\ +∞ +∞
! !
[ [
P Ak = lim P Ak = 1
n→+∞
n=0 k=n k=n
5.2 Convergences d’une suite de variables aléatoires 87

5.2 Convergences d’une suite de variables aléatoires

Introduction

Dans cette partie, nous nous intéressons au comportement asymptotique d’une suite de
variables aléatoires définies sur un même espace (Ω, P). Nous supposons ici que ces variables
aléatoires sont à valeurs dans Rd pour un certain d ≥ 1 et notons k · k la norme euclidienne
sur Rd .

5.2.1 Convergence en probabilité

Définition 5.3 : Convergence en probabilité


La suite de variables aléatoires (Xn )n∈N converge en probabilité vers la variable aléatoire X,
P
ce que l’on note Xn −→ X, si pour tout ε > 0,

lim P(kXn − Xk > ε) = 0.


n→+∞

Exemple
Soit X une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n ∈ N∗ , posons

Xn = X + n2 1X≤1/n .
Pour tout n ∈ N∗ :

si ε ≥ n2
(

2
 0
P(|X − Xn | > ε) = P n 1X≤1/n > ε =
P(X ≤ 1/n) si ε < n2 .
Étant donné que X suit une loi uniforme sur [0, 1],

0 si ε ≥ n2
(
P(|X − Xn | > ε) = 1
n
si ε < n2 .
Par conséquent,

∀ε > 0, lim P(|Xn − X| > ε) = 0


n→+∞

et donc (Xn )n∈N converge en probabilité vers X.

La limite en probabilité d’une suite de variables aléatoires est unique presque sûrement.

Proposition 5.4 : Unicité p.s. de la limite


Si la suite de variables aléatoires (Xn )n∈N converge en probabilité vers la variable aléatoire X
et vers la variable aléatoire Y , alors

X=Y presque sûrement.


88 Convergences

Preuve
Pour tout ε > 0,

P(kX − Y k > ε) ≤ P(kXn − Xk > ε/2) + P(kXn − Y k > ε/2)


car, en raison de l’inégalité triangulaire,

{kX − Y k > ε} ⊂ {kXn − Xk > ε/2} ∪ {kXn − Y k > ε/2}.


P P
Alors, vu que Xn −→ X et que Xn −→ Y ,

∀ε > 0, P(kX − Y k > ε) = 0.


La propriété de continuité de P appliquée à la suite croissante des ensembles

Ap = {kX − Y k > 1/p}, p ∈ N∗ ,


implique :

P(kX − Y k > 0) = lim P({kX − Y k > 1/p}) = 0.


p→+∞

Les variables aléatoires X et Y sont donc égales presque sûrement.

Proposition 5.5
Soit (Xn , n ≥ 1) et (Yn , n ≥ 1) deux suites de variables aléatoires à valeurs dans Rd et Rl
respectivement, et convergeant en probabilité vers X et Y . Alors la suite ((Xn , Yn ), n ≥ 1)
converge en probabilité vers (X, Y ).

Preuve
Il suffit de remarquer que

k(Xn , Yn ) − (X, Y )k ≤ kXn − Xk + kYn − Y k,


ce qui implique

ε ε
   
{k(Xn , Yn ) − (X, Y )k > ε} ⊂ kXn − Xk > ∪ kYn − Y k >
2 2
pour tout ε > 0. La proposition s’en déduit aisément.

Proposition 5.6
Soit (Xn , ≥ 1) une suite de variables aléatoires qui converge en probabilité vers X, et f une
fonction continue sur Rd à valeurs dans Rl . Alors (f (Xn ), n ≥ 1) converge en probabilité vers
f (X).

Preuve
Nous allons faire la démonstration dans le cas où f est uniformément continue, et l’admettrons
dans le cas général.
5.2 Convergences d’une suite de variables aléatoires 89

On suppose donc que f est uniformément continue sur Rd . Soit ε > 0 ; il existe η > 0 tel que :

∀x, y ∈ Rd , kx − yk ≤ η =⇒ kf (x) − f (y)k ≤ ε


On en déduit que pour tout n ≥ 1

{kf (Xn ) − f (X)k > ε} ⊂ {kXn − Xk > η}


puis que :

P (kf (Xn ) − f (X)k > ε) ≤ P (kXn − Xk > η)


Or

lim P (kXn − Xk > η) = 0


n→+∞

car la suite (Xn , n ≥ 1) tend en probabilité vers X. On en déduit

lim P (kf (Xn ) − f (X)k > ε)


n→+∞

Comme nous l’avons établi pour tout ε > 0, cela montre que la suite (f (Xn ) , n ≥ 1) tend
vers f (X) en probabilité.

Corollaire 5.7
Soit (Xn , n ≥ 1) et (Yn , n ≥ 1) deux suites à valeurs dans Rd et convergeant en probabilité
vers X et Y respectivement. Alors la suite (αXn + βYn , n ≥ 1) converge en probabilité vers
αX + βY , pour tous α, β ∈ R.

Preuve
C’est une conséquence immédiate des deux propositions précédentes.

5.2.2 Convergence presque sûre

Définition 5.8 : Convergence presque sûre


Une suite de vecteurs aléatoires (Xn )n∈N définis sur (Ω, P) et à valeurs dans Rd converge
P-presque sûrement vers le vecteur aléatoire X s’il existe un ensemble négligeable N ⊂ Ω tel
que

∀ω ∈ Ω \ N, lim Xn (ω) = X(ω).


n→+∞
p.s.
On note Xn −→ X.
n→+∞

Exemple
Soit X une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n ∈ N,

Xn = 1[0,1/n] (X)
90 Convergences

est une variable aléatoire à valeurs réelles. Par ailleurs, si X(ω) 6= 0,

lim Xn (ω) = 0.
n→+∞
p.s.
Or P(X 6= 0) = 1 car X suit une loi uniforme sur [0, 1]. Par conséquent, Xn −→ 0.

On reconnaît dans la convergence presque sûre d’une suite de variables aléatoires la convergence
simple d’une suite de fonctions en dehors d’un ensemble négligeable. On peut vérifier facilement
que cela en partage toutes les propriétés.

Propriété 5.9
Soit (Ω, P) un espace de probabilité, (Xn , n ≥ 0) , (Yn , n ≥ 0) deux suites de vecteurs aléatoires
à valeurs dans Rd et Rl respectivement.

1. (Unicité presque sûre de la limite) Si (Xn , n ≥ 0) converge P-presque sûrement vers X


et vers Y , alors X = Y P-presque sûrement.
 
2. Sous les mêmes hypothèses, si f est une fonction continue sur Rd , alors f (Xn ), n ≥ 0
converge P-presque sûrement vers f (X).
3. Si (Xn , n ≥ 0) et(Yn , n ≥ 0) convergent
 P-presque sûrement vers X et vers Y P-presque
sûrement, alors (Xn , Yn ), n ≥ 0 converge P-presque sûrement vers (X, Y ).
4. Sous les mêmes hypothèses, si d = l, alors la suite (αXn + βYn , n ≥ 0) converge P-
presque sûrement vers αX + βY pour tous α, β ∈ R.

Preuve
La seule différence de la convergence presque sûre avec la convergence ponctuelle des fonctions
est qu’il faut s’occuper d’un ensemble négligeable. Il est bien rare que cela pose un problème.
Voyons-le avec l’unicité presque sûre de la limite. On suppose qu’il existe NX ⊂ Ω et NY ⊂ Ω
deux ensembles négligeables tels que

∀ω ∈ Ω \ NX , lim Xn (ω) = X(ω) et ∀ω ∈ Ω \ NY , lim Xn (ω) = Y (ω).


n→+∞ n→+∞

Alors

∀ω ∈ Ω \ (NX ∪ NY ), lim Xn (ω) = X(ω) = Y (ω).


n→+∞

Comme NX ∪ NY est également un ensemble négligeable, cela montre X = Y presque


sûrement.

Tout le reste n’est pas plus compliqué. Notons simplement que la quatrième assertion est la
conséquence de deux précédentes, et qu’en ce qui concerne la seconde assertion, on pourrait
en affaiblir légèrement les hypothèses en supposant seulement que f est continue sur un
ensemble A ⊂ Rd tel que P(X ∈ A) = 1. En effet, avec les notations précédentes, l’ensemble
B = {X ∈ A} \ NX est encore un ensemble de probabilité 1, et pour tout ω ∈ B :

lim Xn (ω) = X(ω) car ω ∈ Ω \ NX


n→∞
lim f (Xn (ω)) = f (X(ω)) car f est continue en X(ω)
n→∞
5.2 Convergences d’une suite de variables aléatoires 91

La convergence presque sûre est une convergence "plus forte" que le convergence en probabilité
au sens où elle l’implique.

Proposition 5.10 : Convergence p.s. / convergence en probabilité


Une suite de vecteurs aléatoires (Xn )n∈N qui converge presque sûrement vers X converge en
probabilité vers X.

Preuve
Supposons que (Xn )n∈N converge presque sûrement vers la variable aléatoire X. Soit ε > 0.
Pour tout n ∈ N, posons

Yn = 1kX−Xn k>ε
Étant donné que la suite (Xn )n∈N converge presque sûrement vers la variable aléatoire X, la
suite (Yn )n∈N converge presque sûrement vers 0. Comme les variables aléatoires Yn , n ≥ 1,
sont uniformément bornées par 1, on peut utiliser le théorème de convergence dominée 2.21
et en déduire :

 
lim P(kX − Xn k > ε) = lim E[Yn ] = E lim Yn = 0
n→+∞ n→+∞ n→+∞

Comme c’est établi pour tout ε > 0, cela signifie que la suite de variables aléatoires (Xn )n∈N
converge en probabilité vers la variable aléatoire X.

Il n’existe pas à proprement parler de réciproque. Il existe des suites de variables aléatoires qui
convergent en probabilité, mais pas presque sûrement. Mais il existe des réciproques partielles
comme le résultat suivant qui montre qu’une suite de variables aléatoires qui converge en
probabilité "suffisamment vite" converge presque sûrement. "Suffisamment vite" signifie ici
que pour tout ε > 0, non seulement P(kXn − Xk > ε) tend vers 0, mais la série l’ayant pour
terme général converge.

Proposition 5.11 : Corollaire du lemme de Borel-Cantelli


Soient (Xn )n∈N et X des variables aléatoires à valeurs dans Rd . Si pour tout ε > 0,

X
P (kXn − Xk ≥ ε) < +∞,
n∈N

alors la suite (Xn , n ≥ 0) converge presque sûrement vers X.

Preuve
Soit p ∈ N∗ . Pour tout n ∈ N, posons

( )
1
An,p = kXn − Xk ≥ .
p
Alors, d’après l’assertion du lemme de Borel-Cantelli 5.1 appliquée à la suite (An,p )n∈N ,

P(Ap ) = 0,
+∞
\ +∞
[
avec Ap = Ak,p . Alors :
n=0 k=n
92 Convergences

 
[
P Ap  = 0
p∈N∗

Autrement dit :

 c   )
\ +∞
[ +∞
(
[ \ 1 
1 = P  Ap   = P  kXk − Xk <
p∈N∗ p∈N∗ n=0 k=n p
Traduisons : pour presque tout ω, pour tout p ∈ N∗ , il existe n ∈ N tel que pour tout k ≥ n,

1
kXk (ω) − X(ω)k < .
p
Par conséquent, la suite (Xn )n∈N converge presque sûrement vers X.

5.2.3 Convergence en moyenne d’ordre p

Définition 5.12
Soit (Ω, P) un espace de probabilité, (Xn , n ≥ 1) et X des vecteurs aléatoires définis sur Ω et
à valeurs dans Rk . Soit p ≥ 1.

Si kXk et kXn k pour tout n ≥ 0 possèdent un moment d’ordre p, alors on dit que la suite
(Xn , n ≥ 1) converge en moyenne d’ordre p vers X si

lim E [kXn − Xkp ] = 0


n→+∞

Si p = 1, on parle simplement de convergence en moyenne. Si p = 2, on parle de convergence


en moyenne quadratique.

Notons que kXn − Xk possède bien un moment d’ordre p sous les hypothèses de la définition,
car d’après l’inégalité triangulaire

kXn − Xk ≤ kXn k + kXk


et l’on sait que kXn k + kXk possède un moment d’ordre p.

Propriété 5.13 : Unicité presque sûre de la limite


Soit (Xn , n ≥ 0) une suite de vecteurs aléatoires à valeurs dans Rd . Si (Xn , n ≥ 0) converge
en moyenne d’ordre p vers X et vers Y , alors X = Y P-presque sûrement.

Preuve
C’est une conséquence de l’inégalité de Minkowski. Soit n ≥ 1. Alors :

1 1 1
E [kX − Y kp ] p ≤ E [kX − Xn kp ] p + E [kXn − Y kp ] p
Il ne reste plus qu’à faire tendre n vers l’infini pour en déduire que

1
E [kX − Y kp ] p = 0
5.2 Convergences d’une suite de variables aléatoires 93

Comme il s’agit de l’espérance d’une variable aléatoire positive, il s’ensuit que :

kX − Y k = 0 p.s.
D’où le résultat annoncé.

Propriété 5.14
Soit (Xn , n ≥ 0) une suite de vecteurs aléatoires à valeurs dans Rd . Si (Xn , n ≥ 0) converge
en moyenne d’ordre
  p vers X, et si f est une fonction uniformément continue sur Rd , alors
f (Xn ), n ≥ 0 converge en moyenne d’ordre p vers f (X).

Remarquons que c’est faux si l’on suppose si l’on suppose f continue car rien ne garantirait
alors que kf (Xn ) − f (X)k ait un moment d’ordre p.

Preuve
Comme f est uniformément continue, elle est presque lipschitzienne : pour tout ε > 0, il
existe A > 0 tel que :

∀x, y ∈ Rd , kf (x) − f (y)k ≤ ε + Akx − yk


(à démontrer en exercice !) . Grâce à l’inégalité de Minkowski, on en déduit que :

1 1
E [kf (Xn ) − f (X)kp ] p ≤ ε + AE [kXn − Xkp ] p
Ne reste plus qu’à faire tendre n vers l’infini pour en déduire :

1
lim sup E [kf (Xn ) − f (X)kp ] p ≤ ε
n→+∞

Puis à faire tendre ε vers 0. D’où le résultat annoncé.

Propriété 5.15
Soit (Ω, P) un espace de probabilité, (Xn , n ≥ 0) , (Yn , n ≥ 0) deux suites de vecteurs aléatoires
à valeurs dans Rd et Rl respectivement.

1. Si (Xn , n ≥ 0) et (Yn , n ≥ 0) convergent


 en moyenne d’ordre p vers X et vers Y respec-
tivement, alors (Xn , Yn ), n ≥ 0 converge en moyenne d’ordre p vers (X, Y ).
2. Sous les mêmes hypothèses, si d = l, alors la suite (αXn + βYn , n ≥ 0) converge en
moyenne d’ordre p vers αX + βY pour tous α, β ∈ R.

Preuve
Pour démontrer la première assertion, il suffit de remarquer qu’avec la norme euclidienne
canonique on a

k(Xn , Yn ) − (X, Y )k2 = kXn − Xk2 + kYn − Y k2


La deuxième assertion est une conséquence de la première et de la précédente propriété, car
la fonction (x, y) 7→ αx + βy est absolument continue (et même lipschitzienne) sur Rd .
94 Convergences

Propriété 5.16
Soit (Xn , n ≥ 1) une suite de vecteurs aléatoires convergeant en moyenne d’ordre p vers X.
Alors :

1. pour tout q ∈ {1, . . . , p}, la suite (Xn , n ≥ 1) converge en moyenne d’ordre q vers X ;
2. la suite (E [kXn kp ] , n ≥ 1) converge vers E [kXkp ] ;
3. si les variables aléatoires sont réelles, la suite (E [Xnp ] , n ≥ 1) converge vers E [X p ].

Preuve
La première assertion est une simple conséquence de l’inégalité de Hölder : pour tout
q ∈ {1, . . . , p}

1 1
E [kX − Xn kq ] q ≤ E [kX − Xn kp ] p
La deuxième assertion est une conséquence de l’inégalité de Minkowsky : de

1 1 1 1 1 1
E [kXkp ] p ≤ E [kX − Xn kp ] p + E [kXn kp ] p et E [kXn kp ] p ≤ E [kXn − Xkp ] p + E [kXkp ] p
on déduit :

1 1 1
E [kXkp ] p − E [kXn kp ] p ≤ E [kXn − Xkp ] p
Il ne reste plus qu’à passer à la limite pour en déduire :

lim E [kXn kp ] = E [kXkp ]


n→+∞

La troisième assertion est une conséquence de l’inégalité des accroissements finis :

 
∀x, y ∈ R, |xp − y p | ≤ p|x − y| sup |up−1 | = p|x − y| max |x|p−1 , |y|p−1
u∈[x,y] ou [y,x]

On en déduit, grâce à l’inégalité de Hölder :

|E [X p ] − E [Xnp ]| ≤ E [|X p − Xnp |]


h  i
≤ pE |X − Xn | max |Xn |p−1 , |X|p−1
 p 1− 1
1   p
p p−1 p−1 p−1
≤ pE [|X − Xn | ] E max |Xn |
p , |X|
1 1
≤ pE [|X − Xn |p ] p (E [|Xnp |] + E [|X p |])1− p
Ne reste plus qu’à faire tendre n vers l’infini. Comme

lim E [|X − Xn |p ] = 0 et lim E [|Xnp |] = E [|X p |]


n→+∞ n→+∞

on en déduit le résultat annoncé :

lim E [Xnp ] = E [X p ]
n→+∞
5.2 Convergences d’une suite de variables aléatoires 95

Une conséquence presqu’immédiate de l’inégalité de Markov est que la convergence en moyenne


d’ordre p implique la convergence en probabilité.

Proposition 5.17
Soit (Xn , n ≥ 1) une suite de vecteurs aléatoires convergeant en moyenne d’ordre p vers X.
Alors elle converge aussi en probabilité vers X.

Preuve
Soit ε > 0. Alors, d’après l’inégalité de Markov :

E [kX − Xn kp ]
P (kX − Xn k > ε) ≤
εp
Sous les hypothèses de l’énoncé, cela implique que P (kX − Xn k > ε) tend vers 0 quand n
tend vers l’infini, et permet d’établir la convergence en probabilité.

La convergence en probabilité n’implique pas la convergence en moyenne, sauf à rajouter des


hypothèses supplémentaires, comme dans le résultat suivant :

Proposition 5.18
Soit (Xn , n ≥ 1) une suite de vecteurs aléatoires convergeant en probabilité vers X. Si ces
vecteurs aléatoires sont uniformément bornés, autrement dit s’il existe A ≥ 0 tel que :

∀n ≥ 1, kXn k ≤ A p.s.
alors la suite (Xn , n ≥ 1) converge vers X en moyenne d’ordre p, pour tout p ≥ 1.

Preuve
Remarquons d’abord que X est également borné presque sûrement par A :

– d’après l’inégalité triangulaire :

kXk ≤ kX − Xn k + kXn k ≤ kX − Xn k + A p.s.


– d’où, pour tout ε > 0 :
P (kXk ≥ A + ε) ≤ lim P (kX − Xn k ≥ ε)) = 0
n→+∞

grâce à l’hypothèse de convergence en probabilité. On en déduit, par continuité :

1
 
P (kXk > A) = lim P kXk ≥ A + =0
k→+∞ k
Les variables Xn , n ≥ 1 et X étant presque sûrement bornées, elles possèdent donc des
moments de tous ordres. Pour tout p ≥ 1 et ε > 0, on peut donc calculer :

1  h p i 1
(E [kXn − Xkp ]) p = E kXn − Xk1kXn −Xk≤ε + kXn − Xk1kXn −Xk>ε p

 h i 1  h i 1
≤ E kXn − Xkp 1kXn −Xk≤ε p + E kXn − Xkp 1kXn −Xk>ε p

d’après l’inégalité de Minkowski


1 1
≤ εP (kXn − Xk ≤ ε) p + 2AP (kXn − Xk > ε) p
96 Convergences

On en déduit :

1
lim sup (E [kXn − Xkp ]) p ≤ ε
n→+∞

Comme l’inégalité est vérifiée pour tout ε > 0, cela établit le résultat attendu :

lim E [kXn − Xkp ] = 0


n→+∞

5.2.4 Lois des grands nombres

Étant donné une suite de variables aléatoires, on souhaite savoir comment évoluent leurs
moyennes empiriques successives. La loi des grands nombres, faible comme forte, montre
que sous certaines conditions, essentiellement une absence de liaison entre les variables, la
moyenne empirique devient "de moins en moins aléatoire" et converge vers son espérance.
La première preuve rigoureuse, c’est-à-dire mathématique, est due à Jacques Bernoulli.

Proposition 5.19 : Loi faible des grands nombres


Soit (Xn )n∈N une suite de variables aléatoires réelles ayant un moment d’ordre 2. On suppose
qu’elles ont toutes même moyenne µ, que leurs variances sont (uniformément) bornées, et
qu’elles sont deux à deux décorrélées :

∀n, m ∈ N, n 6= m =⇒ cov(Xn , Xm ) = 0
Posons

n
1X
Xn = Xi .
n i=1
 
Alors la suite X n , n ≥ 1 converge en moyenne quadratique vers µ.

Preuve
Remarquons d’abord que pour tout n ≥ 1, la variable aléatoire X n est une combinaison
linéaire de variables aléatoires ayant un moment d’ordre 2 et possède donc elle-même un
moment d’ordre 2.

Remarquons ensuite que son espérance est constante et vaut µ :

n
h i 1 1X
E Xn = E[Sn ] = E[Xi ] = µ
n n i=1
Montrons maintenant que sa variance tend vers 0 (autrement dit que X n devient "de plus en
plus constant" et donc proche de sa moyenne). Soit M > 0 tel que

∀n ∈ N, var(Xn ) ≤ M.
Les variables aléatoires Xn , n ∈ N étant deux à deux décorrélées,
5.2 Convergences d’une suite de variables aléatoires 97

n n
!
  1 X 1 X nM M
var X n = 2 var Xi = 2 var (Xi ) ≤ 2 = .
n i=1 n i=1 n n
Comme par définition :

 i 2  
  h 2
var X n = E Xn − E Xn = E Xn − µ

on a bien démontré la convergence en moyenne quadratique de X n vers µ :

 
2
lim E Xn − µ = 0.
n→+∞

La convergence en moyenne quadratique implique la convergence en probabilité et l’indépen-


dance implique la décorrélation : on lit souvent dans la littérature la loi faible des grands
nombres présentée sous cette forme (inutilement) affaiblie : les moyennes empiriques d’une
suite de variables aléatoires indépendantes, de même loi et ayant un moment d’ordre 2
convergent en probabilité vers l’espérance de la loi. Un tel énoncé rend la loi faible des
grands nombres superflue car avec des hypothèses plus faibles, la loi forte des grands nombres
énonce un résultat plus fort. En réalité, les deux lois des grands nombres ont des champs
d’application légèrement différents.

Syntaxe : Notation
Les variables aléatoires Xn , n ∈ N sont i.i.d. (indépendantes identiquement distribuées) si
elles sont indépendantes et si elles ont toutes même loi.

Proposition 5.20 : Loi forte des grands nombres


Soit (Xn )n∈N une suite de variables aléatoires réelles i.i.d. Posons comme précédemment

n
1X
Xn = Xi .
n i=1
Si  1 |) < +∞, c’est-à-dire si les variables aléatoires Xn ont un moment d’ordre 1, alors
 E(|X
Xn ∗
converge presque sûrement vers E [X1 ].
n∈N

Remarque  
On peut montrer que si E(|X1 |) = +∞, alors la suite Xn diverge presque sûrement.
n∈N∗

Démonstration
Pour simplifier, fortement, la démonstration, nous supposerons de plus que E[X14 ] < +∞.

Notons µ = E[X1 ] et posons pour tout n ≥ 1

Yn = Xn − E[Xn ] = Xn − µ
La suite (Yn , n ≥ 1) est une suite de variables aléatoires centrées, indépendantes, de même
loi et ayant un moment d’ordre 4. Comme pour tout n ≥ 1

Yn = Xn − µ
98 Convergences
 
on en déduit que la suite Xn , n ≥ 1 converge presque sûrement vers µ si et seulement si la
 
suite Yn , n ≥ 1 converge presque sûrement vers 0.

Pour toute variable aléatoire U centrée ayant un moment d’ordre 4, introduisons les quantités
suivantes :

h i h i h i2
c2 (U ) = var(U ) = E U 2 et c4 (U ) = E U 4 − 3E U 2
Le coefficient c4 (U ) est le cumulant d’ordre 4 de U , une quantité qui généralise à l’ordre 4 les
propriétés de la variance comme on peut le voir avec les deux observations suivantes :

– pour tout λ ∈ R,

c4 (λU ) = λ4 c4 (U )
– si V est une variable aléatoire centrée ayant un moment d’ordre 4 et indépendante de
U , alors :
h i  h i2
c4 (U + V ) = E U 4 + 4U 3 V + 6U 2 V 2 + 4U V 3 + V 4 − 3 E U 2 + 2U V + V 2
h i h i h i h i h i
= E U 4 + 4E U 3 V + 6E U 2 V 2 + 4E U V 3 + E V 4
 h i h i2
−3 E U 2 + 2E [U V ] + E V 2
h i h i h i h i h i h i
= E U 4 + 4E U 3 E [V ] + 6E U 2 E V 2 + 4E [U ] E V 3 + E V 4
 h i h i2
−3 E U 2 + 2E [U ] E [V ] + E V 2
car U et V sont indépendantes
h i h i h i h i  h i h i2
= E U 4 + 6E U 2 E V 2 + E V 4 − 3 E U 2 + E V 2
car
h i
U et V h sonti
centrées
h i2 h i2
4
= E U + E V − 3E U 2 − 3E V 2
4

= c4 (U ) + c4 (V )

On en déduit, comme Y1 , . . . , Yn sont centrées, indépendantes et de même loi :

n n n
! !
  1X 1 X 1 X 1
c2 Y n = c2 Y k = 2 c2 Yk = 2 c2 (Yk ) = c2 (Y1 )
n k=1 n k=1 n k=1 n
et de la même façon :

n n n
! !
  1X 1 X 1 X 1
c4 Y n = c4 Y k = 4 c4 Yk = 4 c4 (Yk ) = 3 c4 (Y1 )
n k=1 n k=1 n k=1 n
D’où :

h 4
i  1  3  2
E Yn 3
c4 (Y1 ) + 2 c2 (Y1 )2
= c4 Y n + 3c2 Y n =
n n
Soit ε > 0. Appliquons le corollaire de l’inégalité de Markov : pour tout n ≥ 1
5.3 Convergence en loi 99

4
h i
  E Yn 1
 
P |Yn | > ε ≤ =O 2 en + ∞
ε4 n
D’où :

+∞
X  
P |Yn | > ε < +∞
n=1
et ne reste plus qu’à appliquer le corollaire du lemme de Borel-Cantelli pour en déduire :

lim Yn = 0 p.s.
n→+∞
ce qui achève la démonstration.

Exemple : Loi forte des grands nombres pour des variables exponentielles
Dans cet exemple, on s’intéresse à la convergence des trajectoires d’une moyenne empirique
de variables exponentielles de paramètre 1 et d’espérance 1.

Exemple : Loi forte des grands nombres pour des variables géométriques
Dans cet exemple, on s’intéresse à la convergence des trajectoires d’une moyenne empirique
de variables de loi géométrique de paramètre 0.2 et d’espérance 5.

Exemple : Loi forte des grands nombres pour des fréquences empiriques
Dans cet exemple, on s’intéresse à la convergence des trajectoires d’une moyenne empirique de
variables de Bernoulli de paramètre 0.2, représentant la fréquence empirique d’un événement
de probabilité 0.2 dans une succession d’épreuves indépendantes.

Exemple : Loi forte des grands nombres pour des variables de Cauchy ( ? ?)
Dans cet exemple, on s’intéresse à la (non-)convergence des trajectoires d’une moyenne
empirique de variables de Cauchy standard, de médiane 0, mais qui ne possèdent pas de
moment d’ordre 1. On observe des sauts, rares mais importants, aussi loin que l’on aille, et
qui manifestent une absence de convergence.

5.3 Convergence en loi

5.3.1 Convergence en loi

Dans cette partie, il n’est plus nécessaire de supposer que toutes les variables aléatoires
soient définies sur un même espace de probabilité. Elles restent à valeurs dans un même
espace vectoriel Rd .

Définition 5.21
Soit (Xn , n ≥ 1) et X des vecteurs aléatoires à valeurs dans Rd .

On dit que la suite (Xn , n ≥ 1) « converge en loi » vers X si pour toute fonction continue
bornée f de Rd dans R :

lim E [f (Xn )] = E[f (X)]


n→+∞
L
On note Xn −→ X.
n→+∞
100 Convergences

Remarque
Il y a unicité de la loi limite, mais pas de la variable aléatoire limite. Plus précisément, si la
suite de variables aléatoires (Xn )n∈N converge en loi vers la variable aléatoire X, alors elle
converge aussi en loi vers la variable aléatoire Y si et seulement si X et Y ont même loi. La
convergence en loi n’affirme pas que X et Xn sont proches dans E mais que la loi de Xn est
proche de celle de X pour n grand.

Fondamental
La convergence en loi d’une suite de variables aléatoires est improprement nommée : il s’agit
en réalité de la convergence de lois définies sur Rd , et non de la convergence des variables
aléatoires. Voilà pourquoi il n’importe pas que les variables aléatoires soient définies sur un
même espace de probabilité, mais seulement que leurs lois soient définies sur le même espace
vectoriel Rd .

Exemple
Soit Xn une variable aléatoire de loi PXn = 12 δ1/n + 12 δn/(n+1) . Alors, pour toute fonction f
continue bornée sur R,

1 1 1 n
   
E(f (Xn )) = f + f .
2 n 2 n+1
Par conséquent, pour toute fonction f continue bornée sur R,

1 1
lim E(f (Xn )) = f (0) + f (1) = E(f (X))
n→+∞ 2 2
L
avec X de loi de Bernoulli de paramètre p = 1/2. Par conséquent, Xn −→ X.

La propriété suivante découle immédiatement de la définition.

Propriété 5.22
Soit (Xn , n ≥ 0) une suite de vecteurs aléatoires, à valeurs dans Rd , qui converge en loi vers
X. Soit f une fonction continue sur Rd , à valeurs dans Rk . Alors la suite (f (Xn ), n ≥ 0)
converge en loi vers f (X).

Proposition 5.23 : Convergence en probabilité / convergence en loi


P L
Si Xn −→ X, alors Xn −→ X.

Remarque
La convergence presque sûre et la convergence en moyenne d’ordre p impliquant la convergence
en probabilité, elles impliquent aussi la convergence en loi. La convergence en loi est donc la
plus faible de toutes les convergences étudiées jusqu’à présent.

Preuve
Supposons que la suite Xn converge en probabilité vers X. Soit f : E → R une fonction
continue bornée. Alors la suite f (Xn ) converge en probabilité vers f (X) d’après la proposition
5.6. De plus, f étant bornée, il existe A ∈ R tel que

∀n ∈ N, |f (Xn )| 6 A partout.
D’après la proposition 5.18, f (Xn ) converge vers f (X) en moyenne. Par conséquent,
5.3 Convergence en loi 101

lim E[f (Xn )] = E[f (X)].


n→+∞

Étant donné que f est une fonction continue bornée arbitraire, nous venons de montrer que
L
Xn −→ X.

5.3.2 Caractériser la convergence en loi

On peut caractériser la convergence en loi avec les mêmes outils que ceux qui permettent de
caractériser une loi : densité, fonction de répartition, moments et fonction caractéristique.
Suivant les situations, l’une ou l’autre des méthodes se révélera plus appropriée.

Propriété 5.24 : Lemme de Scheffé (1)


Si les variables aléatoires X, X1 , X2 , . . . sont à valeurs dans Z, alors

L
Xn −→ X
n→+∞

si et seulement si

lim P (Xn = k) = P(X = k)


n→+∞

en tout k ∈ Z.

Attention
Des variables aléatoires discrètes peuvent converger en loi vers une variable aléatoire à densité.

Remarque
Ce résultat s’étend aux vecteurs aléatoires à valeurs dans un même ensemble discret.

Exemple
Soit λ > 0. Pour tout n ≥ λ1 , soit Xn une variable aléatoire suivant une loi binomiale de
paramètres n et nλ . Étudions la limite de P(Xn = k) pour tout k ∈ Z, quand n tend vers
l’infini :

!n−k
n λk
!
λ
P(Xn = k) = 1 − pour n ≥ k
k nk n
λk n × (n − 1) × · · · × (n − k + 1)
!!
λ
= exp (n − k) ln 1 −
k! nk n
k
λ
−→ × 1 × exp (−λ)
n→+∞ k!
car

! !
λ λ
(n − k) ln 1 − ∼ (n − k) × − −→ −λ
n n→+∞ n n→+∞

k
On reconnaît dans λk! e−λ la probabilité P(X = k) quand X suit une loi de Poisson de
paramètre λ. On en déduit que la suite (Xn , n ≥ 1) converge en loi vers X.
102 Convergences

Attention
Il ne suffit pas que chacune des probabilités P(Xn = k), k ∈ Z, converge pour impliquer la
convergence en loi : il faut qu’elle converge vers une famille de probabilités qui caractérisent
une loi, c’est-à-dire qui soit de somme égale à 1. Considérons par exemple la suite de variables
aléatoires constantes Xn = n, n ∈ N. Il n’est pas difficile de voir que limn→+∞ P(Xn = k) = 0
pour tout k ∈ Z. Pour autant, il n’y a pas convergence en loi car il n’existe pas de variable
aléatoire X à valeurs dans Z telle que P(X = k) = 0 pour tout k ∈ Z.

Il existe un résultat équivalent au précédent dans le cas de variables aléatoires à densité.

Propriété 5.25 : Lemme de Scheffé (2)


Si les vecteurs aléatoires X, X1 , X2 , . . . sont à densité, de densité f, f1 , f2 , . . ., alors

L
Xn −→ X
n→+∞

si

lim fn (x) = f (x)


n→+∞

en tout x ∈ Rd sauf éventuellement sur un ensemble négligeable.

Bien noter qu’il s’agit ici d’une condition suffisante et non nécessaire.

Exemple
 
(n) (n)
Soit X1 , . . . , Xn+1 un vecteur de loi uniforme (c’est-à-dire invariante par rotation) sur la
(0)
sphère unité de Rn+1 . La loi de X1 est discrète — c’est bien sûr la loi uniforme sur {−1, 1}
(n)
— mais pour n ≥ 1, on peut montrer que la loi de X1 admet la densité

Γ(n) n
fn (x) = (1 − x2 ) 2 −1 1−1<x<1 , x ∈ R
2n−1 Γ(n/2)2
√ 
(n)
D’après un résultat célèbre de Poincaré, la suite nX1 , n ≥ 1 converge en loi vers une
variable gaussienne centrée réduite. Vérifions-le en étudiant la convergence des densités.
√ (n)
Soit gn la densité de nX1 :

! ! n −1
1 x Γ(n) x2 2
gn (x) = √ fn √ = n−1 √ 1 − 1−√n<x<√n , x ∈ R
n n 2 Γ(n/2)2 n n
Soit x ∈ R. Quand n tend vers +∞ :

– 1−√n<x<√n tend vers 1 ;


 2
  2

  n −1 ( n −1) ln 1− xn ( n −1) − xn +o( n
1
) x2 x2
x2
– 1− n
2
=e 2 =e 2 = e− 2 +o(1) tend vers e− 2 ;
– D’après la formule de Stirling :
 n q
n 2π
Γ(n) 1 e n 1
√ ∼ √ n 2 = √
2n−1 Γ(n/2)2 n 2n−1 n
 

n 2
 q
4π 2π
2e n
5.3 Convergence en loi 103
x2
− 2
e√
On en déduit que gn (x) tend vers où l’on reconnaît une densité bien connue. Il y a donc

√ (n)  
bien convergence en loi de la suite nX1 , n ≥ 1 vers une variable gaussienne centrée
réduite.

Attention
Là encore, notons que des vecteurs aléatoires à densité peuvent converger en loi vers un vecteur
qui n’en a pas, et que ce n’est pas parce que les densités convergent qu’il y a convergence en
loi. Comme contre-exemple, on peut considérer Xn = Xn et Xn0 = nX avec X une variable
gaussienne centrée réduite. Pour tout n ≥ 1, Xn et Xn0 sont des gaussiennes de variance
strictement positives, donc des variables à densité. On peut vérifier que la suite (Xn , n ≥ 1)
converge presque sûrement, donc en loi, vers la constante 0 dont la loi n’admet pas de densité,
tandis que les densités des lois de Xn0 convergent vers la fonction nulle qui n’est la densité
d’aucune variable aléatoire. La suite (Xn0 , n ≥ 1) ne converge donc pas en loi.

Propriété 5.26
Soit F, F1 , F2 , . . . les fonctions de répartition des vecteurs aléatoires X, X1 , X2 , . . . ; alors

L
Xn −→ X
n→+∞

si et seulement si

lim Fn (x) = F (x)


n→+∞

en tout x ∈ Rd où F est continue.

Exemple
Considérons la suite des variables aléatoires constantes Xn = n1 dont on voit aisément, d’après
la définition de la convergence en loi, qu’elles convergent en loi vers X = 0 (elles convergent
d’ailleurs aussi presque sûrement). Qu’en est-t-il de leurs fonctions de répartition ? Soit t ∈ R :

lim FXn (t) = lim 1t≥ 1 = 1t>0


n→+∞ n→+∞ n

Elles convergent bien vers la fonction de répartition FX (t) = 1t≥0 sauf en 0, point de
discontinuité de FX .

Exemple
Soit X1 , X2 , . . . une suite de variables aléatoires de loi uniforme sur [0, 1].

On pose Yn = n min (X1 , . . . , Xn ). Calculons sa fonction de répartition. Soit t ∈ R :


104 Convergences

FYn (t) = P (Yn ≤ t)


= 1 − P (n min(X1 , . . . , Xn ) > t)
t t
 
= 1 − P X1 > , . . . , X n >
n n 
t t
 
= 1 − P X1 > · · · P Xn > car X1 , . . . , Xn sont indépendantes
n n
t n

= 1 − P X1 > car X1 , . . . , Xn ont même loi
n
 n
t

= 1 − 1 − FX1
 n
 0 

 n
si t ≤ 0
t
=

1− 1− n si nt ∈ [0, 1]
 1 si nt ≥ 1

( )
0 si t ≤ 0
−→ = FY (t)
n→+∞ 1 − e−t si t ≥ 0

avec FY la fonction de répartition d’une variable exponentielle Y de paramètre 1. La suite


(Yn , n ≥ 1) converge donc en loi vers Y .

Attention
Les fonctions de répartition peuvent converger simplement sans qu’il y ait convergence en
loi. On peut reprendre un exemple précédent en considérant la suite des variables constantes
Xn = n dont les fonctions de répartition convergent partout vers la fonction nulle qui n’est
pas une fonction de répartition.

Propriété 5.27
Soit X1 , X2 , . . . sont des variables aléatoires réelles ayant des moments de tous ordres.

– S’il existe (αk , k ≥ 1) tel que pour tout k ∈ N∗

h i
lim E Xnk = αk
n→+∞
h i
alors il existe une variable aléatoire X telle que E X k = αk pour tout k ∈ N∗ .

L
– Si de plus la loi de X est caractérisée par ses moments, alors Xn −→ X.
n→+∞

L
– Réciproquement, si Xn −→ X et s’il existe l ≥ 1 tel que
n→+∞

h i
sup E |Xn |l < +∞,
n≥1

alors, pour tout k < l, X admet un moment d’ordre k < l et

h i h i
E X k = lim E Xnk
n→+∞
5.3 Convergence en loi 105

Exemple
Soit X1 , X2 , . . . une suite de variables aléatoires indépendantes telle que, pour tout n ≥ 1, la
loi de Xn ait la densité :

fXn (x) = nxn−1 10≤x≤1


Les variables aléatoires Xn , n ≥ 1 sont des variables aléatoires bornées qui admettent dès lors
des moments de tous ordres qui se calculent facilement :

h n i
∀k, n ≥ 1, E Xnk =
n+k
Posons Yn = nX1 · · · Xn pour tout n. Il s’agit également de variables aléatoires bornées dont
les moments sont donnés par : pour tout k ≥ 1

h i h i h i
E Ynk = nk E X1k · · · E Xnk car X1 , . . . , Xn sont indépendantes
1 × 2 × ··· × n
= nk
(1 + k)(2 + k) · · · (n + k)
n!k!
= nk
(n + k)!
nk
= k!
(n + 1)(n + 2) · · · (n + k)
−→ k!
n→+∞

On reconnaît dans (k!, k ≥ 1) la suite des moments d’une variable aléatoire Y de loi
exponentielle de paramètre 1, dont on sait qu’elle est caractérisée par ses moments. On en
déduit que la suite (Yn , n ≥ 1) converge en loi vers Y .

Propriété 5.28
Soit ϕ, ϕ1 , ϕ2 , . . . les fonctions caractéristiques des vecteurs aléatoires X, X1 , X2 , . . . ; alors

L
Xn −→ X
n→+∞

si et seulement si

lim ϕn (x) = ϕ(x)


n→+∞

en tout x ∈ Rd .

Comme exemple d’application, nous verrons dans la section suivante l’un des théorèmes les
plus importants des probabilités, le théorème central limite.

Attention
Les fonctions caractéristiques peuvent converger simplement sans qu’il y ait convergence en
loi. Là encore, on peut considérer la suite des fonctions caractéristiques de Xn = nX, avec X
gaussienne centrée réduite, pour s’en convaincre.

Complément
Si (ϕn , n ≥ 1) converge simplement vers une fonction continue en 0, alors cette fonction est
la fonction caractéristique d’une loi et les vecteurs aléatoires (Xn , n ≥ 1) convergent en loi.
106 Convergences

5.3.3 Le théorème central limite

Le théorème central limite, comme la loi forte des grands nombres, a pour objet le compor-
tement asymptotique d’une moyenne empirique de variables aléatoires indépendantes. Si
la loi forte des grands nombres en donne la limite, le théorème central√ limite en étudie les
fluctuations autour de cette limite. En les grossissant avec un facteur n, il montre qu’elles
se comportent de façon gaussienne. Il y faut une hypothèse supplémentaire : que les variables
aléatoires possèdent désormais un moment d’ordre 2, et plus seulement un moment d’ordre 1.

Théorème 5.29 : Théorème central limite


Soit (Xn )n∈N une suite de variables aléatoires réelles indépendantes, de même loi et ayant un
moment d’ordre 2. Notons µ = E[X1 ] et σ 2 = var(X1 ).

Pour tout n ≥ 1, soit X n la moyenne empirique définie par

n
1X
Xn = Xi .
n i=1
Alors,

√  
L
n Xn − µ −→ Z
avec Z une variable gaussienne centrée de variance σ 2 .

Un calcul simple montre que pour tout n ≥ 1,


h√  i √  
E n Xn − µ = 0 et var n Xn − µ = σ2 ;
il n’est donc pas surprenant que la loi limite soit centrée et de variance σ 2 .

Démonstration
Notons ϕX1 la fonction caractéristique de X1 et ϕYn celle de

√   X1 + · · · + Xn √
Yn = n Xn − µ = √ −µ n
n
Calculons sa fonction caractéristique. Soit t ∈ R :

h i
ϕYn (t) = E eitYn
  √
i √tn (X1 +···+Xn )
= E e e−itµ n

!
t √
= ϕX1 +···+Xn √ e−itµ n
n
! !
t t √
= ϕX1 √ · · · ϕXn √ e−itµ n car X1 , . . . , Xn sont indépendants
n n
!n
t √
= ϕX1 √ e−itµ n car X1 , . . . , Xn ont même loi
n
5.3 Convergence en loi 107

Étant donné que X1 admet un moment d’ordre 2, ϕX1 est C 2 et

1   E[X12 ] 2  2  µ2 + σ 2 2  2 
ϕX1 (s) = 1+ϕ0X1 (0)s+ ϕ00X1 (0)s2 +o s2 = 1+iE[X1 ]s− s +o s = 1+iµs− s +o s
2 2 2
On en déduit, à t fixé et quand n tend vers l’infini :

!n  !n
t t µ2 + σ 2 2 1
ϕX1 √ = 1 + iµ √ − t +o
n n 2n n
 !!
t µ2 + σ 2 2 1
= exp n ln 1 + iµ √ − t +o
n 2n n
√ √
! !
2 2
µ +σ 2 1 2 2 σ2 2
= exp iµt n − t − (iµ) t + o(1) = exp iµt n − t + o(1)
2 2 2
en utilisant un développement limité à l’ordre 2 de x 7→ ln (1 + x) en 0. D’où :


! !
σ2 2 √
−itµ n σ2 2
lim ϕYn (t) = lim exp iµt n − t + o(1) e = exp − t
n→+∞ n→+∞ 2 2
On reconnaît la fonction caractéristique
√  d’une variable
 gaussienne Z centrée de variance σ 2 .
On en déduit que la suite n X n − µ , n ≥ 1 converge en loi vers Z.

Ce résultat montre le caractère universel de la loi gaussienne. Il se généralise dans le cas des
vecteurs aléatoires grâce à la notion de vecteur gaussien.

Théorème
  5.30 : Théorème central limite vectoriel
(n)
Soit X une suite de vecteurs aléatoires indépendants, de même loi et à valeurs dans
n∈N∗
d
R . On suppose que leurs coordonnées possèdent un moment d’ordre 2. On note µ le vecteur
moyenne de X (1) et Γ sa matrice de covariance.

Alors,

√ n
!
1X L
n X (i) − µ −−−−→ Z
n i=1 n→+∞

où Z est un vecteur aléatoire gaussien centré de matrice de covariance Γ.

Démonstration
Comme pour le théorème précédent, nous allons établir la convergence en√loi grâce à la conver-

gence ponctuelle des fonctions caractéristiques. Soit t ∈ Rd . Posons Yn = n n1 ni=1 X (i) − µ .
P

Alors

h i
ϕYn (t) = E eiht,Yn i
Or

√ 1X n √ n
! !
1X
ht, Yn i = ht, n X (i) − µ i = n ht, X (i) i − ht, µi
n i=1 n i=1
108 Convergences
 
Il découle des hypothèses que la suite Un = ht, X (n) i, n ≥ 1 est une suite de variables
aléatoires indépendantes, de même loi et ayant un moment d’ordre 2. De plus :

h i  
E [U1 ] = E ht, X (1) i = ht, µi et var (U1 ) = var ht, X (1) i = ht, Γti
√  P  
D’après le théorème précédent, la suite n n1 ni=1 Ui − ht, µi , n ≥ 1 converge en loi vers
une gaussienne centrée V de variance ht, Γti. On en déduit la convergence des fonctions
caractéristiques sur tout R et en particulier en 1 :

 √ Pn 
1
n( n Ui −ht,µi)
h i
ϕYn (t) = E eiht,Yn i = E ei i=1

ht,Γti
= ϕ√n( 1 Pn −→
U −ht,µi) (1) n→+∞ ϕV (1) = e− 2
n i=1 i

ht,Γti
Comme on reconnaît dans l’application t 7→ e− 2 la fonction caractéristique d’un vecteur
gaussien Z centré de matrice de covariance Γ, cela prouve que la suite (Yn , n ≥ 1) converge
en loi vers Z.

Exemple : Théorème central limite pour des variables exponentielles


Dans cet exemple, on s’intéresse à la convergence d’une moyenne empirique de variables
exponentielles, recentrée et agrandie, vers la loi gaussienne. Pour représenter cette convergence
en loi, on juxtapose les fonctions de répartition, en bleu celle de la moyenne empirique, en
gris celle de la loi gaussienne. On constate que les courbes se confondent rapidement.

Exemple : Théorème central limite pour des variables géométriques


Dans cet exemple, on s’intéresse à la convergence d’une moyenne empirique de variables
géométrique, recentrée et agrandie, vers la loi gaussienne. On constate que les courbes des
fonctions de répartition se rapprochent rapidement, même si l’une des deux lois est discrète
et l’autre continue.

Exemple : Théorème central limite pour des fréquences empiriques


Dans cet exemple, on s’intéresse à la convergence d’une moyenne empirique de variables de Ber-
noulli, recentrée et agrandie, vers la loi gaussienne. On constate que les courbes des fonctions de
répartition se rapprochent effectivement, mais plus lentement que dans les exemples précédents.
Dans la preuve de l’https ://fr.wikipedia.org/wiki/In%C3%A9galit%C3%A9_de_Berry-
Esseeninégalité de Berry-Essen, qui mesure l’écart entre ces deux courbes, c’est effectivement
le cas qui apparaît le plus défavorable.

Vous aimerez peut-être aussi