Vous êtes sur la page 1sur 64

Table des matières

1 Espace probabilisé, variables et vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 5


1.1 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Modéliser une expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Variables aléatoires réelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3 Espérance d’une variable aléatoire réelle discrète . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.4 Espérance d’une variable aléatoire réelle absolument continue . . . . . . . . . . . . 10
1.3 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Premières définitions et exemple fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2 Fonction de répartition d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Suites de variables aléatoires – Notions de convergence . . . . . . . . . . . . . . . . . . . . . 17


2.1 Résultats préliminaires importants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Le lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Quelques inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Convergence de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Convergence presque-sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Convergence Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.4 Lien entre les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.5 Opérations sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Appendice : Théorèmes fondamentaux en théorie de la mesure . . . . . . . . . . . . . . . . . 26
2.4.1 Loi du 0 − 1 de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.2 Échanges de limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Convergence en loi, fonctions caractéristiques, théorème central limite . . . . . . 29


3.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 La loi normale multivariée et quelques propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


4.1 Rappel des propriétés des matrices symétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Transformations des vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Loi normale multivariée et Vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3.1 La loi normale non-dégénérée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.2 La loi normale dégénérée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4 Table des matières

4.3.3 Propriétés des lois normales multivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43


4.4 Théorème central limite multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Lois dérivées de la loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.1 Loi du χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.2 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5.3 Loi de Student (W.Gosset) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.6 Théorème de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.7 Théorème de meilleure prévision (optionnel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.8 Théorème de corrélation normale (optionnel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5 Éléments de Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1 Modèle paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.1 Qualité des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.3 Estimateurs du maximum vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.4 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3 Théorie des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.1 Test d’hypothèses paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.2 Test du rapport de vraisemblance maximale . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.3 Tests dans le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1 Test d’adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.2 Test du χ2 d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1
Espace probabilisé, variables et vecteurs aléatoires

Un certain nombre de notions de ce chapitre sont des rappels du cours de L2, mais on introduit
aussi de nouveaux objets importants, comme par exemple la notion de tribu. Les concepts de tribu
et de mesure font partie intégrante de ce que l’on appelle la théorie de la mesure qui donne un
cadre très générale pour définir les intégrales.

1.1 Espace probabilisé


1.1.1 Modéliser une expérience aléatoire

Dans le langage des probabilités, le terme « modéliser » désigne l’opération consistant à associer
à une expérience aléatoire trois objets mathématiques, généralement notés Ω, F et P, appellés
respectivement univers, ensemble des événements et probabilité.
La première étape de la modélisation d’une expérience aléatoire E consiste à préciser l’ensemble
des résultats possibles (On utilise aussi les termes « épreuves », « réalisations » ou « issues »).
Définition 1.1.1 On appelle univers associé à une expérience aléatoire E l’ ensemble de tous les
résultats possibles de E. Traditionnellement, l’univers est noté Ω.
Exemple 1.1.2 Dans le cas du lancer d’une pièce de monnaie, les phrases « on a obtenu pile »
et « on a obtenu face » définissent deux événements associés à l’expérience aléatoire.
La deuxième étape de la modélisation d’une expérience aléatoire consiste à définir la notion
d’« événement » associée à l’expérience aléatoire. Donnons d’abord quelques définitions simples.

Définition 1.1.3 Soit Ω l’univers associé à une expérience aléatoire. On appelle événements
élémentaires les singletons {ω}, ω ∈ Ω. De plus, Ω est appelé événement certain et ∅ est appelé
ensemble vide ou événement impossible.
Les événements sont souvent formulés par des phrases littérales que l’on transcrit dans le
langage de la théorie des ensembles. Par exemple
Événement Écriture ensembliste
le contraire de A s’est réalisé Ac
A et B se sont réalisés A∩B
A ou B s’est réalisé A∪B
B s’est réalisé mais pas A B\A
L’expérimentateur doit alors préciser l’ensemble des événements qu’il peut considérer. Par
exemple, étant donné A, on souhaite pouvoir considérer que la non-réalisation de A soit encore
un événement lié à l’expérience, et faire de même pour les autres opérations du tableau ci-dessus.
Ceci amène à la définition suivante.
6 1 Espace probabilisé, variables et vecteurs aléatoires

Définition 1.1.4 On appelle tribu tout sous-ensemble F des parties P(Ω) de Ω vérifiant les
propriétés suivantes :
1. l’événement ∅ et l’événement Ω appartiennent à F ;
2. si A appartient à F , alors le complémentaire de A appartient aussi à F ;
soit I une partie de N (finie ou infinie). Si (Ai )i∈I est une suite d’événements de F , alors
3. !
i∈I Ai appartient à F .

Remarque 1.1.5 " Des propriétés 2 et 3, on peut en déduire que si (Ai )i∈I est une suite d’événe-
ments de F , alors i∈I Ai appartient à F .
Le probabiliste ne travaillera qu’avec des ensembles d’événements qui constituent une tribu.
Un événement associé à une expérience aléatoire E appartiendra donc toujours à une tribu.
Attention, une tribu est une famille d’ensembles. Un élément d’une tribu est donc par définition
un ensemble, qui sera désormais appelé événement.

Exemple 1.1.6 Les ensembles {∅, Ω} et {∅, A, Ac , Ω} vérifient les trois propriétés de la définition
1.1.4. De même pour l’ensemble des parties P(Ω) de Ω.
On souhaite désormais donner un poids à chaque événement dans le but de quantifier la fré-
quence de son apparition. On définit maintenant ce qu’est une mesure de probabilité.
Définition 1.1.7 Soit Ω un univers et F une tribu, i.e. un ensemble d’événement. Une probabilité
P sur (Ω, F ) est une application de F dans [0, 1] vérifiant les deux propriétés suivantes
1. P(∅) = 0 et P(Ω) = 1 ;
2. pour toute suite d’événements (Aj )j∈N de F deux à deux disjoints, on a
⎛ ⎞
% (n
P⎝ Aj ⎠ = lim P(Aj ),
n→+∞
j∈N j=1

c’est-à-dire que la probabilité d’un événement qui est la réunion disjointe d’événements est
égale à la somme des probabilités de ces événements.
Définition 1.1.8 Le triplet (Ω, F , P) est appelé espace de probabilité ou espace probabilisé.

1.2 Variables aléatoires réelles


Il arrive très souvent qu’à chaque résultat d’une expérience aléatoire E on associe un nombre réel,
par exemple le gain d’un joueur dans un jeu de hasard.
Soient (Ω, F , P) l’espace probabilisé associé à E. On définit ainsi une application X : Ω → R.
Étant donnés deux réels a et b, nous serons amenés à considérer l’ensemble des résultats ω de Ω
tels que X(ω) = a, ou tels que X(ω) ∈]a, b[. Nous voudrions alors parler de la probabilité de telle
ou telle situation. Or, dans un espace probabilisé, seuls les événements ont une probabilité. Nous
sommes donc amenés à restreindre le choix des applications de Ω dans R.
Définition 1.2.1 Soit (Ω, F , P) un espace probabilisé. On appelle variable aléatoire réelle (en
raccourci v.a.r.) toute application de Ω dans R ayant la propriété suivante : pour tout intervalle
I de R, l’ensemble X −1 (I) = {ω ∈ Ω, X(ω) ∈ I} est un événement de F .
On note X(Ω) l’ensemble des valeurs prises par la variable aléatoire X définie sur l’espace de
probabilité. Par convention, si x ∈ X(Ω), on note

{X = x} = {ω, X(ω) = x} et P(X = x) = P({ω, X(ω) = x}) ,


{X ≤ x} = {ω, X(ω) ≤ x} et P(X ≤ x) = P({ω, X(ω) ≤ x}).
1.2 Variables aléatoires réelles 7

Il existe deux grandes familles de variables aléatoires réelles : les variables aléatoires discrètes
et les variables aléatoires absolument continues. La différence entre ces deux types ne porte pas
seulement sur l’ensemble X(Ω) des valeurs atteintes par X, mais aussi sur les techniques d’étude
de ces deux types de variables aléatoires : calculs de sommes finies ou sommation de séries dans
le cas discret, calculs d’intégrales généralisées dans le cas absolument continues.
Introduisons un objet mathématique permettant de caractériser une variable aléatoire réelle,
à savoir la fonction de répartition.
Définition 1.2.2 Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, F , P).
On appelle fonction de répartition de X la fonction numérique réelle FX définie par
∀t ∈ R, FX (t) = P(X ! t).
La fonction de répartition FX d’une variable aléatoire réelle possède les propriétés suivantes :
1. FX est une fonction croissante de R dans [0, 1] ;
2. lim FX (t) = 0 et lim FX (t) = 1.
t→−∞ t→+∞
Nous allons dans la suite expliquer comment la fonction de répartition peut s’exprimer en
fonction de ce qu’on appellera la loi de X.

1.2.1 Loi d’une variable aléatoire

Si A est un sous-ensemble de X(Ω),


{X ∈ A} = {ω, X(ω) ∈ A} et P(X ∈ A) = P({ω, X(ω) ∈ A}) .

En général si A est un sous-ensemble quelconque de R, on définit {X ∈ A} comme l’ensemble


{X ∈ A ∩ X(Ω)}.
Définition 1.2.3 La loi de X est la probabilité PX sur X(Ω), donnée par :
∀A ⊂ X(Ω), PX (A) = P(X ∈ A) . (1.2.1)
Vérifier que PX définie par (1.3.3), définit bien une probabilité sur X(Ω).

Remarque. On rencontrera souvent des énoncés du type : « Soit X une variable aléatoire de loi
... ». Il faut comprendre ici que ce qui nous intéresse est la loi de X (les valeurs prises par X et
les probabilités associées), et pas du tout l’espace Ω sur lequel est définie X. Dans beaucoup de
situations, l’espace Ω ne sera même pas explicité.

1.2.2 Variables aléatoires réelles discrètes

Une variable aléatoire réelle X définie sur un espace probabilisé (Ω, F , P) est dite discrète si
l’ensemble de ses valeurs X(Ω), est au plus dénombrable, c’est-à-dire un ensemble ayant un nombre
fini d’éléments ou dénombrable ∗.
En pratique lorsque l’on demande de donner la loi d’une variable aléatoire discrète, on pourra se
contenter de donner sa distribution de probabilité, c’est-à-dire l’ensemble des probabilités P (X =
x), pour x ∈ X(Ω). En effet ces nombres déterminent complètement la probabilité PX . On rappelle
quelques lois discrètes classiques.
Exemple 1.2.4 (Loi uniforme) La loi uniforme sur un ensemble fini E, est la loi d’une variable
aléatoire X à valeurs dans E, qui prend chacune des valeurs de E avec la même probabilité
1/Card(E). Par exemple si E = {1, . . . , n}, X suit une loi uniforme sur E, si PX (k) = 1/n pour
tout k ∈ {1, . . . , n}. On note alors X ∼ U({1, . . . , n}), ou plus généralement X ∼ U(E).
∗. C’est-à-dire un ensemble dont le cardinal n’est pas fini, mais qui est en bijection avec l’ensemble N
des entiers naturels.
8 1 Espace probabilisé, variables et vecteurs aléatoires

Exemple 1.2.5 (Loi de Bernoulli) La loi de Bernoulli de paramètre p ∈ [0, 1] est la loi d’une
variable aléatoire à valeurs dans {0, 1}, qui prend la valeur 1 avec probabilité p (et donc la valeur
0 avec probabilité 1 − p). Si X suit cette loi, on note X ∼ B(p).
Exemple 1.2.6 (Loi binomiale) La loi binomiale de paramètres n ∈ N et p ∈ [0, 1] est la
loi d’une variable aléatoire à valeurs dans {0, 1, . . . , n}, qui prend la valeur k avec probabilité
n!
Cnk pk (1 − p)n−k (où l’on rappelle que Cnk = k!(n−k)! ). C’est la loi du nombre de gains lorsque
l’on joue n fois de suite à un jeu où la probabilité de gagner est p. Si X suit cette loi, on note
X ∼ B(n; p).
Exemple 1.2.7 (Loi géométrique) La loi géométrique de paramètre p ∈]0, 1], est la loi d’une
variable aléatoire à valeurs dans N∗ = {1, 2, . . .}, qui prend la valeur k avec probabilité p(1−p)k−1 .
C’est la loi du nombre de tentatives que l’on doit faire avant d’obtenir le premier gain, lorsque
l’on joue successivement à un jeu où la probabilité de gagner est p. Si X suit cette loi, on note
X ∼ G(p).
Exemple 1.2.8 (Loi de Poisson) La loi de Poisson de paramètre λ > 0 est la loi d’une variable
aléatoire à valeurs dans N, qui prend la valeur k avec probabilité e−λ λk /k!. Si X suit cette loi, on
note X ∼ P(λ). Cette loi est aussi appelée la loi des événements rares, car elle attribue une forte
probabilité aux petites valeurs de k et une faible probabilité aux grandes valeurs de k (le terme
λk /k! convergeant très vite vers 0 lorsque k grandit). C’est par exemple le type de loi qui peut
être utilisé pour modéliser le nombre d’enfants d’un couple choisi au hasard dans une population
donnée.

1.2.3 Espérance d’une variable aléatoire réelle discrète

Soit X une variable aléatoire discrète définie sur un espace probabilisé (Ω, F , P). L’ensemble
X(Ω) des valeurs de X étant au plus dénombrable, on peut numéroter ses éléments, i.e.
{x0 , x1 , . . . , xn , . . .}, en convenant de poser P(X = xi ) = 0 pour i assez grand dans le cas où
X(Ω) est un ensemble fini. Cela permettra de ne pas avoir à distinguer le cas où X(Ω) est fini du
cas où X(Ω) est infini dénombrable.
Définition 1.2.9 Soit X une variable aléatoire discrète ) définie sur un espace probabilisé (Ω, F , P),
à valeurs dans {x0 , x1 , . . . , xn , . . .}. Si la série +∞
n=0 |xn |P(X = xn ) est convergente, on dit que
X est d’espérance finie et définit l’ espérance de X par
+∞
(
E(X) = xn P(X = xn ).
n=0
)+∞
Plus généralement, si g : R → R est une fonction et que n=0 |g(xn )|P(X = xn ) est convergente,
on définit l’espérance de g(X) :
+∞
(
E[g(X)] = g(xn )P(X = xn ).
n=0

Si elle est bien définie au sens ci-dessus, on appelle variance de X la quantité

Var (X) = E[(X − E[X])2 ].


)
Remarque 1.2.10 1. On rappelle que si +∞ n=0 |xn)
|P(X = xn ) est convergente alors
)+∞ +∞
n=0 xn P(X = xn ) est convergente. Si la série n=0 |xn |P(X = xn ) )
est divergente, alors
+∞
on dit que X ne possède pas d’espérance (bien qu’il soit possible que n=0 xn P(X = xn )
soit convergente malgré tout).
2. Si X(Ω) est un ensemble fini, X possède toujours une espérance car la sommation ne
possède en fait qu’un nombre fini de termes non nuls.
1.2 Variables aléatoires réelles 9

3. L’espérance E(X) peut se voir comme la moyenne (au sens statistique du terme) des valeurs
xn affectées des poids P(X = xn ). C’est pour cette raison qu’on utilise parfois le terme
valeur moyenne de X pour désigner l’espérance d’une variable aléatoire X.
Proposition 1.2.11 Soit X une variable de loi géométrique de paramètre p ∈]0, 1].
1 1−p
E[X] = , Var (X) = .
p p2
Démonstration.
∞ ∞
* ∞
+
( ( d (
k−1 k
E[X] = kP (X = k) = p k(1 − p) = −p (1 − p)
dp
k=1 k=1 k=0
, -
d 1 p 1
= −p = 2 = .
dp p p p


( ∞
(
E[X 2 ] = k 2 P (X = k) = p k 2 (1 − p)k−1
k=1 k=1
(∞ ∞
(
=p k(k − 1)(1 − p)k−1 + p k(1 − p)k−1
k=1 k=1

(
= p(1 − p) k(k − 1)(1 − p)k−2 + E[X]
k=2
* ∞
+ , -
d2 ( d2 1 1
k
= p(1 − p) 2 (1 − p) + E[X] = p(1 − p) +
dp dp2 p p
k=0
, -
d 1 1 2p(1 − p) 1
= −p(1 − p) + = +
dp p2 p p3 p
2 1
= 2− .
p p
2 1 1 1−p
Ainsi, Var (X) = E[X 2 ] − E[X]2 = p2 − p − p2 = p2 . ,

Proposition 1.2.12 Soit X une variable de loi de Poisson de paramètre λ > 0. Alors
E[X] = λ , Var (X) = λ.
Démonstration.

( ∞
( ( λk∞
λk
E[X] = kP (X = k) = ke−λ = e−λ
k! (k − 1)!
k=0 k=0 k=1

( λk−1
= e−λ λ = e−λ λeλ = λ .
(k − 1)!
k=1


( ∞
( ( ∞
λk λk
E[X 2 ] = k 2 P (X = k) = k 2 e−λ = e−λ k
k! (k − 1)!
k=0 k=0 k=1

( ( λk−1 ∞
( λk−1 ∞
λk−1
= e−λ λ (k − 1) + e−λ λ = e−λ λ +λ
(k − 1)! (k − 1)! (k − 2)!
k=1 k=1 k=2

(
−λ 2 λk−2
=e λ + λ = λ2 + λ .
(k − 2)!
k=2

Et Var (X) = E[X ] − E[X]2 = λ2 + λ − λ2 = λ. ⊓


2
,
10 1 Espace probabilisé, variables et vecteurs aléatoires

1.2.4 Espérance d’une variable aléatoire réelle absolument continue

Définition 1.2.13 L’espérance d’une variable aléatoire réelle. Soit X une variable aléatoire abso-
lument continue
. +∞ à valeurs dans R de densité de probabilité f . On dit que X est d’espérance finie si
l’intégrale −∞ |x|f (x)dx est convergente. On appelle alors espérance de X, notée E(X), la valeur
. +∞
de l’intégrale −∞ xf (x) dx. De même que dans le cas discret, on note, si les quantités sont bien
définies :
/ +∞
E[g(X)] = g(x)f (x) dx
−∞
/+∞
Var (X) = (x − E[X])2 f (x) dx.
−∞

Exemple 1.2.14 Soit X une variable aléatoire de loi à densité


1
∀x ∈ R,
exp(−|x|). f (x) =
2
. +∞
La variable X est d’espérance finie (on vérifie que l’intégrale −∞ |x| exp(−|x|)dx est convergente),
et on a
/ +∞
x
E(X) = exp(−|x|)dx = 0 (car la fonction x -→ x2 exp(−|x|) est impaire).
−∞ 2

Exemple 1.2.15 La variable aléatoire continue X suit une une loi normale de paramètre (µ, σ 2 )
si X a comme densité
1
f (x) = √ exp(−(x − µ)2 /2σ 2 ). (1.2.2)
2πσ
On note X ∼ N (µ, σ 2 ). Si X ∼ N (0, 1) on parle d’une loi normale standard.

Densité d’une loi normale Densites des lois normales


0.4

0.4

68% µ = 0, σ2 = 1
27% µ = 0, σ2 = 4
4.7% µ = 4, σ2 = 2
µ = − 3, σ2 = 8
0.3

0.3
f ( x)

0.2
0.2
f(x)

0.1
0.1

0.0
0

µ − 3σ µ − 2σ µ−σ µ µ+σ µ + 2σ µ + 3σ −5 0 5

x x

Fig. 1.1. La loi normale (univariée).

L’espérance de X est égale à


/ +∞
E(X) = xf (x)dx = µ (car la fonction x -→ √1 exp(−(x − µ)2 /2σ 2 ) est impaire).
2πσ
−∞

La variance de X est égale à


1.3 Vecteurs aléatoires 11
/ +∞
1
Var (X) = (x − µ)2 √ exp(−(x − µ)2 /2σ 2 )dx.
−∞ 2πσ

Par substitution, t = (x − µ)/σ, on obtient que


/ +∞ / +∞
1 1 2 1
Var (X) = σ 2 √ t2 exp(− t2 )dt = σ 2 √ t2 exp(− t2 )dt.
2π −∞ 2 2π 0 2

Posons u = 21 t2 on obtient que


/ +∞ , -
2 2
√ 2 3
Var (X) = σ √ u exp(−u)du = σ 2 √ Γ = σ2 ,
π 0 π 2

où Γ (·) est la fonction de Gamma.

Remarque. En théorie des probabilités et en statistique, la loi normale modélise de nombreux


phénomènes naturels comme par exemple des perturbations, des erreurs, etc. Elle est en lien avec de
nombreux objets mathématiques dont le mouvement brownien, le bruit blanc gaussien ou d’autres
lois de probabilité. Elle est également appelée loi gaussienne, loi de Gauss ou loi de Laplace-
Gauss en hommage à Laplace (1749 − 1827) et Gauss (1777 − 1855), deux grands mathématiciens,
astronomes et physiciens qui l’ont étudiée. Parmi les lois de probabilité, elle prend une place
particulière grâce au théorème central limite. En effet, elle correspond au comportement, sous
certaines conditions, d’une suite d’expériences aléatoires similaires et indépendantes lorsque le
nombre d’expériences est très élevé. Grâce à cette propriété, la loi normale permet d’approcher
d’autres lois et ainsi de modéliser de nombreuses études scientifiques comme des mesures d’erreurs
ou des tests statistiques. (source : wikipedia).

Exemple 1.2.16 La variable aléatoire continue X suit une loi de Rayleigh de paramètre θ > 0 si
elle a pour densité , -
x x2
f (x) = 2 exp − 2 si x " 0, et 0 sinon.
θ 2θ
L’espérance de X est égale à
/ / 0 0
+∞ +∞
x2 x2 11
E(X) = xf (x)dx = exp − − dx.
−∞ 0 θ2 2θ2

On fait le changement de variable y = x/θ et on en déduit


√ / +∞ 2 , 2- √
2π y y 2π
E(X) = θ √ exp − dy = θ,
2 0 2π 2 2

puisque la variance d’une loi normale de paramètres 0 et 1 est égale à 1.

1.3 Vecteurs aléatoires


Les modèles probabilistes impliquent souvent plusieurs variables aléatoires, voire une infinité.
Dès que l’on fait des statistiques, il est également indispensable de considérer un nombre important
de variables aléatoires.
12 1 Espace probabilisé, variables et vecteurs aléatoires

1.3.1 Premières définitions et exemple fondamental

Définition 1.3.1 La loi d’un vecteur aléatoire réel X = (X1 , · · · , Xn ) est la probabilité PX sur
Rn , donnée par :

∀A1 , · · · , An ⊂ R, PX (A1 × · · · An ) = P(X1 ∈ A1 , · · · , Xn ∈ An ) . (1.3.3)

Définition 1.3.2 On dit que des variables aléatoires réelles X1 , . . . , Xn sont indépendantes si et
seulement si, pour toutes parties A1 , . . . , An de R, les événements {X1 ∈ A1 }, . . . , {Xn ∈ An }
sont des événements indépendants, i.e.

P(X1 ∈ AA , · · · , Xn ∈ An ) = P(X1 ∈ A1 ) · · · P(Xn ∈ An ).

Définition 1.3.3 Une suite de variables aléatoires réelles indépendantes et identiquement distri-
buées (en abrégé i.i.d.) est une suite (Xn )n∈N⋆ de variables aléatoires réelles telle que
1. ∀n ∈ N⋆ , n " 2, les variables X1 , . . . , Xn sont indépendantes ;
2. ∀n, p ∈ N⋆ , n ̸= p, les variables aléatoires Xn et Xp ont la même loi, c’est-à-dire que leurs
fonctions de répartition coïncident.

Nous allons donner maintenant deux exemples simples et très importants de couples de va-
riables qui montrent l’importance fondamentale de ce que l’on appelle la loi d’un couple de variables
aléatoires (où la loi d’un n-uplet si l’on devait considérer n variables aléatoires).

Modèle (A) — On considère deux pièces de monnaie modélisées par des variables X et Y .
Les symboles P et F dans le tableau désignent respectivement pile et face. Le tableau ci-dessous
donne les probabilités des quatre événements {(P, P )}, {(P, F )}, {(F, P )}, {(F, F )}.
Ces quatre probabilités constitue ce que l’on appelle la loi du couple (X, Y ) (On vérifie bien que
la somme de ces quatre nombres fait 1).
Y =P Y =F
X=P 1/5 2/5
X=F 2/5 0
Selon le tableau, on a :
P(X = P, Y = P ) = 1/5, P(X = P, Y = F ) = 2/5
P(X = F, Y = P ) = 2/5, P(X = F, Y = F ) = 0.
Ici on utilise une virgule pour écrire plus rapidement l’intersection de deux événements. Par
exemple, on écrit :
{X = P, Y = P } = {X = P } ∩ {Y = P }.
On peut alors calculer la loi de la variable X, i.e. les probabilités P(X = P ) et P(X = F ).
On peut écrire : {X = P } = {X = P, Y = P } ∪ {X = P, Y = F }. Puisque Y ne peut tomber
à la fois sur pile et face, on en déduit :

{X = P, Y = P } ∩ {X = P, Y = F } = ∅.

Donc :
P(X = P ) = P(X = P, Y = P ) + P(X = P, Y = F ) = 1/5 + 2/5 = 3/5.
Similairement, on a :

P(X = F ) = P(X = F, Y = P ) + P(X = F, Y = F ) = 2/5 + 0 = 2/5.

(On pourrait aussi utiliser le fait que P(X = P ) + P(X = F ) = 1).


De la même manière on calcule la loi de la variable Y :

P(Y = P ) = P(X = P, Y = P ) + P(X = F, Y = P ) = 1/5 + 2/5 = 3/5,


1.3 Vecteurs aléatoires 13

P(Y = F ) = P(X = P, Y = F ) + P(X = F, Y = F ) = 2/5 + 0 = 2/5.


Puisque P(Y = P ) = P(X = P ) et P(Y = F ) = P(X = F ), on note au passage que X et Y
ont la même loi.
Comme
P(X = F, Y = F ) = 0
P(X = F ) P(Y = F ) = 2/5 · 2/5 ̸= 0,

on en déduit que les variables X et Y ne sont pas indépendantes.


En conclusion, le couple (X, Y ) est un couple de variables aléatoires identiquement distribuées,
mais qui ne sont pas indépendantes.

Remarque 1.3.4 Ce modèle pourrait décrire deux pièces de monnaie biaisées (en l’occurrence
déséquilibrées vers pile) qui seraient liées par un mécanisme les empêchant de tomber simultanément
sur face (on pourrait imaginer très naïvement un fil ou un aimant).

Modèle (B) — On considère maintenant deux autres pièces de monnaie modélisées cette
fois-ci par des variables X ′ et Y ′ . La loi du couple (X ′ , Y ′ ) est donnée par le tableau suivant :
Y′ = P Y′ =F
X ′ = P 9/25 6/25
X ′ = F 6/25 4/25
Comme précédemment, on calcule la loi de la variable X ′ :

P(X ′ = P ) = 9/25 + 6/25 = 3/5,

P(X ′ = F ) = 6/25 + 4/25 = 2/5,


et la loi de Y ′ :
P(Y ′ = P ) = 9/25 + 6/25 = 3/5,
P(Y ′ = F ) = 6/25 + 4/25 = 2/5.
On remarque que la loi de la variable X du modèle (A) est identique à celle de la variable X ′ du
modèle (B). De même, les variables Y et Y ′ ont même loi.
Cependant, les modèles (A) et (B) sont radicalement différents. En effet, dans le modèle (B),
on peut vérifier que les variables X ′ et Y ′ sont indépendantes :

P(X ′ = P, Y ′ = P ) = 9/25 = 3/5 · 3/5 = P(X ′ = P ) P(Y ′ = P )


P(X ′ = P, Y ′ = F ) = 6/25 = 3/5 · 2/5 = P(X ′ = P ) P(Y ′ = F )
P(X ′ = F, Y ′ = P ) = 6/25 = 2/5 · 3/5 = P(X ′ = F ) P(Y ′ = P )
P(X ′ = F, Y ′ = F ) = 4/25 = 2/5 · 2/5 = P(X ′ = F ) P(Y ′ = F ).

En conclusion, le couple (X ′ , Y ′ ) est un couple de variables aléatoires indépendantes et iden-


tiquement distribuées.

Remarque 1.3.5 Ce modèle pourrait décrire deux pièces de monnaie biaisées (toujours déséqui-
librées vers pile) qui ne seraient liées d’aucune manière.

En conclusion, si l’on connaît la loi du couple (X, Y ) alors on connait la loi de X et celle de
Y , que l’on appelle les lois marginales de (X, Y ). Si l’on connaît seulement la loi de X d’une part
et celle de Y d’autre part, on ne connait pas la loi du couple (X, Y ), c’est-à-dire la manière dont
X et Y « interagissent » entre elles. Les deux modèles précédents ont illustré des lois de couple
différentes, mais possédant pourtant les mêmes marginales.
On a les mêmes définitions pour un n-uplet de variables aléatoires (X1 , · · · , Xn ).
14 1 Espace probabilisé, variables et vecteurs aléatoires

Nous avons illustré la loi d’un couple de v.a. discrètes à travers les exemples précédents. On
remplace la donnée P(X = x, Y = y) concernant des v.a. discrètes par ce qu’on appelle la densité
jointe f (x, y) de X et Y si les v.a. sont à densité, i.e. pour des intervalles I et J de R par exemple,
/ /
P(X ∈ I, Y ∈ J) = f (x, y)dxdy.
I J

L’indépendance s’exprime également facilement lorsque les variables ont des densités.
Proposition 1.3.6 Soient X1 et X2 deux v.a. avec une densité jointe f (x1 , x2 ). Les variables X1
et X2 sont indépendantes si et seulement si

f (x1 , x2 ) = f1 (x1 )f2 (x2 ),

où f1 et f2 sont les densités de probabilité de X1 et X2 .

1.3.2 Fonction de répartition d’un vecteur aléatoire

Soit X = (X1 , . . . , Xp )T un vecteur aléatoire, où les Xi sont des variables aléatoires réelles.
Définition 1.3.7 La fonction de répartition de vecteur X est

F (x) = P (X1 ! x1 , . . . , Xp ! xp ), x = (x1 , . . . , xp )T ∈ Rp .

Proposition 1.3.8 La fonction de répartition d’un vecteur aléatoire caractérise sa loi.


Si F (x) possède des dérivées partielles par rapport au xi , la densité de X (ou la densité jointe
de (X1 , . . . , Xp )) existe et est égale à la dérivée mixte

∂ p F (x)
f (x) = f (x1 , . . . , xp ) = ,
∂x1 . . . ∂xp
et on a / x1 / xp
F (x) = ··· f (t1 , . . . , tp )dt1 . . . dtp .
−∞ −∞

La densité marginale de X1 , . . . , Xk , k < p, est


/ ∞ / ∞
f (x1 , . . . , xk ) = ··· f (tk+1 , . . . , tp )dtk+1 . . . dtp .
−∞ −∞

Ici, on adopte le symbole f (·) comme notation générique pour les densités.
La densité conditionnelle de X1 , . . . , Xk sachant Xk+1 , . . . , Xp est donnée par

f (x1 , . . . , xp )
f (x1 , . . . , xk |xk+1 , . . . , xp ) = .
f (xk+1 , . . . , xp )

Définition 1.3.9 L’espérance du vecteur aléatoire X est le vecteur µ = (µ1 , . . . , µk ) défini par
/ /
µi = E[Xi ] = · · · ti f (t1 , . . . , tp )dt1 . . . dtp , i = 1, . . . , p,

et on écrit µ = E[X].
Comme dans le cas réel, l’espérance est une fonctionnelle linéaire : pour toute matrice A ∈ Rq×p
et b ∈ Rq , on a
E[AX + b] = AE[X] + b = Aµ + b.
Définition 1.3.10 La matrice de covariance Σ = (σij ) du vecteur X est donnée par

Σ = V (X) = E[(X − µ)(X − µ)T ], σij = Cov(Xi , Xj ).


1.3 Vecteurs aléatoires 15

Remarque. Cette matrice p × p est symétrique et positive †


Définition 1.3.11 La matrice de covariance des vecteurs aléatoires X (p × 1) et Y (q × 1) :

C(X, Y ) = E[(X − E[X])(Y − E[Y ])T ] ∈ Rp×q .

Proposition 1.3.12 La matrice de covariance possède les propriétés suivantes :


1. Σ = E[XX T ] − µµT , où µ = E[X] ;
2. Pour tout a ∈ Rp , on a que V (aT X) = aT V (X)a ;
3. ∀v, v T Σv ≥ 0 et on note Σ ≥ 0 ;
4. Soit A une matrice p × q et b ∈ Rq . Alors, V (AX + b) = AV (X)AT ;
5. C(X, X) = V (X) ;
6. C(X, Y ) = C(Y, X)T ;
7. C(X1 + X2 , Y ) = C(X1 , Y ) + C(X2 , Y ) ;
8. Si X et Y sont deux vecteurs de même dimension, alors

V (X + Y ) = V (X) + C(X, Y ) + C(X, Y )T + V (Y ).

9. Si X et Y sont indépendantes, alors C(X, Y ) = 0.


Démonstration.
1. Exercice.
2. Notons que par linéarité de l’espérance,

V (aT X) = E[(aT X − E[aT X])2 ] = E[(aT (X − E[X]))2 ] = E[aT (X − µ)(X − µ)T a]


= aT E[(X − µ)(X − µ)T a] = aT V (X)a.

3. Comme V (aT X) " 0, la matrice V (X) = Σ est semi-définie positive.


4. Soit Y = AX + b, par linéarité de l’espérance on obtient

ν = E[Y ] = E[AX + b] = Aµ + b et Y − E[Y ] = A(X − µ).

Donc, encore une fois par linéarité,

V (Y ) = E[A(X − µ)(X − µ)T A] = AV (X)AT .

5-9. Laissé en exercice. ⊓


,
Exemple 1.3.13 La loi Np (0, I) est la loi du vecteur aléatoire X = (X1 , . . . , Xp )T , où les Xi sont
des variables aléatoires i.i.d. de loi N (0, 1). La loi de Np (0, I) est absolument continue de densité
1
f (x) = (2π)−p/2 exp(− xT x)
2
2p 2p
1
= (2π)−p/2 exp(− x2i ) = f0 (xi ),
i=1
2 i=1

où x = (x1 , . . . , xn )T et f0 est la densité de N (0, 1). Le vecteur aléatoire X suit une loi normale
sur Rp si et seulement s’il existe une matrice p × p A et un vecteur µ ∈ Rp tels que

X = AY + µ, où Y ∼ Np (0, I).

On note X ∼ Np (µ, Σ), avec Σ = AAT .

†. Une matrice p × p A est positive (resp. définie positive) si pour tout vecteur a ∈ Rp \ {0}, aT Aa " 0
(resp. aT Aa > 0).
16 1 Espace probabilisé, variables et vecteurs aléatoires

0.15 8

6
f(x, y)

0.10

f(x, y)
4

0.05
2

0
−4 −4
4 4
−2 −2
2 2
0 0
y 0 y 0
x x
2 2
−2 −2

4 −4 4 −4

. .

! Fig. 1.2."La loi normale multivariée : à gauche µ = 0 et Σ = I ; à droite µ = 0 et


1 −2/3
Σ= .
−2/3 1
2
Suites de variables aléatoires – Notions de convergence

On présente dans un premier temps quelques outils importants pour l’étude des suites de
variables aléatoires, comme le lemme de Borel-Cantelli et diverses inégalités. Ensuite on étudie
différentes notions de convergence qui ont toutes en commun le fait d’être des convergences mé-
triques, point sur lequel nous reviendrons.

2.1 Résultats préliminaires importants


2.1.1 Le lemme de Borel-Cantelli

Soit (Ω, F , P) un espace probabilisé et (An )n≥0 une suite d’événements. On note
3 %
lim sup An := An
n→∞
k≥0 n≥k
% 3
lim inf An := An .
n→∞
k≥0 n≥k

Ces événements peuvent se réécrire :

lim sup An = {ω ∈ Ω : ∀n " 1 ∃k " n ω ∈ Ak }


n→∞
= {ω ∈ Ω : ω ∈ An pour une infinité de n}
lim inf An = {ω ∈ Ω : ∃n " 1 ∀k " n ω ∈ Ak }
n→∞
= {ω ∈ Ω : ω ∈ An pour tout n à partir d’un certain rang}.

Ainsi :
lim inf An ⊂ lim sup An .
n→∞ n→∞

Lemme 2.1.1 (Lemme de Borel-Cantelli) On a les deux assertations suivantes :


a)

(
P(An ) < +∞ =⇒ P(lim sup An ) = 0 ;
n→∞
n=0

b) Si les An sont indépendants, alors :



(
P(An ) = +∞ =⇒ P(lim sup An ) = 1.
n→∞
n=0
18 2 Suites de variables aléatoires – Notions de convergence
! )∞
Démonstration. a) On définit Bn := ∞ k=n Ak , n " 1. On a que P(Bn ) ! k=n P(Ak ). Alors
P(Bn ) → 0 lorsque n → ∞. Comme la suite (Bn )n!1 est décroissante on conclut
*∞ +
3
P(lim sup An ) = P Bn = lim P(Bn ) = 0.
n→∞ n→∞
n=1

b) L’inégalité 1 − x ! e−x (x " 0) donne pour x = P(Ak ) :


* m + m
( 2
1 − exp − P(Ak ) ! 1 − (1 − P(Ak )) ! 1 (1 ! n ! m).
k=n k=n

Passant à la limite m → ∞ on obtient


m
2
lim (1 − P(Ak )) = 0.
m→∞
k=n

Utilisant l’indépendance des An on peut calculer :


, - *∞ +
%
1 − P lim sup An = 1 − lim P Ak
n→∞ n→∞
k=n
* ∞
+
3
= lim P Ack
n→∞
k=n
* * ∞
++
3
= lim lim P Ack
n→∞ m→∞
k=n
* m
+
2
= lim lim (1 − P(Ak ))
n→∞ m→∞
k=n
= 0,

ce qui permet de conclure. ⊓


,

Remarque 2.1.2 (Loi de 0 − 1 de Borel-Cantelli) Si (An )n≥1 est une suite des variables
aléatoires indépendantes alors , -
P lim sup An ∈ {0, 1}.
n→∞

Exemple 2.1.3 (Paradoxe du singe savant) Un chimpanzé tape ha-


sard sur le clavier d’une machine à écrire. Avec suffisamment de temps
le singe pourrait presque sûrement reproduire une copie (même une in-
finité des copies) de l’œuvre de Victor Hugo. Pour plus de détails :
http: // fr. wikipedia. org/ wiki/ Paradoxe_ du_ singe_ savant . ∗

2.1.2 Quelques inégalités

On rappelle l’inégalité de Markov.

Proposition 2.1.4 (Inégalité de Markov) Soit X une variable aléatoire positive telle que E[X]
est définie. Alors, pour tout c > 0,
E[X]
P(X " c) ! .
c
∗. L’image, dû à l’utilisateur KaterBegemot sur de.wikipedia.de, est sous les droits de Creative Com-
mons Attribution-Share Alike 3.0.
2.1 Résultats préliminaires importants 19

Démonstration. On pose A = {X " c} et on note que

c1A (ω) ! X(ω).

On prend l’espérance de chaque terme

E[c1A ] = cP(A) ! E[X],

et le résultat en découle. ,

Exercice 2.1.5 Montrer la version suivante de l’inégalité de Markov. Soit h(·) une fonction po-
sitive croissante et E[h(X)] < ∞. Alors pour tout a > 0 tel que h(a) > 0,

E[h(X)]
P(X " a) ! .
h(a)

Corollaire 2.1.6 (Inégalité de Chebyshev) Soit X une v.a. de moyenne µ et de variance σ 2 .


Alors pour tout ε > 0,
σ2
P(|X − µ| " ε) ! 2 .
ε
Démonstration.

P(|X − µ| " ε) = P((X − µ)2 " ε2 )


E[(X − µ)2 ]
! par l’inégalité de Markov appliquée à Y = (X − µ)2 ,
ε2
Var (X)
= car E[X] = µ .⊓,
ε2
Remarque 2.1.7 Si on applique l’ínégalité de Chebyshev avec ε = 2σ, on voit que
1
P(|X − µ| " 2σ) ! .
4
Cette borne n’est pas toujours très bonne, puisque si X ∼ N (0, 1), on peut voir sur les tables de
la loi normale que P(|X| " 2) ≈ 4, 5%. Le principal avantage (et le principal défaut) de l’inégalité
de Chebyshev est qu’elle ne dépend de la loi de X que par l’espérance et la variance de X.

Proposition 2.1.8 (Inégalité de Hölder) Soit r > 1, 1/r+1/s = 1. Soit X et Y deux variables
aléatoires telles que E[|X|r ] < ∞ et E[|Y |s ] < ∞. Alors, E[|XY |] < ∞ et
1/r 1/s
E[|XY |] ! (E[|X|r ]) (E[|Y |s ]) .

Démonstration. Si X = 0 p.s. ou Y = 0 p.s., l’inégalité est triviale. On suppose donc que E[|X|r ] ̸=
0 et E[|Y |s ] ̸= 0. On note d’abord que pour tout a, b > 0, par concavité † de la fonction log t,

(1/r) log a + (1/s) log b ! log(a/r + b/s),

ce qui est équivalent à


a1/r b1/s ! a/r + b/s.
On peut donc poser a = |X|r /E[|X|r ] et a = |Y |s /E[|Y |s ]. On obtient
1/r 1/s
|XY | ! (E[|X|r ]) (E[|Y |s ]) (|X|r /rE[|X|r ] + |Y |s /sE[|Y |s ]) .

On conclut en prenant l’espérance. ⊓


,

†. http://fr.wikipedia.org/wiki/Fonction_concave
20 2 Suites de variables aléatoires – Notions de convergence

Corollaire 2.1.9 (Inclusion des espaces Lp ) Soit 0 < s < t et X une variable aléatoire telle
que E[|X|t ] < ∞. Alors E[|X|s ] < ∞ et
1/s 4 51/t
(E[|X|s ]) ! E[|X|t ] .

Remarque 2.1.10 L’inégalité précédente implique la chaîne des inégalités entre les moments ab-
solus : 4 51/2 4 51/k
E[|X|] ! E[|X|2 ] ! . . . ! E[|X|k ] .

Un cas particulier de l’inégalité de Hölder pour r = s = 2 est l’inégalité de Cauchy-Schwarz.

Corollaire 2.1.11 (Inégalité de Cauchy-Schwarz) Soit X et Y deux variables aléatoires telles


que E[X 2 ] < ∞ et E[Y 2 ] < ∞. Alors E[|XY |] < ∞ et

E[|XY |]2 ! E[X 2 ]E[Y 2 ].

Proposition 2.1.12 (Inégalité de Jensen) Soit g(·) une fonction convexe ‡ et X une variable
aléatoire telle que E[|X|] < ∞. Alors

g(E[X]) ! E[g(X)].

Démonstration. Par convexité de g, il existe une fonction g6 telle que pour tout x, x0 ∈ R

g(x) " g(x0 ) + (x − x0 )6


g (x0 ).

On pose x0 = E[X] et on obtient

g(X) " g(E[X]) + (X − E[X])6


g (E[X]).

On conclut en prenant l’espérance. ⊓


,

Exercice 2.1.13 Montrer l’existence de la fonction g6 dans la démonstration de la proposition


2.1.12. Quel choix de g6 est naturel si g est dérivable ?

2.2 Convergence de variables aléatoires


On considère maintenant une suite de variables aléatoires réelles (Xn )n≥1 définies sur (Ω, F , P).

2.2.1 Convergence presque-sûre

Définition 2.2.1 On dit qu’une suite (Xn )n!1 converge presque sûrement vers X si
7 8
P {ω : lim Xn (ω) = X(ω)} = 1.
n→∞

On note alors
p.s.
Xn −−−−→ X.
n→∞

Exercice 2.2.2 Vérifier que {ω : limn→∞ Xn (ω) = X(ω)} ∈ F.

Exercice 2.2.3 Montrer que la limite d’une suite presque sûrement convergente est presque sûre
p.s. p.s.
unique, càd. si Xn −−−−→ X et Xn −−−−→ Y , alors P(X = Y ) = 1.
n→∞ n→∞

‡. http://fr.wikipedia.org/wiki/Fonction_convexe
2.2 Convergence de variables aléatoires 21

Proposition 2.2.4 Soit (Xn )n!1 une suite de variables aléatoires. Alors
p.s.
Xn −−−−→ X ⇐⇒ ∀ε > 0, lim P(sup |Xk − X| " ε) = 0.
n→∞ n→∞ k!n

Démonstration. “⇒” : Soient ε > 0, An := {supk!n |Xk − X| > ε}, C := {limn→∞ Xn = X} et


Bn := C ∩ An . Comme Bn ⊃ Bn+1 , n " 1, ∩∞n=1 Bn = ∅ et P(C) = 1 on trouve

0 = lim P(Bn ) = lim P(An ).


n→∞ n→∞

“⇐” : Soient An et C comme ci-dessus et Dε := {lim supn→∞ |Xn − X| > ε}. Car Dε ⊂ An , n " 1,
et P(An ) → 0 on a que P(Dε ) = 0. De plus,
∞ 9
% :
c 1
C = lim sup |Xn − X| >
n→∞ k
k=1

et alors

(
0 ! P(C c ) ! P(D1/k ) = 0. ⊓
,
k=1

Un corollaire du Lemme de Borel-Cantelli est le critère très utile suivant :


Corollaire 2.2.5 Soient (Xn )n!1 une suite de v.a. et X une variable aléatoire. Alors

( p.s.
∀ε > 0, P(|Xn − X| > ε) < ∞ =⇒ Xn −−−−→ X.
n→∞
n=1

2.2.2 Convergence en probabilité

Définition 2.2.6 On dit que (Xn )n!1 converge vers X en probabilité si pour tout ε > 0,

P(|Xn − X| ≥ ε) −−−−→ 0.
n→∞

On note alors
P
Xn −−−−→ X.
n→∞

Exercice 2.2.7 Démontrer que


p.s. P
Xn −−−−→ X =⇒ Xn −−−−→ X.
n→∞ n→∞

Indication : Se rappeler de la proposition 2.2.4.

Proposition 2.2.8 (Critère des sous-suites) Les deux assertions suivantes sont équivalentes :
a)
P
Xn −−−−→ X.
n→∞

b) Chaque sous-suite (Xnk )k!1 de (Xn )n!1 contient une sous-suite (Xn′k )k!1 telle que
p.s.
Xn′k −−−−→ X.
k→∞
22 2 Suites de variables aléatoires – Notions de convergence

Démonstration. a) ⇒ b) : Soit (Xnk )k!1 une sous-suite de (Xn )n!1 . Alors il existe une sous-suite
(Xn′k )k!1 telle que
0 1
P |Xn′k − X| > k −1 ! k −2 , k " 1.
Soit ε > 0. On choisit k suffisamment grand que k −1 < ε. Donc,

(
P(sup |Xn′k − X| > ε) ! P(Xn′k − X| > ε)
k!n
r=k
(∞
! P(Xn′k − X| > r−1 )
r=k

(
! r−2
r=k
→ 0 (k → ∞).
p.s.
Proposition 2.2.4 implique donc que Xn′k −−−−→ X.
k→∞
b) ⇒ a) : Soient ε > 0, an := P(|Xn − X| > ε) et (ank )k!1 une sous-suite de (an )n . D’après
p.s.
l’hypothèse, il existe une autre sous-suite (an′k )k!1 telle que Xn′k −−−−→ X. L’exercice ?? implique
k→∞
donc que an′k → 0 lorsque k → ∞ et alors limn→∞ an = 0. ⊓
,
Exercice 2.2.9 Montrer l’unicité de la limite pour la convergence en probabilité.

2.2.3 Convergence Lp
Définition 2.2.10 On dit que (Xn )n≥1 converge vers X dans Lp si
E [|Xn − X|p ] −−−−→ 0.
n→∞

On note alors
Lp
Xn −−−−→ X.
n→∞

Remarque 2.2.11 Soit Lp (Ω) l’espace des variables aléatoires X telles que E|X|p < ∞, et on
définit la norme ∥X∥p = (E|X|p )1/p . Cet espace muni de cette norme est un espace de Banach § ,
i.e. un espace vectoriel normé complet. D’après la proposition 2.1.9, on a Lp (Ω) ⊆ Lq (Ω) pour
p " q.
Proposition 2.2.12
Lp P
Xn −−−−→ X =⇒ Xn −−−−→ X.
n→∞ n→∞

Démonstration. L’assertion est une conséquence de l’inégalité de Markov :


E[|Xn − X|p ]
P((Xn − X| > ε) ! , ε > 0.
εp

2.2.4 Lien entre les convergences


On peut résumer les résultats obtenus dans les sections précédentes par le diagramme suivant :
CV Lp

CV L1

CV p.s. =⇒ CV proba

Des exemples et des contre-exemples seront étudiés dans le Devoir 1.


§. http://fr.wikipedia.org/wiki/Espace_de_Banach
2.3 Lois des grands nombres 23

2.2.5 Opérations sur les convergences

On peut montrer facilement la proposition suivante :


P P
Proposition 2.2.13 Soit Xn −−−−→ X (resp. p.s.) et Yn −−−−→ Y (resp. p.s.). Alors :
n→∞ n→∞
P
1. Xn + Yn −−−−→ X + Y (resp. p.s.)
n→∞
P
2. Xn Yn −−−−→ XY (resp. p.s.)
n→∞

Attention, concernant la convergence dans Lp , le premier point reste vrai, mais pour le second
il faut que le produit soit bien défini et donc il faut que Xn ∈ Lp et Yn ∈ Lq avec 1/p + 1/q = 1.
Lp
Alors Xn Yn ∈ L1 par l’inégalité de Holder et la convergence a lieu dans L1 si Xn −−−−→ X et
n→∞
Lq
Yn −−−−→ Y .
n→∞

2.3 Lois des grands nombres


Soit (Xn )n!1 une suite de variables aléatoires indépendantes de même loi. On pose
n
1(
Xn = Xi .
n
k=1

Que peut-on dire de la convergence de X n ? La quantité X n est la moyenne empirique des Xi et


on s’attend à ce qu’elle soit proche de la vraie moyenne E[X1 ] quand n est grand.

2.3.1 Loi faible des grands nombres

Théorème 2.3.1 Soit (Xn )n!1 des v.a. indépendantes et de même loi, de moyenne µ et de va-
riance σ 2 . Alors X n converge en probabilité vers µ.

Démonstration. On applique l’inégalité de Chebyshev à la variable Y = X n . La linéarité de


2
l’espérance implique que E(X n ) = µ et comme les Xi sont indépendantes on a Var (X n ) = σn .
Ainsi,
Var (X n ) σ 2 n→∞
P(|X n − µ| " ε) ! 2
= 2 −−−−→ 0 . ⊓
,
ε nε
Exercice 2.3.2 Vérifier que l’assertion de la) proposition 2.3.1 reste vraie si les Xn ne sont pas
n
corrélées par paires, E[Xn ] = µ, ∀n " 1, et n1 i=1 Var (Xi ).

Une application de la loi faible de grands nombre est une démonstration constructive du théo-
rème de Weierstrass : les polynômes sont dense dans l’espace C([0, 1]) des fonctions continues sur
l’intervalle [0, 1].

Théorème 2.3.3 (Théorème de Weierstrass) Soit f ∈ C([0, 1]). Alors les polynômes de
Bernstein n , -, -
( k n k
Bn (x) = f x (1 − x)n−k
n k
k=1

convergent uniformément vers f lorsque n → ∞. Si f (x) > 0, alors Bn (x) " 0.


24 2 Suites de variables aléatoires – Notions de convergence

)n Soient x ∈ [0, 1] et (Xn )n!1 une suite de variables aléatoires i.i.d. de loi B(x). La
Démonstration.
loi de Sn = k=1 Xk est une loi B(n, x), donc
; , -<
Sn
Bn (x) = E f .
n

On pose ||f || = max0"x"1 |f (x)| et on obtient


= ; < =
= Sn =
|Bn (x) − f (x)| = ==E f ( ) − f (x)==
n;= = < ;= = <
= Sn = = Sn =
! 2||f || · P == − x== " δ + sup |f (x) − f (y)| · P == − x== < δ
n n
;= = < |x−y|"δ
= Sn =
! 2||f || · P == − x== " δ + sup |f (x) − f (y)|.
n |x−y|"δ

La deuxième expression de la dernière ligne est appelée le module de continuité de f . Il converge


vers 0 lorsque δ → 0. L’inégalité de Chebyshev et la démonstration du théorème 2.3.1 nous
permettent de borner la première expression par
Var (Xi )
2||f || → 0 (n → ∞),
nδ 2
car Var (Xi ) = x(1 − x) ! 1/4. ⊓
,
1.0
0.8
0.6
0.4
0.2

0 100 200 300 400 500

Fig. 2.1. Le graphe montre une trajectoire n %−→ X̄n (ω), où X̄n = 1
Xi et (Xn )n!1 est une suite de
#
n
v.a. i.i.d. de loi B(0, 5).

2.3.2 Loi forte des grands nombres

Théorème 2.3.4 Soit (Xn )n!1 une suite de v.a. dans L1 , i.e. E[|Xn |] < ∞, indépendantes par
paires et de même loi. Alors X n converge presque sûrement vers E[X1 ].

Démonstration. Sans perte de généralité on suppose que Xn " 0 p.s. ; i.e. P(X " 0) = 1. Le cas
général suivra en décomposant Xn = Xn+ + Xn− . On définit
2.3 Lois des grands nombres 25

0.0 0.2 0.4 0.6 0.8 1.0

Fig. 2.2. Les polynômes de Bernstein pour n ∈ {5, 10, 30} convergeant vers une fonction dont le graphe
est en noir.

n
1(
Yn = Xn 1{−n"Xn "n} et Tn = Yi .
n i=1

(i) : On va d’abord montrer qu’il est suffisant de prouver que Tn − E[Tn ] → 0 p.s. En utilisant le
théorème de convergence dominée, on obtient que E[Yn ] → E[X1 ] = µ. D’où E[Tn ] → µ. De plus,
( ( (
P(Yn ̸= Xn ) ! P(Xn " n) = P(X1 " n)
n!1 n!1 n!1
((
= P(X1 ∈ [k, k + 1[)
n!1 k!n
(( k
= P(X1 ∈ [k, k + 1[)
k!1 n=1
(
= kP(X1 ∈ [k, k + 1[) ! E[X1 ] < ∞.
k!1

Le lemme de Borel-Cantelli implique alors que

P(Xn ̸= Yn pour un nombre infini de n) = 0,

et donc Tn − X̄n → 0 presque sûrement. Donc si on sait que Tn − E[Tn ] → 0 p.s. alors E[X̄n ] → µ.

(ii) : Soient α > 1 et kn = [αn ] ¶ . On note que kn a une croissance exponentielle. Dans la suite on
note C une constante qui peut changer d’une ligne à une autre. La densité de X1 est notée f ; le
cas discret est laissé en exercice. On se donne ε > 0. On obtient les inégalités suivantes :

( (∞
Var (Tkn )
P(|Tkn − E[Tkn ]| > ε) ! (Chebyshev)
n=1 n=1
ε2

( kn
1 (
= Var (Ym ) (indépendance par paires)
n=1
ε2 kn2 m=1

¶. [r] désigne la partie entière d’un réel r.


26 2 Suites de variables aléatoires – Notions de convergence

1 ( ( 1
= Var (Ym ) (Fubini)
ε2 m=1 kn2
n:kn !m
⎛ ⎞

1 ( c ( 1
! 2 Var (Ym ) 2 ⎝ ! cm ⎠
−2
ε m=1 m kn2
n:kn !m
(∞
1
! C 2
E[Ym2 ] (Var (Ym ) ! E[Ym2 ])
m=1
m
(∞ m−1 /
1 ( ℓ+1 2
! C x f (x)dx
m2
m=1 ℓ=0 ℓ
(∞ ( ∞ / ℓ+1
1
= C x2 f (x)dx
m2 ℓ
ℓ=0 m=ℓ+1
(∞ ( ∞ /
ℓ + 1 ℓ+1
! C xf (x)dx
m2 ℓ
ℓ=0 m=ℓ+1 * ∞ +
(∞ / ℓ+1 ( 1 C
! C xf (x)dx !
ℓ m2 ℓ+1
ℓ=0 m=ℓ+1
! C E[X1 ].

Grâce au corollaire de Borel-Cantelli 2.2.5, on obtient :


p.s.
Tkn −−−−→ E[Tkn ].
n→∞
)n
(iii) : Comme Xn " 0 p.s. on a que la suite Un := i=1 Yn = nTn est monotone croissante. Donc,
pour n ∈ [km , km+1 ],

km Ukm Ukm Un Ukm+1 km+1 Ukm+1


= ! ! =
km+1 km km+1 n km km km+1

et alors
1
E[X1 ] ! lim inf Tn ! lim sup Tn ! αE[X1 ].
α n→∞ n→∞

On conclut en prenant la limite quand α → 1. ⊓


,

2.4 Appendice : Théorèmes fondamentaux en théorie de la mesure


Les résultats de cette section ne sont pas exigibles pour ce cours, mais sont des outils indis-
pensables en analyse et en probabilités.

2.4.1 Loi du 0 − 1 de Kolmogorov

Soit (Ω, F , P) un espace probabilisé. On considère une >famille de sous-tribus {Fi }i∈I de F .
Pour!chaque sous-ensemble non-vide J ⊂ I on écrit FJ := j∈J Fj pour la sous-tribu engendrée
par j∈J Fj . Si J = ∅ on définit F∅ := {∅, Ω}. La tribu de queue T de {Fi }i∈I est définie par
3
T := FJ c , où J c = I \ J.
J⊂I
|J|<∞

Théorème 2.4.1 (Loi du 0 − 1 de Kolmogorov) Soit {Fi }i∈I une famille de sous-tribus in-
dépendantes. Alors la tribu de queue est triviale, càd. P(A) ∈ {0, 1} pour tout A ∈ T .
2.4 Appendice : Théorèmes fondamentaux en théorie de la mesure 27

Idée de démonstration. (i) : Les tribus FJ et FJ ′ sont indépendantes si J, J ′ ⊂ I sont disjoints.


(ii) : Pour tout J ⊂ I la tribu FJ est indépendante de FJ c .
(iii) : T est indépendante de FI .
(iv) : T est une sous-tribu de FI . Donc T est indépendante de T , càd. pour tout A ∈ T on a
P(A ∩ A) = P(A)P(A) ce que implique P(A) ∈ {0, 1}. ⊓ ,
Exemple 2.4.2 L’événement A∞ := lim supn→∞ An est contenu dans la tribu de queue de
Fn := {∅, An , Acn , Ω}. La loi du 0 − 1 de Kolmogorov assure que P(A∞ ) ∈ {0, 1} si les An sont
indépendants.
Exemple 2.4.3 Soit (Xn )n!1 une suite de v.a. indépendantes et soit
? ∞
@
(
A := ω ∈ Ω : Xn converge .
n=1
)∞ )∞
La série n=1 Xn converge si et seulement si Yn := k=n Xk converge. Donc A ∈ σ(Xn , Xn+1 , . . .).
Autrement dit : A ∈ T , où T est la tribu de queue de (Fn )n!1 := (σ(Xn ))n!1 . Finalement,
P(A) ∈ {0, 1}.

2.4.2 Échanges de limites


p.s.
On note Xn ↗ X p.s. si Xn ! Xn+1 p.s. pour tout n " 1 et Xn −−−−→ X.
n→∞

Théorème 2.4.4 (Théorème de convergence monotone) Soit (Xn )n!1 une suite de v.a. po-
sitives telle que Xn ↗ X p.s. Alors E[Xn ] ↗ E[X].

! Soit Xn = 1An où An est une suite croissante d’événements. Alors, E[Xn ] =


Idée de démonstration.
P(An ). Posons A := n!1 An et X := 1A on a que Xn ↗ X p.s. Finalement,

,
lim P(An ) = E[ lim An ] = P(A).⊓
n→∞ n→∞

Théorème 2.4.5 (Lemme de Fatou) Let (Xn )n!1 une suite des v.a. non-negatives. Alors

E[lim inf Xn ] ! lim inf E[Xn ].


n→∞ n→∞

Démonstration. On pose X := lim inf n→∞ Xn = limn→∞ (inf k!n Xk ) et Yn = inf k!n Xk . Comme
Yn ! Yn+1 on peut appliquer le théorème de convergence monotone : E[Yn ] → E[X]. De plus, on
a que Yn ! Xn p.s. et donc E[Yn ] ! E[Xn ]. Finalement,

,
E[X] = E[ lim Yn ] = lim E[Yn ] = lim inf E[Yn ] ! lim inf E[Xn ].⊓
n→∞ n→∞ n→∞ n→∞

Exercice 2.4.6 Formuler une version du lemme de Fatou en utilisant lim sup au lieu de lim inf.
Théorème 2.4.7 (Théorème de convergence dominée) Soit (Xn )n!1 une suite de v.a. telle
que Xn → X p.s. et |Xn | < Y p.s. pour une v.a. Y telle que E[Y ] < ∞. Alors

lim E[Xn ] = E[X].


n→∞

Démonstration. On sait que E[X] < ∞ car X = lim inf n→∞ Xn = lim supn→∞ Xn . Le Lemme de
Fatou (appliqué deux fois) nous permet de conclure

,
E[X] = E[lim inf Xn ] ! lim inf E[Xn ] ! lim sup E[Xn ] ! E[lim sup Xn ] = E[X].⊓
n→∞ n→∞ n→∞ n→∞

Exercice 2.4.8 Donner une suite (Xn )n!1 qui converge p.s. vers une v.a. X et qui est telle que
E[Xn ] ̸→ E[X].
3
Convergence en loi, fonctions caractéristiques, théorème
central limite

On étudie dans cette section la convergence des lois de suites de v.a. Les outils développés
permettrons d’énoncer un des théorèmes les plus importants de la théorie : le théorème central
limite.

3.1 Convergence en loi


Définition 3.1.1 On dit qu’une suite (Xn )n!1 de variables aléatoires converge vers une variable
aléatoire X en loi si
P(Xn ! t) → P(X ! t) lorsque n → ∞
en chaque point de continuité de la fonction de répartition F (t) = P(X ! t). On note alors
L
Xn −−−−→ X.
n→∞

On notera C(F ) pour les points de continuité d’une fonction de répartition F . Comme F est mono-
tone croissante (et continue à droite) l’ensemble des points de discontinuité C(F )c est dénombrable.
L L
Remarque 3.1.2 La limite en loi est unique, càd. Xn −−−−→ X et Xn −−−−→ Y implique que X
n→∞ n→∞
et Y ont la même loi. Soient F et G les fonctions de répartitions de X et Y . Alors, on a que

F (t) = G(t) ∀t ∈ C(F ) ∩ C(G).

Car F et G sont continue à droite et (C(F ) ∩ C(G))c est dénombrable, on trouve que F (t) = G(t)
pour tout t ∈ R.

Proposition 3.1.3
P L
Xn −−−−→ X =⇒ Xn −−−−→ X.
n→∞ n→∞

Si X est p.s. une constante alors la réciproque est aussi vraie.


P
Démonstration. Suppose que Xn −−−−→ X. On note d’abord que
n→∞

{X ! t − ε} ⊂ {Xn ! t} ∪ {|Xn − X| " ε}, t ∈ R, ε > 0,

alors
F (t − ε) ! Fn (t) + P(|Xn − X| " ε) d’où F (t − ε) ! lim inf Fn (t).
n→∞

De la même façon on obtient que

lim sup Fn (t) ! F (t + ε).


n→∞
30 3 Convergence en loi, fonctions caractéristiques, théorème central limite

En prenant la limite quand ε → 0 on conclut

lim Fn (t) = F (t), ∀t ∈ C(F ).


n→∞

On suppose que X = a p.s. Alors, pour ε > 0,

P(|Xn − X| " ε) = P(|Xn − a| " ε)


= P(Xn ! a − ε) + P(Xn " a + ε)
! Fn (a − ε) + 1 − Fn (a + ε/2)
→ 0 (n → ∞).⊓ ,

Exercice 3.1.4 Donner une suite (Xn )n!1 qui converge en loi mais pas en probabilité.

Théorème 3.1.5 (Théorème de Skorohod) Soient X, X1 , X2 , . . . des v.a. sur (Ω, F , P) telles
L 6 F6, P)
6 telles que
que Xn −−−−→ X. Alors, ils existent des v.a. Y, Y1 , Y2 , . . . sur un espace (Ω,
n→∞

!
P−p.s.
P6Y = PX , P6Yn = PXn , n " 1, et Yn −−−−→ Y.
n→∞

Démonstration. On pose (Ω, 6 F, 6 = (]0, 1[, B 1 ∩]0, 1[, PU ), où PU est la loi uniforme sur ]0, 1[. De
6 P)
plus on définit Yn (ω) := Fn (ω), n " 1, Y (ω) := F −1 (ω), où F, F1 , F2 , . . . sont les fonctions de
−1

répartition de X, X1 , X2 , . . .. On vérifie que P6Y = PX et P6Yn = PXn , n " 1. Notons que

F (x) " ω ⇐⇒ x " F −1 (ω).

On obtient alors que


Y (ω) ! lim inf Yn (ω), 6
ω∈Ω
n→∞

et
lim sup Yn (ω) ! Y (ω ′ ), ω, ω ′ ∈ Ω, ω < ω ′ .
n→∞

Finalement,
lim Yn (ω) = Y (ω), ∀ω ∈ C(F −1 ).
n→∞

L’assertion suit maintenant car F −1 est monotone et donc C(F −1 )c est dénombrable. ⊓
,

Proposition 3.1.6 Soient g(·) une fonction continue, (Xn )n!1 une suite de v.a. et X une variable
aléatoire. Alors
p.s. p.s.
(i) Xn −−−−→ X =⇒ g(Xn ) −−−−→ g(X),
n→∞ n→∞
P P
(ii) Xn −−−−→ X =⇒ g(Xn ) −−−−→ g(X),
n→∞ n→∞
L L
(iii) Xn −−−−→ X =⇒ g(Xn ) −−−−→ g(X).
n→∞ n→∞

Démonstration. Le point (i) est évident.


Démontrons (ii). Soit (nk )k!1 une sous-suite de N. Par le critère des sous-suites, proposition
2.2.8, il existe une sous-suite (kn′ ) de (kn ) telle que Xn′k converge p.s. Par (i) on a donc que
p.s. P
g(Xn′k ) −−−−→ g(X). La proposition 2.2.8 implique maintenant que g(Xn ) −−−−→ g(X).
k→∞ n→∞
6 F6, P)
Pour (iii) on utilise le théorème de Skohorod. Soient (Ω, 6 et Yn , Y donnés par théo-
6 6 Ω
rème 3.1.5. D’après ce dernier théorème, il existe un ensemble Ω0 ∈ F6 tel que P( 60 ) = 1 et
6 c
limn→∞ Yn (ω) = Y (ω), ω ∈ Ω0 . On note Dc := C(g) pour l’ensemble des points de discontinuité.
Car P6Y (Dg ) = PX (Dg ) = 0 on a que

6 Ω
P( 61 ) = 1 où Ω
61 := Ω
60 ∩ Y −1 (C(g)) ∈ F6.
3.1 Convergence en loi 31

Pour tout ω ∈ Ω 61 on a que limn→∞ g(Yn (ω)) = g(Y (ω)) et alors que g(Yn ) → g(Y ) P-p.s.
6
L’exercice 2.2.7 et la proposition 3.1.3 impliquent que
L
g(Yn ) −−−−→ g(Y ),
n→∞

ce qui est équivalent à


L
g(Xn ) −−−−→ g(X).⊓
,
n→∞
Remarque 3.1.7 Attention, la convergence en probabilité et la convergence presque sûre sont
compatibles avec les opérations algébriques élémentaires (addition, multiplication, comme nous
l’avons vu dans le chapitre précédent), mais il n’en est pas ainsi de la convergence en loi. Nous
verrons des exemples et contre-exemples en exercices.
On note Cb (R) l’espace vectoriel des fonctions bornées et continues.
Proposition 3.1.8 Une suite (Xn )n!1 de variables aléatoires converge vers X en loi si et seule-
ment si pour toute fonction f ∈ Cb (R),
E [f (Xn )] −−−−→ E [f (X)] .
n→∞

Démonstration. On suppose que E [f (Xn )] → E [f (X)] lorsque n → ∞ pour tout f ∈ Cb (R). On


note Fn et F les fonctions de répartitions de Xn et de X. Soit t un point de continuité de F et
δ > 0. Soit g une fonction continue telle que 1]−∞,t] ! g ! 1]−∞,t+δ] . Alors
lim sup Fn (t) = lim sup E[1]−∞,t (Xn )]
n→∞
! lim sup E[g(Xn )]
n→∞
= E[g(X)]
! E[1]−∞,t+δ (X)]
= F (t + δ).
De la même façon, avec une fonction g telle que 1]−∞,t−δ] ! g ! 1]−∞,t] , on obtient
lim inf Fn (t) " F (t − δ).
n→∞

Comme F est continue en t, on conclut en prenant la limite quand δ → 0 :


F (t) = lim F (t − δ) ! lim inf Fn (t) ! lim sup Fn (t) ! lim F (t + δ) ! F (t).
δ→0 n→∞ n→∞ δ→0

Maintenant, soit f ∈ Cb (R). On pose K := supx∈R |f (x)|, Yn := f (Xn ), n " 1, et Y := f (X).


La fonction de répartition de Yn et Y sont notées Gn et G. D’après la proposition 3.1.6(iii), on a
L
Yn −−−−→ Y et donc Gn → G sur C(G). On admet le résultat suivant : soit X ∈ L1 une v.a. avec
n→∞
fonction de répartition F alors
/ ∞ / 0
E[X] = (1 − F (x))dx − F (x)dx.
0 −∞

En utilisant le théorème de convergence monotone on obtient donc :


/ K / 0
E[Yn ] = (1 − Gn (x))dx − Gn (x)dx
/0 K / 0−K
−−−−→ (1 − G(x))dx − G(x)dx
n→∞ 0 −K
= ,
E[Y ].⊓
Remarque 3.1.9 Pour vérifier la convergence en loi, il suffit que
E [f (Xn )] −−−−→ E [f (X)] ,
n→∞

pour un ensemble de fonctions dense dans Cb (R). Cet ensemble pourrait être l’espace des polynômes
ou l’espace Cb∞ (R) des fonctions bornées et lisses.
32 3 Convergence en loi, fonctions caractéristiques, théorème central limite

3.2 Fonctions caractéristiques


Les fonctions caractéristiques jouent un rôle important dans la théorie analytique des probabi-
lités. En particulier, une fonction caractéristique d’une variable aléatoire réelle détermine de façon
unique sa loi de probabilité. Si cette variable aléatoire a une densité alors la fonction caractéris-
tique est la transformée de Fourier de la densité. En outre, les fonctions caractéristiques vont nous
permettre de démontrer le théorème central limite.

Définition 3.2.1 La fonction caractéristique d’une variable aléatoire réelle X est la fonction φX :
R → C définie par
φX (t) := E[eitX ] = E[cos(tX)] + iE[sin(tX)].

Remarque 3.2.2 Dans le cadre des fonctions caractéristiques, il est très utile de regarder des
variables aléatoires à valeurs dans C. Soient U, V deux v.a. réelles dans un espace (Ω, F , P),
alors Z := U + iV est une v.a. complexe dans Ω, F , P). Dans ce cas C est muni avec la tribu
B(C) = {{u + iv : (u, v) ∈ B} : B ∈ B 2 }. On définit E[Z] := E[U ] + iE[V ], si E[U ] et E[U ] existent.
Les règles de calcul pour l’espérance restent valables pour les v.a. complexes. De plus, on a :

|E[Z]| ! E[|Z|].

Pour voir ceci on considère la représentation en coordonnées polaires : E[Z] = reiθ avec r = |E[Z]|
et θ = arg(E[Z]). Comme Re(e−iθ Z) ! |Z|, il vient

|E[Z]| = r = E[e−iθ Z] = E[Re(e−iθ Z)] ! E[|Z|].

Exemple 3.2.3
a) Si X ∼ B(n, p), alors φX (t) = (1 − p + peit )n .
b) Si X ∼ P(λ), alors φX (t) = exp(λ(eit − 1)).
c) Si X ∼ N (0, 1), alors φX (t) = exp(−t2 /2).
Les points a) et b) sont laissés en exercice. Pour voir c) on pose f (x) = (2π)−1/2 exp(−x2 /2), x ∈
R. Car f (x) = f (−x) et f ′ (x) = −xf (x) on a que
/ ∞
φX (t) = cos(tx)f (x)dx.
−∞

Par le théorème de convergence monotone et une intégration par parties on obtient que
/ ∞ / ∞
φ′X (t) = sin(tx) · (−xf (x))dx = −t cos(tx)f (x)dx = −tφX (t).
−∞ −∞

L’unique solution de cet équation différentielle avec condition initiale φX (0) = 1 est donnée par
φX (t) = exp(−t2 /2).

Lemme 3.1 (Propriétés des fonctions caractéristiques). Soit φX la fonction caractéristique


d’une v.a. X. Alors :
a) φX (0) = 1, |φX (t)| ! 1, t ∈ R,
b) φX est uniformément continue,
c) φX (−t) = φX (t), t ∈ R,
itb
d) φaX+b (t) = e φX (at), q, b, t ∈ R,
e) Si E[|X|k ] < ∞ pour un entier k " 1, alors φX est k fois continuellement dérivable et on a
que
(r) dr
φX (t) := r φX (t) = E[(iX)r eitX ], r = 1, . . . , k; t ∈ R.
dt
En particulier,
3.2 Fonctions caractéristiques 33
(r)
φX (0) = ir E[X r ], r = 1, . . . , k.
De plus, on a le développement de Taylor
k
( (it)r (it)k
φX (t) = E[X] + εk (t),
r=0
r! k!

où |εk (t)| ! 3E[|X|3 ] et limt→0 εk (t) = 0.


(2k)
f ) Si φX (0) existe et est fini on a que E[X 2k ] < ∞.
|t|n E[|X|n ]
g) Pour tout t ≥ 0 tel que limn→∞ n! = 0 on a que

( (it)r
φX (t) = E[X r ].
r=0
r!

Démonstration. Dans la suite, on écrit φ = φX .


a) Découle de la définition.
b) On a que

|φ(t + h) − φ(t)| = |E[ei(t+h)X − eitX ]| = |E[eitX (eihX−1) ]| ! E[|eihX−1 |].

Le théorème de convergence dominée nous assure que limh→0 E[|eihX−1 |] = 0 et l’affirmation est
démontrée.
c) φ(−t) = E[cos(−tX)] + iE[sin(−tX)] = E[cos(tX)] − iE[sin(tX)] = φX (t).
d) φaX+b = E[eit(aX+b) ] = eitb E[eiaX ] = eitb φ(at).
e) Car |X|r ! 1 + |X|k |, (r = 1, . . . , k) (ou Corollaire 2.1.9), on a E[|X|r ] < ∞. Pour h ̸= 0 on
trouve ; , ihX -<
1 itX e −1
(φ(t + h) − φ(t)) = E e .
h h
On observe que = ihx =
=e − 1= ihx
= = ! |x| et lim e − 1 = ix.
= h = h→0 h
Alors le théorème de convergence dominée nous assure l’existence de la dérivée φ′ de φ et nous
donne la représentation
φ′ (t) = E[iXeitX ], t ∈ R.
La formule pour φ(r) se démontre maintenant par récurrence sur r, 1 ! r ! k. Pour démontrer le
développement de Taylor on utilise que
k−1
( (iy)r (iy)r
eiy = cos(y) + i sin(y) = + (cos(θ1 y) + i sin(θ2 y))
r=0
r! k!

où |θ1 |, |θ2 | ! 1. Donc,


k−1
( k
(it)r (it)k 4 5 ( (it)r (it)k
φ(t) = E[eitX ] = E[X r ] + E[X k ] + εk (t) = E[X r ] + εk (t),
r=0
r! k! r=0
r! k!

où εk (t) = E[X k (cos(θ1 tx) + sin(θ2 tx) − 1)]. Comme | cos(θ1 tx) + sin(θ2 tx) − 1| ! 3, il vient
|εk (t)| ! 3E[|X k |], et le théorème de convergence dominée implique que limt→0 εk (t) = 0.
f ) On omet la démonstration ici et on renvoie à Shiryayev, Probability, Springer Verlag, 1984,
page 280.
g) Découle de e). ⊓ ,
34 3 Convergence en loi, fonctions caractéristiques, théorème central limite

Théorème 3.2.4 Soient X1 , X2 , . . . , Xn des v.a. indépendantes, alors


n
2
φX1 +···+Xn (t) = φXi (t), t ∈ R.
i=1

Démonstration. Il suffit de démontrer le théorème pour n = 2 ; le cas général suit par induction.
On pose, X = X1 et Y = X2 . Par décomposition en partie réelle et partie imaginaire on démontre
que si Z et W sont deux v.a. complexes, intégrables et indépendantes alors E[ZW ] = E[Z]E[W ].
Donc,
φX+Y (t) = E[eit(X+Y ) ] = E[eitX eitY ] = E[eitX ]E[eitY ] = φX (t)φY (t).⊓
,
La dénomination fonction caractéristique suggère que la connaissance de φX suffit pour décrire la
loi de X.
Théorème 3.2.5 (Formule d’inversion) Soit X une v.a. avec fonction de répartition F et
fonction caractéristique φ. On suppose que a, b (a < b) sont des points de continuité de F . Alors,
/ T −ita
e − e−itb
F (b) − F (a) = lim φ(t)dt.
T →∞ −T it
Démonstration. On pose
/ T / T
1 e−ita − e−itb 1 e−ita − e−itb
I(T ) := φ(t)dt = E[eitX ]dt.
2π −T it 2π −T it
Comme = −ita = ==/ =
=e − e −itb = b =
= = = == e −itξ =
dξ = ! b − a,
= it = = =
a

le théorème de Fubini nous donne


A / B
T
1 eX−ita − eX−itb
I(T ) = E dt .
2π −T it

On pose
/ T
sin(x)
S(T ) := dx, T " 0.
0 x
On rappelle ici l’intégrale de Dirichlet :
/ ∞
sin(x) π
dx = . (3.2.1)
0 x 2
On a / T
sin(tθ)
dt = sgn(θ)S(T |θ|), , T " 0, θ ∈ R,
0 t
et donc par symétrie
; / ∞ <
1 sin(t(X − a)) − sin(t(X − b))
I(T ) = E dt = E[g(X, T ],
π 0 t

1
g(x, T ) := (sgn(x − a)S(T |x − a|) − sgn(x − b)S(T |x − b|)) .
π
La fonction g(x, T ) est bornée et on obtient avec (3.2.1) que

⎨ 0 si x < a ou x > b
ψa,b (x) := lim g(x, T ) = 1/2 si x = a ou x = b
T →∞ ⎩
1 si a < x < b.
3.2 Fonctions caractéristiques 35

Le théorème de convergence dominée nous donne


1 1
lim I(T ) = E[ψa,b (X)] = P(X = a) + P(X ∈]a, b[) + P(X = b).
T →∞ 2 2
Comme a et b sont des points de continuité de F on a donc

lim I(T ) = F (b) − F (a).⊓


,
T →∞

Théorème 3.2.6 (Théorème d’unicité) Soient X et Y deux v.a., alors

PX = PY ⇐⇒ φX (t) = φY (t) ∀t ∈ R.

Démonstration. L’implication “=⇒” est triviale. Pour démontrer “⇐=”, on note F et G les fonc-
tions de répartition de X et Y . Soit D les points de continuité (joints) de F et G. Par théorème
3.2.5 on a que F (x) = G(x) ∀x ∈ D. Comme D est dense dans R et les fonctions de répartitions
sont continues à droites on a donc que F = G. ⊓ ,

Définition 3.2.7 Soit X un vecteur aléatoire à valeurs dans Rp . Sa fonction caractéristique φX :


Rp → C est donnée par

φX (u) = E[exp(iuT X)], u ∈ Rp .

Théorème 3.2.8 La fonction caractéristique d’un vecteur aléatoire caractérise sa loi.

On ne donnera pas la démonstration générale de ce résultat mais retenons que cela provient des
propriétés de la transformée de Fourier.
Le résultat suivant fait le lien entre la loi des vecteurs et les lois des variables aléatoires
unidimensionnelles : la loi d’un vecteur est entièrement déterminée par toutes les projections
unidimensionnelles.
Théorème 3.2.9 Soient X et Y deux vecteurs aléatoires à valeurs dans Rp . Alors

PX = PY ⇐⇒ PaT X = PaT Y ∀a ∈ Rp .

Démonstration. La direction non triviale découle du théorème 3.2.8 :


T T
φX (a) = E[eia X
] = φaT X (1) = φaT Y (1) = E[eia Y
] = φY (a) a ∈ Rp .⊓
,

Exemple 3.2.10 On montre que deux vecteurs aléatoires X et Y à valeurs dans Rp et Rq sont
indépendants si et seulement si la fonction caractéristique φZ (u) du vecteur Z = (X, Y )T peut être
représentée pour tout u = (a, b)T , a ∈ Rp , b ∈ Rq , comme

φZ (u) = φX (a)φY (b).

Vérifier cette caractérisation dans le cas continu.

Théorème 3.2.11 (Théorème de continuité de Lévy-Cramér) Soit (Xn )n!1 une suite de
v.a. réelles de fonctions de répartition Fn et de fonctions caractéristiques φn . Alors, les deux
assertions suivantes sont équivalentes :
a) Il existe une fonction de répartition F telle que Fn → F lorsque n → ∞.
b) La limite φ(t) := limn→∞ φ(t) existe pour tout t ∈ R et φ : R → C est continue en 0.
Si a) et b) sont vérifiés, φ est la fonction caractéristique de F .

Démonstration. L’implication “a) ⇒ b)” découle de proposition 3.1.8 avec h(x) = cos(tx) et
h(x) = sin(tx) (pour t fixé). L’autre direction nécessite la notion de la tension de mesure ; on
renvoie à Shiryayev, Probability, Springer Verlag, 1984, page 322. ⊓,
36 3 Convergence en loi, fonctions caractéristiques, théorème central limite

3.3 Théorème central limite

Soit (Xn )n!1 une suite de v.a. i.i.d. intégrables de moyenne µ. La loi forte des grands nombres
assure que
)n
i=1 Xi p.s.
− µ −−−−−→ 0.
n n→+∞

Le
√ théorème central limite dit que si on dilate cette différence (tendant vers 0) par le facteur
n, on obtient asymptotiquement (i.e. quand n tend vers +∞) une distribution bien précise, qui
est une loi normale, et ce quelque soit la loi des Xi ! Ainsi, ce théorème offre une explication de
l’omniprésence de la loi normale dans la nature : de nombreux phénomènes sont dus à l’addition
d’un grand nombre de petites perturbations aléatoires.

Théorème 3.3.1 (Théorème central limite) Soit (Xn )n!1 une suite de v.a. indépendantes et
de même loi telle que E[X12 ] < ∞. On pose µ := E[X1 ] et σ 2 := Var (X1 ). Alors,
√ , )n -
n i=1 Xi L
− µ −−−−−→ N (0, 1).
σ n n→+∞

Démonstration. On suppose (sans perte de généralité)) que µ = 0 et σ 2 = 1. Soit φ(t) (resp.


φn (t)) la fonction caractéristique de X1 (resp. de n−1/2 ni=1 Xi ). Alors, par théorème 3.2.4 et le
développement de Taylor (lemme 3.1) on obtient
, , --n , , --
t t2 t2 t
φn (t) = φ √ = 1− − ε √ ,
n 2n 2n n

où limu→0 ε(u) = 0. On démontre (par récurrence) que


= =
= k k = k
=2 2 = (
= w − z = ! |wj − zj |, wj , zj ∈ C, |wj | ! 1, |zj | ! 1.
= j j=
=j=1 j=1 = j=1

Donc, on trouve pour n suffisamment grand que


= , -n = = , -=
= 2 = 2 = =
=φn (t) − 1 − t = ! n t =ε √t = .
= 2n = 2n = n =

Comme le dernier terme tend vers 0 lorsque t → ∞, on a


, 2-
−t
lim φn (t) = exp , t ∈ R.
n→∞ 2

La démonstration se termine avec une application du théorème 3.2.11 et du point c) de l’exemple


3.2.3. ⊓
,

Remarque 3.3.2 Le théorème central limite admet plusieurs généralisations qui donnent la
convergence de sommes de variables aléatoires sous des hypothèses beaucoup plus faibles. Ces gé-
néralisations ne nécessitent pas des lois identiques mais font appel à des conditions qui assurent
qu’aucune des variables n’exerce une influence significativement plus importante que les autres.
Telles sont la condition de Lindeberg et la condition de Lyapunov. D’autres généralisations auto-
risent même une dépendance “faible” entre les variables aléatoires.
3.3 Théorème central limite 37

0.20
0.15
0.10
0.05
0.00

Fig. 3.1. Approximation de la loi B(20, 0.5) (en bleu) par une loi normale (en rouge).
0.30

0.12
0.20

0.08
0.10

0.04
0.00

0.00

Fig. 3.2. Approximation d’une loi de Poisson (en bleu) par une loi gaussienne (en rouge) : à gauche
P(5/2), à droite P(10).
4
La loi normale multivariée et quelques propriétés

Nous allons définir une classe de vecteurs aléatoires remarquables, les vecteurs gaussiens, dont
la loi est une généralisation de la loi normale unidimensionnelle.

4.1 Rappel des propriétés des matrices symétriques


Une matrice A = (aij )1"i,j"p est symétrique si aij = aji pour tout 1 ! i, j ! p.
Une matrice O ∈ Rp×p , est dite orthogonale si OOT = OT O = Id (i.e. O−1 = OT ), où Id est
la matrice identité dans Rp×p . En particulier, on a que Det(O) = 1.
Exercice 4.1.1 Vérifier que les matrices suivantes sont orthogonales :
⎛ ⎞
, - , - , - 001
10 1 0 cos(θ) − sin(θ)
, , et ⎝ 0 1 0 ⎠ .
01 0 −1 sin(θ) cos(θ)
100
Affecter les “noms” suivants aux matrices : identité, rotation, permutation et réflexion.
Soit A ∈ Rp×p une matrice. Une valeur λ ∈ C est une valeur propre de A s’il existe un
vecteur v ̸= 0 tel que
Av = λv.
Un tel vecteur est appelé vecteur propre associé à la valeur propre λ. Une matrice symétrique
A ∈ Rp×p est dite définie positive (on note A > 0) si elle vérifie l’une des deux propriétés
équivalentes suivantes :
• pour tout vecteur non nul x ∈ Rp on a que xT Ax > 0,
• toutes les valeurs propres de A sont strictement positives.
Théorème 4.1.2 (Décomposition spectrale de Jordan) Soit A ∈ Rp×p une matrice symé-
trique. Alors il existe une matrice orthogonale O et une matrice diagonale
⎛ ⎞
λ1 0 . . . 0
⎜ ⎟
⎜ 0 ... ... 0 ⎟

Γ = Diag(λi ) = ⎜ . ⎟

⎝ .. . . . . . . 0 ⎠
0 · · · 0 λp
telles que
p
(
T
A = OΛO = λi o·i oT·i , (4.1.1)
i=1
où o·i sont les vecteurs propres orthonormés de A :
oT·i o·i = δij 1 ! i, j ! p, et O = (o·1 , . . . , o·p ).
(Ici, δij est la fonction de Kronecker.)
40 4 La loi normale multivariée et quelques propriétés

Proposition 4.1.3 (Propriétés utiles des matrices carrées) Soient A, B ∈ Rp×p .


H )
1) Det(A) = pi=1 λi , Tr(A) = pi=1 λi
2) Det(AB) = Det(A)Det(B), Det(A) = Det(AT )
3) An = OΛn OT pour tout n ∈ N.
4) Det(A−1 ) = Det(A)−1 pour toute matrice telle que Det(A) ̸= 0.
5) Pour tout s ∈ R et toute matrice A = AT > 0, on a que Det(As ) = Det(A)s .

Une matrice symétrique P s’appelle une matrice de projection (ou projecteur) si et seule-
ment si P 2 = P . Toutes les valeurs propres de P sont 0 ou 1 et le rang de P est le nombre de
valeurs propres égal à 1. Autrement dit, il existe une matrice orthogonale O telle que
, -
Id 0
OT P O = ,
0 0

où Id est une matrice identité, Rang(P ) × Rang(P ).

Exercice 4.1.4 Démontrer les assertions précédentes.

Exercice 4.1.5 Quelles matrices de l’Exemple 4.1.1 sont des matrices de projections ?

4.2 Transformations des vecteurs aléatoires

Soit h = (h1 , . . . , hp )T une transformation, ou autrement dit une fonction de Rp vers Rp :

h(t1 , . . . , tp ) = (h1 (t1 , . . . , tp ), . . . , hp (t1 , . . . , tp ))T , t = (t1 , . . . , tp )T ∈ Rp .

On suppose dans la suite que les dérivées partielles de hi (·), i = 1, . . . , p, existe. Le Jacobien de
la transformation h est défini par
, -
∂hi
Jh (t) = Det (t) .
∂tj i,j

On rappelle le résultat suivant.


Proposition 4.2.1 (Changement de variable) On suppose que
∂hi
1. les dérivées partielles ∂tj (t) sont continues sur Rp , i = 1, . . . , p,
2. la fonction h(·) est une bijection,
3. la Jacobien Jh (t) ̸= 0 pour tout t ∈ Rp .
Alors, pour toute fonction f : Rp → R telle que
/
|f (t)|dt < ∞
Rp

et tout ensemble borélien K ⊆ Rp on a


/ /
f (t)dt = f (h(u))|Jh (u)|du.
K h−1 (K)

Remarque 4.2.2 Le théorème de fonction inverse implique que sous les conditions de la propo-
sition 4.2.1 la fonction inverse g(·) = h−1 (·) existe partout dans Rp . De plus, Jg (t) = (Jh (t))−1 .
On peut aussi déduire que h(·) vérifie les conditions de la proposition 4.2.1 si et seulement si son
inverse les vérifie.
4.3 Loi normale multivariée et Vecteur gaussien 41

Proposition 4.2.3 Soient Y un vecteur aléatoire de densité fY (t), t ∈ Rp , et g : Rp → Rp une


transformation que satisfait les hypothèses de la proposition 4.2.1. Alors, la densité du vecteur
aléatoire X = g(Y ) existe et est donnée par
fX (t) = fY (h(t))|Jh (t)|, t ∈ Rp ,
où h = g −1 .
Démonstration. Soient X = (X1 , . . . , Xp )T , v = (v1 , . . . , vp )T et Av = {t ∈ Rp : gi (t) ! vi , i =
1, . . . , p}. En utilisant proposition 4.2.1 avec h = g −1 et f = fY , on trouve pour la f.d.r. de X :
FX (v) = /
P(Xi ! vi , i =/1, . . . , p) = P(gi (Y ) ! vi , i = 1, . . . , p)
= fY (t)dt = fY (h(u))|Jh (u)|du.
Av g(Av )

En remarquant que
g(Av ) = {u = g(t) ∈ Rp : t ∈ Av } = {u = g(t) ∈ Rp : gi (t) ! vi , i ∈ 1, . . . , p}
= {u = (u1 , . . . , up )T ∈ Rp : ui ! vi , i ∈ 1, . . . , p},
on obtient / v1 / vp
FX (v) = ··· fY (h(u))|Jh (u)|du, v = (v1 , . . . , vp ) ∈ Rp .⊓
,
−∞ −∞
Un cas particulier et important sont des transformations linéaires. La démonstration du corol-
laire suivant est laissée en exercice.
Corollaire 4.2.4 Soient Y un vecteur aléatoire à valeurs dans Rp avec densité fY , A ∈ Rp×p une
matrice inversible et b ∈ Rp . Alors, la densité de X = AY + b est donnée par
fX (u) = fY (A−1 (u − b))Det(A−1 ) = fY (A−1 (u − b))Det(A)−1 .

4.3 Loi normale multivariée et Vecteur gaussien


Proposition 4.3.1 (Définition et Propriétés de Np (0, Id))
1) La loi normale Np (0, Id) est absolument continue de densité
1
f (x) = (2π)−p/2 exp(− xT x)
2
2p 2p
−p/2 1 2
= (2π) exp(− xi ) = f0 (xi ),
i=1
2 i=1

où x = (x1 , . . . , xn )T et f0 est la densité de N (0, 1).


2) E[X] = 0 et Σ = V (X) = E[(X − µ)(X − µ)T ] = Id
3) La fonction caractéristique de X est
1
φX (t) = exp(− tT t),
2
où t = (t1 , . . . , tp ) ∈ Rp .
Démonstration. Le 2) est laissé en exercice. Pour 3) :
⎡ ⎤
p
2
φX (t) = E[exp(itT X)] = E ⎣ exp(itj Xj )⎦
j=1
p
2 , -
1
= E[exp(itj X)] = exp − tT t . ⊓
,
j=1
2
42 4 La loi normale multivariée et quelques propriétés

Définition 4.3.2 Le vecteur aléatoire X suit une loi normale sur Rp si et seulement s’il existe
une matrice A ∈ Rp×p et un vecteur µ ∈ Rp tels que

X = AY + µ, où Y ∼ Np (0, Id).

On note X ∼ Np (µ, Σ), avec Σ = AAT et on dit que X est un vecteur gaussien.

Proposition 4.3.3 Soit X ∼ Np (µ, Σ) avec Σ = AAT .


1) E[X] = µ
2) V (X) = AAT
3) La fonction caractéristique de X est
, -
T 1 T
φX (t) = exp it µ − t Σt (4.3.2)
2

où t = (t1 , . . . , tp ) ∈ Rp .

Exercice 4.3.4 Démontrer la proposition 4.3.3.

Théorème 4.3.5 Soit φ : Rp → C une fonction complexe. Alors, φ est la fonction caractéristique
d’une loi normale Np (µ, Σ) si et seulement s’il existe µ ∈ Rp et une matrice symétrique positive
Σ ∈ Rp×p tels que , -
1 T
φ(t) = exp it µ − t Σt , t ∈ Rp .
T
2
Démonstration. La nécessité est assurée par la proposition 4.3.3. Il reste à démontrer la suffisance.
On commence avec les observations suivantes. Par le théorème de décomposition spectrale
4.1.2, il existe une matrice orthogonale Γ telle que Γ T ΣΓ = Λ, où Λ est une matrice diagonale de
rang k ! p avec des valeurs propres λj , 1 ! j ! k, strictement positives. Alors, par (4.1.1),
p
( p
(
Σ= λj o·j oT·j = a·j aT·j ,
j=1 j=1

M
où a·j = λj o·j sont des vecteurs orthonormés. Maintenant, soit Y ∼ Np (0, I). On considère le
vecteur aléatoire
X = Y1 a·1 + · · · + Yk a·k + µ.
Alors X = AY + µ, où A ∈ Rp×p est telle que les k premières colonnes sont aj , j = 1, . . . , k et les
n−k dernières colonnes sont égales à 0. Donc, X est un vecteur normal p-varié. Pour déterminer sa
fonction caractéristique on utilise la formule (4.3.2). Il nous suffit donc de calculer E[X] et V (X) :
on a E[X] = µ et
k
N O (
V (X) = E (Y1 a·1 + · · · + Yk a·k )(Y1 a·1 + · · · + Yk a·k )T = a·j aT·k = Σ,
j=1

car E[Yi Yj ] = δij . Finalement, par (4.3.2), la fonction caractéristique de X coïncide avec φ(·) de
l’énoncé. ⊓ ,

Remarque 4.3.6 Le théorème précédent entraîne que toute loi normale dans Rp est entièrement
définie par sa moyenne et sa matrice de covariance. Ceci explique la notation Np (µ, Σ).

Dans la suite on va distinguer deux types principaux des lois normales multivariées : la loi normale
non-dégénérée et la loi normale dégénérée.
4.3 Loi normale multivariée et Vecteur gaussien 43

4.3.1 La loi normale non-dégénérée

Une loi normale N (µ, Σ) est non-dégénérée si la matrice de covariance Σ est définie positive,
i.e., Σ > 0 ou Det(Σ) > 0. Car en plus, Σ est symétrique, il existe une matrice symétrique A telle
que Σ = A2 = AAT = AT A. Comme Det(Σ) = Det(A)2 > 0, alors Det(A) > 0 et A est inversible.
La fonction caractéristique de X ∼ Np (µ, Σ) est

1 N O
φX (t) = exp(itT µ − tT Σt) = E exp(itT (AY + µ)) = φAY +µ (t), t ∈ Rp ,
2
où Y ∼ Np (0, I). Donc, X = AY + µ, et comme A est inversible on a que Y = A−1 (X − µ). Le
Jacobien de cette transformation linéaire est Det(A−1 ), voir corollaire 4.2.4, et donc la densité de
X est donnée par
, -
−1 −1 1 1 T −1
fX (u) = Det(A) fY (A (u − µ)) = M exp − (u − µ) Σ (u − µ) .
(2π)p/2 Det(Σ) 2

Définition 4.3.7 On dit que X suit une loi normale non-dégénérée Np (µ, Σ) si et seulement si
Σ est strictement positive et X est un vecteur aléatoire de densité
, -
1 1
f (x) = M exp − (x − µ)T Σ −1 (x − µ) .
(2π)p/2 Det(Σ) 2

4.3.2 La loi normale dégénérée

Une loi normale N (µ, Σ) est dégénérée si la matrice de covariance Σ est dégénérée, i.e.,
Det(Σ) = 0.

Exemple 4.3.8
4 5 considère Σ = 0. Alors, la fonction caractéristique de X ∼ N (µ; 0) est
On
φX (t) = exp itT µ et la loi de X est la fonction de Dirac en µ.

Si Rang(Σ) = k, on obtient (exercice) que tout vecteur X ∼ Np (µ, Σ) peut être représenté
comme
X = AY + µ,
où Y ∼ Np (0, I), A = (a1 , . . . , ak , 0, . . . , 0) et AAT = Σ, avec Rang(A) = k. Toute composante
de X est donc distribuée selon une loi normale univariée (non-dégénérée) ou bien selon une loi de
Dirac.

Proposition 4.3.9 Soit X ∼ Np (µ, Σ) et Rang(Σ) = k < p. Alors, il existe un sous-espace


linéaire H ⊂ Rp de dimension p − k tel que la projection aT X de X sur tout vecteur a ∈ H suit
une loi de Dirac univariée.

Démonstration. On a X = AY + µ où AAT = Σ, Rang(A) = k. Soit H = Ker(AT ) de dimension


dim(H) = p − k. Si a ∈ H, alors on obtient AT a = 0 et Σa = 0. Soit a ∈ H, donc la fonction
caractéristique de la v.a. aT X est
, -
1
φ(t) = E[exp(i(a X)t)] = E[exp(i(ta) X)] = exp i(ta) µ − (tu) Σ(tu) = exp(i(ta)T µ).⊓
T T T T
,
2

4.3.3 Propriétés des lois normales multivariées

Théorème 4.3.10 Un vecteur aléatoire X = (X1 , . . . , Xp ) suit une loi normale mutivariée
Np (µ, Σ) si et seulement si toutes les projections univariées aT X, a ∈ Rp , sont des variables
normales univariées.
44 4 La loi normale multivariée et quelques propriétés

Démonstration. Pour tout a, u ∈ Rp la fonction caractéristique φaT X (u) de la variable aT X est


liée avec celle du vecteur X :

φaT X (u) = E[exp(iaT Xu)] = φX (ua). (4.3.3)

On suppose que X est un vecteur normal et on montre que aT X est une v.a. normale pour tout
a ∈ Rp . Équation (4.3.3) implique que pour tout u ∈ Rp on a que
1
φaT X (u) = exp(iuat µ − u2 aT Σa).
2
En posant µ0 = aT µ et σ02 = aT Σa on obtient
1
φaT X (u) = exp(iµ0 u − u2 σ02 )
2
et finalement que
aT X ∼ N (µ0 , σ02 ) = N (aT µ, aT Σa).
Pour la réciproque, on remarque d’abord que si aT X est une variable normale pour tout a ∈ Rp ,
alors E[|X|2 ] < ∞. Pour voir ceci, il suffit de prendre successivement comme a les vecteurs d’une
base orthonormée de Rp . Donc, la moyenne µ = E[X] et la matrice de covariance Σ = V (X) sont
bien définies. On fixe a ∈ Rp . On suppose que aT X suit une loi normale N (m, s2 ). Alors, on a
forcément que
m = E[aT X] = aT µ et s2 = V (aT X) = aT Σa.
De plus, la fonction caractéristique de aT X est
1 1
φaT X (u) = exp(imu − s2 u2 ) = exp(iuaT µ − u2 aT Σa).
2 2
On utilise (4.3.3) pour obtenir
1
φX (a) = φaT X (1) = exp(iaT µ − aT Σa).
2
Étant donné a ∈ Rp arbitraire, on en déduit par le théorème 4.3.5 que X suit une loi Np (µ, Σ).
,

Remarque 4.3.11 On inclut dans l’énoncé du théorème 4.3.10 la loi de Dirac univariée comme
un cas particulier d’une loi normale, celle qui correspond à la valeur σ 2 = 0.

Proposition 4.3.12 (Propriétés de la loi normale multivariée) Soit X ∼ Np (µ, Σ).


1) Soit Σ > 0. Alors le vecteur aléatoire Y = Σ −1/2 (X − µ) satisfait Y ∼ Np (0, I).
2) Les projections aT X, a ∈ Rp sont des variables aléatoires normales univariées :

aT X ∼ N (aT µ, aT Σa).

3) Toute transformation linéaire d’un vecteur gaussien est un vecteur gaussien : si Y = AX +b


où A ∈ Rq×p et b ∈ Rq alors

Y ∼ Nq (Aµ + b, AΣAT ).

4) Soit σ 2 > 0. La loi de X ∼ Np (0, σ 2 Id) est invariante par transformations orthogonales :
si Γ est une matrice orthogonale, alors Γ X ∼ Np (0, σ 2 Id).
5) Tout sous-ensemble de composantes d’un vecteur gaussien p-varié est un vecteur normal :
soit X = (X1T , X2T ), où X1 ∈ Rk et X2 ∈ Rp−k , alors X1 et X2 sont des vecteurs gaussiens.
6) Deux vecteurs gaussiens sont indépendants si et seulement s’ils sont non-corrélés.
4.5 Lois dérivées de la loi normale 45

Démonstration. Les points 1) et 2) découlent du théorème 4.3.10, et 3) et 4) sont laissés en


exercice. Pour voir 5) on applique 3) avec b = 0 et A ∈ Rk×p , A = (Ik , 0), où Ik ∈ Rk×k est la
matrice identité. Par conséquence, X1 est gaussien. D’une manière analogue on obtient que X2
est gaussien. Il reste donc à démontrer 6). La nécessité est claire. Pour démontrer la suffisance, on
prend deux vecteurs gaussiens X = (X1 , . . . , Xp )T et Y = (Y1 , . . . , Yq )T tels que C(X, Y ) = 0. On
pose Z = (X, Y )T et u = (s, t)T où s ∈ Rp et t ∈ Rq . Grâce à l’exercice 3.2.10 il suffit maintenant
de montrer que la fonction caractéristique de Z peut être décomposée comme

φZ (u) = φX (s)φY (t).

On commence avec l’espérance et la variance de Z :


, - , - , -
E[X] V (X) C(X, Y ) V (X) 0
E[Z] = , V (Z) = = .
E[Y ] C(Y, X) V (Y ) 0 V (Y )

La fonction caractéristique de Z s’écrit alors comme


, -
1
φZ (u) = φZ (s, t) = exp i(sT E[X] + tT E[Y ]) − (sT , tT )V (Z)(sT , tT )T
, - , 2 -
1 T 1
T
= exp is E[X] − s V (X)s exp it E[Y ] − tT V (Y )t
T
2 2
= φX (s)φY (t). ⊓
,

Exercice 4.3.13 Les densités marginales de la loi Np (µ, Σ) sont normales univariées. La réci-
proque n’est pas vraie : soit la densité jointe des v.a. X et Y donnée par
1 − x2 − y 2
f (x, y) = e 2 e 2 (1 + xy1{−1"x,y"1} ).

Quelle est la loi de X et Y ?

4.4 Théorème central limite multivarié


On donne le théorème central limite multivarié sans démonstration.
Théorème 4.4.1 (Théorème central limite multivarié) Soit (Xn )n!1 une suite de vecteurs
aléatoires (de dimension p) indépendantes et de même loi telle que E[|X1 |2 ] < ∞. On pose µ :=
E[X1 ] et Σ := Σ(X1 ) la matrice de covariance. Alors,
, )n -
√ i=1 Xi L
n − µ −−−−→ Np (0, Σ).
n n→∞

4.5 Lois dérivées de la loi normale


4.5.1 Loi du χ2 de Pearson

Soient X1 , . . . , Xp des variables aléatoires i.i.d de loi N (0, 1). La loi de la somme

Y = X12 + · · · + Xp2

est la loi du chi-deux à p degrés de liberté et on note Y ∼ χ2p . La densité de la loi du χ2p est

fχ2p (y) = C(p)y p/2−1 e−y/2 1{y>0} , (4.5.4)


46 4 La loi normale multivariée et quelques propriétés

0.5
0.4

k=1
k=2
k=3
k=4
k=8
0.3
f_k(x)

0.2
0.1
0.0

0 2 4 6 8

Fig. 4.1. Densités de quelques lois de χ2 (k).

0 1−1
C(p) = 2p/2 Γ (p/2) ,

et Γ (·) est la fonction gamma :


/ ∞
Γ (x) = ux−1 e−u du, x > 0.
0

On a E[Y ] = p et V (Y ) = 2p.

Exercice 4.5.1 Déduire la formule (4.5.4) et faire le calcul pour l’espérance et la variance. On
pourrait commencer avec p = 1, 2.

4.5.2 Loi de Fisher-Snedecor

Soient U ∼ χ2p et V ∼ χ2q deux v.a. indépendantes. La loi de Fisher-Snedecor à degrés de


liberté p et q est la loi de
U/p
Y = .
V /q
On écrit Y ∼ Fp,q et la densité est donnée par

y p/2−1
fFp,q (y) = C(p, q) p+q 1{y > 0}, (4.5.5)
(q + py) 2


pp/2 q q/2 Γ (p)Γ (q)
C(p, q) = , avec B(p, q) = .
B(p/2, q/2) Γ (p + q)
q 2q2 (p+q−2)
On a E[Y ] = q−2 , pour q > 2, et V (Y ) = p(q−2)2 (q−4) , pour q > 4.

Exercice 4.5.2 On peut montrer que la loi Fp,q peut être approché par la loi de χ2p quand q → ∞.
“Démontrer” ceci d’une manière numérique.
4.6 Théorème de Cochran 47

1.0
0.8

p = 4, q = 2
p = 5, q = 8
0.6

p = 10, q = 10
p = 10, q = 100
f_k(x)

0.4
0.2
0.0

0 2 4 6 8

Fig. 4.2. Densités de quelques lois de Fisher.

4.5.3 Loi de Student (W.Gosset)

Soit X ∼ N (0, 1), Y ∼ χ2q deux v.a. indépendantes. La loi de Student à q degrés de liberté
est celle de la variable aléatoire
X
T = P
Y
q

et on écrit T ∼ tq . La densité de tq est donnée par

ftq (x) = C(q)(1 + x2 /q)−(q+1)/2 , x ∈ R,


√ −1
C(q) = ( qB(1/2, q/2)) .
On constate que t1 est la loi de Cauchy et que tq tend vers N (0, 1) lorsque q → ∞. On remarque
aussi que la loi de tq est symétrique et que ses queues sont plus lourdes que celles d’une loi normale.

4.6 Théorème de Cochran


Théorème 4.6.1 Soit X ∼ Np (0, Id)et soit Ai , . . . , AJ , J ! p, des matrices p × p telles que
a) A2j = Aj ,
b) Aj est symétrique et Rang(Aj ) = nj ,
)J
c) Aj Ak = 0 pour j ̸= k et j=1 nj ! p.
Alors,
1) les vecteurs Aj X sont indépendantes de loi Np (0, Aj ), 1 ! j ! J,
2) les v.a. |Aj X|2 , 1 ! j ! J, sont indépendantes de loi χ2nj , 1 ! j ! J.

Démonstration. 1) On a E[Aj X] = 0 et

V (Aj X) = Aj V (X)ATj = Aj ATj = A2j = Aj .

En outre, le vecteur (Ak X, Aj X)T est un vecteur gaussien et on a pour k ̸= j que


48 4 La loi normale multivariée et quelques propriétés

0.5
0.4

q=1
q=3
q=6
q = 35
0.3
f_q(x)

0.2
0.1
0.0

−4 −2 0 2 4

Fig. 4.3. Densités de quelques lois de Student.

C(Ak X, Aj X) = E[Ak XX T ATj ] = Ak V (X)ATj = Ak ATj = 0.

Donc, Ak X et Aj X sont indépendants pour k ̸= j.


2) Comme Aj est un projecteur, il existe une matrice orthogonale Oj telle que
, -
Ij 0
Λj = Oj Aj OjT =
0 0

est la matrice diagonale des valeurs propres de Aj . Comme Aj est de rang nj on a Rang(Ij ) = nj
et donc
nj
(
2 T
|Aj X| = X ATj Aj X T
= X Aj X = (X T
OjT )Λj (Oj X) T
= Y Λj Y = ηi2 ,
i=1

où Y = Oj X = (η1 , . . . , ηp )T est un vecteur normal ; Y ∼ Np (0, I). Donc, |Aj X|2 ∼ χ2nj . Finale-
ment, par conservation de l’indépendance par transformations mesurables, |Aj X|2 et |Ak X|2 sont
indépendantes pour j ̸= k.

Exercice 4.6.2 Parmi les matrices suivantes, lesquelles peuvent être la matrice de covariance
d’un vecteur aléatoire,
, - , - , - , -
12 −1 −1/2 1 1/2 1 1/2
, , , ?
21 −1/2 −1 1/2 1 1/3 1

Dans la suite on note Σ pour les matrices de covariance et on suppose que X ∼ N2 (0, Σ).
1) Calculer pour chaque matrice Σ les valeurs propres (λ1 , λ2 ) et les vecteurs propres associés
(v1 , v2 ).
2) Donner la loi jointe de v1T X et v2T X.

Exercice 4.6.3 Soit (X, Y ) un vecteur gaussien N2 (µ, Σ) avec


, - , -
0 41
µ= , Σ= .
2 18

1) Donner la loi de X + 4Y .
4.7 Théorème de meilleure prévision (optionnel) 49

2) Donner la loi jointe des variables Y − 2X et X + 4Y.


Exercice 4.6.4 Soit Z = (Z1 , Z2 , Z3 )T un vecteur aléatoire admettant pour densité
, -
1 6z12 + 6z22 + 8z32 + 4z1 z2
f (z1 , z2 , z3 ) = exp − .
4(2π)3/2 32
En plus, soient X et Y les vecteurs aléatoires définis par :
⎛ ⎞
22 2 , -
⎜0 2 5 ⎟
X=⎜ ⎟ Z et Y = 1 1 1 Z
⎝ 0 4 10 ⎠ 100
12 4

1) Est-ce que Z est un vecteur normal ?


2) Le vecteur (X, Y ) de dimension 6, est-il gaussien ? Les vecteurs X et Y sont-ils gaussiens ?
3) Les vecteurs X et Y sont-ils indépendants ?
4) Déterminer les lois des composantes de Z.

4.7 Théorème de meilleure prévision (optionnel)


Soient X = (X1 , . . . , Xp )T et Y = (Y1 , . . . , Yq )T deux vecteurs aléatoires. Dans cette section on
s’adresse seulement au cas continu. On suppose alors que la densité conjointe fX,Y (x, y) existe. De
plus, on supposera que E[|Xi |] < ∞, ∀i ∈ {1, . . . , p} et E[|Yj |] < ∞, ∀j ∈ {1, . . . , q}. On définit
l’espérance conditionnelle E[Y |X] comme le vecteur aléatoire

E[Y |X] = (E[Y1 |X], . . . E[Yq |X]),

où E[Yj |X)] = gj (X) avec


/
gj (x) = E[Yj |X = x] = yj fYj |X=x (yj |x)dyj .
R

Remarque 4.7.1 Toutes les propriétés d’espérance conditionnelle, établie pour des variables aléa-
toires, restent vraies dans le cas des vecteurs aléatoires.
Comme dans le cas univarié on introduit la matrice de covariance conditionnelle comme

V (Y |X) = E[Y Y T |X] − E[Y |X]E[Y |X]T .


P
On note |a| = a21 + · · · a2p la norme euclidienne dans Rp .

Définition 4.7.2 Soient X = (X1 , . . . , Xp )T et Y = (Y1 , . . . , Yq )T deux vecteurs aléatoires et G


une fonction de Rp vers Rq . On dit que G(X) est la meilleure prévision de Y sachant X si
N O N O
E (Y − G(X))(Y − G(X))T ! E (Y − H(X))(Y − H(X))T ∗ (4.7.6)

pour toutes fonctions mesurables H de Rp vers Rq .


On peut montrer que (4.7.6) implique que

E[|Y − G(X)|2 ] = min E[|Y − H(X)|2 ], (4.7.7)


H(·)

où le minimum est pris sur toutes fonctions H(·) mesurables de Rp vers Rq . En fait, la meilleure
prévision est l’espérance conditionnelle. On démontre ceci dans le cas de L2 .
∗. On dit que A ! B si la différence B − A est positive définie.
50 4 La loi normale multivariée et quelques propriétés

Théorème 4.7.3 On suppose que E[|Y |2 ] < ∞. Alors la meilleure prévision de Y sachant X est
unique presque sûrement et égale à
p.s.
G(X) = E[Y |X].

Démonstration. Grâce à (4.7.7) il suffit de trouver le minimum parmi les fonctions H(·) telles que
E[|H(X)2 ] < ∞. Pour toute fonction H(X) on a que
N O
E (H(X) − Y )(H(X) − Y )T =
N O
= E ((H(X) − G(X)) + (G(X) − Y ))((H(X) − G(X)) + (G(X) − Y ))T
N O N O
= E (H(X) − G(X))(H(X) − G(X))T + E (H(X) − G(X))(G(X) − Y )T
N O N O
+E (G(X) − Y )(H(X) − G(X))T + E (G(X) − Y )(G(X) − Y )T

Le premier et le troisième terme sont minimal pour H = G et le quatrième ne dépend pas de H. Il


reste alors à démontrer que le deuxième est minimal. Pour ceci on utilise les propriétés d’espérance
conditionnelle pour obtenir :
N O N N OO
E (H(X) − G(X))(G(X) − Y )T = E E (H(X) − G(X))(G(X) − Y )T |X
N N OO
= E (H(X) − G(X))E (G(X) − Y )T |X = 0.⊓ ,

4.8 Théorème de corrélation normale (optionnel)


Théorème 4.8.1 (Théorème de corrélation normale) Soient X = (X1 , . . . , Xp )T ∼ Np (µX , ΣX )
et Y = (Y1 , . . . , Yq )T ∼ Nq (µY , ΣY ) deux vecteurs normales. On suppose que ΣX > 0 et on pose
Z T = (X T , Y T ) et , -
T T T ΣX ΣXY
µ = (µX , µY ), Σ =
ΣY X ΣY
telle que Z ∼ Np+q (µ, Σ). Alors,
p.s. −1
m := E[Y |X] = µY + ΣY X ΣX (X − µX ),
p.s. −1
Γ := V [Y |X] = ΣY − ΣY X ΣX ΣXY ,

et la distribution conditionnelle de Y sachant X est normale. En particulier, pour tout y ∈ Rq ,


P(Y ! y|X) est p.s. la f.d.r. d’une loi normale Nq (m, Γ ). De plus, les vecteurs aléatoires X et
−1
W = Y − ΣY X ΣX X sont indépendants.

Démonstration. La démonstration se fait en quatre étapes.


Étape 1. On calcule E[W ] et V (W ) :
−1 −1
N − ΣY X ΣXX X] = µ
E[W ] = E[Y
−1
Y − Σ Y X Σ X µX ,
−1
O
V (W ) = E ((Y − µY ) − ΣY X ΣX (X − µX ))((Y − µY ) − ΣY X ΣX (X − µX ))T
−1
= ΣY − ΣX E[(X − µX )(Y − µY )T ]
−1 −1 −1
−E[(Y − µY )(X − µX )T ]ΣX ΣXY + ΣY X ΣX E[(X − µX )(X − µX )T ]ΣX ΣXY
−1
= ΣY − ΣY X ΣX ΣXY .

Étape 2. On montre que X et W sont orthogonales :


−1 −1
C(W, X) = C(Y, X) − ΣY X ΣX C(X, X) = ΣY X − ΣXY ΣX ΣX = 0.

Étape 3. On démontre que le couple (X, W ) est normal. On pose


, -
Idp 0
A= −1 ,
−ΣY X ΣX Idq

où Idp et Idq sont des matrices d’identité. Alors, on peut écrire


4.8 Théorème de corrélation normale (optionnel) 51
, - , -
X X
=A = AZ.
W Y

Donc, (X, W )T est bien un vecteur normal de matrice de covariance


, - , - , -
X V (X) C(X, W ) ΣX 0
V = = −1 .
W C(W, X) V (W ) 0 ΣY − ΣY X ΣX ΣXY
−1
Note que ΣX > 0 et par l’inégalité de Cauchy-Schwarz que ΣY − ΣY X ΣX ΣXY " 1. On trouve
donc que , -
X
V = AV (X)AT " 0.
W
Étape 4. On a démontre que C(X, W ) = 0 et donc que X et W sont indépendants. En plus, en
utilisant proposition 4.3.12.6) on a démontré que W est un vecteur normal :
−1 −1
W ∼ Nq (µY − ΣY X ΣX µX , Σ Y − Σ Y X Σ X ΣXY ).

On remarque maintenant que


−1
Y = W + ΣY X ΣX X,
où W et X sont indépendants. Alors, la loi conditionnelle de Y sachant X est la loi de W translatée
−1
par ΣY X ΣX X et
−1
E[Y |X] = E[W ] + ΣY X ΣX X
V [Y |X] = V [W ].⊓
,

Exercice 4.8.2 Démontrer que si la matrice Σ > 0 (dans théorème 4.8.1), alors la matrice Γ est
> 0 p.s.

Remarque 4.8.3 Le théorème 4.8.1) donne une expression pour la fonction de régression multi-
variée m = E[Y |X] et la matrice de covariance conditionnelle
N O
Γ = V (Y |X) = E (Y − m)(Y − m)T .

Remarque 4.8.4 Le théorème de corrélation normale peut être interprété d’une manière géomé-
trique. Soit L2X le sous-espace des vecteurs aléatoires mesurables par rapport à X et de matrice
−1
de covariance finie. Alors ΣY X ΣX X est la projection orthogonale de Y sur L2X et le vecteur
−1 2
Y − ΣY X ΣXX X est orthogonal à LX .
5
Éléments de Statistique

Le but essentiel des statistiques est de comprendre comment on peut faire des conclusions
“sensées” à partir de données aléatoires (bruitées). En d’autres termes, les statistiques cherchent
à démêler une tendance systématique à partir de variations aléatoires et imprévisibles.
En théorie de probabilité on suppose que les v.a. suivent une certaine loi et on veut décrire et
comprendre le comportement de leurs réalisations. En statistique la démarche est inverse, partant
des observations on veut déduire la nature de la loi sous-jacente aux observations.

5.1 Modèle paramétrique

Un modèle statistique est une description mathématique d’un mécanisme aléatoire qui a gé-
néré des observations. Un tel modèle est dit paramétrique s’il s’exprime à l’aide d’une famille de
distributions F = {Fθ , θ ∈ Θ} ; on suppose que chaque observation est une réalisation d’une loi de
Fθ et on veut déterminer quel θ ∈ Θ explique le “mieux” les observations. En général, on suppose
aussi que les observations sont indépendantes.

Définition 5.1.1 La famille {Fθ , θ ∈ Θ} est appelée modèle statistique ou modèle paramé-
trique.

Exemple 5.1.2 (Modèle de Bernoulli) Le modèle de Bernoulli est donné par F = {B(p), p ∈
[0, 1]}. Il peut modéliser la qualité des pièces mécaniques : 0 si pièce correcte et 1 si pièce défec-
tueuse.

Exemple 5.1.3 (Modèle gaussien) Le modèle gaussien est donné par F = {N (µ, σ 2 ), µ ∈
R, σ 2 > 0}. La paramètre θ = (µ, σ 2 ) du modèle est bidimensionnel et prend ses valeurs dans
Θ = R × R+ . On suppose souvent que soit la variance ou soit la moyenne est connue, dans ce cas
le modèle devient unidimensionnel. Le modèle gaussien est important et est utilisé dans beaucoup
de situations, voir aussi section 3.3.

Remarque 5.1.4 En pratique, l’hypothèse que les Xi sont i.i.d. n’est pas toujours vérifiée. On
peut définir des modèles statistiques sans cette hypothèse. On pose {Pθ , θ ∈ Θ}, où Pθ est la loi
jointe de X1 , . . . , Xn si la vraie valeur du paramètre est θ.

Exemple 5.1.5 (Modèle d’autorégression) Les v.a. Xi sont telles que

Xi = θXi−1 + ξi , i = 1, . . . , n et X0 = 0,

où θ ∈]0, 1[ est le paramètre inconnue et les v.a. ξi sont indépendantes de même loi ξ1 ∼ N (0, σ 2 ).
Apparemment, les Xi sont pas indépendantes dans ce modèle. La loi jointe Fθ de X1 , . . . , Xn est
donnée par la densité jointe
54 5 Éléments de Statistique
n
2
fθ (x1 , . . . , xn ) = ϕ(xi − θxi−1 )ϕ(x1 ),
i=2

où ϕ est la densité de N (0, 1). Le modèle statistique est {Fθ , θ ∈]0, 1[}.

Remarque 5.1.6 Un modèle statistique n’est jamais plus qu’une représentation idéalisée de la
réalité et donc les conclusions obtenues sont toujours à traiter avec une certaine prudence. Les
résultats sont basés sur les hypothèses explicites sur la famille des lois F et dans le cas ou ces
hypothèses sont fausses les résultats obtenues le sont (très probablement) aussi.

Remarque 5.1.7 Le choix d’un modèle statistique n’est généralement pas univoque et doit être
fait en collaboration avec des experts des domaines d’applications. Un bon modèle statistique se
caractérise par une description la plus juste possible de la réalité (paramètres nombreux, hypothèses
correctes), facilité de manipulation mathématique et production de solutions proches de l’observa-
tion.

5.2 Estimation ponctuelle


Les variables aléatoires (qui constituent le modèle statistique) sont notées en majuscules, i.e.,
X1 , X2 , . . . , Xn et leurs réalisations (ou observations) en minuscules, i.e., x1 , x2 , . . . , xn . La taille
d’échantillon est décrite par n ∈ N.
Dans la suite on suppose que les Xi sont i.i.d. d’une loi (inconnue !) F = Fθ∗ . On suppose que
F est un élément d’une famille F paramétrique (connue !) de fonctions de répartition :

Θ ⊆ Rk , ensemble paramétrique connu, F = {Fθ , θ ∈ Θ}.

Le but est d’identifier Fθ∗ . En supposant que θ → Fθ est une bijection il suffit de trouver la
“vraie” valeur (inconnue) θ∗ . Dans la suite on appelle θQn (X1 , . . . , Xn ) un estimateur de θ où θQn
est une fonction de (X1 , . . . , Xn ). Dans le cas non-trivial, il ne sera jamais possible de trouver la
“vraie” valeur avec probabilité 1. On se contente alors de construire une statistique (un estimateur)
θQn (X1 , . . . , Xn ) qui soit “proche” de la vraie valeur θ∗ . Une estimation de θ est une réalisation
Q 1 , . . . , xn ) d’un estimateur θQn (X1 , . . . , Xn ).
θ(x

5.2.1 Qualité des estimateurs

Cette section traite les critères de sélection d’un bon estimateur.


Définition 5.2.1 Le biais de l’estimateur θQn de θ est la quantité

b(θn , θ) = Eθ [θQn ] − θ.

Définition 5.2.2 Un estimateur θQn est dit sans biais si

Eθ [θQn ] = θ ∀θ ∈ Θ.

Il est dit asymptotiquement sans biais si

Eθ [θQn ] −−−−→ θ ∀θ ∈ Θ.
n→∞

Remarque 5.2.3 On dit que l’estimateur θQn est consistant si θQn → θ en probabilité Pθ . Il est
dit fortement consistant si θQn → θ presque sûrement.

Remarque 5.2.4 Il est important de retenir que dans les définitions ci-dessus il s’agit toujours
d’une suite d’estimateurs et que la convergence doit être vérifiée pour tout θ ∈ Θ.
5.2 Estimation ponctuelle 55

Définition 5.2.5 Le risque quadratique de l’estimateur θQn est la valeur

R(θ, θQn ) = Eθ [(θQn − θ)2 ] = Var θ (θQn ) + b(θQn , θ)2 .

Exercice 5.2.6 Vérifier que Eθ [(θQn − θ)2 ] = Var θ (θQn ) + b(θQn , θ)2 .

Remarque 5.2.7 Le risque d’un estimateur peut être décomposé en Var θ (θQn ) et b(θQn , θ)2 . Ici, la
partie b(θQn , θ)2 du risque contrôle la partie déterministe (systématique) de l’erreur d’estimation,
tandis que Var θ (θQn ) contrôle sa partie stochastique.

Exemple 5.2.8 (Modèle gaussien) On considère le modèle statistique {N (µ, σ 2 ), µ ∈ R, σ 2 ∈


R+ } et les deux estimateurs suivants pour la variance σ 2 :
n
1(
θQn(1) = σ
Q2 = (Xi − X̄)2 ,
n i=1
n
θQn(2) = s2 = Q2 .
σ
n−1
On vérifie que
n−1 2
Eθ [θQn(1) ] = σ
n
et donc que
2
σ
b(σ 2 , θQn(1) ) = − et b(σ 2 , θQn(2) ) = 0.
n
(1) (2)
Alors, θn est biaisé et θn est sans biais. On calcule les variances de ces estimateurs (exercice) :

2(n − 1) 4 2
Var θ (σ 2 , θn(1) ) = σ et Var θ (σ 2 , θn(2) ) = σ4 .
n2 n−1
Les risques quadratiques sont alors
, -
σ2 2(n − 1) 4 2n − 1 4
R(σ 2 , θQn(1) ) = + σ = σ ,
n n2 n2
2
R(σ 2 , θQn(2) ) = σ4 .
n−1
(2) (1) (1)
On peut donc conclure que pour tout σ 2 > 0, R(σ 2 , θQn ) > R(σ 2 , θQn ), et l’estimateur θQn est plus
(2)
efficace que θQn . Ainsi, un estimateur biaisé peut être plus efficace qu’un estimateur sans biais.

L’exigence minimale pour un estimateur est que

Eθ θQn → θ ∀θ ∈ Θ, et R(θQn , θ) → 0.
L’inégalité de Chebyshev implique que la dernière propriété implique en particulier que l’estimateur
θQn est consistant.

Exercice 5.2.9 (Loi uniforme) On considère le modèle uniforme {U({1, . . . , N }), N ∈ N}.
Deux candidats pour estimer le paramètre N sont
( n
N 6n = 2
Qn = max{X1 , . . . , Xn } et N Xi − 1.
n i=1

Comparer)ces deux estimateurs. Pour le premier, on peut se rappeler que pour une v.a. X " 0 on

a EX = k=0 P(X > k).
56 5 Éléments de Statistique

Le risque quadratique nous permet de comparer deux estimateurs. Soit θQ(1) et θQ(2) deux esti-
(1) (2)
mateurs de θ. Si R(θ, θQn ) ! R(θ, θQn ) pour tout θ ∈ Θ et l’inégalité est stricte pour au moins un
(1) (2)
θ ∈ Θ alors on dit que θQn est plus efficace que θQn .
La relation “plus efficace” n’est pas une relation d’ordre totale. Par exemple, si Θ contient au
(1) (2)
moins deux points θ1 et θ2 alors les deux estimateurs θQn = θ1 et θQn = θ2 ne sont pas comparables.
Cette comparaison relative ne mène donc pas à une comparaison absolue des estimateurs ; en
général il n’existe pas un estimateur le plus efficace, voir aussi l’exemple suivant.
(1)
Exemple 5.2.10 On considère le modèle statistique {N (µ, 1), µ ∈ R} et on pose θQn = X̄n et
θQn2 = 0. Les risques quadratiques sont
1
R(θ, θQn(1) ) = E[(θQn(1) − θ)2 ] = Var (X̄n ) = ,
n
R(θ, θQn(2) ) = E[θ2 ] = θ2 .
√ (2) (1)
Alors, si |θ| < 1/ n le risque de θQn est inférieur au risque de θQn .

Néanmoins, la définition de risque quadratique peut être modifiée de sorte qu’on puisse définir
une notion d’estimateur optimal.
Définition 5.2.11 Pour un estimateur θQn de θ ∈ Θ on appelle

R(Θ, θQn ) = sup R(θ, θQn )


θ∈Θ

le risque maximal sur Θ. La quantité

R(θ) = inf R(Θ, θQn ),


θ"n

où l’infimum est pris sur tous les estimateurs, est appelée risque minimax sur Θ.

5.2.2 Méthode des moments

On fait référence au cours de L2 et on se contente de rappeler le concept. On veut estimer


θ = Eθ [φ(X1 )] pour une fonction φ : R → R. L’estimateur de la méthode des moments est
n
1(
θQn = φ(Xi ).
n i=1

La loi (forte) des grands nombres nous garantie, sous condition d’intégrabilité, que θQn est fortement
consistant.
Remarque 5.2.12 L’estimateur de la méthode de moments n’est pas toujours unique et les esti-
mateurs peuvent avoir de mauvaises performances, voir Exercice 5.2.9.

Exercice 5.2.13 Considérons un modèle de Bernoulli X1 , . . . , Xn i.i.d. de loi B(θ). Déterminer


un estimateur pour θ avec la méthode des moments.

Exercice 5.2.14 Déterminer un estimateur pour la moyenne µ et un estimateur de la variance


σ 2 dans le modèle gaussien avec la méthode des moments.
5.2 Estimation ponctuelle 57

5.2.3 Estimateurs du maximum vraisemblance

On fait référence au cours de L2 et on se contente de rappeler l’exemple de l’observation d’un


n-échantillon de variables gaussiennes N (µ, σ 2 ). La vraisemblance du modèle est donnée par
, -n/2 * n
+
1 1 ( 2
Vθ (X1 , . . . , Xn ) = exp − 2 (Xi − µ) .
2πσ 2 2σ i=1

Maximiser Vθ en θ revient à maximiser la log-vraisemblance

Lθ (X1 , . . . , Xn ) = log Vθ (X1 , . . . , Xn )


n
n n 1 (
= − log(2π) − log σ 2 − 2 (Xi − µ)2 . (5.2.1)
2 2 2σ i=1

Un estimateur du maximum de vraisemblance µ


Q pour µ est la solution de l’équation
n
d 1(
Lθ (X1 , . . . , Xn ) = 0 ⇐⇒ µ
Q = X̄n = Xi ,
dµ n i=1

que la variance σ 2 soit connué ou pas.


Pour l’estimateur du maximum de vraisemblance de la variance σ 2 , on a
n
d n 1 (
L θ (X 1 , . . . , X n ) = 0 ⇐⇒ − + (Xi − µ)2 = 0
dσ 2 2σ 2 2σ 4 i=1

Si µ est connu, l’estimateur du maximum de vraisemblance de σ 2 est donc


n
1(
Qn2 =
σ (Xi − µ)2 .
n i=1

Tandis que si µ est inconnu il faut remplacer µ par son estimateur :


n
1(
Qn2 =
σ (Xi − X̄n )2 .
n i=1

Remarque 5.2.15 Sous certaines conditions l’estimateur du maximum vraisemblance est forte-
ment consistant et possède des propriétés d’optimalité.

Exercice 5.2.16 Considérons un modèle de Bernoulli X1 , . . . , Xn i.i.d. de loi B(θ). Quel est
l’estimateur du maximum de vraisemblance de θ ?

5.2.4 Intervalle de confiance

L’estimation ponctuelle a le grand inconvénient de ne pas quantifier l’erreur de l’estimation.


L’intervalle de confiance permet d’évaluer la précision de l’estimation d’un paramètre.
Le modèle statistique est {Fθ , θ ∈ Θ}, où Θ est un intervalle. On note aussi X (n) =
(X1 , . . . , Xn ).

Définition 5.2.17 L’intervalle de confiance au (seuil) niveau 1 − α est l’intervalle

IC1−α = C(X (n) ) = [a(X (n) ), b(X (n) )],

tel que a(X (n) ) < b(X (n) ) et

Pθ (C(X (n) ) ∋ θ) " 1 − α ∀θ ∈ Θ,


58 5 Éléments de Statistique

i.e., l’intervalle de confiance de niveau 1 − α est un intervalle (aléatoire) qui contient le vrai
paramètre avec une probabilité d’au moins 1 − α.

Exemple 5.2.18 (Intervalles de confiance pour une proportion) On suppose que les Xi
suivent
)n une loi Bernouilli de paramètre p. L’estimateur du maximum vraisemblance est pQ =
1
n i=1 1{Xi = 1}. Si on suppose que np " 5 et n(1 − p) " 5 la loi de p Q peut être approxi-
mée par une loi gaussienne. Alors, un intervalle de confiance de niveau 1 − α pour la proportion
p est donné par
A R R B
(n) pQ(1 − pQ) pQ(1 − pQ)
C(X ) = pQ − q1−α/2 , pQ + q1−α/2 .
n n

Les conditions requises, np " 5 et n(1 − p) " 5, ne peuvent pas être vérifiées car on ne connaît
pas la vraie valeur de p ! Par contre, on peut les vérifier a posteriori en remplaçant p par les
bornes de l’intervalle de confiance. Si les conditions ne sont pas satisfaites il faut plutôt utiliser la
méthode exacte. L’intervalle n’est certainement pas unique ; d’autres possibilités sont offertes par
des choix non-symétriques.

Exemple 5.2.19 (Intervalles de confiance pour la moyenne d’une gaussienne) Dans le mo-
dèle {N (θ, σ 2 ), θ ∈ R}, σ > 0 connu, on a
σ σ
C(X (n) ) = [X̄ − √ q1−α/2 , X̄ + √ q1−α/2 ],
n n

où q1−α/2 est le 1 − α/2 quantile d’une Gaussienne standard. En effet,


, -
σ
Pθ (C(X (n) ) ∋ θ) = Pθ |X̄ − θ| ! √ q1−α/2 = 1 − α.
n

Proposition 5.2.20 Dans le modèle gaussien on a que


Qn2 sont indépendantes,
1) X̄n et σ
2
2) X̄n ∼ N (µ, σn ),
2
n"
σn
3) σ2 ∼ χ2n−1 .

Démonstration. On introduit le vecteur aléatoire normal

ξ = (X1 , . . . , Xn )T , ξ ∼ Nn (m, σ 2 Id),

où m = (µ, . . . , µ)T . On pose aussi


1 1
η= (ξ − E[ξ]) = (ξ − m), η ∼ Nn (0, Id)
σ σ
et on introduit la matrice A ∈ Rn×n :
⎛ ⎞
1 ··· 1
1⎜
A = ⎝ ... . . . .. ⎟ .
.⎠
n
1 ··· 1

Cette matrice est symétrique est idempotente, i.e. A2 = A. On pose


⎛ ⎞ ⎛ ⎞
X̄ − µ X1 − X̄
1 1⎜ 1 1⎜
η1 = Aη = A(ξ − m) = ⎝ ... ⎠ et η2 = (Id − A)η = (Id − A)(ξ − m) = ⎝ ..
⎟ ⎟
. ⎠.
σ σ σ σ
X̄ − µ Xn − X̄
5.2 Estimation ponctuelle 59

Les matrices A et Id − A vérifient les hypothèses du théorème de Cochran, théorème 4.6.1. Comme
Rang(A) = 1 et Rang(Id − A) = n − 1, on a que η1 et η2 sont indépendantes et que |η2 |2 ∼ χ2n−1 .
On a de plus
n
1( σ2
nQ
|η2 |2 = (Xi − X̄)2 = 2n ,
σ i=1 σ

et 3) est démontré. Comme η1 et η2 sont indépendantes, on a, par conservation de l’indépendance


σ2
n"
par transformation mesurable, que σ1 (X̄ − µ) et σ2n sont indépendantes. Donc X̄ et σ Qn2 sont
indépendantes et 1) est démontré. Le point 2) est évident. ⊓
,

Corollaire 5.2.21 Dans le modèle gaussien, la variable aléatoire


√ X̄ − µ
t= n−1
σ
Q
suit une loi de Student tn−1 de n − 1 dégrès de liberté.

n(X̄−µ)
Démonstration. Par la proposition 5.2.20, on a σ
" ∼ N (0, 1). Alors

√ X̄ − µ X̄ − µ 1 η
n−1 = P =P ,
σ
Q √σ 1 n"σ2 χ
n n−1
n−1 σ2

où η ∼ N (0, 1) et χ ∼ χ2n−1 et η et χ sont indépendantes d’après la proposition 5.2.20. ,


Exemple 5.2.22 Dans le modèle {N (θ, σ 2 ), θ ∈ R}, σ > 0 inconnu. La variable aléatoire

X̄ − µ
T =
√σ
"
n−1

suit la loi de Student à n − 1 degrés de liberté. Ainsi, on trouve


; <
σQ σ
Q
C(X (n) ) = X̄ − √ t1−α/2 , X̄ + √ t1−α/2 ,
n−1 n−1

où t1−α/2 est le 1 − α/2 quantile d’une loi de Student à n − 1 degrés de liberté.


Si n " 30 une loi de Student à n − 1 degrés de liberté suit approximativement une loi normale
standard. On obtient alors
; <
σ
Q σ
Q
C(X (n) ) = X̄ − √ q1−α/2 , X̄ + √ q1−α/2 .
n n

NB : c’est presque la même formule que dans le cas σ connu : σ est juste remplacé par son
estimateur.

Remarque 5.2.23 Les quantiles d’une loi normale (ou loi de χ2 , loi de Student etc.) peuvent
être trouvés dans un tableau de valeurs de quantile, e.g. wikipedia, ou avec l’aide d’un logiciel, e.g.
le logiciel libre R.

Exercice 5.2.24 Construire un intervalle de confiance pour la variance dans le modèle gaussien.

Exercice 5.2.25 Dans une population on a dénombré 221023 garçons sur 429440 naissances.
1. Donner une estimation ponctuelle du pourcentage de garçons à la naissance dans cette
population.
2. Donner un intervalle de confiance au niveau 0,99.
3. Avec un niveau de confiance de 0,9, quel est l’intervalle de confiance ?
60 5 Éléments de Statistique

5.3 Théorie des tests


L’objectif d’un test statistique est de faire une choix entre deux hypothèses possibles sans
disposer d’informations suffisantes pour que le choix soit sûr. ces deux possibilités sont notées par
H0 : Hypothèse nulle
H1 : Hypothèse alternative ou Alternative.

Realité
H0 H1
H0 # erreur 2ème espèce
Test
H1 erreur 1ère espèce #

Tableau 5.1. Les risques d’un test

Exemple 5.3.1 Les tests statistiques ont des nombreux applications, par exemple,
• missile nucléaire ou avion,
• pistage de sida ; + où −,
• medicament ; efficace ou pas efficace,
• test de paternité ; + où −.
Quelles sont les erreurs possibles ? Quels sont les plus graves ?
Remarque 5.3.2 On ne peut pas contrôler les deux erreurs en même temps ! Si possible, il faut
donc choisir l’hypothèse nulle comme l’erreur le plus grave.
On peut contrôler les deux risques :
• l’erreur de première espèce est contrôlée par la construction du test,
• l’erreur de deuxième espèce peut être contrôlée en augmentant la taille de l’échantillon.

5.3.1 Test d’hypothèses paramétriques


On travaille avec le modèle paramétrique {Fθ , θ ∈ Θ}. On décompose Θ en Θ0 et Θ1 .

H0 : θ∗ ∈ Θ0
H1 : θ∗ ∈ Θ1 .
L’hypothèse nulle (ou l’alternative) est dite simple si Θ0 (ou Θ1 ) ne contient qu’un seul élément.
Dans le cas contraire on parle d’une hypothèse nulle ou d’une alternative composée.
Définition 5.3.3 Un test d’hypothèse est la donnée d’une règle de décision du type :
on rejette H0 ssi X (n) ∈ R,
où R est la région du rejet de H0 .
Définition 5.3.4 La quantité
sup Pθ (X (n) ∈ R)
θ∈Θ0
est le risque de 1ère espèce. Le risque de 2ème espèce est
sup Pθ (X (n) ̸∈ R).
θ∈Θ1

On dit que le test R est de niveau α si


sup Pθ (X (n) ∈ R) ! α
θ∈Θ0
5.3 Théorie des tests 61

Définition 5.3.5 La fonction π : θ -→ Pθ (X (n) ∈ R) est dite fonction de puissance du test et


la quantité supθ∈Θ1 Pθ (X (n) ∈ R) s’appelle la puissance du test.
Définition 5.3.6 On appelle zone de confiance de niveau α pour l’estimation de θ, un ensemble
aléatoire A(X) tel que Pθ (θ ∈ A(X)) ≥ 1 − α.
Remarque 5.3.7 Il existe un lien entre zone de confiance (ou intervalle de confiance) et test :
• Si A(X (n) ) est une zone de confiance, on rejette Θ0 := {θ = θ0 } si θ0 ∈ / A(X (n) ), et on
définit R = {x ∈ E, θ0 ∈/ A(x)}.
• Réciproquement, si pour chaque θ0 ∈ Θ, on dispose d’un test de région de rejet Rθ0 de
{θ = θ0 } contre Θ − {θ = θ0 }. On définit A(x) = {θ0 ∈ Θ, x ∈
/ Rθ0 } i.e. :
θ0 ∈
/ A(x) ⇐⇒ x ∈ Rθ0 . (5.3.2)
Une pratique largement répandue (mais de plus en plus critiquée) consiste à donner avec le résultat
d’un test le seuil critique α∗ (p-value).
Définition 5.3.8 La valeur α∗ = α∗ (X (n) ) est appelée seuil critique α∗ (p-value) si on rejette
H0 pour α > α∗ et on ne rejette pas H0 pour α ! α∗ .

5.3.2 Test du rapport de vraisemblance maximale


Si Θ = Θ0 ∪ Θ1 avec Θ0 ∩ Θ1 = ∅, et fθ (X) la vraisemblance de X. On définit la statistique
supθ∈Θ1 fθ (X)
T = . (5.3.3)
supθ∈Θ0 fθ (X)
Le test du rapport de vraisemblance de niveau α consiste à rejeter Θ0 := {θ = θ0 } si T > Cα . La
constante Cα doit être choisie au mieux pour respecter la contrainte
sup Pθ (T > Cα ) ≤ α. (5.3.4)
θ∈Θ0

Remarque 5.3.9 Le test du rapport de vraisemblance maximale est un test très puissant. Dans
de nombreux modèles ce test devient asymptotiquement optimal. Pour les tests de deux hypothèses
simples, le test du rapport de vraisemblance est le plus puissant ; dans ce cas le test s’appelle aussi
test de Neyman-Pearson.
Exemple 5.3.10 Considérons le modèle de Bernoulli X1 , . . . , Xn i.i.d. B(θ). Rappelons que :
fθ (X (n) ) = θSn (1 − θ)n−Sn ,
)n
où Sn = i=1 Xi . Soit Θ0 = {θ0 , θ1 } où p0 < p1 . On a
θ1Sn (1 − θ1 )n−Sn
T = .
θ0Sn (1 − θ0 )n−Sn
La règle de décision est alors
R = {T > Cα },
òu Cα est tel que P(T > Cα ) ! α. Comme souvent, on est amené à transformer T en une
statistique dont on sait calculer la loi :
, -S
θ1 (1 − θ0 ) n
T > Cα ⇐⇒ > Cα′ ⇐⇒ Sn > Cα∗ .
θ0 (1 − θ1 )
On rejette donc H0 si Sn > Cα∗ où Cα∗ est tel que P(Y > Cα∗ ) ! α avec Y ∼ B(n; θ0 ).
Exercice 5.3.11 Dans une population le pourcentage d’individus présentant des rides est de 25%.
Sur 200 personnes ayant suivi un traitement anti-rides, on a observé que 40 personnes avaient des
rides. Peut-on dire, au risque α = 5%, que le traitement est efficace ?
Exercice 5.3.12 On sait qu’une maladie atteint 10% des jeunes bovins de la région PACA. Un
chercheur a expérimenté un traitement sur un échantillon de n bœufs. Il a recensé 5% de malades.
Déterminez la valeur minimale de la taille d’échantillon n qui permette de conclure à l’efficacité
du traitement au risque α = 0,05.
62 5 Éléments de Statistique

5.3.3 Tests dans le modèle gaussien

On considère le modèle gaussien {N (µ, σ 2 ), µ ∈ R, σ 2 ∈ R+ }. La vraisemblance dans le modèle


gaussien peut s’écrire comme
* n
+
(n) 2 1 ( 2 n 2
L(X , (µ, σ )) = exp − 2 (Xi − µ) − log 2πσ .
σ i=1 2

Lemme 5.1. Soit L(X (n) ) la fonction de vraisemblance dans le modèle gaussien. Alors,
* n
+
1 ( n
max L(X (n) , (µ, σ 2 )) = exp − 2 (Xi − X̄)2 − log(2πσ 2 )
µ 2σ i=1 2
* * n
++
(n) 2 n n 2π ( 2
max L(X , (µ, σ )) = exp − − log (Xi − X̄) .
µ,σ2 2 2 n i=1

Exercice 5.3.13 Démontrer le lemme ci-dessus.

Exemple 5.3.14 (Test bilatéral, σ 2 connu) Dans le modèle {N (µ, σ 2 ), µ ∈ R}, σ 2 > 0 connu,
on considère
H0 : µ = µ0 , H1 : µ ̸= µ0 .
Le test du rapport des vraisemblances maximales (RVM) dans ce modèle est donné par la région
de rejet
maxµ L(x, (µ, σ 2 ))
R = {X (n) : S(X (n) " t}, où S(x) = .
L(x, (µ0 , σ 2 ))
On peut transformer ce test en la forme équivalente

R = {|X̄ − µ0 | > Cα }.

Cette forme nous permet de déterminer Cα . On pose Cα tel que

Pµ0 (|X̄ − µ0 | > Cα ) = α.



n(X̄−µ0
Comme, sous Pµ0 la v.a. σ ∼ N (0, 1) il faut trouver Cα tel que
, √ -
4 5 nCα
Pµ0 |X̄ − µ0 | > Cα = P |η| " = α,
σ

où η ∼ N (0, 1). Ceci implique que


,√ - , √ -
nCα nCα
Φ −Φ − = 1 − α,
σ σ
et donc que √
nCα σ
= q1−α/2 et Cα = √ q1−α/2 ,
σ n
où q1−α/2 est le 1 − α/2 quantile d’une loi gaussienne standard. On a donc trouvé que la région
de rejet du test au niveau α peut s’écrire :
9 :
σ
R = |X̄ − µ0 | > √ q1−α/2 .
n
La fonction puissance du test bilatéral est donnée par
, -
σ
π(µ) = Pµ (X (n) ∈ R) = Pµ |X̄ − µ0 | > √ q1−α/2
n
5.4 Test du χ2 63
, - , -
σ σ
= Pµ X̄ > µ0 + √ q1−α/2 + Pµ X̄ < µ0 − √ q1−α/2
,√ n √ - n, √ √ -
n(X̄ − µ) n(µ0 − µ) n(X̄ − µ) n(µ0 − µ)
= Pµ > + q1−α/2 + Pµ < − q1−α/2
,√σ σ - ,√ σ - σ
n(µ0 − µ) n(µ0 − µ)
= 1−Φ + q1−α/2 + Φ − q1−α/2
,√ σ - ,√ σ -
n(µ − µ0 ) n(µ0 − µ)
= Φ − q1−α/2 + Φ − q1−α/2 .
σ σ

Lorsque n → ∞, on a pour tout µ ̸= µ0 que π(θ) → 1. Bien sur que π(µ0 ) = α pour tout n ∈ N.

Exemple 5.3.15 (Test bilatéral, σ 2 inconnu) Dans le modèle {N (µ, σ 2 ), µ ∈ R, σ 2 ∈ R+ },


on considère
H0 : µ = µ0 , H1 : µ ̸= µ0 .
On donne une construction intuitive du test ; la vérification que le test obtenu est bien le test RVM
est laissé en exercice. L’idée est de remplacer σ 2 par
√ son estimateur.
√ On sait que σQ2 /n − 1 est un
estimateur sans biais de σ 2 /n. En remplaçant σ/ n par σ Q/ n − 1 on obtient la région de rejet :

σ
Q
R = {|X̄ − µ0 | > √ t1−α/2 },
n−1
où t1−α/2 est le 1 − α/2 quantile d’une loi de Student à n − 1 degrés de liberté. Pour le voir, notons

que sous Pµ la variable aléatoire n − 1(X̄ − µ)/Q σ suit une loi de Student à n − 1 degrés de liberté,
voir Corollaire 5.2.21.

Exercice 5.3.16 Refaire les deux exemples précédents pour le test unilatéral, i.e.

H0 : µ ! µ 0 , H1 : µ " µ 0 .

5.4 Test du χ2
5.4.1 Test d’adéquation

On considère un échantillon X1 , . . . , Xn d’une loi F (inconnue) qui prend des valeurs dans un
espace E. On veut répondre à la question si la loi F est égale à une loi théorique F0 :

H0 : F = F0
H1 : F ̸= F0 .

On regarde d’abord le cas le plus simple où l’espace E est fini. On suppose donc que E =
{1, . . . , d}. Donc la loi de X1 est donnée par un vecteur stochastique p = (pj )1"j"d et la loi de
référence est notée π = (πj )1"j"d . On suppose que πj > 0 pour tout 1 ! j ! d. L’hypothèse H0
s’exprime donc comme p = π.
Maintenant, l’idée est de trouver une statistique qui est grande si les deux lois sont très diffé-
rentes. On note
(n
Nj = 1{Xi =j}
i=1

pour les effectifs observées et nπj pour les effectifs théoriques. Si les deux lois sont très
différentes, la quantité (Nj − nπj )2 est grande aussi. Observons que cette grandeur est absolue et
il s’avère qu’il vaut mieux regarder :
d
( (Nj − nπj )2
T = Tn = .
j=1
nπj
64 5 Éléments de Statistique

Théorème 5.4.1 Soient X1 , . . . , Xn des v.a. i.i.d. de loi π sur E = {1, . . . , d}, alors
L
Tn −−−−→ χ2d−1 .
n→∞

Démonstration. On a E[1{Xi =j} ] = πj et Var (1{Xi =j} ) = πj (1 − πj ) pour j ∈ E. Le théorème


central limite nous donne alors :
Nj − nπj L
M −−−−→ N (0, 1),
nπj (1 − πj ) n→∞

et donc
Nj − nπj L
√ −−−−→ Zj ,
nπj n→∞

où Zj ∼ N (0, 1 − πj ). Il reste donc à étudier la dépendance entre les v.a. Zj . On calcule d’abord
, - ; <
Ni − nπi Nj − nπj Ni − nπi Nj − nπj
Cov √ , √ = E √ √
nπi nπj nπi nπj
1 4 5
= √ E[Ni Nj ] − E[Ni nπj ] − E[Nj nπi ] + n2 πi πj
n πi πj
1 4 5
= √ E[Ni Nj ] − n2πi πj
n πi πj
1 4 5 √
= √ n(n − 1)πi πj − n2 πi πj = − πi πj .
n πi πj

On a donc démontré que


(d 2 (d
(Nj − nπj ) L
−−−−→ Zj2 ,
j=1
nπj n→∞
j=1

où les v.a. Zj vérifient



E[Zj2 ] = 1 − πj et E[Zi Zj ] = − πi πj .
Le but est maintenant d’appliquer le théorème de Cochran. Pour ceci il nous faut une autre
représentation des v.a. Zi . Soit η1 , . . . , ηd i.i.d. de loi N (0, 1) et on pose
√ √
η = (η1 , . . . , ηd )T et ξ = ( π1 , . . . , πd )T .

On considère le vecteur η −(g ·ξ)ξ, où (g ·ξ) est le produit scalaire. On vérifie d’abord que (g ·ξ)ξ est
la projection orthogonale sur la droite ξ et peut s’écrire comme ξξ T η. Donc, η−(g·ξ)ξ = (Id−ξξ T )η
et Rang(Id − ξξ T ) = d − 1 ; le degré de liberté souhaité. Comme une loi normale est déterminée
par sa structure de covariance il reste à vérifier que le vecteur (Z1 , . . . , Zd ) a la même structure de
)d
covariance que η −(g ·ξ)ξ. Ceci implique par théorème 4.6.1 que j=1 Zj2 ∼ χ2d−1 . Donc, regardons
deux coordonnées (i et j) du vecteur η − (g · ξ)ξ :
d
( d
( √ √
√ √
ηi − ηk πk πi et ηj − ηk πk πj .
k=1 k=1

Leur covariance est


d
( d
( √ √ ( √ √ d
√ √ √ √ √ √ √
E[(ηi − ηk πk πi )(ηj − ηk πk πj )] = − πi πj − πj πi + pk πi πj = − πi πj .
k=1 k=1 k=1

De la même façon on obtient :


⎡* +2 ⎤
d
( √ √
E ⎣ ηj − ηk πk πj ⎦ = 1 − πj .⊓
,
k=1
5.4 Test du χ2 65

On obtient donc la région de rejet du test asymptotique

R = {T > tα },

où tα est tel que P(Z > tα ) = α, Z ∼ χ2d−1 .


Remarque 5.4.2 L’approximation de Tn est raisonnable si les effectifs théoriques sont > 5 et la
taille d’échantillon est supérieure à 30. Dans le cas contraire, on peut fusionner les classes voisines.
Ceci n’est pas forcément nécessaire si le nombre de classes est supérieur à 9, car, si n " 40, le test
est praticable même si les effectifs théoriques sont 0 dans quelques classes isolées.
Exemple 5.4.3 On veut contrôler si un dé est pipé. On le jette 60 fois et on obtient
Résultat 1 2 3 4 5 6
Fréquence 7 16 8 17 3 9
L’hypothèse H0 est que le dé est non biaisé : πj = 1/6. On calcule donc

(d 2
(Nj − nπj ) (7 − 10)2 (16 − 10)2 (9 − 10)2
T = = + + ···+ = 14.8.
j=1
nπj 10 10 10

Pour α = 5% et d − 1 = 5 on trouve tα ≈ 11.7 et on peut donc rejeter l’hypothèse au niveau 5%.


Exercice 5.4.4 Ajuster la méthode précédente pour des lois continues. On pensera à introduire
une partition de E.

5.4.2 Test du χ2 d’indépendance

Soient X, Y deux v.a. à valeurs dans EX = {1, . . . , k} et EX = {1, . . . , m}. Les lois sont décrites
par p = (pi ) et q = (qi ). On considère un échantillon (X1 , Y1 ) . . . , (Xn , Yn ) de (X, Y ). Maintenant,
il s’agit de savoir si X et Y sont indépendantes ou pas :

H0 : X et Y sont indépendantes
H1 : X et Y ne sont pas indépendantes.

Sous l’hypothèse H0 on a P(X = i, Y = j) = pi qj , donc on s’attend à ce que les effectifs observés


n
(
Ni,j = 1{Xℓ =i,Yℓ =j}
ℓ=1

soient proches de npi qj . Comme on ne connaît pas les probabilités p et q, il faut les estimer :
m
Ni,· 1(
pQi = = Ni,j
n n j=1
k
N·,j 1(
qQj = = Ni,j .
n n i=1

On utilise alors la statistique

(k ( m
(Nij − nQ pi qQj )2
T = Tn = .
i=1 j=1
nQ
pi qQj

Théorème 5.4.5 Soient X1 , . . . , Xn des v.a. i.i.d. de loi p sur {1, . . . , k} et Y1 , . . . , Yn des v.a.
i.i.d. de loi q sur {1, . . . , m}. Sous l’hypothèse « les Xi et les Yi sont indépendantes », on a
L
Tn −−−−→ χ2(k−1)(m−1) .
n→∞
66 5 Éléments de Statistique

Exercice 5.4.6 Démontrer le théorème précédent en mimant la démonstration du théorème 5.4.1.

On obtient donc la région de rejet du test asymptotique

R = {T > tα },

où tα est tel que P(Z > tα ) = α, Z ∼ χ2(k−1)(m−1) .

Remarque 5.4.7 L’approximation est raisonnable si les effectifs théoriques nQ pi qQj sont " 5. Sinon
on peut utiliser le test du χ2 de Yates (pour un tableau 2 × 2 et des effectifs supérieures à 2,5) ou
encore le test de Fisher exact.

Pour effectuer un test les données sont très souvent présentées dans un tableau de contingence,
voir tableau 5.2.

#
1 2 ··· m
1 N1,1 N1,2 ··· N1,m N1,·
2 N2,1 N2,2 ··· N2,m N2,·
.. .. .. .. .. ..
. . . . . .
k Nk,1 Nk,2 ··· Nk,m Nk,·
#
N·,1 N·,2 ··· N·,m n

Tableau 5.2. Tableau de contingence

Exemple 5.4.8 Dans un essai thérapeutique “Ditrane”, une question est de savoir si le traitement
de la mère (VIH positive) a un effet sur le statut VIH de l’enfant. Si ce n’est pas le cas, alors le
traitement suivi par la mère n’a pas d’effet sur l’enfant. On pose

EX = {0, 1} = {pas de traitement, traitement}


EY = {0, 1} = {enfant VIH-, enfant VIH+}

et le tableau de contingence est


)
0 1
0 139 152 291
)1 59 41 100
198 193 391

On effectue alors un test de χ2 (ici avec le logiciel R) :


> A<-matrix(c(139,152,59,41),nrow=2, ncol=2, byrow=T)
> chisq.test(A, correct=F)

Pearson’s Chi-squared test

data: A
X-squared = 3.7574, df = 1, p-value =
0.05257
Comme la p-valeur est plus grande que 5%, il n’est pas possible de montrer, au risque 5%, que le
traitement a un effet sur le statut VIH de l’enfant. Exercice : refaire ce calcul “à la main”.

Vous aimerez peut-être aussi