Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
5 Éléments de Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1 Modèle paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.1 Qualité des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.3 Estimateurs du maximum vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.4 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3 Théorie des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.1 Test d’hypothèses paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.2 Test du rapport de vraisemblance maximale . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.3 Tests dans le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1 Test d’adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.2 Test du χ2 d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1
Espace probabilisé, variables et vecteurs aléatoires
Un certain nombre de notions de ce chapitre sont des rappels du cours de L2, mais on introduit
aussi de nouveaux objets importants, comme par exemple la notion de tribu. Les concepts de tribu
et de mesure font partie intégrante de ce que l’on appelle la théorie de la mesure qui donne un
cadre très générale pour définir les intégrales.
Dans le langage des probabilités, le terme « modéliser » désigne l’opération consistant à associer
à une expérience aléatoire trois objets mathématiques, généralement notés Ω, F et P, appellés
respectivement univers, ensemble des événements et probabilité.
La première étape de la modélisation d’une expérience aléatoire E consiste à préciser l’ensemble
des résultats possibles (On utilise aussi les termes « épreuves », « réalisations » ou « issues »).
Définition 1.1.1 On appelle univers associé à une expérience aléatoire E l’ ensemble de tous les
résultats possibles de E. Traditionnellement, l’univers est noté Ω.
Exemple 1.1.2 Dans le cas du lancer d’une pièce de monnaie, les phrases « on a obtenu pile »
et « on a obtenu face » définissent deux événements associés à l’expérience aléatoire.
La deuxième étape de la modélisation d’une expérience aléatoire consiste à définir la notion
d’« événement » associée à l’expérience aléatoire. Donnons d’abord quelques définitions simples.
Définition 1.1.3 Soit Ω l’univers associé à une expérience aléatoire. On appelle événements
élémentaires les singletons {ω}, ω ∈ Ω. De plus, Ω est appelé événement certain et ∅ est appelé
ensemble vide ou événement impossible.
Les événements sont souvent formulés par des phrases littérales que l’on transcrit dans le
langage de la théorie des ensembles. Par exemple
Événement Écriture ensembliste
le contraire de A s’est réalisé Ac
A et B se sont réalisés A∩B
A ou B s’est réalisé A∪B
B s’est réalisé mais pas A B\A
L’expérimentateur doit alors préciser l’ensemble des événements qu’il peut considérer. Par
exemple, étant donné A, on souhaite pouvoir considérer que la non-réalisation de A soit encore
un événement lié à l’expérience, et faire de même pour les autres opérations du tableau ci-dessus.
Ceci amène à la définition suivante.
6 1 Espace probabilisé, variables et vecteurs aléatoires
Définition 1.1.4 On appelle tribu tout sous-ensemble F des parties P(Ω) de Ω vérifiant les
propriétés suivantes :
1. l’événement ∅ et l’événement Ω appartiennent à F ;
2. si A appartient à F , alors le complémentaire de A appartient aussi à F ;
soit I une partie de N (finie ou infinie). Si (Ai )i∈I est une suite d’événements de F , alors
3. !
i∈I Ai appartient à F .
Remarque 1.1.5 " Des propriétés 2 et 3, on peut en déduire que si (Ai )i∈I est une suite d’événe-
ments de F , alors i∈I Ai appartient à F .
Le probabiliste ne travaillera qu’avec des ensembles d’événements qui constituent une tribu.
Un événement associé à une expérience aléatoire E appartiendra donc toujours à une tribu.
Attention, une tribu est une famille d’ensembles. Un élément d’une tribu est donc par définition
un ensemble, qui sera désormais appelé événement.
Exemple 1.1.6 Les ensembles {∅, Ω} et {∅, A, Ac , Ω} vérifient les trois propriétés de la définition
1.1.4. De même pour l’ensemble des parties P(Ω) de Ω.
On souhaite désormais donner un poids à chaque événement dans le but de quantifier la fré-
quence de son apparition. On définit maintenant ce qu’est une mesure de probabilité.
Définition 1.1.7 Soit Ω un univers et F une tribu, i.e. un ensemble d’événement. Une probabilité
P sur (Ω, F ) est une application de F dans [0, 1] vérifiant les deux propriétés suivantes
1. P(∅) = 0 et P(Ω) = 1 ;
2. pour toute suite d’événements (Aj )j∈N de F deux à deux disjoints, on a
⎛ ⎞
% (n
P⎝ Aj ⎠ = lim P(Aj ),
n→+∞
j∈N j=1
c’est-à-dire que la probabilité d’un événement qui est la réunion disjointe d’événements est
égale à la somme des probabilités de ces événements.
Définition 1.1.8 Le triplet (Ω, F , P) est appelé espace de probabilité ou espace probabilisé.
Il existe deux grandes familles de variables aléatoires réelles : les variables aléatoires discrètes
et les variables aléatoires absolument continues. La différence entre ces deux types ne porte pas
seulement sur l’ensemble X(Ω) des valeurs atteintes par X, mais aussi sur les techniques d’étude
de ces deux types de variables aléatoires : calculs de sommes finies ou sommation de séries dans
le cas discret, calculs d’intégrales généralisées dans le cas absolument continues.
Introduisons un objet mathématique permettant de caractériser une variable aléatoire réelle,
à savoir la fonction de répartition.
Définition 1.2.2 Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, F , P).
On appelle fonction de répartition de X la fonction numérique réelle FX définie par
∀t ∈ R, FX (t) = P(X ! t).
La fonction de répartition FX d’une variable aléatoire réelle possède les propriétés suivantes :
1. FX est une fonction croissante de R dans [0, 1] ;
2. lim FX (t) = 0 et lim FX (t) = 1.
t→−∞ t→+∞
Nous allons dans la suite expliquer comment la fonction de répartition peut s’exprimer en
fonction de ce qu’on appellera la loi de X.
Remarque. On rencontrera souvent des énoncés du type : « Soit X une variable aléatoire de loi
... ». Il faut comprendre ici que ce qui nous intéresse est la loi de X (les valeurs prises par X et
les probabilités associées), et pas du tout l’espace Ω sur lequel est définie X. Dans beaucoup de
situations, l’espace Ω ne sera même pas explicité.
Une variable aléatoire réelle X définie sur un espace probabilisé (Ω, F , P) est dite discrète si
l’ensemble de ses valeurs X(Ω), est au plus dénombrable, c’est-à-dire un ensemble ayant un nombre
fini d’éléments ou dénombrable ∗.
En pratique lorsque l’on demande de donner la loi d’une variable aléatoire discrète, on pourra se
contenter de donner sa distribution de probabilité, c’est-à-dire l’ensemble des probabilités P (X =
x), pour x ∈ X(Ω). En effet ces nombres déterminent complètement la probabilité PX . On rappelle
quelques lois discrètes classiques.
Exemple 1.2.4 (Loi uniforme) La loi uniforme sur un ensemble fini E, est la loi d’une variable
aléatoire X à valeurs dans E, qui prend chacune des valeurs de E avec la même probabilité
1/Card(E). Par exemple si E = {1, . . . , n}, X suit une loi uniforme sur E, si PX (k) = 1/n pour
tout k ∈ {1, . . . , n}. On note alors X ∼ U({1, . . . , n}), ou plus généralement X ∼ U(E).
∗. C’est-à-dire un ensemble dont le cardinal n’est pas fini, mais qui est en bijection avec l’ensemble N
des entiers naturels.
8 1 Espace probabilisé, variables et vecteurs aléatoires
Exemple 1.2.5 (Loi de Bernoulli) La loi de Bernoulli de paramètre p ∈ [0, 1] est la loi d’une
variable aléatoire à valeurs dans {0, 1}, qui prend la valeur 1 avec probabilité p (et donc la valeur
0 avec probabilité 1 − p). Si X suit cette loi, on note X ∼ B(p).
Exemple 1.2.6 (Loi binomiale) La loi binomiale de paramètres n ∈ N et p ∈ [0, 1] est la
loi d’une variable aléatoire à valeurs dans {0, 1, . . . , n}, qui prend la valeur k avec probabilité
n!
Cnk pk (1 − p)n−k (où l’on rappelle que Cnk = k!(n−k)! ). C’est la loi du nombre de gains lorsque
l’on joue n fois de suite à un jeu où la probabilité de gagner est p. Si X suit cette loi, on note
X ∼ B(n; p).
Exemple 1.2.7 (Loi géométrique) La loi géométrique de paramètre p ∈]0, 1], est la loi d’une
variable aléatoire à valeurs dans N∗ = {1, 2, . . .}, qui prend la valeur k avec probabilité p(1−p)k−1 .
C’est la loi du nombre de tentatives que l’on doit faire avant d’obtenir le premier gain, lorsque
l’on joue successivement à un jeu où la probabilité de gagner est p. Si X suit cette loi, on note
X ∼ G(p).
Exemple 1.2.8 (Loi de Poisson) La loi de Poisson de paramètre λ > 0 est la loi d’une variable
aléatoire à valeurs dans N, qui prend la valeur k avec probabilité e−λ λk /k!. Si X suit cette loi, on
note X ∼ P(λ). Cette loi est aussi appelée la loi des événements rares, car elle attribue une forte
probabilité aux petites valeurs de k et une faible probabilité aux grandes valeurs de k (le terme
λk /k! convergeant très vite vers 0 lorsque k grandit). C’est par exemple le type de loi qui peut
être utilisé pour modéliser le nombre d’enfants d’un couple choisi au hasard dans une population
donnée.
Soit X une variable aléatoire discrète définie sur un espace probabilisé (Ω, F , P). L’ensemble
X(Ω) des valeurs de X étant au plus dénombrable, on peut numéroter ses éléments, i.e.
{x0 , x1 , . . . , xn , . . .}, en convenant de poser P(X = xi ) = 0 pour i assez grand dans le cas où
X(Ω) est un ensemble fini. Cela permettra de ne pas avoir à distinguer le cas où X(Ω) est fini du
cas où X(Ω) est infini dénombrable.
Définition 1.2.9 Soit X une variable aléatoire discrète ) définie sur un espace probabilisé (Ω, F , P),
à valeurs dans {x0 , x1 , . . . , xn , . . .}. Si la série +∞
n=0 |xn |P(X = xn ) est convergente, on dit que
X est d’espérance finie et définit l’ espérance de X par
+∞
(
E(X) = xn P(X = xn ).
n=0
)+∞
Plus généralement, si g : R → R est une fonction et que n=0 |g(xn )|P(X = xn ) est convergente,
on définit l’espérance de g(X) :
+∞
(
E[g(X)] = g(xn )P(X = xn ).
n=0
3. L’espérance E(X) peut se voir comme la moyenne (au sens statistique du terme) des valeurs
xn affectées des poids P(X = xn ). C’est pour cette raison qu’on utilise parfois le terme
valeur moyenne de X pour désigner l’espérance d’une variable aléatoire X.
Proposition 1.2.11 Soit X une variable de loi géométrique de paramètre p ∈]0, 1].
1 1−p
E[X] = , Var (X) = .
p p2
Démonstration.
∞ ∞
* ∞
+
( ( d (
k−1 k
E[X] = kP (X = k) = p k(1 − p) = −p (1 − p)
dp
k=1 k=1 k=0
, -
d 1 p 1
= −p = 2 = .
dp p p p
∞
( ∞
(
E[X 2 ] = k 2 P (X = k) = p k 2 (1 − p)k−1
k=1 k=1
(∞ ∞
(
=p k(k − 1)(1 − p)k−1 + p k(1 − p)k−1
k=1 k=1
∞
(
= p(1 − p) k(k − 1)(1 − p)k−2 + E[X]
k=2
* ∞
+ , -
d2 ( d2 1 1
k
= p(1 − p) 2 (1 − p) + E[X] = p(1 − p) +
dp dp2 p p
k=0
, -
d 1 1 2p(1 − p) 1
= −p(1 − p) + = +
dp p2 p p3 p
2 1
= 2− .
p p
2 1 1 1−p
Ainsi, Var (X) = E[X 2 ] − E[X]2 = p2 − p − p2 = p2 . ,
⊓
Proposition 1.2.12 Soit X une variable de loi de Poisson de paramètre λ > 0. Alors
E[X] = λ , Var (X) = λ.
Démonstration.
∞
( ∞
( ( λk∞
λk
E[X] = kP (X = k) = ke−λ = e−λ
k! (k − 1)!
k=0 k=0 k=1
∞
( λk−1
= e−λ λ = e−λ λeλ = λ .
(k − 1)!
k=1
∞
( ∞
( ( ∞
λk λk
E[X 2 ] = k 2 P (X = k) = k 2 e−λ = e−λ k
k! (k − 1)!
k=0 k=0 k=1
∞
( ( λk−1 ∞
( λk−1 ∞
λk−1
= e−λ λ (k − 1) + e−λ λ = e−λ λ +λ
(k − 1)! (k − 1)! (k − 2)!
k=1 k=1 k=2
∞
(
−λ 2 λk−2
=e λ + λ = λ2 + λ .
(k − 2)!
k=2
Définition 1.2.13 L’espérance d’une variable aléatoire réelle. Soit X une variable aléatoire abso-
lument continue
. +∞ à valeurs dans R de densité de probabilité f . On dit que X est d’espérance finie si
l’intégrale −∞ |x|f (x)dx est convergente. On appelle alors espérance de X, notée E(X), la valeur
. +∞
de l’intégrale −∞ xf (x) dx. De même que dans le cas discret, on note, si les quantités sont bien
définies :
/ +∞
E[g(X)] = g(x)f (x) dx
−∞
/+∞
Var (X) = (x − E[X])2 f (x) dx.
−∞
Exemple 1.2.15 La variable aléatoire continue X suit une une loi normale de paramètre (µ, σ 2 )
si X a comme densité
1
f (x) = √ exp(−(x − µ)2 /2σ 2 ). (1.2.2)
2πσ
On note X ∼ N (µ, σ 2 ). Si X ∼ N (0, 1) on parle d’une loi normale standard.
0.4
68% µ = 0, σ2 = 1
27% µ = 0, σ2 = 4
4.7% µ = 4, σ2 = 2
µ = − 3, σ2 = 8
0.3
0.3
f ( x)
0.2
0.2
f(x)
0.1
0.1
0.0
0
µ − 3σ µ − 2σ µ−σ µ µ+σ µ + 2σ µ + 3σ −5 0 5
x x
Exemple 1.2.16 La variable aléatoire continue X suit une loi de Rayleigh de paramètre θ > 0 si
elle a pour densité , -
x x2
f (x) = 2 exp − 2 si x " 0, et 0 sinon.
θ 2θ
L’espérance de X est égale à
/ / 0 0
+∞ +∞
x2 x2 11
E(X) = xf (x)dx = exp − − dx.
−∞ 0 θ2 2θ2
Définition 1.3.1 La loi d’un vecteur aléatoire réel X = (X1 , · · · , Xn ) est la probabilité PX sur
Rn , donnée par :
Définition 1.3.2 On dit que des variables aléatoires réelles X1 , . . . , Xn sont indépendantes si et
seulement si, pour toutes parties A1 , . . . , An de R, les événements {X1 ∈ A1 }, . . . , {Xn ∈ An }
sont des événements indépendants, i.e.
Définition 1.3.3 Une suite de variables aléatoires réelles indépendantes et identiquement distri-
buées (en abrégé i.i.d.) est une suite (Xn )n∈N⋆ de variables aléatoires réelles telle que
1. ∀n ∈ N⋆ , n " 2, les variables X1 , . . . , Xn sont indépendantes ;
2. ∀n, p ∈ N⋆ , n ̸= p, les variables aléatoires Xn et Xp ont la même loi, c’est-à-dire que leurs
fonctions de répartition coïncident.
Nous allons donner maintenant deux exemples simples et très importants de couples de va-
riables qui montrent l’importance fondamentale de ce que l’on appelle la loi d’un couple de variables
aléatoires (où la loi d’un n-uplet si l’on devait considérer n variables aléatoires).
Modèle (A) — On considère deux pièces de monnaie modélisées par des variables X et Y .
Les symboles P et F dans le tableau désignent respectivement pile et face. Le tableau ci-dessous
donne les probabilités des quatre événements {(P, P )}, {(P, F )}, {(F, P )}, {(F, F )}.
Ces quatre probabilités constitue ce que l’on appelle la loi du couple (X, Y ) (On vérifie bien que
la somme de ces quatre nombres fait 1).
Y =P Y =F
X=P 1/5 2/5
X=F 2/5 0
Selon le tableau, on a :
P(X = P, Y = P ) = 1/5, P(X = P, Y = F ) = 2/5
P(X = F, Y = P ) = 2/5, P(X = F, Y = F ) = 0.
Ici on utilise une virgule pour écrire plus rapidement l’intersection de deux événements. Par
exemple, on écrit :
{X = P, Y = P } = {X = P } ∩ {Y = P }.
On peut alors calculer la loi de la variable X, i.e. les probabilités P(X = P ) et P(X = F ).
On peut écrire : {X = P } = {X = P, Y = P } ∪ {X = P, Y = F }. Puisque Y ne peut tomber
à la fois sur pile et face, on en déduit :
{X = P, Y = P } ∩ {X = P, Y = F } = ∅.
Donc :
P(X = P ) = P(X = P, Y = P ) + P(X = P, Y = F ) = 1/5 + 2/5 = 3/5.
Similairement, on a :
Remarque 1.3.4 Ce modèle pourrait décrire deux pièces de monnaie biaisées (en l’occurrence
déséquilibrées vers pile) qui seraient liées par un mécanisme les empêchant de tomber simultanément
sur face (on pourrait imaginer très naïvement un fil ou un aimant).
Modèle (B) — On considère maintenant deux autres pièces de monnaie modélisées cette
fois-ci par des variables X ′ et Y ′ . La loi du couple (X ′ , Y ′ ) est donnée par le tableau suivant :
Y′ = P Y′ =F
X ′ = P 9/25 6/25
X ′ = F 6/25 4/25
Comme précédemment, on calcule la loi de la variable X ′ :
Remarque 1.3.5 Ce modèle pourrait décrire deux pièces de monnaie biaisées (toujours déséqui-
librées vers pile) qui ne seraient liées d’aucune manière.
En conclusion, si l’on connaît la loi du couple (X, Y ) alors on connait la loi de X et celle de
Y , que l’on appelle les lois marginales de (X, Y ). Si l’on connaît seulement la loi de X d’une part
et celle de Y d’autre part, on ne connait pas la loi du couple (X, Y ), c’est-à-dire la manière dont
X et Y « interagissent » entre elles. Les deux modèles précédents ont illustré des lois de couple
différentes, mais possédant pourtant les mêmes marginales.
On a les mêmes définitions pour un n-uplet de variables aléatoires (X1 , · · · , Xn ).
14 1 Espace probabilisé, variables et vecteurs aléatoires
Nous avons illustré la loi d’un couple de v.a. discrètes à travers les exemples précédents. On
remplace la donnée P(X = x, Y = y) concernant des v.a. discrètes par ce qu’on appelle la densité
jointe f (x, y) de X et Y si les v.a. sont à densité, i.e. pour des intervalles I et J de R par exemple,
/ /
P(X ∈ I, Y ∈ J) = f (x, y)dxdy.
I J
L’indépendance s’exprime également facilement lorsque les variables ont des densités.
Proposition 1.3.6 Soient X1 et X2 deux v.a. avec une densité jointe f (x1 , x2 ). Les variables X1
et X2 sont indépendantes si et seulement si
Soit X = (X1 , . . . , Xp )T un vecteur aléatoire, où les Xi sont des variables aléatoires réelles.
Définition 1.3.7 La fonction de répartition de vecteur X est
∂ p F (x)
f (x) = f (x1 , . . . , xp ) = ,
∂x1 . . . ∂xp
et on a / x1 / xp
F (x) = ··· f (t1 , . . . , tp )dt1 . . . dtp .
−∞ −∞
Ici, on adopte le symbole f (·) comme notation générique pour les densités.
La densité conditionnelle de X1 , . . . , Xk sachant Xk+1 , . . . , Xp est donnée par
f (x1 , . . . , xp )
f (x1 , . . . , xk |xk+1 , . . . , xp ) = .
f (xk+1 , . . . , xp )
Définition 1.3.9 L’espérance du vecteur aléatoire X est le vecteur µ = (µ1 , . . . , µk ) défini par
/ /
µi = E[Xi ] = · · · ti f (t1 , . . . , tp )dt1 . . . dtp , i = 1, . . . , p,
et on écrit µ = E[X].
Comme dans le cas réel, l’espérance est une fonctionnelle linéaire : pour toute matrice A ∈ Rq×p
et b ∈ Rq , on a
E[AX + b] = AE[X] + b = Aµ + b.
Définition 1.3.10 La matrice de covariance Σ = (σij ) du vecteur X est donnée par
où x = (x1 , . . . , xn )T et f0 est la densité de N (0, 1). Le vecteur aléatoire X suit une loi normale
sur Rp si et seulement s’il existe une matrice p × p A et un vecteur µ ∈ Rp tels que
X = AY + µ, où Y ∼ Np (0, I).
†. Une matrice p × p A est positive (resp. définie positive) si pour tout vecteur a ∈ Rp \ {0}, aT Aa " 0
(resp. aT Aa > 0).
16 1 Espace probabilisé, variables et vecteurs aléatoires
0.15 8
6
f(x, y)
0.10
f(x, y)
4
0.05
2
0
−4 −4
4 4
−2 −2
2 2
0 0
y 0 y 0
x x
2 2
−2 −2
4 −4 4 −4
. .
On présente dans un premier temps quelques outils importants pour l’étude des suites de
variables aléatoires, comme le lemme de Borel-Cantelli et diverses inégalités. Ensuite on étudie
différentes notions de convergence qui ont toutes en commun le fait d’être des convergences mé-
triques, point sur lequel nous reviendrons.
Soit (Ω, F , P) un espace probabilisé et (An )n≥0 une suite d’événements. On note
3 %
lim sup An := An
n→∞
k≥0 n≥k
% 3
lim inf An := An .
n→∞
k≥0 n≥k
Ainsi :
lim inf An ⊂ lim sup An .
n→∞ n→∞
Remarque 2.1.2 (Loi de 0 − 1 de Borel-Cantelli) Si (An )n≥1 est une suite des variables
aléatoires indépendantes alors , -
P lim sup An ∈ {0, 1}.
n→∞
Proposition 2.1.4 (Inégalité de Markov) Soit X une variable aléatoire positive telle que E[X]
est définie. Alors, pour tout c > 0,
E[X]
P(X " c) ! .
c
∗. L’image, dû à l’utilisateur KaterBegemot sur de.wikipedia.de, est sous les droits de Creative Com-
mons Attribution-Share Alike 3.0.
2.1 Résultats préliminaires importants 19
et le résultat en découle. ,
⊓
Exercice 2.1.5 Montrer la version suivante de l’inégalité de Markov. Soit h(·) une fonction po-
sitive croissante et E[h(X)] < ∞. Alors pour tout a > 0 tel que h(a) > 0,
E[h(X)]
P(X " a) ! .
h(a)
Proposition 2.1.8 (Inégalité de Hölder) Soit r > 1, 1/r+1/s = 1. Soit X et Y deux variables
aléatoires telles que E[|X|r ] < ∞ et E[|Y |s ] < ∞. Alors, E[|XY |] < ∞ et
1/r 1/s
E[|XY |] ! (E[|X|r ]) (E[|Y |s ]) .
Démonstration. Si X = 0 p.s. ou Y = 0 p.s., l’inégalité est triviale. On suppose donc que E[|X|r ] ̸=
0 et E[|Y |s ] ̸= 0. On note d’abord que pour tout a, b > 0, par concavité † de la fonction log t,
†. http://fr.wikipedia.org/wiki/Fonction_concave
20 2 Suites de variables aléatoires – Notions de convergence
Corollaire 2.1.9 (Inclusion des espaces Lp ) Soit 0 < s < t et X une variable aléatoire telle
que E[|X|t ] < ∞. Alors E[|X|s ] < ∞ et
1/s 4 51/t
(E[|X|s ]) ! E[|X|t ] .
Remarque 2.1.10 L’inégalité précédente implique la chaîne des inégalités entre les moments ab-
solus : 4 51/2 4 51/k
E[|X|] ! E[|X|2 ] ! . . . ! E[|X|k ] .
Proposition 2.1.12 (Inégalité de Jensen) Soit g(·) une fonction convexe ‡ et X une variable
aléatoire telle que E[|X|] < ∞. Alors
g(E[X]) ! E[g(X)].
Démonstration. Par convexité de g, il existe une fonction g6 telle que pour tout x, x0 ∈ R
Définition 2.2.1 On dit qu’une suite (Xn )n!1 converge presque sûrement vers X si
7 8
P {ω : lim Xn (ω) = X(ω)} = 1.
n→∞
On note alors
p.s.
Xn −−−−→ X.
n→∞
Exercice 2.2.3 Montrer que la limite d’une suite presque sûrement convergente est presque sûre
p.s. p.s.
unique, càd. si Xn −−−−→ X et Xn −−−−→ Y , alors P(X = Y ) = 1.
n→∞ n→∞
‡. http://fr.wikipedia.org/wiki/Fonction_convexe
2.2 Convergence de variables aléatoires 21
Proposition 2.2.4 Soit (Xn )n!1 une suite de variables aléatoires. Alors
p.s.
Xn −−−−→ X ⇐⇒ ∀ε > 0, lim P(sup |Xk − X| " ε) = 0.
n→∞ n→∞ k!n
“⇐” : Soient An et C comme ci-dessus et Dε := {lim supn→∞ |Xn − X| > ε}. Car Dε ⊂ An , n " 1,
et P(An ) → 0 on a que P(Dε ) = 0. De plus,
∞ 9
% :
c 1
C = lim sup |Xn − X| >
n→∞ k
k=1
et alors
∞
(
0 ! P(C c ) ! P(D1/k ) = 0. ⊓
,
k=1
Définition 2.2.6 On dit que (Xn )n!1 converge vers X en probabilité si pour tout ε > 0,
P(|Xn − X| ≥ ε) −−−−→ 0.
n→∞
On note alors
P
Xn −−−−→ X.
n→∞
Proposition 2.2.8 (Critère des sous-suites) Les deux assertions suivantes sont équivalentes :
a)
P
Xn −−−−→ X.
n→∞
b) Chaque sous-suite (Xnk )k!1 de (Xn )n!1 contient une sous-suite (Xn′k )k!1 telle que
p.s.
Xn′k −−−−→ X.
k→∞
22 2 Suites de variables aléatoires – Notions de convergence
Démonstration. a) ⇒ b) : Soit (Xnk )k!1 une sous-suite de (Xn )n!1 . Alors il existe une sous-suite
(Xn′k )k!1 telle que
0 1
P |Xn′k − X| > k −1 ! k −2 , k " 1.
Soit ε > 0. On choisit k suffisamment grand que k −1 < ε. Donc,
∞
(
P(sup |Xn′k − X| > ε) ! P(Xn′k − X| > ε)
k!n
r=k
(∞
! P(Xn′k − X| > r−1 )
r=k
∞
(
! r−2
r=k
→ 0 (k → ∞).
p.s.
Proposition 2.2.4 implique donc que Xn′k −−−−→ X.
k→∞
b) ⇒ a) : Soient ε > 0, an := P(|Xn − X| > ε) et (ank )k!1 une sous-suite de (an )n . D’après
p.s.
l’hypothèse, il existe une autre sous-suite (an′k )k!1 telle que Xn′k −−−−→ X. L’exercice ?? implique
k→∞
donc que an′k → 0 lorsque k → ∞ et alors limn→∞ an = 0. ⊓
,
Exercice 2.2.9 Montrer l’unicité de la limite pour la convergence en probabilité.
2.2.3 Convergence Lp
Définition 2.2.10 On dit que (Xn )n≥1 converge vers X dans Lp si
E [|Xn − X|p ] −−−−→ 0.
n→∞
On note alors
Lp
Xn −−−−→ X.
n→∞
Remarque 2.2.11 Soit Lp (Ω) l’espace des variables aléatoires X telles que E|X|p < ∞, et on
définit la norme ∥X∥p = (E|X|p )1/p . Cet espace muni de cette norme est un espace de Banach § ,
i.e. un espace vectoriel normé complet. D’après la proposition 2.1.9, on a Lp (Ω) ⊆ Lq (Ω) pour
p " q.
Proposition 2.2.12
Lp P
Xn −−−−→ X =⇒ Xn −−−−→ X.
n→∞ n→∞
Attention, concernant la convergence dans Lp , le premier point reste vrai, mais pour le second
il faut que le produit soit bien défini et donc il faut que Xn ∈ Lp et Yn ∈ Lq avec 1/p + 1/q = 1.
Lp
Alors Xn Yn ∈ L1 par l’inégalité de Holder et la convergence a lieu dans L1 si Xn −−−−→ X et
n→∞
Lq
Yn −−−−→ Y .
n→∞
Théorème 2.3.1 Soit (Xn )n!1 des v.a. indépendantes et de même loi, de moyenne µ et de va-
riance σ 2 . Alors X n converge en probabilité vers µ.
Une application de la loi faible de grands nombre est une démonstration constructive du théo-
rème de Weierstrass : les polynômes sont dense dans l’espace C([0, 1]) des fonctions continues sur
l’intervalle [0, 1].
Théorème 2.3.3 (Théorème de Weierstrass) Soit f ∈ C([0, 1]). Alors les polynômes de
Bernstein n , -, -
( k n k
Bn (x) = f x (1 − x)n−k
n k
k=1
)n Soient x ∈ [0, 1] et (Xn )n!1 une suite de variables aléatoires i.i.d. de loi B(x). La
Démonstration.
loi de Sn = k=1 Xk est une loi B(n, x), donc
; , -<
Sn
Bn (x) = E f .
n
Fig. 2.1. Le graphe montre une trajectoire n %−→ X̄n (ω), où X̄n = 1
Xi et (Xn )n!1 est une suite de
#
n
v.a. i.i.d. de loi B(0, 5).
Théorème 2.3.4 Soit (Xn )n!1 une suite de v.a. dans L1 , i.e. E[|Xn |] < ∞, indépendantes par
paires et de même loi. Alors X n converge presque sûrement vers E[X1 ].
Démonstration. Sans perte de généralité on suppose que Xn " 0 p.s. ; i.e. P(X " 0) = 1. Le cas
général suivra en décomposant Xn = Xn+ + Xn− . On définit
2.3 Lois des grands nombres 25
Fig. 2.2. Les polynômes de Bernstein pour n ∈ {5, 10, 30} convergeant vers une fonction dont le graphe
est en noir.
n
1(
Yn = Xn 1{−n"Xn "n} et Tn = Yi .
n i=1
(i) : On va d’abord montrer qu’il est suffisant de prouver que Tn − E[Tn ] → 0 p.s. En utilisant le
théorème de convergence dominée, on obtient que E[Yn ] → E[X1 ] = µ. D’où E[Tn ] → µ. De plus,
( ( (
P(Yn ̸= Xn ) ! P(Xn " n) = P(X1 " n)
n!1 n!1 n!1
((
= P(X1 ∈ [k, k + 1[)
n!1 k!n
(( k
= P(X1 ∈ [k, k + 1[)
k!1 n=1
(
= kP(X1 ∈ [k, k + 1[) ! E[X1 ] < ∞.
k!1
et donc Tn − X̄n → 0 presque sûrement. Donc si on sait que Tn − E[Tn ] → 0 p.s. alors E[X̄n ] → µ.
(ii) : Soient α > 1 et kn = [αn ] ¶ . On note que kn a une croissance exponentielle. Dans la suite on
note C une constante qui peut changer d’une ligne à une autre. La densité de X1 est notée f ; le
cas discret est laissé en exercice. On se donne ε > 0. On obtient les inégalités suivantes :
∞
( (∞
Var (Tkn )
P(|Tkn − E[Tkn ]| > ε) ! (Chebyshev)
n=1 n=1
ε2
∞
( kn
1 (
= Var (Ym ) (indépendance par paires)
n=1
ε2 kn2 m=1
et alors
1
E[X1 ] ! lim inf Tn ! lim sup Tn ! αE[X1 ].
α n→∞ n→∞
Soit (Ω, F , P) un espace probabilisé. On considère une >famille de sous-tribus {Fi }i∈I de F .
Pour!chaque sous-ensemble non-vide J ⊂ I on écrit FJ := j∈J Fj pour la sous-tribu engendrée
par j∈J Fj . Si J = ∅ on définit F∅ := {∅, Ω}. La tribu de queue T de {Fi }i∈I est définie par
3
T := FJ c , où J c = I \ J.
J⊂I
|J|<∞
Théorème 2.4.1 (Loi du 0 − 1 de Kolmogorov) Soit {Fi }i∈I une famille de sous-tribus in-
dépendantes. Alors la tribu de queue est triviale, càd. P(A) ∈ {0, 1} pour tout A ∈ T .
2.4 Appendice : Théorèmes fondamentaux en théorie de la mesure 27
Théorème 2.4.4 (Théorème de convergence monotone) Soit (Xn )n!1 une suite de v.a. po-
sitives telle que Xn ↗ X p.s. Alors E[Xn ] ↗ E[X].
,
lim P(An ) = E[ lim An ] = P(A).⊓
n→∞ n→∞
Théorème 2.4.5 (Lemme de Fatou) Let (Xn )n!1 une suite des v.a. non-negatives. Alors
Démonstration. On pose X := lim inf n→∞ Xn = limn→∞ (inf k!n Xk ) et Yn = inf k!n Xk . Comme
Yn ! Yn+1 on peut appliquer le théorème de convergence monotone : E[Yn ] → E[X]. De plus, on
a que Yn ! Xn p.s. et donc E[Yn ] ! E[Xn ]. Finalement,
,
E[X] = E[ lim Yn ] = lim E[Yn ] = lim inf E[Yn ] ! lim inf E[Xn ].⊓
n→∞ n→∞ n→∞ n→∞
Exercice 2.4.6 Formuler une version du lemme de Fatou en utilisant lim sup au lieu de lim inf.
Théorème 2.4.7 (Théorème de convergence dominée) Soit (Xn )n!1 une suite de v.a. telle
que Xn → X p.s. et |Xn | < Y p.s. pour une v.a. Y telle que E[Y ] < ∞. Alors
Démonstration. On sait que E[X] < ∞ car X = lim inf n→∞ Xn = lim supn→∞ Xn . Le Lemme de
Fatou (appliqué deux fois) nous permet de conclure
,
E[X] = E[lim inf Xn ] ! lim inf E[Xn ] ! lim sup E[Xn ] ! E[lim sup Xn ] = E[X].⊓
n→∞ n→∞ n→∞ n→∞
Exercice 2.4.8 Donner une suite (Xn )n!1 qui converge p.s. vers une v.a. X et qui est telle que
E[Xn ] ̸→ E[X].
3
Convergence en loi, fonctions caractéristiques, théorème
central limite
On étudie dans cette section la convergence des lois de suites de v.a. Les outils développés
permettrons d’énoncer un des théorèmes les plus importants de la théorie : le théorème central
limite.
On notera C(F ) pour les points de continuité d’une fonction de répartition F . Comme F est mono-
tone croissante (et continue à droite) l’ensemble des points de discontinuité C(F )c est dénombrable.
L L
Remarque 3.1.2 La limite en loi est unique, càd. Xn −−−−→ X et Xn −−−−→ Y implique que X
n→∞ n→∞
et Y ont la même loi. Soient F et G les fonctions de répartitions de X et Y . Alors, on a que
Car F et G sont continue à droite et (C(F ) ∩ C(G))c est dénombrable, on trouve que F (t) = G(t)
pour tout t ∈ R.
Proposition 3.1.3
P L
Xn −−−−→ X =⇒ Xn −−−−→ X.
n→∞ n→∞
alors
F (t − ε) ! Fn (t) + P(|Xn − X| " ε) d’où F (t − ε) ! lim inf Fn (t).
n→∞
Exercice 3.1.4 Donner une suite (Xn )n!1 qui converge en loi mais pas en probabilité.
Théorème 3.1.5 (Théorème de Skorohod) Soient X, X1 , X2 , . . . des v.a. sur (Ω, F , P) telles
L 6 F6, P)
6 telles que
que Xn −−−−→ X. Alors, ils existent des v.a. Y, Y1 , Y2 , . . . sur un espace (Ω,
n→∞
!
P−p.s.
P6Y = PX , P6Yn = PXn , n " 1, et Yn −−−−→ Y.
n→∞
Démonstration. On pose (Ω, 6 F, 6 = (]0, 1[, B 1 ∩]0, 1[, PU ), où PU est la loi uniforme sur ]0, 1[. De
6 P)
plus on définit Yn (ω) := Fn (ω), n " 1, Y (ω) := F −1 (ω), où F, F1 , F2 , . . . sont les fonctions de
−1
et
lim sup Yn (ω) ! Y (ω ′ ), ω, ω ′ ∈ Ω, ω < ω ′ .
n→∞
Finalement,
lim Yn (ω) = Y (ω), ∀ω ∈ C(F −1 ).
n→∞
L’assertion suit maintenant car F −1 est monotone et donc C(F −1 )c est dénombrable. ⊓
,
Proposition 3.1.6 Soient g(·) une fonction continue, (Xn )n!1 une suite de v.a. et X une variable
aléatoire. Alors
p.s. p.s.
(i) Xn −−−−→ X =⇒ g(Xn ) −−−−→ g(X),
n→∞ n→∞
P P
(ii) Xn −−−−→ X =⇒ g(Xn ) −−−−→ g(X),
n→∞ n→∞
L L
(iii) Xn −−−−→ X =⇒ g(Xn ) −−−−→ g(X).
n→∞ n→∞
6 Ω
P( 61 ) = 1 où Ω
61 := Ω
60 ∩ Y −1 (C(g)) ∈ F6.
3.1 Convergence en loi 31
Pour tout ω ∈ Ω 61 on a que limn→∞ g(Yn (ω)) = g(Y (ω)) et alors que g(Yn ) → g(Y ) P-p.s.
6
L’exercice 2.2.7 et la proposition 3.1.3 impliquent que
L
g(Yn ) −−−−→ g(Y ),
n→∞
pour un ensemble de fonctions dense dans Cb (R). Cet ensemble pourrait être l’espace des polynômes
ou l’espace Cb∞ (R) des fonctions bornées et lisses.
32 3 Convergence en loi, fonctions caractéristiques, théorème central limite
Définition 3.2.1 La fonction caractéristique d’une variable aléatoire réelle X est la fonction φX :
R → C définie par
φX (t) := E[eitX ] = E[cos(tX)] + iE[sin(tX)].
Remarque 3.2.2 Dans le cadre des fonctions caractéristiques, il est très utile de regarder des
variables aléatoires à valeurs dans C. Soient U, V deux v.a. réelles dans un espace (Ω, F , P),
alors Z := U + iV est une v.a. complexe dans Ω, F , P). Dans ce cas C est muni avec la tribu
B(C) = {{u + iv : (u, v) ∈ B} : B ∈ B 2 }. On définit E[Z] := E[U ] + iE[V ], si E[U ] et E[U ] existent.
Les règles de calcul pour l’espérance restent valables pour les v.a. complexes. De plus, on a :
|E[Z]| ! E[|Z|].
Pour voir ceci on considère la représentation en coordonnées polaires : E[Z] = reiθ avec r = |E[Z]|
et θ = arg(E[Z]). Comme Re(e−iθ Z) ! |Z|, il vient
Exemple 3.2.3
a) Si X ∼ B(n, p), alors φX (t) = (1 − p + peit )n .
b) Si X ∼ P(λ), alors φX (t) = exp(λ(eit − 1)).
c) Si X ∼ N (0, 1), alors φX (t) = exp(−t2 /2).
Les points a) et b) sont laissés en exercice. Pour voir c) on pose f (x) = (2π)−1/2 exp(−x2 /2), x ∈
R. Car f (x) = f (−x) et f ′ (x) = −xf (x) on a que
/ ∞
φX (t) = cos(tx)f (x)dx.
−∞
Par le théorème de convergence monotone et une intégration par parties on obtient que
/ ∞ / ∞
φ′X (t) = sin(tx) · (−xf (x))dx = −t cos(tx)f (x)dx = −tφX (t).
−∞ −∞
L’unique solution de cet équation différentielle avec condition initiale φX (0) = 1 est donnée par
φX (t) = exp(−t2 /2).
Le théorème de convergence dominée nous assure que limh→0 E[|eihX−1 |] = 0 et l’affirmation est
démontrée.
c) φ(−t) = E[cos(−tX)] + iE[sin(−tX)] = E[cos(tX)] − iE[sin(tX)] = φX (t).
d) φaX+b = E[eit(aX+b) ] = eitb E[eiaX ] = eitb φ(at).
e) Car |X|r ! 1 + |X|k |, (r = 1, . . . , k) (ou Corollaire 2.1.9), on a E[|X|r ] < ∞. Pour h ̸= 0 on
trouve ; , ihX -<
1 itX e −1
(φ(t + h) − φ(t)) = E e .
h h
On observe que = ihx =
=e − 1= ihx
= = ! |x| et lim e − 1 = ix.
= h = h→0 h
Alors le théorème de convergence dominée nous assure l’existence de la dérivée φ′ de φ et nous
donne la représentation
φ′ (t) = E[iXeitX ], t ∈ R.
La formule pour φ(r) se démontre maintenant par récurrence sur r, 1 ! r ! k. Pour démontrer le
développement de Taylor on utilise que
k−1
( (iy)r (iy)r
eiy = cos(y) + i sin(y) = + (cos(θ1 y) + i sin(θ2 y))
r=0
r! k!
où εk (t) = E[X k (cos(θ1 tx) + sin(θ2 tx) − 1)]. Comme | cos(θ1 tx) + sin(θ2 tx) − 1| ! 3, il vient
|εk (t)| ! 3E[|X k |], et le théorème de convergence dominée implique que limt→0 εk (t) = 0.
f ) On omet la démonstration ici et on renvoie à Shiryayev, Probability, Springer Verlag, 1984,
page 280.
g) Découle de e). ⊓ ,
34 3 Convergence en loi, fonctions caractéristiques, théorème central limite
Démonstration. Il suffit de démontrer le théorème pour n = 2 ; le cas général suit par induction.
On pose, X = X1 et Y = X2 . Par décomposition en partie réelle et partie imaginaire on démontre
que si Z et W sont deux v.a. complexes, intégrables et indépendantes alors E[ZW ] = E[Z]E[W ].
Donc,
φX+Y (t) = E[eit(X+Y ) ] = E[eitX eitY ] = E[eitX ]E[eitY ] = φX (t)φY (t).⊓
,
La dénomination fonction caractéristique suggère que la connaissance de φX suffit pour décrire la
loi de X.
Théorème 3.2.5 (Formule d’inversion) Soit X une v.a. avec fonction de répartition F et
fonction caractéristique φ. On suppose que a, b (a < b) sont des points de continuité de F . Alors,
/ T −ita
e − e−itb
F (b) − F (a) = lim φ(t)dt.
T →∞ −T it
Démonstration. On pose
/ T / T
1 e−ita − e−itb 1 e−ita − e−itb
I(T ) := φ(t)dt = E[eitX ]dt.
2π −T it 2π −T it
Comme = −ita = ==/ =
=e − e −itb = b =
= = = == e −itξ =
dξ = ! b − a,
= it = = =
a
On pose
/ T
sin(x)
S(T ) := dx, T " 0.
0 x
On rappelle ici l’intégrale de Dirichlet :
/ ∞
sin(x) π
dx = . (3.2.1)
0 x 2
On a / T
sin(tθ)
dt = sgn(θ)S(T |θ|), , T " 0, θ ∈ R,
0 t
et donc par symétrie
; / ∞ <
1 sin(t(X − a)) − sin(t(X − b))
I(T ) = E dt = E[g(X, T ],
π 0 t
où
1
g(x, T ) := (sgn(x − a)S(T |x − a|) − sgn(x − b)S(T |x − b|)) .
π
La fonction g(x, T ) est bornée et on obtient avec (3.2.1) que
⎧
⎨ 0 si x < a ou x > b
ψa,b (x) := lim g(x, T ) = 1/2 si x = a ou x = b
T →∞ ⎩
1 si a < x < b.
3.2 Fonctions caractéristiques 35
PX = PY ⇐⇒ φX (t) = φY (t) ∀t ∈ R.
Démonstration. L’implication “=⇒” est triviale. Pour démontrer “⇐=”, on note F et G les fonc-
tions de répartition de X et Y . Soit D les points de continuité (joints) de F et G. Par théorème
3.2.5 on a que F (x) = G(x) ∀x ∈ D. Comme D est dense dans R et les fonctions de répartitions
sont continues à droites on a donc que F = G. ⊓ ,
On ne donnera pas la démonstration générale de ce résultat mais retenons que cela provient des
propriétés de la transformée de Fourier.
Le résultat suivant fait le lien entre la loi des vecteurs et les lois des variables aléatoires
unidimensionnelles : la loi d’un vecteur est entièrement déterminée par toutes les projections
unidimensionnelles.
Théorème 3.2.9 Soient X et Y deux vecteurs aléatoires à valeurs dans Rp . Alors
PX = PY ⇐⇒ PaT X = PaT Y ∀a ∈ Rp .
Exemple 3.2.10 On montre que deux vecteurs aléatoires X et Y à valeurs dans Rp et Rq sont
indépendants si et seulement si la fonction caractéristique φZ (u) du vecteur Z = (X, Y )T peut être
représentée pour tout u = (a, b)T , a ∈ Rp , b ∈ Rq , comme
Théorème 3.2.11 (Théorème de continuité de Lévy-Cramér) Soit (Xn )n!1 une suite de
v.a. réelles de fonctions de répartition Fn et de fonctions caractéristiques φn . Alors, les deux
assertions suivantes sont équivalentes :
a) Il existe une fonction de répartition F telle que Fn → F lorsque n → ∞.
b) La limite φ(t) := limn→∞ φ(t) existe pour tout t ∈ R et φ : R → C est continue en 0.
Si a) et b) sont vérifiés, φ est la fonction caractéristique de F .
Démonstration. L’implication “a) ⇒ b)” découle de proposition 3.1.8 avec h(x) = cos(tx) et
h(x) = sin(tx) (pour t fixé). L’autre direction nécessite la notion de la tension de mesure ; on
renvoie à Shiryayev, Probability, Springer Verlag, 1984, page 322. ⊓,
36 3 Convergence en loi, fonctions caractéristiques, théorème central limite
Soit (Xn )n!1 une suite de v.a. i.i.d. intégrables de moyenne µ. La loi forte des grands nombres
assure que
)n
i=1 Xi p.s.
− µ −−−−−→ 0.
n n→+∞
Le
√ théorème central limite dit que si on dilate cette différence (tendant vers 0) par le facteur
n, on obtient asymptotiquement (i.e. quand n tend vers +∞) une distribution bien précise, qui
est une loi normale, et ce quelque soit la loi des Xi ! Ainsi, ce théorème offre une explication de
l’omniprésence de la loi normale dans la nature : de nombreux phénomènes sont dus à l’addition
d’un grand nombre de petites perturbations aléatoires.
Théorème 3.3.1 (Théorème central limite) Soit (Xn )n!1 une suite de v.a. indépendantes et
de même loi telle que E[X12 ] < ∞. On pose µ := E[X1 ] et σ 2 := Var (X1 ). Alors,
√ , )n -
n i=1 Xi L
− µ −−−−−→ N (0, 1).
σ n n→+∞
Remarque 3.3.2 Le théorème central limite admet plusieurs généralisations qui donnent la
convergence de sommes de variables aléatoires sous des hypothèses beaucoup plus faibles. Ces gé-
néralisations ne nécessitent pas des lois identiques mais font appel à des conditions qui assurent
qu’aucune des variables n’exerce une influence significativement plus importante que les autres.
Telles sont la condition de Lindeberg et la condition de Lyapunov. D’autres généralisations auto-
risent même une dépendance “faible” entre les variables aléatoires.
3.3 Théorème central limite 37
0.20
0.15
0.10
0.05
0.00
Fig. 3.1. Approximation de la loi B(20, 0.5) (en bleu) par une loi normale (en rouge).
0.30
0.12
0.20
0.08
0.10
0.04
0.00
0.00
Fig. 3.2. Approximation d’une loi de Poisson (en bleu) par une loi gaussienne (en rouge) : à gauche
P(5/2), à droite P(10).
4
La loi normale multivariée et quelques propriétés
Nous allons définir une classe de vecteurs aléatoires remarquables, les vecteurs gaussiens, dont
la loi est une généralisation de la loi normale unidimensionnelle.
Une matrice symétrique P s’appelle une matrice de projection (ou projecteur) si et seule-
ment si P 2 = P . Toutes les valeurs propres de P sont 0 ou 1 et le rang de P est le nombre de
valeurs propres égal à 1. Autrement dit, il existe une matrice orthogonale O telle que
, -
Id 0
OT P O = ,
0 0
Exercice 4.1.5 Quelles matrices de l’Exemple 4.1.1 sont des matrices de projections ?
On suppose dans la suite que les dérivées partielles de hi (·), i = 1, . . . , p, existe. Le Jacobien de
la transformation h est défini par
, -
∂hi
Jh (t) = Det (t) .
∂tj i,j
Remarque 4.2.2 Le théorème de fonction inverse implique que sous les conditions de la propo-
sition 4.2.1 la fonction inverse g(·) = h−1 (·) existe partout dans Rp . De plus, Jg (t) = (Jh (t))−1 .
On peut aussi déduire que h(·) vérifie les conditions de la proposition 4.2.1 si et seulement si son
inverse les vérifie.
4.3 Loi normale multivariée et Vecteur gaussien 41
En remarquant que
g(Av ) = {u = g(t) ∈ Rp : t ∈ Av } = {u = g(t) ∈ Rp : gi (t) ! vi , i ∈ 1, . . . , p}
= {u = (u1 , . . . , up )T ∈ Rp : ui ! vi , i ∈ 1, . . . , p},
on obtient / v1 / vp
FX (v) = ··· fY (h(u))|Jh (u)|du, v = (v1 , . . . , vp ) ∈ Rp .⊓
,
−∞ −∞
Un cas particulier et important sont des transformations linéaires. La démonstration du corol-
laire suivant est laissée en exercice.
Corollaire 4.2.4 Soient Y un vecteur aléatoire à valeurs dans Rp avec densité fY , A ∈ Rp×p une
matrice inversible et b ∈ Rp . Alors, la densité de X = AY + b est donnée par
fX (u) = fY (A−1 (u − b))Det(A−1 ) = fY (A−1 (u − b))Det(A)−1 .
Définition 4.3.2 Le vecteur aléatoire X suit une loi normale sur Rp si et seulement s’il existe
une matrice A ∈ Rp×p et un vecteur µ ∈ Rp tels que
X = AY + µ, où Y ∼ Np (0, Id).
On note X ∼ Np (µ, Σ), avec Σ = AAT et on dit que X est un vecteur gaussien.
où t = (t1 , . . . , tp ) ∈ Rp .
Théorème 4.3.5 Soit φ : Rp → C une fonction complexe. Alors, φ est la fonction caractéristique
d’une loi normale Np (µ, Σ) si et seulement s’il existe µ ∈ Rp et une matrice symétrique positive
Σ ∈ Rp×p tels que , -
1 T
φ(t) = exp it µ − t Σt , t ∈ Rp .
T
2
Démonstration. La nécessité est assurée par la proposition 4.3.3. Il reste à démontrer la suffisance.
On commence avec les observations suivantes. Par le théorème de décomposition spectrale
4.1.2, il existe une matrice orthogonale Γ telle que Γ T ΣΓ = Λ, où Λ est une matrice diagonale de
rang k ! p avec des valeurs propres λj , 1 ! j ! k, strictement positives. Alors, par (4.1.1),
p
( p
(
Σ= λj o·j oT·j = a·j aT·j ,
j=1 j=1
M
où a·j = λj o·j sont des vecteurs orthonormés. Maintenant, soit Y ∼ Np (0, I). On considère le
vecteur aléatoire
X = Y1 a·1 + · · · + Yk a·k + µ.
Alors X = AY + µ, où A ∈ Rp×p est telle que les k premières colonnes sont aj , j = 1, . . . , k et les
n−k dernières colonnes sont égales à 0. Donc, X est un vecteur normal p-varié. Pour déterminer sa
fonction caractéristique on utilise la formule (4.3.2). Il nous suffit donc de calculer E[X] et V (X) :
on a E[X] = µ et
k
N O (
V (X) = E (Y1 a·1 + · · · + Yk a·k )(Y1 a·1 + · · · + Yk a·k )T = a·j aT·k = Σ,
j=1
car E[Yi Yj ] = δij . Finalement, par (4.3.2), la fonction caractéristique de X coïncide avec φ(·) de
l’énoncé. ⊓ ,
Remarque 4.3.6 Le théorème précédent entraîne que toute loi normale dans Rp est entièrement
définie par sa moyenne et sa matrice de covariance. Ceci explique la notation Np (µ, Σ).
Dans la suite on va distinguer deux types principaux des lois normales multivariées : la loi normale
non-dégénérée et la loi normale dégénérée.
4.3 Loi normale multivariée et Vecteur gaussien 43
Une loi normale N (µ, Σ) est non-dégénérée si la matrice de covariance Σ est définie positive,
i.e., Σ > 0 ou Det(Σ) > 0. Car en plus, Σ est symétrique, il existe une matrice symétrique A telle
que Σ = A2 = AAT = AT A. Comme Det(Σ) = Det(A)2 > 0, alors Det(A) > 0 et A est inversible.
La fonction caractéristique de X ∼ Np (µ, Σ) est
1 N O
φX (t) = exp(itT µ − tT Σt) = E exp(itT (AY + µ)) = φAY +µ (t), t ∈ Rp ,
2
où Y ∼ Np (0, I). Donc, X = AY + µ, et comme A est inversible on a que Y = A−1 (X − µ). Le
Jacobien de cette transformation linéaire est Det(A−1 ), voir corollaire 4.2.4, et donc la densité de
X est donnée par
, -
−1 −1 1 1 T −1
fX (u) = Det(A) fY (A (u − µ)) = M exp − (u − µ) Σ (u − µ) .
(2π)p/2 Det(Σ) 2
Définition 4.3.7 On dit que X suit une loi normale non-dégénérée Np (µ, Σ) si et seulement si
Σ est strictement positive et X est un vecteur aléatoire de densité
, -
1 1
f (x) = M exp − (x − µ)T Σ −1 (x − µ) .
(2π)p/2 Det(Σ) 2
Une loi normale N (µ, Σ) est dégénérée si la matrice de covariance Σ est dégénérée, i.e.,
Det(Σ) = 0.
Exemple 4.3.8
4 5 considère Σ = 0. Alors, la fonction caractéristique de X ∼ N (µ; 0) est
On
φX (t) = exp itT µ et la loi de X est la fonction de Dirac en µ.
Si Rang(Σ) = k, on obtient (exercice) que tout vecteur X ∼ Np (µ, Σ) peut être représenté
comme
X = AY + µ,
où Y ∼ Np (0, I), A = (a1 , . . . , ak , 0, . . . , 0) et AAT = Σ, avec Rang(A) = k. Toute composante
de X est donc distribuée selon une loi normale univariée (non-dégénérée) ou bien selon une loi de
Dirac.
Théorème 4.3.10 Un vecteur aléatoire X = (X1 , . . . , Xp ) suit une loi normale mutivariée
Np (µ, Σ) si et seulement si toutes les projections univariées aT X, a ∈ Rp , sont des variables
normales univariées.
44 4 La loi normale multivariée et quelques propriétés
On suppose que X est un vecteur normal et on montre que aT X est une v.a. normale pour tout
a ∈ Rp . Équation (4.3.3) implique que pour tout u ∈ Rp on a que
1
φaT X (u) = exp(iuat µ − u2 aT Σa).
2
En posant µ0 = aT µ et σ02 = aT Σa on obtient
1
φaT X (u) = exp(iµ0 u − u2 σ02 )
2
et finalement que
aT X ∼ N (µ0 , σ02 ) = N (aT µ, aT Σa).
Pour la réciproque, on remarque d’abord que si aT X est une variable normale pour tout a ∈ Rp ,
alors E[|X|2 ] < ∞. Pour voir ceci, il suffit de prendre successivement comme a les vecteurs d’une
base orthonormée de Rp . Donc, la moyenne µ = E[X] et la matrice de covariance Σ = V (X) sont
bien définies. On fixe a ∈ Rp . On suppose que aT X suit une loi normale N (m, s2 ). Alors, on a
forcément que
m = E[aT X] = aT µ et s2 = V (aT X) = aT Σa.
De plus, la fonction caractéristique de aT X est
1 1
φaT X (u) = exp(imu − s2 u2 ) = exp(iuaT µ − u2 aT Σa).
2 2
On utilise (4.3.3) pour obtenir
1
φX (a) = φaT X (1) = exp(iaT µ − aT Σa).
2
Étant donné a ∈ Rp arbitraire, on en déduit par le théorème 4.3.5 que X suit une loi Np (µ, Σ).
,
⊓
Remarque 4.3.11 On inclut dans l’énoncé du théorème 4.3.10 la loi de Dirac univariée comme
un cas particulier d’une loi normale, celle qui correspond à la valeur σ 2 = 0.
aT X ∼ N (aT µ, aT Σa).
Y ∼ Nq (Aµ + b, AΣAT ).
4) Soit σ 2 > 0. La loi de X ∼ Np (0, σ 2 Id) est invariante par transformations orthogonales :
si Γ est une matrice orthogonale, alors Γ X ∼ Np (0, σ 2 Id).
5) Tout sous-ensemble de composantes d’un vecteur gaussien p-varié est un vecteur normal :
soit X = (X1T , X2T ), où X1 ∈ Rk et X2 ∈ Rp−k , alors X1 et X2 sont des vecteurs gaussiens.
6) Deux vecteurs gaussiens sont indépendants si et seulement s’ils sont non-corrélés.
4.5 Lois dérivées de la loi normale 45
Exercice 4.3.13 Les densités marginales de la loi Np (µ, Σ) sont normales univariées. La réci-
proque n’est pas vraie : soit la densité jointe des v.a. X et Y donnée par
1 − x2 − y 2
f (x, y) = e 2 e 2 (1 + xy1{−1"x,y"1} ).
2π
Quelle est la loi de X et Y ?
Soient X1 , . . . , Xp des variables aléatoires i.i.d de loi N (0, 1). La loi de la somme
Y = X12 + · · · + Xp2
est la loi du chi-deux à p degrés de liberté et on note Y ∼ χ2p . La densité de la loi du χ2p est
où
46 4 La loi normale multivariée et quelques propriétés
0.5
0.4
k=1
k=2
k=3
k=4
k=8
0.3
f_k(x)
0.2
0.1
0.0
0 2 4 6 8
0 1−1
C(p) = 2p/2 Γ (p/2) ,
On a E[Y ] = p et V (Y ) = 2p.
Exercice 4.5.1 Déduire la formule (4.5.4) et faire le calcul pour l’espérance et la variance. On
pourrait commencer avec p = 1, 2.
y p/2−1
fFp,q (y) = C(p, q) p+q 1{y > 0}, (4.5.5)
(q + py) 2
où
pp/2 q q/2 Γ (p)Γ (q)
C(p, q) = , avec B(p, q) = .
B(p/2, q/2) Γ (p + q)
q 2q2 (p+q−2)
On a E[Y ] = q−2 , pour q > 2, et V (Y ) = p(q−2)2 (q−4) , pour q > 4.
Exercice 4.5.2 On peut montrer que la loi Fp,q peut être approché par la loi de χ2p quand q → ∞.
“Démontrer” ceci d’une manière numérique.
4.6 Théorème de Cochran 47
1.0
0.8
p = 4, q = 2
p = 5, q = 8
0.6
p = 10, q = 10
p = 10, q = 100
f_k(x)
0.4
0.2
0.0
0 2 4 6 8
Soit X ∼ N (0, 1), Y ∼ χ2q deux v.a. indépendantes. La loi de Student à q degrés de liberté
est celle de la variable aléatoire
X
T = P
Y
q
où
√ −1
C(q) = ( qB(1/2, q/2)) .
On constate que t1 est la loi de Cauchy et que tq tend vers N (0, 1) lorsque q → ∞. On remarque
aussi que la loi de tq est symétrique et que ses queues sont plus lourdes que celles d’une loi normale.
Démonstration. 1) On a E[Aj X] = 0 et
0.5
0.4
q=1
q=3
q=6
q = 35
0.3
f_q(x)
0.2
0.1
0.0
−4 −2 0 2 4
est la matrice diagonale des valeurs propres de Aj . Comme Aj est de rang nj on a Rang(Ij ) = nj
et donc
nj
(
2 T
|Aj X| = X ATj Aj X T
= X Aj X = (X T
OjT )Λj (Oj X) T
= Y Λj Y = ηi2 ,
i=1
où Y = Oj X = (η1 , . . . , ηp )T est un vecteur normal ; Y ∼ Np (0, I). Donc, |Aj X|2 ∼ χ2nj . Finale-
ment, par conservation de l’indépendance par transformations mesurables, |Aj X|2 et |Ak X|2 sont
indépendantes pour j ̸= k.
Exercice 4.6.2 Parmi les matrices suivantes, lesquelles peuvent être la matrice de covariance
d’un vecteur aléatoire,
, - , - , - , -
12 −1 −1/2 1 1/2 1 1/2
, , , ?
21 −1/2 −1 1/2 1 1/3 1
Dans la suite on note Σ pour les matrices de covariance et on suppose que X ∼ N2 (0, Σ).
1) Calculer pour chaque matrice Σ les valeurs propres (λ1 , λ2 ) et les vecteurs propres associés
(v1 , v2 ).
2) Donner la loi jointe de v1T X et v2T X.
1) Donner la loi de X + 4Y .
4.7 Théorème de meilleure prévision (optionnel) 49
Remarque 4.7.1 Toutes les propriétés d’espérance conditionnelle, établie pour des variables aléa-
toires, restent vraies dans le cas des vecteurs aléatoires.
Comme dans le cas univarié on introduit la matrice de covariance conditionnelle comme
où le minimum est pris sur toutes fonctions H(·) mesurables de Rp vers Rq . En fait, la meilleure
prévision est l’espérance conditionnelle. On démontre ceci dans le cas de L2 .
∗. On dit que A ! B si la différence B − A est positive définie.
50 4 La loi normale multivariée et quelques propriétés
Théorème 4.7.3 On suppose que E[|Y |2 ] < ∞. Alors la meilleure prévision de Y sachant X est
unique presque sûrement et égale à
p.s.
G(X) = E[Y |X].
Démonstration. Grâce à (4.7.7) il suffit de trouver le minimum parmi les fonctions H(·) telles que
E[|H(X)2 ] < ∞. Pour toute fonction H(X) on a que
N O
E (H(X) − Y )(H(X) − Y )T =
N O
= E ((H(X) − G(X)) + (G(X) − Y ))((H(X) − G(X)) + (G(X) − Y ))T
N O N O
= E (H(X) − G(X))(H(X) − G(X))T + E (H(X) − G(X))(G(X) − Y )T
N O N O
+E (G(X) − Y )(H(X) − G(X))T + E (G(X) − Y )(G(X) − Y )T
Exercice 4.8.2 Démontrer que si la matrice Σ > 0 (dans théorème 4.8.1), alors la matrice Γ est
> 0 p.s.
Remarque 4.8.3 Le théorème 4.8.1) donne une expression pour la fonction de régression multi-
variée m = E[Y |X] et la matrice de covariance conditionnelle
N O
Γ = V (Y |X) = E (Y − m)(Y − m)T .
Remarque 4.8.4 Le théorème de corrélation normale peut être interprété d’une manière géomé-
trique. Soit L2X le sous-espace des vecteurs aléatoires mesurables par rapport à X et de matrice
−1
de covariance finie. Alors ΣY X ΣX X est la projection orthogonale de Y sur L2X et le vecteur
−1 2
Y − ΣY X ΣXX X est orthogonal à LX .
5
Éléments de Statistique
Le but essentiel des statistiques est de comprendre comment on peut faire des conclusions
“sensées” à partir de données aléatoires (bruitées). En d’autres termes, les statistiques cherchent
à démêler une tendance systématique à partir de variations aléatoires et imprévisibles.
En théorie de probabilité on suppose que les v.a. suivent une certaine loi et on veut décrire et
comprendre le comportement de leurs réalisations. En statistique la démarche est inverse, partant
des observations on veut déduire la nature de la loi sous-jacente aux observations.
Un modèle statistique est une description mathématique d’un mécanisme aléatoire qui a gé-
néré des observations. Un tel modèle est dit paramétrique s’il s’exprime à l’aide d’une famille de
distributions F = {Fθ , θ ∈ Θ} ; on suppose que chaque observation est une réalisation d’une loi de
Fθ et on veut déterminer quel θ ∈ Θ explique le “mieux” les observations. En général, on suppose
aussi que les observations sont indépendantes.
Définition 5.1.1 La famille {Fθ , θ ∈ Θ} est appelée modèle statistique ou modèle paramé-
trique.
Exemple 5.1.2 (Modèle de Bernoulli) Le modèle de Bernoulli est donné par F = {B(p), p ∈
[0, 1]}. Il peut modéliser la qualité des pièces mécaniques : 0 si pièce correcte et 1 si pièce défec-
tueuse.
Exemple 5.1.3 (Modèle gaussien) Le modèle gaussien est donné par F = {N (µ, σ 2 ), µ ∈
R, σ 2 > 0}. La paramètre θ = (µ, σ 2 ) du modèle est bidimensionnel et prend ses valeurs dans
Θ = R × R+ . On suppose souvent que soit la variance ou soit la moyenne est connue, dans ce cas
le modèle devient unidimensionnel. Le modèle gaussien est important et est utilisé dans beaucoup
de situations, voir aussi section 3.3.
Remarque 5.1.4 En pratique, l’hypothèse que les Xi sont i.i.d. n’est pas toujours vérifiée. On
peut définir des modèles statistiques sans cette hypothèse. On pose {Pθ , θ ∈ Θ}, où Pθ est la loi
jointe de X1 , . . . , Xn si la vraie valeur du paramètre est θ.
Xi = θXi−1 + ξi , i = 1, . . . , n et X0 = 0,
où θ ∈]0, 1[ est le paramètre inconnue et les v.a. ξi sont indépendantes de même loi ξ1 ∼ N (0, σ 2 ).
Apparemment, les Xi sont pas indépendantes dans ce modèle. La loi jointe Fθ de X1 , . . . , Xn est
donnée par la densité jointe
54 5 Éléments de Statistique
n
2
fθ (x1 , . . . , xn ) = ϕ(xi − θxi−1 )ϕ(x1 ),
i=2
où ϕ est la densité de N (0, 1). Le modèle statistique est {Fθ , θ ∈]0, 1[}.
Remarque 5.1.6 Un modèle statistique n’est jamais plus qu’une représentation idéalisée de la
réalité et donc les conclusions obtenues sont toujours à traiter avec une certaine prudence. Les
résultats sont basés sur les hypothèses explicites sur la famille des lois F et dans le cas ou ces
hypothèses sont fausses les résultats obtenues le sont (très probablement) aussi.
Remarque 5.1.7 Le choix d’un modèle statistique n’est généralement pas univoque et doit être
fait en collaboration avec des experts des domaines d’applications. Un bon modèle statistique se
caractérise par une description la plus juste possible de la réalité (paramètres nombreux, hypothèses
correctes), facilité de manipulation mathématique et production de solutions proches de l’observa-
tion.
Le but est d’identifier Fθ∗ . En supposant que θ → Fθ est une bijection il suffit de trouver la
“vraie” valeur (inconnue) θ∗ . Dans la suite on appelle θQn (X1 , . . . , Xn ) un estimateur de θ où θQn
est une fonction de (X1 , . . . , Xn ). Dans le cas non-trivial, il ne sera jamais possible de trouver la
“vraie” valeur avec probabilité 1. On se contente alors de construire une statistique (un estimateur)
θQn (X1 , . . . , Xn ) qui soit “proche” de la vraie valeur θ∗ . Une estimation de θ est une réalisation
Q 1 , . . . , xn ) d’un estimateur θQn (X1 , . . . , Xn ).
θ(x
b(θn , θ) = Eθ [θQn ] − θ.
Eθ [θQn ] = θ ∀θ ∈ Θ.
Eθ [θQn ] −−−−→ θ ∀θ ∈ Θ.
n→∞
Remarque 5.2.3 On dit que l’estimateur θQn est consistant si θQn → θ en probabilité Pθ . Il est
dit fortement consistant si θQn → θ presque sûrement.
Remarque 5.2.4 Il est important de retenir que dans les définitions ci-dessus il s’agit toujours
d’une suite d’estimateurs et que la convergence doit être vérifiée pour tout θ ∈ Θ.
5.2 Estimation ponctuelle 55
Exercice 5.2.6 Vérifier que Eθ [(θQn − θ)2 ] = Var θ (θQn ) + b(θQn , θ)2 .
Remarque 5.2.7 Le risque d’un estimateur peut être décomposé en Var θ (θQn ) et b(θQn , θ)2 . Ici, la
partie b(θQn , θ)2 du risque contrôle la partie déterministe (systématique) de l’erreur d’estimation,
tandis que Var θ (θQn ) contrôle sa partie stochastique.
2(n − 1) 4 2
Var θ (σ 2 , θn(1) ) = σ et Var θ (σ 2 , θn(2) ) = σ4 .
n2 n−1
Les risques quadratiques sont alors
, -
σ2 2(n − 1) 4 2n − 1 4
R(σ 2 , θQn(1) ) = + σ = σ ,
n n2 n2
2
R(σ 2 , θQn(2) ) = σ4 .
n−1
(2) (1) (1)
On peut donc conclure que pour tout σ 2 > 0, R(σ 2 , θQn ) > R(σ 2 , θQn ), et l’estimateur θQn est plus
(2)
efficace que θQn . Ainsi, un estimateur biaisé peut être plus efficace qu’un estimateur sans biais.
Eθ θQn → θ ∀θ ∈ Θ, et R(θQn , θ) → 0.
L’inégalité de Chebyshev implique que la dernière propriété implique en particulier que l’estimateur
θQn est consistant.
Exercice 5.2.9 (Loi uniforme) On considère le modèle uniforme {U({1, . . . , N }), N ∈ N}.
Deux candidats pour estimer le paramètre N sont
( n
N 6n = 2
Qn = max{X1 , . . . , Xn } et N Xi − 1.
n i=1
Comparer)ces deux estimateurs. Pour le premier, on peut se rappeler que pour une v.a. X " 0 on
∞
a EX = k=0 P(X > k).
56 5 Éléments de Statistique
Le risque quadratique nous permet de comparer deux estimateurs. Soit θQ(1) et θQ(2) deux esti-
(1) (2)
mateurs de θ. Si R(θ, θQn ) ! R(θ, θQn ) pour tout θ ∈ Θ et l’inégalité est stricte pour au moins un
(1) (2)
θ ∈ Θ alors on dit que θQn est plus efficace que θQn .
La relation “plus efficace” n’est pas une relation d’ordre totale. Par exemple, si Θ contient au
(1) (2)
moins deux points θ1 et θ2 alors les deux estimateurs θQn = θ1 et θQn = θ2 ne sont pas comparables.
Cette comparaison relative ne mène donc pas à une comparaison absolue des estimateurs ; en
général il n’existe pas un estimateur le plus efficace, voir aussi l’exemple suivant.
(1)
Exemple 5.2.10 On considère le modèle statistique {N (µ, 1), µ ∈ R} et on pose θQn = X̄n et
θQn2 = 0. Les risques quadratiques sont
1
R(θ, θQn(1) ) = E[(θQn(1) − θ)2 ] = Var (X̄n ) = ,
n
R(θ, θQn(2) ) = E[θ2 ] = θ2 .
√ (2) (1)
Alors, si |θ| < 1/ n le risque de θQn est inférieur au risque de θQn .
Néanmoins, la définition de risque quadratique peut être modifiée de sorte qu’on puisse définir
une notion d’estimateur optimal.
Définition 5.2.11 Pour un estimateur θQn de θ ∈ Θ on appelle
où l’infimum est pris sur tous les estimateurs, est appelée risque minimax sur Θ.
La loi (forte) des grands nombres nous garantie, sous condition d’intégrabilité, que θQn est fortement
consistant.
Remarque 5.2.12 L’estimateur de la méthode de moments n’est pas toujours unique et les esti-
mateurs peuvent avoir de mauvaises performances, voir Exercice 5.2.9.
Remarque 5.2.15 Sous certaines conditions l’estimateur du maximum vraisemblance est forte-
ment consistant et possède des propriétés d’optimalité.
Exercice 5.2.16 Considérons un modèle de Bernoulli X1 , . . . , Xn i.i.d. de loi B(θ). Quel est
l’estimateur du maximum de vraisemblance de θ ?
i.e., l’intervalle de confiance de niveau 1 − α est un intervalle (aléatoire) qui contient le vrai
paramètre avec une probabilité d’au moins 1 − α.
Exemple 5.2.18 (Intervalles de confiance pour une proportion) On suppose que les Xi
suivent
)n une loi Bernouilli de paramètre p. L’estimateur du maximum vraisemblance est pQ =
1
n i=1 1{Xi = 1}. Si on suppose que np " 5 et n(1 − p) " 5 la loi de p Q peut être approxi-
mée par une loi gaussienne. Alors, un intervalle de confiance de niveau 1 − α pour la proportion
p est donné par
A R R B
(n) pQ(1 − pQ) pQ(1 − pQ)
C(X ) = pQ − q1−α/2 , pQ + q1−α/2 .
n n
Les conditions requises, np " 5 et n(1 − p) " 5, ne peuvent pas être vérifiées car on ne connaît
pas la vraie valeur de p ! Par contre, on peut les vérifier a posteriori en remplaçant p par les
bornes de l’intervalle de confiance. Si les conditions ne sont pas satisfaites il faut plutôt utiliser la
méthode exacte. L’intervalle n’est certainement pas unique ; d’autres possibilités sont offertes par
des choix non-symétriques.
Exemple 5.2.19 (Intervalles de confiance pour la moyenne d’une gaussienne) Dans le mo-
dèle {N (θ, σ 2 ), θ ∈ R}, σ > 0 connu, on a
σ σ
C(X (n) ) = [X̄ − √ q1−α/2 , X̄ + √ q1−α/2 ],
n n
Les matrices A et Id − A vérifient les hypothèses du théorème de Cochran, théorème 4.6.1. Comme
Rang(A) = 1 et Rang(Id − A) = n − 1, on a que η1 et η2 sont indépendantes et que |η2 |2 ∼ χ2n−1 .
On a de plus
n
1( σ2
nQ
|η2 |2 = (Xi − X̄)2 = 2n ,
σ i=1 σ
√ X̄ − µ X̄ − µ 1 η
n−1 = P =P ,
σ
Q √σ 1 n"σ2 χ
n n−1
n−1 σ2
Exemple 5.2.22 Dans le modèle {N (θ, σ 2 ), θ ∈ R}, σ > 0 inconnu. La variable aléatoire
X̄ − µ
T =
√σ
"
n−1
NB : c’est presque la même formule que dans le cas σ connu : σ est juste remplacé par son
estimateur.
Remarque 5.2.23 Les quantiles d’une loi normale (ou loi de χ2 , loi de Student etc.) peuvent
être trouvés dans un tableau de valeurs de quantile, e.g. wikipedia, ou avec l’aide d’un logiciel, e.g.
le logiciel libre R.
Exercice 5.2.24 Construire un intervalle de confiance pour la variance dans le modèle gaussien.
Exercice 5.2.25 Dans une population on a dénombré 221023 garçons sur 429440 naissances.
1. Donner une estimation ponctuelle du pourcentage de garçons à la naissance dans cette
population.
2. Donner un intervalle de confiance au niveau 0,99.
3. Avec un niveau de confiance de 0,9, quel est l’intervalle de confiance ?
60 5 Éléments de Statistique
Realité
H0 H1
H0 # erreur 2ème espèce
Test
H1 erreur 1ère espèce #
Exemple 5.3.1 Les tests statistiques ont des nombreux applications, par exemple,
• missile nucléaire ou avion,
• pistage de sida ; + où −,
• medicament ; efficace ou pas efficace,
• test de paternité ; + où −.
Quelles sont les erreurs possibles ? Quels sont les plus graves ?
Remarque 5.3.2 On ne peut pas contrôler les deux erreurs en même temps ! Si possible, il faut
donc choisir l’hypothèse nulle comme l’erreur le plus grave.
On peut contrôler les deux risques :
• l’erreur de première espèce est contrôlée par la construction du test,
• l’erreur de deuxième espèce peut être contrôlée en augmentant la taille de l’échantillon.
H0 : θ∗ ∈ Θ0
H1 : θ∗ ∈ Θ1 .
L’hypothèse nulle (ou l’alternative) est dite simple si Θ0 (ou Θ1 ) ne contient qu’un seul élément.
Dans le cas contraire on parle d’une hypothèse nulle ou d’une alternative composée.
Définition 5.3.3 Un test d’hypothèse est la donnée d’une règle de décision du type :
on rejette H0 ssi X (n) ∈ R,
où R est la région du rejet de H0 .
Définition 5.3.4 La quantité
sup Pθ (X (n) ∈ R)
θ∈Θ0
est le risque de 1ère espèce. Le risque de 2ème espèce est
sup Pθ (X (n) ̸∈ R).
θ∈Θ1
Remarque 5.3.9 Le test du rapport de vraisemblance maximale est un test très puissant. Dans
de nombreux modèles ce test devient asymptotiquement optimal. Pour les tests de deux hypothèses
simples, le test du rapport de vraisemblance est le plus puissant ; dans ce cas le test s’appelle aussi
test de Neyman-Pearson.
Exemple 5.3.10 Considérons le modèle de Bernoulli X1 , . . . , Xn i.i.d. B(θ). Rappelons que :
fθ (X (n) ) = θSn (1 − θ)n−Sn ,
)n
où Sn = i=1 Xi . Soit Θ0 = {θ0 , θ1 } où p0 < p1 . On a
θ1Sn (1 − θ1 )n−Sn
T = .
θ0Sn (1 − θ0 )n−Sn
La règle de décision est alors
R = {T > Cα },
òu Cα est tel que P(T > Cα ) ! α. Comme souvent, on est amené à transformer T en une
statistique dont on sait calculer la loi :
, -S
θ1 (1 − θ0 ) n
T > Cα ⇐⇒ > Cα′ ⇐⇒ Sn > Cα∗ .
θ0 (1 − θ1 )
On rejette donc H0 si Sn > Cα∗ où Cα∗ est tel que P(Y > Cα∗ ) ! α avec Y ∼ B(n; θ0 ).
Exercice 5.3.11 Dans une population le pourcentage d’individus présentant des rides est de 25%.
Sur 200 personnes ayant suivi un traitement anti-rides, on a observé que 40 personnes avaient des
rides. Peut-on dire, au risque α = 5%, que le traitement est efficace ?
Exercice 5.3.12 On sait qu’une maladie atteint 10% des jeunes bovins de la région PACA. Un
chercheur a expérimenté un traitement sur un échantillon de n bœufs. Il a recensé 5% de malades.
Déterminez la valeur minimale de la taille d’échantillon n qui permette de conclure à l’efficacité
du traitement au risque α = 0,05.
62 5 Éléments de Statistique
Lemme 5.1. Soit L(X (n) ) la fonction de vraisemblance dans le modèle gaussien. Alors,
* n
+
1 ( n
max L(X (n) , (µ, σ 2 )) = exp − 2 (Xi − X̄)2 − log(2πσ 2 )
µ 2σ i=1 2
* * n
++
(n) 2 n n 2π ( 2
max L(X , (µ, σ )) = exp − − log (Xi − X̄) .
µ,σ2 2 2 n i=1
Exemple 5.3.14 (Test bilatéral, σ 2 connu) Dans le modèle {N (µ, σ 2 ), µ ∈ R}, σ 2 > 0 connu,
on considère
H0 : µ = µ0 , H1 : µ ̸= µ0 .
Le test du rapport des vraisemblances maximales (RVM) dans ce modèle est donné par la région
de rejet
maxµ L(x, (µ, σ 2 ))
R = {X (n) : S(X (n) " t}, où S(x) = .
L(x, (µ0 , σ 2 ))
On peut transformer ce test en la forme équivalente
R = {|X̄ − µ0 | > Cα }.
Lorsque n → ∞, on a pour tout µ ̸= µ0 que π(θ) → 1. Bien sur que π(µ0 ) = α pour tout n ∈ N.
σ
Q
R = {|X̄ − µ0 | > √ t1−α/2 },
n−1
où t1−α/2 est le 1 − α/2 quantile d’une loi de Student à n − 1 degrés de liberté. Pour le voir, notons
√
que sous Pµ la variable aléatoire n − 1(X̄ − µ)/Q σ suit une loi de Student à n − 1 degrés de liberté,
voir Corollaire 5.2.21.
Exercice 5.3.16 Refaire les deux exemples précédents pour le test unilatéral, i.e.
H0 : µ ! µ 0 , H1 : µ " µ 0 .
5.4 Test du χ2
5.4.1 Test d’adéquation
On considère un échantillon X1 , . . . , Xn d’une loi F (inconnue) qui prend des valeurs dans un
espace E. On veut répondre à la question si la loi F est égale à une loi théorique F0 :
H0 : F = F0
H1 : F ̸= F0 .
On regarde d’abord le cas le plus simple où l’espace E est fini. On suppose donc que E =
{1, . . . , d}. Donc la loi de X1 est donnée par un vecteur stochastique p = (pj )1"j"d et la loi de
référence est notée π = (πj )1"j"d . On suppose que πj > 0 pour tout 1 ! j ! d. L’hypothèse H0
s’exprime donc comme p = π.
Maintenant, l’idée est de trouver une statistique qui est grande si les deux lois sont très diffé-
rentes. On note
(n
Nj = 1{Xi =j}
i=1
pour les effectifs observées et nπj pour les effectifs théoriques. Si les deux lois sont très
différentes, la quantité (Nj − nπj )2 est grande aussi. Observons que cette grandeur est absolue et
il s’avère qu’il vaut mieux regarder :
d
( (Nj − nπj )2
T = Tn = .
j=1
nπj
64 5 Éléments de Statistique
Théorème 5.4.1 Soient X1 , . . . , Xn des v.a. i.i.d. de loi π sur E = {1, . . . , d}, alors
L
Tn −−−−→ χ2d−1 .
n→∞
et donc
Nj − nπj L
√ −−−−→ Zj ,
nπj n→∞
où Zj ∼ N (0, 1 − πj ). Il reste donc à étudier la dépendance entre les v.a. Zj . On calcule d’abord
, - ; <
Ni − nπi Nj − nπj Ni − nπi Nj − nπj
Cov √ , √ = E √ √
nπi nπj nπi nπj
1 4 5
= √ E[Ni Nj ] − E[Ni nπj ] − E[Nj nπi ] + n2 πi πj
n πi πj
1 4 5
= √ E[Ni Nj ] − n2πi πj
n πi πj
1 4 5 √
= √ n(n − 1)πi πj − n2 πi πj = − πi πj .
n πi πj
On considère le vecteur η −(g ·ξ)ξ, où (g ·ξ) est le produit scalaire. On vérifie d’abord que (g ·ξ)ξ est
la projection orthogonale sur la droite ξ et peut s’écrire comme ξξ T η. Donc, η−(g·ξ)ξ = (Id−ξξ T )η
et Rang(Id − ξξ T ) = d − 1 ; le degré de liberté souhaité. Comme une loi normale est déterminée
par sa structure de covariance il reste à vérifier que le vecteur (Z1 , . . . , Zd ) a la même structure de
)d
covariance que η −(g ·ξ)ξ. Ceci implique par théorème 4.6.1 que j=1 Zj2 ∼ χ2d−1 . Donc, regardons
deux coordonnées (i et j) du vecteur η − (g · ξ)ξ :
d
( d
( √ √
√ √
ηi − ηk πk πi et ηj − ηk πk πj .
k=1 k=1
R = {T > tα },
(d 2
(Nj − nπj ) (7 − 10)2 (16 − 10)2 (9 − 10)2
T = = + + ···+ = 14.8.
j=1
nπj 10 10 10
Soient X, Y deux v.a. à valeurs dans EX = {1, . . . , k} et EX = {1, . . . , m}. Les lois sont décrites
par p = (pi ) et q = (qi ). On considère un échantillon (X1 , Y1 ) . . . , (Xn , Yn ) de (X, Y ). Maintenant,
il s’agit de savoir si X et Y sont indépendantes ou pas :
H0 : X et Y sont indépendantes
H1 : X et Y ne sont pas indépendantes.
soient proches de npi qj . Comme on ne connaît pas les probabilités p et q, il faut les estimer :
m
Ni,· 1(
pQi = = Ni,j
n n j=1
k
N·,j 1(
qQj = = Ni,j .
n n i=1
(k ( m
(Nij − nQ pi qQj )2
T = Tn = .
i=1 j=1
nQ
pi qQj
Théorème 5.4.5 Soient X1 , . . . , Xn des v.a. i.i.d. de loi p sur {1, . . . , k} et Y1 , . . . , Yn des v.a.
i.i.d. de loi q sur {1, . . . , m}. Sous l’hypothèse « les Xi et les Yi sont indépendantes », on a
L
Tn −−−−→ χ2(k−1)(m−1) .
n→∞
66 5 Éléments de Statistique
R = {T > tα },
Remarque 5.4.7 L’approximation est raisonnable si les effectifs théoriques nQ pi qQj sont " 5. Sinon
on peut utiliser le test du χ2 de Yates (pour un tableau 2 × 2 et des effectifs supérieures à 2,5) ou
encore le test de Fisher exact.
Pour effectuer un test les données sont très souvent présentées dans un tableau de contingence,
voir tableau 5.2.
#
1 2 ··· m
1 N1,1 N1,2 ··· N1,m N1,·
2 N2,1 N2,2 ··· N2,m N2,·
.. .. .. .. .. ..
. . . . . .
k Nk,1 Nk,2 ··· Nk,m Nk,·
#
N·,1 N·,2 ··· N·,m n
Exemple 5.4.8 Dans un essai thérapeutique “Ditrane”, une question est de savoir si le traitement
de la mère (VIH positive) a un effet sur le statut VIH de l’enfant. Si ce n’est pas le cas, alors le
traitement suivi par la mère n’a pas d’effet sur l’enfant. On pose
data: A
X-squared = 3.7574, df = 1, p-value =
0.05257
Comme la p-valeur est plus grande que 5%, il n’est pas possible de montrer, au risque 5%, que le
traitement a un effet sur le statut VIH de l’enfant. Exercice : refaire ce calcul “à la main”.