Vous êtes sur la page 1sur 69

Table des matières

I PROBABILITES 3

1 Espérance conditionnelle 5
1.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Caractérisation de l’espérance conditionnelle de v.a. de carrés intégrables . . . . . 11

2 Martingales à temps discret 13


2.1 Définitions et propriétés de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Tribus des événements antérieurs . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3 Théorème d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Chaı̂nes de Markov 23
3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2 Chaı̂nes de Markov homogènes . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3 Quelques exemples de chaı̂nes de Markov . . . . . . . . . . . . . . . . . . . 25
3.2 Chaı̂nes de Markov stationnaires à espace d’état dénombrable . . . . . . . . . . . . 27
3.2.1 Equations de Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.3 Récurrence et transcience . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

II STATISTIQUE 33
4 Introduction à la Statistique 35
4.1 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Loi et paramètres d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2 Moyenne et variance empiriques . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.1 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.2 Cas du modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

1
2 TABLE DES MATIÈRES

5 Estimation ponctuelle 43
5.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2 Evaluation et comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . . . 45
5.2.1 Risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.2 Amélioration d’un estimateur sans biais . . . . . . . . . . . . . . . . . . . . 47
5.2.3 Recherche d’un estimateur sans biais optimal . . . . . . . . . . . . . . . . . 48
5.2.4 Estimateurs efficaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3.1 Méthode du maximum de vraissemblance . . . . . . . . . . . . . . . . . . . 54
5.3.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

6 Estimation par région de confiance 57


6.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.2 Construction des régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2.1 Régions fondées sur des pivots . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2.2 Régions de confiance asymptotiques . . . . . . . . . . . . . . . . . . . . . . 59

7 Tests d’hypothèses 61
7.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.2 Méthodes de construction des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.2.1 Estimateurs de paramètres usuels . . . . . . . . . . . . . . . . . . . . . . . . 63
Première partie

PROBABILITES

3
Chapitre 1

Espérance conditionnelle

Dans ce chapitre, nous allons définir l’espérance conditionnelle à une sous-tribu. Seront ensuite
établies des propriétés relatives à cette notion ; il s’agira, dans la plupart des cas, d’étendre les
propriétés usuelles de l’espérance mathématique.

1.1 Définition et exemples


Soit (Ω, A, P ) un espace probabilisé et B une sous-tribu de A. On considère une variable
aléatoire réelle (v.a.r.) X définie sur (Ω, A) et supposée P -intégrable.

Définition 1.1.1. On appelle espérance conditionnelle de X à B toute v.a.r. Y définie sur (Ω, A)
et telle que
(i) Y est P -intégrable ;
(ii) Y est B-mesurable ; R R
(iii) pour tout événement B ∈ B, B X dP = B Y dP .

Le théorème suivant établit l’existence et l’unicité (au sens de l’égalité presque sûre) de l’espérance
conditionnelle d’une v.a.r. à une sous-tribu.

Théorème 1.1.1. Soient une v.a.r. X définie sur (Ω, A) et P -intégrable, et B une sous-tribu de
A. Alors :
(i) il existe une espérance de X conditionnelle à B;
0 0
(ii) soient Y et Y deux espérances de X conditionnelles à B, alors Y = Y R p.s..
Preuve. (i) Si X ≥ 0, on considère la mesure ν définie sur (Ω, A) par ν (A) = A X dP ; c’est une
mesure finie car ν (Ω) = E (X) < +∞. Considérons les restrictions νB = ν|B et PB = P |B . Si,
pour B ∈ B, on a PB (B) = 0, puisque B est alors P -négligeable, il vient
Z
νB (B) = X dP = 0,
B

ce qui prouve que νB  PB . Le théorème de Radon-Nikodym permet alors d’affirmer l’existence


1
R Y ∈ L (Ω, B, PB ) (en particulier,
d’une v.a.r. R YRest B-mesurable et P -intégrable) telle que : ∀B ∈ B,
νB (B) = B Y dPB , c’est à dire B X dP = B Y dP . Dans le cas général, on a X = X+ − X−

5
6 CHAPITRE 1. ESPÉRANCE CONDITIONNELLE

avec X+ = max (X, 0) et X+ = − min (X, 0). Puisque X+ et X− sont positives et P -intégrables, on
déduit de ce qui précède l’existence de v.a.r. B-mesurables et P -intégrables Y+ et Y− vérifiant :
Z Z Z Z
∀B ∈ B, X+ dP = Y+ dP et X− dP = Y− dP.
B B B B

En conséquence, la v.a.r. Y = Y+ − Y− est B-mesurable, P -intégrable et vérifie


Z Z Z Z Z Z Z
∀B ∈ B, Y dP = Y+ dP − Y− dP = X+ dP − X− dP = (X+ − X− ) dP = X dP,
B B B B B B B

ce qui prouve que Y est une espérance de X conditionnelle à B.


(ii)

L’espérance de X conditionnelle à B sera désormais notée E ( X| B) ; les exemples suivants


permettent de la définir explicitement dans quelques cas particuliers importants.

Exemple 1.1.1. Soit B une sous-tribu de A s’écrivant sous la forme B = σ (A1 , · · · , An ) où
les Ai sont des sous-ennsembles disjoints de Ω tels que P (Ai ) > 0 (i = 1, · · · , n). Pour tout
B = Ai1 ∪ · · · ∪ Aip ∈ B et toute v.a. X P -intégrable :

Z p
X   Xp
X dP = E (X1IB ) = E X1IAik = αik P (Aik )
B k=1 k=1

avec :
E (X1IAi )
αi = .
P (Ai )
Pn
La v.a. Y = i=1 αi 1IAi est B-mesurable, P -intégrable et vérifie :
Z n
X p
X   p
X Z
Y dP = E (Y 1IB ) = αi E (1IB∩Ai ) = αik E 1IAik = αik P (Aik ) = X dP ;
B i=1 k=1 k=1 B

on en déduit que
n
X E (X1IAi )
E ( X| B) = Y = 1IAi (p.s.).
i=1
P (Ai )

Exemple 1.1.2. Soit une v.a. Z à valeurs


−1
 dans (E, P (E)) où E = {z1 , · · · , zn } ; on suppose que
les zi sont distincts et que
 −1 P Z ({z i }) > 0 (i = 1, · · · , n). On sait que la tribu engendrée par
Z est alors σ (Z) = Z ({zi }) ; i = 1, · · · , n . L’exemple précédent montre que pour toute v.a.
X P -intégrable, on a :
n  n 
X E X1IZ −1 ({zi }) X E X1I{Z=zi }
E ( X| σ (Z)) = 1
I −1 = 1I{Z=zi } (p.s.).
i=1
P (Z −1 ({zi })) Z ({zi }) i=1 P (Z = zi )

Exemple 1.1.3. Soient X et Z deux v.a.r. admettant une densité conjointe f ; on suppose que
1.2. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE 7

X est P -intégrable. Pour tout B ∈ σ (Z), on a B = Z −1 (A) où A ∈ BR , et :


Z Z Z Z
X dP = X dP = X 1IA ◦ Z dP = x1IA (z) dPX,Z (x, z)
B Z −1 (A) Ω R2
Z Z
= x1IA (z) f (x, z) dx dz = x1IA (z) fZ (z) f X|Z=z (x) dx dz
R2 R2
Z Z 
= 1IA (z) fZ (z) xf X|Z=z (x) dx dz
ZR R

= 1IA (z) fZ (z) E ( X| Z = z) dz


ZR Z Z
= ψ (z) dPZ (z) = ψ (Z) dP = ψ (Z) dP
A Z −1 (A) B

où ψ (z) = E ( X| Z = z) ; comme ψ (Z) est σ (Z)-mesurable on déduit des égalités précédentes que
E ( X| σ (Z)) = ψ (Z) = E ( X| Z) (p.s.).

1.2 Propriétés de l’espérance conditionnelle


Dans ce paragraphe, nous donnons les principales propriétés de l’espérance conditionnelle. Tout
d’abord, il s’agira d’étendre les propriétés de l’espérance mathématique, ensuite des propriétés
propres de l’espérance conditionnelle seront établies.

Proposition 1.2.1. Soit X ∈ L1 (Ω, A, P ) et B une sous-tribu de A.


(i) Si X ≥ 0 p.s. alors E ( X| B) ≥ 0 p.s..
(ii) Si X = a p.s. alors E ( X| B) = a p.s..
(iii) Soit Y ∈ L1 (Ω, A, P ) et (a, b) ∈ R2 ; alors E ( aX + bY | B) = aE ( X| B) + bE ( Y | B) p.s..
(iv) Si X ≥ Y p.s. alors E ( X| B) ≥ E ( Y | B) p.s..
Preuve. (i). Si X ≥ 0 p.s., soit B = {Y < 0} avec Y = E ( X| B). Supposons que P (B) > 0, alors
Z Z
0≤ X dP = Y dP < 0
B B

ce qui est absurde. On en déduit que P (B) = 0, c’est R à dire Y ≥


R 0 p.s..
(ii). Si X = a p.s., alors quelque soit B ∈ B, on a B X dP = B a dP ; par unicité de l’espérance
conditionnelle il vient E ( X| B) = a p.s..
(iii). Quelque soit B ∈ B, on a
Z Z Z Z Z Z
aX+bY dP = a X dP +b Y dP = a E ( X| B) dP +b E ( Y | B) dP = aE ( X| B)+bE ( Y | B) dP ;
B B B B B B

par unicité de l’espérance conditionnelle il vient E ( aX + bY | B) = aE ( X| B) + bE ( Y | B) p.s..


(iv). On applique la propriété (i) et (iii) à la v.a. X − Y . 

Proposition 1.2.2. Soit X ∈ L1 (Ω, A, P ) et B une sous-tribu de A.


(i) E (E ( X| B)) = E (X) ≥ 0.
(ii) Si X est B-mesurable, alors E ( X| B) = X p.s..
(iii) Si X est indépendante de B, alors E ( X| B) = E (X) p.s..
(iv) Si B et sont deux sous-tribus de A, telles que B1 ⊂ B2 , alors E ( X| B1 ) = E ( E ( X| B2 )| B1 )
p.s..
8 CHAPITRE 1. ESPÉRANCE CONDITIONNELLE

(v) Inégalité de Jensen conditionnelle. Si ϕ est une fonction convexe sur R telle que ϕ ◦ X ∈
L1 (Ω, A, P ) , alors : ϕ (E ( X| B)) ≤ E ( ϕ (X)| B) p.s..
Preuve. (i). Puisque Ω ∈ B, on a
Z Z
E (E ( X| B)) = E ( X| B) dP = X dP = E (X) .
Ω Ω

(ii). Quelque soit B ∈ B, on a


Z Z
E ( X| B) dP = X dP
B B

et comme X est B-mesurable, l’unicité de l’espérance conditionnelle donne E ( X| B) = X p.s..


(iii). Quelque soit B ∈ B, on a
Z Z
E (X1IB ) = E (X) E (1IB ) = E (X) dP = E (X) dP
B B

et comme la constante E (X) est B-mesurable, l’unicité de l’espérance conditionnelle donne E ( X| B) =


E (X) p.s..
(iv). Soit Y2 = E ( X| B2 ) ; quelque soit B ∈ B1 , puisque l’on a aussi B ∈ B2 , il vient :
Z Z Z
Y2 dP = X dP = E ( X| B1 ) dP
B B B

donc E ( Y2 | B1 ) = E ( X| B1 ) p.s..
(v). La convexité assure qu’en tout point lr graphe de ϕ est au-dessus de la tangente. Donc
pour tout t ∈ R, il existe β ∈ R tel que ϕ (x) ≥ ϕ (t) + β (x − t) (on peut prendre pour β la dérivée
à gauche ou à droite de ϕ au point t). On en déduit

ϕ (X) ≥ ϕ (E ( X| B)) + β (X − E ( X| B)) ,

d’où, en appliquant l’espérance conditionnelle aux deux membres de cette inégalité, ϕ (E ( X| B)) ≤
E ( ϕ (X)| B) 

Les théorèmes suivants étendent à l’espérance conditionnelle les théorèmes de convergence clas-
siques impliquant l’espérance mathématique.

Proposition 1.2.3. (convergence monotone conditionnelle). Soit (Xn )n∈N une suite croissante de
v.a. positives de L1 (Ω, A, P ) qui converge p.s. vers une v.a. X ∈ L1 (Ω, A, P ). Alors pour toute
sous-tribu B de A, on a p.s. : E ( X| B) = limn→+∞ ↑ E ( Xn | B).
Preuve. La croissance p.s. de la suite (E ( Xn | B))n∈N résulte directement de la proposition 1.2.1.
Pour tout B ∈ B, on obtient en utlisant les propriétés de l’espérance conditionnelle et le théorème
de Beppo-Levi :
Z Z Z Z
X dP = lim ↑ Xn dP = lim ↑ E ( Xn | B) dP = lim E ( Xn | B) dP ;
B n→+∞ B n→+∞ B B n→+∞

puisque limn→+∞ E ( Xn | B) est B-mesurable comme limite de v.a. B-mesurables, l’égalité précédente
et l’unicité de l’espérance conditionnelle permettent de conclure que limn→+∞ E ( Xn | B) = E ( X| B)
p.s. 
1.2. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE 9

Comme conséquence cette proposition, on a le résultat suivant.

Proposition 1.2.4. Soit X ∈ L1 (Ω, A, P ), B une sous-tribu de A et Y une v.a.r. telle que
XY ∈ L1 (Ω, A, P ). Si Y est B-mesurable, alors : E ( XY | B) = Y E ( X| B) p.s..
Preuve. (a). Si Y =1IA avec A ∈ B, on a pour tout B ∈ B :
Z Z Z Z Z Z
XY dP = X 1IA dP = X dP = E ( X| B) dP = 1IA E ( X| B) dP = Y E ( X| B) dP ;
B B A∩B A∩B B B

Pp E ( XY | B) = Y E ( X| B) p.s.. On déduit de ce qui précède que si Y est étagée, Y =


donc
i=1 αi 1IAi avec Ai ∈ B, on a p.s. :
p
X p
X
E ( XY | B) = αi E ( X1IAi | B) = αi 1IAi E ( X| B) = Y E ( X| B) .
i=1 i=1

(b). Si Y ≥ 0 alors Y = lim Yn où (Yn )n est une suite croissante de v.a. étagées B-mesurables
positives. Considérant X+ = max (X, 0) et X− = − min (X, 0), on a donc p.s.

E ( XYn | B) = E ( X+ Yn | B) − E ( X− Yn | B) = Yn (E ( X+ | B) − E ( X− | B)) ; (1.2.1)

par convergence monotone conditionnelle, on obtient p.s. limn→+∞ E ( X+ Yn | B) = E ( X+ Y | B) et


limn→+∞ E ( X− Yn | B) = E ( X− Y | B). Par passage à la limite dans l’égalité (1.2.1) on en déduit
que l’on a p.s. :
E ( X+ Y | B) − E ( X− Y | B) = Y (E ( X+ | B) − E ( X− | B))
c’est à dire E ( XY | B) = Y E ( X| B).
(c). Dans le cas général, on considère la décomposition Y = Y+ −Y− où les v.a. Y+ = max (Y, 0)
et Y− = − min (Y, 0) sont (trivialement) B-mesurables positives. Donc :

E ( XY | B) = E ( XY+ | B) − E ( XY− | B) = Y+ E ( X| B) − Y− E ( X| B) = Y E ( X| B) . 

Proposition 1.2.5. (Lemme de Fatou conditionnel). Soit (Xn )n∈N une suite de v.a. positives de
L1 (Ω, A, P ). Alors pour toute sous-tribu B de A, on a p.s. : E ( lim inf n Xn | B) ≤ lim inf n E ( Xn | B).
Preuve. Pour tout n ∈ N et tout p ≥ n on a inf k≥n (Xk ) ≤ Xp ; donc E ( inf k≥n (Xk )| B) ≤
E ( Xp | B) p.s.. On en déduit l’inégalité E ( inf k≥n (Xk )| B) ≤ inf p≥n E ( Xp | B) p.s., et un passage à
la limite donne
   

lim E inf (Xk ) B ≤ lim inf E ( Xp | B) = lim inf E ( Xn | B) p.s..
n→+∞ k≥n n→+∞ p≥n n

Le résultat recherché est alors déduit de l’égalité suivante obtenue par le théorème de convergence
monotone conditionnel :
       

lim E inf (Xk ) B = E lim inf (Xk ) B = E lim inf Xn B p.s. 

n→+∞ k≥n n→+∞ k≥n n

Proposition 1.2.6. (Théorème de Fatou-Lebesgue conditionnel). Soit (Xn )n∈N une suite de v.a.r
telle qu’il existe une v.a.r. Y de L1 (Ω, A, P ) pour laquelle on a :

∀n ∈ N, |Xn | ≤ Y p.s..
10 CHAPITRE 1. ESPÉRANCE CONDITIONNELLE

Alors pour toute sous-tribu B de A, on a p.s. :


   

E lim inf Xn B ≤ lim inf E ( Xn | B) ≤ lim sup E ( Xn | B) ≤ E lim sup Xn B .

n n n n

Preuve. Les suites de v.a. Y + Xn et Y − Xn étant positives, on peut leur appliquer le lemme de
Fatou conditionnel. On obtient :
 
E lim inf (Y + Xn ) B ≤ lim inf E ( Y + Xn | B) p.s.,

n n

c’est à dire  
E Y + lim inf (Xn ) B ≤ E ( Y | B) + lim inf E ( Xn | B) p.s.,

n n

d’où  
E lim inf (Xn ) B ≤ lim inf E ( Xn | B) p.s..

n n

De même  
E lim inf (Y − Xn ) B ≤ lim inf E ( Y − Xn | B) p.s.

n n

c’est à dire  
E Y + lim inf (−Xn ) B ≤ E ( Y | B) + lim inf E ( −Xn | B) p.s.

n n

d’où  
E lim inf (−Xn ) B ≤ lim inf E ( −Xn | B) p.s..

n n

En remarquant que lim inf n∈N (−un ) = − lim supn∈N (un ) , il vient
 

lim sup E ( Xn | B) ≤ E lim sup Xn B ;
n n

l’inégalité triviale lim inf n E ( Xn | B) ≤ lim supn E ( Xn | B) donne le résultat. 

Cette propriété permet d’établir un théorème de convergence dominée pour l’espérance condi-
tionnelle.

Proposition 1.2.7. (convergence dominée conditionnelle). Soit (Xn )n∈N une suite de v.a. de
L1 (Ω, A, P ) qui converge p.s. vers une v.a. X ∈ L1 (Ω, A, P ). On suppose qu’il existe une v.a.r.
Y de L1 (Ω, A, P ) pour laquelle on a :

∀n ∈ N, |Xn | ≤ Y p.s..

Alors pour toute sous-tribu B de A, on a p.s. : E ( X| B) = limn→+∞ E ( Xn | B).


Preuve. On a p.s. : lim inf n Xn = lim supn Xn = X ; d’où, en appliquant la proposition 1.2.6 :

E ( X| B) ≤ lim inf E ( Xn | B) ≤ lim sup E ( Xn | B) ≤ E ( X| B) p.s.;


n n

ce qui prouve que E ( X| B) = lim inf n E ( Xn | B) = lim supn E ( Xn | B) p.s., c’est à dire E ( X| B) =
limn→+∞ E ( Xn | B) p.s. 
1.3. CARACTÉRISATION DE L’ESPÉRANCE CONDITIONNELLE DE V.A. DE CARRÉS INTÉGRABLES11

1.3 Caractérisation de l’espérance conditionnelle de v.a. de


carrés intégrables
On se restreint maintenant aux v.a. de carrés intégrables ; le résultat suivant est une caractérisation
de l’opérateur d’espérance conditionnelle comme projecteur orthogonal.

Proposition 1.2.8. Soit B une sous-tribu de A. Alors l’espérance conditionnelle à B est le pro-
jecteur orthogonal de L2 (Ω, A, P ) sur L2 (Ω, B, P ).
Preuve. Soit X ∈ L2 (Ω, A, P ), alors pour toute v.a. Z ∈ L2 (Ω, B, P ) on a

hX − E ( X| B) , Zi = hX, Zi − hE ( X| B) , Zi = E (XZ) − E (E ( X| B) Z)
= E (XZ) − E (E ( XZ| B)) = E (XZ) − E (XZ) = 0.;

ce qui montre bien le résultat annoncé. 

Application : cas gaussien


12 CHAPITRE 1. ESPÉRANCE CONDITIONNELLE
Chapitre 2

Martingales à temps discret

2.1 Définitions et propriétés de base


Soit (Ω, A, P ) un espace de probabilité ; on considère F = (Fn )n∈N une famille de sous-tribus de
A.

Définition 2.1.1. La famille F est une filtration si pour tout n ∈ N, on a Fn ⊂ Fn+1 .

Exemple 2.1.1. Lorsque (Xn )n∈N est une suite de v.a., on pose, pour tout n ∈ N, Fn =
σ (X1 , · · · , Xn ). La famille F = (Fn )n∈N est une filtration appellée filtration naturelle associée
à la suite précédente.

Définition 2.1.2. Soit F = (Fn )n∈N une filtration. Une suite de v.a. (Xn )n∈N est dite :
* F-adaptée, si pour tout n ∈ N, Xn est Fn -mesurable.
* F-prévisible, si pour tout n ∈ N, Xn est Fn−1 -mesurable.

Nous pouvons, à présent, définir la notion de martingale (sous-martingale, surmartingale).

Définition 2.1.3. Soit F = (Fn )n∈N une filtration. Une suite de v.a. (Xn )n∈N est une martingale
F-adaptée, ou encore F-martingale, si :
(i) (Xn )n∈N est Fn -adaptée ;
(ii) pour tout n ∈ N, Xn est P -intégrable ;
(iii) pour tout n ∈ N, Xn = E ( Xn+1 | Fn ) p.s..
La suite (Xn )n∈N est une sousmartingale (resp. surmartingale) F-adaptée, ou encore F-sousmartingale
(resp. F-sousmartingale), si les assertions (i) et (ii) sont vérifiées et si l’assertion (iii) est remplacée
par : Xn ≤ E ( Xn+1 | Fn ) p.s.. (resp. Xn ≥ E ( Xn+1 | Fn ) p.s..).

Exemple 2.1.2.
1) Soit X une v.a.r. P -intégrable, on pose Xn = E ( X| Fn ) ; alors (Xn )n∈N est une F-martingale.
En effet, Xn est (trivialement) Fn -mesurable et P -intégrable ; de plus, puisque Fn ⊂ Fn+1 , on a
E ( Xn+1 | Fn ) = E ( E ( X| Fn+1 )| Fn ) = E ( X| Fn ) = Xn p.s..
2) Marche aléatoire dans R. Soit (Xn )n∈N une suite de v.a.r. indépendantes, P -intégrables et
de même espérance mathématique µ ; on considère la filtration naturelle F associée à cette suite

13
14 CHAPITRE 2. MARTINGALES À TEMPS DISCRET

Pn
et on pose Sn = i=0 Xi . La suite (Sn )n∈N est (trivialement) F-adaptée et constituée de v.a.r.
P -intégrables ; de plus,
E ( Sn+1 | Fn ) = E ( Sn | Fn ) + E ( Xn+1 | Fn ) p.s.
Comme Sn est Fn -mesurable, on a E ( Sn | Fn ) = Sn p.s., et, d’autre part, Xn+1 est indépendante
de Fn . D’où E ( Xn+1 | Fn ) = E (Xn+1 ) = µ p.s. ; on en déduit : E ( Sn+1 | Fn ) = Sn + µ p.s.. Ainsi,
(Sn )n∈N est une F-martingale (resp. F-sousmartingale ; F-surmartingale) si, et seulement si, µ = 0
(resp. µ ≥ 0 ; resp. µ ≤ 0).

Remarque 2.1.1.
0
1) Pour une martingale, l’assertion (iii) équivaut à (iii) : ∀n ∈ N, ∀m > n, Xn = E ( Xm | Fn ) p.s..
Pm−1
En effet, on a Xm = Xn + k=n (Xk+1 − Xk ), ce qui implique que
m−1
X
E ( X m | Fn ) = E ( X n | Fn ) + (E ( Xk+1 | Fn ) − E ( Xk | Fn )) p.s.
k=n
m−1
X
= Xn + (E ( E ( Xk+1 | Fk )| Fn ) − E ( Xk | Fn )) p.s. (car Fn ⊂ Fk )
k=n
m−1
X
= Xn + (E ( Xk | Fn ) − E ( Xk | Fn )) p.s.
k=n
= Xn .
De même, pour une sous-martingale (resp. sur-martingale), on a : ∀n ∈ N, ∀m > n, Xn ≤
E ( Xm | Fn ) (resp. Xn ≥ E ( Xm | Fn )) p.s..
2) Si (Xn )n∈N est une F-martingale (resp. F-sousmartingale ; F-surmartingale) alors la suite
(E (Xn ))n∈N est constante (resp. croissante ; resp. décroissante). En effet :
Xn = E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) = E (E ( Xn+1 | Fn )) = E (Xn+1 ) ;
Xn ≤ E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) ≤ E (E ( Xn+1 | Fn )) = E (Xn+1 ) ;
Xn ≥ E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) ≥ E (E ( Xn+1 | Fn )) = E (Xn+1 ) .

Nous allons, à présent, présenter quelques propriétés des sous-martingales.

Proposition 2.1.1. Soit (Xn )n∈N une F-sousmartingale et ϕ une fonction réelle croissante et
convexe. Si, pour tout n ∈ N, ϕ (Xn ) est P -intégrable, alors (ϕ (Xn ))n∈N est une F-sousmartingale.
Preuve. La fonction ϕ est continue, donc mesurable. Puisque Xn est Fn -mesurable, il vient que
ϕ (Xn ) est Fn -mesurable. Comme Xn ≤ E ( Xn+1 | Fn ) p.s., on obtient
ϕ (Xn ) ≤ ϕ (E ( Xn+1 | Fn )) p.s. (car ϕ est croissante)
≤ E ( ϕ (Xn+1 )| Fn ) p.s. (car ϕ est convexe). 
Remarque 2.1.2.
1) Application : Soit (Xn )n∈N une F-sousmartingale ; on pose Xn+ = max (Xn , 0). Alors (Xn+ )n∈N
p
est une F-sousmartingale ; il en est de même de (|Xn | )n∈N pour tout p ∈ N∗ .
2) La conclusion de la proposition précédente reste vraie si (Xn )n∈N est une F-martingale et si ϕ
une fonction réelle convexe (non nécessairement croissante). En effet, on a alors :
ϕ (Xn ) = ϕ (E ( Xn+1 | Fn )) ≤ E ( ϕ (Xn+1 )| Fn ) .
2.1. DÉFINITIONS ET PROPRIÉTÉS DE BASE 15

Nous allons maintenant énoncer un théorème important qui indique comment une sousmartingale
peut être décomposée en la somme d’une martingale et d’un processus croissant. Pour cela, on
définit d’abord :

Définition 2.1.2. Une suite (Xn )n∈N est appellé processus croissant si X0 = 0 et :

∀n ∈ N, Xn ≤ Xn+1 < +∞ p.s.

On a alors :

Théorème 2.1.1. (Décomposition de Doob). Toute F-sousmartingale (Xn )n∈N peut s’écrire de
façon unique (au sens de l’égalité p.s.) sous la forme Xn = Yn +Zn , où (Yn )n∈N est une F-martingale
et (Zn )n∈N est un processus croissant F-prévisible.
Preuve.Pn Posons ∆X0 = X0 et ∆Xn = Xn − Xn−1 (n ≥ 1) ; c’est un processus F-adapté et on a
Xn = k=0 ∆Xk . L’inégalité Xn ≤ E ( Xn+1 | Fn ) p.s. devient alors :
!
Xn Xn Xn
∆Xk ≤ E ∆Xk + ∆Xn+1 Fn = ∆Xk + E ( ∆Xn+1 | Fn ) p.s.


k=0 k=0 k=0

∆Xn+1 | Fn ) ≥ 0 p.s.. Posons d’une part U0 = ∆X0 , Un = ∆Xn − E ( ∆XP


c’est à dire E ( P n | Fn−1 )
n n
(n ≥ 1), Yn = k=0 Uk , et d’autrePn part V 0 = 0, V n = E ( ∆X n | F n−1 ) (n ≥ 1) et Zn = k=0 Vk .
On a clairement Yn + Zn = k=0 ∆X k = X n ; montrons maintenant que (Y n )n∈N est une F-
martingale. Cette suite est (trivialement) F-adaptée et constituée de v.a. P -intégrables ; de plus,
comme

E ( Un+1 | Fn ) = E ( ∆Xn+1 − E ( ∆Xn+1 | Fn )| Fn )


= E ( ∆Xn+1 | Fn ) − E ( E ( ∆Xn+1 | Fn )| Fn ) p.s.
= E ( ∆Xn+1 | Fn ) − E ( ∆Xn+1 | Fn ) = 0 p.s.

il vient
E ( Yn+1 | Fn ) = E ( Yn + Un+1 | Fn ) = Yn + E ( Un+1 | Fn ) = Yn p.s..
Enfin, montrons que (Zn )n∈N est un processus croissant F-prévisible ; il est (trivialement) F-
prévisible, et on a
Zn+1 − Zn = Vn+1 = E ( ∆Xn+1 | Fn ) ≥ 0 p.s..
Ceci termine la démonstration de l’existence de la décomposition annoncée
 0  ; il nous reste à établir
0 0
l’unicité de celle-ci. Soit une autre décomposition Xn = Yn +Zn , où Yn est une F-martingale
 0 n∈N
0 0
et Zn est un processus croissant F-prévisible. On a Z0 = Z0 = 0, ce qui implique Y0 = Y0 =
n∈N
0 0
X0 ; supposons maintenant que pour n ∈ N, on a Zn = Zn et Yn = Yn . Alors :
0
 0   0
  0  0
Zn+1 = E Zn+1 Fn = E Xn+1 − Yn+1 Fn = E ( Xn+1 | Fn ) − E Yn+1 Fn = E ( Xn+1 | Fn ) − Yn p.s.

0 0 0
= E ( Yn+1 + Zn+1 | Fn ) − Yn = E ( Yn+1 | Fn ) + E ( Zn+1 | Fn ) − Yn = Yn − Yn + Zn+1 = Zn+1 p.s. ;
0 0
en conséquence : Yn+1 = Xn+1 − Zn+1 = Xn+1 − Zn+1 = Yn+1 p.s. 
16 CHAPITRE 2. MARTINGALES À TEMPS DISCRET

2.2 Temps d’arrêt


2.2.1 Définition
Soit F = (Fn )n∈N une filtration.

Définition 2.2.1. On appelle temps d’arrêt adapté à F, ou encore F-temps d’arrêt, toute v.a.
T : Ω → N vérifiant :
∀n ∈ N, {T ≤ n} ∈ Fn .

Remarque 2.2.1. La condition précédente équivaut à : ∀n ∈ N, {T = n} ∈ Fn . En effet, si la


première est vraie, alors {T = n} = {T ≤ n} \ {T ≤ n − 1}, ce qui prouve que {T = n} ∈ Fn .
Inversement, si pour tout n ∈ N, {T = n} ∈ Fn , la relation
n
[
{T ≤ n} = {T = k}
k=1

et l’inclusion Fk ⊂ Fn (k = 1, · · · , n) permettent de conclure que {T ≤ n} ∈ Fn .


Nous donnons ci-dessous, deux exemples de temps d’arrêt.

Exemple 2.2.1.
1) Temps d’entrée dans un ensemble. Soient (Xn )n∈N une suite F-adaptée de v.a.r et un borélien
B ∈ BR ; on appelle temps d’entrée dans B la v.a. TB définie par :

TB = inf ({n ∈ N / Xn ∈ B}) .

C’est un F-temps d’arrêt car, pour tout n ∈ N, on a {TB = 0} = {X0 ∈ B} = X0−1 (B) ∈ F0 et,
pour n ≥ 1 :
n−1
! n−1
!
\ \
−1
{TB = n} = {Xk ∈/ B} ∩ {Xn ∈ B} = Xk (B ) ∩ Xn−1 (B) ;
c

k=0 k=0

puisque que, pour k ∈ {0, · · · , n − 1}, on a Fk ⊂ Fn−1 ⊂ Fn , on déduit de la relation précédente


que {TB = n} ∈ Fn .
2) Temps de ruine d’un joueur. Soit un jeu de mise pour lequel un joueur perd ou gagne une unité

de monnaie ; on suppose que le joueurPn a une mise initiale égale à a ∈ N , et on considère la suite
(Xn )n∈N de ses gains. On a Xn = k=1 Uk , où U0 = a et, pour k ≥ 1, Uk ∈ {−1, 1}. Le temps de
ruine de ce joueur est donc
T = inf ({n ∈ N∗ / Xn = 0}) .
La remarque précédente montre que T , qui n’est autre que le temps d’entrée dans {0}, est un
F-temps d’arrêt, où F est une filtration à laquelle est adaptée la suite (Xn )n∈N .

Certaines propriétés liées aux temps d’arrêt, et qui seront utiles dans ce chapitre, sont ras-
semblées dans la remarque suivante.

Remarque 2.2.2.
1) Toute constante dans N est un temps d’arrêt adapté à n’importe quelle filtration F. En effet,
soit T = m ∈ N, on a {T = m} = Ω ∈ Fm , et pour tout n ∈ N − {m}, {T = n} = ∅ ∈ Fn .
2.2. TEMPS D’ARRÊT 17

2) Si T et S sont deux F-temps d’arrêt, alors, posant T ∨ S := max (T, S) et T ∧ S := min (T, S),
les v.a. T ∨ S et T ∧ S sont également des F-temps d’arrêt. Cela provient des relations :

{T ∨ S ≤ n} = {T ≤ n} ∩ {S ≤ n} et {T ∧ S ≤ n} = {T ≤ n} ∪ {S ≤ n} .

3) Les deux remarques précédentes montrent en particulier que si T est un F-temps d’arrêt, alors,
pour tout n ∈ N, T ∧ n est également un F-temps d’arrêt.
4) Soit (Xn )n∈N une suite de v.a. et T un F-temps d’arrêt, alors l’application XT : Ω → R définie
par
XT (ω) = XT (ω) (ω)
est une variable aléatoire. En effet, pour tout borélien B ∈ BR , on a
!
[
−1 −1 −1
XT (B) = XT (B) ∩ Ω = XT (B) ∩ {T = n}
n∈N
[ [
XT−1 Xn−1 (B) ∩ {T = n} ∈ A.
 
= (B) ∩ {T = n} =
n∈N n∈N

2.2.2 Tribus des événements antérieurs


Soit T un F-temps d’arrêt ; posons
!
_ [
F∞ = Fn := σ Fn
n∈N n∈N

et
FT = {A ∈ F∞ / ∀n ∈ N, A ∩ {T ≤ n} ∈ Fn } .
L’ensemble FT est une tribu sur Ω car :

(i) Ω ∈ FT puisque l’on a : ∀n ∈ N, Ω ∩ {T ≤ n} = {T ≤ n} ∈ Fn ;


(ii) soit un événement A dans FT , on a Ac ∈ F∞ et, puisque

{T ≤ n} = (Ac ∩ {T ≤ n}) ∪ (A ∩ {T ≤ n}) ,

il vient :
Ac ∩ {T ≤ n} = {T ≤ n} \ (A ∩ {T ≤ n}) ,
ce qui prouve que Ac ∩ {T ≤ n} ; on en déduit que Ac ∈ S FT ;
(iii) soit (An )n∈N une famille d’éléments de FT , on a m∈N Am ∈ F∞ et, pour tout n ∈ N :
!
[ [
Am ∩ {T ≤ n} = (Am ∩ {T ≤ n}) ∈ Fn ,
m∈N m∈N
S
ce qui prouve que m∈N Am ∈ FT .

On peut alors définir :

Définition 2.2.2. Soit T un F-temps d’arrêt, on appelle tribu des événements antérieurs à T la
tribu FT .
18 CHAPITRE 2. MARTINGALES À TEMPS DISCRET

La proposition suivante donne quelques propriétés de la tribu des événements antérieurs.

Proposition 2.2.1.
(i) Si T et S sont deux F-temps d’arrêt tels que S ≤ T , alors FS ⊂ FT .
(ii) Soit (Xn )n∈N une suite F-adaptée de v.a. et T un F-temps d’arrêt ; alors XT est FT -
mesurable.
Preuve. (i). Si S ≤ T , on a pour tout n ∈ N, {T ≤ n} ⊂ {S ≤ n}, ce qui prouve que {T ≤ n} =
{T ≤ n} ∩ {S ≤ n}. Ainsi, pour tout A ∈ FS , puisque

A ∩ {T ≤ n} = A ∩ {T ≤ n} ∩ {S ≤ n} = (A ∩ {S ≤ n}) ∩ {T ≤ n} ∈ Fn ;

ce qui prouve que A ∈ FS .


(ii). Pour tout B ∈ BR , on a
[ [
XT−1 (B) = XT−1 (B) ∩ {T = n} = Xn−1 (B) ∩ {T = n} ∈ F∞
 

n∈N n∈N

et pour tout n ∈ N :
n
[ n
[
XT−1 (B) ∩ {T ≤ n} = XT−1 (B) ∩ {T = m} = −1
 
Xm (B) ∩ {T = m} ∈ Fn ,
m=0 m=0

ce qui prouve que XT−1 (B) ∈ FT . 

2.2.3 Théorème d’arrêt


Dans ce paragraphe, nous démontrons le théorème suivant connu sous le nom de Théorème d’arrêt
de Doob.

Théorème 2.2.1. Soit (Xn )n∈N une F-martingale (resp. F-sousmartingale ; resp. F-surmartingale)
et (Tn )n∈N une suite croissante de F-temps d’arrêt bornés. Si pour tout n ∈ N on a E (|XTn |) <
+∞, alors (XTn )n∈N est une martingale (resp. sousmartingale ; resp. surmartingale) adaptée à la
filtration (FTn )n∈N .
Preuve. Il suffit de faire la démonstration pour les sous-martingales. Cela revient à montrer que,
pour tout n ∈ N et tout B ∈ FTn , on a E (XTn 1IB ) ≤ E XTn+1 1IB . Remarquons d’abord que,
S+∞
puisque B = m=0 (B ∩ {Tn = m}), il vient :
 
E (XTn 1IB ) = E XTn 1IS+∞
m=0 (B∩{Tn =m})

+∞
!
X
=E XTn 1IB∩{Tn =m}
m=0
+∞
X 
= E XTn 1IB∩{Tn =m}
m=0
+∞
X 
= E Xm 1IB∩{Tn =m} .
m=0
2.3. CONVERGENCE 19

Posons Am = B ∩ {Tn = m} et ϕ (l) = E XTn+1 ∧l 1IAm ; puisque B ∈ FTn on a Am ∈ Fm et
comme les temps d’arrêt Tn sont bornés, il existe N ∈ N tel que Tn ≤ Tn+1 ≤ N . Montrons que
ϕ est croissante sur {m, · · · , N } ; on a pour l ∈ {m, · · · , N } :
  
ϕ (l) = E XTn+1 ∧l 1IAm = E XTn+1 ∧l 1IAm ∩{Tn+1 >l} + E XTn+1 ∧l 1IAm ∩{Tn+1 ≤l}
 
= E Xl 1IAm ∩{Tn+1 >l} + E XTn+1 1IAm ∩{Tn+1 ≤l} ;
c
or, {Tn+1 > l} = {Tn+1 ≤ l} ∈ Fl car Tn+1 est un F-temps d’arrêt et, d’autre part Am ∈ Fl car
Fm ⊂ Fl , donc Am ∩ {Tn+1 > l} ∈ Fl ; de plus,
 comme (Xn )n∈N est une F-sousmartingale, on a
E Xl 1IAm ∩{Tn+1 >l} ≤ E Xl+1 1IAm ∩{Tn+1 >l} . Donc :
 
ϕ (l) ≤ E Xl+1 1IAm ∩{Tn+1 >l} + E XTn+1 1IAm ∩{Tn+1 ≤l}
 
= E XTn+1 ∧(l+1) 1IAm ∩{Tn+1 >l} + E XTn+1 ∧(l+1) 1IAm ∩{Tn+1 ≤l}

= E XTn+1 ∧(l+1) 1IAm
= ϕ (l + 1) ,

d’où la croissance recherchée.


 Par conséquent, ϕ (m) ≤ ϕ (N ) et, puisque ϕ (m) = E (Xm 1IAm ) et
ϕ (N ) = E XTn+1 1IAm , il vient
 
E Xm 1IB∩{Tn =m} ≤ E XTn+1 1IB∩{Tn =m} ,

d’où :
+∞
X 
E (XTn 1IB ) ≤ E XTn+1 1IB∩{Tn =m}
m=0
+∞
!
X
= E XTn+1 1IB∩{Tn =m}
m=0

= E XTn+1 1IB ;

on en déduit XTn ≤ E XTn+1 FTn p.s.. 

Remarque 2.2.3. Comme conséquence immédiate de ce théorème, on a que si T et S sont deux


F-temps d’arrêt bornés vérifiant T ≤ S ; alors :
1) Si (Xn )n∈N est une F-sousmartingale, on a XT ≤ E ( XS | FT ) ;
2) Si (Xn )n∈N est une F-martingale, on a XT = E ( XS | FT ) ;
3) Si (Xn )n∈N est une F-surmartingale, on a XT ≥ E ( XS | FT ) .

2.3 Convergence
Nous allons à présent donner quelques résultats de convergence des martingales. Il s’agit prin-
cipalement de déterminer des conditions sous lesquelles la suite (Xn )n∈N converge de diverses
manières (p.s., en moyenne etc). Pour cela, on besoin des lemmes suivants :

Lemme 2.3.1. Soit (Xn )n∈N une F-sousmartingale ; alors pour tout c > 0 :
 
cP sup (Xn ) > c ≤ sup E Xn+ ,

n∈N n∈N
20 CHAPITRE 2. MARTINGALES À TEMPS DISCRET

où Xn+ = max (Xn , 0).


Preuve. Pour tout n ∈ N,
on pose Tn = min {k ≤ n / Xk > c} ; c’est un F-temps d’arrêt. Posant
Ωn = supk≤n (Xk ) > c , puisque XTn 1IΩn ≥ c 1IΩn , il vient cP (Ωn ) ≤ E (XTn 1IΩn ). D’autre
part, remarquons que Ωn ∈ FTn . En effet, pour m ∈ N : si m > n on a {Tn = m} = ∅, d’où Ωn ∩
{Tn = m} = ∅ ∈ Fm ; si m ≤ n, on a
m−1
!
\
{Tn = m} = {Xk ≤ c} ∩ {Xm > c} ,
k=0

ce qui implique {Tn = m} ⊂ Ωn et, par conséquent, Ωn ∩ {Tn = m} = {Tn = m} ∈ Fm . En


appliquant la remarque 2.2.3 aux deux F-temps d’arrêts bornés Tn et n il vient, puisque Tn ≤ n :

E (XTn 1IΩn ) ≤ E (Xn 1IΩn ) ≤ E Xn+ ;




S+∞
donc : cP (Ωn ) ≤ E (Xn+ ). Puisque {supn∈N (Xn ) > c} = n=0 Ωn et comme (Ωn )n≥0 est une
famille croissante, on a
 
cP sup (Xn ) > c = lim ↑ cP (Ωn ) = sup (cP (Ωn )) ≤ sup E Xn+ .


n∈N n→+∞ n∈N n∈N

Pour tous réels a < b, on définit le nombre de franchissements de [a, b] en descendant, noté
γa,b (X), comme la borne supérieure des entiers m tels qu’existent b1 < a1 < b2 < a2 < · · · < bm <
am dans N vérifiant Xak < a et Xbk > b pour k = 1, · · · , m. On a alors le résultat suivant dont
une démonstration peut être trouvé dans Doukhan et Sifre (2002)1 :

Lemme 2.3.2. Soit (Xn )n∈N une F-sousmartingale ; alors :


  
+
(b − a) E (γa,b (X)) ≤ sup E (Xn − b) .
n∈N

Ces lemmes permettent d’obtenir le premier résultat de convergence suivant :

Théorème 2.3.1. Soit (Xn )n∈N une F-sousmartingale telle que supn∈N (E (Xn+ )) < +∞. Alors
(Xn )n∈N converge presque sûrement et, notant X∞ la v.a. limite, on a pour tout n ∈ N, Xn ≤
E ( X∞ | Fn ).   
+ +
Preuve. Puisque (Xn − b) ≤ Xn + + b− , on a donc supn∈N E (Xn − b) < +∞ et le lemme
2.3.2 implique E (γa,b (X)) < +∞ ; donc γa,b (X) < +∞ p.s.. Pour tout ω ∈ Ω, on a γa,b (X (ω)) <
+∞ et la suite (Xn (ω))n∈N ne peut, en conséquence, avoir deux valeur d’adhérences distinctes ;
elle converge. 

Remarque 2.3.1. Puisque Xn+ ≤ |Xn |, une condition suffisante pour avoir la convergence p.s. est
donc supn∈N (E (|Xn |)) < +∞.

On a aussi le théorème suivant qui établit des conditions pour une convergence en moyenne :
1 P. Doukhan, J.C. Sifre, Cours d’analyse : calcul différentiel, intégration et probabilités. Dunod, 2002.
2.3. CONVERGENCE 21

Théorème 2.3.2. Soit (Xn )n∈N une F-martingale ; les trois assertions suivantes sont équivalentes :
(i) (Xn )n∈N converge dans L1 ;
(ii) il existe une v.a. X P -intégrable et vérifiant pour tout n ∈ N : Xn = E ( X| Fn ) p.s. ;
(iii) (Xn )n∈N est uniformément intégrable, c’est à dire :
 

lim sup E |Xn | 1I{|Xn |>t} = 0.
t→+∞ n∈N

Alors la convergence p.s. a aussi lieu et Xn = E ( X| Fn ). Une condition suffisante simple pour
p
(iii) est supn∈N (E (|Xn | )) < +∞ pour un p ≥ 1 ; elle entraı̂ne aussi la convergence dans Lp .
Preuve. (i)⇒(ii). Soit X la limite de (Xn )n∈N dans L1 ; il est clair que X est P -intégrable. Remar-
quons que, puisque pour tout A ∈ A, on a
|E (Xn 1IA ) − E (X1IA )| = |E ((Xn − X) 1IA )| ≤ E (|Xn − X|) ,
il vient E (X1IA ) = limn→+∞ (E (Xn 1IA )). Maintenant, pour n ∈ N , soit A ∈ Fn on a E (Xn 1IA ) =
E (Xn+1 1IA ) ; puisque l’on a aussi A ∈ Fn+1 on obtient, de même, E (Xn+1 1IA ) = E (Xn+2 1IA ), donc
E (Xn 1IA ) = E (Xn+2 1IA ). En continuant ainsi de suite, il vient : ∀p ∈ N, E (Xn 1IA ) = E (Xn+p 1IA ).
D’où
E (Xn 1IA ) = lim E (Xn+p 1IA ) = E (X1IA ) .
p→+∞

Puisque cette dernière égalité est vraie pour tout A ∈ Fn , on en déduit que Xn = E ( X| Fn ).
(ii)⇒(iii). On a |Xn | ≤ E ( |X|| Fn ) p.s. et puisque {|Xn | > t} ∈ Fn , il vient

|Xn | 1I{|X |>t} ≤ E ( |X|| Fn ) 1I{|X |>t} = E |X| 1I{|X |>t} Fn p.s.
n n n

d’où   
E |Xn | 1I{|Xn |>t} ≤ E E |X| 1I{|Xn |>t} Fn = E |X| 1I{|Xn |>t}
et  
sup E |Xn | 1I{|Xn |>t} ≤ sup E |X| 1I{|Xn |>t} ,
n∈N n∈N

ce qui implique limt→+∞ supn∈N E |Xn | 1I{|Xn |>t} = 0. 
(iii)⇒(i) Pour tout ε > 0 il existe tε > 0 tel que supn∈N E |Xn | 1I{|Xn |>tε } < ε. Or
  
E (|Xn | ) = E |Xn | 1I{|Xn |>tε } + E |Xn | 1I{|Xn |≤tε } ≤ E |Xn | 1I{|Xn |>tε } + tε ,
donc supn∈N E (|Xn | ) ≤ ε + tε < +∞. Par conséquent, la remarque 2.3.1 garantit la convergence
p.s. de (Xn )n≥0 ; montrons que cette propriété et l’intégrabilité uniforme impliquent la convergence
dans L1 . Soit X la limite ; pour tout t > 0, on a
 
E (|Xn − X|) ≤ E |Xn − X| 1I{|Xn |≤t}∩{|X|≤t} + E |Xn − X| 1I{|Xn |>t}∩{|X|>t}
et, par convergence dominée, on obtient

lim sup E (|Xn − X|) ≤ 2 sup E |Xn | 1I{|Xn |>t} ;
n n

en faisant t → +∞, il vient lim supn E (|Xn − X|) = 0 donc limn→+∞ E (|Xn − X|) = 0.
p
Si supn∈N (E (|Xn | )) < +∞, l’inégalité de Hölder donne
 p 1/p 1/q
E |Xn | 1I{|Xn |>t} ≤ (E (|Xn | )) P (|Xn | > t) ,
d’où  1/p
 p 1/q
sup E |Xn | 1I{|Xn |>t} ≤ sup (E (|Xn | )) sup P (|Xn | > t)
n∈N n∈N n∈N
et puisque limt→+∞ P (|Xn | > t) = 0, on obtient l’intégrabilité uniforme. 
22 CHAPITRE 2. MARTINGALES À TEMPS DISCRET
Chapitre 3

Chaı̂nes de Markov

3.1 Généralités
3.1.1 Définitions
On considère un espace probabilisé (Ω, A, P ), un espace mesurable (E, E) appellé espace d’états et
un processus (Xn )n∈N .

Définition 3.1.1. On dit que (Xn )n∈N est une chaı̂ne de Markov si, pour toute application f :
(E, E) → (R, BR ) telle que f (Xn ) est P -intégrable pour tout n ∈ N, on a :

∀n ∈ N, E ( f (Xn+1 )| σ (X0 , · · · , Xn )) = E ( f (Xn+1 )| σ (Xn )) .

Remarque 3.1.1.
1) La définition précédente signifie que le processus ne dépend de son passé qu’à travers son passé
immédiat.
2) Une définition équivalente, plus souvent utilisée que la précédente, est donnée par la relation
suivante :
∀A ∈ E, P ( Xn+1 ∈ A| X0 , · · · , Xn ) = P ( Xn+1 ∈ A| Xn ) .

Cette dernière relation nous amène à introduire la notion de transition d’un espace mesurable vers
un autre.

Définition 3.1.2. On appelle transition de l’espace mesurable (E1 , E1 ) vers l’espace mesurable
(E2 , E2 ) toute application Π : E1 × E2 → [0, 1] vérifiant : 
(i) ∀A ∈ E2 , l’application x ∈ E1 7→ Π (x, A) ∈ [0, 1] est mesurable de (E1 , E1 ) vers [0, 1] , B[0,1] ;
(ii) ∀x ∈ E1 , l’application A ∈ E2 7→ Π (x, A) ∈ [0, 1] est une probabilité sur (E2 , E2 ) .

La définition donnée à la remarque revient à écrire

∀A ∈ E, P ( Xn+1 ∈ A| X0 , · · · , Xn ) = Πn (Xn , A)

où Πn (x, A) = P ( Xn+1 ∈ A| Xn = x) ; Πn est, clairement, une transition de (E, E) vers lui-même.

23
24 CHAPITRE 3. CHAÎNES DE MARKOV

3.1.2 Chaı̂nes de Markov homogènes


Définition 3.1.3. On dit que (Xn )n∈N est une chaı̂ne de Markov homogène de loi initiale µ et de
transition Π si :
– PX0 = µ ;
– ∀A ∈ E, P ( Xn+1 ∈ A| X0 , · · · , Xn ) = P ( Xn+1 ∈ A| Xn ) = Π (Xn , A) .

Lorsque E est un ensemble discret, la transition d’une telle chaı̂ne est donnée par des probabi-
lités définies ci-dessous. En effet, prenons E = {xi ; i ∈ I} avec I ⊂ N ; puisque Π est alors une
application de E × P (E) vers [0, 1], elle est entièrement déterminée par la donnée des probabilités
pij = Π (xi , {xj }) = P ( Xn+1 = xj | Xn = xi ) ( (i, j) ∈ I 2 )
appellées probabilités de transition.

Plus particulièrement, lorsque E est un ensemble fini E = {x1 , · · · , xr }, on rassemble les probabi-
lités de transition dans une matrice carrée d’ordre r, et on obtient :

Définition 3.1.4. On appelle matrice de transition de la chaı̂ne de Markov homogène (Xn )n∈N ,
la matrice P = (pij )1≤i,j≤r avec pij = P ( Xn+1 = xj | Xn = xi ).

Cette matrice définit complètement la transition de la chaı̂ne de Markov homogène.

L’un des intérêts des chaı̂nes de Markov homogènes est que, étant donnés la loi initiale et la
transition, on peut déterminer la loi de n’importe quelle v.a. Xn ; nous allons le montrer dans le
cas général, puis on considérera le cas particulier des chaı̂nes à espace d’état fini.

Loi d’un chaı̂ne de Markov homogène


Soit P (E, E) l’ensemble des probabilités sur (E, E) et Π
e l’application de P (E, E) vers lui même
définie par Z
∀µ ∈ P (E, E) , ∀A ∈ E, Π e (µ) = Π (x, A) dµ (x) ;
E
on pose alors
en = Π
Π | ◦ Π ◦{z· · · ◦ Π}
e e e
n fois
et on a :

Proposition 3.1.1. Soit (Xn )n∈N une chaı̂ne de Markov homogène de loi initiale µ et de transition
Π. Alors, notant µn la loi de Xn , on a pour tout n ∈ N∗ , µn = Π
e n (µ).

Preuve. On a pour tous n ∈ N et A ∈ E
µn (A) = P (Xn ∈ A) = P ({Xn ∈ A} ∩ {Xn−1 ∈ E}) (car {Xn−1 ∈ E} = Ω)
Z
= P(Xn ,Xn−1 ) (A × E) = P Xn |Xn−1 =x (A) dPXn−1 (x)
E
Z
= P ( Xn ∈ A| Xn−1 = x) dµn−1 (x)
E
Z
= Π (x, A) dµn−1 (x)
E

e (µn−1 ) (A) ;

on a ainsi montré que µn = Π


e (µn−1 ), ce qui permet de conclure. 
3.1. GÉNÉRALITÉS 25

Cas d’une chaı̂ne à espace d’état fini


La proposition précédente peut être précisée lorsque E est un ensemble fini, E = {x1 , · · · , xr }.
Remarquons tout d’abord que, dans ce cas, tout élément ν de P (E, E) peut être identifié à un
vecteur  
ν1
ν ≡  ...  ,
 

νr
Pr Pr
avec ν1 ≥ 0, · · · , νr ≥ 0 et i=1 νi = 1 ; les νi ne sont autres que les réels vérifiant ν = i=1 νi δxi .
Dans ce contexte, précisons l’application Π e ; on a pour tout ν de P (E, E) et tout i ∈ {1, · · · , r}
Z r
X Z r
X r
X
e (ν) ({xi }) =
Π Π (x, {xi }) dµ (x) = νj Π (x, {xi }) dδxj (x) = νj Π (xj , {xi }) = pji νj ;
E j=1 E j=1 j=1

e (ν) ∈ P (E, E), il vient


et puisque Π
 
r
X r
X Xr
Π
e (ν) = e (ν) ({xi }) δx =
Π  pji νj  δxi .
i
i=1 i=1 j=1

Posant    Pr 
j=1 pj1 νj
e (ν) ({x1 })
Π
e (ν) ≡ 
τ =Π .. ..
= ,
  
 . Pr .
Π (ν) ({xr })
e p
j=1 jr jν

on a alors matriciellement : τ = t Pν. On en déduit

Corollaire 3.1.1. Soit (Xn )n∈N une chaı̂ne de Markov homogène à espace d’état fini de loi initiale

µ1
µ ≡  ... 
 

µr

et de matrice de transition P. Alors, notant



(n)
µ1
 . 
 .. 
µn ≡  
(n)
µr
n
la loi de Xn , on a pour tout n ∈ N∗ , µn = (t P) µ.

3.1.3 Quelques exemples de chaı̂nes de Markov


Nous allons à présent donner des exemples de processus qui sont des chaı̂nes de Markov. Nous
utiliserons la proposition suivante qui donne une condition suffisante pour qu’un processus soit un
chaı̂ne de Markov.
26 CHAPITRE 3. CHAÎNES DE MARKOV

Proposition 3.1.2. Soit (ξn )n∈N∗ une suite de v.a. à valeurs dans (F, F) , indépendantes, de
même loi µ, et indépendantes d’une v.a. X0 . Alors la suite (Xn )n∈N définie, pour n ≥ 1, par
Xn = ϕn (Xn−1 , ξn ), où ϕn : E × F → E est une fonction mesurable, est une chaı̂ne de Markov.
Elle est homogène si on a une fonction mesurable ϕ telle que pour tout n ∈ N∗ , ϕn = ϕ.
Preuve. Considérons T0 = σ (X0 ) et, pour n ≥ 1, Tn = σ (X0 , ξ1 , · · · , ξn ). Pour toute application
f : (E, E) → (R, BR ) telle que f (Xn ) est P -intégrable pour tout n ∈ N, on a : E ( f (Xn+1 )| Tn ) =
E ( f (ϕn+1 (Xn , ξn+1 ))| Tn ) . Puisque ξn+1 et Tn sont indépendantes, il vient : E ( f (Xn+1 )| Tn ) =
gbn (Xn ) p.s., où
Z
gbn (x) = E (f (ϕn+1 (x, ξn+1 ))) = f (ϕn+1 (x, t)) dµ (t) ;
F

or, comme gbn (Xn ) est σ (Xn )-mesurable et σ (Xn ) ⊂ Tn , on a p.s. :

gbn (Xn ) = E ( gbn (Xn )| σ (Xn )) = E ( E ( f (Xn+1 )| Tn )| σ (Xn )) = E ( f (Xn+1 )| σ (Xn )) .

Pour finir, remarquons que σ (X0 , · · · , Xn ) ⊂ Tn , donc p.s. :

E ( f (Xn+1 )| σ (X0 , · · · , Xn )) = E [ E ( f (Xn+1 )| σ (X0 , · · · , Xn ))| Tn ]


= E [ E ( f (Xn+1 )| Tn )| σ (X0 , · · · , Xn )]
= E [ gbn (Xn )| σ (X0 , · · · , Xn )]
= gbn (Xn )
= E ( f (Xn+1 )| Tn ) ;

en conséquence,

E ( f (Xn+1 )| σ (X0 , · · · , Xn )) = E ( f (Xn+1 )| Tn ) = gbn (Xn ) = E ( f (Xn+1 )| σ (Xn )) .

Si, pour tout n ∈ N∗ , ϕn = ϕ on a gbn = gb où


Z
gb (x) = E (f (ϕ (x, ξn+1 ))) = f (ϕ (x, t)) dµ (t) ;
F

on a alors pour tout A ∈ E, en prenant f =1IA ,


Z
gb (x) = 1IA (ϕ (x, t)) dµ (t) = Π (x, A) . (3.1.1)
F

l’application Π est, clairement, une transition et on a

P ( Xn+1 ∈ A| X0 , · · · , Xn ) = gb (Xn ) = Π (Xn , A) ,

ce qui montre que la chaı̂ne de Markov est homogène de transition Π. 

Maintenant, nous donnons quelques exemples.

Exemple 3.1.1. Marche aléatoire sur Rp . On considère (ξn )n∈N∗ une suite de v.a. indépendantes
à valeurs (Rp , BRp ), de même loi µ et indépendante d’une autre v.a. X0 à valeurs (Rp , BRp ). On
Pnque l’on appelle marche aléatoire le processus (Xn )n∈N défini, pour n ≥ 1, par Xn =
rappelle
X0 + i=1 ξi . Il est clair que, pour n ≥ 1, on a Xn = Xn−1 + ξn = ϕ (Xn−1 , ξn ) où ϕ : (x, y) ∈
3.2. CHAÎNES DE MARKOV STATIONNAIRES À ESPACE D’ÉTAT DÉNOMBRABLE 27

Rp × Rp 7→ x + y ∈ Rp . La proposition 3.1.2 permet alors de conclure que (Xn )n∈N est une chaı̂ne
de Markov homogène. Sa loi initiale est la loi de X0 et sa transition est définie par (3.1.1) :
Z Z
∀A ∈ BR , Π (x, A) =
p 1IA (x + t) dµ (t) = 1IA−x (t) dµ (t) = µ (A − x) ,
Rp Rp

où A − x = {u ∈ Rp / u = v − x, v ∈ A}.

Exemple 3.1.2. Processus de ramification (ou de branchement). On considère des individus pou-
vant produire d’autres individus du même type (appellés descendants) suivant une loi µ donnée
dans N. On suppose la génération initiale comporte un nombre X0 d’individus. Pour n ≥ 1,
(n)
soient Xn le nombre d’individus à la génération n et ξi le nombre de descendants du i-ème indi-
vidu de la génération n. On suppose que les individus se reproduisent de façon indépendante, et
indépendamment du nombre initial d’individus. On s’intéresse au processus (Xn )n∈N ; on a pour
PXn−1 (n−1)
n ≥ 1, Xn = Xn−1 + i=1 ξi . On peut écrire Xn = ϕ (Xn−1 , ξn ) , avec :
 
(n−1)
ξn = ξi ∈ S,
i∈N∗

où S est l’ensemble des suites de nombres entiers naturels, et


+∞
X
ϕ : (p, u) ∈ N∗ × S 7→ p + ui 1IN∗ \{1,··· ,i−1} (p) ∈ N∗
i=1
Pm
Puisque pour tout m ∈ N∗ , l’application ϕm : (p, u) ∈ N∗ × S 7→ p + i=1 ui 1IN∗ \{1,··· ,i−1} (p) est
mesurable, il vient que ϕ, qui s’écrit ϕ = supm∈N∗ (ϕm ) est également mesurable. La proposition
3.1.2 permet alors de conclure que (Xn )n∈N une chaı̂ne de Markov homogène.

3.2 Chaı̂nes de Markov stationnaires à espace d’état dénombrable


Dans tout ce qui suit, on suppose que E est un ensemble dénombrable, E = {xi ; i ∈ I} avec
I ⊂ N. On considère une chaı̂ne de Markov (Xn )n∈N à valeurs dans E et supposée stationnaire,
c’est à dire que, pour tout (n, m) ∈ N2 , la loi de (Xn , · · · , Xn+m ) est la même que celle de
(X0 , · · · , Xm ). Remarquons d’abord qu’une telle chaı̂ne est nécessairement homogène ; en effet,
puisque (Xn+1 , Xn ) et (X1 , X0 ) ont la même loi, la loi de Xn+1 conditionnelle à Xn est la même
que la loi de X1 conditionnelle à X0 ; par conséquent, pour tout n ∈ N et tout (x, A) ∈ E × P (E) ,
on a :
Πn (x, A) = P ( Xn+1 ∈ A| Xn = x) = P ( X1 ∈ A| X0 = x) = Π0 (x, A) ,
ce qui montre bien que Πn ne dépend pas de n.

3.2.1 Equations de Chapman-Kolmogorov


Pour (i, j) ∈ I 2 et m ∈ N∗ , on considère la probabilité de passer de l’état xi à l’état xj en m
transitions donnée par
(m)
pij = P ( Xn+m = xj | Xn = xi ) = P ( Xm = xj | X0 = xi ) ;

on voudrait exprimer ces probabilités en fonction des probabilités de transition. Cela provient du
théorème suivant donnant les équations de Chapman-Kolmogorov :
28 CHAPITRE 3. CHAÎNES DE MARKOV

2
Théorème 3.2.1. Pour tous (i, j) ∈ I 2 , n ∈ N∗ et (r, s) ∈ (N∗ ) tel que r + s = n, on a
(n) P (r) (s)
pij = k∈I pik pkj .
Preuve. On effectue une récurrence sur n. Pour n = 2, on a
(2) P (X2 = xj , X0 = xi ) X P (X2 = xj , X1 = xk , X0 = xi )
pij = P ( X2 = xj | X0 = xi ) = =
P (X0 = xi ) P (X0 = xi )
k∈I
X P ( X2 = xj | X1 = xk , X0 = xi ) P (X1 = xk , X0 = xi )
=
P (X0 = xi )
k∈I
X
= P ( X2 = xj | X1 = xk , X0 = xi ) P ( X1 = xk | X0 = xi )
k∈I
X
= P ( X2 = xj | X1 = xk ) P ( X1 = xk | X0 = xi )
k∈I
(1) (1)
X
= pik pkj .
k∈I

Supposons maintenant que la relation est vraie jusqu’à l’ordre n − 1, alors :


(n) P (Xn = xj , X0 = xi ) X P (Xn = xj , Xn−1 = xk , X0 = xi )
pij = P ( Xn = xj | X0 = xi ) = =
P (X0 = xi ) P (X0 = xi )
k∈I
X P ( Xn = xj | Xn−1 = xk , X0 = xi ) P (Xn−1 = xk , X0 = xi )
=
P (X0 = xi )
k∈I
X
= P ( Xn = xj | Xn−1 = xk , X0 = xi ) P ( Xn−1 = xk | X0 = xi )
k∈I
X
= P ( Xn = xj | Xn−1 = xk ) P ( Xn−1 = xk | X0 = xi )
k∈I
(n−1) (1)
X
= pik pkj .
k∈I
(n−1) P (r) (s−1)
Or n − 1 = r + s − 1 ; en utilisant l’hypothèse de récurrence, on obtient pik = l∈I pil plk ,
donc
(n)
X X (r) (s−1) (1) X (r) X (s−1) (1)
pij = pil plk pkj = pil plk pkj ,
k∈I l∈I l∈I k∈I
et comme s < n, une nouvelle utilisation de l’hypothèse de récurrence donne
X (s−1) (1) (s)
plk pkj = plj .
k∈I
(n) P (r) (s)
Finalement, on obtient pij = l∈I pil plj . 
(m)
Ces relation permettent d’exprimer les probabilité pij en fonction des probabilités de transitions.
Lorsque E est un ensemble fini, on obtient un résultat particulièrement simple, donné dans le
corollaire suivant.

Corollaire 3.2.1. Si E est un ensemble  E = {x1 , · · · , xr }. Soit P la matrice de transition et,


 fini,
(n)
pour tout n ∈ N∗ , la matrice P(n) = pij . Alors P(n) = Pn .
1≤i,j≤r
(n) Pr (n−1) (1) Pr (n−1)
Preuve. D’après le théorème précédent, on a pij = k=1 pik pkj = k=1 pik pkj . Cela
(n) (n−1) (n) n
équivaut à la relation matricielle P = P P qui implique P = P . 
3.2. CHAÎNES DE MARKOV STATIONNAIRES À ESPACE D’ÉTAT DÉNOMBRABLE 29

3.2.2 Classification des états


Définition 3.2.1. On dit que l’état xj est accessible à partir de l’état xi , on note xi → xj , s’il
(n)
existe n ∈ N tel que pij > 0. On dit que les états xi et xj communiquent, on note xi ↔ xj , si
xi → xj et xj → xi .

Proposition 3.2.1. La relation ↔ est une relation d’équvalence sur E.


Preuve. La reflexivité et la symétrie sont évidentes. Il reste à prouver la transitivité ; si xi ↔ xj et
(n) (m) (r) (s)
xj ↔ xl , il existe (n, m, r, s) ∈ N4 tel que pij > 0, pji > 0, pjl > 0 et plj > 0. En utilisant le
théorème 3.2.1, on peut écrire
(n+r)
X (n) (r) (n) (r)
pil = pik pkl ≥ pij pjl > 0
k∈I

et
(s+m) (s) (m) (n) (m)
X
pli = plk pki ≥ plj pji > 0,
k∈I
ce qui prouve que xi ↔ xl . 

On peut donc regrouper les différents états dans les classes d’équivalence induite par cette relation
d’équivalence ; cela revient à considérer l’ensemble quotient E de E par la relation ↔. Cette
opération s’appelle classification des états de la chaı̂ne de Markov.

Définition 3.2.2. On dit que la chaı̂ne de Markov est irréductible si E est réduit à une seule
classe.

Il convient maintenant de rechercher les propriétés qui sont communes aux états d’une même classe.

Définition 3.2.3. Soit xi ∈ E. On appelle période de l’état xi l’entier


n o
(n)
Ti = P GCD n ∈ N∗ / pii > 0 ,

avec la convention P GCD (∅) = 0. Si Ti = 1, on dit que xi est apériodique ; si Ti > 1 on dit que xi
est périodique de période Ti .

On a alors :

Proposition 3.2.2. Si xi ↔ xj , alors Ti = Tj .


(n) (m)
Preuve. Il existe n, m ≥ 0 tels que pij pji > 0 ; le théorème 3.2.1 permet alors d’écrire
(m+n)
X (m) (n) (m) (n)
pjj = pjk pkj ≥ pji pij > 0.
k∈I

(k)
Par conséquent la relation Ti > 0 implique Tj > 0. Soit k tel que pjj > 0, alors, par le théorème
3.2.1,
(m+k+n)
X (n+k) (m) (n+k) (m) (m)
X (n) (k) (m) (n) (k)
pii = pil pli ≥ pij pji = pji pil plj ≥ pji pij pjj > 0
l∈I l∈I

(m+n) (n) (m)


et on a aussi pii ≥ pij pji
> 0. Donc Ti divise n + k + m et n + m ; donc Ti divise Tj . En
tenant le même raisonnement après avoir échangé les rôles de xi et xj , on montre aussi que Tj
divise Ti ; donc Ti = Tj . 
30 CHAPITRE 3. CHAÎNES DE MARKOV

3.2.3 Récurrence et transcience


Définition 3.2.4. Un état xi est dit récurrent lorsque partant de xi , la chaı̂ne revient à xi avec
certitude, c’est à dire : !
+∞
[
P {Xn = xi } X0 = xi = 1.


n=1

Un état est dit transcient s’il n’est pas récurrent.

Nous cherchons maintenant à caractériser les état récurrents. Pour cela, on considère la proba-
bilité de passer de l’état xi à l’état xj en exactement m transitions donnée par

m−1
!

(m)
\
fij =P {Xm = xj } ∩ {Xn =
6 xj } X0 = xi .


n=1

Un première caractérisation est donnée par :


P+∞ (n)
Proposition 3.2.3. L’état xi est récurrent si, et seulement si, n=1 fii = 1.
Preuve. On a !
+∞
[ [n n−1
\
{Xn = xi } = {Xn = xi } ∩ {Xl 6= xi } ,
n=1 n=1 l=1

d’où la relation
! +∞ ! +∞
+∞
[ X n−1
\ X (n)
P {Xn = xi } X0 = xi = P {Xn = xi } ∩ {Xl =
6 xi } X0 = xi = fii


n=1 n=1 l=1 n=1

qui donne la propriété recherchée. 

(n)
Cette caractéristaion n’est pas très utile car les fii sont difficiles, voire impossibles, à calculer
en pratique. On va donc rechercher une autre caractérisation. Pour s ∈ C tel que |s| < 1 posons :
+∞ +∞
(n) (n)
X X
Fi (s) = fii sn ; Gi (s) = pii sn ;
n=0 n=0

on aura besoin du lemme suivant :

Lemme 3.2.1. Gi (s) = 1/ (1 − Fi (s)).


Preuve. On a d’abord
+∞ X
n
! +∞ X
n
!
(k) (n−k) (k) (n−k)
X X
n
Gi (s) Fi (s) = fii pii s = fii pii sn ,
n=0 k=0 n=1 k=0

(0) Pn (k) (n−k)


la dernière égalité étant dûe à : fii = 0. Il faut maintenant chercher à expliciter k=0 fii pii ;
on a
n
(n)
X
P (X0 = xi , Xn = xi ) = pii P (X0 = xi ) = P (Ak ) ,
k=0
3.2. CHAÎNES DE MARKOV STATIONNAIRES À ESPACE D’ÉTAT DÉNOMBRABLE 31

Tk−1
où Ak = {Xn = xi } ∩ {X0 = xi } ∩ {Xk = xi } ∩ l=1 {Xl 6= xi }. De plus,
k−1
! k−1
!
\ \
P (Ak ) = P Xn = xi | {X0 = xi } ∩ {Xk = xi } ∩ {Xl 6= xi } P {X0 = xi } ∩ {Xk = xi } ∩ {Xl 6= xi }
l=1 l=1
k−1
!
\
= P ( Xn = xi | Xk = xi ) P {Xk = xi } ∩ {Xl =
6 xi } X0 = xi P (X0 = xi )


l=1
(n−k) (k)
= pii fii P (X0 = xi ) ;

donc
n n
(n) 1 X X (n−k) (k)
pii = P (Ak ) = pii fii .
P (X0 = xi )
k=0 k=0

En conséquence,
+∞
(n)
X
Gi (s) Fi (s) = pii sn = (Gi (s) − 1) ,
n=1
(0)
le dernère égalité provenant de pii = 1 ; on en déduit la relation annoncée. 

Ce lemme permet d’obtenir la caractéristion recherchée :


P+∞ (n)
Proposition 3.2.4. L’état xi est récurrent si, et seulement si, n=1 pii = +∞.
P+∞ (n)
Preuve. Si n=0 fii = 1, on a alors lims↑1 Fi (s) = 1 ; le lemme précédent implique alors que
P+∞ (n) P+∞ (n)
lims↑1 Gi (s) = +∞, c’est à dire n=1 pii = +∞. Réciproquement, si n=1 pii = +∞, on
a lims↑1 Gi (s) = +∞ et puisque Fi (s) = 1 − 1/Gi (s), il vient lims↑1 Fi (s) = 1, c’est à dire
P+∞ (n)
n=0 fii = 1. 

La proposition suivante montre que la récurrence est une propriété de classe.

Proposition 3.2.5. Si xi ↔ xj , alors xi est récurrent si et seulement si xj est récurrent.


(k) (l)
Preuve. Soient k et l tels que pij pji > 0, on a alors

(k+n+l) (l) (k+n) (l) (k+n) (l) (n) (k) (l) (n) (k)
X X
pjj = pjt ptj ≥ pji pij = pji pit ptj ≥ pji pii pij > 0
t∈I t∈I

(n) (k+n+l) P+∞ (n) P+∞ (k+n+l)


c’est à dire pii ≤ (l)1 (k) pjj ; si n=1 pii = +∞, il vient n=1 pjj = +∞, c’est à dire
pji pij
P+∞ (n)
n=1 pjj = +∞. La réciproque s’obtient de façon analogue, en échangeant les rôles de xi et xj .

32 CHAPITRE 3. CHAÎNES DE MARKOV
Deuxième partie

STATISTIQUE

33
Chapitre 4

Introduction à la Statistique

4.1 Modèle statistique


Définition 4.1.1. On appelle modèle statistique tout triplet (Ω, A, P), où (Ω, A) est un espace
mesurable, et P est une famille de probabilités sur (Ω, A).

On essaie, par cette définition, de modéliser certaines situations liées à l’observation de phénomènes
aléatoires ; dans ce cas, (Ω, A) représente l’espace mesurable des valeurs possibles et l’ensemble des
lois des observations.

Exemple 4.1.1. Si on a une pièce dont la probabilité d’amener “pile” est p (inconnue), et si on
réalise l’expérience consistant à a effectuer n lancers indépendants de cette pièce dans le but de faire
une inférence sur p, on peut considérer la v.a. Xi égale à 1 si on a obtenu “pile” au i-ème lancer, et
à 0 si on a obtenu “face”. La loi de Xi est la loi B (p) égale à pδ1 +(1 − p) δ0 , et puisque ces v.a. sont
⊗n
indépendantes, le vecteur aléatoire X = (X1 , · · · , Xn ) est de loi (pδ1 + (1 − p) δ0 ) . Ce vecteur
n
aléatoire décrit l’expérience ; le modèle statistique o associé est (Ω, A, P), avec Ω = {0, 1} , A =
n
n
n ⊗
P ({0, 1} ) et P = (pδ1 + (1 − p) δ0 ) ; p ∈ [0, 1] .

Définition 4.1.2. Le modèle statistique (Ω, A, P) est dominé s’il existe une mesure µ sur (Ω, A),
σ-finie et telle que : ∀P ∈ P, P  µ.

Exemple 4.1.2. Dans une usine qui fabrique des pièces en série, on suppose que le diamètre X de la
pièce produite suit une loi N (θ, 1). Si n pièces ont étré produites de façons indépendantes on obtient
le vecteur aléatoire X = (X1 , · · · , Xn ) contenant les diamètres des pièces produites ; le modèle sta-
⊗n
n o
n
tistique correspondant est alors (Ω, A, P), avec Ω = R , A = BRn et P = N (θ, 1) ; θ ∈ R+ .
Cest un modèle dominé car pour tout θ ∈ R+ , en prenant Pθ = N (θ, 1), on a Pθ  λn où λn est
la mesure de Lebesgue sur Rn . La densité correspondante est donnée par :
n
!
n 1 1X 2
∀x = (x1 , · · · , xn ) ∈ R , f (x; θ) = √ n exp − (xi − θ) .
2π 2 i=1

Les deux exemples ci-dessus sont des exemples de modèles paramétriques définis ci-dessous :

35
36 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

Définition 4.1.3. Le modèle statistique (Ω, A, P) est paramétrique si P peut s’écrire sous la
forme P = {Pθ ; θ ∈ Θ}, où Θ est un sous-ensemble d’un espace vectoriel de dimension finie. Dans
ce cas, θ est appellé paramètre du modèle.

En statistique, on est souvent amené a considérer des observations provenant d’un échantillonnage,
c’est à dire, des répétitions indépendantes d’un même expérience aléatoire. C’est le cas des exemples
ci-dessus. Dans ce cas, le modèle statistique considéré revêt une forme particulière donnée dans la
définition suivante :

Définition 4.1.4. On appelle modèle d’échantillonnage tout modèle statistique ayant la forme
n n
X n, T ⊗ , P ⊗ ; P ∈ Q .


Un tel modèle décrit, le plus souvent, la loi du vecteur aléatoire ayant comme composantes les v.a.
d’observations. Ces v.a. sont vus commes des “copies” indépendantes d’une même v.a.

Défintion 4.1.5. Soit X une v.a. ; on appelle échantillon i.i.d. de X toute suite X1 , · · · , Xn de
v.a. indépendantes et de même loi que X.

Le mot i.i.d. introduit dans la précédente définition est une abréviation de “indépendants et
identiquement distribués”. Lorsque X est une v.a. à valeurs dans (X, T ) et de loi  appartenant à
n n
une famille de probabilités Q, le modèle d’échantillonnage X n , T ⊗ , P ⊗ ; P ∈ Q décrit la loi
du vecteur aléatoire (X1 , · · · , Xn ) où X1 , · · · , Xn est un échantillon i.i.d. de X. En statistique, on
se base souvent sur des fonctions d’un tel échantillon ; celles-ci sont définies par :

Définition 4.1.6. Soit (Ω, A, P) un modèle statistique ; on appelle statistique définie sur (Ω, A, P)
toute fonction mesurable S = ϕ (X) où X = (X1 , · · · , Xn ) est une échantillon i.i.d..

Exemple 4.1.2. Lorsque X1 , · · · , Xn est un échantillon i.i.d. d’une v.a. à valeur dans (Rp , BRp ),
on peut considérer la moyenne empirique
n
1X
Xn = Xi ;
n i=1

celle ci est, clairement, une statistique définie sur (Ω, A, P).

4.2 Loi et paramètres d’échantillonnage


Soit X1 , · · · , Xn est un échantillon i.i.d. d’une v.a. X : (Ω, A) → (E, T ) de loi µ.

Définition 4.2.1. On appelle loi d’échantillonnage associée à l’échantillon X1 , · · · , Xn , l’applica-


tion Pn : Ω × T → R+ définie par :
n
1X
∀ (ω, A) ∈ Ω × T , Pn (ω, A) = δX (ω) (A) .
n i=1 i
Pn
On note usuellement Pn = n1 i=1 δXi . La loi d0 échantillonnage est une probabilité aléatoire, c’est
à dire qu’elle vérifie les propriétés données ci-dessous
4.2. LOI ET PARAMÈTRES D’ÉCHANTILLONNAGE 37

Proposition 4.2.1. Pour tout ω ∈ Ω, l’application A ∈ T 7→ Pn (ω, A) est une probabilité sur
(E, T ).
Preuve. Cette application est une mesure puisqu’elle est combinaison linéaire positive de mesures
de Dirac. On a ensuite
n
1X n
Pn (ω, E) = δX (ω) (E) = = 1. 
n i=1 i n

On définit l’intégrale
R d’une fonction mesurable f : E → R par rapport à Pn comme la variable
aléatoire notée E f dPn définie par :
Z  Z n Z n
1X 1X
f dPn (ω) = f (x) Pn (ω, dx) = f (x) δXi (ω) (x) = f (Xi (ω)) ;
E E n i=1 E n i=1
R 1
Pn
ainsi E
f dPn = n i=1 f (Xi ).

Remarque 4.2.1. Puisque les f (Xi ) sont des v.a. indépendantes et de même loi que f (X), si
cette
R dernière v.a. est P -intégrable,
R la loi forte des grands nombres garantit la convergence p.s. de
E
f dP n vers E (f (X)) = E
f (x) dµ (x).

4.2.1 Fonction de répartition empirique


On se place ici dans le cas où X est une variable aléatoire réelle et on considère X1 , · · · , Xn un
échantillon i.i.d. de X.

Définition 4.2.2. On appelle fonction de répartition empirique la fonction aléatoire Fn définie


sur R par :
Z n
1X
∀x ∈ R, Fn (x) = dPn = 1I]−∞,x] (Xi ) .
]−∞,x] n i=1

La remarque 4.2.1 montre que pour tout x ∈ R, Fn (x) converge p.s. vers E 1I]−∞,x] (X) =
P (X ≤ x) = FX (x) ; c’est à dire que la f.d.r. empirique converge p.s. simplement vers la f.d.r.. En
fait, on a le résultat plus fort suivant qui établit la convergence uniforme presque sûre :

Théorème 4.2.1 (Glivenko-Cantelli). Presque sûrement : limn→+∞ (supx∈R |Fn (x) − FX (x)|) =
0.
Preuve. Pour chaque x ∈ R et n ≥ 1, on pose

FX (x−) = P (]−∞, x[) ,


Fn (x−) = Pn (]−∞, x[) .
(m)
Soit m ∈ N∗ et, pour tout k tel que 0 ≤ k ≤ m, les points xk = inf x ∈ R/ F (x) ≥ k

m ; on a

(m)
 k 
(m)

FX xk ≥ ≥ FX xk −
m
et donc 
(m)
 1 
(m)

FX xk + ≥ FX xk+1 − .
m
Soit, pour tout k tel que 0 ≤ k ≤ m − 1, la croissance des fdr implique que, pour n ≥ 1,
       
(m) (m) (m) (m)
Fn xk − FX xk+1 − ≤ Fn (x) − FX (x) ≤ Fn xk+1 − − FX xk .
38 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

D’après ce qui précède,



(m)
 
(m)
 1 
(m)
 
(m)
 1
Fn xk − FX xk − ≤ Fn (x) − FX (x) ≤ Fn xk+1 − − FX xk+1 − + .
m m
Il s’ensuit que

sup |Fn (x) − FX (x)|


x∈R
  

(m)
  
(m)

(m)
 
(m) 1
≤ max max Fn xk − FX xk , max Fn xk − − FX xk − + .

0≤k≤m 0≤k≤m m
0
La
n remarque 4.2.1 montre o qu’il existe 0 une ensemble P -négligeable Ω0 (m) tel que pour tout x ∈
(m)
xk ; k = 0, 1, · · · , m et tout ω ∈
/ Ω0 (m), on a limn→+∞ Fn (x) (ω) = FX (x). La loi des grands
nombres appliquée aux variables 1I]−∞,x[ (Xn i ) montre que, de même,
o il existe une ensemble P -
00 (m) 00
négligeable Ω0 (m) tel que pour tout x ∈ xk ; k = 0, 1, · · · , m et tout ω ∈
/ Ω0 (m), on a
0 00
limn→+∞ Fn (x−) (ω) = FX (x−). Si ω ∈ / Ω0 (m) = Ω0 (m) ∪ Ω0 , on a donc
 
1
lim sup sup |Fn (x) (ω) − FX (x)| ≤
n x∈R m
S
et, ainsi, si ω ∈
/ m≥1 Ω0 (m), on a
 
lim sup |Fn (x) (ω) − FX (x)| = 0.
n→+∞ x∈R

Le résultat recherché est obtenu en remarquant que


 
[ +∞
X +∞
X  0  X+∞  00 
P Ω0 (m) ≤ P (Ω0 (m)) ≤ P Ω0 (m) + P Ω0 = 0,
m≥1 m=1 m=1 m=1

S 
ce qui prouve que P m≥1 Ω 0 (m) = 0. 

4.2.2 Moyenne et variance empiriques


Définition 4.2.3. On appelle moyenne enmpirique la v.a.
Z n
1X
Xn = x dPn = Xi .
E n i=1

Définition 4.2.4. On appelle variance enmpirique la v.a.


Z n n
2 1X 2 2 1X 2
s2n = 2
x dPn − Xn = Xi − X n = Xi − X n .
E n i=1 n i=1
4.3. EXHAUSTIVITÉ 39

4.3 Exhaustivité
4.3.1 Cas général
Définition
 n 4.3.1. SoitoX = (X1 , · · · , Xn ) un échantillon i.i.d. dont le modèle statistique est
n
X n , T n , Pθ⊗ ; θ ∈ Θ . Une statistique S est exhaustive pour θ si la loi de X conditionnelle à
S ne dépend pas de θ.
Pn
Exemple 4.3.1. On reprend l’exemple 4.1.1 et on veut montrer que S = i=1 Xi est exhaustive
n
pour p. Pour x = (x1 , · · · , xn ) ∈ {0, 1} et s ∈ {0, · · · , n}, on a

P (X1 = x1 , · · · , Xn = xn , S = s)
P ( X1 = x1 , · · · , Xn = xn | S = s) = ;
P (S = s)
Pn
puisque {X1 = P
x1 }∩· · ·∩{Xn = xn }∩{S = s} = ∅ si i=1 xi 6= s, et {X1 = x1 }∩· · ·∩{Xn = xn } ⊂
n
{S = s} = ∅ si i=1 xi = s, il vient :

P (X1 = x1 , · · · , Xn = xn ) P
P ( X1 = x1 , · · · , Xn = xn | S = s) = 1I{ n xi =s} (x1 , · · · , xn )
P (S = s) i=1
Qn
P (Xi = xi ) P
= i=1 n−s 1I{ n (x1 , · · · , xn )
s s i=1 xi =s}
Cn p (1 − p)
Qn 1−x
pxi (1 − p) i P
= i=1 n−s 1I{ n xi =s} (x1 , · · · , xn )
Cns ps (1 − p) i=1

n−s
ps (1 − p) P
= n−s 1I{ n (x1 , · · · , xn )
i=1 xi =s}
Cns ps (1 − p)
1
= s 1I{Pn xi =s} (x1 , · · · , xn ) ,
Cn i=1

ce qui montre que la loi de S conditionnelle à X ne dépend pas de p.

Lorsque le modèle statistique considéré est un modèle dominé, on a un critère simple pour établir
l’exhaustivité des statistiques. Cela est donné dans le théorème suivant dont une démonstration
peut être trouvée dans le livre de Borovkov1
 n n o
Théorème 4.3.1. (Théorème de Factorisation). Soient un modèle statistique X n , T n , Pθ⊗ ; θ ∈ Θ
dominé par µ, et S = ϕ (X) une statistique à valeurs dans (E, E). Alors, S est exhaustive pour
θ si, et seulement si, il existe deux applications mesurables h : X n → R+ et gθ : (E, E) → R+
telles que :
n

n dPθ⊗
∀x ∈ X , (x) = gθ (ϕ (x)) h (x) .

Exemple 4.3.2. Soit X = (X1 , · · · , Xn ) un échantillon i.i.d. d’une v.a. de loi Exp (θ), θ > 0. On
a
n
Y n
Y Pn
fX (x1 , · · · , xn ) = fXi (xi ) = θe−θxi 1IR+ (xi ) = θn e−θ i=1 xi 1IRn+ (x1 , · · · , xn ) ;
i=1 i=1
1 A. Borovkov, Statistique mathématique. Editions MIR, Moscou, 1984.
40 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

Pn
donc S = i=1 Xi est une statistique exhaustive.

Définition 4.3.2. Une statistique est exhaustive minimale si elle est exhaustive et si pour tout
autre statistique exhaustive T il existe une application mesurable h telle que S = h (T ) .

La proposition suivante donne une condition nécessaire pour qu’une statistique soit exhaustive
minimale :
 n n o
Proposition 4.3.1. Soit un modèle statistique X n , T n , Pθ⊗ ; θ ∈ Θ dominé par µ et fX (·, θ) =
n
dPθ⊗
dµ⊗n
. Soit S = ϕ (X) une statistique sur ce modèle. Si on a l’équivalence :

fX (x, θ)
ϕ (x) = ϕ (y) ⇔ θ 7→ est une fonction indépendante de θ,
fX (y, θ)
alors S est exhaustive minimale pour θ.
Preuve. Soient Y ∈ ϕ (X n ) et y ∈ Y; il existe un unique élément n
 xy ∈ X tel que ϕ (xy ) = y.
n
Pour tout x ∈ X , considérons xϕ(x) , on a alors ϕ (x) = ϕ xϕ(x) ce qui, en vertu des hypothèses,
implique que le rapport
fX (x, θ)
h (x) = 
fX xϕ(x) , θ

ne dépend pas de θ. Ainsi, fX (x, θ) = h (x) fX xϕ(x) , θ et le théorème de factorisation assure
que S = ϕ (X) est exhaustive. Montrons maintenant que cette statistique est exhaustive minimale.
0
Soit T = ψ (X) une autre statistique exhaustive ; par le théorème de factorisation, il existe gθ et
0
h tels que 0 0
∀x ∈ X n , ∀θ ∈ Θ, fX (x, θ) = gθ (ψ (x)) h (x) ;
alors, pour tout x ∈ X n et y ∈ X n tels que ψ (x) = ψ (y), il vient :
0 0 0
fX (x, θ) g (ψ (x)) h (x) h (x)
= θ0 0 = 0 .
fX (y, θ) gθ (ψ (y)) h (y) h (y)
Puisque ce rapport ne dépend pas de θ, on en déduit que ϕ (x) = ϕ (y). Ainsi, ϕ peut s’écrire sous
la forme ϕ = t ◦ ψ et T est exhaustive minimale. 

Exemple 4.3.3. On reprend l’exercice 4.3.2 ; on a


Pn Pn
fX (x, θ) e−θ i=1 xi 1IRn+ (x1 , · · · , xn ) e−θ i=1 (yi −xi ) 1IRn+ (x1 , · · · , xn )
= −θ Pn y =
fX (y, θ) e i=1 i 1IRn+ (y1 , · · · , yn ) 1IRn+ (y1 , · · · , yn )
Pn
Cette quantité ne dépend
Pn pas de θ si, et seulement si laPfonction θ P 7→ e−θ i=1 (yi −xi ) est constante,
n n
Pnéquivaut à i=1 (yi − xi ) = 0, c’est à dire à i=1 xi = i=1 yi . On a ainsi prouvé que
ce qui
S = i=1 Xi est une statistique exhaustive minimale.

4.3.2 Cas du modèle exponentiel


Défintion 4.3.3. On appelle famille exponentielle, une famille de probabilités P = {Pθ ; θ ∈ Θ}
dominée par une mesure µ et telle que
r
!
dPθ X
(x) = C (θ) h (x) exp Qi (θ) Ti (x) ,
dµ i=1
4.3. EXHAUSTIVITÉ 41

où Qi et Ti sont des fonctions réelles.

Défintion 4.3.4. On appelle modèle exponentiel, un modèle statistique (Ω, A, P) où P est une
famille exponentielle.

Exemple 4.3.4.
1) Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi exponentielle Exp (θ), θ > 0. On a
n
Y Pn
fX (x1 , · · · , xn ) = θe−λxi 1IR+ (xi ) = θn e−θ i=1 xi
1IRn+ (x1 , · · · , xn ) ;
i=1

il s’agit donc d’une famille exponentielle avec r = 1, C (θ) = θn , h (x) =1IRn+ (x1 , · · · , xn ), Q1 (θ) =
Pn
−θ et T1 (x) = i=1 xi .
2) Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi exponentielle N (θ1 , θ2 ) où θ = (θ1 , θ2 ) ∈
R × R∗+ . On a
n n
!
nθ12
 
1 θ1 X 1 X 2
fX (x1 , · · · , xn ) = √ n n exp − exp xi − x
2π θ 2 2θ2 θ2 i=1 2θ2 i=1 i
2

√ −n − n2 
nθ 2

il s’agit donc d’une famille exponentielle avec r = 2, C (θ) = 2π θ2 exp − 2θ21 , h (x) = 1,
Pn Pn
Q1 (θ) = θθ21 , Q2 (θ) = − 2θ12 , T1 (x) = i=1 xi et T2 (x) = i=1 x2i .

La proposition suivante précise la statistique exhaustive minimale pour les modèles exponentiels.

Proposition 4.3.2. Soit X1 , · · · , Xn un échantillon i.i.d. correspondant à un modèle expo-


nentiel. Si le plus petit sous-espace affine de Rr contenant les extrémités des vecteurs Q (θ) =
(Q1 (θ) , · · · , Qr (θ)), θ ∈ Θ, est Rr lui-même, alors la statistique
n n
!
X X
S = ϕ (X) = T1 (Xi ) , · · · , Tr (Xi )
i=1 i=1

est exhaustive minimale.


n
Preuve. S est exhaustive par le théorème de factorisation, car pour x = (x1 , · · · , xn ) ∈ (Rr ) :
n
( n r )
n
Y XX
fX (x; θ) = C (θ) h (xi ) exp Qk (θ) Tk (xi )
i=1 i=1 k=1
n
( n )
n
Y X
= C (θ) h (xi ) exp hQ (θ) , T (xi )i
i=1 i=1
n
(* n
+)
n
Y X
= C (θ) h (xi ) exp Q (θ) , T (xi )
i=1 i=1
Yn
n
= C (θ) h (xi ) exp {hQ (θ) , ϕ (x)i} ,
i=1
42 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

Pn Pn
où ϕ (x) = ( i=1 T1 (xi ) , · · · , i=1 Tr (xi )). D’autre part pour un autre vecteur y = (y1 , · · · , yn ) ∈
n
(Rr ) , on a :
n
fX (x; θ) Y h (xi )
= exp {hQ (θ) , ϕ (x) − ϕ (y)i} ;
fX (y; θ) i=1 h (yi )
fX (x;θ)
la fonction θ 7→ fX (y;θ) ne dépend pas de θ si, et seulement si

θ 7→ exp {hQ (θ) , ϕ (x) − ϕ (y)i}

est constante. Soit alors q0 , q1 , · · · , qr dans Q (Θ) tels que q1 − q0 ,· · · ,qr − q0 soit linéairement
indépendants ; puisque

exp {hQ (θ) , ϕ (x) − ϕ (y)i} = exp {hq0 , ϕ (x) − ϕ (y)i} exp {hQ (θ) − q0 , ϕ (x) − ϕ (y)i}

la condition précédente équivaut à ∀θ ∈ Θ, hQ (θ) − q0 , ϕ (x) − ϕ (y)i = 0, c’est à dire à : ∀u ∈ Rr ,


hu, ϕ (x) − ϕ (y)i = 0. Cette dernière propriété étant équivalente à ϕ (x) = ϕ (y), la proposition
4.3.1 permet de conclure que S est exhaustive minimale. 

Remarque 4.3.1. L’hypothèse de l’énoncé est en particulier vérifiée si l’intérieur de Q (Θ) est non
vide.

Exemple 4.3.5. On reprend le deuxième exemple


Pn 4.3.4.
Pn Une2application
 directe de la proposition
précédente montre que la statistique S = i=1 Xi , i=1 Xi est exhaustive minimale pour θ =
(θ1 , θ2 ).
Chapitre 5

Estimation ponctuelle

Très souvent, on dispose d’un échantillon d’une v.a. dont la loi dépend d’un paramètre inconnu ;
cela est modélisé à travers la notion de modèle statistique paramétrique introduit dans le chapitre
précédent. Il est important de pouvoir déterminer un ”valeur approchée” du paramètre inconnu
ou d’une fonction de ce paramètre, en se basant sur l’échantillon. C’est cette démarche, appelée
estimation, que nous abordons dans ce chapitre.

5.1 Notions de base


Nous
 commençons
n n par définir
o la notion d’estimateur. On considère un modèle d’échantillonnage
n ⊗n ⊗
X , T , Pθ ; θ ∈ Θ et une fonction g : Θ → D. Soit X = (X1 , · · · , Xn ) un échantillon
relatif à ce modèle.

Défintion 5.1.1. On appelle estimateur de g (θ) toute statistique T = ϕ (X) à valeurs dans D.
On appelle estimation de g (θ) la valeur de T en une observation x = (x1 , · · · , xn ) ∈ X n , c’est à
dire ϕ (x).

Définition 5.1.2. On appelle biais de l’estimateur T de g (θ) la quantité B (T, g (θ)) = E (T )−g (θ).
On dit que T est un estimateur sans biais de g (θ) si B (T, θ) = 0, c’est à dire si E (T ) = g (θ).

Exemple 5.1.1.
1) Estimation de la probabilité d’amener “pile” d’une pièce. On reprend ici l’exemple 4.1.1 et on
cherche Pà estimer p ; considérons la proportion de “pile” obtenue sur les n lancers, c’est à dire
n
Tn = n1 i=1 Xi où les Xi sont les variables aléatoires i.i.d. de loi B (p) introduits dans l’exemple
4.1.1. Puisque Tn ∈ [0, 1], il s’agit d’un estimateur de p. De plus,
n
1X np
E (Tn ) = E (Xi ) = = p;
n i=1 n
donc c’est un estimateur sans biais de p.
2) Estimation sans biais de la moyenne. La moyenne empirique est un estimateur sans biais de la
moyenne (espérance mathématique). En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m inconnue ; on a
n
 1X nm
E Xn = E (Xi ) = = m;
n i=1 n

43
44 CHAPITRE 5. ESTIMATION PONCTUELLE

donc X n est un estimateur sans biais de m.


3) Estimation sans biais de la variance. Le variance empirique n’est pas un estimateur sans biais
de la variance. En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de moyenne m et de
variance σ 2 . On a :
n
1X  2
E Sn2 = E Xi2 − E X n ;
 
n i=1
d’une part :
 
n n n n X n
 2 1 XX 1 X 2
 X 
E Xn = 2 E (Xi Xj ) = 2  E X i + E (Xi Xj )
n i=1 j=1 n  i=1 i=1 j=1

j6=i
 
n n X n
1  X
2 2
 X 
= 2 m +σ + E (Xi ) E (Xj )
n i=1 i=1 j=1

j6=i
1 n−1 2
m2 + σ 2

= + m ,
n n
et d’autre part :
n n
1X 1X
E Xi2 = m2 + σ 2 = m2 + σ 2 .
 
n i=1 n i=1
Donc
 n−1 2
E Sn2 = σ 6= σ 2 (5.1.1)
n
ce qui prouve bien que Sn2 n’est pas un estimateur sans biais de σ 2 . Cependant, la formule précédente
permet de construire un estimateur sans biais. En effet, il suffit de considérer la statistique
n
2 n 1 X 2
S∗,n = Sn2 = Xi − X n
n−1 n − 1 i=1

appellée variance empirique corrigée.

Même si la propriété d’être sans biais est relativement simple, il n’existe pas toujours d’estimateur
sans biais, comme le montre l’exemple suivant :

Exemple 5.1.2. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi binômiale B (m, p) et
θ = p1 ; supposons qu’il existe un estimateur sans biais T de θ, on a alors

Il peut arriver que les critères précédents ne soient pas vérifiés pour une taille donnée de l’échantillon ;
dans ce cas, on peut se contenter des critères asymptotiques définis ci-dessous.

Définition 5.1.3. L’estimateur Tn de g (θ) est asymptotiquement sans biais si limn→+∞ B (Tn , θ) =
0, c’est à dire si limn→+∞ E (Tn ) = g (θ).
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 45

Exemple 5.1.3. La variance empirique est un estimateur asymptotiquement sans biais de la


variance car  
2 n−1 2
σ = σ2 .

lim E Sn = lim
n→+∞ n→+∞ n
Définition 5.1.4. L’estimateur Tn de g (θ) est fortement (resp. faiblement) convergent si Tn
converge presque sûrement (resp. en probabilité) vers g (θ), lorsque n → +∞.

On s’appuie souvent sur des théorèmes limites de la théorie des probabilités, telles que la loi des
grands nombre, pour établir la convergence des estimateurs.

Exemple 5.1.5.
1) Estimation de la probabilité d’amener “pile” d’une pièce. On reprend ici l’exemple 4.1.1 ; on
a vu dans
Pnl’exemple 5.1.1 que la proportion de “pile” obtenue sur les n lancers, donnée par
Tn = n1 i=1 Xi , est un estimateur sans biais de p. Puisque chaque Xi admet p pour espérance
mathématique, la loi des grands nombres implique que Tn converge p.s. vers p lorsque n → +∞.
L’estimateur Tn est donc un estimateur fortement convergent de p.
2) Estimation fortement convergente de la moyenne. La moyenne empirique est un estimateur
fortement convergent de la moyenne. En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m inconnue ; la loi forte des grands nombres assure la convergence p.s. de X n vers m
lorsque n → +∞.
3) Estimation fortement convergente de la variance. La variance empirique est un estimateur for-
tement convergent de la variance. En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m et de variance σ 2 . On a :
n
1X 2 2
Sn2 = X − X n;
n i=1 i
2
on a déja vu que X n → m p.s. (n → +∞) ; donc X n → m2 p.s.P(n → +∞). D’autre  part, une
n
nouvelle application de la loi forte des grands nombres donne n1 i=1 Xi2 → E X12 = σ 2 + m2
p.s. (n → +∞). En conséquence, il vient : Sn2 → σ 2 p.s. (n → +∞), ce qui montre bien le résultat
annoncé. Remarquons que la variance empirique
  corrigée est également un estimateur convergent de
n 2
la variance. En effet, puisque limn→+∞ n−1 = 1, il vient également : S∗,n → σ 2 p.s. (n → +∞).

Le théorème suivant fournit une condition suffisante pour qu’un estimateur soit faiblement convergent.

Théorème 5.1.1. Soit Tn un estimateur de g (θ) appatenant à L2 (Ω, A, P ). Si :


(i) limn→+∞ E (Tn ) = g (θ) ,
(ii) limn→+∞ V ar (Tn ) = 0,
alors est un estimateur faiblement convergent de g (θ).
Preuve. D’après l’inégalité de Markov, on a pour tout ε > 0 :
1  2
 1 h 2
i
P (|Tn − g (θ)| ≥ ε) ≤ 2 E (Tn − g (θ)) = 2 V ar (Tn ) + E (Tn − g (θ)) ,
ε ε
donc limn→+∞ P (|Tn − g (θ)| ≥ ε) = 0. 

5.2 Evaluation et comparaison des estimateurs


Dans ce paragraphe nous introduisons d’abord des outils qui permettent d’évaluer les performances
des estimateurs, puis nous donnons des résultats par lesquels on peut obtenir des estimateurs
optimaux en un sens qui sera précisé.
46 CHAPITRE 5. ESTIMATION PONCTUELLE

5.2.1 Risque quadratique

On considère une application g : Θ → D, où D ⊂ Rp , et on note k·k une norme euclidienne de


Rp .

Définition 5.2.1. On appelle risque quadratique de l’estimateur T de g (θ), la quantité :


 
2
R (T, g (θ)) = E kT − g (θ)k .

Remarque 5.2.1.
1) Dans le cas où p = 1, on a la relation suivante entre le risque, la variance et le biais :

R (T, g (θ)) = V ar (T ) + B 2 (T, g (θ)) ;

en effet :
   
2 2
R (T, g (θ))) = E (T − g (θ)) = E (T − E (T ) + E (T ) − g (θ))
 
2 2
= E (T − E (T )) + 2 (T − E (T )) (E (T ) − g (θ)) + (E (T ) − g (θ))
 
2 2
= E (T − E (T )) + (E (T ) − g (θ))
= V ar (T ) + B 2 (T, g (θ)) .

En particulier, T est un estimateur sans biais de g (θ) si, et seulement si, on a : R (T, g (θ)) =
V ar (T ).
2) Pour p > 1, cette relation se généralise de la façon suivante :
2
R (T, g (θ)) = tr (Cov (T )) + kE (T ) − g (θ)k ,

où Cov (T ) désigne la matrice des covariances de T . En effet :


 
2
R (T, g (θ))) = E kT − g (θ)k = E t (T − g (θ)) (T − g (θ))


t

=E (T − E (T ) + E (T ) − g (θ)) (T − E (T ) + E (T ) − g (θ))
t
(T − E (T )) (T − E (T )) + t (E (T ) − g (θ)) (E (T ) − g (θ))

=E
2
tr t (T − E (T )) (T − E (T )) + kE (T ) − g (θ)k

=E
2
tr (T − E (T )) t (T − E (T )) + kE (T ) − g (θ)k

=E
2
E (T − E (T )) t (T − E (T )) + kE (T ) − g (θ)k

= tr
2
= tr (Cov (T )) + kE (T ) − g (θ)k .

Ainsi, T est un estimateur sans biais de g (θ) si, et seulement si, on a : R (T, g (θ)) = tr(Cov (T )).

Exemple 5.2.1. Risque de la moyenne empirique. Puisque X n est un estimateur sans biais de
la moyenne m, il vient :
n
  1 X σ2
R X n , m = V ar X n = 2 V ar (Xi ) = .
n i=1 n
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 47

5.2.2 Amélioration d’un estimateur sans biais


Le risque permet de comparer des estimateurs.

Définition 5.2.2. Soient T1 et T2 deux estimateurs de g (θ). On dit que T1 est préférable à T2 si
R (T1 , g (θ)) ≤ R (T2 , g (θ)).

Lorsque ces estimateurs sont sans biais et à valeurs réelles, cela revient à comparer leurs variances
(cf. remarque 5.2.1). Nous allons maintenant nous restreindre aux estimateurs sans biais à valeurs
réelles (on suppose alors que p = 1). Le théorème suivant montre comment, partant d’un tel
estimateur, on peut obtenir un autre estimateur qui lui soit préférable.

Théorème 5.2.1. (Rao-Blackwell). Soit T un estimateur sans biais de g (θ) et U une statistique
exhaustive pour θ. Alors, posant S = E ( T | U ), on a :
(i) S est une statistique ;
(ii) S est un estimateur sans biais de g (θ) ;
(iii) S est préférable à T .
Preuve.
(i). On a U = ϕ (X) , ϕ mesurable, puisque c’est une statistique ; donc S = E ( T | U ) = E ( φ (X)| U ) =
ψ (U ) ; où ψ est mesurable et ne dépend pas de θ car la loi de X conditionnelle à U ne dépend pas
de θ puisque U est exhaustive. Comme S = (ψ ◦ ϕ) (X), il vient que S est une statistique.
(ii). E (S) = E (E ( T | U )) = E (T ) = g (θ).
(iii).   h  i
2 2
V ar (T ) = E (T − g (θ)) = E E (T − g (θ)) U ;
or, d’après l’inégalité de Jensen conditionnelle, on a p.s.
 
2 2 2 2 2
E (T − g (θ)) U ≥ (E ( T − g (θ)| U )) = (E ( T | U ) − g (θ)) = (S − g (θ)) = (S − E (S)) ;
 
2
donc V ar (T ) ≥ E (S − E (S)) = V ar (S). 

Exemple 5.2.2. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi uniforme sur [0, θ], θ > 0 ;
la statistique T = 2X n est un estimateur sans biais de θ. En effet E (T ) = 2E X n = 2 θ2 = θ. Afin
d’améliorer cet estimateur, on va déterminer une statistique exhaustive pour θ. On a :
n n n  
Y Y 1 1 Y 1
fX (x) = fXi (xi ) = 1I[0,θ] (xi ) = n 1I[0,θ] (xi ) = n 1I[0,θ] max (xi ) ;
i=1 i=1
θ θ i=1 θ 1≤i≤n

donc U = max1≤i≤n (Xi ) est une statistique exhaustive pour θ. Nous allons, à présent, améliorer
l’estimateur T par utilisation du Théorème de Rao-Blackwell. On a
n
2X
S = E (T| U) = E ( Xi | U )
n i=1

Pour déterminer S de façon explicite, il nous faut obtenir la loi de Xi conditionnelle à U ; pour
cela, nous allons déterminer de la densité de U , puis celle du couple (Xi , U ). Soit FU la f.d.r de
U ; si t < 0, on a FU (t) = 0, et si t > θ, FU (t) = 1. Notant Φ la f.d.r de la loi uniforme sur [0, θ],
définie par
t
Φ (t) = 1I[0,θ] (t) + 1I]θ,+∞[ (t) ,
θ
48 CHAPITRE 5. ESTIMATION PONCTUELLE

on a pour t ∈ [0, θ] :
n
! n
\ Y n tn
FU (t) = P (U ≤ t) = P {Xi ≤ t} = P ({Xi ≤ t}) = Φ (t) = ;
i=1 i=1
θn

la densité de U , obtenue en dérivant la f.d.r précédente, est alors


ntn−1
fU (t) = 1I[0,θ] (t) .
θn
Soit Fi,U la f.d.r de (Xi , U ), on a Fi,U (t, s) = 0 si t < 0 ou s < 0, Fi,U (t, s) = 1 si t > θ et s > θ.
Pour t ∈ [0, θ] ou s ∈ [0, θ], on a :
 
 
\n \n
 
Fi,U (t, s) = P {Xi ≤ t} ∩ {Xj ≤ s} = P  {X i ≤ t ∧ s} ∩ {X j ≤ s}

j=1 j=1
j6=i

sn−1
 
n−1 t∧s
= Φ (t ∧ s) Φ (t) = 1I[0,θ] (s) + 1I]θ,+∞[ (s) ;
θ θn−1
en dérivant deux fois cette densité, on obtient pour densité de (Xi , U ), la fonction

∂ 2 Fi,U n − 1 n−2
fi,U (t, s) = (t, s) = s 1I[0,θ] (t) 1I[0,θ] (s) 1I∆ (t, s)
∂t∂s θn

où ∆ = (t, s) ∈ R2 / t ≤ s . On en déduit la densité de la loi de Xi conditionnelle à U = s,
s ∈ [0, θ], donnée par :
fi,U (t, s) n−1
f Xi |U =s (t) = = 1I[0,θ] (t) 1I∆ (t, s) ;
fU (s) n
d’où :
+∞ s
n−1 n−1 2
Z Z
E ( Xi | U = s) = t f Xi |U =s (t) dt = t dt = s .
−∞ n 0 2n
Ceci permet d’écrire
n−1 2
E ( Xi | U ) = U
2n
et, finalement :
n  2
2X n−1 2 n−1
S= E ( Xi | U ) = U = max (Xi ) .
n i=1 n n 1≤i≤n

5.2.3 Recherche d’un estimateur sans biais optimal


L’objet de ce paragraphe est d’introduire une notion d’optimalité pour les estimateurs sans biais
dans le cas où g est à valeurs réelles, et de montrer comment il est possible de déterminer de
tels estimateurs. La notion d’optimalité que nous considérons est celle définie dans la définition
suivante :

Définition 5.2.3. On dit qu’un estimateur S de g (θ) est de variance uniformément minimum
parmi les estimateurs sans biais (VUMSB) s’il est sans biais et si, pour tout autre estimateur sans
biais T de g (θ), on a V ar (S) ≤ V ar (T ).
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 49

Il s’agit donc d’un estimateur sans biais qui admet le risque minimal parmi tous les estimateurs
sans biais. La proposition suivante donne une caractérisation de tels estimateurs :

Proposition 5.2.1. Les assertions suivantes sont équivalentes :


(i) S est un estimateur de VUMSB de g (θ)
(ii) pour toute statistique δ centrée et non presque sûrement nulle, on a cov (δ, S) = 0.
Preuve.
(i)⇒(ii). Si S est de VUMSB, soit une statistique δ telle que E (δ) = 0. Pour tout λ ∈ R, posons
Sλ = S + λδ ; on a ainsi définit un estimateur sans biais de g (θ) ; en effet :

E (Sλ ) = E (S) + λE (δ) = g (θ) ;

donc
V ar (S) ≤ V ar (Sλ ) = V ar (S) + λ2 V ar (δ) + 2λcov (δ, S) .
Ainsi
∀λ ∈ R, λ2 V ar (δ) + 2λcov (δ, S) ≥ 0,
ceci n’est possible que si cov (δ, S) = 0.
(ii)⇒(i). Si pour toute statistique δ centrée et non presque sûrement nulle, on a cov (δ, S) = 0.
Soit T un estimateur sans biais de g (θ), on a

V ar (T ) = V ar (T − S) + V ar (S) + 2cov (T − S, S) .

Comme
E (T − S) = E (T ) − E (S) = g (θ) − g (θ) = 0,
il vient que cov (T − S, S) = 0 et, par conséquent,

V ar (T ) = V ar (T − S) + V ar (S) ≥ V ar (S) ,

ce qui montre bien que S est de VUMSB. 

Lorsqu’un tel estimateur existe, il est nécessairement unique, comme cela est montré dans la pro-
position suivante.

Proposition 5.2.1. S’il existe un estimateur de VUMSB de g (θ), il est unique à l’égalité p.s. près.
Preuve. Soient S et T deux estimateurs de VUMSB de g (θ) ; alors V ar (S) ≤ V ar (T ) et V ar (T ) ≤
V ar (S), donc V ar (S) = V ar (T ). Or

V ar (T ) = V ar (T − S) + V ar (S) + 2cov (T − S, S) ,

et puisque E (T − S) = g (θ) − g (θ) = 0, on a cov (T − S, S) = 0, d’où V ar (T ) = V ar (T − S) +


V ar (S), et donc V ar (T − S) = 0. Par conséquent, T − S est p.s. constant, c’est à dire T − S =
E (T − S) = 0 p.s.. 

On peut dès lors se poser la question suivante : comment déterminer un estimateur optimal ?
Le théorème de Rao-Blackwell permet d’améliorer un estimateur sans biais mais ne garantit pas
l’optimalité de l’estimateur qui en résulte. Nous donnons ci-dessous un résultat qui améliore ce
théorème en établissant les conditions pour obtenir un estimateur optimal. Pour cela, nous allons
d’abord définir la notion de statistique complète.
50 CHAPITRE 5. ESTIMATION PONCTUELLE

Défintion 5.2.4. Une statistique S est dite complète si, notant PθS la loi de S, on a l’implication :
Z
∀θ ∈ Θ, f (x) dPθS (x) = 0 ⇒ f = 0 PθS − p.s.

Il n’est pas toujours facile de montrer qu’une statistique est complète. Une méthode classique
consiste à utiliser un résultat de la théorie de l’intégration qui dit, si f est une application mesurable
de R vers R d’intégrale (par rapport à la mesure de Lebesgue) nulle sur tout intervalle [a, b], alors
f = 0 presque partout.

Exemple 5.2.3. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de densité fθ (x) = ex−θ 1I]−∞,θ[ (x),
θ ∈ R. On va montrer que la statistique extrême X(n) = max1≤i≤n (Xi ) est complète. Il est facile
d’établir que cette statistique admet pour densité la fonction fS (x) = nen(x−θ) 1I]−∞,θ[ (x). Soit
une fonction g telle que
Z Z θ
∀θ ∈ R, g (x) dPθS (x) = g (x) nen(x−θ) dx = 0;
−∞

on a donc, après simplification


Z θ
∀θ ∈ R, g (x) enx dx = 0.
−∞
Rb
Il en résulte que pour tout (a, b) ∈ R2 , a < b, on a a g (x) enx dx = 0 et, donc, g = 0 λ-p.p., ce
qui implique que g = 0 PθS -p.s. car
Z
PθS ({g 6= 0}) = 1I{g6=0} (x) fS (x) dx = 0 (car {g = 6 0} est λ-négligeable).

Donc, S est une statistique complète.

Nous pouvons maintenant énoncer le théorème suivant qui donne des conditions pour obtenir un
estimateur optimal.

Théorème 5.2.2. (Lehmann-Scheffé). Soit T un estimateur sans biais de g (θ) ; si U une


statistique exhaustive pour θ et complète, alors S = E ( T | U ) est un estimateur de VUMSB de
g (θ).
Preuve. Le théorème de Rao-Blackwell permet d’affirmer que S est un estimateur sans biais de
0
g (θ) tel que V ar (S) ≤ V ar (T ). Il reste
àmontrer qu’il est
 optimal.
 Soit T un autre
 estimateur
 0
0 0 0 0
sans biais de g (θ), on pose S = E T U ; on a aussi E T = g (θ) et V ar S ≤ V ar T .
Donc :
 0
   0   0

E S − S = 0 = E E (T| U) − E T U = E ψ (U ) − ψ (U ) = E (g (U )) ,

0
où g = ψ − ψ . Comme U est complète, l’égalité précédente implique que h = 0 PθU -p.s., c’est à
0
dire h (U ) = 0 p.s.. Donc S = S p.s., et il vient :
 0  0
V ar (S) = V ar S ≤ V ar T ,
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 51

ce qui montre bien que S est de VUMSB. 

Exemple 5.2.3. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi uniforme sur [0, θ], θ > 0 ;
on a vu dans l’exemple 5.2.2 que la statistique T = 2X n est un estimateur sans biais de θ, et que
U = max1≤i≤n (Xi ) est une statistique exhaustive pour θ. Cela avait permis d’améliorer T par
 2
n−1
S = E (T| U) = max (Xi ) .
n 1≤i≤n

Montrons à présent que S est de VUMSB ; d’après le théorème de Lehmann-Scheffé, il suffit de


montrer que U est une statistique complète. Rappellons que la densité de U est donnée par :
ntn−1
fU (t) = 1I[0,θ] (t) .
θn
Soit une fonction f telle que
θ
nxn−1
Z Z
∀θ > 0, f (x) dPθU (x) = f (x) dx = 0;
0 θn
en dérivant par rapport à θ, on obtient

∀θ > 0, f (θ) θn−1 = 0,

c’est à dire que f est nulle sur ]0, +∞[. Donc {f 6= 0} ⊂ ]−∞, 0] et
Z 0
ntn−1
PθU ({g 6= 0}) ≤ PθU (]−∞, 0]) = 1I[0,θ] (t) dt = 0,
−∞ θn

ce qui montre que f = 0 PθU -p.s. ; Donc, U est une statistique complète et S est un estimateur
optimal de θ.

5.2.4 Estimateurs efficaces


Dans ce paragraphe, nous montrons d’abord que, sous certaines conditions, il existe une borne
inférieure pour la variance de tout estimateur sans biais ; cela nous permet d’introduire aux esti-
mateurs efficaces et asymptotiquement efficaces.

Information au sens de Fisher


 n
n n o
On considère le modèle statistique d’échantillonnage X n , T ⊗ , Pθ⊗ ; θ ∈ Θ dominé et f (·, θ) =
n
dPθ⊗
dλn et on suppose de plus :
H1 : ∀x ∈ X n , ∀θ ∈ Θ, f (x, θ) > 0.
H2 : ∀θ ∈ Θ, f (x, θ) est dérivable par rapport à θ Pθ -presque sûrement.

On peut alors définir :

Défintion 5.2.5. On appelle information de Fisher au point θ la quantité :


 !2 
∂f
(X, θ)
I (θ) = E  ∂θ .
f (X, θ)
52 CHAPITRE 5. ESTIMATION PONCTUELLE

Il est aisé de remarquer que l’on peut écrire


" 2 #

I (θ) = E ln (f (X, θ)) ;
∂θ


la variable aléatoire S = ∂θ ln (f (X, θ)) est appellée score.

Exemple 5.2.4. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi normale N m, σ02 avec m
inconnu et σ0 connu. On a
n   n
!
Y 1 1 2 1 1 X 2
f (x; m) = √ exp − 2 (xi − m) = √ n exp − 2 (xi − m) ;
i=1
2πσ0 2σ0 2π σ0n 2σ0 i=1

et
n
∂ 1 X
ln (f (x, m)) = 2 (xi − m) ;
∂m σ0 i=1
d’où
n
1 X n 
S= 2 (Xi − m) = 2 X n − m
σ0 i=1 σ0
et
 n2  2 
I (m) = E S 2 = 4 E X n + m2 − 2mX n
σ0
2
 
n 1 2 2
 n−1 2 2
= 4 m + σ0 + m −m
σ0 n n
n
= 2.
σ0

Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR)


Nous allons maintenant obtenir une borne inférieure pour la variance de tout estimateur sans
biais T de g (θ), sous les conditions suivantes :

H3 : Θ est un ouvert de R, et ∀x ∈ X , ∀θ ∈ Θ, f (x, θ) > 0.


H4 : ∀θ ∈ Θ, R ∂f ∂f
∂θ (x, θ) et ∂θ (x, θ) existent et sont finies p.s..
H5 : ∀A ∈ T , A f (x, θ) dx est deux fois dérivable par rapport à θ, sous le signe d’intégration.
H6 : ∀θ ∈ Θ, 0 < I (θ) < +∞.

Ces hypothèses sont connues sous le nom d’hypothèses de Cramer-Rao, et permettent d’obtenir le
résultat suivant :

Théorème 5.2.3. On suppose vérifiées les hypothèses de Cramer-Rao. Soit


R T = ϕ (X) un esti-
mateur sans biais de g (θ), de variance finie, tel que pour tout A ∈ T , A ϕ (x) f (x, θ) dx est
dérivable par rapport à θ sous le signe d’intégration et
Z
ϕ (x) ∂f (x, θ) dλn (x) < +∞.

Rn
∂θ

Alors :
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 53

(i) g est dérivable ;


(ii) pour tout θ ∈ Θ,
 0
2
g (θ)
V ar (T ) ≥ .
I (θ)
Preuve. (i). On a Z
g (θ) = E (T ) = ϕ (x) f (x, θ) dλn (x) ;
Rn
l’hypothèse du théorème garantit la dérivabilité de g et donne
Z Z
0 ∂ ∂f
g (θ) = ϕ (x) f (x, θ) dλn (x) = ϕ (x) (x, θ) dλn (x) .
∂θ Rn R n ∂θ

(ii). Posant
∂f
∂θ (x, θ) ∂ ln f
S (x, θ) = = (x, θ) ,
f (x, θ) ∂θ
on a S = S (X, θ) et
Z Z
0 ∂f
g (θ) = ϕ (x) (x, θ) dλn (x) = ϕ (x) S (x, θ) f (x, θ) dλn (x) = E (ϕ (X) S (X, θ)) = E (T S) .
Rn ∂θ Rn

En outre, H5 assure que


Z Z
∂f ∂ ∂
E (S) = (x, θ) dλn (x) = f (x, θ) dλn (x) = (1) = 0;
Rn ∂θ ∂θ Rn ∂θ
0
donc g (θ) = E (T S) − E (T ) E (S) = cov (T, S). D’après l’inégalité de Cauchy-Schwartz,
 0
2
g (θ) = cov 2 (T, S) ≤ V ar (T ) V ar (S) = V ar (T ) E S 2 = V ar (T ) I (θ) ,


ce qui donne bien l’inégalité recherchée. 

Ce théorème montre que sous certaines conditions, le risque quadratique d’un estimateur sans biais
ne peut pas être inférieur à une certaine borne rappelée ci-dessous.
 0
2
g (θ)
Définition 5.2.6. On appelle borne de Fréchet la quantité BF = I(θ) .

Ainsi, lorsque les hypothèses de Cramer-Rao sont vérifiées, un estimateur sans biais satisfaisant à
l’hypothèse du théorème précédent est de VUMSB parmi tous les estimateurs satisfaisant à cette
hypothèse. Cela permet de donner la définition suivante.

Définition 5.2.7. Un estimateur sans biais T de g (θ) est dit efficace si V ar (T ) = BF . Il est dit
asymptotiquement efficace si limn→+∞ V ar (T ) = BF .

Exemple 5.2.5. On reprend l’exemple 2.5.4 et on considère la moyenne empirique X n comme


 σ2
estimateur de m. C’est un estimateur sans biais de m de risque V ar X n = n0 ; or, I (m) = σn2 et
0
σ02
BF = n . Ceci montre que c’est un estimateur efficace.
54 CHAPITRE 5. ESTIMATION PONCTUELLE

5.3 Méthodes d’estimation


Dans le paragraphe précédent, nous avons considéré des outils par lesquels la qualité d’un
estimateur peut être évaluée ; cela suppose que l’estimateur considéré est donné à priori. Lorsque
les paramètres considérés sont des paramètres usuels (moyenne, variance, etc), on sait que l’on
peut utiliser leurs estimateurs naturels obtenus en considérant la loi empirique associée au modèle
sous-jacent. Cependant, lorsque l’on est amené à considérer des paramètres non usuels, rien de
ce qui précède ne nous indique comment déterminer un estimateur. Dans ce paragraphe, nous
allons introduire deux méthodes de détermination des estimateurs : la méthode du maximum de
vraissemblance et la méthode des moments.

5.3.1 Méthode du maximum de vraissemblance


Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. X.

Défintion 5.3.1. On appelle fonction de vraissemblance la fonction L : X n × Θ → R+ donnée


par
n
Y
L (x1 , · · · , xn ; θ) = Pθ (Xi = xi )
i=1
si X est une v.a. discrète, et par
n
Y
L (x1 , · · · , xn ; θ) = fθ (xi )
i=1

si X est une v.a. continue de densité fθ .

Définition 5.3.2. On appelle estimateur du maximum de vraissemblance (EMV) du paramètre


θ, l’estimateur θb qui maximise la vraissemblance L (x1 , · · · , xn ; θ), c’est à dire :
 
L x; θb = sup L (x; θ) .
θ∈Θ

Dans la plus grande généralité, il n’y a aucune garantie d’existence ou d’unicité d’un estimateur
du maximum de vraissemblance. Cependant, lorsque la vraissemblance est dérivable (par rapport
à θ), cet estimateur peut être obtenu en annulant la dérivée du logarithme de la vraissemblance,
c’est-à-dire en résolvant l’équation :
∂ ln (L (x1 , · · · , xn ; θ))
=0
∂θ
lorsque θ est un paramètre unidimensionnel. Si θ = (θ1 , · · · , θp ), on résoud le système d’équations
∂ ln (L (x1 , · · · , xn ; θ))
= 0 (i = 1, · · · , p).
∂θi
Exemple 5.3.1. Estimation d’une loi de p, dans le modèle de Bernoulli, par maximum de vrais-
semblance. La vraissemblance est
n
Y Pn Pn
1−xi n− xi
L (x1 , · · · , xn ; p) = pxi (1 − p) =p i=1 xi
(1 − p) i=1
;
i=1
5.3. MÉTHODES D’ESTIMATION 55

d’où : ! !
n
X n
X
ln (L (x1 , · · · , xn ; p)) = xi ln (p) + n− xi ln (1 − p)
i=1 i=1

et Pn Pn
∂ ln (L (x1 , · · · , xn ; p)) i=1 xi n − i=1 xi
= − ;
∂p p 1−p
la quantité annulant l’expression précédente est alors
n
1X
pb = x = xi ;
n i=1

1
Pn
l’EMV de p est donc pb = X n = n i=1 Xi .

Exemple 5.3.2. Estimation de la moyenne et de la variance d’une loi N m, σ 2 par maximum
de vraissemblance. Soit X1 , · · · , Xn un échantillon i.i.d. de la loi N m, σ 2 . On a :

n
!
2
Y 1 (xi − m)
L (x1 , · · · , xn ; m, σ) = √ exp −
i=1
2πσ 2σ 2
n
!
1 1 X 2
= √ n exp − 2 (xi − m) ;
2π σ n 2σ i=1

donc :
√ n
 1 X 2
ln (L (x1 , · · · , xn ; m, σ)) = −n ln 2π − n ln (σ) − 2 (xi − m)
2σ i=1

et
n
∂ ln (L (x1 , · · · , xn ; m, σ)) 1 X n
= 2 (xi − m) = 2 (x − m) ,
∂m σ i=1 σ
n
∂ ln (L (x1 , · · · , xn ; m, σ)) n 1 X 2
=− + 3 (xi − m) .
∂σ σ σ i=1

On en déduit :
∂ ln(L(x1 ,··· ,xn ;m,σ)) n
 
 ∂m =0  σ2 (x − m) = 0
⇐⇒ Pn 2
∂ ln(L(x1 ,··· ,xn ;m,σ))
− nσ + 1
i=1 (xi − m) = 0
 
∂σ =0 σ3
 
 m=x  m=x
⇐⇒ Pn ⇐⇒
2 Pn 2
−n + σ12 i=1 (xi − m) = 0 1
 2
σ = (xi − m)

n i=1

 m=x
⇐⇒ Pn .
2
σ = n1 i=1 (xi − x) = s2x
 2

 
L’estimateur du maximum de vraissemblance de m, σ 2 est donc X n , s2 .
56 CHAPITRE 5. ESTIMATION PONCTUELLE

5.3.2 Méthode des moments


On suppose ici que Θ ⊂ Rp ; le paramètre θ est donc de la forme θ = (θ1 , · · · , θp ). Soit X1 , · · · , Xn
un échantillon i.i.d d’une v.a. X dontla loi admet des moments jusqu’à l’ordre p au moins. Pour
k = 1, · · · , p, on note mk (θ) = E X k le moment d’ordre k et on considère le moment empirique
correspondant :
n
(n) 1X k
mk = X .
n i=1 i
On a alors :

Définition 5.3.3. On appelle estimateur par la méthode des moments (EMM) du paramètre θ,
la solution θb du système : 
(n)
 m1 (θ) = m1


.. .
 .
 m (θ) = m(n)

p p

Exemple 5.3.3. Estimation des paramètres de la loi Gamma. Soit X1 , · · · , Xn un échantillon i.i.d.
de la loi γ (q, θ) (avec q > 0, θ > 0) de densité

θs −θx s−1
f (x) = e x 1IR+ (x)
Γ (s)

où Z +∞
Γ (q) = e−x xq−1 dx.
0
Il est aisé de vérifier que
q q (1 + q)
m1 (θ) = et m2 (θ) = .
θ θ2
Pour déterminer l’EMM, on pose donc

(n) q (n) q (1 + q)
m1 = Xn = et m2 = ,
θ θ2
et on obtient
2
Xn Xn
θb = 2 et qb = .
s s2
Chapitre 6

Estimation par région de confiance

Le chapitre précédent montre comment déterminer un estimateur T pour un paramètre g (θ)


et comment évaluer la qualité de cet estimateur. Cependant, on ne peut être certain que la valeur
obtenue pour T sur des observations soit exactement égale à g (θ). Il y a donc un intérêt à déterminer
non plus un estimateur au sens du chapitre précédent, mais plutôt un sous-ensemble C de Θ,
construit sur la base d’un échantillon, qui contienne le paramètre avec une forte probabilité. L’objet
de ce chapitre est la détermination et l’évaluation de ce type d’estimation.

6.1 Généralités
 n
n n o
Définition 6.1.1. Soient X n , T ⊗ , Pθ⊗ ; θ ∈ Θ un modèle statistique d’échantillonnage et g
une fonction définie sur Θ. On appelle région de confiance de g (θ) toute famille C = (C (x))x∈X n
de parties de g (Θ) telle que, pour tout θ ∈ Θ, l’ensemble

{C 3 g (θ)} = { x ∈ X n ; C (x) 3 g (θ)}

soit mesurable.

Il s’agit donc d’une famille de parties de g (Θ) dépendant des observations et pour laquelle on peut
calculer la probabilité qu’elle contienne le paramètre à estimer. Lorsque X = (X1 , · · · , Xn ) est un
échantillon iid du modèle précédent, on peut définir :

Définition 6.1.2. On appelle niveau de confiance d’une région de confiance C = (C (x))x∈X n la


quantité inf θ∈Θ P (C (X) 3 g (θ)) .

Le niveau de confiance permet d’évaluer la probabilité que la région de confiance contienne le


paramètre. Pour α ∈ [0, 1] fixé, on dit que C est de niveau de confiance minimal 1 − α si
inf θ∈Θ P (C (X) 3 g (θ)) ≥ 1 − α ; en cas d’égalité on dit qu’il est de niveau 1 − α.

Exemple 6.1.1. Soit X1 , · · · , Xn un échantillon iid de la loi N m, σ02 , où m est inconnu et
σ0 est connu et α ∈ [0, 1]. considérons q1− α2 le 1 − α2 -quantile de la loi N (0, 1), c’est à dire
q1− α2 = Φ−1 1 − α2 où Φ est la f.d.r de cette loi. Alors la famille C = (C (x))x∈X n définie par


57
58 CHAPITRE 6. ESTIMATION PAR RÉGION DE CONFIANCE
h i
σ0 σ0
C (x) = xn − √ q α , xn +
n 1− 2
√ q α
n 1− 2
est un intervalle de confiance de niveau exactement égal à
1 − α de m. En effet,

   
X n − m
P (C (X) 3 m) = P n

≤ q1− α2 ;
σ0
√  X n −m 
puisque n σ0 suit la loi N (0, 1), on a donc :
Z q1− α
2 1 t2
 α
√ e− 2 dt = 2Φ q1− α2 − 1 = 2 1 −

P (C (X) 3 m) = − 1 = 1 − α.
−q1− α 2π 2
2

En conséquence : inf m∈R P (C (X) 3 m) = 1 − α, et C est un intervalle de confiance de niveau


1 − α pour m.

6.2 Construction des régions de confiance


Nous donnons ici quelques méthodes de construction de régions de confiance.

6.2.1 Régions fondées sur des pivots


 n
n n o
Définition 6.2.1. Soient X n , T ⊗ , Pθ⊗ ; θ ∈ Θ un modèle statistique d’échantillonnage et
g une fonction définie sur Θ. On appelle fonction pivotale (ou pivot) de g (θ) toute fonction ψ :
X n × g (Θ) → (Y, Y) telle que, pour tout θ ∈ Θ, l’application x ∈ X n 7→ ψ (x, g (θ)) soit mesurable
et la loi de ψ (X, g (θ)), où X = (X1 , · · · , Xn ) est un échantillon du modèle précédent, ne dépende
pas de θ.

√  
Exemple 6.2.2. On reprend l’exemple précédent. La fonction ψ (x, m) = n xnσ−m 0
est pivotale ;
en effet, la fonction x 7→ ψ (x, m) est mesurable et ψ (X, m) est de loi N (0, 1).

La proposition suivante indique une méthode de construction d’une région de confiance s’appuyant
sur les fonctions pivotales.

Proposition 6.2.1. Dans le cadre de la définition 6.2.1, soient ψ une fonction pivotale, Q la loi
de ψ (X, g (θ)) et α ∈ [0, 1]. Si B est un élément de Y tel que Q (B) ≥ 1 − α, alors la région de
confiance C définie par

∀x ∈ X n , C (x) = {t ∈ g (Θ) ; ψ (x, t) ∈ B}

est de niveau de confiance minimal 1 − α.


Preuve. Remarquons tout d’abord que l’on a :
−1 n
{C 3 g (θ)} = { x ∈ X n ; C (x) 3 g (θ)} = { x ∈ X n ; ψ (x, g (θ)) ∈ B} = ψ (·, g (θ)) (B) ∈ T ⊗ ,

ce qui prouve que la famille C définie ci-dessus est bien une région de confiance. De plus,

P (C (X) 3 g (θ)) = P (ψ (X, g (θ)) ∈ B) = Q (B) ≥ 1 − α;


6.2. CONSTRUCTION DES RÉGIONS DE CONFIANCE 59

donc inf θ∈Θ P (C (X) 3 g (θ)) ≥ 1 − α. 

Remarque 6.2.1. Si B est tel que Q (B) = 1 − α, on obtient une région de confiance de niveau
1 − α par le même procécé.

Exemple 6.2.3. On reprend l’exemple 6.2.1. On a vu dans l’exemple 6.2.2 que ψ (x, m) =
√  xn −m   
n σ0 est pivotale ; la loi Q est la loi normale N (0, 1). Soit Iα = −q1− α2 , q1− α2 ; on a
  
Q −q1− α2 , q1− α2 = 2Φ q1− α2 − 1 = 1 − α,

un intervalle de confiance de niveau 1 − α est donc obtenu en posant


   
xn − m
C (x) = {m ∈ R; ψ (x, m) ∈ Iα } = m ∈ R; n ∈ Iα
σ0
 
σ0 σ0
= m ∈ R; xn − √ q1− α2 ≤ m ≤ xn + √ q1− α2
n n
 
σ0 σ0
= xn − √ q1− α2 , xn + √ q1− α2 ,
n n

et on retrouve l’intervalle de confiance considéré dans l’exemple 6.2.1.

6.2.2 Régions de confiance asymptotiques


Il peut arriver que l’on ne puisse pas déterminer la loi de la fonction pivotale. Dans ce cas,
il est impossible de déterminer une région de confiance par le procédé défini dans la proposition
6.2.1. On peut alors, dans certains cas, considérer une loi asymptotique de la fonction pivotale (par
exemple, en utilisant le théorème de limite centrale) et construire une région de confiance (qui est
alors qualifiée d’asymptotique) sur la base de cette loi.
 n
n n o
Définition 6.2.2. Soient X n , T ⊗ , Pθ⊗ ; θ ∈ Θ un modèle statistique d’échantillonnage, X =
(X1 , · · · , Xn ) un échantillon de ce modèle et g une fonction définie sur Θ. Soit une suite de fonction
(ψn )n∈N∗ telle que ψn : X n × g (Θ) → (Y, Y) et, pour tout θ ∈ Θ, l’application x ∈ X n 7→
ψn (x, g (θ)) soit mesurable. On dit que cette suite est asymptotiquement pivotale si ψn (X, g (θ))
converge en loi, lorsque n → +∞, vers une loi µ ne dépendant pas de θ.

Lorsque l’on a une suite asymptotiquement pivotale, une région de confiance peut être déterminée
en utilisant la méthode définie dans la proposition 6.2.1, mais en remplaçant Q par la loi asymp-
totique. On obtient de la sorte une région de confiance de niveau asymptotique minimal de 1 − α.

Exemple 6.2.4.

Soit X1 , · · · , Xn un échantillon i.i.d de la loi B (p). La suite de fonctions fonction
ψn (x, p) = √n(xn −p) est asymptotiquement pivotale ; en effet, x 7→ ψn (x, m) est mesurable et,
p(1−p)

n(X n −p)
d’après le théorème de limite centrale, ψn (X, p) = √ converge en loi vers la loi µ = N (0, 1)
p(1−p)
lorsque n → +∞. On peut donc déterminer un intervalle de confiance pour p sur la base de cette
60 CHAPITRE 6. ESTIMATION PAR RÉGION DE CONFIANCE
 
loi, en appliquant la proposition 6.2.1. Soit Iα = −q1− α2 , q1− α2 ; on a
( √ )
n (xn − p)
C (x) = {p ∈ ]0, 1[ ; ψn (x, p) ∈ Iα } = p ∈ ]0, 1[ ; p ∈ Iα
p (1 − p)
n o
2 2
= p ∈ ]0, 1[ ; n (xn − p) ≤ p (1 − p) q1− α
2

2 2
( ! ! )
q1− α 2
q1− α
2
= p ∈ ]0, 1[ ; 1 + 2
p − 2xn + 2
p + xn ≤ 0 ,
n n

ce qui, en résolvant l’équation du second degré en p, donne l’intervalle


 r r 
2 4
q1− 2
q1− 2 4
q1− 2
q1−
q1− α α α q1− α α α
 xn + 2n
2
− 4n2
2
+ n
2
xn (1 − xn ) xn + 2n
2
+ 4n2
2
+ n
2
xn (1 − xn ) 
 2
q1−
, 2
q1−
.
 α α 
1+ n
2
1+ n
2
Chapitre 7

Tests d’hypothèses

Dans ce chapitre, on se pose le problème du choix entre deux hypothèses. Plus précisement, soient
deux hypothèses contradictoires H0 et H1 pouvant porter sur un paramètre de la loi correspondant
à un modèle statistique donné, comment décider, sur la base de l’observation d’un échantillon i.i.d.,
si H0 est vraie ou si H1 est vraie ? Le problème ainsi formulé ouvre la porte à une vaste classe de
méthodes statistiques pouvant permettre d’obtenir une réponse à des questions qui se posent en
pratique.

7.1 Principes de base


Soient H0 et H1 deux hypothèses contradictoires ; se poser un problème de test de ces deux
hypothèses revient à rechercher une procédure qui permet de décider de laquelle de ces deux hy-
pothèses est vraie, sur la base d’un échantillon i.i.d X = (X1 , · · · , Xn ). Les hypothèses précédentes
sont définies par le problème pour lequel on recherche une réponse.

Exemple 7.1.1. Reprenant l’exemple 5.1.1, on peut rechercher une réponse à la question : “la
pièce est-elle équilibrée”, sur la base de l’échantillon correspondant au modèle de Bernoulli obtenu
en lançant cette pièce n fois. Cela revient à considérer un problème de test de l’hypothse nulle
H0 : p = 1/2 contre l’hypothèse alternative H1 : p 6= 1/2.

Une procédure permettant de prendre une telle décision, appellée test, peut être définit comme
suit :

Définition 7.1.1. On appelle On appelle test toute fonction mesurable φ : X n → {0, 1}.
L’ensemble W = φ−1 ({1}) est appellé région critique du test φ ; L’ensemble A = φ−1 ({0}) =
X n \W est appellé région d’acceptation du test φ.

Cette définition illustre le fait qu’un test n’est autre qu’une application de l’ensemble des échantillons
vers {0, 1}, qui à un échantillon donné associe 0 si celui-ci conduit à l’acceptation de l’hypothèse
H0 et 1 s’il conduit à accepter H1 . Finalement, on a φ =1IW , ce qui montre qu’un test est
entièrement déterminé par la donnée de la région critique ; déterminer un test revient
donc à préciser la région critique.

61
62 CHAPITRE 7. TESTS D’HYPOTHÈSES

Remarque 7.1.1. La région critique n’est autre que l’ensemble des échantillons qui conduisent au
rejet de l’hypothèse H0 . Un test φ induit une partition de X n en W et A c’est à dire : A ∩ W = ∅
et X n = A ∪ W . Cette partition existe mais est inconnue, on cherche donc à en définir une
approximation sur la base de l’observation d’un échantillon.

Remarquons qu’en réalité l’une des deux hypothèses est vraie, mais on ne sait pas à priori laquelle.
L’application d’un test sur un échantillon conduit donc naturellement à deux situations possibles :
soit on commet une erreur, soit on prend une bonne décision. Ce dernier cas survient lorsque l’on
décide que H0 est vraie et qu’en réalité cette hypothèse est vraie, ou lorsque l’on décide que H1 est
vraie et qu’en réalité H1 est vraie. Une erreur de première espèce est commise lorsque l’on décide
de refuser H0 alors qu’en réalité H0 est vraie. On commet une erreur de deuxième espèce lorsque
l’on décide d’accepter H0 alors qu’en réalité H1 est vraie. On peut mesurer les possibilités de ces
erreurs au moyen des probabilités, comme suit :

Définition 7.1.2. On appelle risque de première espèce du test φ la probabilité de refuser à tort
l’hypothèse H0 :
α (φ) = PH0 (φ (X) = 1) = PH0 (X ∈ W ) .
On appelle risque de deuxième espèce du test φ la probabilité d’accepter à tort l’hypothèse H0 :

β (φ) = PH1 (φ (X) = 0) = PH1 (X ∈ A) .

On appelle puissance du test φ la probabilité de refuser à raison l’hypothèse H0 :

p (φ) = PH1 (φ (X) = 1) = PH1 (X ∈ W ) = 1 − β (φ) .

Bien entendu, on va rechercher un test qui conduit la minimisation des risques introduits ci-
dessus, cela conduit à :
0 0
Définition 7.1.3. Soient deux tests φ et φ , de régions critiques respectives W et W ; on dit que
0
φ est préférable à φ si : α (φ) ≤ α (φ) et β (φ) ≤ β (φ).

Malheureusement, il n’y a aucune raison pour le test qui réalise le plus petit risque de première
espèce soit également celui qui minimise le risque de deuxième espèce. Il sera donc, dans la plupart
des cas, impossible de trouver le test minimisant à la fois α (φ) et β (φ). Afin de sortir de cette
impossibilité, Neyman et Pearson proposent, en 1933, de traiter les deux risques de façon non
symétrique et de limiter l’ensemble des tests posssibles à la classe des fonctions φ ayant un risque
de première espèce au plus égal à un seuil α0 fixé au préalable. Soit C (α0 ) cette classe :

C (α0 ) = {φ : X n → {0, 1} / α (φ) ≤ α0 } .

On recherche alors un test optimal pour le risque de deuxième espèce dans cette classe, c’est à dire
un test φ0 ∈ C (α0 ) tel que
p (φ0 ) = max (p (φ)) .
φ∈C(α0 )

Dans le cas d’un modèle paramétrique, la loi des v.a. de l’échantillon i.i.d. X = (X1 , · · · , Xn )
dépend d’un paramètre θ ∈ Θ et les hypothèses portent sur ce paramètre ; c’est le cas dans l’exemple
7.1.1. On a alors H0 : θ ∈ Θ0 et H1 : θ ∈n Θ1 , où Θ0 et Θ1 constituent n
une partition de Θ.
Les risques sont alors définis par αθ (φ) = Pθ⊗ (W ) (θ ∈ Θ0 ) et βθ (φ) = Pθ⊗ (A) (θ ∈ Θ1 ), tandis
que la puissance est pθ (φ) = 1 − βθ (φ). Dans ce cas, on peut définir :
7.2. MÉTHODES DE CONSTRUCTION DES TESTS 63

Défintion 7.1.4. On appelle niveau du test la borne supérieure de son risque de première espèce :

α = sup αθ (φ) .
θ∈Θ0

Définition 7.1.5. Un test φ∗ est dit uniformément le plus puissant (UPP) de niveau α, si son
niveau est égal à α et si : ∀φ, ∀θ ∈ Θ1 , pθ (φ∗ ) ≥ pθ (φ).

7.2 Méthodes de construction des tests


Nous nous plaçons ici dans le cadre de modèles paramétriques ; les problèmes de tests considérés
portent sur des paramètres, on obtient donc des tests dits tests paramétriques. Nous montrons tout
d’abord comment on peut construire des tests en s’appuyant sur des estimateurs des paramètres mis
en jeu, puis nous introduisons une méthode plus systématique, le test du rapport de vraissemblance,
conduisant à l’optimalité sous certaines conditions.

7.2.1 Estimateurs de paramètres usuels


On a vu que la détermination d’un test revient à celle de sa région critique. Pour cela, on
applique le principe suivant : on fixe le niveau α puis on détermine détermine alors la région
critique de sorte que le risque de première soit égale à α. La détermination de la région critique est
obtenue par la méthode suivante : on donne tout d’abord sa forme (obtenue par un raisonnement
intuitif), puis on détermine les inconnus de telle sorte que l’erreur de première espèce soit égale à α
fixée. La dernière étape précédente est effectuée en se basant sur une statistique, appellée statistique
de test, dont on connait la loi ou, au pire des cas, une loi asymptotique lorsque n → +∞. Lorsque
les hypothèses du test portent sur une caractéristique numérique de la loi sous-jacente (moyenne,
variance, etc), la statistique de test est généralement prise comme un estimateur convergent de
cette caractéristique.

Test de la moyenne
Soit X1 , · · · , Xn un échantillon i.i.d. d’une loi de moyenne m inconnue. Soit m0 un réel donné,
on s’intéresse au test de l’hypothèse nulle H0 : m = m0 contre une hypothèse alternative pouvant
revêtir diverses formes selon les cas.

a) Cas de loi normale



On suppose ici que la loi commune est la loi normale N m, σ 2 .

Cas de variance σ 2 connue

i) Test bilatéral H1 : m 6= m0

Puisque X n est un estimateur convergent de m, la région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > t} .


64 CHAPITRE 7. TESTS D’HYPOTHÈSES

et il reste à déterminer t. Celui-ci doit vérifier

αm (φ) = PH0 (X ∈ W ) = α
 2

N m, σn donc, sous H0 on a X n N m0 , n1 et :

Or X n
 √  √ 

 
n X n − m0 > n t = α ⇔ Φ n α

PH0 (X ∈ W ) = α ⇔ PH0 t =1− ,
σ σ σ 2

où Φ est la f.d.r. de la loi N (0, 1) ; donc



n  α
t = q1− α2 = Φ−1 1 − .
σ 2
Finalement  
σ
W = x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > √ q1− α2 .
n
ii) Test unitéral H1 : m > m0

La région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > t} ,

et √ √

    
X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n > t =α⇔Φ t = 1 − α.
σ σ σ
Donc √
n
t = q1−α = Φ−1 (1 − α)
σ
et  
σ
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > √ q1−α .
n
iii) Test unitéral H1 : m < m0

La région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < t} ,

et √ √

    
X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n < t =α⇔Φ t = α.
σ σ σ
Donc √
n
t = qα = Φ−1 (α)
σ
et  
n σ
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 < √ qα .
n
Cas de variance σ 2 inconnue
7.2. MÉTHODES DE CONSTRUCTION DES TESTS 65

On estime σ 2 par la variance empirique corrigée


n
2 1 X 2
S∗,n = Xi − X n ;
n − 1 i=1

n−1 2 n(X n −m)
on sait que suit une loi χ2n−1 . En
σ 2 S∗,n √ conséquence, puisque σ est de loi normale
n(X n −m)
N (0, 1), le quotient S∗,n suit une loi de Student à n − 1 degrés de libertés, notée Tn−1 .

iv) Test bilatéral H1 : m 6= m0

La région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > t} .



n(X n −m0 )
Sous H0 , on a S∗,n Tn−1 , d’où :

√ √  ! √ ! √ 
n X n − m0 n n α
PH0 (X ∈ W ) = α ⇔ PH0 n > t = α ⇔ Ψn−1 t =1− ,

S∗,n S∗,n S∗,n 2

où Ψn−1 est la f.d.r. de la loi Tn−1 ; donc



n  α
t = t1− α2 = Ψ−1
n−1 1 − .
σ 2
Finalement  
s∗,n
W = x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > √ t1− α2 .
n
v) Test unitéraux

En adoptant le même raisonnement, on obtient


 
n s∗,n
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 > √ t1−α
n
et  
s∗,n
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < √ tα
n
pour les test unilatéraux d’hypothèses alternatives respectives H1 : m > m0 et H1 : m < m0 .

b) Cas général

On ne peut plus appliquer tout ce qui précède car on n’a plus la loi de X n . Cependant, on peut
appliquer le théorème de limite centrale pour obtenir une approximation de la loi de cette v.a. par
la loi normale. On obtient alors un test de niveau asymptotique égal à α.

Cas de variance σ 2 connue


66 CHAPITRE 7. TESTS D’HYPOTHÈSES

√  
En utilisant le fait que Zn = n X nσ−m converge en loi vers la loi N (0, 1), on obtient des
régions critiques analogues au cas gaussien donné ci-dessus. Cependant le risque de première espèce
n’est plus égal à α mais converge cette valeur. En effet, dans le cas du test bilatéral, ce risque est :

   
X n − m0
αn = PH0 (X ∈ W ) = PH0 n
> q1− α2
σ
 
= FZn −q1− α2 + 1 − FZn q1− α2 ,

où FZn est la f.d.r. de Zn ; puisque FZn converge vers Φ, il vient :


  
lim (αn ) = Φ −q1− α2 + 1 − Φ q1− α2 = 2 1 − Φ q1− α2 = α.
n→+∞

Cas de variance σ 2 inconnue

Ici aussi, on peut utiliser une approximation normale. En effet, puisque Sn2 converge p.s. vers
2
σ , l’expression √  √ 
n Xn − m σ n Xn − m
=
Sn Sn σ

n(X n −m)
montre que Sn converge en loi vers la loi N (0, 1). La région critique du test est donc, pour
le test bilatéral :
 
sn
W = x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > √ q1− α2 .
n

Test de la proportion
Soit X1 , · · · , Xn un échantillon i.i.d. du modèle de Bernoulli B (p), on s’intéresse au test de
l’hypothèse nulle H0 : p = p0 contre une hypothèse alternative.

i) Test bilatéral H1 : p 6= p0

Puisque X n est un estimateur convergent de p, la région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − p0 | > t} .


 
Par le théorème de limite centrale, sous H0 , n √X n −p0 converge en loi vers la loi N (0, 1).
p0 (1−p0 )
Ceci permet de déterminer la région critique sous la forme
( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / |xn − p0 | > q1− α2 .
n

ii) Test unitéral H1 : p > p0

On obtient ( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / xn − p0 > q1−α .
n
7.2. MÉTHODES DE CONSTRUCTION DES TESTS 67

iii) Test unitéral H1 : p < p0

On obtient ( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / xn − p0 < qα .
n

Test de comparaison des moyennes


Soient X1 , · · · , Xn un échantillon i.i.d. d’une loi de moyenne m inconnue. Soit m0 un réel donné,
on s’intéresse au test de l’hypothèse nulle H0 : m = m0 contre une hypothèse alternative pouvant
revêtir diverses formes selon les cas.

a) Cas de loi normale



On suppose ici que la loi commune est la loi normale N m, σ 2 .

Cas de variance σ 2 connue

i) Test bilatéral H1 : m 6= m0

Puisque X n est un estimateur convergent de m, la région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > t} .

et il reste à déterminer t. Celui-ci doit vérifier

αm (φ) = PH0 (X ∈ W ) = α
 2

N m, σn N m0 , n1 et :

Or X n donc, sous H0 on a X n
 √  √ 

 
n X n − m0 > n t = α ⇔ Φ n α

PH0 (X ∈ W ) = α ⇔ PH0 t =1− ,
σ σ σ 2

où Φ est la f.d.r. de la loi N (0, 1) ; donc



n  α
t = q1− α2 = Φ−1 1 − .
σ 2
Finalement  
n σ
W = x = (x1 , · · · , xn ) ∈ R / |xn − m0 | > √ q1− α2 .
n
ii) Test unitéral H1 : m > m0

La région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > t} ,
68 CHAPITRE 7. TESTS D’HYPOTHÈSES

et √ √

    
X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n > t =α⇔Φ t = 1 − α.
σ σ σ
Donc √
n
t = q1−α = Φ−1 (1 − α)
σ
et  
σ
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > √ q1−α .
n
iii) Test unitéral H1 : m < m0

La région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < t} ,

et √ √

    
X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n < t =α⇔Φ t = α.
σ σ σ
Donc √
n
t = qα = Φ−1 (α)
σ
et  
n σ
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 < √ qα .
n
Cas de variance σ 2 inconnue

On estime σ 2 par la variance empirique corrigée


n
2 1 X 2
S∗,n = Xi − X n ;
n − 1 i=1

n−1 2 n(X n −m)
on sait que suit une loi χ2n−1 . En
σ 2 S∗,n √ conséquence, puisque σ est de loi normale
n(X n −m)
N (0, 1), le quotient S∗,n suit une loi de Student à n − 1 degrés de libertés, notée Tn−1 .

iv) Test bilatéral H1 : m 6= m0

La région critique est de la forme

W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > t} .



n(X n −m0 )
Sous H0 , on a S∗,n Tn−1 , d’où :

√ √  ! √ ! √ 
n X n − m0 n n α
PH0 (X ∈ W ) = α ⇔ PH0 n > t = α ⇔ Ψn−1 t =1− ,

S∗,n S∗,n S∗,n 2

où Ψn−1 est la f.d.r. de la loi Tn−1 ; donc



n  α
t = t1− α2 = Ψ−1
n−1 1 − .
σ 2
7.2. MÉTHODES DE CONSTRUCTION DES TESTS 69

Finalement  
n s∗,n
W = x = (x1 , · · · , xn ) ∈ R / |xn − m0 | > √ t1− α2 .
n
v) Test unitéraux

En adoptant le même raisonnement, on obtient


 
n s∗,n
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 > √ t1−α
n
et  
s∗,n
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < √ tα
n
pour les test unilatéraux d’hypothèses alternatives respectives H1 : m > m0 et H1 : m < m0 .

Vous aimerez peut-être aussi