Probastatm 4

Table des matières
I PROBABILITES 3
1 Espérance conditionnelle 5
1.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Caractérisation de l’espérance conditionnelle de v.a. de carrés intégrables . . . . . 11
2 Martingales à temps discret 13

2.1 Définitions et propriétés de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Tribus des événements antérieurs . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3 Théorème d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Chaı̂nes de Markov 23
3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2 Chaı̂nes de Markov homogènes . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3 Quelques exemples de chaı̂nes de Markov . . . . . . . . . . . . . . . . . . . 25
3.2 Chaı̂nes de Markov stationnaires à espace d’état dénombrable . . . . . . . . . . . . 27
3.2.1 Equations de Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.3 Récurrence et transcience . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II STATISTIQUE 33
4 Introduction à la Statistique 35
4.1 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Loi et paramètres d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2 Moyenne et variance empiriques . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.1 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.2 Cas du modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1
2 TABLE DES MATIÈRES
5 Estimation ponctuelle 43
5.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2 Evaluation et comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . . . 45
5.2.1 Risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.2 Amélioration d’un estimateur sans biais . . . . . . . . . . . . . . . . . . . . 47
5.2.3 Recherche d’un estimateur sans biais optimal . . . . . . . . . . . . . . . . . 48
5.2.4 Estimateurs efficaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3.1 Méthode du maximum de vraissemblance . . . . . . . . . . . . . . . . . . . 54
5.3.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6 Estimation par région de confiance 57

6.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.2 Construction des régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2.1 Régions fondées sur des pivots . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2.2 Régions de confiance asymptotiques . . . . . . . . . . . . . . . . . . . . . . 59
7 Tests d’hypothèses 61
7.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.2 Méthodes de construction des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.2.1 Estimateurs de paramètres usuels . . . . . . . . . . . . . . . . . . . . . . . . 63
Première partie
PROBABILITES
3
Chapitre 1
Espérance conditionnelle
Dans ce chapitre, nous allons définir l’espérance conditionnelle à une sous-tribu. Seront ensuite
établies des propriétés relatives à cette notion ; il s’agira, dans la plupart des cas, d’étendre les
propriétés usuelles de l’espérance mathématique.
1.1 Définition et exemples

Soit (Ω, A, P ) un espace probabilisé et B une sous-tribu de A. On considère une variable
aléatoire réelle (v.a.r.) X définie sur (Ω, A) et supposée P -intégrable.
Définition 1.1.1. On appelle espérance conditionnelle de X à B toute v.a.r. Y définie sur (Ω, A)
et telle que
(i) Y est P -intégrable ;
(ii) Y est B-mesurable ; R R
(iii) pour tout événement B ∈ B, B X dP = B Y dP .
Le théorème suivant établit l’existence et l’unicité (au sens de l’égalité presque sûre) de l’espérance
conditionnelle d’une v.a.r. à une sous-tribu.
Théorème 1.1.1. Soient une v.a.r. X définie sur (Ω, A) et P -intégrable, et B une sous-tribu de
A. Alors :
(i) il existe une espérance de X conditionnelle à B;
0 0
(ii) soient Y et Y deux espérances de X conditionnelles à B, alors Y = Y R p.s..
Preuve. (i) Si X ≥ 0, on considère la mesure ν définie sur (Ω, A) par ν (A) = A X dP ; c’est une
mesure finie car ν (Ω) = E (X) < +∞. Considérons les restrictions νB = ν|B et PB = P |B . Si,
pour B ∈ B, on a PB (B) = 0, puisque B est alors P -négligeable, il vient
Z
νB (B) = X dP = 0,
B
ce qui prouve que νB PB . Le théorème de Radon-Nikodym permet alors d’affirmer l’existence

1
R Y ∈ L (Ω, B, PB ) (en particulier,
d’une v.a.r. R YRest B-mesurable et P -intégrable) telle que : ∀B ∈ B,
νB (B) = B Y dPB , c’est à dire B X dP = B Y dP . Dans le cas général, on a X = X+ − X−
5
6 CHAPITRE 1. ESPÉRANCE CONDITIONNELLE
avec X+ = max (X, 0) et X+ = − min (X, 0). Puisque X+ et X− sont positives et P -intégrables, on
déduit de ce qui précède l’existence de v.a.r. B-mesurables et P -intégrables Y+ et Y− vérifiant :
Z Z Z Z
∀B ∈ B, X+ dP = Y+ dP et X− dP = Y− dP.
B B B B
En conséquence, la v.a.r. Y = Y+ − Y− est B-mesurable, P -intégrable et vérifie

Z Z Z Z Z Z Z
∀B ∈ B, Y dP = Y+ dP − Y− dP = X+ dP − X− dP = (X+ − X− ) dP = X dP,
B B B B B B B
ce qui prouve que Y est une espérance de X conditionnelle à B.

(ii)
L’espérance de X conditionnelle à B sera désormais notée E ( X| B) ; les exemples suivants

permettent de la définir explicitement dans quelques cas particuliers importants.
Exemple 1.1.1. Soit B une sous-tribu de A s’écrivant sous la forme B = σ (A1 , · · · , An ) où
les Ai sont des sous-ennsembles disjoints de Ω tels que P (Ai ) > 0 (i = 1, · · · , n). Pour tout
B = Ai1 ∪ · · · ∪ Aip ∈ B et toute v.a. X P -intégrable :
Z p
X Xp
X dP = E (X1IB ) = E X1IAik = αik P (Aik )
B k=1 k=1
avec :
E (X1IAi )
αi = .
P (Ai )
Pn
La v.a. Y = i=1 αi 1IAi est B-mesurable, P -intégrable et vérifie :
Z n
X p
X p
X Z
Y dP = E (Y 1IB ) = αi E (1IB∩Ai ) = αik E 1IAik = αik P (Aik ) = X dP ;
B i=1 k=1 k=1 B
on en déduit que
n
X E (X1IAi )
E ( X| B) = Y = 1IAi (p.s.).
i=1
P (Ai )
Exemple 1.1.2. Soit une v.a. Z à valeurs

−1
dans (E, P (E)) où E = {z1 , · · · , zn } ; on suppose que
les zi sont distincts et que
−1 P Z ({z i }) > 0 (i = 1, · · · , n). On sait que la tribu engendrée par
Z est alors σ (Z) = Z ({zi }) ; i = 1, · · · , n . L’exemple précédent montre que pour toute v.a.
X P -intégrable, on a :
n n
X E X1IZ −1 ({zi }) X E X1I{Z=zi }
E ( X| σ (Z)) = 1
I −1 = 1I{Z=zi } (p.s.).
i=1
P (Z −1 ({zi })) Z ({zi }) i=1 P (Z = zi )
Exemple 1.1.3. Soient X et Z deux v.a.r. admettant une densité conjointe f ; on suppose que
1.2. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE 7
X est P -intégrable. Pour tout B ∈ σ (Z), on a B = Z −1 (A) où A ∈ BR , et :

Z Z Z Z
X dP = X dP = X 1IA ◦ Z dP = x1IA (z) dPX,Z (x, z)
B Z −1 (A) Ω R2
Z Z
= x1IA (z) f (x, z) dx dz = x1IA (z) fZ (z) f X|Z=z (x) dx dz
R2 R2
Z Z
= 1IA (z) fZ (z) xf X|Z=z (x) dx dz
ZR R
= 1IA (z) fZ (z) E ( X| Z = z) dz

ZR Z Z
= ψ (z) dPZ (z) = ψ (Z) dP = ψ (Z) dP
A Z −1 (A) B
où ψ (z) = E ( X| Z = z) ; comme ψ (Z) est σ (Z)-mesurable on déduit des égalités précédentes que
E ( X| σ (Z)) = ψ (Z) = E ( X| Z) (p.s.).
1.2 Propriétés de l’espérance conditionnelle

Dans ce paragraphe, nous donnons les principales propriétés de l’espérance conditionnelle. Tout
d’abord, il s’agira d’étendre les propriétés de l’espérance mathématique, ensuite des propriétés
propres de l’espérance conditionnelle seront établies.
Proposition 1.2.1. Soit X ∈ L1 (Ω, A, P ) et B une sous-tribu de A.

(i) Si X ≥ 0 p.s. alors E ( X| B) ≥ 0 p.s..
(ii) Si X = a p.s. alors E ( X| B) = a p.s..
(iii) Soit Y ∈ L1 (Ω, A, P ) et (a, b) ∈ R2 ; alors E ( aX + bY | B) = aE ( X| B) + bE ( Y | B) p.s..
(iv) Si X ≥ Y p.s. alors E ( X| B) ≥ E ( Y | B) p.s..
Preuve. (i). Si X ≥ 0 p.s., soit B = {Y < 0} avec Y = E ( X| B). Supposons que P (B) > 0, alors
Z Z
0≤ X dP = Y dP < 0
B B
ce qui est absurde. On en déduit que P (B) = 0, c’est R à dire Y ≥

R 0 p.s..
(ii). Si X = a p.s., alors quelque soit B ∈ B, on a B X dP = B a dP ; par unicité de l’espérance
conditionnelle il vient E ( X| B) = a p.s..
(iii). Quelque soit B ∈ B, on a
Z Z Z Z Z Z
aX+bY dP = a X dP +b Y dP = a E ( X| B) dP +b E ( Y | B) dP = aE ( X| B)+bE ( Y | B) dP ;
B B B B B B
par unicité de l’espérance conditionnelle il vient E ( aX + bY | B) = aE ( X| B) + bE ( Y | B) p.s..

(iv). On applique la propriété (i) et (iii) à la v.a. X − Y .
Proposition 1.2.2. Soit X ∈ L1 (Ω, A, P ) et B une sous-tribu de A.

(i) E (E ( X| B)) = E (X) ≥ 0.
(ii) Si X est B-mesurable, alors E ( X| B) = X p.s..
(iii) Si X est indépendante de B, alors E ( X| B) = E (X) p.s..
(iv) Si B et sont deux sous-tribus de A, telles que B1 ⊂ B2 , alors E ( X| B1 ) = E ( E ( X| B2 )| B1 )
p.s..
(v) Inégalité de Jensen conditionnelle. Si ϕ est une fonction convexe sur R telle que ϕ ◦ X ∈
L1 (Ω, A, P ) , alors : ϕ (E ( X| B)) ≤ E ( ϕ (X)| B) p.s..
Preuve. (i). Puisque Ω ∈ B, on a
Z Z
E (E ( X| B)) = E ( X| B) dP = X dP = E (X) .
Ω Ω
(ii). Quelque soit B ∈ B, on a

Z Z
E ( X| B) dP = X dP
B B
et comme X est B-mesurable, l’unicité de l’espérance conditionnelle donne E ( X| B) = X p.s..

(iii). Quelque soit B ∈ B, on a
Z Z
E (X1IB ) = E (X) E (1IB ) = E (X) dP = E (X) dP
B B
et comme la constante E (X) est B-mesurable, l’unicité de l’espérance conditionnelle donne E ( X| B) =

E (X) p.s..
(iv). Soit Y2 = E ( X| B2 ) ; quelque soit B ∈ B1 , puisque l’on a aussi B ∈ B2 , il vient :
Z Z Z
Y2 dP = X dP = E ( X| B1 ) dP
B B B
donc E ( Y2 | B1 ) = E ( X| B1 ) p.s..
(v). La convexité assure qu’en tout point lr graphe de ϕ est au-dessus de la tangente. Donc
pour tout t ∈ R, il existe β ∈ R tel que ϕ (x) ≥ ϕ (t) + β (x − t) (on peut prendre pour β la dérivée
à gauche ou à droite de ϕ au point t). On en déduit
ϕ (X) ≥ ϕ (E ( X| B)) + β (X − E ( X| B)) ,
d’où, en appliquant l’espérance conditionnelle aux deux membres de cette inégalité, ϕ (E ( X| B)) ≤
E ( ϕ (X)| B)
Les théorèmes suivants étendent à l’espérance conditionnelle les théorèmes de convergence clas-
siques impliquant l’espérance mathématique.
Proposition 1.2.3. (convergence monotone conditionnelle). Soit (Xn )n∈N une suite croissante de
v.a. positives de L1 (Ω, A, P ) qui converge p.s. vers une v.a. X ∈ L1 (Ω, A, P ). Alors pour toute
sous-tribu B de A, on a p.s. : E ( X| B) = limn→+∞ ↑ E ( Xn | B).
Preuve. La croissance p.s. de la suite (E ( Xn | B))n∈N résulte directement de la proposition 1.2.1.
Pour tout B ∈ B, on obtient en utlisant les propriétés de l’espérance conditionnelle et le théorème
de Beppo-Levi :
Z Z Z Z
X dP = lim ↑ Xn dP = lim ↑ E ( Xn | B) dP = lim E ( Xn | B) dP ;
B n→+∞ B n→+∞ B B n→+∞
puisque limn→+∞ E ( Xn | B) est B-mesurable comme limite de v.a. B-mesurables, l’égalité précédente
et l’unicité de l’espérance conditionnelle permettent de conclure que limn→+∞ E ( Xn | B) = E ( X| B)
p.s.
1.2. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE 9
Comme conséquence cette proposition, on a le résultat suivant.
Proposition 1.2.4. Soit X ∈ L1 (Ω, A, P ), B une sous-tribu de A et Y une v.a.r. telle que
XY ∈ L1 (Ω, A, P ). Si Y est B-mesurable, alors : E ( XY | B) = Y E ( X| B) p.s..
Preuve. (a). Si Y =1IA avec A ∈ B, on a pour tout B ∈ B :
Z Z Z Z Z Z
XY dP = X 1IA dP = X dP = E ( X| B) dP = 1IA E ( X| B) dP = Y E ( X| B) dP ;
B B A∩B A∩B B B
Pp E ( XY | B) = Y E ( X| B) p.s.. On déduit de ce qui précède que si Y est étagée, Y =

donc
i=1 αi 1IAi avec Ai ∈ B, on a p.s. :
p
X p
X
E ( XY | B) = αi E ( X1IAi | B) = αi 1IAi E ( X| B) = Y E ( X| B) .
i=1 i=1
(b). Si Y ≥ 0 alors Y = lim Yn où (Yn )n est une suite croissante de v.a. étagées B-mesurables
positives. Considérant X+ = max (X, 0) et X− = − min (X, 0), on a donc p.s.
E ( XYn | B) = E ( X+ Yn | B) − E ( X− Yn | B) = Yn (E ( X+ | B) − E ( X− | B)) ; (1.2.1)
par convergence monotone conditionnelle, on obtient p.s. limn→+∞ E ( X+ Yn | B) = E ( X+ Y | B) et

limn→+∞ E ( X− Yn | B) = E ( X− Y | B). Par passage à la limite dans l’égalité (1.2.1) on en déduit
que l’on a p.s. :
E ( X+ Y | B) − E ( X− Y | B) = Y (E ( X+ | B) − E ( X− | B))
c’est à dire E ( XY | B) = Y E ( X| B).
(c). Dans le cas général, on considère la décomposition Y = Y+ −Y− où les v.a. Y+ = max (Y, 0)
et Y− = − min (Y, 0) sont (trivialement) B-mesurables positives. Donc :
E ( XY | B) = E ( XY+ | B) − E ( XY− | B) = Y+ E ( X| B) − Y− E ( X| B) = Y E ( X| B) .
Proposition 1.2.5. (Lemme de Fatou conditionnel). Soit (Xn )n∈N une suite de v.a. positives de
L1 (Ω, A, P ). Alors pour toute sous-tribu B de A, on a p.s. : E ( lim inf n Xn | B) ≤ lim inf n E ( Xn | B).
Preuve. Pour tout n ∈ N et tout p ≥ n on a inf k≥n (Xk ) ≤ Xp ; donc E ( inf k≥n (Xk )| B) ≤
E ( Xp | B) p.s.. On en déduit l’inégalité E ( inf k≥n (Xk )| B) ≤ inf p≥n E ( Xp | B) p.s., et un passage à
la limite donne

lim E inf (Xk ) B ≤ lim inf E ( Xp | B) = lim inf E ( Xn | B) p.s..
n→+∞ k≥n n→+∞ p≥n n
Le résultat recherché est alors déduit de l’égalité suivante obtenue par le théorème de convergence
monotone conditionnel :

lim E inf (Xk ) B = E lim inf (Xk ) B = E lim inf Xn B p.s.

n→+∞ k≥n n→+∞ k≥n n
Proposition 1.2.6. (Théorème de Fatou-Lebesgue conditionnel). Soit (Xn )n∈N une suite de v.a.r
telle qu’il existe une v.a.r. Y de L1 (Ω, A, P ) pour laquelle on a :
∀n ∈ N, |Xn | ≤ Y p.s..
Alors pour toute sous-tribu B de A, on a p.s. :

E lim inf Xn B ≤ lim inf E ( Xn | B) ≤ lim sup E ( Xn | B) ≤ E lim sup Xn B .

n n n n
Preuve. Les suites de v.a. Y + Xn et Y − Xn étant positives, on peut leur appliquer le lemme de
Fatou conditionnel. On obtient :

E lim inf (Y + Xn ) B ≤ lim inf E ( Y + Xn | B) p.s.,

n n
c’est à dire
E Y + lim inf (Xn ) B ≤ E ( Y | B) + lim inf E ( Xn | B) p.s.,

n n
d’où
E lim inf (Xn ) B ≤ lim inf E ( Xn | B) p.s..

n n
De même
E lim inf (Y − Xn ) B ≤ lim inf E ( Y − Xn | B) p.s.

n n
c’est à dire
E Y + lim inf (−Xn ) B ≤ E ( Y | B) + lim inf E ( −Xn | B) p.s.

n n
d’où
E lim inf (−Xn ) B ≤ lim inf E ( −Xn | B) p.s..

n n
En remarquant que lim inf n∈N (−un ) = − lim supn∈N (un ) , il vient

lim sup E ( Xn | B) ≤ E lim sup Xn B ;
n n
l’inégalité triviale lim inf n E ( Xn | B) ≤ lim supn E ( Xn | B) donne le résultat.
Cette propriété permet d’établir un théorème de convergence dominée pour l’espérance condi-
tionnelle.
Proposition 1.2.7. (convergence dominée conditionnelle). Soit (Xn )n∈N une suite de v.a. de
L1 (Ω, A, P ) qui converge p.s. vers une v.a. X ∈ L1 (Ω, A, P ). On suppose qu’il existe une v.a.r.
Y de L1 (Ω, A, P ) pour laquelle on a :
∀n ∈ N, |Xn | ≤ Y p.s..
Alors pour toute sous-tribu B de A, on a p.s. : E ( X| B) = limn→+∞ E ( Xn | B).

Preuve. On a p.s. : lim inf n Xn = lim supn Xn = X ; d’où, en appliquant la proposition 1.2.6 :
E ( X| B) ≤ lim inf E ( Xn | B) ≤ lim sup E ( Xn | B) ≤ E ( X| B) p.s.;

n n
ce qui prouve que E ( X| B) = lim inf n E ( Xn | B) = lim supn E ( Xn | B) p.s., c’est à dire E ( X| B) =
limn→+∞ E ( Xn | B) p.s.
1.3. CARACTÉRISATION DE L’ESPÉRANCE CONDITIONNELLE DE V.A. DE CARRÉS INTÉGRABLES11
1.3 Caractérisation de l’espérance conditionnelle de v.a. de

carrés intégrables
On se restreint maintenant aux v.a. de carrés intégrables ; le résultat suivant est une caractérisation
de l’opérateur d’espérance conditionnelle comme projecteur orthogonal.
Proposition 1.2.8. Soit B une sous-tribu de A. Alors l’espérance conditionnelle à B est le pro-
jecteur orthogonal de L2 (Ω, A, P ) sur L2 (Ω, B, P ).
Preuve. Soit X ∈ L2 (Ω, A, P ), alors pour toute v.a. Z ∈ L2 (Ω, B, P ) on a
hX − E ( X| B) , Zi = hX, Zi − hE ( X| B) , Zi = E (XZ) − E (E ( X| B) Z)
= E (XZ) − E (E ( XZ| B)) = E (XZ) − E (XZ) = 0.;
ce qui montre bien le résultat annoncé.
Application : cas gaussien

Chapitre 2
Martingales à temps discret
2.1 Définitions et propriétés de base

Soit (Ω, A, P ) un espace de probabilité ; on considère F = (Fn )n∈N une famille de sous-tribus de
A.
Définition 2.1.1. La famille F est une filtration si pour tout n ∈ N, on a Fn ⊂ Fn+1 .
Exemple 2.1.1. Lorsque (Xn )n∈N est une suite de v.a., on pose, pour tout n ∈ N, Fn =
σ (X1 , · · · , Xn ). La famille F = (Fn )n∈N est une filtration appellée filtration naturelle associée
à la suite précédente.
Définition 2.1.2. Soit F = (Fn )n∈N une filtration. Une suite de v.a. (Xn )n∈N est dite :
* F-adaptée, si pour tout n ∈ N, Xn est Fn -mesurable.
* F-prévisible, si pour tout n ∈ N, Xn est Fn−1 -mesurable.
Nous pouvons, à présent, définir la notion de martingale (sous-martingale, surmartingale).
Définition 2.1.3. Soit F = (Fn )n∈N une filtration. Une suite de v.a. (Xn )n∈N est une martingale
F-adaptée, ou encore F-martingale, si :
(i) (Xn )n∈N est Fn -adaptée ;
(ii) pour tout n ∈ N, Xn est P -intégrable ;
(iii) pour tout n ∈ N, Xn = E ( Xn+1 | Fn ) p.s..
La suite (Xn )n∈N est une sousmartingale (resp. surmartingale) F-adaptée, ou encore F-sousmartingale
(resp. F-sousmartingale), si les assertions (i) et (ii) sont vérifiées et si l’assertion (iii) est remplacée
par : Xn ≤ E ( Xn+1 | Fn ) p.s.. (resp. Xn ≥ E ( Xn+1 | Fn ) p.s..).
Exemple 2.1.2.
1) Soit X une v.a.r. P -intégrable, on pose Xn = E ( X| Fn ) ; alors (Xn )n∈N est une F-martingale.
En effet, Xn est (trivialement) Fn -mesurable et P -intégrable ; de plus, puisque Fn ⊂ Fn+1 , on a
E ( Xn+1 | Fn ) = E ( E ( X| Fn+1 )| Fn ) = E ( X| Fn ) = Xn p.s..
2) Marche aléatoire dans R. Soit (Xn )n∈N une suite de v.a.r. indépendantes, P -intégrables et
de même espérance mathématique µ ; on considère la filtration naturelle F associée à cette suite
13
14 CHAPITRE 2. MARTINGALES À TEMPS DISCRET
Pn
et on pose Sn = i=0 Xi . La suite (Sn )n∈N est (trivialement) F-adaptée et constituée de v.a.r.
P -intégrables ; de plus,
E ( Sn+1 | Fn ) = E ( Sn | Fn ) + E ( Xn+1 | Fn ) p.s.
Comme Sn est Fn -mesurable, on a E ( Sn | Fn ) = Sn p.s., et, d’autre part, Xn+1 est indépendante
de Fn . D’où E ( Xn+1 | Fn ) = E (Xn+1 ) = µ p.s. ; on en déduit : E ( Sn+1 | Fn ) = Sn + µ p.s.. Ainsi,
(Sn )n∈N est une F-martingale (resp. F-sousmartingale ; F-surmartingale) si, et seulement si, µ = 0
(resp. µ ≥ 0 ; resp. µ ≤ 0).
Remarque 2.1.1.
0
1) Pour une martingale, l’assertion (iii) équivaut à (iii) : ∀n ∈ N, ∀m > n, Xn = E ( Xm | Fn ) p.s..
Pm−1
En effet, on a Xm = Xn + k=n (Xk+1 − Xk ), ce qui implique que
m−1
X
E ( X m | Fn ) = E ( X n | Fn ) + (E ( Xk+1 | Fn ) − E ( Xk | Fn )) p.s.
k=n
m−1
X
= Xn + (E ( E ( Xk+1 | Fk )| Fn ) − E ( Xk | Fn )) p.s. (car Fn ⊂ Fk )
k=n
m−1
X
= Xn + (E ( Xk | Fn ) − E ( Xk | Fn )) p.s.
k=n
= Xn .
De même, pour une sous-martingale (resp. sur-martingale), on a : ∀n ∈ N, ∀m > n, Xn ≤
E ( Xm | Fn ) (resp. Xn ≥ E ( Xm | Fn )) p.s..
2) Si (Xn )n∈N est une F-martingale (resp. F-sousmartingale ; F-surmartingale) alors la suite
(E (Xn ))n∈N est constante (resp. croissante ; resp. décroissante). En effet :
Xn = E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) = E (E ( Xn+1 | Fn )) = E (Xn+1 ) ;
Xn ≤ E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) ≤ E (E ( Xn+1 | Fn )) = E (Xn+1 ) ;
Xn ≥ E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) ≥ E (E ( Xn+1 | Fn )) = E (Xn+1 ) .
Nous allons, à présent, présenter quelques propriétés des sous-martingales.
Proposition 2.1.1. Soit (Xn )n∈N une F-sousmartingale et ϕ une fonction réelle croissante et
convexe. Si, pour tout n ∈ N, ϕ (Xn ) est P -intégrable, alors (ϕ (Xn ))n∈N est une F-sousmartingale.
Preuve. La fonction ϕ est continue, donc mesurable. Puisque Xn est Fn -mesurable, il vient que
ϕ (Xn ) est Fn -mesurable. Comme Xn ≤ E ( Xn+1 | Fn ) p.s., on obtient
ϕ (Xn ) ≤ ϕ (E ( Xn+1 | Fn )) p.s. (car ϕ est croissante)
≤ E ( ϕ (Xn+1 )| Fn ) p.s. (car ϕ est convexe).
Remarque 2.1.2.
1) Application : Soit (Xn )n∈N une F-sousmartingale ; on pose Xn+ = max (Xn , 0). Alors (Xn+ )n∈N
p
est une F-sousmartingale ; il en est de même de (|Xn | )n∈N pour tout p ∈ N∗ .
2) La conclusion de la proposition précédente reste vraie si (Xn )n∈N est une F-martingale et si ϕ
une fonction réelle convexe (non nécessairement croissante). En effet, on a alors :
ϕ (Xn ) = ϕ (E ( Xn+1 | Fn )) ≤ E ( ϕ (Xn+1 )| Fn ) .
2.1. DÉFINITIONS ET PROPRIÉTÉS DE BASE 15
Nous allons maintenant énoncer un théorème important qui indique comment une sousmartingale
peut être décomposée en la somme d’une martingale et d’un processus croissant. Pour cela, on
définit d’abord :
Définition 2.1.2. Une suite (Xn )n∈N est appellé processus croissant si X0 = 0 et :
∀n ∈ N, Xn ≤ Xn+1 < +∞ p.s.
On a alors :
Théorème 2.1.1. (Décomposition de Doob). Toute F-sousmartingale (Xn )n∈N peut s’écrire de
façon unique (au sens de l’égalité p.s.) sous la forme Xn = Yn +Zn , où (Yn )n∈N est une F-martingale
et (Zn )n∈N est un processus croissant F-prévisible.
Preuve.Pn Posons ∆X0 = X0 et ∆Xn = Xn − Xn−1 (n ≥ 1) ; c’est un processus F-adapté et on a
Xn = k=0 ∆Xk . L’inégalité Xn ≤ E ( Xn+1 | Fn ) p.s. devient alors :
!
Xn Xn Xn
∆Xk ≤ E ∆Xk + ∆Xn+1 Fn = ∆Xk + E ( ∆Xn+1 | Fn ) p.s.

k=0 k=0 k=0
∆Xn+1 | Fn ) ≥ 0 p.s.. Posons d’une part U0 = ∆X0 , Un = ∆Xn − E ( ∆XP

c’est à dire E ( P n | Fn−1 )
n n
(n ≥ 1), Yn = k=0 Uk , et d’autrePn part V 0 = 0, V n = E ( ∆X n | F n−1 ) (n ≥ 1) et Zn = k=0 Vk .
On a clairement Yn + Zn = k=0 ∆X k = X n ; montrons maintenant que (Y n )n∈N est une F-
martingale. Cette suite est (trivialement) F-adaptée et constituée de v.a. P -intégrables ; de plus,
comme
E ( Un+1 | Fn ) = E ( ∆Xn+1 − E ( ∆Xn+1 | Fn )| Fn )

= E ( ∆Xn+1 | Fn ) − E ( E ( ∆Xn+1 | Fn )| Fn ) p.s.
= E ( ∆Xn+1 | Fn ) − E ( ∆Xn+1 | Fn ) = 0 p.s.
il vient
E ( Yn+1 | Fn ) = E ( Yn + Un+1 | Fn ) = Yn + E ( Un+1 | Fn ) = Yn p.s..
Enfin, montrons que (Zn )n∈N est un processus croissant F-prévisible ; il est (trivialement) F-
prévisible, et on a
Zn+1 − Zn = Vn+1 = E ( ∆Xn+1 | Fn ) ≥ 0 p.s..
Ceci termine la démonstration de l’existence de la décomposition annoncée
0 ; il nous reste à établir
0 0
l’unicité de celle-ci. Soit une autre décomposition Xn = Yn +Zn , où Yn est une F-martingale
0 n∈N
0 0
et Zn est un processus croissant F-prévisible. On a Z0 = Z0 = 0, ce qui implique Y0 = Y0 =
n∈N
0 0
X0 ; supposons maintenant que pour n ∈ N, on a Zn = Zn et Yn = Yn . Alors :
0
0 0
0 0
Zn+1 = E Zn+1 Fn = E Xn+1 − Yn+1 Fn = E ( Xn+1 | Fn ) − E Yn+1 Fn = E ( Xn+1 | Fn ) − Yn p.s.

0 0 0
= E ( Yn+1 + Zn+1 | Fn ) − Yn = E ( Yn+1 | Fn ) + E ( Zn+1 | Fn ) − Yn = Yn − Yn + Zn+1 = Zn+1 p.s. ;
0 0
en conséquence : Yn+1 = Xn+1 − Zn+1 = Xn+1 − Zn+1 = Yn+1 p.s.
2.2 Temps d’arrêt

2.2.1 Définition
Soit F = (Fn )n∈N une filtration.
Définition 2.2.1. On appelle temps d’arrêt adapté à F, ou encore F-temps d’arrêt, toute v.a.
T : Ω → N vérifiant :
∀n ∈ N, {T ≤ n} ∈ Fn .
Remarque 2.2.1. La condition précédente équivaut à : ∀n ∈ N, {T = n} ∈ Fn . En effet, si la

première est vraie, alors {T = n} = {T ≤ n} \ {T ≤ n − 1}, ce qui prouve que {T = n} ∈ Fn .
Inversement, si pour tout n ∈ N, {T = n} ∈ Fn , la relation
n
[
{T ≤ n} = {T = k}
k=1
et l’inclusion Fk ⊂ Fn (k = 1, · · · , n) permettent de conclure que {T ≤ n} ∈ Fn .

Nous donnons ci-dessous, deux exemples de temps d’arrêt.
Exemple 2.2.1.
1) Temps d’entrée dans un ensemble. Soient (Xn )n∈N une suite F-adaptée de v.a.r et un borélien
B ∈ BR ; on appelle temps d’entrée dans B la v.a. TB définie par :
TB = inf ({n ∈ N / Xn ∈ B}) .
C’est un F-temps d’arrêt car, pour tout n ∈ N, on a {TB = 0} = {X0 ∈ B} = X0−1 (B) ∈ F0 et,
pour n ≥ 1 :
n−1
! n−1
!
\ \
−1
{TB = n} = {Xk ∈/ B} ∩ {Xn ∈ B} = Xk (B ) ∩ Xn−1 (B) ;
c
k=0 k=0
puisque que, pour k ∈ {0, · · · , n − 1}, on a Fk ⊂ Fn−1 ⊂ Fn , on déduit de la relation précédente

que {TB = n} ∈ Fn .
2) Temps de ruine d’un joueur. Soit un jeu de mise pour lequel un joueur perd ou gagne une unité
∗
de monnaie ; on suppose que le joueurPn a une mise initiale égale à a ∈ N , et on considère la suite
(Xn )n∈N de ses gains. On a Xn = k=1 Uk , où U0 = a et, pour k ≥ 1, Uk ∈ {−1, 1}. Le temps de
ruine de ce joueur est donc
T = inf ({n ∈ N∗ / Xn = 0}) .
La remarque précédente montre que T , qui n’est autre que le temps d’entrée dans {0}, est un
F-temps d’arrêt, où F est une filtration à laquelle est adaptée la suite (Xn )n∈N .
Certaines propriétés liées aux temps d’arrêt, et qui seront utiles dans ce chapitre, sont ras-
semblées dans la remarque suivante.
Remarque 2.2.2.
1) Toute constante dans N est un temps d’arrêt adapté à n’importe quelle filtration F. En effet,
soit T = m ∈ N, on a {T = m} = Ω ∈ Fm , et pour tout n ∈ N − {m}, {T = n} = ∅ ∈ Fn .
2.2. TEMPS D’ARRÊT 17
2) Si T et S sont deux F-temps d’arrêt, alors, posant T ∨ S := max (T, S) et T ∧ S := min (T, S),
les v.a. T ∨ S et T ∧ S sont également des F-temps d’arrêt. Cela provient des relations :
{T ∨ S ≤ n} = {T ≤ n} ∩ {S ≤ n} et {T ∧ S ≤ n} = {T ≤ n} ∪ {S ≤ n} .
3) Les deux remarques précédentes montrent en particulier que si T est un F-temps d’arrêt, alors,
pour tout n ∈ N, T ∧ n est également un F-temps d’arrêt.
4) Soit (Xn )n∈N une suite de v.a. et T un F-temps d’arrêt, alors l’application XT : Ω → R définie
par
XT (ω) = XT (ω) (ω)
est une variable aléatoire. En effet, pour tout borélien B ∈ BR , on a
!
[
−1 −1 −1
XT (B) = XT (B) ∩ Ω = XT (B) ∩ {T = n}
n∈N
[ [
XT−1 Xn−1 (B) ∩ {T = n} ∈ A.

= (B) ∩ {T = n} =
n∈N n∈N
2.2.2 Tribus des événements antérieurs

Soit T un F-temps d’arrêt ; posons
!
_ [
F∞ = Fn := σ Fn
n∈N n∈N
et
FT = {A ∈ F∞ / ∀n ∈ N, A ∩ {T ≤ n} ∈ Fn } .
L’ensemble FT est une tribu sur Ω car :
(i) Ω ∈ FT puisque l’on a : ∀n ∈ N, Ω ∩ {T ≤ n} = {T ≤ n} ∈ Fn ;

(ii) soit un événement A dans FT , on a Ac ∈ F∞ et, puisque
{T ≤ n} = (Ac ∩ {T ≤ n}) ∪ (A ∩ {T ≤ n}) ,
il vient :
Ac ∩ {T ≤ n} = {T ≤ n} \ (A ∩ {T ≤ n}) ,
ce qui prouve que Ac ∩ {T ≤ n} ; on en déduit que Ac ∈ S FT ;
(iii) soit (An )n∈N une famille d’éléments de FT , on a m∈N Am ∈ F∞ et, pour tout n ∈ N :
!
[ [
Am ∩ {T ≤ n} = (Am ∩ {T ≤ n}) ∈ Fn ,
m∈N m∈N
S
ce qui prouve que m∈N Am ∈ FT .
On peut alors définir :
Définition 2.2.2. Soit T un F-temps d’arrêt, on appelle tribu des événements antérieurs à T la
tribu FT .
La proposition suivante donne quelques propriétés de la tribu des événements antérieurs.
Proposition 2.2.1.
(i) Si T et S sont deux F-temps d’arrêt tels que S ≤ T , alors FS ⊂ FT .
(ii) Soit (Xn )n∈N une suite F-adaptée de v.a. et T un F-temps d’arrêt ; alors XT est FT -
mesurable.
Preuve. (i). Si S ≤ T , on a pour tout n ∈ N, {T ≤ n} ⊂ {S ≤ n}, ce qui prouve que {T ≤ n} =
{T ≤ n} ∩ {S ≤ n}. Ainsi, pour tout A ∈ FS , puisque
A ∩ {T ≤ n} = A ∩ {T ≤ n} ∩ {S ≤ n} = (A ∩ {S ≤ n}) ∩ {T ≤ n} ∈ Fn ;
ce qui prouve que A ∈ FS .

(ii). Pour tout B ∈ BR , on a
[ [
XT−1 (B) = XT−1 (B) ∩ {T = n} = Xn−1 (B) ∩ {T = n} ∈ F∞

n∈N n∈N
et pour tout n ∈ N :
n
[ n
[
XT−1 (B) ∩ {T ≤ n} = XT−1 (B) ∩ {T = m} = −1

Xm (B) ∩ {T = m} ∈ Fn ,
m=0 m=0
ce qui prouve que XT−1 (B) ∈ FT .
2.2.3 Théorème d’arrêt

Dans ce paragraphe, nous démontrons le théorème suivant connu sous le nom de Théorème d’arrêt
de Doob.
Théorème 2.2.1. Soit (Xn )n∈N une F-martingale (resp. F-sousmartingale ; resp. F-surmartingale)
et (Tn )n∈N une suite croissante de F-temps d’arrêt bornés. Si pour tout n ∈ N on a E (|XTn |) <
+∞, alors (XTn )n∈N est une martingale (resp. sousmartingale ; resp. surmartingale) adaptée à la
filtration (FTn )n∈N .
Preuve. Il suffit de faire la démonstration pour les sous-martingales. Cela revient à montrer que,
pour tout n ∈ N et tout B ∈ FTn , on a E (XTn 1IB ) ≤ E XTn+1 1IB . Remarquons d’abord que,
S+∞
puisque B = m=0 (B ∩ {Tn = m}), il vient :

E (XTn 1IB ) = E XTn 1IS+∞
m=0 (B∩{Tn =m})
+∞
!
X
=E XTn 1IB∩{Tn =m}
m=0
+∞
X
= E XTn 1IB∩{Tn =m}
m=0
+∞
X
= E Xm 1IB∩{Tn =m} .
m=0
2.3. CONVERGENCE 19

Posons Am = B ∩ {Tn = m} et ϕ (l) = E XTn+1 ∧l 1IAm ; puisque B ∈ FTn on a Am ∈ Fm et
comme les temps d’arrêt Tn sont bornés, il existe N ∈ N tel que Tn ≤ Tn+1 ≤ N . Montrons que
ϕ est croissante sur {m, · · · , N } ; on a pour l ∈ {m, · · · , N } :

ϕ (l) = E XTn+1 ∧l 1IAm = E XTn+1 ∧l 1IAm ∩{Tn+1 >l} + E XTn+1 ∧l 1IAm ∩{Tn+1 ≤l}

= E Xl 1IAm ∩{Tn+1 >l} + E XTn+1 1IAm ∩{Tn+1 ≤l} ;
c
or, {Tn+1 > l} = {Tn+1 ≤ l} ∈ Fl car Tn+1 est un F-temps d’arrêt et, d’autre part Am ∈ Fl car
Fm ⊂ Fl , donc Am ∩ {Tn+1 > l} ∈ Fl ; de plus,
comme (Xn )n∈N est une F-sousmartingale, on a
E Xl 1IAm ∩{Tn+1 >l} ≤ E Xl+1 1IAm ∩{Tn+1 >l} . Donc :

ϕ (l) ≤ E Xl+1 1IAm ∩{Tn+1 >l} + E XTn+1 1IAm ∩{Tn+1 ≤l}

= E XTn+1 ∧(l+1) 1IAm ∩{Tn+1 >l} + E XTn+1 ∧(l+1) 1IAm ∩{Tn+1 ≤l}

= E XTn+1 ∧(l+1) 1IAm
= ϕ (l + 1) ,
d’où la croissance recherchée.

Par conséquent, ϕ (m) ≤ ϕ (N ) et, puisque ϕ (m) = E (Xm 1IAm ) et
ϕ (N ) = E XTn+1 1IAm , il vient

E Xm 1IB∩{Tn =m} ≤ E XTn+1 1IB∩{Tn =m} ,
d’où :
+∞
X
E (XTn 1IB ) ≤ E XTn+1 1IB∩{Tn =m}
m=0
+∞
!
X
= E XTn+1 1IB∩{Tn =m}
m=0

= E XTn+1 1IB ;

on en déduit XTn ≤ E XTn+1 FTn p.s..
Remarque 2.2.3. Comme conséquence immédiate de ce théorème, on a que si T et S sont deux

F-temps d’arrêt bornés vérifiant T ≤ S ; alors :
1) Si (Xn )n∈N est une F-sousmartingale, on a XT ≤ E ( XS | FT ) ;
2) Si (Xn )n∈N est une F-martingale, on a XT = E ( XS | FT ) ;
3) Si (Xn )n∈N est une F-surmartingale, on a XT ≥ E ( XS | FT ) .
2.3 Convergence
Nous allons à présent donner quelques résultats de convergence des martingales. Il s’agit prin-
cipalement de déterminer des conditions sous lesquelles la suite (Xn )n∈N converge de diverses
manières (p.s., en moyenne etc). Pour cela, on besoin des lemmes suivants :
Lemme 2.3.1. Soit (Xn )n∈N une F-sousmartingale ; alors pour tout c > 0 :

cP sup (Xn ) > c ≤ sup E Xn+ ,

n∈N n∈N
où Xn+ = max (Xn , 0).

Preuve. Pour tout n ∈ N,
on pose Tn = min {k ≤ n / Xk > c} ; c’est un F-temps d’arrêt. Posant
Ωn = supk≤n (Xk ) > c , puisque XTn 1IΩn ≥ c 1IΩn , il vient cP (Ωn ) ≤ E (XTn 1IΩn ). D’autre
part, remarquons que Ωn ∈ FTn . En effet, pour m ∈ N : si m > n on a {Tn = m} = ∅, d’où Ωn ∩
{Tn = m} = ∅ ∈ Fm ; si m ≤ n, on a
m−1
!
\
{Tn = m} = {Xk ≤ c} ∩ {Xm > c} ,
k=0
ce qui implique {Tn = m} ⊂ Ωn et, par conséquent, Ωn ∩ {Tn = m} = {Tn = m} ∈ Fm . En

appliquant la remarque 2.2.3 aux deux F-temps d’arrêts bornés Tn et n il vient, puisque Tn ≤ n :
E (XTn 1IΩn ) ≤ E (Xn 1IΩn ) ≤ E Xn+ ;

S+∞
donc : cP (Ωn ) ≤ E (Xn+ ). Puisque {supn∈N (Xn ) > c} = n=0 Ωn et comme (Ωn )n≥0 est une
famille croissante, on a

cP sup (Xn ) > c = lim ↑ cP (Ωn ) = sup (cP (Ωn )) ≤ sup E Xn+ .

n∈N n→+∞ n∈N n∈N
Pour tous réels a < b, on définit le nombre de franchissements de [a, b] en descendant, noté
γa,b (X), comme la borne supérieure des entiers m tels qu’existent b1 < a1 < b2 < a2 < · · · < bm <
am dans N vérifiant Xak < a et Xbk > b pour k = 1, · · · , m. On a alors le résultat suivant dont
une démonstration peut être trouvé dans Doukhan et Sifre (2002)1 :
Lemme 2.3.2. Soit (Xn )n∈N une F-sousmartingale ; alors :

+
(b − a) E (γa,b (X)) ≤ sup E (Xn − b) .
n∈N
Ces lemmes permettent d’obtenir le premier résultat de convergence suivant :
Théorème 2.3.1. Soit (Xn )n∈N une F-sousmartingale telle que supn∈N (E (Xn+ )) < +∞. Alors
(Xn )n∈N converge presque sûrement et, notant X∞ la v.a. limite, on a pour tout n ∈ N, Xn ≤
E ( X∞ | Fn ).
+ +
Preuve. Puisque (Xn − b) ≤ Xn + + b− , on a donc supn∈N E (Xn − b) < +∞ et le lemme
2.3.2 implique E (γa,b (X)) < +∞ ; donc γa,b (X) < +∞ p.s.. Pour tout ω ∈ Ω, on a γa,b (X (ω)) <
+∞ et la suite (Xn (ω))n∈N ne peut, en conséquence, avoir deux valeur d’adhérences distinctes ;
elle converge.
Remarque 2.3.1. Puisque Xn+ ≤ |Xn |, une condition suffisante pour avoir la convergence p.s. est
donc supn∈N (E (|Xn |)) < +∞.
On a aussi le théorème suivant qui établit des conditions pour une convergence en moyenne :
1 P. Doukhan, J.C. Sifre, Cours d’analyse : calcul différentiel, intégration et probabilités. Dunod, 2002.
2.3. CONVERGENCE 21
Théorème 2.3.2. Soit (Xn )n∈N une F-martingale ; les trois assertions suivantes sont équivalentes :
(i) (Xn )n∈N converge dans L1 ;
(ii) il existe une v.a. X P -intégrable et vérifiant pour tout n ∈ N : Xn = E ( X| Fn ) p.s. ;
(iii) (Xn )n∈N est uniformément intégrable, c’est à dire :

lim sup E |Xn | 1I{|Xn |>t} = 0.
t→+∞ n∈N
Alors la convergence p.s. a aussi lieu et Xn = E ( X| Fn ). Une condition suffisante simple pour
p
(iii) est supn∈N (E (|Xn | )) < +∞ pour un p ≥ 1 ; elle entraı̂ne aussi la convergence dans Lp .
Preuve. (i)⇒(ii). Soit X la limite de (Xn )n∈N dans L1 ; il est clair que X est P -intégrable. Remar-
quons que, puisque pour tout A ∈ A, on a
|E (Xn 1IA ) − E (X1IA )| = |E ((Xn − X) 1IA )| ≤ E (|Xn − X|) ,
il vient E (X1IA ) = limn→+∞ (E (Xn 1IA )). Maintenant, pour n ∈ N , soit A ∈ Fn on a E (Xn 1IA ) =
E (Xn+1 1IA ) ; puisque l’on a aussi A ∈ Fn+1 on obtient, de même, E (Xn+1 1IA ) = E (Xn+2 1IA ), donc
E (Xn 1IA ) = E (Xn+2 1IA ). En continuant ainsi de suite, il vient : ∀p ∈ N, E (Xn 1IA ) = E (Xn+p 1IA ).
D’où
E (Xn 1IA ) = lim E (Xn+p 1IA ) = E (X1IA ) .
p→+∞
Puisque cette dernière égalité est vraie pour tout A ∈ Fn , on en déduit que Xn = E ( X| Fn ).
(ii)⇒(iii). On a |Xn | ≤ E ( |X|| Fn ) p.s. et puisque {|Xn | > t} ∈ Fn , il vient

|Xn | 1I{|X |>t} ≤ E ( |X|| Fn ) 1I{|X |>t} = E |X| 1I{|X |>t} Fn p.s.
n n n
d’où
E |Xn | 1I{|Xn |>t} ≤ E E |X| 1I{|Xn |>t} Fn = E |X| 1I{|Xn |>t}
et
sup E |Xn | 1I{|Xn |>t} ≤ sup E |X| 1I{|Xn |>t} ,
n∈N n∈N

ce qui implique limt→+∞ supn∈N E |Xn | 1I{|Xn |>t} = 0.
(iii)⇒(i) Pour tout ε > 0 il existe tε > 0 tel que supn∈N E |Xn | 1I{|Xn |>tε } < ε. Or

E (|Xn | ) = E |Xn | 1I{|Xn |>tε } + E |Xn | 1I{|Xn |≤tε } ≤ E |Xn | 1I{|Xn |>tε } + tε ,
donc supn∈N E (|Xn | ) ≤ ε + tε < +∞. Par conséquent, la remarque 2.3.1 garantit la convergence
p.s. de (Xn )n≥0 ; montrons que cette propriété et l’intégrabilité uniforme impliquent la convergence
dans L1 . Soit X la limite ; pour tout t > 0, on a

E (|Xn − X|) ≤ E |Xn − X| 1I{|Xn |≤t}∩{|X|≤t} + E |Xn − X| 1I{|Xn |>t}∩{|X|>t}
et, par convergence dominée, on obtient

lim sup E (|Xn − X|) ≤ 2 sup E |Xn | 1I{|Xn |>t} ;
n n
en faisant t → +∞, il vient lim supn E (|Xn − X|) = 0 donc limn→+∞ E (|Xn − X|) = 0.
p
Si supn∈N (E (|Xn | )) < +∞, l’inégalité de Hölder donne
p 1/p 1/q
E |Xn | 1I{|Xn |>t} ≤ (E (|Xn | )) P (|Xn | > t) ,
d’où 1/p
p 1/q
sup E |Xn | 1I{|Xn |>t} ≤ sup (E (|Xn | )) sup P (|Xn | > t)
n∈N n∈N n∈N
et puisque limt→+∞ P (|Xn | > t) = 0, on obtient l’intégrabilité uniforme.
Chapitre 3
Chaı̂nes de Markov
3.1 Généralités
3.1.1 Définitions
On considère un espace probabilisé (Ω, A, P ), un espace mesurable (E, E) appellé espace d’états et
un processus (Xn )n∈N .
Définition 3.1.1. On dit que (Xn )n∈N est une chaı̂ne de Markov si, pour toute application f :
(E, E) → (R, BR ) telle que f (Xn ) est P -intégrable pour tout n ∈ N, on a :
∀n ∈ N, E ( f (Xn+1 )| σ (X0 , · · · , Xn )) = E ( f (Xn+1 )| σ (Xn )) .
Remarque 3.1.1.
1) La définition précédente signifie que le processus ne dépend de son passé qu’à travers son passé
immédiat.
2) Une définition équivalente, plus souvent utilisée que la précédente, est donnée par la relation
suivante :
∀A ∈ E, P ( Xn+1 ∈ A| X0 , · · · , Xn ) = P ( Xn+1 ∈ A| Xn ) .
Cette dernière relation nous amène à introduire la notion de transition d’un espace mesurable vers
un autre.
Définition 3.1.2. On appelle transition de l’espace mesurable (E1 , E1 ) vers l’espace mesurable
(E2 , E2 ) toute application Π : E1 × E2 → [0, 1] vérifiant :
(i) ∀A ∈ E2 , l’application x ∈ E1 7→ Π (x, A) ∈ [0, 1] est mesurable de (E1 , E1 ) vers [0, 1] , B[0,1] ;
(ii) ∀x ∈ E1 , l’application A ∈ E2 7→ Π (x, A) ∈ [0, 1] est une probabilité sur (E2 , E2 ) .
La définition donnée à la remarque revient à écrire
∀A ∈ E, P ( Xn+1 ∈ A| X0 , · · · , Xn ) = Πn (Xn , A)
où Πn (x, A) = P ( Xn+1 ∈ A| Xn = x) ; Πn est, clairement, une transition de (E, E) vers lui-même.
23
24 CHAPITRE 3. CHAÎNES DE MARKOV
3.1.2 Chaı̂nes de Markov homogènes

Définition 3.1.3. On dit que (Xn )n∈N est une chaı̂ne de Markov homogène de loi initiale µ et de
transition Π si :
– PX0 = µ ;
– ∀A ∈ E, P ( Xn+1 ∈ A| X0 , · · · , Xn ) = P ( Xn+1 ∈ A| Xn ) = Π (Xn , A) .
Lorsque E est un ensemble discret, la transition d’une telle chaı̂ne est donnée par des probabi-
lités définies ci-dessous. En effet, prenons E = {xi ; i ∈ I} avec I ⊂ N ; puisque Π est alors une
application de E × P (E) vers [0, 1], elle est entièrement déterminée par la donnée des probabilités
pij = Π (xi , {xj }) = P ( Xn+1 = xj | Xn = xi ) ( (i, j) ∈ I 2 )
appellées probabilités de transition.
Plus particulièrement, lorsque E est un ensemble fini E = {x1 , · · · , xr }, on rassemble les probabi-
lités de transition dans une matrice carrée d’ordre r, et on obtient :
Définition 3.1.4. On appelle matrice de transition de la chaı̂ne de Markov homogène (Xn )n∈N ,
la matrice P = (pij )1≤i,j≤r avec pij = P ( Xn+1 = xj | Xn = xi ).
Cette matrice définit complètement la transition de la chaı̂ne de Markov homogène.
L’un des intérêts des chaı̂nes de Markov homogènes est que, étant donnés la loi initiale et la
transition, on peut déterminer la loi de n’importe quelle v.a. Xn ; nous allons le montrer dans le
cas général, puis on considérera le cas particulier des chaı̂nes à espace d’état fini.
Loi d’un chaı̂ne de Markov homogène

Soit P (E, E) l’ensemble des probabilités sur (E, E) et Π
e l’application de P (E, E) vers lui même
définie par Z
∀µ ∈ P (E, E) , ∀A ∈ E, Π e (µ) = Π (x, A) dµ (x) ;
E
on pose alors
en = Π
Π | ◦ Π ◦{z· · · ◦ Π}
e e e
n fois
et on a :
Proposition 3.1.1. Soit (Xn )n∈N une chaı̂ne de Markov homogène de loi initiale µ et de transition
Π. Alors, notant µn la loi de Xn , on a pour tout n ∈ N∗ , µn = Π
e n (µ).
∗
Preuve. On a pour tous n ∈ N et A ∈ E
µn (A) = P (Xn ∈ A) = P ({Xn ∈ A} ∩ {Xn−1 ∈ E}) (car {Xn−1 ∈ E} = Ω)
Z
= P(Xn ,Xn−1 ) (A × E) = P Xn |Xn−1 =x (A) dPXn−1 (x)
E
Z
= P ( Xn ∈ A| Xn−1 = x) dµn−1 (x)
E
Z
= Π (x, A) dµn−1 (x)
E
=Π
e (µn−1 ) (A) ;
on a ainsi montré que µn = Π

e (µn−1 ), ce qui permet de conclure.
3.1. GÉNÉRALITÉS 25
Cas d’une chaı̂ne à espace d’état fini

La proposition précédente peut être précisée lorsque E est un ensemble fini, E = {x1 , · · · , xr }.
Remarquons tout d’abord que, dans ce cas, tout élément ν de P (E, E) peut être identifié à un
vecteur  
ν1
ν ≡  ...  ,
 
νr
Pr Pr
avec ν1 ≥ 0, · · · , νr ≥ 0 et i=1 νi = 1 ; les νi ne sont autres que les réels vérifiant ν = i=1 νi δxi .
Dans ce contexte, précisons l’application Π e ; on a pour tout ν de P (E, E) et tout i ∈ {1, · · · , r}
Z r
X Z r
X r
X
e (ν) ({xi }) =
Π Π (x, {xi }) dµ (x) = νj Π (x, {xi }) dδxj (x) = νj Π (xj , {xi }) = pji νj ;
E j=1 E j=1 j=1
e (ν) ∈ P (E, E), il vient

et puisque Π
 
r
X r
X Xr
Π
e (ν) = e (ν) ({xi }) δx =
Π  pji νj  δxi .
i
i=1 i=1 j=1
Posant    Pr 
j=1 pj1 νj
e (ν) ({x1 })
Π
e (ν) ≡ 
τ =Π .. ..
= ,
  
 . Pr .
Π (ν) ({xr })
e p
j=1 jr jν
on a alors matriciellement : τ = t Pν. On en déduit
Corollaire 3.1.1. Soit (Xn )n∈N une chaı̂ne de Markov homogène à espace d’état fini de loi initiale

µ1
µ ≡  ... 
 
µr
et de matrice de transition P. Alors, notant


(n)
µ1
 . 
 .. 
µn ≡  
(n)
µr
n
la loi de Xn , on a pour tout n ∈ N∗ , µn = (t P) µ.
3.1.3 Quelques exemples de chaı̂nes de Markov

Nous allons à présent donner des exemples de processus qui sont des chaı̂nes de Markov. Nous
utiliserons la proposition suivante qui donne une condition suffisante pour qu’un processus soit un
chaı̂ne de Markov.
Proposition 3.1.2. Soit (ξn )n∈N∗ une suite de v.a. à valeurs dans (F, F) , indépendantes, de
même loi µ, et indépendantes d’une v.a. X0 . Alors la suite (Xn )n∈N définie, pour n ≥ 1, par
Xn = ϕn (Xn−1 , ξn ), où ϕn : E × F → E est une fonction mesurable, est une chaı̂ne de Markov.
Elle est homogène si on a une fonction mesurable ϕ telle que pour tout n ∈ N∗ , ϕn = ϕ.
Preuve. Considérons T0 = σ (X0 ) et, pour n ≥ 1, Tn = σ (X0 , ξ1 , · · · , ξn ). Pour toute application
f : (E, E) → (R, BR ) telle que f (Xn ) est P -intégrable pour tout n ∈ N, on a : E ( f (Xn+1 )| Tn ) =
E ( f (ϕn+1 (Xn , ξn+1 ))| Tn ) . Puisque ξn+1 et Tn sont indépendantes, il vient : E ( f (Xn+1 )| Tn ) =
gbn (Xn ) p.s., où
Z
gbn (x) = E (f (ϕn+1 (x, ξn+1 ))) = f (ϕn+1 (x, t)) dµ (t) ;
F
or, comme gbn (Xn ) est σ (Xn )-mesurable et σ (Xn ) ⊂ Tn , on a p.s. :
gbn (Xn ) = E ( gbn (Xn )| σ (Xn )) = E ( E ( f (Xn+1 )| Tn )| σ (Xn )) = E ( f (Xn+1 )| σ (Xn )) .
Pour finir, remarquons que σ (X0 , · · · , Xn ) ⊂ Tn , donc p.s. :
E ( f (Xn+1 )| σ (X0 , · · · , Xn )) = E [ E ( f (Xn+1 )| σ (X0 , · · · , Xn ))| Tn ]

= E [ E ( f (Xn+1 )| Tn )| σ (X0 , · · · , Xn )]
= E [ gbn (Xn )| σ (X0 , · · · , Xn )]
= gbn (Xn )
= E ( f (Xn+1 )| Tn ) ;
en conséquence,
E ( f (Xn+1 )| σ (X0 , · · · , Xn )) = E ( f (Xn+1 )| Tn ) = gbn (Xn ) = E ( f (Xn+1 )| σ (Xn )) .
Si, pour tout n ∈ N∗ , ϕn = ϕ on a gbn = gb où

Z
gb (x) = E (f (ϕ (x, ξn+1 ))) = f (ϕ (x, t)) dµ (t) ;
F
on a alors pour tout A ∈ E, en prenant f =1IA ,

Z
gb (x) = 1IA (ϕ (x, t)) dµ (t) = Π (x, A) . (3.1.1)
F
l’application Π est, clairement, une transition et on a
P ( Xn+1 ∈ A| X0 , · · · , Xn ) = gb (Xn ) = Π (Xn , A) ,
ce qui montre que la chaı̂ne de Markov est homogène de transition Π.
Maintenant, nous donnons quelques exemples.
Exemple 3.1.1. Marche aléatoire sur Rp . On considère (ξn )n∈N∗ une suite de v.a. indépendantes
à valeurs (Rp , BRp ), de même loi µ et indépendante d’une autre v.a. X0 à valeurs (Rp , BRp ). On
Pnque l’on appelle marche aléatoire le processus (Xn )n∈N défini, pour n ≥ 1, par Xn =
rappelle
X0 + i=1 ξi . Il est clair que, pour n ≥ 1, on a Xn = Xn−1 + ξn = ϕ (Xn−1 , ξn ) où ϕ : (x, y) ∈
3.2. CHAÎNES DE MARKOV STATIONNAIRES À ESPACE D’ÉTAT DÉNOMBRABLE 27
Rp × Rp 7→ x + y ∈ Rp . La proposition 3.1.2 permet alors de conclure que (Xn )n∈N est une chaı̂ne
de Markov homogène. Sa loi initiale est la loi de X0 et sa transition est définie par (3.1.1) :
Z Z
∀A ∈ BR , Π (x, A) =
p 1IA (x + t) dµ (t) = 1IA−x (t) dµ (t) = µ (A − x) ,
Rp Rp
où A − x = {u ∈ Rp / u = v − x, v ∈ A}.
Exemple 3.1.2. Processus de ramification (ou de branchement). On considère des individus pou-
vant produire d’autres individus du même type (appellés descendants) suivant une loi µ donnée
dans N. On suppose la génération initiale comporte un nombre X0 d’individus. Pour n ≥ 1,
(n)
soient Xn le nombre d’individus à la génération n et ξi le nombre de descendants du i-ème indi-
vidu de la génération n. On suppose que les individus se reproduisent de façon indépendante, et
indépendamment du nombre initial d’individus. On s’intéresse au processus (Xn )n∈N ; on a pour
PXn−1 (n−1)
n ≥ 1, Xn = Xn−1 + i=1 ξi . On peut écrire Xn = ϕ (Xn−1 , ξn ) , avec :

(n−1)
ξn = ξi ∈ S,
i∈N∗
où S est l’ensemble des suites de nombres entiers naturels, et

+∞
X
ϕ : (p, u) ∈ N∗ × S 7→ p + ui 1IN∗ \{1,··· ,i−1} (p) ∈ N∗
i=1
Pm
Puisque pour tout m ∈ N∗ , l’application ϕm : (p, u) ∈ N∗ × S 7→ p + i=1 ui 1IN∗ \{1,··· ,i−1} (p) est
mesurable, il vient que ϕ, qui s’écrit ϕ = supm∈N∗ (ϕm ) est également mesurable. La proposition
3.1.2 permet alors de conclure que (Xn )n∈N une chaı̂ne de Markov homogène.
3.2 Chaı̂nes de Markov stationnaires à espace d’état dénombrable

Dans tout ce qui suit, on suppose que E est un ensemble dénombrable, E = {xi ; i ∈ I} avec
I ⊂ N. On considère une chaı̂ne de Markov (Xn )n∈N à valeurs dans E et supposée stationnaire,
c’est à dire que, pour tout (n, m) ∈ N2 , la loi de (Xn , · · · , Xn+m ) est la même que celle de
(X0 , · · · , Xm ). Remarquons d’abord qu’une telle chaı̂ne est nécessairement homogène ; en effet,
puisque (Xn+1 , Xn ) et (X1 , X0 ) ont la même loi, la loi de Xn+1 conditionnelle à Xn est la même
que la loi de X1 conditionnelle à X0 ; par conséquent, pour tout n ∈ N et tout (x, A) ∈ E × P (E) ,
on a :
Πn (x, A) = P ( Xn+1 ∈ A| Xn = x) = P ( X1 ∈ A| X0 = x) = Π0 (x, A) ,
ce qui montre bien que Πn ne dépend pas de n.
3.2.1 Equations de Chapman-Kolmogorov

Pour (i, j) ∈ I 2 et m ∈ N∗ , on considère la probabilité de passer de l’état xi à l’état xj en m
transitions donnée par
(m)
pij = P ( Xn+m = xj | Xn = xi ) = P ( Xm = xj | X0 = xi ) ;
on voudrait exprimer ces probabilités en fonction des probabilités de transition. Cela provient du
théorème suivant donnant les équations de Chapman-Kolmogorov :
2
Théorème 3.2.1. Pour tous (i, j) ∈ I 2 , n ∈ N∗ et (r, s) ∈ (N∗ ) tel que r + s = n, on a
(n) P (r) (s)
pij = k∈I pik pkj .
Preuve. On effectue une récurrence sur n. Pour n = 2, on a
(2) P (X2 = xj , X0 = xi ) X P (X2 = xj , X1 = xk , X0 = xi )
pij = P ( X2 = xj | X0 = xi ) = =
P (X0 = xi ) P (X0 = xi )
k∈I
X P ( X2 = xj | X1 = xk , X0 = xi ) P (X1 = xk , X0 = xi )
=
P (X0 = xi )
k∈I
X
= P ( X2 = xj | X1 = xk , X0 = xi ) P ( X1 = xk | X0 = xi )
k∈I
X
= P ( X2 = xj | X1 = xk ) P ( X1 = xk | X0 = xi )
k∈I
(1) (1)
X
= pik pkj .
k∈I
Supposons maintenant que la relation est vraie jusqu’à l’ordre n − 1, alors :

(n) P (Xn = xj , X0 = xi ) X P (Xn = xj , Xn−1 = xk , X0 = xi )
pij = P ( Xn = xj | X0 = xi ) = =
P (X0 = xi ) P (X0 = xi )
k∈I
X P ( Xn = xj | Xn−1 = xk , X0 = xi ) P (Xn−1 = xk , X0 = xi )
=
P (X0 = xi )
k∈I
X
= P ( Xn = xj | Xn−1 = xk , X0 = xi ) P ( Xn−1 = xk | X0 = xi )
k∈I
X
= P ( Xn = xj | Xn−1 = xk ) P ( Xn−1 = xk | X0 = xi )
k∈I
(n−1) (1)
X
= pik pkj .
k∈I
(n−1) P (r) (s−1)
Or n − 1 = r + s − 1 ; en utilisant l’hypothèse de récurrence, on obtient pik = l∈I pil plk ,
donc
(n)
X X (r) (s−1) (1) X (r) X (s−1) (1)
pij = pil plk pkj = pil plk pkj ,
k∈I l∈I l∈I k∈I
et comme s < n, une nouvelle utilisation de l’hypothèse de récurrence donne
X (s−1) (1) (s)
plk pkj = plj .
k∈I
(n) P (r) (s)
Finalement, on obtient pij = l∈I pil plj .
(m)
Ces relation permettent d’exprimer les probabilité pij en fonction des probabilités de transitions.
Lorsque E est un ensemble fini, on obtient un résultat particulièrement simple, donné dans le
corollaire suivant.
Corollaire 3.2.1. Si E est un ensemble E = {x1 , · · · , xr }. Soit P la matrice de transition et,

fini,
(n)
pour tout n ∈ N∗ , la matrice P(n) = pij . Alors P(n) = Pn .
1≤i,j≤r
(n) Pr (n−1) (1) Pr (n−1)
Preuve. D’après le théorème précédent, on a pij = k=1 pik pkj = k=1 pik pkj . Cela
(n) (n−1) (n) n
équivaut à la relation matricielle P = P P qui implique P = P .
3.2.2 Classification des états

Définition 3.2.1. On dit que l’état xj est accessible à partir de l’état xi , on note xi → xj , s’il
(n)
existe n ∈ N tel que pij > 0. On dit que les états xi et xj communiquent, on note xi ↔ xj , si
xi → xj et xj → xi .
Proposition 3.2.1. La relation ↔ est une relation d’équvalence sur E.

Preuve. La reflexivité et la symétrie sont évidentes. Il reste à prouver la transitivité ; si xi ↔ xj et
(n) (m) (r) (s)
xj ↔ xl , il existe (n, m, r, s) ∈ N4 tel que pij > 0, pji > 0, pjl > 0 et plj > 0. En utilisant le
théorème 3.2.1, on peut écrire
(n+r)
X (n) (r) (n) (r)
pil = pik pkl ≥ pij pjl > 0
k∈I
et
(s+m) (s) (m) (n) (m)
X
pli = plk pki ≥ plj pji > 0,
k∈I
ce qui prouve que xi ↔ xl .
On peut donc regrouper les différents états dans les classes d’équivalence induite par cette relation
d’équivalence ; cela revient à considérer l’ensemble quotient E de E par la relation ↔. Cette
opération s’appelle classification des états de la chaı̂ne de Markov.
Définition 3.2.2. On dit que la chaı̂ne de Markov est irréductible si E est réduit à une seule
classe.
Il convient maintenant de rechercher les propriétés qui sont communes aux états d’une même classe.
Définition 3.2.3. Soit xi ∈ E. On appelle période de l’état xi l’entier

n o
(n)
Ti = P GCD n ∈ N∗ / pii > 0 ,
avec la convention P GCD (∅) = 0. Si Ti = 1, on dit que xi est apériodique ; si Ti > 1 on dit que xi
est périodique de période Ti .
On a alors :
Proposition 3.2.2. Si xi ↔ xj , alors Ti = Tj .

(n) (m)
Preuve. Il existe n, m ≥ 0 tels que pij pji > 0 ; le théorème 3.2.1 permet alors d’écrire
(m+n)
X (m) (n) (m) (n)
pjj = pjk pkj ≥ pji pij > 0.
k∈I
(k)
Par conséquent la relation Ti > 0 implique Tj > 0. Soit k tel que pjj > 0, alors, par le théorème
3.2.1,
(m+k+n)
X (n+k) (m) (n+k) (m) (m)
X (n) (k) (m) (n) (k)
pii = pil pli ≥ pij pji = pji pil plj ≥ pji pij pjj > 0
l∈I l∈I
(m+n) (n) (m)

et on a aussi pii ≥ pij pji
> 0. Donc Ti divise n + k + m et n + m ; donc Ti divise Tj . En
tenant le même raisonnement après avoir échangé les rôles de xi et xj , on montre aussi que Tj
divise Ti ; donc Ti = Tj .
3.2.3 Récurrence et transcience

Définition 3.2.4. Un état xi est dit récurrent lorsque partant de xi , la chaı̂ne revient à xi avec
certitude, c’est à dire : !
+∞
[
P {Xn = xi } X0 = xi = 1.

n=1
Un état est dit transcient s’il n’est pas récurrent.
Nous cherchons maintenant à caractériser les état récurrents. Pour cela, on considère la proba-
bilité de passer de l’état xi à l’état xj en exactement m transitions donnée par
m−1
!

(m)
\
fij =P {Xm = xj } ∩ {Xn =
6 xj } X0 = xi .

n=1
Un première caractérisation est donnée par :

P+∞ (n)
Proposition 3.2.3. L’état xi est récurrent si, et seulement si, n=1 fii = 1.
Preuve. On a !
+∞
[ [n n−1
\
{Xn = xi } = {Xn = xi } ∩ {Xl 6= xi } ,
n=1 n=1 l=1
d’où la relation
! +∞ ! +∞
+∞
[ X n−1
\ X (n)
P {Xn = xi } X0 = xi = P {Xn = xi } ∩ {Xl =
6 xi } X0 = xi = fii

n=1 n=1 l=1 n=1
qui donne la propriété recherchée.
(n)
Cette caractéristaion n’est pas très utile car les fii sont difficiles, voire impossibles, à calculer
en pratique. On va donc rechercher une autre caractérisation. Pour s ∈ C tel que |s| < 1 posons :
+∞ +∞
(n) (n)
X X
Fi (s) = fii sn ; Gi (s) = pii sn ;
n=0 n=0
on aura besoin du lemme suivant :
Lemme 3.2.1. Gi (s) = 1/ (1 − Fi (s)).

Preuve. On a d’abord
+∞ X
n
! +∞ X
n
!
(k) (n−k) (k) (n−k)
X X
n
Gi (s) Fi (s) = fii pii s = fii pii sn ,
n=0 k=0 n=1 k=0
(0) Pn (k) (n−k)

la dernière égalité étant dûe à : fii = 0. Il faut maintenant chercher à expliciter k=0 fii pii ;
on a
n
(n)
X
P (X0 = xi , Xn = xi ) = pii P (X0 = xi ) = P (Ak ) ,
k=0
Tk−1
où Ak = {Xn = xi } ∩ {X0 = xi } ∩ {Xk = xi } ∩ l=1 {Xl 6= xi }. De plus,
k−1
! k−1
!
\ \
P (Ak ) = P Xn = xi | {X0 = xi } ∩ {Xk = xi } ∩ {Xl 6= xi } P {X0 = xi } ∩ {Xk = xi } ∩ {Xl 6= xi }
l=1 l=1
k−1
!
\
= P ( Xn = xi | Xk = xi ) P {Xk = xi } ∩ {Xl =
6 xi } X0 = xi P (X0 = xi )

l=1
(n−k) (k)
= pii fii P (X0 = xi ) ;
donc
n n
(n) 1 X X (n−k) (k)
pii = P (Ak ) = pii fii .
P (X0 = xi )
k=0 k=0
En conséquence,
+∞
(n)
X
Gi (s) Fi (s) = pii sn = (Gi (s) − 1) ,
n=1
(0)
le dernère égalité provenant de pii = 1 ; on en déduit la relation annoncée.
Ce lemme permet d’obtenir la caractéristion recherchée :

P+∞ (n)
Proposition 3.2.4. L’état xi est récurrent si, et seulement si, n=1 pii = +∞.
P+∞ (n)
Preuve. Si n=0 fii = 1, on a alors lims↑1 Fi (s) = 1 ; le lemme précédent implique alors que
P+∞ (n) P+∞ (n)
lims↑1 Gi (s) = +∞, c’est à dire n=1 pii = +∞. Réciproquement, si n=1 pii = +∞, on
a lims↑1 Gi (s) = +∞ et puisque Fi (s) = 1 − 1/Gi (s), il vient lims↑1 Fi (s) = 1, c’est à dire
P+∞ (n)
n=0 fii = 1.
La proposition suivante montre que la récurrence est une propriété de classe.
Proposition 3.2.5. Si xi ↔ xj , alors xi est récurrent si et seulement si xj est récurrent.

(k) (l)
Preuve. Soient k et l tels que pij pji > 0, on a alors
(k+n+l) (l) (k+n) (l) (k+n) (l) (n) (k) (l) (n) (k)
X X
pjj = pjt ptj ≥ pji pij = pji pit ptj ≥ pji pii pij > 0
t∈I t∈I
(n) (k+n+l) P+∞ (n) P+∞ (k+n+l)

c’est à dire pii ≤ (l)1 (k) pjj ; si n=1 pii = +∞, il vient n=1 pjj = +∞, c’est à dire
pji pij
P+∞ (n)
n=1 pjj = +∞. La réciproque s’obtient de façon analogue, en échangeant les rôles de xi et xj .

Deuxième partie
STATISTIQUE
33
Chapitre 4
Introduction à la Statistique
4.1 Modèle statistique

Définition 4.1.1. On appelle modèle statistique tout triplet (Ω, A, P), où (Ω, A) est un espace
mesurable, et P est une famille de probabilités sur (Ω, A).
On essaie, par cette définition, de modéliser certaines situations liées à l’observation de phénomènes
aléatoires ; dans ce cas, (Ω, A) représente l’espace mesurable des valeurs possibles et l’ensemble des
lois des observations.
Exemple 4.1.1. Si on a une pièce dont la probabilité d’amener “pile” est p (inconnue), et si on
réalise l’expérience consistant à a effectuer n lancers indépendants de cette pièce dans le but de faire
une inférence sur p, on peut considérer la v.a. Xi égale à 1 si on a obtenu “pile” au i-ème lancer, et
à 0 si on a obtenu “face”. La loi de Xi est la loi B (p) égale à pδ1 +(1 − p) δ0 , et puisque ces v.a. sont
⊗n
indépendantes, le vecteur aléatoire X = (X1 , · · · , Xn ) est de loi (pδ1 + (1 − p) δ0 ) . Ce vecteur
n
aléatoire décrit l’expérience ; le modèle statistique o associé est (Ω, A, P), avec Ω = {0, 1} , A =
n
n
n ⊗
P ({0, 1} ) et P = (pδ1 + (1 − p) δ0 ) ; p ∈ [0, 1] .
Définition 4.1.2. Le modèle statistique (Ω, A, P) est dominé s’il existe une mesure µ sur (Ω, A),
σ-finie et telle que : ∀P ∈ P, P µ.
Exemple 4.1.2. Dans une usine qui fabrique des pièces en série, on suppose que le diamètre X de la
pièce produite suit une loi N (θ, 1). Si n pièces ont étré produites de façons indépendantes on obtient
le vecteur aléatoire X = (X1 , · · · , Xn ) contenant les diamètres des pièces produites ; le modèle sta-
⊗n
n o
n
tistique correspondant est alors (Ω, A, P), avec Ω = R , A = BRn et P = N (θ, 1) ; θ ∈ R+ .
Cest un modèle dominé car pour tout θ ∈ R+ , en prenant Pθ = N (θ, 1), on a Pθ λn où λn est
la mesure de Lebesgue sur Rn . La densité correspondante est donnée par :
n
!
n 1 1X 2
∀x = (x1 , · · · , xn ) ∈ R , f (x; θ) = √ n exp − (xi − θ) .
2π 2 i=1
Les deux exemples ci-dessus sont des exemples de modèles paramétriques définis ci-dessous :
35
36 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE
Définition 4.1.3. Le modèle statistique (Ω, A, P) est paramétrique si P peut s’écrire sous la
forme P = {Pθ ; θ ∈ Θ}, où Θ est un sous-ensemble d’un espace vectoriel de dimension finie. Dans
ce cas, θ est appellé paramètre du modèle.
En statistique, on est souvent amené a considérer des observations provenant d’un échantillonnage,
c’est à dire, des répétitions indépendantes d’un même expérience aléatoire. C’est le cas des exemples
ci-dessus. Dans ce cas, le modèle statistique considéré revêt une forme particulière donnée dans la
définition suivante :
Définition 4.1.4. On appelle modèle d’échantillonnage tout modèle statistique ayant la forme
n n
X n, T ⊗ , P ⊗ ; P ∈ Q .

Un tel modèle décrit, le plus souvent, la loi du vecteur aléatoire ayant comme composantes les v.a.
d’observations. Ces v.a. sont vus commes des “copies” indépendantes d’une même v.a.
Défintion 4.1.5. Soit X une v.a. ; on appelle échantillon i.i.d. de X toute suite X1 , · · · , Xn de
v.a. indépendantes et de même loi que X.
Le mot i.i.d. introduit dans la précédente définition est une abréviation de “indépendants et
identiquement distribués”. Lorsque X est une v.a. à valeurs dans (X, T ) et de loi appartenant à
n n
une famille de probabilités Q, le modèle d’échantillonnage X n , T ⊗ , P ⊗ ; P ∈ Q décrit la loi
du vecteur aléatoire (X1 , · · · , Xn ) où X1 , · · · , Xn est un échantillon i.i.d. de X. En statistique, on
se base souvent sur des fonctions d’un tel échantillon ; celles-ci sont définies par :
Définition 4.1.6. Soit (Ω, A, P) un modèle statistique ; on appelle statistique définie sur (Ω, A, P)
toute fonction mesurable S = ϕ (X) où X = (X1 , · · · , Xn ) est une échantillon i.i.d..
Exemple 4.1.2. Lorsque X1 , · · · , Xn est un échantillon i.i.d. d’une v.a. à valeur dans (Rp , BRp ),
on peut considérer la moyenne empirique
n
1X
Xn = Xi ;
n i=1
celle ci est, clairement, une statistique définie sur (Ω, A, P).
4.2 Loi et paramètres d’échantillonnage

Soit X1 , · · · , Xn est un échantillon i.i.d. d’une v.a. X : (Ω, A) → (E, T ) de loi µ.
Définition 4.2.1. On appelle loi d’échantillonnage associée à l’échantillon X1 , · · · , Xn , l’applica-

tion Pn : Ω × T → R+ définie par :
n
1X
∀ (ω, A) ∈ Ω × T , Pn (ω, A) = δX (ω) (A) .
n i=1 i
Pn
On note usuellement Pn = n1 i=1 δXi . La loi d0 échantillonnage est une probabilité aléatoire, c’est
à dire qu’elle vérifie les propriétés données ci-dessous
4.2. LOI ET PARAMÈTRES D’ÉCHANTILLONNAGE 37
Proposition 4.2.1. Pour tout ω ∈ Ω, l’application A ∈ T 7→ Pn (ω, A) est une probabilité sur
(E, T ).
Preuve. Cette application est une mesure puisqu’elle est combinaison linéaire positive de mesures
de Dirac. On a ensuite
n
1X n
Pn (ω, E) = δX (ω) (E) = = 1.
n i=1 i n
On définit l’intégrale
R d’une fonction mesurable f : E → R par rapport à Pn comme la variable
aléatoire notée E f dPn définie par :
Z Z n Z n
1X 1X
f dPn (ω) = f (x) Pn (ω, dx) = f (x) δXi (ω) (x) = f (Xi (ω)) ;
E E n i=1 E n i=1
R 1
Pn
ainsi E
f dPn = n i=1 f (Xi ).
Remarque 4.2.1. Puisque les f (Xi ) sont des v.a. indépendantes et de même loi que f (X), si
cette
R dernière v.a. est P -intégrable,
R la loi forte des grands nombres garantit la convergence p.s. de
E
f dP n vers E (f (X)) = E
f (x) dµ (x).
4.2.1 Fonction de répartition empirique

On se place ici dans le cas où X est une variable aléatoire réelle et on considère X1 , · · · , Xn un
échantillon i.i.d. de X.
Définition 4.2.2. On appelle fonction de répartition empirique la fonction aléatoire Fn définie

sur R par :
Z n
1X
∀x ∈ R, Fn (x) = dPn = 1I]−∞,x] (Xi ) .
]−∞,x] n i=1

La remarque 4.2.1 montre que pour tout x ∈ R, Fn (x) converge p.s. vers E 1I]−∞,x] (X) =
P (X ≤ x) = FX (x) ; c’est à dire que la f.d.r. empirique converge p.s. simplement vers la f.d.r.. En
fait, on a le résultat plus fort suivant qui établit la convergence uniforme presque sûre :
Théorème 4.2.1 (Glivenko-Cantelli). Presque sûrement : limn→+∞ (supx∈R |Fn (x) − FX (x)|) =
0.
Preuve. Pour chaque x ∈ R et n ≥ 1, on pose
FX (x−) = P (]−∞, x[) ,

Fn (x−) = Pn (]−∞, x[) .
(m)
Soit m ∈ N∗ et, pour tout k tel que 0 ≤ k ≤ m, les points xk = inf x ∈ R/ F (x) ≥ k

m ; on a

(m)
k
(m)

FX xk ≥ ≥ FX xk −
m
et donc
(m)
1
(m)

FX xk + ≥ FX xk+1 − .
m
Soit, pour tout k tel que 0 ≤ k ≤ m − 1, la croissance des fdr implique que, pour n ≥ 1,

(m) (m) (m) (m)
Fn xk − FX xk+1 − ≤ Fn (x) − FX (x) ≤ Fn xk+1 − − FX xk .
D’après ce qui précède,

(m)

(m)
1
(m)

(m)
1
Fn xk − FX xk − ≤ Fn (x) − FX (x) ≤ Fn xk+1 − − FX xk+1 − + .
m m
Il s’ensuit que
sup |Fn (x) − FX (x)|

x∈R

(m)

(m)

(m)

(m) 1
≤ max max Fn xk − FX xk , max Fn xk − − FX xk − + .

0≤k≤m 0≤k≤m m
0
La
n remarque 4.2.1 montre o qu’il existe 0 une ensemble P -négligeable Ω0 (m) tel que pour tout x ∈
(m)
xk ; k = 0, 1, · · · , m et tout ω ∈
/ Ω0 (m), on a limn→+∞ Fn (x) (ω) = FX (x). La loi des grands
nombres appliquée aux variables 1I]−∞,x[ (Xn i ) montre que, de même,
o il existe une ensemble P -
00 (m) 00
négligeable Ω0 (m) tel que pour tout x ∈ xk ; k = 0, 1, · · · , m et tout ω ∈
/ Ω0 (m), on a
0 00
limn→+∞ Fn (x−) (ω) = FX (x−). Si ω ∈ / Ω0 (m) = Ω0 (m) ∪ Ω0 , on a donc

1
lim sup sup |Fn (x) (ω) − FX (x)| ≤
n x∈R m
S
et, ainsi, si ω ∈
/ m≥1 Ω0 (m), on a

lim sup |Fn (x) (ω) − FX (x)| = 0.
n→+∞ x∈R
Le résultat recherché est obtenu en remarquant que

 
[ +∞
X +∞
X 0 X+∞ 00
P Ω0 (m) ≤ P (Ω0 (m)) ≤ P Ω0 (m) + P Ω0 = 0,
m≥1 m=1 m=1 m=1
S
ce qui prouve que P m≥1 Ω 0 (m) = 0.
4.2.2 Moyenne et variance empiriques

Définition 4.2.3. On appelle moyenne enmpirique la v.a.
Z n
1X
Xn = x dPn = Xi .
E n i=1
Définition 4.2.4. On appelle variance enmpirique la v.a.

Z n n
2 1X 2 2 1X 2
s2n = 2
x dPn − Xn = Xi − X n = Xi − X n .
E n i=1 n i=1
4.3. EXHAUSTIVITÉ 39
4.3 Exhaustivité
4.3.1 Cas général
Définition
n 4.3.1. SoitoX = (X1 , · · · , Xn ) un échantillon i.i.d. dont le modèle statistique est
n
X n , T n , Pθ⊗ ; θ ∈ Θ . Une statistique S est exhaustive pour θ si la loi de X conditionnelle à
S ne dépend pas de θ.
Pn
Exemple 4.3.1. On reprend l’exemple 4.1.1 et on veut montrer que S = i=1 Xi est exhaustive
n
pour p. Pour x = (x1 , · · · , xn ) ∈ {0, 1} et s ∈ {0, · · · , n}, on a
P (X1 = x1 , · · · , Xn = xn , S = s)
P ( X1 = x1 , · · · , Xn = xn | S = s) = ;
P (S = s)
Pn
puisque {X1 = P
x1 }∩· · ·∩{Xn = xn }∩{S = s} = ∅ si i=1 xi 6= s, et {X1 = x1 }∩· · ·∩{Xn = xn } ⊂
n
{S = s} = ∅ si i=1 xi = s, il vient :
P (X1 = x1 , · · · , Xn = xn ) P
P ( X1 = x1 , · · · , Xn = xn | S = s) = 1I{ n xi =s} (x1 , · · · , xn )
P (S = s) i=1
Qn
P (Xi = xi ) P
= i=1 n−s 1I{ n (x1 , · · · , xn )
s s i=1 xi =s}
Cn p (1 − p)
Qn 1−x
pxi (1 − p) i P
= i=1 n−s 1I{ n xi =s} (x1 , · · · , xn )
Cns ps (1 − p) i=1
n−s
ps (1 − p) P
= n−s 1I{ n (x1 , · · · , xn )
i=1 xi =s}
Cns ps (1 − p)
1
= s 1I{Pn xi =s} (x1 , · · · , xn ) ,
Cn i=1
ce qui montre que la loi de S conditionnelle à X ne dépend pas de p.
Lorsque le modèle statistique considéré est un modèle dominé, on a un critère simple pour établir
l’exhaustivité des statistiques. Cela est donné dans le théorème suivant dont une démonstration
peut être trouvée dans le livre de Borovkov1
n n o
Théorème 4.3.1. (Théorème de Factorisation). Soient un modèle statistique X n , T n , Pθ⊗ ; θ ∈ Θ
dominé par µ, et S = ϕ (X) une statistique à valeurs dans (E, E). Alors, S est exhaustive pour
θ si, et seulement si, il existe deux applications mesurables h : X n → R+ et gθ : (E, E) → R+
telles que :
n
n dPθ⊗
∀x ∈ X , (x) = gθ (ϕ (x)) h (x) .
dµ
Exemple 4.3.2. Soit X = (X1 , · · · , Xn ) un échantillon i.i.d. d’une v.a. de loi Exp (θ), θ > 0. On
a
n
Y n
Y Pn
fX (x1 , · · · , xn ) = fXi (xi ) = θe−θxi 1IR+ (xi ) = θn e−θ i=1 xi 1IRn+ (x1 , · · · , xn ) ;
i=1 i=1
1 A. Borovkov, Statistique mathématique. Editions MIR, Moscou, 1984.
Pn
donc S = i=1 Xi est une statistique exhaustive.
Définition 4.3.2. Une statistique est exhaustive minimale si elle est exhaustive et si pour tout
autre statistique exhaustive T il existe une application mesurable h telle que S = h (T ) .
La proposition suivante donne une condition nécessaire pour qu’une statistique soit exhaustive
minimale :
n n o
Proposition 4.3.1. Soit un modèle statistique X n , T n , Pθ⊗ ; θ ∈ Θ dominé par µ et fX (·, θ) =
n
dPθ⊗
dµ⊗n
. Soit S = ϕ (X) une statistique sur ce modèle. Si on a l’équivalence :
fX (x, θ)
ϕ (x) = ϕ (y) ⇔ θ 7→ est une fonction indépendante de θ,
fX (y, θ)
alors S est exhaustive minimale pour θ.
Preuve. Soient Y ∈ ϕ (X n ) et y ∈ Y; il existe un unique élément n
xy ∈ X tel que ϕ (xy ) = y.
n
Pour tout x ∈ X , considérons xϕ(x) , on a alors ϕ (x) = ϕ xϕ(x) ce qui, en vertu des hypothèses,
implique que le rapport
fX (x, θ)
h (x) =
fX xϕ(x) , θ

ne dépend pas de θ. Ainsi, fX (x, θ) = h (x) fX xϕ(x) , θ et le théorème de factorisation assure
que S = ϕ (X) est exhaustive. Montrons maintenant que cette statistique est exhaustive minimale.
0
Soit T = ψ (X) une autre statistique exhaustive ; par le théorème de factorisation, il existe gθ et
0
h tels que 0 0
∀x ∈ X n , ∀θ ∈ Θ, fX (x, θ) = gθ (ψ (x)) h (x) ;
alors, pour tout x ∈ X n et y ∈ X n tels que ψ (x) = ψ (y), il vient :
0 0 0
fX (x, θ) g (ψ (x)) h (x) h (x)
= θ0 0 = 0 .
fX (y, θ) gθ (ψ (y)) h (y) h (y)
Puisque ce rapport ne dépend pas de θ, on en déduit que ϕ (x) = ϕ (y). Ainsi, ϕ peut s’écrire sous
la forme ϕ = t ◦ ψ et T est exhaustive minimale.
Exemple 4.3.3. On reprend l’exercice 4.3.2 ; on a

Pn Pn
fX (x, θ) e−θ i=1 xi 1IRn+ (x1 , · · · , xn ) e−θ i=1 (yi −xi ) 1IRn+ (x1 , · · · , xn )
= −θ Pn y =
fX (y, θ) e i=1 i 1IRn+ (y1 , · · · , yn ) 1IRn+ (y1 , · · · , yn )
Pn
Cette quantité ne dépend
Pn pas de θ si, et seulement si laPfonction θ P 7→ e−θ i=1 (yi −xi ) est constante,
n n
Pnéquivaut à i=1 (yi − xi ) = 0, c’est à dire à i=1 xi = i=1 yi . On a ainsi prouvé que
ce qui
S = i=1 Xi est une statistique exhaustive minimale.
4.3.2 Cas du modèle exponentiel

Défintion 4.3.3. On appelle famille exponentielle, une famille de probabilités P = {Pθ ; θ ∈ Θ}
dominée par une mesure µ et telle que
r
!
dPθ X
(x) = C (θ) h (x) exp Qi (θ) Ti (x) ,
dµ i=1
4.3. EXHAUSTIVITÉ 41
où Qi et Ti sont des fonctions réelles.
Défintion 4.3.4. On appelle modèle exponentiel, un modèle statistique (Ω, A, P) où P est une
famille exponentielle.
Exemple 4.3.4.
1) Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi exponentielle Exp (θ), θ > 0. On a
n
Y Pn
fX (x1 , · · · , xn ) = θe−λxi 1IR+ (xi ) = θn e−θ i=1 xi
1IRn+ (x1 , · · · , xn ) ;
i=1
il s’agit donc d’une famille exponentielle avec r = 1, C (θ) = θn , h (x) =1IRn+ (x1 , · · · , xn ), Q1 (θ) =
Pn
−θ et T1 (x) = i=1 xi .
2) Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi exponentielle N (θ1 , θ2 ) où θ = (θ1 , θ2 ) ∈
R × R∗+ . On a
n n
!
nθ12

1 θ1 X 1 X 2
fX (x1 , · · · , xn ) = √ n n exp − exp xi − x
2π θ 2 2θ2 θ2 i=1 2θ2 i=1 i
2
√ −n − n2
nθ 2

il s’agit donc d’une famille exponentielle avec r = 2, C (θ) = 2π θ2 exp − 2θ21 , h (x) = 1,
Pn Pn
Q1 (θ) = θθ21 , Q2 (θ) = − 2θ12 , T1 (x) = i=1 xi et T2 (x) = i=1 x2i .
La proposition suivante précise la statistique exhaustive minimale pour les modèles exponentiels.
Proposition 4.3.2. Soit X1 , · · · , Xn un échantillon i.i.d. correspondant à un modèle expo-

nentiel. Si le plus petit sous-espace affine de Rr contenant les extrémités des vecteurs Q (θ) =
(Q1 (θ) , · · · , Qr (θ)), θ ∈ Θ, est Rr lui-même, alors la statistique
n n
!
X X
S = ϕ (X) = T1 (Xi ) , · · · , Tr (Xi )
i=1 i=1
est exhaustive minimale.

n
Preuve. S est exhaustive par le théorème de factorisation, car pour x = (x1 , · · · , xn ) ∈ (Rr ) :
n
( n r )
n
Y XX
fX (x; θ) = C (θ) h (xi ) exp Qk (θ) Tk (xi )
i=1 i=1 k=1
n
( n )
n
Y X
= C (θ) h (xi ) exp hQ (θ) , T (xi )i
i=1 i=1
n
(* n
+)
n
Y X
= C (θ) h (xi ) exp Q (θ) , T (xi )
i=1 i=1
Yn
n
= C (θ) h (xi ) exp {hQ (θ) , ϕ (x)i} ,
i=1
Pn Pn
où ϕ (x) = ( i=1 T1 (xi ) , · · · , i=1 Tr (xi )). D’autre part pour un autre vecteur y = (y1 , · · · , yn ) ∈
n
(Rr ) , on a :
n
fX (x; θ) Y h (xi )
= exp {hQ (θ) , ϕ (x) − ϕ (y)i} ;
fX (y; θ) i=1 h (yi )
fX (x;θ)
la fonction θ 7→ fX (y;θ) ne dépend pas de θ si, et seulement si
θ 7→ exp {hQ (θ) , ϕ (x) − ϕ (y)i}
est constante. Soit alors q0 , q1 , · · · , qr dans Q (Θ) tels que q1 − q0 ,· · · ,qr − q0 soit linéairement
indépendants ; puisque
exp {hQ (θ) , ϕ (x) − ϕ (y)i} = exp {hq0 , ϕ (x) − ϕ (y)i} exp {hQ (θ) − q0 , ϕ (x) − ϕ (y)i}
la condition précédente équivaut à ∀θ ∈ Θ, hQ (θ) − q0 , ϕ (x) − ϕ (y)i = 0, c’est à dire à : ∀u ∈ Rr ,

hu, ϕ (x) − ϕ (y)i = 0. Cette dernière propriété étant équivalente à ϕ (x) = ϕ (y), la proposition
4.3.1 permet de conclure que S est exhaustive minimale.
Remarque 4.3.1. L’hypothèse de l’énoncé est en particulier vérifiée si l’intérieur de Q (Θ) est non
vide.
Exemple 4.3.5. On reprend le deuxième exemple

Pn 4.3.4.
Pn Une2application
directe de la proposition
précédente montre que la statistique S = i=1 Xi , i=1 Xi est exhaustive minimale pour θ =
(θ1 , θ2 ).
Chapitre 5
Estimation ponctuelle
Très souvent, on dispose d’un échantillon d’une v.a. dont la loi dépend d’un paramètre inconnu ;
cela est modélisé à travers la notion de modèle statistique paramétrique introduit dans le chapitre
précédent. Il est important de pouvoir déterminer un ”valeur approchée” du paramètre inconnu
ou d’une fonction de ce paramètre, en se basant sur l’échantillon. C’est cette démarche, appelée
estimation, que nous abordons dans ce chapitre.
5.1 Notions de base

Nous
commençons
n n par définir
o la notion d’estimateur. On considère un modèle d’échantillonnage
n ⊗n ⊗
X , T , Pθ ; θ ∈ Θ et une fonction g : Θ → D. Soit X = (X1 , · · · , Xn ) un échantillon
relatif à ce modèle.
Défintion 5.1.1. On appelle estimateur de g (θ) toute statistique T = ϕ (X) à valeurs dans D.
On appelle estimation de g (θ) la valeur de T en une observation x = (x1 , · · · , xn ) ∈ X n , c’est à
dire ϕ (x).
Définition 5.1.2. On appelle biais de l’estimateur T de g (θ) la quantité B (T, g (θ)) = E (T )−g (θ).
On dit que T est un estimateur sans biais de g (θ) si B (T, θ) = 0, c’est à dire si E (T ) = g (θ).
Exemple 5.1.1.
1) Estimation de la probabilité d’amener “pile” d’une pièce. On reprend ici l’exemple 4.1.1 et on
cherche Pà estimer p ; considérons la proportion de “pile” obtenue sur les n lancers, c’est à dire
n
Tn = n1 i=1 Xi où les Xi sont les variables aléatoires i.i.d. de loi B (p) introduits dans l’exemple
4.1.1. Puisque Tn ∈ [0, 1], il s’agit d’un estimateur de p. De plus,
n
1X np
E (Tn ) = E (Xi ) = = p;
n i=1 n
donc c’est un estimateur sans biais de p.
2) Estimation sans biais de la moyenne. La moyenne empirique est un estimateur sans biais de la
moyenne (espérance mathématique). En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m inconnue ; on a
n
1X nm
E Xn = E (Xi ) = = m;
n i=1 n
43
44 CHAPITRE 5. ESTIMATION PONCTUELLE
donc X n est un estimateur sans biais de m.

3) Estimation sans biais de la variance. Le variance empirique n’est pas un estimateur sans biais
de la variance. En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de moyenne m et de
variance σ 2 . On a :
n
1X 2
E Sn2 = E Xi2 − E X n ;

n i=1
d’une part :
 
n n n n X n
2 1 XX 1 X 2
X 
E Xn = 2 E (Xi Xj ) = 2  E X i + E (Xi Xj )
n i=1 j=1 n  i=1 i=1 j=1

j6=i
 
n n X n
1  X
2 2
X 
= 2 m +σ + E (Xi ) E (Xj )
n i=1 i=1 j=1

j6=i
1 n−1 2
m2 + σ 2

= + m ,
n n
et d’autre part :
n n
1X 1X
E Xi2 = m2 + σ 2 = m2 + σ 2 .

n i=1 n i=1
Donc
n−1 2
E Sn2 = σ 6= σ 2 (5.1.1)
n
ce qui prouve bien que Sn2 n’est pas un estimateur sans biais de σ 2 . Cependant, la formule précédente
permet de construire un estimateur sans biais. En effet, il suffit de considérer la statistique
n
2 n 1 X 2
S∗,n = Sn2 = Xi − X n
n−1 n − 1 i=1
appellée variance empirique corrigée.
Même si la propriété d’être sans biais est relativement simple, il n’existe pas toujours d’estimateur
sans biais, comme le montre l’exemple suivant :
Exemple 5.1.2. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi binômiale B (m, p) et
θ = p1 ; supposons qu’il existe un estimateur sans biais T de θ, on a alors
Il peut arriver que les critères précédents ne soient pas vérifiés pour une taille donnée de l’échantillon ;
dans ce cas, on peut se contenter des critères asymptotiques définis ci-dessous.
Définition 5.1.3. L’estimateur Tn de g (θ) est asymptotiquement sans biais si limn→+∞ B (Tn , θ) =
0, c’est à dire si limn→+∞ E (Tn ) = g (θ).
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 45
Exemple 5.1.3. La variance empirique est un estimateur asymptotiquement sans biais de la

variance car
2 n−1 2
σ = σ2 .

lim E Sn = lim
n→+∞ n→+∞ n
Définition 5.1.4. L’estimateur Tn de g (θ) est fortement (resp. faiblement) convergent si Tn
converge presque sûrement (resp. en probabilité) vers g (θ), lorsque n → +∞.
On s’appuie souvent sur des théorèmes limites de la théorie des probabilités, telles que la loi des
grands nombre, pour établir la convergence des estimateurs.
Exemple 5.1.5.
1) Estimation de la probabilité d’amener “pile” d’une pièce. On reprend ici l’exemple 4.1.1 ; on
a vu dans
Pnl’exemple 5.1.1 que la proportion de “pile” obtenue sur les n lancers, donnée par
Tn = n1 i=1 Xi , est un estimateur sans biais de p. Puisque chaque Xi admet p pour espérance
mathématique, la loi des grands nombres implique que Tn converge p.s. vers p lorsque n → +∞.
L’estimateur Tn est donc un estimateur fortement convergent de p.
2) Estimation fortement convergente de la moyenne. La moyenne empirique est un estimateur
fortement convergent de la moyenne. En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m inconnue ; la loi forte des grands nombres assure la convergence p.s. de X n vers m
lorsque n → +∞.
3) Estimation fortement convergente de la variance. La variance empirique est un estimateur for-
tement convergent de la variance. En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m et de variance σ 2 . On a :
n
1X 2 2
Sn2 = X − X n;
n i=1 i
2
on a déja vu que X n → m p.s. (n → +∞) ; donc X n → m2 p.s.P(n → +∞). D’autre part, une
n
nouvelle application de la loi forte des grands nombres donne n1 i=1 Xi2 → E X12 = σ 2 + m2
p.s. (n → +∞). En conséquence, il vient : Sn2 → σ 2 p.s. (n → +∞), ce qui montre bien le résultat
annoncé. Remarquons que la variance empirique
corrigée est également un estimateur convergent de
n 2
la variance. En effet, puisque limn→+∞ n−1 = 1, il vient également : S∗,n → σ 2 p.s. (n → +∞).
Le théorème suivant fournit une condition suffisante pour qu’un estimateur soit faiblement convergent.
Théorème 5.1.1. Soit Tn un estimateur de g (θ) appatenant à L2 (Ω, A, P ). Si :

(i) limn→+∞ E (Tn ) = g (θ) ,
(ii) limn→+∞ V ar (Tn ) = 0,
alors est un estimateur faiblement convergent de g (θ).
Preuve. D’après l’inégalité de Markov, on a pour tout ε > 0 :
1 2
1 h 2
i
P (|Tn − g (θ)| ≥ ε) ≤ 2 E (Tn − g (θ)) = 2 V ar (Tn ) + E (Tn − g (θ)) ,
ε ε
donc limn→+∞ P (|Tn − g (θ)| ≥ ε) = 0.
5.2 Evaluation et comparaison des estimateurs

Dans ce paragraphe nous introduisons d’abord des outils qui permettent d’évaluer les performances
des estimateurs, puis nous donnons des résultats par lesquels on peut obtenir des estimateurs
optimaux en un sens qui sera précisé.
5.2.1 Risque quadratique
On considère une application g : Θ → D, où D ⊂ Rp , et on note k·k une norme euclidienne de

Rp .
Définition 5.2.1. On appelle risque quadratique de l’estimateur T de g (θ), la quantité :

2
R (T, g (θ)) = E kT − g (θ)k .
Remarque 5.2.1.
1) Dans le cas où p = 1, on a la relation suivante entre le risque, la variance et le biais :
R (T, g (θ)) = V ar (T ) + B 2 (T, g (θ)) ;
en effet :

2 2
R (T, g (θ))) = E (T − g (θ)) = E (T − E (T ) + E (T ) − g (θ))

2 2
= E (T − E (T )) + 2 (T − E (T )) (E (T ) − g (θ)) + (E (T ) − g (θ))

2 2
= E (T − E (T )) + (E (T ) − g (θ))
= V ar (T ) + B 2 (T, g (θ)) .
En particulier, T est un estimateur sans biais de g (θ) si, et seulement si, on a : R (T, g (θ)) =
V ar (T ).
2) Pour p > 1, cette relation se généralise de la façon suivante :
2
R (T, g (θ)) = tr (Cov (T )) + kE (T ) − g (θ)k ,
où Cov (T ) désigne la matrice des covariances de T . En effet :

2
R (T, g (θ))) = E kT − g (θ)k = E t (T − g (θ)) (T − g (θ))

t

=E (T − E (T ) + E (T ) − g (θ)) (T − E (T ) + E (T ) − g (θ))
t
(T − E (T )) (T − E (T )) + t (E (T ) − g (θ)) (E (T ) − g (θ))

=E
2
tr t (T − E (T )) (T − E (T )) + kE (T ) − g (θ)k

=E
2
tr (T − E (T )) t (T − E (T )) + kE (T ) − g (θ)k

=E
2
E (T − E (T )) t (T − E (T )) + kE (T ) − g (θ)k

= tr
2
= tr (Cov (T )) + kE (T ) − g (θ)k .
Ainsi, T est un estimateur sans biais de g (θ) si, et seulement si, on a : R (T, g (θ)) = tr(Cov (T )).
Exemple 5.2.1. Risque de la moyenne empirique. Puisque X n est un estimateur sans biais de
la moyenne m, il vient :
n
1 X σ2
R X n , m = V ar X n = 2 V ar (Xi ) = .
n i=1 n
5.2.2 Amélioration d’un estimateur sans biais

Le risque permet de comparer des estimateurs.
Définition 5.2.2. Soient T1 et T2 deux estimateurs de g (θ). On dit que T1 est préférable à T2 si
R (T1 , g (θ)) ≤ R (T2 , g (θ)).
Lorsque ces estimateurs sont sans biais et à valeurs réelles, cela revient à comparer leurs variances
(cf. remarque 5.2.1). Nous allons maintenant nous restreindre aux estimateurs sans biais à valeurs
réelles (on suppose alors que p = 1). Le théorème suivant montre comment, partant d’un tel
estimateur, on peut obtenir un autre estimateur qui lui soit préférable.
Théorème 5.2.1. (Rao-Blackwell). Soit T un estimateur sans biais de g (θ) et U une statistique
exhaustive pour θ. Alors, posant S = E ( T | U ), on a :
(i) S est une statistique ;
(ii) S est un estimateur sans biais de g (θ) ;
(iii) S est préférable à T .
Preuve.
(i). On a U = ϕ (X) , ϕ mesurable, puisque c’est une statistique ; donc S = E ( T | U ) = E ( φ (X)| U ) =
ψ (U ) ; où ψ est mesurable et ne dépend pas de θ car la loi de X conditionnelle à U ne dépend pas
de θ puisque U est exhaustive. Comme S = (ψ ◦ ϕ) (X), il vient que S est une statistique.
(ii). E (S) = E (E ( T | U )) = E (T ) = g (θ).
(iii). h i
2 2
V ar (T ) = E (T − g (θ)) = E E (T − g (θ)) U ;
or, d’après l’inégalité de Jensen conditionnelle, on a p.s.

2 2 2 2 2
E (T − g (θ)) U ≥ (E ( T − g (θ)| U )) = (E ( T | U ) − g (θ)) = (S − g (θ)) = (S − E (S)) ;

2
donc V ar (T ) ≥ E (S − E (S)) = V ar (S).
Exemple 5.2.2. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi uniforme sur [0, θ], θ > 0 ;
la statistique T = 2X n est un estimateur sans biais de θ. En effet E (T ) = 2E X n = 2 θ2 = θ. Afin
d’améliorer cet estimateur, on va déterminer une statistique exhaustive pour θ. On a :
n n n
Y Y 1 1 Y 1
fX (x) = fXi (xi ) = 1I[0,θ] (xi ) = n 1I[0,θ] (xi ) = n 1I[0,θ] max (xi ) ;
i=1 i=1
θ θ i=1 θ 1≤i≤n
donc U = max1≤i≤n (Xi ) est une statistique exhaustive pour θ. Nous allons, à présent, améliorer
l’estimateur T par utilisation du Théorème de Rao-Blackwell. On a
n
2X
S = E (T| U) = E ( Xi | U )
n i=1
Pour déterminer S de façon explicite, il nous faut obtenir la loi de Xi conditionnelle à U ; pour
cela, nous allons déterminer de la densité de U , puis celle du couple (Xi , U ). Soit FU la f.d.r de
U ; si t < 0, on a FU (t) = 0, et si t > θ, FU (t) = 1. Notant Φ la f.d.r de la loi uniforme sur [0, θ],
définie par
t
Φ (t) = 1I[0,θ] (t) + 1I]θ,+∞[ (t) ,
θ
on a pour t ∈ [0, θ] :
n
! n
\ Y n tn
FU (t) = P (U ≤ t) = P {Xi ≤ t} = P ({Xi ≤ t}) = Φ (t) = ;
i=1 i=1
θn
la densité de U , obtenue en dérivant la f.d.r précédente, est alors

ntn−1
fU (t) = 1I[0,θ] (t) .
θn
Soit Fi,U la f.d.r de (Xi , U ), on a Fi,U (t, s) = 0 si t < 0 ou s < 0, Fi,U (t, s) = 1 si t > θ et s > θ.
Pour t ∈ [0, θ] ou s ∈ [0, θ], on a :
 
 
\n \n
 
Fi,U (t, s) = P {Xi ≤ t} ∩ {Xj ≤ s} = P  {X i ≤ t ∧ s} ∩ {X j ≤ s}

j=1 j=1
j6=i
sn−1

n−1 t∧s
= Φ (t ∧ s) Φ (t) = 1I[0,θ] (s) + 1I]θ,+∞[ (s) ;
θ θn−1
en dérivant deux fois cette densité, on obtient pour densité de (Xi , U ), la fonction
∂ 2 Fi,U n − 1 n−2
fi,U (t, s) = (t, s) = s 1I[0,θ] (t) 1I[0,θ] (s) 1I∆ (t, s)
∂t∂s θn

où ∆ = (t, s) ∈ R2 / t ≤ s . On en déduit la densité de la loi de Xi conditionnelle à U = s,
s ∈ [0, θ], donnée par :
fi,U (t, s) n−1
f Xi |U =s (t) = = 1I[0,θ] (t) 1I∆ (t, s) ;
fU (s) n
d’où :
+∞ s
n−1 n−1 2
Z Z
E ( Xi | U = s) = t f Xi |U =s (t) dt = t dt = s .
−∞ n 0 2n
Ceci permet d’écrire
n−1 2
E ( Xi | U ) = U
2n
et, finalement :
n 2
2X n−1 2 n−1
S= E ( Xi | U ) = U = max (Xi ) .
n i=1 n n 1≤i≤n
5.2.3 Recherche d’un estimateur sans biais optimal

L’objet de ce paragraphe est d’introduire une notion d’optimalité pour les estimateurs sans biais
dans le cas où g est à valeurs réelles, et de montrer comment il est possible de déterminer de
tels estimateurs. La notion d’optimalité que nous considérons est celle définie dans la définition
suivante :
Définition 5.2.3. On dit qu’un estimateur S de g (θ) est de variance uniformément minimum
parmi les estimateurs sans biais (VUMSB) s’il est sans biais et si, pour tout autre estimateur sans
biais T de g (θ), on a V ar (S) ≤ V ar (T ).
Il s’agit donc d’un estimateur sans biais qui admet le risque minimal parmi tous les estimateurs
sans biais. La proposition suivante donne une caractérisation de tels estimateurs :
Proposition 5.2.1. Les assertions suivantes sont équivalentes :

(i) S est un estimateur de VUMSB de g (θ)
(ii) pour toute statistique δ centrée et non presque sûrement nulle, on a cov (δ, S) = 0.
Preuve.
(i)⇒(ii). Si S est de VUMSB, soit une statistique δ telle que E (δ) = 0. Pour tout λ ∈ R, posons
Sλ = S + λδ ; on a ainsi définit un estimateur sans biais de g (θ) ; en effet :
E (Sλ ) = E (S) + λE (δ) = g (θ) ;
donc
V ar (S) ≤ V ar (Sλ ) = V ar (S) + λ2 V ar (δ) + 2λcov (δ, S) .
Ainsi
∀λ ∈ R, λ2 V ar (δ) + 2λcov (δ, S) ≥ 0,
ceci n’est possible que si cov (δ, S) = 0.
(ii)⇒(i). Si pour toute statistique δ centrée et non presque sûrement nulle, on a cov (δ, S) = 0.
Soit T un estimateur sans biais de g (θ), on a
V ar (T ) = V ar (T − S) + V ar (S) + 2cov (T − S, S) .
Comme
E (T − S) = E (T ) − E (S) = g (θ) − g (θ) = 0,
il vient que cov (T − S, S) = 0 et, par conséquent,
V ar (T ) = V ar (T − S) + V ar (S) ≥ V ar (S) ,
ce qui montre bien que S est de VUMSB.
Lorsqu’un tel estimateur existe, il est nécessairement unique, comme cela est montré dans la pro-
position suivante.
Proposition 5.2.1. S’il existe un estimateur de VUMSB de g (θ), il est unique à l’égalité p.s. près.
Preuve. Soient S et T deux estimateurs de VUMSB de g (θ) ; alors V ar (S) ≤ V ar (T ) et V ar (T ) ≤
V ar (S), donc V ar (S) = V ar (T ). Or
V ar (T ) = V ar (T − S) + V ar (S) + 2cov (T − S, S) ,
et puisque E (T − S) = g (θ) − g (θ) = 0, on a cov (T − S, S) = 0, d’où V ar (T ) = V ar (T − S) +

V ar (S), et donc V ar (T − S) = 0. Par conséquent, T − S est p.s. constant, c’est à dire T − S =
E (T − S) = 0 p.s..
On peut dès lors se poser la question suivante : comment déterminer un estimateur optimal ?
Le théorème de Rao-Blackwell permet d’améliorer un estimateur sans biais mais ne garantit pas
l’optimalité de l’estimateur qui en résulte. Nous donnons ci-dessous un résultat qui améliore ce
théorème en établissant les conditions pour obtenir un estimateur optimal. Pour cela, nous allons
d’abord définir la notion de statistique complète.
Défintion 5.2.4. Une statistique S est dite complète si, notant PθS la loi de S, on a l’implication :
Z
∀θ ∈ Θ, f (x) dPθS (x) = 0 ⇒ f = 0 PθS − p.s.
Il n’est pas toujours facile de montrer qu’une statistique est complète. Une méthode classique
consiste à utiliser un résultat de la théorie de l’intégration qui dit, si f est une application mesurable
de R vers R d’intégrale (par rapport à la mesure de Lebesgue) nulle sur tout intervalle [a, b], alors
f = 0 presque partout.
Exemple 5.2.3. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de densité fθ (x) = ex−θ 1I]−∞,θ[ (x),
θ ∈ R. On va montrer que la statistique extrême X(n) = max1≤i≤n (Xi ) est complète. Il est facile
d’établir que cette statistique admet pour densité la fonction fS (x) = nen(x−θ) 1I]−∞,θ[ (x). Soit
une fonction g telle que
Z Z θ
∀θ ∈ R, g (x) dPθS (x) = g (x) nen(x−θ) dx = 0;
−∞
on a donc, après simplification

Z θ
∀θ ∈ R, g (x) enx dx = 0.
−∞
Rb
Il en résulte que pour tout (a, b) ∈ R2 , a < b, on a a g (x) enx dx = 0 et, donc, g = 0 λ-p.p., ce
qui implique que g = 0 PθS -p.s. car
Z
PθS ({g 6= 0}) = 1I{g6=0} (x) fS (x) dx = 0 (car {g = 6 0} est λ-négligeable).
Donc, S est une statistique complète.
Nous pouvons maintenant énoncer le théorème suivant qui donne des conditions pour obtenir un
estimateur optimal.
Théorème 5.2.2. (Lehmann-Scheffé). Soit T un estimateur sans biais de g (θ) ; si U une

statistique exhaustive pour θ et complète, alors S = E ( T | U ) est un estimateur de VUMSB de
g (θ).
Preuve. Le théorème de Rao-Blackwell permet d’affirmer que S est un estimateur sans biais de
0
g (θ) tel que V ar (S) ≤ V ar (T ). Il reste
àmontrer qu’il est
optimal.
Soit T un autre
estimateur
0
0 0 0 0
sans biais de g (θ), on pose S = E T U ; on a aussi E T = g (θ) et V ar S ≤ V ar T .
Donc :
0
0 0

E S − S = 0 = E E (T| U) − E T U = E ψ (U ) − ψ (U ) = E (g (U )) ,

0
où g = ψ − ψ . Comme U est complète, l’égalité précédente implique que h = 0 PθU -p.s., c’est à
0
dire h (U ) = 0 p.s.. Donc S = S p.s., et il vient :
0 0
V ar (S) = V ar S ≤ V ar T ,
ce qui montre bien que S est de VUMSB.
Exemple 5.2.3. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi uniforme sur [0, θ], θ > 0 ;
on a vu dans l’exemple 5.2.2 que la statistique T = 2X n est un estimateur sans biais de θ, et que
U = max1≤i≤n (Xi ) est une statistique exhaustive pour θ. Cela avait permis d’améliorer T par
2
n−1
S = E (T| U) = max (Xi ) .
n 1≤i≤n
Montrons à présent que S est de VUMSB ; d’après le théorème de Lehmann-Scheffé, il suffit de

montrer que U est une statistique complète. Rappellons que la densité de U est donnée par :
ntn−1
fU (t) = 1I[0,θ] (t) .
θn
Soit une fonction f telle que
θ
nxn−1
Z Z
∀θ > 0, f (x) dPθU (x) = f (x) dx = 0;
0 θn
en dérivant par rapport à θ, on obtient
∀θ > 0, f (θ) θn−1 = 0,
c’est à dire que f est nulle sur ]0, +∞[. Donc {f 6= 0} ⊂ ]−∞, 0] et
Z 0
ntn−1
PθU ({g 6= 0}) ≤ PθU (]−∞, 0]) = 1I[0,θ] (t) dt = 0,
−∞ θn
ce qui montre que f = 0 PθU -p.s. ; Donc, U est une statistique complète et S est un estimateur
optimal de θ.
5.2.4 Estimateurs efficaces

Dans ce paragraphe, nous montrons d’abord que, sous certaines conditions, il existe une borne
inférieure pour la variance de tout estimateur sans biais ; cela nous permet d’introduire aux esti-
mateurs efficaces et asymptotiquement efficaces.
Information au sens de Fisher

n
n n o
On considère le modèle statistique d’échantillonnage X n , T ⊗ , Pθ⊗ ; θ ∈ Θ dominé et f (·, θ) =
n
dPθ⊗
dλn et on suppose de plus :
H1 : ∀x ∈ X n , ∀θ ∈ Θ, f (x, θ) > 0.
H2 : ∀θ ∈ Θ, f (x, θ) est dérivable par rapport à θ Pθ -presque sûrement.
On peut alors définir :
Défintion 5.2.5. On appelle information de Fisher au point θ la quantité :

 !2 
∂f
(X, θ)
I (θ) = E  ∂θ .
f (X, θ)
Il est aisé de remarquer que l’on peut écrire

" 2 #
∂
I (θ) = E ln (f (X, θ)) ;
∂θ
∂
la variable aléatoire S = ∂θ ln (f (X, θ)) est appellée score.

Exemple 5.2.4. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi normale N m, σ02 avec m
inconnu et σ0 connu. On a
n n
!
Y 1 1 2 1 1 X 2
f (x; m) = √ exp − 2 (xi − m) = √ n exp − 2 (xi − m) ;
i=1
2πσ0 2σ0 2π σ0n 2σ0 i=1
et
n
∂ 1 X
ln (f (x, m)) = 2 (xi − m) ;
∂m σ0 i=1
d’où
n
1 X n
S= 2 (Xi − m) = 2 X n − m
σ0 i=1 σ0
et
n2 2
I (m) = E S 2 = 4 E X n + m2 − 2mX n
σ0
2

n 1 2 2
n−1 2 2
= 4 m + σ0 + m −m
σ0 n n
n
= 2.
σ0
Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR)

Nous allons maintenant obtenir une borne inférieure pour la variance de tout estimateur sans
biais T de g (θ), sous les conditions suivantes :
H3 : Θ est un ouvert de R, et ∀x ∈ X , ∀θ ∈ Θ, f (x, θ) > 0.

H4 : ∀θ ∈ Θ, R ∂f ∂f
∂θ (x, θ) et ∂θ (x, θ) existent et sont finies p.s..
H5 : ∀A ∈ T , A f (x, θ) dx est deux fois dérivable par rapport à θ, sous le signe d’intégration.
H6 : ∀θ ∈ Θ, 0 < I (θ) < +∞.
Ces hypothèses sont connues sous le nom d’hypothèses de Cramer-Rao, et permettent d’obtenir le
résultat suivant :
Théorème 5.2.3. On suppose vérifiées les hypothèses de Cramer-Rao. Soit

R T = ϕ (X) un esti-
mateur sans biais de g (θ), de variance finie, tel que pour tout A ∈ T , A ϕ (x) f (x, θ) dx est
dérivable par rapport à θ sous le signe d’intégration et
Z
ϕ (x) ∂f (x, θ) dλn (x) < +∞.

Rn
∂θ
Alors :
(i) g est dérivable ;

(ii) pour tout θ ∈ Θ,
0
2
g (θ)
V ar (T ) ≥ .
I (θ)
Preuve. (i). On a Z
g (θ) = E (T ) = ϕ (x) f (x, θ) dλn (x) ;
Rn
l’hypothèse du théorème garantit la dérivabilité de g et donne
Z Z
0 ∂ ∂f
g (θ) = ϕ (x) f (x, θ) dλn (x) = ϕ (x) (x, θ) dλn (x) .
∂θ Rn R n ∂θ
(ii). Posant
∂f
∂θ (x, θ) ∂ ln f
S (x, θ) = = (x, θ) ,
f (x, θ) ∂θ
on a S = S (X, θ) et
Z Z
0 ∂f
g (θ) = ϕ (x) (x, θ) dλn (x) = ϕ (x) S (x, θ) f (x, θ) dλn (x) = E (ϕ (X) S (X, θ)) = E (T S) .
Rn ∂θ Rn
En outre, H5 assure que

Z Z
∂f ∂ ∂
E (S) = (x, θ) dλn (x) = f (x, θ) dλn (x) = (1) = 0;
Rn ∂θ ∂θ Rn ∂θ
0
donc g (θ) = E (T S) − E (T ) E (S) = cov (T, S). D’après l’inégalité de Cauchy-Schwartz,
0
2
g (θ) = cov 2 (T, S) ≤ V ar (T ) V ar (S) = V ar (T ) E S 2 = V ar (T ) I (θ) ,

ce qui donne bien l’inégalité recherchée.
Ce théorème montre que sous certaines conditions, le risque quadratique d’un estimateur sans biais
ne peut pas être inférieur à une certaine borne rappelée ci-dessous.
0
2
g (θ)
Définition 5.2.6. On appelle borne de Fréchet la quantité BF = I(θ) .
Ainsi, lorsque les hypothèses de Cramer-Rao sont vérifiées, un estimateur sans biais satisfaisant à
l’hypothèse du théorème précédent est de VUMSB parmi tous les estimateurs satisfaisant à cette
hypothèse. Cela permet de donner la définition suivante.
Définition 5.2.7. Un estimateur sans biais T de g (θ) est dit efficace si V ar (T ) = BF . Il est dit
asymptotiquement efficace si limn→+∞ V ar (T ) = BF .
Exemple 5.2.5. On reprend l’exemple 2.5.4 et on considère la moyenne empirique X n comme

σ2
estimateur de m. C’est un estimateur sans biais de m de risque V ar X n = n0 ; or, I (m) = σn2 et
0
σ02
BF = n . Ceci montre que c’est un estimateur efficace.
5.3 Méthodes d’estimation

Dans le paragraphe précédent, nous avons considéré des outils par lesquels la qualité d’un
estimateur peut être évaluée ; cela suppose que l’estimateur considéré est donné à priori. Lorsque
les paramètres considérés sont des paramètres usuels (moyenne, variance, etc), on sait que l’on
peut utiliser leurs estimateurs naturels obtenus en considérant la loi empirique associée au modèle
sous-jacent. Cependant, lorsque l’on est amené à considérer des paramètres non usuels, rien de
ce qui précède ne nous indique comment déterminer un estimateur. Dans ce paragraphe, nous
allons introduire deux méthodes de détermination des estimateurs : la méthode du maximum de
vraissemblance et la méthode des moments.
5.3.1 Méthode du maximum de vraissemblance

Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. X.
Défintion 5.3.1. On appelle fonction de vraissemblance la fonction L : X n × Θ → R+ donnée

par
n
Y
L (x1 , · · · , xn ; θ) = Pθ (Xi = xi )
i=1
si X est une v.a. discrète, et par
n
Y
L (x1 , · · · , xn ; θ) = fθ (xi )
i=1
si X est une v.a. continue de densité fθ .
Définition 5.3.2. On appelle estimateur du maximum de vraissemblance (EMV) du paramètre

θ, l’estimateur θb qui maximise la vraissemblance L (x1 , · · · , xn ; θ), c’est à dire :

L x; θb = sup L (x; θ) .
θ∈Θ
Dans la plus grande généralité, il n’y a aucune garantie d’existence ou d’unicité d’un estimateur
du maximum de vraissemblance. Cependant, lorsque la vraissemblance est dérivable (par rapport
à θ), cet estimateur peut être obtenu en annulant la dérivée du logarithme de la vraissemblance,
c’est-à-dire en résolvant l’équation :
∂ ln (L (x1 , · · · , xn ; θ))
=0
∂θ
lorsque θ est un paramètre unidimensionnel. Si θ = (θ1 , · · · , θp ), on résoud le système d’équations
∂ ln (L (x1 , · · · , xn ; θ))
= 0 (i = 1, · · · , p).
∂θi
Exemple 5.3.1. Estimation d’une loi de p, dans le modèle de Bernoulli, par maximum de vrais-
semblance. La vraissemblance est
n
Y Pn Pn
1−xi n− xi
L (x1 , · · · , xn ; p) = pxi (1 − p) =p i=1 xi
(1 − p) i=1
;
i=1
5.3. MÉTHODES D’ESTIMATION 55
d’où : ! !
n
X n
X
ln (L (x1 , · · · , xn ; p)) = xi ln (p) + n− xi ln (1 − p)
i=1 i=1
et Pn Pn
∂ ln (L (x1 , · · · , xn ; p)) i=1 xi n − i=1 xi
= − ;
∂p p 1−p
la quantité annulant l’expression précédente est alors
n
1X
pb = x = xi ;
n i=1
1
Pn
l’EMV de p est donc pb = X n = n i=1 Xi .

Exemple 5.3.2. Estimation de la moyenne et de la variance d’une loi N m, σ 2 par maximum
de vraissemblance. Soit X1 , · · · , Xn un échantillon i.i.d. de la loi N m, σ 2 . On a :
n
!
2
Y 1 (xi − m)
L (x1 , · · · , xn ; m, σ) = √ exp −
i=1
2πσ 2σ 2
n
!
1 1 X 2
= √ n exp − 2 (xi − m) ;
2π σ n 2σ i=1
donc :
√ n
1 X 2
ln (L (x1 , · · · , xn ; m, σ)) = −n ln 2π − n ln (σ) − 2 (xi − m)
2σ i=1
et
n
∂ ln (L (x1 , · · · , xn ; m, σ)) 1 X n
= 2 (xi − m) = 2 (x − m) ,
∂m σ i=1 σ
n
∂ ln (L (x1 , · · · , xn ; m, σ)) n 1 X 2
=− + 3 (xi − m) .
∂σ σ σ i=1
On en déduit :
∂ ln(L(x1 ,··· ,xn ;m,σ)) n
 
 ∂m =0  σ2 (x − m) = 0
⇐⇒ Pn 2
∂ ln(L(x1 ,··· ,xn ;m,σ))
− nσ + 1
i=1 (xi − m) = 0
 
∂σ =0 σ3
 
 m=x  m=x
⇐⇒ Pn ⇐⇒
2 Pn 2
−n + σ12 i=1 (xi − m) = 0 1
 2
σ = (xi − m)

n i=1

 m=x
⇐⇒ Pn .
2
σ = n1 i=1 (xi − x) = s2x
 2

L’estimateur du maximum de vraissemblance de m, σ 2 est donc X n , s2 .
5.3.2 Méthode des moments

On suppose ici que Θ ⊂ Rp ; le paramètre θ est donc de la forme θ = (θ1 , · · · , θp ). Soit X1 , · · · , Xn
un échantillon i.i.d d’une v.a. X dontla loi admet des moments jusqu’à l’ordre p au moins. Pour
k = 1, · · · , p, on note mk (θ) = E X k le moment d’ordre k et on considère le moment empirique
correspondant :
n
(n) 1X k
mk = X .
n i=1 i
On a alors :
Définition 5.3.3. On appelle estimateur par la méthode des moments (EMM) du paramètre θ,
la solution θb du système : 
(n)
 m1 (θ) = m1


.. .
 .
 m (θ) = m(n)

p p
Exemple 5.3.3. Estimation des paramètres de la loi Gamma. Soit X1 , · · · , Xn un échantillon i.i.d.
de la loi γ (q, θ) (avec q > 0, θ > 0) de densité
θs −θx s−1
f (x) = e x 1IR+ (x)
Γ (s)
où Z +∞
Γ (q) = e−x xq−1 dx.
0
Il est aisé de vérifier que
q q (1 + q)
m1 (θ) = et m2 (θ) = .
θ θ2
Pour déterminer l’EMM, on pose donc
(n) q (n) q (1 + q)
m1 = Xn = et m2 = ,
θ θ2
et on obtient
2
Xn Xn
θb = 2 et qb = .
s s2
Chapitre 6
Estimation par région de confiance
Le chapitre précédent montre comment déterminer un estimateur T pour un paramètre g (θ)

et comment évaluer la qualité de cet estimateur. Cependant, on ne peut être certain que la valeur
obtenue pour T sur des observations soit exactement égale à g (θ). Il y a donc un intérêt à déterminer
non plus un estimateur au sens du chapitre précédent, mais plutôt un sous-ensemble C de Θ,
construit sur la base d’un échantillon, qui contienne le paramètre avec une forte probabilité. L’objet
de ce chapitre est la détermination et l’évaluation de ce type d’estimation.
6.1 Généralités
n
n n o
Définition 6.1.1. Soient X n , T ⊗ , Pθ⊗ ; θ ∈ Θ un modèle statistique d’échantillonnage et g
une fonction définie sur Θ. On appelle région de confiance de g (θ) toute famille C = (C (x))x∈X n
de parties de g (Θ) telle que, pour tout θ ∈ Θ, l’ensemble
{C 3 g (θ)} = { x ∈ X n ; C (x) 3 g (θ)}
soit mesurable.
Il s’agit donc d’une famille de parties de g (Θ) dépendant des observations et pour laquelle on peut
calculer la probabilité qu’elle contienne le paramètre à estimer. Lorsque X = (X1 , · · · , Xn ) est un
échantillon iid du modèle précédent, on peut définir :
Définition 6.1.2. On appelle niveau de confiance d’une région de confiance C = (C (x))x∈X n la

quantité inf θ∈Θ P (C (X) 3 g (θ)) .
Le niveau de confiance permet d’évaluer la probabilité que la région de confiance contienne le

paramètre. Pour α ∈ [0, 1] fixé, on dit que C est de niveau de confiance minimal 1 − α si
inf θ∈Θ P (C (X) 3 g (θ)) ≥ 1 − α ; en cas d’égalité on dit qu’il est de niveau 1 − α.

Exemple 6.1.1. Soit X1 , · · · , Xn un échantillon iid de la loi N m, σ02 , où m est inconnu et
σ0 est connu et α ∈ [0, 1]. considérons q1− α2 le 1 − α2 -quantile de la loi N (0, 1), c’est à dire
q1− α2 = Φ−1 1 − α2 où Φ est la f.d.r de cette loi. Alors la famille C = (C (x))x∈X n définie par

57
58 CHAPITRE 6. ESTIMATION PAR RÉGION DE CONFIANCE
h i
σ0 σ0
C (x) = xn − √ q α , xn +
n 1− 2
√ q α
n 1− 2
est un intervalle de confiance de niveau exactement égal à
1 − α de m. En effet,
√

X n − m
P (C (X) 3 m) = P n

≤ q1− α2 ;
σ0
√ X n −m
puisque n σ0 suit la loi N (0, 1), on a donc :
Z q1− α
2 1 t2
α
√ e− 2 dt = 2Φ q1− α2 − 1 = 2 1 −

P (C (X) 3 m) = − 1 = 1 − α.
−q1− α 2π 2
2
En conséquence : inf m∈R P (C (X) 3 m) = 1 − α, et C est un intervalle de confiance de niveau

1 − α pour m.
6.2 Construction des régions de confiance

Nous donnons ici quelques méthodes de construction de régions de confiance.
6.2.1 Régions fondées sur des pivots

n
n n o
Définition 6.2.1. Soient X n , T ⊗ , Pθ⊗ ; θ ∈ Θ un modèle statistique d’échantillonnage et
g une fonction définie sur Θ. On appelle fonction pivotale (ou pivot) de g (θ) toute fonction ψ :
X n × g (Θ) → (Y, Y) telle que, pour tout θ ∈ Θ, l’application x ∈ X n 7→ ψ (x, g (θ)) soit mesurable
et la loi de ψ (X, g (θ)), où X = (X1 , · · · , Xn ) est un échantillon du modèle précédent, ne dépende
pas de θ.
√
Exemple 6.2.2. On reprend l’exemple précédent. La fonction ψ (x, m) = n xnσ−m 0
est pivotale ;
en effet, la fonction x 7→ ψ (x, m) est mesurable et ψ (X, m) est de loi N (0, 1).
La proposition suivante indique une méthode de construction d’une région de confiance s’appuyant
sur les fonctions pivotales.
Proposition 6.2.1. Dans le cadre de la définition 6.2.1, soient ψ une fonction pivotale, Q la loi
de ψ (X, g (θ)) et α ∈ [0, 1]. Si B est un élément de Y tel que Q (B) ≥ 1 − α, alors la région de
confiance C définie par
∀x ∈ X n , C (x) = {t ∈ g (Θ) ; ψ (x, t) ∈ B}
est de niveau de confiance minimal 1 − α.

Preuve. Remarquons tout d’abord que l’on a :
−1 n
{C 3 g (θ)} = { x ∈ X n ; C (x) 3 g (θ)} = { x ∈ X n ; ψ (x, g (θ)) ∈ B} = ψ (·, g (θ)) (B) ∈ T ⊗ ,
ce qui prouve que la famille C définie ci-dessus est bien une région de confiance. De plus,
P (C (X) 3 g (θ)) = P (ψ (X, g (θ)) ∈ B) = Q (B) ≥ 1 − α;

6.2. CONSTRUCTION DES RÉGIONS DE CONFIANCE 59
donc inf θ∈Θ P (C (X) 3 g (θ)) ≥ 1 − α.
Remarque 6.2.1. Si B est tel que Q (B) = 1 − α, on obtient une région de confiance de niveau
1 − α par le même procécé.
Exemple 6.2.3. On reprend l’exemple 6.2.1. On a vu dans l’exemple 6.2.2 que ψ (x, m) =
√ xn −m
n σ0 est pivotale ; la loi Q est la loi normale N (0, 1). Soit Iα = −q1− α2 , q1− α2 ; on a

Q −q1− α2 , q1− α2 = 2Φ q1− α2 − 1 = 1 − α,
un intervalle de confiance de niveau 1 − α est donc obtenu en posant
√

xn − m
C (x) = {m ∈ R; ψ (x, m) ∈ Iα } = m ∈ R; n ∈ Iα
σ0

σ0 σ0
= m ∈ R; xn − √ q1− α2 ≤ m ≤ xn + √ q1− α2
n n

σ0 σ0
= xn − √ q1− α2 , xn + √ q1− α2 ,
n n
et on retrouve l’intervalle de confiance considéré dans l’exemple 6.2.1.
6.2.2 Régions de confiance asymptotiques

Il peut arriver que l’on ne puisse pas déterminer la loi de la fonction pivotale. Dans ce cas,
il est impossible de déterminer une région de confiance par le procédé défini dans la proposition
6.2.1. On peut alors, dans certains cas, considérer une loi asymptotique de la fonction pivotale (par
exemple, en utilisant le théorème de limite centrale) et construire une région de confiance (qui est
alors qualifiée d’asymptotique) sur la base de cette loi.
n
n n o
Définition 6.2.2. Soient X n , T ⊗ , Pθ⊗ ; θ ∈ Θ un modèle statistique d’échantillonnage, X =
(X1 , · · · , Xn ) un échantillon de ce modèle et g une fonction définie sur Θ. Soit une suite de fonction
(ψn )n∈N∗ telle que ψn : X n × g (Θ) → (Y, Y) et, pour tout θ ∈ Θ, l’application x ∈ X n 7→
ψn (x, g (θ)) soit mesurable. On dit que cette suite est asymptotiquement pivotale si ψn (X, g (θ))
converge en loi, lorsque n → +∞, vers une loi µ ne dépendant pas de θ.
Lorsque l’on a une suite asymptotiquement pivotale, une région de confiance peut être déterminée
en utilisant la méthode définie dans la proposition 6.2.1, mais en remplaçant Q par la loi asymp-
totique. On obtient de la sorte une région de confiance de niveau asymptotique minimal de 1 − α.
Exemple 6.2.4.
√
Soit X1 , · · · , Xn un échantillon i.i.d de la loi B (p). La suite de fonctions fonction
ψn (x, p) = √n(xn −p) est asymptotiquement pivotale ; en effet, x 7→ ψn (x, m) est mesurable et,
p(1−p)
√
n(X n −p)
d’après le théorème de limite centrale, ψn (X, p) = √ converge en loi vers la loi µ = N (0, 1)
p(1−p)
lorsque n → +∞. On peut donc déterminer un intervalle de confiance pour p sur la base de cette
60 CHAPITRE 6. ESTIMATION PAR RÉGION DE CONFIANCE

loi, en appliquant la proposition 6.2.1. Soit Iα = −q1− α2 , q1− α2 ; on a
( √ )
n (xn − p)
C (x) = {p ∈ ]0, 1[ ; ψn (x, p) ∈ Iα } = p ∈ ]0, 1[ ; p ∈ Iα
p (1 − p)
n o
2 2
= p ∈ ]0, 1[ ; n (xn − p) ≤ p (1 − p) q1− α
2
2 2
( ! ! )
q1− α 2
q1− α
2
= p ∈ ]0, 1[ ; 1 + 2
p − 2xn + 2
p + xn ≤ 0 ,
n n
ce qui, en résolvant l’équation du second degré en p, donne l’intervalle

 r r 
2 4
q1− 2
q1− 2 4
q1− 2
q1−
q1− α α α q1− α α α
 xn + 2n
2
− 4n2
2
+ n
2
xn (1 − xn ) xn + 2n
2
+ 4n2
2
+ n
2
xn (1 − xn ) 
 2
q1−
, 2
q1−
.
 α α 
1+ n
2
1+ n
2
Chapitre 7
Tests d’hypothèses
Dans ce chapitre, on se pose le problème du choix entre deux hypothèses. Plus précisement, soient
deux hypothèses contradictoires H0 et H1 pouvant porter sur un paramètre de la loi correspondant
à un modèle statistique donné, comment décider, sur la base de l’observation d’un échantillon i.i.d.,
si H0 est vraie ou si H1 est vraie ? Le problème ainsi formulé ouvre la porte à une vaste classe de
méthodes statistiques pouvant permettre d’obtenir une réponse à des questions qui se posent en
pratique.
7.1 Principes de base

Soient H0 et H1 deux hypothèses contradictoires ; se poser un problème de test de ces deux
hypothèses revient à rechercher une procédure qui permet de décider de laquelle de ces deux hy-
pothèses est vraie, sur la base d’un échantillon i.i.d X = (X1 , · · · , Xn ). Les hypothèses précédentes
sont définies par le problème pour lequel on recherche une réponse.
Exemple 7.1.1. Reprenant l’exemple 5.1.1, on peut rechercher une réponse à la question : “la
pièce est-elle équilibrée”, sur la base de l’échantillon correspondant au modèle de Bernoulli obtenu
en lançant cette pièce n fois. Cela revient à considérer un problème de test de l’hypothse nulle
H0 : p = 1/2 contre l’hypothèse alternative H1 : p 6= 1/2.
Une procédure permettant de prendre une telle décision, appellée test, peut être définit comme
suit :
Définition 7.1.1. On appelle On appelle test toute fonction mesurable φ : X n → {0, 1}.
L’ensemble W = φ−1 ({1}) est appellé région critique du test φ ; L’ensemble A = φ−1 ({0}) =
X n \W est appellé région d’acceptation du test φ.
Cette définition illustre le fait qu’un test n’est autre qu’une application de l’ensemble des échantillons
vers {0, 1}, qui à un échantillon donné associe 0 si celui-ci conduit à l’acceptation de l’hypothèse
H0 et 1 s’il conduit à accepter H1 . Finalement, on a φ =1IW , ce qui montre qu’un test est
entièrement déterminé par la donnée de la région critique ; déterminer un test revient
donc à préciser la région critique.
61
62 CHAPITRE 7. TESTS D’HYPOTHÈSES
Remarque 7.1.1. La région critique n’est autre que l’ensemble des échantillons qui conduisent au
rejet de l’hypothèse H0 . Un test φ induit une partition de X n en W et A c’est à dire : A ∩ W = ∅
et X n = A ∪ W . Cette partition existe mais est inconnue, on cherche donc à en définir une
approximation sur la base de l’observation d’un échantillon.
Remarquons qu’en réalité l’une des deux hypothèses est vraie, mais on ne sait pas à priori laquelle.
L’application d’un test sur un échantillon conduit donc naturellement à deux situations possibles :
soit on commet une erreur, soit on prend une bonne décision. Ce dernier cas survient lorsque l’on
décide que H0 est vraie et qu’en réalité cette hypothèse est vraie, ou lorsque l’on décide que H1 est
vraie et qu’en réalité H1 est vraie. Une erreur de première espèce est commise lorsque l’on décide
de refuser H0 alors qu’en réalité H0 est vraie. On commet une erreur de deuxième espèce lorsque
l’on décide d’accepter H0 alors qu’en réalité H1 est vraie. On peut mesurer les possibilités de ces
erreurs au moyen des probabilités, comme suit :
Définition 7.1.2. On appelle risque de première espèce du test φ la probabilité de refuser à tort
l’hypothèse H0 :
α (φ) = PH0 (φ (X) = 1) = PH0 (X ∈ W ) .
On appelle risque de deuxième espèce du test φ la probabilité d’accepter à tort l’hypothèse H0 :
β (φ) = PH1 (φ (X) = 0) = PH1 (X ∈ A) .
On appelle puissance du test φ la probabilité de refuser à raison l’hypothèse H0 :
p (φ) = PH1 (φ (X) = 1) = PH1 (X ∈ W ) = 1 − β (φ) .
Bien entendu, on va rechercher un test qui conduit la minimisation des risques introduits ci-
dessus, cela conduit à :
0 0
Définition 7.1.3. Soient deux tests φ et φ , de régions critiques respectives W et W ; on dit que
0
φ est préférable à φ si : α (φ) ≤ α (φ) et β (φ) ≤ β (φ).
Malheureusement, il n’y a aucune raison pour le test qui réalise le plus petit risque de première
espèce soit également celui qui minimise le risque de deuxième espèce. Il sera donc, dans la plupart
des cas, impossible de trouver le test minimisant à la fois α (φ) et β (φ). Afin de sortir de cette
impossibilité, Neyman et Pearson proposent, en 1933, de traiter les deux risques de façon non
symétrique et de limiter l’ensemble des tests posssibles à la classe des fonctions φ ayant un risque
de première espèce au plus égal à un seuil α0 fixé au préalable. Soit C (α0 ) cette classe :
C (α0 ) = {φ : X n → {0, 1} / α (φ) ≤ α0 } .
On recherche alors un test optimal pour le risque de deuxième espèce dans cette classe, c’est à dire
un test φ0 ∈ C (α0 ) tel que
p (φ0 ) = max (p (φ)) .
φ∈C(α0 )
Dans le cas d’un modèle paramétrique, la loi des v.a. de l’échantillon i.i.d. X = (X1 , · · · , Xn )
dépend d’un paramètre θ ∈ Θ et les hypothèses portent sur ce paramètre ; c’est le cas dans l’exemple
7.1.1. On a alors H0 : θ ∈ Θ0 et H1 : θ ∈n Θ1 , où Θ0 et Θ1 constituent n
une partition de Θ.
Les risques sont alors définis par αθ (φ) = Pθ⊗ (W ) (θ ∈ Θ0 ) et βθ (φ) = Pθ⊗ (A) (θ ∈ Θ1 ), tandis
que la puissance est pθ (φ) = 1 − βθ (φ). Dans ce cas, on peut définir :
7.2. MÉTHODES DE CONSTRUCTION DES TESTS 63
Défintion 7.1.4. On appelle niveau du test la borne supérieure de son risque de première espèce :
α = sup αθ (φ) .
θ∈Θ0
Définition 7.1.5. Un test φ∗ est dit uniformément le plus puissant (UPP) de niveau α, si son
niveau est égal à α et si : ∀φ, ∀θ ∈ Θ1 , pθ (φ∗ ) ≥ pθ (φ).
7.2 Méthodes de construction des tests

Nous nous plaçons ici dans le cadre de modèles paramétriques ; les problèmes de tests considérés
portent sur des paramètres, on obtient donc des tests dits tests paramétriques. Nous montrons tout
d’abord comment on peut construire des tests en s’appuyant sur des estimateurs des paramètres mis
en jeu, puis nous introduisons une méthode plus systématique, le test du rapport de vraissemblance,
conduisant à l’optimalité sous certaines conditions.
7.2.1 Estimateurs de paramètres usuels

On a vu que la détermination d’un test revient à celle de sa région critique. Pour cela, on
applique le principe suivant : on fixe le niveau α puis on détermine détermine alors la région
critique de sorte que le risque de première soit égale à α. La détermination de la région critique est
obtenue par la méthode suivante : on donne tout d’abord sa forme (obtenue par un raisonnement
intuitif), puis on détermine les inconnus de telle sorte que l’erreur de première espèce soit égale à α
fixée. La dernière étape précédente est effectuée en se basant sur une statistique, appellée statistique
de test, dont on connait la loi ou, au pire des cas, une loi asymptotique lorsque n → +∞. Lorsque
les hypothèses du test portent sur une caractéristique numérique de la loi sous-jacente (moyenne,
variance, etc), la statistique de test est généralement prise comme un estimateur convergent de
cette caractéristique.
Test de la moyenne
Soit X1 , · · · , Xn un échantillon i.i.d. d’une loi de moyenne m inconnue. Soit m0 un réel donné,
on s’intéresse au test de l’hypothèse nulle H0 : m = m0 contre une hypothèse alternative pouvant
revêtir diverses formes selon les cas.
a) Cas de loi normale

On suppose ici que la loi commune est la loi normale N m, σ 2 .
Cas de variance σ 2 connue
i) Test bilatéral H1 : m 6= m0
Puisque X n est un estimateur convergent de m, la région critique est de la forme
W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > t} .

et il reste à déterminer t. Celui-ci doit vérifier
αm (φ) = PH0 (X ∈ W ) = α
2

N m, σn donc, sous H0 on a X n N m0 , n1 et :

Or X n
√ √
√

n X n − m0 > n t = α ⇔ Φ n α

PH0 (X ∈ W ) = α ⇔ PH0 t =1− ,
σ σ σ 2
où Φ est la f.d.r. de la loi N (0, 1) ; donc

√
n α
t = q1− α2 = Φ−1 1 − .
σ 2
Finalement
σ
W = x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > √ q1− α2 .
n
ii) Test unitéral H1 : m > m0
La région critique est de la forme
W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > t} ,
et √ √
√

X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n > t =α⇔Φ t = 1 − α.
σ σ σ
Donc √
n
t = q1−α = Φ−1 (1 − α)
σ
et
σ
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > √ q1−α .
n
iii) Test unitéral H1 : m < m0
W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < t} ,
et √ √
√

X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n < t =α⇔Φ t = α.
σ σ σ
Donc √
n
t = qα = Φ−1 (α)
σ
et
n σ
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 < √ qα .
n
Cas de variance σ 2 inconnue
On estime σ 2 par la variance empirique corrigée

n
2 1 X 2
S∗,n = Xi − X n ;
n − 1 i=1
√
n−1 2 n(X n −m)
on sait que suit une loi χ2n−1 . En
σ 2 S∗,n √ conséquence, puisque σ est de loi normale
n(X n −m)
N (0, 1), le quotient S∗,n suit une loi de Student à n − 1 degrés de libertés, notée Tn−1 .
iv) Test bilatéral H1 : m 6= m0
W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > t} .

√
n(X n −m0 )
Sous H0 , on a S∗,n Tn−1 , d’où :

√ √ ! √ ! √
n X n − m0 n n α
PH0 (X ∈ W ) = α ⇔ PH0 n > t = α ⇔ Ψn−1 t =1− ,

S∗,n S∗,n S∗,n 2
où Ψn−1 est la f.d.r. de la loi Tn−1 ; donc

√
n α
t = t1− α2 = Ψ−1
n−1 1 − .
σ 2
Finalement
s∗,n
W = x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > √ t1− α2 .
n
v) Test unitéraux
En adoptant le même raisonnement, on obtient

n s∗,n
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 > √ t1−α
n
et
s∗,n
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < √ tα
n
pour les test unilatéraux d’hypothèses alternatives respectives H1 : m > m0 et H1 : m < m0 .
b) Cas général
On ne peut plus appliquer tout ce qui précède car on n’a plus la loi de X n . Cependant, on peut
appliquer le théorème de limite centrale pour obtenir une approximation de la loi de cette v.a. par
la loi normale. On obtient alors un test de niveau asymptotique égal à α.

√
En utilisant le fait que Zn = n X nσ−m converge en loi vers la loi N (0, 1), on obtient des
régions critiques analogues au cas gaussien donné ci-dessus. Cependant le risque de première espèce
n’est plus égal à α mais converge cette valeur. En effet, dans le cas du test bilatéral, ce risque est :
√

X n − m0
αn = PH0 (X ∈ W ) = PH0 n
> q1− α2
σ

= FZn −q1− α2 + 1 − FZn q1− α2 ,
où FZn est la f.d.r. de Zn ; puisque FZn converge vers Φ, il vient :

lim (αn ) = Φ −q1− α2 + 1 − Φ q1− α2 = 2 1 − Φ q1− α2 = α.
n→+∞
Ici aussi, on peut utiliser une approximation normale. En effet, puisque Sn2 converge p.s. vers
2
σ , l’expression √ √
n Xn − m σ n Xn − m
=
Sn Sn σ
√
n(X n −m)
montre que Sn converge en loi vers la loi N (0, 1). La région critique du test est donc, pour
le test bilatéral :

sn
W = x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > √ q1− α2 .
n
Test de la proportion
Soit X1 , · · · , Xn un échantillon i.i.d. du modèle de Bernoulli B (p), on s’intéresse au test de
l’hypothèse nulle H0 : p = p0 contre une hypothèse alternative.
i) Test bilatéral H1 : p 6= p0
Puisque X n est un estimateur convergent de p, la région critique est de la forme
W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − p0 | > t} .
√

Par le théorème de limite centrale, sous H0 , n √X n −p0 converge en loi vers la loi N (0, 1).
p0 (1−p0 )
Ceci permet de déterminer la région critique sous la forme
( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / |xn − p0 | > q1− α2 .
n
ii) Test unitéral H1 : p > p0
On obtient ( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / xn − p0 > q1−α .
n
iii) Test unitéral H1 : p < p0
On obtient ( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / xn − p0 < qα .
n
Test de comparaison des moyennes

Soient X1 , · · · , Xn un échantillon i.i.d. d’une loi de moyenne m inconnue. Soit m0 un réel donné,
on s’intéresse au test de l’hypothèse nulle H0 : m = m0 contre une hypothèse alternative pouvant
revêtir diverses formes selon les cas.
a) Cas de loi normale

On suppose ici que la loi commune est la loi normale N m, σ 2 .
i) Test bilatéral H1 : m 6= m0
Puisque X n est un estimateur convergent de m, la région critique est de la forme
W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > t} .
et il reste à déterminer t. Celui-ci doit vérifier
αm (φ) = PH0 (X ∈ W ) = α
2

N m, σn N m0 , n1 et :

Or X n donc, sous H0 on a X n
√ √
√

n X n − m0 > n t = α ⇔ Φ n α

PH0 (X ∈ W ) = α ⇔ PH0 t =1− ,
σ σ σ 2
où Φ est la f.d.r. de la loi N (0, 1) ; donc

√
n α
t = q1− α2 = Φ−1 1 − .
σ 2
Finalement
n σ
W = x = (x1 , · · · , xn ) ∈ R / |xn − m0 | > √ q1− α2 .
n
ii) Test unitéral H1 : m > m0
W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > t} ,
et √ √
√

X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n > t =α⇔Φ t = 1 − α.
σ σ σ
Donc √
n
t = q1−α = Φ−1 (1 − α)
σ
et
σ
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > √ q1−α .
n
iii) Test unitéral H1 : m < m0
W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < t} ,
et √ √
√

X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n < t =α⇔Φ t = α.
σ σ σ
Donc √
n
t = qα = Φ−1 (α)
σ
et
n σ
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 < √ qα .
n
On estime σ 2 par la variance empirique corrigée

n
2 1 X 2
S∗,n = Xi − X n ;
n − 1 i=1
√
n−1 2 n(X n −m)
on sait que suit une loi χ2n−1 . En
σ 2 S∗,n √ conséquence, puisque σ est de loi normale
n(X n −m)
N (0, 1), le quotient S∗,n suit une loi de Student à n − 1 degrés de libertés, notée Tn−1 .
iv) Test bilatéral H1 : m 6= m0
W = {x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > t} .

√
n(X n −m0 )
Sous H0 , on a S∗,n Tn−1 , d’où :

√ √ ! √ ! √
n X n − m0 n n α
PH0 (X ∈ W ) = α ⇔ PH0 n > t = α ⇔ Ψn−1 t =1− ,

S∗,n S∗,n S∗,n 2
où Ψn−1 est la f.d.r. de la loi Tn−1 ; donc

√
n α
t = t1− α2 = Ψ−1
n−1 1 − .
σ 2
Finalement
n s∗,n
W = x = (x1 , · · · , xn ) ∈ R / |xn − m0 | > √ t1− α2 .
n
v) Test unitéraux
En adoptant le même raisonnement, on obtient

n s∗,n
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 > √ t1−α
n
et
s∗,n
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < √ tα
n
pour les test unilatéraux d’hypothèses alternatives respectives H1 : m > m0 et H1 : m < m0 .

Probastatm 4

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Probastatm 4

Transféré par

Droits d'auteur :

Formats disponibles

Table des matières

2 Martingales à temps discret 13

6 Estimation par région de confiance 57

1.1 Définition et exemples

ce qui prouve que νB  PB . Le théorème de Radon-Nikodym permet alors d’affirmer l’existence

En conséquence, la v.a.r. Y = Y+ − Y− est B-mesurable, P -intégrable et vérifie

ce qui prouve que Y est une espérance de X conditionnelle à B.

L’espérance de X conditionnelle à B sera désormais notée E ( X| B) ; les exemples suivants

Exemple 1.1.2. Soit une v.a. Z à valeurs

X est P -intégrable. Pour tout B ∈ σ (Z), on a B = Z −1 (A) où A ∈ BR , et :

= 1IA (z) fZ (z) E ( X| Z = z) dz

1.2 Propriétés de l’espérance conditionnelle

Proposition 1.2.1. Soit X ∈ L1 (Ω, A, P ) et B une sous-tribu de A.

ce qui est absurde. On en déduit que P (B) = 0, c’est R à dire Y ≥

par unicité de l’espérance conditionnelle il vient E ( aX + bY | B) = aE ( X| B) + bE ( Y | B) p.s..

Proposition 1.2.2. Soit X ∈ L1 (Ω, A, P ) et B une sous-tribu de A.

(ii). Quelque soit B ∈ B, on a

et comme X est B-mesurable, l’unicité de l’espérance conditionnelle donne E ( X| B) = X p.s..

et comme la constante E (X) est B-mesurable, l’unicité de l’espérance conditionnelle donne E ( X| B) =

ϕ (X) ≥ ϕ (E ( X| B)) + β (X − E ( X| B)) ,

Comme conséquence cette proposition, on a le résultat suivant.

Pp E ( XY | B) = Y E ( X| B) p.s.. On déduit de ce qui précède que si Y est étagée, Y =

E ( XYn | B) = E ( X+ Yn | B) − E ( X− Yn | B) = Yn (E ( X+ | B) − E ( X− | B)) ; (1.2.1)

par convergence monotone conditionnelle, on obtient p.s. limn→+∞ E ( X+ Yn | B) = E ( X+ Y | B) et

Alors pour toute sous-tribu B de A, on a p.s. :

l’inégalité triviale lim inf n E ( Xn | B) ≤ lim supn E ( Xn | B) donne le résultat.

Alors pour toute sous-tribu B de A, on a p.s. : E ( X| B) = limn→+∞ E ( Xn | B).

E ( X| B) ≤ lim inf E ( Xn | B) ≤ lim sup E ( Xn | B) ≤ E ( X| B) p.s.;

1.3 Caractérisation de l’espérance conditionnelle de v.a. de

ce qui montre bien le résultat annoncé.

Application : cas gaussien

Martingales à temps discret

2.1 Définitions et propriétés de base

Définition 2.1.1. La famille F est une filtration si pour tout n ∈ N, on a Fn ⊂ Fn+1 .

Nous pouvons, à présent, définir la notion de martingale (sous-martingale, surmartingale).

Nous allons, à présent, présenter quelques propriétés des sous-martingales.

∀n ∈ N, Xn ≤ Xn+1 < +∞ p.s.

∆Xn+1 | Fn ) ≥ 0 p.s.. Posons d’une part U0 = ∆X0 , Un = ∆Xn − E ( ∆XP

E ( Un+1 | Fn ) = E ( ∆Xn+1 − E ( ∆Xn+1 | Fn )| Fn )

2.2 Temps d’arrêt

Remarque 2.2.1. La condition précédente équivaut à : ∀n ∈ N, {T = n} ∈ Fn . En effet, si la

et l’inclusion Fk ⊂ Fn (k = 1, · · · , n) permettent de conclure que {T ≤ n} ∈ Fn .

TB = inf ({n ∈ N / Xn ∈ B}) .

puisque que, pour k ∈ {0, · · · , n − 1}, on a Fk ⊂ Fn−1 ⊂ Fn , on déduit de la relation précédente

2.2.2 Tribus des événements antérieurs

(i) Ω ∈ FT puisque l’on a : ∀n ∈ N, Ω ∩ {T ≤ n} = {T ≤ n} ∈ Fn ;

{T ≤ n} = (Ac ∩ {T ≤ n}) ∪ (A ∩ {T ≤ n}) ,

On peut alors définir :

La proposition suivante donne quelques propriétés de la tribu des événements antérieurs.

ce qui prouve que A ∈ FS .

ce qui prouve que XT−1 (B) ∈ FT .

2.2.3 Théorème d’arrêt

d’où la croissance recherchée.

Remarque 2.2.3. Comme conséquence immédiate de ce théorème, on a que si T et S sont deux

où Xn+ = max (Xn , 0).

ce qui implique {Tn = m} ⊂ Ωn et, par conséquent, Ωn ∩ {Tn = m} = {Tn = m} ∈ Fm . En

E (XTn 1IΩn ) ≤ E (Xn 1IΩn ) ≤ E Xn+ ;

Lemme 2.3.2. Soit (Xn )n∈N une F-sousmartingale ; alors :

Ces lemmes permettent d’obtenir le premier résultat de convergence suivant :

∀n ∈ N, E ( f (Xn+1 )| σ (X0 , · · · , Xn )) = E ( f (Xn+1 )| σ (Xn )) .

La définition donnée à la remarque revient à écrire

3.1.2 Chaı̂nes de Markov homogènes

Cette matrice définit complètement la transition de la chaı̂ne de Markov homogène.

ce qui prouve que νB PB . Le théorème de Radon-Nikodym permet alors d’affirmer l’existence

Corollaire 3.2.1. Si E est un ensemble E = {x1 , · · · , xr }. Soit P la matrice de transition et,