Académique Documents
Professionnel Documents
Culture Documents
I PROBABILITES 3
1 Espérance conditionnelle 5
1.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Caractérisation de l’espérance conditionnelle de v.a. de carrés intégrables . . . . . 11
3 Chaı̂nes de Markov 23
3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2 Chaı̂nes de Markov homogènes . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3 Quelques exemples de chaı̂nes de Markov . . . . . . . . . . . . . . . . . . . 25
3.2 Chaı̂nes de Markov stationnaires à espace d’état dénombrable . . . . . . . . . . . . 27
3.2.1 Equations de Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.3 Récurrence et transcience . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II STATISTIQUE 33
4 Introduction à la Statistique 35
4.1 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Loi et paramètres d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2 Moyenne et variance empiriques . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.1 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.2 Cas du modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1
2 TABLE DES MATIÈRES
5 Estimation ponctuelle 43
5.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2 Evaluation et comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . . . 45
5.2.1 Risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.2 Amélioration d’un estimateur sans biais . . . . . . . . . . . . . . . . . . . . 47
5.2.3 Recherche d’un estimateur sans biais optimal . . . . . . . . . . . . . . . . . 48
5.2.4 Estimateurs efficaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3.1 Méthode du maximum de vraissemblance . . . . . . . . . . . . . . . . . . . 54
5.3.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7 Tests d’hypothèses 61
7.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.2 Méthodes de construction des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.2.1 Estimateurs de paramètres usuels . . . . . . . . . . . . . . . . . . . . . . . . 63
Première partie
PROBABILITES
3
Chapitre 1
Espérance conditionnelle
Dans ce chapitre, nous allons définir l’espérance conditionnelle à une sous-tribu. Seront ensuite
établies des propriétés relatives à cette notion ; il s’agira, dans la plupart des cas, d’étendre les
propriétés usuelles de l’espérance mathématique.
Définition 1.1.1. On appelle espérance conditionnelle de X à B toute v.a.r. Y définie sur (Ω, A)
et telle que
(i) Y est P -intégrable ;
(ii) Y est B-mesurable ; R R
(iii) pour tout événement B ∈ B, B X dP = B Y dP .
Le théorème suivant établit l’existence et l’unicité (au sens de l’égalité presque sûre) de l’espérance
conditionnelle d’une v.a.r. à une sous-tribu.
Théorème 1.1.1. Soient une v.a.r. X définie sur (Ω, A) et P -intégrable, et B une sous-tribu de
A. Alors :
(i) il existe une espérance de X conditionnelle à B;
0 0
(ii) soient Y et Y deux espérances de X conditionnelles à B, alors Y = Y R p.s..
Preuve. (i) Si X ≥ 0, on considère la mesure ν définie sur (Ω, A) par ν (A) = A X dP ; c’est une
mesure finie car ν (Ω) = E (X) < +∞. Considérons les restrictions νB = ν|B et PB = P |B . Si,
pour B ∈ B, on a PB (B) = 0, puisque B est alors P -négligeable, il vient
Z
νB (B) = X dP = 0,
B
5
6 CHAPITRE 1. ESPÉRANCE CONDITIONNELLE
avec X+ = max (X, 0) et X+ = − min (X, 0). Puisque X+ et X− sont positives et P -intégrables, on
déduit de ce qui précède l’existence de v.a.r. B-mesurables et P -intégrables Y+ et Y− vérifiant :
Z Z Z Z
∀B ∈ B, X+ dP = Y+ dP et X− dP = Y− dP.
B B B B
Exemple 1.1.1. Soit B une sous-tribu de A s’écrivant sous la forme B = σ (A1 , · · · , An ) où
les Ai sont des sous-ennsembles disjoints de Ω tels que P (Ai ) > 0 (i = 1, · · · , n). Pour tout
B = Ai1 ∪ · · · ∪ Aip ∈ B et toute v.a. X P -intégrable :
Z p
X Xp
X dP = E (X1IB ) = E X1IAik = αik P (Aik )
B k=1 k=1
avec :
E (X1IAi )
αi = .
P (Ai )
Pn
La v.a. Y = i=1 αi 1IAi est B-mesurable, P -intégrable et vérifie :
Z n
X p
X p
X Z
Y dP = E (Y 1IB ) = αi E (1IB∩Ai ) = αik E 1IAik = αik P (Aik ) = X dP ;
B i=1 k=1 k=1 B
on en déduit que
n
X E (X1IAi )
E ( X| B) = Y = 1IAi (p.s.).
i=1
P (Ai )
Exemple 1.1.3. Soient X et Z deux v.a.r. admettant une densité conjointe f ; on suppose que
1.2. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE 7
où ψ (z) = E ( X| Z = z) ; comme ψ (Z) est σ (Z)-mesurable on déduit des égalités précédentes que
E ( X| σ (Z)) = ψ (Z) = E ( X| Z) (p.s.).
(v) Inégalité de Jensen conditionnelle. Si ϕ est une fonction convexe sur R telle que ϕ ◦ X ∈
L1 (Ω, A, P ) , alors : ϕ (E ( X| B)) ≤ E ( ϕ (X)| B) p.s..
Preuve. (i). Puisque Ω ∈ B, on a
Z Z
E (E ( X| B)) = E ( X| B) dP = X dP = E (X) .
Ω Ω
donc E ( Y2 | B1 ) = E ( X| B1 ) p.s..
(v). La convexité assure qu’en tout point lr graphe de ϕ est au-dessus de la tangente. Donc
pour tout t ∈ R, il existe β ∈ R tel que ϕ (x) ≥ ϕ (t) + β (x − t) (on peut prendre pour β la dérivée
à gauche ou à droite de ϕ au point t). On en déduit
d’où, en appliquant l’espérance conditionnelle aux deux membres de cette inégalité, ϕ (E ( X| B)) ≤
E ( ϕ (X)| B)
Les théorèmes suivants étendent à l’espérance conditionnelle les théorèmes de convergence clas-
siques impliquant l’espérance mathématique.
Proposition 1.2.3. (convergence monotone conditionnelle). Soit (Xn )n∈N une suite croissante de
v.a. positives de L1 (Ω, A, P ) qui converge p.s. vers une v.a. X ∈ L1 (Ω, A, P ). Alors pour toute
sous-tribu B de A, on a p.s. : E ( X| B) = limn→+∞ ↑ E ( Xn | B).
Preuve. La croissance p.s. de la suite (E ( Xn | B))n∈N résulte directement de la proposition 1.2.1.
Pour tout B ∈ B, on obtient en utlisant les propriétés de l’espérance conditionnelle et le théorème
de Beppo-Levi :
Z Z Z Z
X dP = lim ↑ Xn dP = lim ↑ E ( Xn | B) dP = lim E ( Xn | B) dP ;
B n→+∞ B n→+∞ B B n→+∞
puisque limn→+∞ E ( Xn | B) est B-mesurable comme limite de v.a. B-mesurables, l’égalité précédente
et l’unicité de l’espérance conditionnelle permettent de conclure que limn→+∞ E ( Xn | B) = E ( X| B)
p.s.
1.2. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE 9
Proposition 1.2.4. Soit X ∈ L1 (Ω, A, P ), B une sous-tribu de A et Y une v.a.r. telle que
XY ∈ L1 (Ω, A, P ). Si Y est B-mesurable, alors : E ( XY | B) = Y E ( X| B) p.s..
Preuve. (a). Si Y =1IA avec A ∈ B, on a pour tout B ∈ B :
Z Z Z Z Z Z
XY dP = X 1IA dP = X dP = E ( X| B) dP = 1IA E ( X| B) dP = Y E ( X| B) dP ;
B B A∩B A∩B B B
(b). Si Y ≥ 0 alors Y = lim Yn où (Yn )n est une suite croissante de v.a. étagées B-mesurables
positives. Considérant X+ = max (X, 0) et X− = − min (X, 0), on a donc p.s.
E ( XY | B) = E ( XY+ | B) − E ( XY− | B) = Y+ E ( X| B) − Y− E ( X| B) = Y E ( X| B) .
Proposition 1.2.5. (Lemme de Fatou conditionnel). Soit (Xn )n∈N une suite de v.a. positives de
L1 (Ω, A, P ). Alors pour toute sous-tribu B de A, on a p.s. : E ( lim inf n Xn | B) ≤ lim inf n E ( Xn | B).
Preuve. Pour tout n ∈ N et tout p ≥ n on a inf k≥n (Xk ) ≤ Xp ; donc E ( inf k≥n (Xk )| B) ≤
E ( Xp | B) p.s.. On en déduit l’inégalité E ( inf k≥n (Xk )| B) ≤ inf p≥n E ( Xp | B) p.s., et un passage à
la limite donne
lim E inf (Xk ) B ≤ lim inf E ( Xp | B) = lim inf E ( Xn | B) p.s..
n→+∞ k≥n n→+∞ p≥n n
Le résultat recherché est alors déduit de l’égalité suivante obtenue par le théorème de convergence
monotone conditionnel :
lim E inf (Xk ) B = E lim inf (Xk ) B = E lim inf Xn B p.s.
n→+∞ k≥n n→+∞ k≥n n
Proposition 1.2.6. (Théorème de Fatou-Lebesgue conditionnel). Soit (Xn )n∈N une suite de v.a.r
telle qu’il existe une v.a.r. Y de L1 (Ω, A, P ) pour laquelle on a :
∀n ∈ N, |Xn | ≤ Y p.s..
10 CHAPITRE 1. ESPÉRANCE CONDITIONNELLE
Preuve. Les suites de v.a. Y + Xn et Y − Xn étant positives, on peut leur appliquer le lemme de
Fatou conditionnel. On obtient :
E lim inf (Y + Xn ) B ≤ lim inf E ( Y + Xn | B) p.s.,
n n
c’est à dire
E Y + lim inf (Xn ) B ≤ E ( Y | B) + lim inf E ( Xn | B) p.s.,
n n
d’où
E lim inf (Xn ) B ≤ lim inf E ( Xn | B) p.s..
n n
De même
E lim inf (Y − Xn ) B ≤ lim inf E ( Y − Xn | B) p.s.
n n
c’est à dire
E Y + lim inf (−Xn ) B ≤ E ( Y | B) + lim inf E ( −Xn | B) p.s.
n n
d’où
E lim inf (−Xn ) B ≤ lim inf E ( −Xn | B) p.s..
n n
En remarquant que lim inf n∈N (−un ) = − lim supn∈N (un ) , il vient
lim sup E ( Xn | B) ≤ E lim sup Xn B ;
n n
Cette propriété permet d’établir un théorème de convergence dominée pour l’espérance condi-
tionnelle.
Proposition 1.2.7. (convergence dominée conditionnelle). Soit (Xn )n∈N une suite de v.a. de
L1 (Ω, A, P ) qui converge p.s. vers une v.a. X ∈ L1 (Ω, A, P ). On suppose qu’il existe une v.a.r.
Y de L1 (Ω, A, P ) pour laquelle on a :
∀n ∈ N, |Xn | ≤ Y p.s..
ce qui prouve que E ( X| B) = lim inf n E ( Xn | B) = lim supn E ( Xn | B) p.s., c’est à dire E ( X| B) =
limn→+∞ E ( Xn | B) p.s.
1.3. CARACTÉRISATION DE L’ESPÉRANCE CONDITIONNELLE DE V.A. DE CARRÉS INTÉGRABLES11
Proposition 1.2.8. Soit B une sous-tribu de A. Alors l’espérance conditionnelle à B est le pro-
jecteur orthogonal de L2 (Ω, A, P ) sur L2 (Ω, B, P ).
Preuve. Soit X ∈ L2 (Ω, A, P ), alors pour toute v.a. Z ∈ L2 (Ω, B, P ) on a
hX − E ( X| B) , Zi = hX, Zi − hE ( X| B) , Zi = E (XZ) − E (E ( X| B) Z)
= E (XZ) − E (E ( XZ| B)) = E (XZ) − E (XZ) = 0.;
Exemple 2.1.1. Lorsque (Xn )n∈N est une suite de v.a., on pose, pour tout n ∈ N, Fn =
σ (X1 , · · · , Xn ). La famille F = (Fn )n∈N est une filtration appellée filtration naturelle associée
à la suite précédente.
Définition 2.1.2. Soit F = (Fn )n∈N une filtration. Une suite de v.a. (Xn )n∈N est dite :
* F-adaptée, si pour tout n ∈ N, Xn est Fn -mesurable.
* F-prévisible, si pour tout n ∈ N, Xn est Fn−1 -mesurable.
Définition 2.1.3. Soit F = (Fn )n∈N une filtration. Une suite de v.a. (Xn )n∈N est une martingale
F-adaptée, ou encore F-martingale, si :
(i) (Xn )n∈N est Fn -adaptée ;
(ii) pour tout n ∈ N, Xn est P -intégrable ;
(iii) pour tout n ∈ N, Xn = E ( Xn+1 | Fn ) p.s..
La suite (Xn )n∈N est une sousmartingale (resp. surmartingale) F-adaptée, ou encore F-sousmartingale
(resp. F-sousmartingale), si les assertions (i) et (ii) sont vérifiées et si l’assertion (iii) est remplacée
par : Xn ≤ E ( Xn+1 | Fn ) p.s.. (resp. Xn ≥ E ( Xn+1 | Fn ) p.s..).
Exemple 2.1.2.
1) Soit X une v.a.r. P -intégrable, on pose Xn = E ( X| Fn ) ; alors (Xn )n∈N est une F-martingale.
En effet, Xn est (trivialement) Fn -mesurable et P -intégrable ; de plus, puisque Fn ⊂ Fn+1 , on a
E ( Xn+1 | Fn ) = E ( E ( X| Fn+1 )| Fn ) = E ( X| Fn ) = Xn p.s..
2) Marche aléatoire dans R. Soit (Xn )n∈N une suite de v.a.r. indépendantes, P -intégrables et
de même espérance mathématique µ ; on considère la filtration naturelle F associée à cette suite
13
14 CHAPITRE 2. MARTINGALES À TEMPS DISCRET
Pn
et on pose Sn = i=0 Xi . La suite (Sn )n∈N est (trivialement) F-adaptée et constituée de v.a.r.
P -intégrables ; de plus,
E ( Sn+1 | Fn ) = E ( Sn | Fn ) + E ( Xn+1 | Fn ) p.s.
Comme Sn est Fn -mesurable, on a E ( Sn | Fn ) = Sn p.s., et, d’autre part, Xn+1 est indépendante
de Fn . D’où E ( Xn+1 | Fn ) = E (Xn+1 ) = µ p.s. ; on en déduit : E ( Sn+1 | Fn ) = Sn + µ p.s.. Ainsi,
(Sn )n∈N est une F-martingale (resp. F-sousmartingale ; F-surmartingale) si, et seulement si, µ = 0
(resp. µ ≥ 0 ; resp. µ ≤ 0).
Remarque 2.1.1.
0
1) Pour une martingale, l’assertion (iii) équivaut à (iii) : ∀n ∈ N, ∀m > n, Xn = E ( Xm | Fn ) p.s..
Pm−1
En effet, on a Xm = Xn + k=n (Xk+1 − Xk ), ce qui implique que
m−1
X
E ( X m | Fn ) = E ( X n | Fn ) + (E ( Xk+1 | Fn ) − E ( Xk | Fn )) p.s.
k=n
m−1
X
= Xn + (E ( E ( Xk+1 | Fk )| Fn ) − E ( Xk | Fn )) p.s. (car Fn ⊂ Fk )
k=n
m−1
X
= Xn + (E ( Xk | Fn ) − E ( Xk | Fn )) p.s.
k=n
= Xn .
De même, pour une sous-martingale (resp. sur-martingale), on a : ∀n ∈ N, ∀m > n, Xn ≤
E ( Xm | Fn ) (resp. Xn ≥ E ( Xm | Fn )) p.s..
2) Si (Xn )n∈N est une F-martingale (resp. F-sousmartingale ; F-surmartingale) alors la suite
(E (Xn ))n∈N est constante (resp. croissante ; resp. décroissante). En effet :
Xn = E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) = E (E ( Xn+1 | Fn )) = E (Xn+1 ) ;
Xn ≤ E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) ≤ E (E ( Xn+1 | Fn )) = E (Xn+1 ) ;
Xn ≥ E ( Xn+1 | Fn ) p.s. ⇒ E (Xn ) ≥ E (E ( Xn+1 | Fn )) = E (Xn+1 ) .
Proposition 2.1.1. Soit (Xn )n∈N une F-sousmartingale et ϕ une fonction réelle croissante et
convexe. Si, pour tout n ∈ N, ϕ (Xn ) est P -intégrable, alors (ϕ (Xn ))n∈N est une F-sousmartingale.
Preuve. La fonction ϕ est continue, donc mesurable. Puisque Xn est Fn -mesurable, il vient que
ϕ (Xn ) est Fn -mesurable. Comme Xn ≤ E ( Xn+1 | Fn ) p.s., on obtient
ϕ (Xn ) ≤ ϕ (E ( Xn+1 | Fn )) p.s. (car ϕ est croissante)
≤ E ( ϕ (Xn+1 )| Fn ) p.s. (car ϕ est convexe).
Remarque 2.1.2.
1) Application : Soit (Xn )n∈N une F-sousmartingale ; on pose Xn+ = max (Xn , 0). Alors (Xn+ )n∈N
p
est une F-sousmartingale ; il en est de même de (|Xn | )n∈N pour tout p ∈ N∗ .
2) La conclusion de la proposition précédente reste vraie si (Xn )n∈N est une F-martingale et si ϕ
une fonction réelle convexe (non nécessairement croissante). En effet, on a alors :
ϕ (Xn ) = ϕ (E ( Xn+1 | Fn )) ≤ E ( ϕ (Xn+1 )| Fn ) .
2.1. DÉFINITIONS ET PROPRIÉTÉS DE BASE 15
Nous allons maintenant énoncer un théorème important qui indique comment une sousmartingale
peut être décomposée en la somme d’une martingale et d’un processus croissant. Pour cela, on
définit d’abord :
Définition 2.1.2. Une suite (Xn )n∈N est appellé processus croissant si X0 = 0 et :
On a alors :
Théorème 2.1.1. (Décomposition de Doob). Toute F-sousmartingale (Xn )n∈N peut s’écrire de
façon unique (au sens de l’égalité p.s.) sous la forme Xn = Yn +Zn , où (Yn )n∈N est une F-martingale
et (Zn )n∈N est un processus croissant F-prévisible.
Preuve.Pn Posons ∆X0 = X0 et ∆Xn = Xn − Xn−1 (n ≥ 1) ; c’est un processus F-adapté et on a
Xn = k=0 ∆Xk . L’inégalité Xn ≤ E ( Xn+1 | Fn ) p.s. devient alors :
!
Xn Xn Xn
∆Xk ≤ E ∆Xk + ∆Xn+1 Fn = ∆Xk + E ( ∆Xn+1 | Fn ) p.s.
k=0 k=0 k=0
il vient
E ( Yn+1 | Fn ) = E ( Yn + Un+1 | Fn ) = Yn + E ( Un+1 | Fn ) = Yn p.s..
Enfin, montrons que (Zn )n∈N est un processus croissant F-prévisible ; il est (trivialement) F-
prévisible, et on a
Zn+1 − Zn = Vn+1 = E ( ∆Xn+1 | Fn ) ≥ 0 p.s..
Ceci termine la démonstration de l’existence de la décomposition annoncée
0 ; il nous reste à établir
0 0
l’unicité de celle-ci. Soit une autre décomposition Xn = Yn +Zn , où Yn est une F-martingale
0 n∈N
0 0
et Zn est un processus croissant F-prévisible. On a Z0 = Z0 = 0, ce qui implique Y0 = Y0 =
n∈N
0 0
X0 ; supposons maintenant que pour n ∈ N, on a Zn = Zn et Yn = Yn . Alors :
0
0 0
0 0
Zn+1 = E Zn+1 Fn = E Xn+1 − Yn+1 Fn = E ( Xn+1 | Fn ) − E Yn+1 Fn = E ( Xn+1 | Fn ) − Yn p.s.
0 0 0
= E ( Yn+1 + Zn+1 | Fn ) − Yn = E ( Yn+1 | Fn ) + E ( Zn+1 | Fn ) − Yn = Yn − Yn + Zn+1 = Zn+1 p.s. ;
0 0
en conséquence : Yn+1 = Xn+1 − Zn+1 = Xn+1 − Zn+1 = Yn+1 p.s.
16 CHAPITRE 2. MARTINGALES À TEMPS DISCRET
Définition 2.2.1. On appelle temps d’arrêt adapté à F, ou encore F-temps d’arrêt, toute v.a.
T : Ω → N vérifiant :
∀n ∈ N, {T ≤ n} ∈ Fn .
Exemple 2.2.1.
1) Temps d’entrée dans un ensemble. Soient (Xn )n∈N une suite F-adaptée de v.a.r et un borélien
B ∈ BR ; on appelle temps d’entrée dans B la v.a. TB définie par :
C’est un F-temps d’arrêt car, pour tout n ∈ N, on a {TB = 0} = {X0 ∈ B} = X0−1 (B) ∈ F0 et,
pour n ≥ 1 :
n−1
! n−1
!
\ \
−1
{TB = n} = {Xk ∈/ B} ∩ {Xn ∈ B} = Xk (B ) ∩ Xn−1 (B) ;
c
k=0 k=0
Certaines propriétés liées aux temps d’arrêt, et qui seront utiles dans ce chapitre, sont ras-
semblées dans la remarque suivante.
Remarque 2.2.2.
1) Toute constante dans N est un temps d’arrêt adapté à n’importe quelle filtration F. En effet,
soit T = m ∈ N, on a {T = m} = Ω ∈ Fm , et pour tout n ∈ N − {m}, {T = n} = ∅ ∈ Fn .
2.2. TEMPS D’ARRÊT 17
2) Si T et S sont deux F-temps d’arrêt, alors, posant T ∨ S := max (T, S) et T ∧ S := min (T, S),
les v.a. T ∨ S et T ∧ S sont également des F-temps d’arrêt. Cela provient des relations :
{T ∨ S ≤ n} = {T ≤ n} ∩ {S ≤ n} et {T ∧ S ≤ n} = {T ≤ n} ∪ {S ≤ n} .
3) Les deux remarques précédentes montrent en particulier que si T est un F-temps d’arrêt, alors,
pour tout n ∈ N, T ∧ n est également un F-temps d’arrêt.
4) Soit (Xn )n∈N une suite de v.a. et T un F-temps d’arrêt, alors l’application XT : Ω → R définie
par
XT (ω) = XT (ω) (ω)
est une variable aléatoire. En effet, pour tout borélien B ∈ BR , on a
!
[
−1 −1 −1
XT (B) = XT (B) ∩ Ω = XT (B) ∩ {T = n}
n∈N
[ [
XT−1 Xn−1 (B) ∩ {T = n} ∈ A.
= (B) ∩ {T = n} =
n∈N n∈N
et
FT = {A ∈ F∞ / ∀n ∈ N, A ∩ {T ≤ n} ∈ Fn } .
L’ensemble FT est une tribu sur Ω car :
il vient :
Ac ∩ {T ≤ n} = {T ≤ n} \ (A ∩ {T ≤ n}) ,
ce qui prouve que Ac ∩ {T ≤ n} ; on en déduit que Ac ∈ S FT ;
(iii) soit (An )n∈N une famille d’éléments de FT , on a m∈N Am ∈ F∞ et, pour tout n ∈ N :
!
[ [
Am ∩ {T ≤ n} = (Am ∩ {T ≤ n}) ∈ Fn ,
m∈N m∈N
S
ce qui prouve que m∈N Am ∈ FT .
Définition 2.2.2. Soit T un F-temps d’arrêt, on appelle tribu des événements antérieurs à T la
tribu FT .
18 CHAPITRE 2. MARTINGALES À TEMPS DISCRET
Proposition 2.2.1.
(i) Si T et S sont deux F-temps d’arrêt tels que S ≤ T , alors FS ⊂ FT .
(ii) Soit (Xn )n∈N une suite F-adaptée de v.a. et T un F-temps d’arrêt ; alors XT est FT -
mesurable.
Preuve. (i). Si S ≤ T , on a pour tout n ∈ N, {T ≤ n} ⊂ {S ≤ n}, ce qui prouve que {T ≤ n} =
{T ≤ n} ∩ {S ≤ n}. Ainsi, pour tout A ∈ FS , puisque
A ∩ {T ≤ n} = A ∩ {T ≤ n} ∩ {S ≤ n} = (A ∩ {S ≤ n}) ∩ {T ≤ n} ∈ Fn ;
n∈N n∈N
et pour tout n ∈ N :
n
[ n
[
XT−1 (B) ∩ {T ≤ n} = XT−1 (B) ∩ {T = m} = −1
Xm (B) ∩ {T = m} ∈ Fn ,
m=0 m=0
Théorème 2.2.1. Soit (Xn )n∈N une F-martingale (resp. F-sousmartingale ; resp. F-surmartingale)
et (Tn )n∈N une suite croissante de F-temps d’arrêt bornés. Si pour tout n ∈ N on a E (|XTn |) <
+∞, alors (XTn )n∈N est une martingale (resp. sousmartingale ; resp. surmartingale) adaptée à la
filtration (FTn )n∈N .
Preuve. Il suffit de faire la démonstration pour les sous-martingales. Cela revient à montrer que,
pour tout n ∈ N et tout B ∈ FTn , on a E (XTn 1IB ) ≤ E XTn+1 1IB . Remarquons d’abord que,
S+∞
puisque B = m=0 (B ∩ {Tn = m}), il vient :
E (XTn 1IB ) = E XTn 1IS+∞
m=0 (B∩{Tn =m})
+∞
!
X
=E XTn 1IB∩{Tn =m}
m=0
+∞
X
= E XTn 1IB∩{Tn =m}
m=0
+∞
X
= E Xm 1IB∩{Tn =m} .
m=0
2.3. CONVERGENCE 19
Posons Am = B ∩ {Tn = m} et ϕ (l) = E XTn+1 ∧l 1IAm ; puisque B ∈ FTn on a Am ∈ Fm et
comme les temps d’arrêt Tn sont bornés, il existe N ∈ N tel que Tn ≤ Tn+1 ≤ N . Montrons que
ϕ est croissante sur {m, · · · , N } ; on a pour l ∈ {m, · · · , N } :
ϕ (l) = E XTn+1 ∧l 1IAm = E XTn+1 ∧l 1IAm ∩{Tn+1 >l} + E XTn+1 ∧l 1IAm ∩{Tn+1 ≤l}
= E Xl 1IAm ∩{Tn+1 >l} + E XTn+1 1IAm ∩{Tn+1 ≤l} ;
c
or, {Tn+1 > l} = {Tn+1 ≤ l} ∈ Fl car Tn+1 est un F-temps d’arrêt et, d’autre part Am ∈ Fl car
Fm ⊂ Fl , donc Am ∩ {Tn+1 > l} ∈ Fl ; de plus,
comme (Xn )n∈N est une F-sousmartingale, on a
E Xl 1IAm ∩{Tn+1 >l} ≤ E Xl+1 1IAm ∩{Tn+1 >l} . Donc :
ϕ (l) ≤ E Xl+1 1IAm ∩{Tn+1 >l} + E XTn+1 1IAm ∩{Tn+1 ≤l}
= E XTn+1 ∧(l+1) 1IAm ∩{Tn+1 >l} + E XTn+1 ∧(l+1) 1IAm ∩{Tn+1 ≤l}
= E XTn+1 ∧(l+1) 1IAm
= ϕ (l + 1) ,
d’où :
+∞
X
E (XTn 1IB ) ≤ E XTn+1 1IB∩{Tn =m}
m=0
+∞
!
X
= E XTn+1 1IB∩{Tn =m}
m=0
= E XTn+1 1IB ;
on en déduit XTn ≤ E XTn+1 FTn p.s..
2.3 Convergence
Nous allons à présent donner quelques résultats de convergence des martingales. Il s’agit prin-
cipalement de déterminer des conditions sous lesquelles la suite (Xn )n∈N converge de diverses
manières (p.s., en moyenne etc). Pour cela, on besoin des lemmes suivants :
Lemme 2.3.1. Soit (Xn )n∈N une F-sousmartingale ; alors pour tout c > 0 :
cP sup (Xn ) > c ≤ sup E Xn+ ,
n∈N n∈N
20 CHAPITRE 2. MARTINGALES À TEMPS DISCRET
S+∞
donc : cP (Ωn ) ≤ E (Xn+ ). Puisque {supn∈N (Xn ) > c} = n=0 Ωn et comme (Ωn )n≥0 est une
famille croissante, on a
cP sup (Xn ) > c = lim ↑ cP (Ωn ) = sup (cP (Ωn )) ≤ sup E Xn+ .
n∈N n→+∞ n∈N n∈N
Pour tous réels a < b, on définit le nombre de franchissements de [a, b] en descendant, noté
γa,b (X), comme la borne supérieure des entiers m tels qu’existent b1 < a1 < b2 < a2 < · · · < bm <
am dans N vérifiant Xak < a et Xbk > b pour k = 1, · · · , m. On a alors le résultat suivant dont
une démonstration peut être trouvé dans Doukhan et Sifre (2002)1 :
Théorème 2.3.1. Soit (Xn )n∈N une F-sousmartingale telle que supn∈N (E (Xn+ )) < +∞. Alors
(Xn )n∈N converge presque sûrement et, notant X∞ la v.a. limite, on a pour tout n ∈ N, Xn ≤
E ( X∞ | Fn ).
+ +
Preuve. Puisque (Xn − b) ≤ Xn + + b− , on a donc supn∈N E (Xn − b) < +∞ et le lemme
2.3.2 implique E (γa,b (X)) < +∞ ; donc γa,b (X) < +∞ p.s.. Pour tout ω ∈ Ω, on a γa,b (X (ω)) <
+∞ et la suite (Xn (ω))n∈N ne peut, en conséquence, avoir deux valeur d’adhérences distinctes ;
elle converge.
Remarque 2.3.1. Puisque Xn+ ≤ |Xn |, une condition suffisante pour avoir la convergence p.s. est
donc supn∈N (E (|Xn |)) < +∞.
On a aussi le théorème suivant qui établit des conditions pour une convergence en moyenne :
1 P. Doukhan, J.C. Sifre, Cours d’analyse : calcul différentiel, intégration et probabilités. Dunod, 2002.
2.3. CONVERGENCE 21
Théorème 2.3.2. Soit (Xn )n∈N une F-martingale ; les trois assertions suivantes sont équivalentes :
(i) (Xn )n∈N converge dans L1 ;
(ii) il existe une v.a. X P -intégrable et vérifiant pour tout n ∈ N : Xn = E ( X| Fn ) p.s. ;
(iii) (Xn )n∈N est uniformément intégrable, c’est à dire :
lim sup E |Xn | 1I{|Xn |>t} = 0.
t→+∞ n∈N
Alors la convergence p.s. a aussi lieu et Xn = E ( X| Fn ). Une condition suffisante simple pour
p
(iii) est supn∈N (E (|Xn | )) < +∞ pour un p ≥ 1 ; elle entraı̂ne aussi la convergence dans Lp .
Preuve. (i)⇒(ii). Soit X la limite de (Xn )n∈N dans L1 ; il est clair que X est P -intégrable. Remar-
quons que, puisque pour tout A ∈ A, on a
|E (Xn 1IA ) − E (X1IA )| = |E ((Xn − X) 1IA )| ≤ E (|Xn − X|) ,
il vient E (X1IA ) = limn→+∞ (E (Xn 1IA )). Maintenant, pour n ∈ N , soit A ∈ Fn on a E (Xn 1IA ) =
E (Xn+1 1IA ) ; puisque l’on a aussi A ∈ Fn+1 on obtient, de même, E (Xn+1 1IA ) = E (Xn+2 1IA ), donc
E (Xn 1IA ) = E (Xn+2 1IA ). En continuant ainsi de suite, il vient : ∀p ∈ N, E (Xn 1IA ) = E (Xn+p 1IA ).
D’où
E (Xn 1IA ) = lim E (Xn+p 1IA ) = E (X1IA ) .
p→+∞
Puisque cette dernière égalité est vraie pour tout A ∈ Fn , on en déduit que Xn = E ( X| Fn ).
(ii)⇒(iii). On a |Xn | ≤ E ( |X|| Fn ) p.s. et puisque {|Xn | > t} ∈ Fn , il vient
|Xn | 1I{|X |>t} ≤ E ( |X|| Fn ) 1I{|X |>t} = E |X| 1I{|X |>t} Fn p.s.
n n n
d’où
E |Xn | 1I{|Xn |>t} ≤ E E |X| 1I{|Xn |>t} Fn = E |X| 1I{|Xn |>t}
et
sup E |Xn | 1I{|Xn |>t} ≤ sup E |X| 1I{|Xn |>t} ,
n∈N n∈N
ce qui implique limt→+∞ supn∈N E |Xn | 1I{|Xn |>t} = 0.
(iii)⇒(i) Pour tout ε > 0 il existe tε > 0 tel que supn∈N E |Xn | 1I{|Xn |>tε } < ε. Or
E (|Xn | ) = E |Xn | 1I{|Xn |>tε } + E |Xn | 1I{|Xn |≤tε } ≤ E |Xn | 1I{|Xn |>tε } + tε ,
donc supn∈N E (|Xn | ) ≤ ε + tε < +∞. Par conséquent, la remarque 2.3.1 garantit la convergence
p.s. de (Xn )n≥0 ; montrons que cette propriété et l’intégrabilité uniforme impliquent la convergence
dans L1 . Soit X la limite ; pour tout t > 0, on a
E (|Xn − X|) ≤ E |Xn − X| 1I{|Xn |≤t}∩{|X|≤t} + E |Xn − X| 1I{|Xn |>t}∩{|X|>t}
et, par convergence dominée, on obtient
lim sup E (|Xn − X|) ≤ 2 sup E |Xn | 1I{|Xn |>t} ;
n n
en faisant t → +∞, il vient lim supn E (|Xn − X|) = 0 donc limn→+∞ E (|Xn − X|) = 0.
p
Si supn∈N (E (|Xn | )) < +∞, l’inégalité de Hölder donne
p 1/p 1/q
E |Xn | 1I{|Xn |>t} ≤ (E (|Xn | )) P (|Xn | > t) ,
d’où 1/p
p 1/q
sup E |Xn | 1I{|Xn |>t} ≤ sup (E (|Xn | )) sup P (|Xn | > t)
n∈N n∈N n∈N
et puisque limt→+∞ P (|Xn | > t) = 0, on obtient l’intégrabilité uniforme.
22 CHAPITRE 2. MARTINGALES À TEMPS DISCRET
Chapitre 3
Chaı̂nes de Markov
3.1 Généralités
3.1.1 Définitions
On considère un espace probabilisé (Ω, A, P ), un espace mesurable (E, E) appellé espace d’états et
un processus (Xn )n∈N .
Définition 3.1.1. On dit que (Xn )n∈N est une chaı̂ne de Markov si, pour toute application f :
(E, E) → (R, BR ) telle que f (Xn ) est P -intégrable pour tout n ∈ N, on a :
Remarque 3.1.1.
1) La définition précédente signifie que le processus ne dépend de son passé qu’à travers son passé
immédiat.
2) Une définition équivalente, plus souvent utilisée que la précédente, est donnée par la relation
suivante :
∀A ∈ E, P ( Xn+1 ∈ A| X0 , · · · , Xn ) = P ( Xn+1 ∈ A| Xn ) .
Cette dernière relation nous amène à introduire la notion de transition d’un espace mesurable vers
un autre.
Définition 3.1.2. On appelle transition de l’espace mesurable (E1 , E1 ) vers l’espace mesurable
(E2 , E2 ) toute application Π : E1 × E2 → [0, 1] vérifiant :
(i) ∀A ∈ E2 , l’application x ∈ E1 7→ Π (x, A) ∈ [0, 1] est mesurable de (E1 , E1 ) vers [0, 1] , B[0,1] ;
(ii) ∀x ∈ E1 , l’application A ∈ E2 7→ Π (x, A) ∈ [0, 1] est une probabilité sur (E2 , E2 ) .
∀A ∈ E, P ( Xn+1 ∈ A| X0 , · · · , Xn ) = Πn (Xn , A)
où Πn (x, A) = P ( Xn+1 ∈ A| Xn = x) ; Πn est, clairement, une transition de (E, E) vers lui-même.
23
24 CHAPITRE 3. CHAÎNES DE MARKOV
Lorsque E est un ensemble discret, la transition d’une telle chaı̂ne est donnée par des probabi-
lités définies ci-dessous. En effet, prenons E = {xi ; i ∈ I} avec I ⊂ N ; puisque Π est alors une
application de E × P (E) vers [0, 1], elle est entièrement déterminée par la donnée des probabilités
pij = Π (xi , {xj }) = P ( Xn+1 = xj | Xn = xi ) ( (i, j) ∈ I 2 )
appellées probabilités de transition.
Plus particulièrement, lorsque E est un ensemble fini E = {x1 , · · · , xr }, on rassemble les probabi-
lités de transition dans une matrice carrée d’ordre r, et on obtient :
Définition 3.1.4. On appelle matrice de transition de la chaı̂ne de Markov homogène (Xn )n∈N ,
la matrice P = (pij )1≤i,j≤r avec pij = P ( Xn+1 = xj | Xn = xi ).
L’un des intérêts des chaı̂nes de Markov homogènes est que, étant donnés la loi initiale et la
transition, on peut déterminer la loi de n’importe quelle v.a. Xn ; nous allons le montrer dans le
cas général, puis on considérera le cas particulier des chaı̂nes à espace d’état fini.
Proposition 3.1.1. Soit (Xn )n∈N une chaı̂ne de Markov homogène de loi initiale µ et de transition
Π. Alors, notant µn la loi de Xn , on a pour tout n ∈ N∗ , µn = Π
e n (µ).
∗
Preuve. On a pour tous n ∈ N et A ∈ E
µn (A) = P (Xn ∈ A) = P ({Xn ∈ A} ∩ {Xn−1 ∈ E}) (car {Xn−1 ∈ E} = Ω)
Z
= P(Xn ,Xn−1 ) (A × E) = P Xn |Xn−1 =x (A) dPXn−1 (x)
E
Z
= P ( Xn ∈ A| Xn−1 = x) dµn−1 (x)
E
Z
= Π (x, A) dµn−1 (x)
E
=Π
e (µn−1 ) (A) ;
νr
Pr Pr
avec ν1 ≥ 0, · · · , νr ≥ 0 et i=1 νi = 1 ; les νi ne sont autres que les réels vérifiant ν = i=1 νi δxi .
Dans ce contexte, précisons l’application Π e ; on a pour tout ν de P (E, E) et tout i ∈ {1, · · · , r}
Z r
X Z r
X r
X
e (ν) ({xi }) =
Π Π (x, {xi }) dµ (x) = νj Π (x, {xi }) dδxj (x) = νj Π (xj , {xi }) = pji νj ;
E j=1 E j=1 j=1
Posant Pr
j=1 pj1 νj
e (ν) ({x1 })
Π
e (ν) ≡
τ =Π .. ..
= ,
. Pr .
Π (ν) ({xr })
e p
j=1 jr jν
Corollaire 3.1.1. Soit (Xn )n∈N une chaı̂ne de Markov homogène à espace d’état fini de loi initiale
µ1
µ ≡ ...
µr
Proposition 3.1.2. Soit (ξn )n∈N∗ une suite de v.a. à valeurs dans (F, F) , indépendantes, de
même loi µ, et indépendantes d’une v.a. X0 . Alors la suite (Xn )n∈N définie, pour n ≥ 1, par
Xn = ϕn (Xn−1 , ξn ), où ϕn : E × F → E est une fonction mesurable, est une chaı̂ne de Markov.
Elle est homogène si on a une fonction mesurable ϕ telle que pour tout n ∈ N∗ , ϕn = ϕ.
Preuve. Considérons T0 = σ (X0 ) et, pour n ≥ 1, Tn = σ (X0 , ξ1 , · · · , ξn ). Pour toute application
f : (E, E) → (R, BR ) telle que f (Xn ) est P -intégrable pour tout n ∈ N, on a : E ( f (Xn+1 )| Tn ) =
E ( f (ϕn+1 (Xn , ξn+1 ))| Tn ) . Puisque ξn+1 et Tn sont indépendantes, il vient : E ( f (Xn+1 )| Tn ) =
gbn (Xn ) p.s., où
Z
gbn (x) = E (f (ϕn+1 (x, ξn+1 ))) = f (ϕn+1 (x, t)) dµ (t) ;
F
en conséquence,
Exemple 3.1.1. Marche aléatoire sur Rp . On considère (ξn )n∈N∗ une suite de v.a. indépendantes
à valeurs (Rp , BRp ), de même loi µ et indépendante d’une autre v.a. X0 à valeurs (Rp , BRp ). On
Pnque l’on appelle marche aléatoire le processus (Xn )n∈N défini, pour n ≥ 1, par Xn =
rappelle
X0 + i=1 ξi . Il est clair que, pour n ≥ 1, on a Xn = Xn−1 + ξn = ϕ (Xn−1 , ξn ) où ϕ : (x, y) ∈
3.2. CHAÎNES DE MARKOV STATIONNAIRES À ESPACE D’ÉTAT DÉNOMBRABLE 27
Rp × Rp 7→ x + y ∈ Rp . La proposition 3.1.2 permet alors de conclure que (Xn )n∈N est une chaı̂ne
de Markov homogène. Sa loi initiale est la loi de X0 et sa transition est définie par (3.1.1) :
Z Z
∀A ∈ BR , Π (x, A) =
p 1IA (x + t) dµ (t) = 1IA−x (t) dµ (t) = µ (A − x) ,
Rp Rp
où A − x = {u ∈ Rp / u = v − x, v ∈ A}.
Exemple 3.1.2. Processus de ramification (ou de branchement). On considère des individus pou-
vant produire d’autres individus du même type (appellés descendants) suivant une loi µ donnée
dans N. On suppose la génération initiale comporte un nombre X0 d’individus. Pour n ≥ 1,
(n)
soient Xn le nombre d’individus à la génération n et ξi le nombre de descendants du i-ème indi-
vidu de la génération n. On suppose que les individus se reproduisent de façon indépendante, et
indépendamment du nombre initial d’individus. On s’intéresse au processus (Xn )n∈N ; on a pour
PXn−1 (n−1)
n ≥ 1, Xn = Xn−1 + i=1 ξi . On peut écrire Xn = ϕ (Xn−1 , ξn ) , avec :
(n−1)
ξn = ξi ∈ S,
i∈N∗
on voudrait exprimer ces probabilités en fonction des probabilités de transition. Cela provient du
théorème suivant donnant les équations de Chapman-Kolmogorov :
28 CHAPITRE 3. CHAÎNES DE MARKOV
2
Théorème 3.2.1. Pour tous (i, j) ∈ I 2 , n ∈ N∗ et (r, s) ∈ (N∗ ) tel que r + s = n, on a
(n) P (r) (s)
pij = k∈I pik pkj .
Preuve. On effectue une récurrence sur n. Pour n = 2, on a
(2) P (X2 = xj , X0 = xi ) X P (X2 = xj , X1 = xk , X0 = xi )
pij = P ( X2 = xj | X0 = xi ) = =
P (X0 = xi ) P (X0 = xi )
k∈I
X P ( X2 = xj | X1 = xk , X0 = xi ) P (X1 = xk , X0 = xi )
=
P (X0 = xi )
k∈I
X
= P ( X2 = xj | X1 = xk , X0 = xi ) P ( X1 = xk | X0 = xi )
k∈I
X
= P ( X2 = xj | X1 = xk ) P ( X1 = xk | X0 = xi )
k∈I
(1) (1)
X
= pik pkj .
k∈I
et
(s+m) (s) (m) (n) (m)
X
pli = plk pki ≥ plj pji > 0,
k∈I
ce qui prouve que xi ↔ xl .
On peut donc regrouper les différents états dans les classes d’équivalence induite par cette relation
d’équivalence ; cela revient à considérer l’ensemble quotient E de E par la relation ↔. Cette
opération s’appelle classification des états de la chaı̂ne de Markov.
Définition 3.2.2. On dit que la chaı̂ne de Markov est irréductible si E est réduit à une seule
classe.
Il convient maintenant de rechercher les propriétés qui sont communes aux états d’une même classe.
avec la convention P GCD (∅) = 0. Si Ti = 1, on dit que xi est apériodique ; si Ti > 1 on dit que xi
est périodique de période Ti .
On a alors :
(k)
Par conséquent la relation Ti > 0 implique Tj > 0. Soit k tel que pjj > 0, alors, par le théorème
3.2.1,
(m+k+n)
X (n+k) (m) (n+k) (m) (m)
X (n) (k) (m) (n) (k)
pii = pil pli ≥ pij pji = pji pil plj ≥ pji pij pjj > 0
l∈I l∈I
Nous cherchons maintenant à caractériser les état récurrents. Pour cela, on considère la proba-
bilité de passer de l’état xi à l’état xj en exactement m transitions donnée par
m−1
!
(m)
\
fij =P {Xm = xj } ∩ {Xn =
6 xj } X0 = xi .
n=1
d’où la relation
! +∞ ! +∞
+∞
[ X n−1
\ X (n)
P {Xn = xi } X0 = xi = P {Xn = xi } ∩ {Xl =
6 xi } X0 = xi = fii
n=1 n=1 l=1 n=1
(n)
Cette caractéristaion n’est pas très utile car les fii sont difficiles, voire impossibles, à calculer
en pratique. On va donc rechercher une autre caractérisation. Pour s ∈ C tel que |s| < 1 posons :
+∞ +∞
(n) (n)
X X
Fi (s) = fii sn ; Gi (s) = pii sn ;
n=0 n=0
Tk−1
où Ak = {Xn = xi } ∩ {X0 = xi } ∩ {Xk = xi } ∩ l=1 {Xl 6= xi }. De plus,
k−1
! k−1
!
\ \
P (Ak ) = P Xn = xi | {X0 = xi } ∩ {Xk = xi } ∩ {Xl 6= xi } P {X0 = xi } ∩ {Xk = xi } ∩ {Xl 6= xi }
l=1 l=1
k−1
!
\
= P ( Xn = xi | Xk = xi ) P {Xk = xi } ∩ {Xl =
6 xi } X0 = xi P (X0 = xi )
l=1
(n−k) (k)
= pii fii P (X0 = xi ) ;
donc
n n
(n) 1 X X (n−k) (k)
pii = P (Ak ) = pii fii .
P (X0 = xi )
k=0 k=0
En conséquence,
+∞
(n)
X
Gi (s) Fi (s) = pii sn = (Gi (s) − 1) ,
n=1
(0)
le dernère égalité provenant de pii = 1 ; on en déduit la relation annoncée.
(k+n+l) (l) (k+n) (l) (k+n) (l) (n) (k) (l) (n) (k)
X X
pjj = pjt ptj ≥ pji pij = pji pit ptj ≥ pji pii pij > 0
t∈I t∈I
STATISTIQUE
33
Chapitre 4
Introduction à la Statistique
On essaie, par cette définition, de modéliser certaines situations liées à l’observation de phénomènes
aléatoires ; dans ce cas, (Ω, A) représente l’espace mesurable des valeurs possibles et l’ensemble des
lois des observations.
Exemple 4.1.1. Si on a une pièce dont la probabilité d’amener “pile” est p (inconnue), et si on
réalise l’expérience consistant à a effectuer n lancers indépendants de cette pièce dans le but de faire
une inférence sur p, on peut considérer la v.a. Xi égale à 1 si on a obtenu “pile” au i-ème lancer, et
à 0 si on a obtenu “face”. La loi de Xi est la loi B (p) égale à pδ1 +(1 − p) δ0 , et puisque ces v.a. sont
⊗n
indépendantes, le vecteur aléatoire X = (X1 , · · · , Xn ) est de loi (pδ1 + (1 − p) δ0 ) . Ce vecteur
n
aléatoire décrit l’expérience ; le modèle statistique o associé est (Ω, A, P), avec Ω = {0, 1} , A =
n
n
n ⊗
P ({0, 1} ) et P = (pδ1 + (1 − p) δ0 ) ; p ∈ [0, 1] .
Définition 4.1.2. Le modèle statistique (Ω, A, P) est dominé s’il existe une mesure µ sur (Ω, A),
σ-finie et telle que : ∀P ∈ P, P µ.
Exemple 4.1.2. Dans une usine qui fabrique des pièces en série, on suppose que le diamètre X de la
pièce produite suit une loi N (θ, 1). Si n pièces ont étré produites de façons indépendantes on obtient
le vecteur aléatoire X = (X1 , · · · , Xn ) contenant les diamètres des pièces produites ; le modèle sta-
⊗n
n o
n
tistique correspondant est alors (Ω, A, P), avec Ω = R , A = BRn et P = N (θ, 1) ; θ ∈ R+ .
Cest un modèle dominé car pour tout θ ∈ R+ , en prenant Pθ = N (θ, 1), on a Pθ λn où λn est
la mesure de Lebesgue sur Rn . La densité correspondante est donnée par :
n
!
n 1 1X 2
∀x = (x1 , · · · , xn ) ∈ R , f (x; θ) = √ n exp − (xi − θ) .
2π 2 i=1
Les deux exemples ci-dessus sont des exemples de modèles paramétriques définis ci-dessous :
35
36 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE
Définition 4.1.3. Le modèle statistique (Ω, A, P) est paramétrique si P peut s’écrire sous la
forme P = {Pθ ; θ ∈ Θ}, où Θ est un sous-ensemble d’un espace vectoriel de dimension finie. Dans
ce cas, θ est appellé paramètre du modèle.
En statistique, on est souvent amené a considérer des observations provenant d’un échantillonnage,
c’est à dire, des répétitions indépendantes d’un même expérience aléatoire. C’est le cas des exemples
ci-dessus. Dans ce cas, le modèle statistique considéré revêt une forme particulière donnée dans la
définition suivante :
Définition 4.1.4. On appelle modèle d’échantillonnage tout modèle statistique ayant la forme
n n
X n, T ⊗ , P ⊗ ; P ∈ Q .
Un tel modèle décrit, le plus souvent, la loi du vecteur aléatoire ayant comme composantes les v.a.
d’observations. Ces v.a. sont vus commes des “copies” indépendantes d’une même v.a.
Défintion 4.1.5. Soit X une v.a. ; on appelle échantillon i.i.d. de X toute suite X1 , · · · , Xn de
v.a. indépendantes et de même loi que X.
Le mot i.i.d. introduit dans la précédente définition est une abréviation de “indépendants et
identiquement distribués”. Lorsque X est une v.a. à valeurs dans (X, T ) et de loi appartenant à
n n
une famille de probabilités Q, le modèle d’échantillonnage X n , T ⊗ , P ⊗ ; P ∈ Q décrit la loi
du vecteur aléatoire (X1 , · · · , Xn ) où X1 , · · · , Xn est un échantillon i.i.d. de X. En statistique, on
se base souvent sur des fonctions d’un tel échantillon ; celles-ci sont définies par :
Définition 4.1.6. Soit (Ω, A, P) un modèle statistique ; on appelle statistique définie sur (Ω, A, P)
toute fonction mesurable S = ϕ (X) où X = (X1 , · · · , Xn ) est une échantillon i.i.d..
Exemple 4.1.2. Lorsque X1 , · · · , Xn est un échantillon i.i.d. d’une v.a. à valeur dans (Rp , BRp ),
on peut considérer la moyenne empirique
n
1X
Xn = Xi ;
n i=1
Proposition 4.2.1. Pour tout ω ∈ Ω, l’application A ∈ T 7→ Pn (ω, A) est une probabilité sur
(E, T ).
Preuve. Cette application est une mesure puisqu’elle est combinaison linéaire positive de mesures
de Dirac. On a ensuite
n
1X n
Pn (ω, E) = δX (ω) (E) = = 1.
n i=1 i n
On définit l’intégrale
R d’une fonction mesurable f : E → R par rapport à Pn comme la variable
aléatoire notée E f dPn définie par :
Z Z n Z n
1X 1X
f dPn (ω) = f (x) Pn (ω, dx) = f (x) δXi (ω) (x) = f (Xi (ω)) ;
E E n i=1 E n i=1
R 1
Pn
ainsi E
f dPn = n i=1 f (Xi ).
Remarque 4.2.1. Puisque les f (Xi ) sont des v.a. indépendantes et de même loi que f (X), si
cette
R dernière v.a. est P -intégrable,
R la loi forte des grands nombres garantit la convergence p.s. de
E
f dP n vers E (f (X)) = E
f (x) dµ (x).
Théorème 4.2.1 (Glivenko-Cantelli). Presque sûrement : limn→+∞ (supx∈R |Fn (x) − FX (x)|) =
0.
Preuve. Pour chaque x ∈ R et n ≥ 1, on pose
S
ce qui prouve que P m≥1 Ω 0 (m) = 0.
4.3 Exhaustivité
4.3.1 Cas général
Définition
n 4.3.1. SoitoX = (X1 , · · · , Xn ) un échantillon i.i.d. dont le modèle statistique est
n
X n , T n , Pθ⊗ ; θ ∈ Θ . Une statistique S est exhaustive pour θ si la loi de X conditionnelle à
S ne dépend pas de θ.
Pn
Exemple 4.3.1. On reprend l’exemple 4.1.1 et on veut montrer que S = i=1 Xi est exhaustive
n
pour p. Pour x = (x1 , · · · , xn ) ∈ {0, 1} et s ∈ {0, · · · , n}, on a
P (X1 = x1 , · · · , Xn = xn , S = s)
P ( X1 = x1 , · · · , Xn = xn | S = s) = ;
P (S = s)
Pn
puisque {X1 = P
x1 }∩· · ·∩{Xn = xn }∩{S = s} = ∅ si i=1 xi 6= s, et {X1 = x1 }∩· · ·∩{Xn = xn } ⊂
n
{S = s} = ∅ si i=1 xi = s, il vient :
P (X1 = x1 , · · · , Xn = xn ) P
P ( X1 = x1 , · · · , Xn = xn | S = s) = 1I{ n xi =s} (x1 , · · · , xn )
P (S = s) i=1
Qn
P (Xi = xi ) P
= i=1 n−s 1I{ n (x1 , · · · , xn )
s s i=1 xi =s}
Cn p (1 − p)
Qn 1−x
pxi (1 − p) i P
= i=1 n−s 1I{ n xi =s} (x1 , · · · , xn )
Cns ps (1 − p) i=1
n−s
ps (1 − p) P
= n−s 1I{ n (x1 , · · · , xn )
i=1 xi =s}
Cns ps (1 − p)
1
= s 1I{Pn xi =s} (x1 , · · · , xn ) ,
Cn i=1
Lorsque le modèle statistique considéré est un modèle dominé, on a un critère simple pour établir
l’exhaustivité des statistiques. Cela est donné dans le théorème suivant dont une démonstration
peut être trouvée dans le livre de Borovkov1
n n o
Théorème 4.3.1. (Théorème de Factorisation). Soient un modèle statistique X n , T n , Pθ⊗ ; θ ∈ Θ
dominé par µ, et S = ϕ (X) une statistique à valeurs dans (E, E). Alors, S est exhaustive pour
θ si, et seulement si, il existe deux applications mesurables h : X n → R+ et gθ : (E, E) → R+
telles que :
n
n dPθ⊗
∀x ∈ X , (x) = gθ (ϕ (x)) h (x) .
dµ
Exemple 4.3.2. Soit X = (X1 , · · · , Xn ) un échantillon i.i.d. d’une v.a. de loi Exp (θ), θ > 0. On
a
n
Y n
Y Pn
fX (x1 , · · · , xn ) = fXi (xi ) = θe−θxi 1IR+ (xi ) = θn e−θ i=1 xi 1IRn+ (x1 , · · · , xn ) ;
i=1 i=1
1 A. Borovkov, Statistique mathématique. Editions MIR, Moscou, 1984.
40 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE
Pn
donc S = i=1 Xi est une statistique exhaustive.
Définition 4.3.2. Une statistique est exhaustive minimale si elle est exhaustive et si pour tout
autre statistique exhaustive T il existe une application mesurable h telle que S = h (T ) .
La proposition suivante donne une condition nécessaire pour qu’une statistique soit exhaustive
minimale :
n n o
Proposition 4.3.1. Soit un modèle statistique X n , T n , Pθ⊗ ; θ ∈ Θ dominé par µ et fX (·, θ) =
n
dPθ⊗
dµ⊗n
. Soit S = ϕ (X) une statistique sur ce modèle. Si on a l’équivalence :
fX (x, θ)
ϕ (x) = ϕ (y) ⇔ θ 7→ est une fonction indépendante de θ,
fX (y, θ)
alors S est exhaustive minimale pour θ.
Preuve. Soient Y ∈ ϕ (X n ) et y ∈ Y; il existe un unique élément n
xy ∈ X tel que ϕ (xy ) = y.
n
Pour tout x ∈ X , considérons xϕ(x) , on a alors ϕ (x) = ϕ xϕ(x) ce qui, en vertu des hypothèses,
implique que le rapport
fX (x, θ)
h (x) =
fX xϕ(x) , θ
ne dépend pas de θ. Ainsi, fX (x, θ) = h (x) fX xϕ(x) , θ et le théorème de factorisation assure
que S = ϕ (X) est exhaustive. Montrons maintenant que cette statistique est exhaustive minimale.
0
Soit T = ψ (X) une autre statistique exhaustive ; par le théorème de factorisation, il existe gθ et
0
h tels que 0 0
∀x ∈ X n , ∀θ ∈ Θ, fX (x, θ) = gθ (ψ (x)) h (x) ;
alors, pour tout x ∈ X n et y ∈ X n tels que ψ (x) = ψ (y), il vient :
0 0 0
fX (x, θ) g (ψ (x)) h (x) h (x)
= θ0 0 = 0 .
fX (y, θ) gθ (ψ (y)) h (y) h (y)
Puisque ce rapport ne dépend pas de θ, on en déduit que ϕ (x) = ϕ (y). Ainsi, ϕ peut s’écrire sous
la forme ϕ = t ◦ ψ et T est exhaustive minimale.
Défintion 4.3.4. On appelle modèle exponentiel, un modèle statistique (Ω, A, P) où P est une
famille exponentielle.
Exemple 4.3.4.
1) Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi exponentielle Exp (θ), θ > 0. On a
n
Y Pn
fX (x1 , · · · , xn ) = θe−λxi 1IR+ (xi ) = θn e−θ i=1 xi
1IRn+ (x1 , · · · , xn ) ;
i=1
il s’agit donc d’une famille exponentielle avec r = 1, C (θ) = θn , h (x) =1IRn+ (x1 , · · · , xn ), Q1 (θ) =
Pn
−θ et T1 (x) = i=1 xi .
2) Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi exponentielle N (θ1 , θ2 ) où θ = (θ1 , θ2 ) ∈
R × R∗+ . On a
n n
!
nθ12
1 θ1 X 1 X 2
fX (x1 , · · · , xn ) = √ n n exp − exp xi − x
2π θ 2 2θ2 θ2 i=1 2θ2 i=1 i
2
√ −n − n2
nθ 2
il s’agit donc d’une famille exponentielle avec r = 2, C (θ) = 2π θ2 exp − 2θ21 , h (x) = 1,
Pn Pn
Q1 (θ) = θθ21 , Q2 (θ) = − 2θ12 , T1 (x) = i=1 xi et T2 (x) = i=1 x2i .
La proposition suivante précise la statistique exhaustive minimale pour les modèles exponentiels.
Pn Pn
où ϕ (x) = ( i=1 T1 (xi ) , · · · , i=1 Tr (xi )). D’autre part pour un autre vecteur y = (y1 , · · · , yn ) ∈
n
(Rr ) , on a :
n
fX (x; θ) Y h (xi )
= exp {hQ (θ) , ϕ (x) − ϕ (y)i} ;
fX (y; θ) i=1 h (yi )
fX (x;θ)
la fonction θ 7→ fX (y;θ) ne dépend pas de θ si, et seulement si
est constante. Soit alors q0 , q1 , · · · , qr dans Q (Θ) tels que q1 − q0 ,· · · ,qr − q0 soit linéairement
indépendants ; puisque
exp {hQ (θ) , ϕ (x) − ϕ (y)i} = exp {hq0 , ϕ (x) − ϕ (y)i} exp {hQ (θ) − q0 , ϕ (x) − ϕ (y)i}
Remarque 4.3.1. L’hypothèse de l’énoncé est en particulier vérifiée si l’intérieur de Q (Θ) est non
vide.
Estimation ponctuelle
Très souvent, on dispose d’un échantillon d’une v.a. dont la loi dépend d’un paramètre inconnu ;
cela est modélisé à travers la notion de modèle statistique paramétrique introduit dans le chapitre
précédent. Il est important de pouvoir déterminer un ”valeur approchée” du paramètre inconnu
ou d’une fonction de ce paramètre, en se basant sur l’échantillon. C’est cette démarche, appelée
estimation, que nous abordons dans ce chapitre.
Défintion 5.1.1. On appelle estimateur de g (θ) toute statistique T = ϕ (X) à valeurs dans D.
On appelle estimation de g (θ) la valeur de T en une observation x = (x1 , · · · , xn ) ∈ X n , c’est à
dire ϕ (x).
Définition 5.1.2. On appelle biais de l’estimateur T de g (θ) la quantité B (T, g (θ)) = E (T )−g (θ).
On dit que T est un estimateur sans biais de g (θ) si B (T, θ) = 0, c’est à dire si E (T ) = g (θ).
Exemple 5.1.1.
1) Estimation de la probabilité d’amener “pile” d’une pièce. On reprend ici l’exemple 4.1.1 et on
cherche Pà estimer p ; considérons la proportion de “pile” obtenue sur les n lancers, c’est à dire
n
Tn = n1 i=1 Xi où les Xi sont les variables aléatoires i.i.d. de loi B (p) introduits dans l’exemple
4.1.1. Puisque Tn ∈ [0, 1], il s’agit d’un estimateur de p. De plus,
n
1X np
E (Tn ) = E (Xi ) = = p;
n i=1 n
donc c’est un estimateur sans biais de p.
2) Estimation sans biais de la moyenne. La moyenne empirique est un estimateur sans biais de la
moyenne (espérance mathématique). En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m inconnue ; on a
n
1X nm
E Xn = E (Xi ) = = m;
n i=1 n
43
44 CHAPITRE 5. ESTIMATION PONCTUELLE
Même si la propriété d’être sans biais est relativement simple, il n’existe pas toujours d’estimateur
sans biais, comme le montre l’exemple suivant :
Exemple 5.1.2. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi binômiale B (m, p) et
θ = p1 ; supposons qu’il existe un estimateur sans biais T de θ, on a alors
Il peut arriver que les critères précédents ne soient pas vérifiés pour une taille donnée de l’échantillon ;
dans ce cas, on peut se contenter des critères asymptotiques définis ci-dessous.
Définition 5.1.3. L’estimateur Tn de g (θ) est asymptotiquement sans biais si limn→+∞ B (Tn , θ) =
0, c’est à dire si limn→+∞ E (Tn ) = g (θ).
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 45
On s’appuie souvent sur des théorèmes limites de la théorie des probabilités, telles que la loi des
grands nombre, pour établir la convergence des estimateurs.
Exemple 5.1.5.
1) Estimation de la probabilité d’amener “pile” d’une pièce. On reprend ici l’exemple 4.1.1 ; on
a vu dans
Pnl’exemple 5.1.1 que la proportion de “pile” obtenue sur les n lancers, donnée par
Tn = n1 i=1 Xi , est un estimateur sans biais de p. Puisque chaque Xi admet p pour espérance
mathématique, la loi des grands nombres implique que Tn converge p.s. vers p lorsque n → +∞.
L’estimateur Tn est donc un estimateur fortement convergent de p.
2) Estimation fortement convergente de la moyenne. La moyenne empirique est un estimateur
fortement convergent de la moyenne. En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m inconnue ; la loi forte des grands nombres assure la convergence p.s. de X n vers m
lorsque n → +∞.
3) Estimation fortement convergente de la variance. La variance empirique est un estimateur for-
tement convergent de la variance. En effet, soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de
moyenne m et de variance σ 2 . On a :
n
1X 2 2
Sn2 = X − X n;
n i=1 i
2
on a déja vu que X n → m p.s. (n → +∞) ; donc X n → m2 p.s.P(n → +∞). D’autre part, une
n
nouvelle application de la loi forte des grands nombres donne n1 i=1 Xi2 → E X12 = σ 2 + m2
p.s. (n → +∞). En conséquence, il vient : Sn2 → σ 2 p.s. (n → +∞), ce qui montre bien le résultat
annoncé. Remarquons que la variance empirique
corrigée est également un estimateur convergent de
n 2
la variance. En effet, puisque limn→+∞ n−1 = 1, il vient également : S∗,n → σ 2 p.s. (n → +∞).
Le théorème suivant fournit une condition suffisante pour qu’un estimateur soit faiblement convergent.
Remarque 5.2.1.
1) Dans le cas où p = 1, on a la relation suivante entre le risque, la variance et le biais :
en effet :
2 2
R (T, g (θ))) = E (T − g (θ)) = E (T − E (T ) + E (T ) − g (θ))
2 2
= E (T − E (T )) + 2 (T − E (T )) (E (T ) − g (θ)) + (E (T ) − g (θ))
2 2
= E (T − E (T )) + (E (T ) − g (θ))
= V ar (T ) + B 2 (T, g (θ)) .
En particulier, T est un estimateur sans biais de g (θ) si, et seulement si, on a : R (T, g (θ)) =
V ar (T ).
2) Pour p > 1, cette relation se généralise de la façon suivante :
2
R (T, g (θ)) = tr (Cov (T )) + kE (T ) − g (θ)k ,
t
=E (T − E (T ) + E (T ) − g (θ)) (T − E (T ) + E (T ) − g (θ))
t
(T − E (T )) (T − E (T )) + t (E (T ) − g (θ)) (E (T ) − g (θ))
=E
2
tr t (T − E (T )) (T − E (T )) + kE (T ) − g (θ)k
=E
2
tr (T − E (T )) t (T − E (T )) + kE (T ) − g (θ)k
=E
2
E (T − E (T )) t (T − E (T )) + kE (T ) − g (θ)k
= tr
2
= tr (Cov (T )) + kE (T ) − g (θ)k .
Ainsi, T est un estimateur sans biais de g (θ) si, et seulement si, on a : R (T, g (θ)) = tr(Cov (T )).
Exemple 5.2.1. Risque de la moyenne empirique. Puisque X n est un estimateur sans biais de
la moyenne m, il vient :
n
1 X σ2
R X n , m = V ar X n = 2 V ar (Xi ) = .
n i=1 n
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 47
Définition 5.2.2. Soient T1 et T2 deux estimateurs de g (θ). On dit que T1 est préférable à T2 si
R (T1 , g (θ)) ≤ R (T2 , g (θ)).
Lorsque ces estimateurs sont sans biais et à valeurs réelles, cela revient à comparer leurs variances
(cf. remarque 5.2.1). Nous allons maintenant nous restreindre aux estimateurs sans biais à valeurs
réelles (on suppose alors que p = 1). Le théorème suivant montre comment, partant d’un tel
estimateur, on peut obtenir un autre estimateur qui lui soit préférable.
Théorème 5.2.1. (Rao-Blackwell). Soit T un estimateur sans biais de g (θ) et U une statistique
exhaustive pour θ. Alors, posant S = E ( T | U ), on a :
(i) S est une statistique ;
(ii) S est un estimateur sans biais de g (θ) ;
(iii) S est préférable à T .
Preuve.
(i). On a U = ϕ (X) , ϕ mesurable, puisque c’est une statistique ; donc S = E ( T | U ) = E ( φ (X)| U ) =
ψ (U ) ; où ψ est mesurable et ne dépend pas de θ car la loi de X conditionnelle à U ne dépend pas
de θ puisque U est exhaustive. Comme S = (ψ ◦ ϕ) (X), il vient que S est une statistique.
(ii). E (S) = E (E ( T | U )) = E (T ) = g (θ).
(iii). h i
2 2
V ar (T ) = E (T − g (θ)) = E E (T − g (θ)) U ;
or, d’après l’inégalité de Jensen conditionnelle, on a p.s.
2 2 2 2 2
E (T − g (θ)) U ≥ (E ( T − g (θ)| U )) = (E ( T | U ) − g (θ)) = (S − g (θ)) = (S − E (S)) ;
2
donc V ar (T ) ≥ E (S − E (S)) = V ar (S).
Exemple 5.2.2. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi uniforme sur [0, θ], θ > 0 ;
la statistique T = 2X n est un estimateur sans biais de θ. En effet E (T ) = 2E X n = 2 θ2 = θ. Afin
d’améliorer cet estimateur, on va déterminer une statistique exhaustive pour θ. On a :
n n n
Y Y 1 1 Y 1
fX (x) = fXi (xi ) = 1I[0,θ] (xi ) = n 1I[0,θ] (xi ) = n 1I[0,θ] max (xi ) ;
i=1 i=1
θ θ i=1 θ 1≤i≤n
donc U = max1≤i≤n (Xi ) est une statistique exhaustive pour θ. Nous allons, à présent, améliorer
l’estimateur T par utilisation du Théorème de Rao-Blackwell. On a
n
2X
S = E (T| U) = E ( Xi | U )
n i=1
Pour déterminer S de façon explicite, il nous faut obtenir la loi de Xi conditionnelle à U ; pour
cela, nous allons déterminer de la densité de U , puis celle du couple (Xi , U ). Soit FU la f.d.r de
U ; si t < 0, on a FU (t) = 0, et si t > θ, FU (t) = 1. Notant Φ la f.d.r de la loi uniforme sur [0, θ],
définie par
t
Φ (t) = 1I[0,θ] (t) + 1I]θ,+∞[ (t) ,
θ
48 CHAPITRE 5. ESTIMATION PONCTUELLE
on a pour t ∈ [0, θ] :
n
! n
\ Y n tn
FU (t) = P (U ≤ t) = P {Xi ≤ t} = P ({Xi ≤ t}) = Φ (t) = ;
i=1 i=1
θn
sn−1
n−1 t∧s
= Φ (t ∧ s) Φ (t) = 1I[0,θ] (s) + 1I]θ,+∞[ (s) ;
θ θn−1
en dérivant deux fois cette densité, on obtient pour densité de (Xi , U ), la fonction
∂ 2 Fi,U n − 1 n−2
fi,U (t, s) = (t, s) = s 1I[0,θ] (t) 1I[0,θ] (s) 1I∆ (t, s)
∂t∂s θn
où ∆ = (t, s) ∈ R2 / t ≤ s . On en déduit la densité de la loi de Xi conditionnelle à U = s,
s ∈ [0, θ], donnée par :
fi,U (t, s) n−1
f Xi |U =s (t) = = 1I[0,θ] (t) 1I∆ (t, s) ;
fU (s) n
d’où :
+∞ s
n−1 n−1 2
Z Z
E ( Xi | U = s) = t f Xi |U =s (t) dt = t dt = s .
−∞ n 0 2n
Ceci permet d’écrire
n−1 2
E ( Xi | U ) = U
2n
et, finalement :
n 2
2X n−1 2 n−1
S= E ( Xi | U ) = U = max (Xi ) .
n i=1 n n 1≤i≤n
Définition 5.2.3. On dit qu’un estimateur S de g (θ) est de variance uniformément minimum
parmi les estimateurs sans biais (VUMSB) s’il est sans biais et si, pour tout autre estimateur sans
biais T de g (θ), on a V ar (S) ≤ V ar (T ).
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 49
Il s’agit donc d’un estimateur sans biais qui admet le risque minimal parmi tous les estimateurs
sans biais. La proposition suivante donne une caractérisation de tels estimateurs :
donc
V ar (S) ≤ V ar (Sλ ) = V ar (S) + λ2 V ar (δ) + 2λcov (δ, S) .
Ainsi
∀λ ∈ R, λ2 V ar (δ) + 2λcov (δ, S) ≥ 0,
ceci n’est possible que si cov (δ, S) = 0.
(ii)⇒(i). Si pour toute statistique δ centrée et non presque sûrement nulle, on a cov (δ, S) = 0.
Soit T un estimateur sans biais de g (θ), on a
V ar (T ) = V ar (T − S) + V ar (S) + 2cov (T − S, S) .
Comme
E (T − S) = E (T ) − E (S) = g (θ) − g (θ) = 0,
il vient que cov (T − S, S) = 0 et, par conséquent,
V ar (T ) = V ar (T − S) + V ar (S) ≥ V ar (S) ,
Lorsqu’un tel estimateur existe, il est nécessairement unique, comme cela est montré dans la pro-
position suivante.
Proposition 5.2.1. S’il existe un estimateur de VUMSB de g (θ), il est unique à l’égalité p.s. près.
Preuve. Soient S et T deux estimateurs de VUMSB de g (θ) ; alors V ar (S) ≤ V ar (T ) et V ar (T ) ≤
V ar (S), donc V ar (S) = V ar (T ). Or
V ar (T ) = V ar (T − S) + V ar (S) + 2cov (T − S, S) ,
On peut dès lors se poser la question suivante : comment déterminer un estimateur optimal ?
Le théorème de Rao-Blackwell permet d’améliorer un estimateur sans biais mais ne garantit pas
l’optimalité de l’estimateur qui en résulte. Nous donnons ci-dessous un résultat qui améliore ce
théorème en établissant les conditions pour obtenir un estimateur optimal. Pour cela, nous allons
d’abord définir la notion de statistique complète.
50 CHAPITRE 5. ESTIMATION PONCTUELLE
Défintion 5.2.4. Une statistique S est dite complète si, notant PθS la loi de S, on a l’implication :
Z
∀θ ∈ Θ, f (x) dPθS (x) = 0 ⇒ f = 0 PθS − p.s.
Il n’est pas toujours facile de montrer qu’une statistique est complète. Une méthode classique
consiste à utiliser un résultat de la théorie de l’intégration qui dit, si f est une application mesurable
de R vers R d’intégrale (par rapport à la mesure de Lebesgue) nulle sur tout intervalle [a, b], alors
f = 0 presque partout.
Exemple 5.2.3. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de densité fθ (x) = ex−θ 1I]−∞,θ[ (x),
θ ∈ R. On va montrer que la statistique extrême X(n) = max1≤i≤n (Xi ) est complète. Il est facile
d’établir que cette statistique admet pour densité la fonction fS (x) = nen(x−θ) 1I]−∞,θ[ (x). Soit
une fonction g telle que
Z Z θ
∀θ ∈ R, g (x) dPθS (x) = g (x) nen(x−θ) dx = 0;
−∞
Nous pouvons maintenant énoncer le théorème suivant qui donne des conditions pour obtenir un
estimateur optimal.
0
où g = ψ − ψ . Comme U est complète, l’égalité précédente implique que h = 0 PθU -p.s., c’est à
0
dire h (U ) = 0 p.s.. Donc S = S p.s., et il vient :
0 0
V ar (S) = V ar S ≤ V ar T ,
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 51
Exemple 5.2.3. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi uniforme sur [0, θ], θ > 0 ;
on a vu dans l’exemple 5.2.2 que la statistique T = 2X n est un estimateur sans biais de θ, et que
U = max1≤i≤n (Xi ) est une statistique exhaustive pour θ. Cela avait permis d’améliorer T par
2
n−1
S = E (T| U) = max (Xi ) .
n 1≤i≤n
c’est à dire que f est nulle sur ]0, +∞[. Donc {f 6= 0} ⊂ ]−∞, 0] et
Z 0
ntn−1
PθU ({g 6= 0}) ≤ PθU (]−∞, 0]) = 1I[0,θ] (t) dt = 0,
−∞ θn
ce qui montre que f = 0 PθU -p.s. ; Donc, U est une statistique complète et S est un estimateur
optimal de θ.
∂
la variable aléatoire S = ∂θ ln (f (X, θ)) est appellée score.
Exemple 5.2.4. Soit X1 , · · · , Xn un échantillon i.i.d. d’une v.a. de loi normale N m, σ02 avec m
inconnu et σ0 connu. On a
n n
!
Y 1 1 2 1 1 X 2
f (x; m) = √ exp − 2 (xi − m) = √ n exp − 2 (xi − m) ;
i=1
2πσ0 2σ0 2π σ0n 2σ0 i=1
et
n
∂ 1 X
ln (f (x, m)) = 2 (xi − m) ;
∂m σ0 i=1
d’où
n
1 X n
S= 2 (Xi − m) = 2 X n − m
σ0 i=1 σ0
et
n2 2
I (m) = E S 2 = 4 E X n + m2 − 2mX n
σ0
2
n 1 2 2
n−1 2 2
= 4 m + σ0 + m −m
σ0 n n
n
= 2.
σ0
Ces hypothèses sont connues sous le nom d’hypothèses de Cramer-Rao, et permettent d’obtenir le
résultat suivant :
Alors :
5.2. EVALUATION ET COMPARAISON DES ESTIMATEURS 53
(ii). Posant
∂f
∂θ (x, θ) ∂ ln f
S (x, θ) = = (x, θ) ,
f (x, θ) ∂θ
on a S = S (X, θ) et
Z Z
0 ∂f
g (θ) = ϕ (x) (x, θ) dλn (x) = ϕ (x) S (x, θ) f (x, θ) dλn (x) = E (ϕ (X) S (X, θ)) = E (T S) .
Rn ∂θ Rn
Ce théorème montre que sous certaines conditions, le risque quadratique d’un estimateur sans biais
ne peut pas être inférieur à une certaine borne rappelée ci-dessous.
0
2
g (θ)
Définition 5.2.6. On appelle borne de Fréchet la quantité BF = I(θ) .
Ainsi, lorsque les hypothèses de Cramer-Rao sont vérifiées, un estimateur sans biais satisfaisant à
l’hypothèse du théorème précédent est de VUMSB parmi tous les estimateurs satisfaisant à cette
hypothèse. Cela permet de donner la définition suivante.
Définition 5.2.7. Un estimateur sans biais T de g (θ) est dit efficace si V ar (T ) = BF . Il est dit
asymptotiquement efficace si limn→+∞ V ar (T ) = BF .
Dans la plus grande généralité, il n’y a aucune garantie d’existence ou d’unicité d’un estimateur
du maximum de vraissemblance. Cependant, lorsque la vraissemblance est dérivable (par rapport
à θ), cet estimateur peut être obtenu en annulant la dérivée du logarithme de la vraissemblance,
c’est-à-dire en résolvant l’équation :
∂ ln (L (x1 , · · · , xn ; θ))
=0
∂θ
lorsque θ est un paramètre unidimensionnel. Si θ = (θ1 , · · · , θp ), on résoud le système d’équations
∂ ln (L (x1 , · · · , xn ; θ))
= 0 (i = 1, · · · , p).
∂θi
Exemple 5.3.1. Estimation d’une loi de p, dans le modèle de Bernoulli, par maximum de vrais-
semblance. La vraissemblance est
n
Y Pn Pn
1−xi n− xi
L (x1 , · · · , xn ; p) = pxi (1 − p) =p i=1 xi
(1 − p) i=1
;
i=1
5.3. MÉTHODES D’ESTIMATION 55
d’où : ! !
n
X n
X
ln (L (x1 , · · · , xn ; p)) = xi ln (p) + n− xi ln (1 − p)
i=1 i=1
et Pn Pn
∂ ln (L (x1 , · · · , xn ; p)) i=1 xi n − i=1 xi
= − ;
∂p p 1−p
la quantité annulant l’expression précédente est alors
n
1X
pb = x = xi ;
n i=1
1
Pn
l’EMV de p est donc pb = X n = n i=1 Xi .
Exemple 5.3.2. Estimation de la moyenne et de la variance d’une loi N m, σ 2 par maximum
de vraissemblance. Soit X1 , · · · , Xn un échantillon i.i.d. de la loi N m, σ 2 . On a :
n
!
2
Y 1 (xi − m)
L (x1 , · · · , xn ; m, σ) = √ exp −
i=1
2πσ 2σ 2
n
!
1 1 X 2
= √ n exp − 2 (xi − m) ;
2π σ n 2σ i=1
donc :
√ n
1 X 2
ln (L (x1 , · · · , xn ; m, σ)) = −n ln 2π − n ln (σ) − 2 (xi − m)
2σ i=1
et
n
∂ ln (L (x1 , · · · , xn ; m, σ)) 1 X n
= 2 (xi − m) = 2 (x − m) ,
∂m σ i=1 σ
n
∂ ln (L (x1 , · · · , xn ; m, σ)) n 1 X 2
=− + 3 (xi − m) .
∂σ σ σ i=1
On en déduit :
∂ ln(L(x1 ,··· ,xn ;m,σ)) n
∂m =0 σ2 (x − m) = 0
⇐⇒ Pn 2
∂ ln(L(x1 ,··· ,xn ;m,σ))
− nσ + 1
i=1 (xi − m) = 0
∂σ =0 σ3
m=x m=x
⇐⇒ Pn ⇐⇒
2 Pn 2
−n + σ12 i=1 (xi − m) = 0 1
2
σ = (xi − m)
n i=1
m=x
⇐⇒ Pn .
2
σ = n1 i=1 (xi − x) = s2x
2
L’estimateur du maximum de vraissemblance de m, σ 2 est donc X n , s2 .
56 CHAPITRE 5. ESTIMATION PONCTUELLE
Définition 5.3.3. On appelle estimateur par la méthode des moments (EMM) du paramètre θ,
la solution θb du système :
(n)
m1 (θ) = m1
.. .
.
m (θ) = m(n)
p p
Exemple 5.3.3. Estimation des paramètres de la loi Gamma. Soit X1 , · · · , Xn un échantillon i.i.d.
de la loi γ (q, θ) (avec q > 0, θ > 0) de densité
θs −θx s−1
f (x) = e x 1IR+ (x)
Γ (s)
où Z +∞
Γ (q) = e−x xq−1 dx.
0
Il est aisé de vérifier que
q q (1 + q)
m1 (θ) = et m2 (θ) = .
θ θ2
Pour déterminer l’EMM, on pose donc
(n) q (n) q (1 + q)
m1 = Xn = et m2 = ,
θ θ2
et on obtient
2
Xn Xn
θb = 2 et qb = .
s s2
Chapitre 6
6.1 Généralités
n
n n o
Définition 6.1.1. Soient X n , T ⊗ , Pθ⊗ ; θ ∈ Θ un modèle statistique d’échantillonnage et g
une fonction définie sur Θ. On appelle région de confiance de g (θ) toute famille C = (C (x))x∈X n
de parties de g (Θ) telle que, pour tout θ ∈ Θ, l’ensemble
soit mesurable.
Il s’agit donc d’une famille de parties de g (Θ) dépendant des observations et pour laquelle on peut
calculer la probabilité qu’elle contienne le paramètre à estimer. Lorsque X = (X1 , · · · , Xn ) est un
échantillon iid du modèle précédent, on peut définir :
57
58 CHAPITRE 6. ESTIMATION PAR RÉGION DE CONFIANCE
h i
σ0 σ0
C (x) = xn − √ q α , xn +
n 1− 2
√ q α
n 1− 2
est un intervalle de confiance de niveau exactement égal à
1 − α de m. En effet,
√
X n − m
P (C (X) 3 m) = P n
≤ q1− α2 ;
σ0
√ X n −m
puisque n σ0 suit la loi N (0, 1), on a donc :
Z q1− α
2 1 t2
α
√ e− 2 dt = 2Φ q1− α2 − 1 = 2 1 −
P (C (X) 3 m) = − 1 = 1 − α.
−q1− α 2π 2
2
√
Exemple 6.2.2. On reprend l’exemple précédent. La fonction ψ (x, m) = n xnσ−m 0
est pivotale ;
en effet, la fonction x 7→ ψ (x, m) est mesurable et ψ (X, m) est de loi N (0, 1).
La proposition suivante indique une méthode de construction d’une région de confiance s’appuyant
sur les fonctions pivotales.
Proposition 6.2.1. Dans le cadre de la définition 6.2.1, soient ψ une fonction pivotale, Q la loi
de ψ (X, g (θ)) et α ∈ [0, 1]. Si B est un élément de Y tel que Q (B) ≥ 1 − α, alors la région de
confiance C définie par
ce qui prouve que la famille C définie ci-dessus est bien une région de confiance. De plus,
Remarque 6.2.1. Si B est tel que Q (B) = 1 − α, on obtient une région de confiance de niveau
1 − α par le même procécé.
Exemple 6.2.3. On reprend l’exemple 6.2.1. On a vu dans l’exemple 6.2.2 que ψ (x, m) =
√ xn −m
n σ0 est pivotale ; la loi Q est la loi normale N (0, 1). Soit Iα = −q1− α2 , q1− α2 ; on a
Q −q1− α2 , q1− α2 = 2Φ q1− α2 − 1 = 1 − α,
√
xn − m
C (x) = {m ∈ R; ψ (x, m) ∈ Iα } = m ∈ R; n ∈ Iα
σ0
σ0 σ0
= m ∈ R; xn − √ q1− α2 ≤ m ≤ xn + √ q1− α2
n n
σ0 σ0
= xn − √ q1− α2 , xn + √ q1− α2 ,
n n
Lorsque l’on a une suite asymptotiquement pivotale, une région de confiance peut être déterminée
en utilisant la méthode définie dans la proposition 6.2.1, mais en remplaçant Q par la loi asymp-
totique. On obtient de la sorte une région de confiance de niveau asymptotique minimal de 1 − α.
Exemple 6.2.4.
√
Soit X1 , · · · , Xn un échantillon i.i.d de la loi B (p). La suite de fonctions fonction
ψn (x, p) = √n(xn −p) est asymptotiquement pivotale ; en effet, x 7→ ψn (x, m) est mesurable et,
p(1−p)
√
n(X n −p)
d’après le théorème de limite centrale, ψn (X, p) = √ converge en loi vers la loi µ = N (0, 1)
p(1−p)
lorsque n → +∞. On peut donc déterminer un intervalle de confiance pour p sur la base de cette
60 CHAPITRE 6. ESTIMATION PAR RÉGION DE CONFIANCE
loi, en appliquant la proposition 6.2.1. Soit Iα = −q1− α2 , q1− α2 ; on a
( √ )
n (xn − p)
C (x) = {p ∈ ]0, 1[ ; ψn (x, p) ∈ Iα } = p ∈ ]0, 1[ ; p ∈ Iα
p (1 − p)
n o
2 2
= p ∈ ]0, 1[ ; n (xn − p) ≤ p (1 − p) q1− α
2
2 2
( ! ! )
q1− α 2
q1− α
2
= p ∈ ]0, 1[ ; 1 + 2
p − 2xn + 2
p + xn ≤ 0 ,
n n
Tests d’hypothèses
Dans ce chapitre, on se pose le problème du choix entre deux hypothèses. Plus précisement, soient
deux hypothèses contradictoires H0 et H1 pouvant porter sur un paramètre de la loi correspondant
à un modèle statistique donné, comment décider, sur la base de l’observation d’un échantillon i.i.d.,
si H0 est vraie ou si H1 est vraie ? Le problème ainsi formulé ouvre la porte à une vaste classe de
méthodes statistiques pouvant permettre d’obtenir une réponse à des questions qui se posent en
pratique.
Exemple 7.1.1. Reprenant l’exemple 5.1.1, on peut rechercher une réponse à la question : “la
pièce est-elle équilibrée”, sur la base de l’échantillon correspondant au modèle de Bernoulli obtenu
en lançant cette pièce n fois. Cela revient à considérer un problème de test de l’hypothse nulle
H0 : p = 1/2 contre l’hypothèse alternative H1 : p 6= 1/2.
Une procédure permettant de prendre une telle décision, appellée test, peut être définit comme
suit :
Définition 7.1.1. On appelle On appelle test toute fonction mesurable φ : X n → {0, 1}.
L’ensemble W = φ−1 ({1}) est appellé région critique du test φ ; L’ensemble A = φ−1 ({0}) =
X n \W est appellé région d’acceptation du test φ.
Cette définition illustre le fait qu’un test n’est autre qu’une application de l’ensemble des échantillons
vers {0, 1}, qui à un échantillon donné associe 0 si celui-ci conduit à l’acceptation de l’hypothèse
H0 et 1 s’il conduit à accepter H1 . Finalement, on a φ =1IW , ce qui montre qu’un test est
entièrement déterminé par la donnée de la région critique ; déterminer un test revient
donc à préciser la région critique.
61
62 CHAPITRE 7. TESTS D’HYPOTHÈSES
Remarque 7.1.1. La région critique n’est autre que l’ensemble des échantillons qui conduisent au
rejet de l’hypothèse H0 . Un test φ induit une partition de X n en W et A c’est à dire : A ∩ W = ∅
et X n = A ∪ W . Cette partition existe mais est inconnue, on cherche donc à en définir une
approximation sur la base de l’observation d’un échantillon.
Remarquons qu’en réalité l’une des deux hypothèses est vraie, mais on ne sait pas à priori laquelle.
L’application d’un test sur un échantillon conduit donc naturellement à deux situations possibles :
soit on commet une erreur, soit on prend une bonne décision. Ce dernier cas survient lorsque l’on
décide que H0 est vraie et qu’en réalité cette hypothèse est vraie, ou lorsque l’on décide que H1 est
vraie et qu’en réalité H1 est vraie. Une erreur de première espèce est commise lorsque l’on décide
de refuser H0 alors qu’en réalité H0 est vraie. On commet une erreur de deuxième espèce lorsque
l’on décide d’accepter H0 alors qu’en réalité H1 est vraie. On peut mesurer les possibilités de ces
erreurs au moyen des probabilités, comme suit :
Définition 7.1.2. On appelle risque de première espèce du test φ la probabilité de refuser à tort
l’hypothèse H0 :
α (φ) = PH0 (φ (X) = 1) = PH0 (X ∈ W ) .
On appelle risque de deuxième espèce du test φ la probabilité d’accepter à tort l’hypothèse H0 :
Bien entendu, on va rechercher un test qui conduit la minimisation des risques introduits ci-
dessus, cela conduit à :
0 0
Définition 7.1.3. Soient deux tests φ et φ , de régions critiques respectives W et W ; on dit que
0
φ est préférable à φ si : α (φ) ≤ α (φ) et β (φ) ≤ β (φ).
Malheureusement, il n’y a aucune raison pour le test qui réalise le plus petit risque de première
espèce soit également celui qui minimise le risque de deuxième espèce. Il sera donc, dans la plupart
des cas, impossible de trouver le test minimisant à la fois α (φ) et β (φ). Afin de sortir de cette
impossibilité, Neyman et Pearson proposent, en 1933, de traiter les deux risques de façon non
symétrique et de limiter l’ensemble des tests posssibles à la classe des fonctions φ ayant un risque
de première espèce au plus égal à un seuil α0 fixé au préalable. Soit C (α0 ) cette classe :
On recherche alors un test optimal pour le risque de deuxième espèce dans cette classe, c’est à dire
un test φ0 ∈ C (α0 ) tel que
p (φ0 ) = max (p (φ)) .
φ∈C(α0 )
Dans le cas d’un modèle paramétrique, la loi des v.a. de l’échantillon i.i.d. X = (X1 , · · · , Xn )
dépend d’un paramètre θ ∈ Θ et les hypothèses portent sur ce paramètre ; c’est le cas dans l’exemple
7.1.1. On a alors H0 : θ ∈ Θ0 et H1 : θ ∈n Θ1 , où Θ0 et Θ1 constituent n
une partition de Θ.
Les risques sont alors définis par αθ (φ) = Pθ⊗ (W ) (θ ∈ Θ0 ) et βθ (φ) = Pθ⊗ (A) (θ ∈ Θ1 ), tandis
que la puissance est pθ (φ) = 1 − βθ (φ). Dans ce cas, on peut définir :
7.2. MÉTHODES DE CONSTRUCTION DES TESTS 63
Défintion 7.1.4. On appelle niveau du test la borne supérieure de son risque de première espèce :
α = sup αθ (φ) .
θ∈Θ0
Définition 7.1.5. Un test φ∗ est dit uniformément le plus puissant (UPP) de niveau α, si son
niveau est égal à α et si : ∀φ, ∀θ ∈ Θ1 , pθ (φ∗ ) ≥ pθ (φ).
Test de la moyenne
Soit X1 , · · · , Xn un échantillon i.i.d. d’une loi de moyenne m inconnue. Soit m0 un réel donné,
on s’intéresse au test de l’hypothèse nulle H0 : m = m0 contre une hypothèse alternative pouvant
revêtir diverses formes selon les cas.
i) Test bilatéral H1 : m 6= m0
αm (φ) = PH0 (X ∈ W ) = α
2
N m, σn donc, sous H0 on a X n N m0 , n1 et :
Or X n
√ √
√
n X n − m0 > n t = α ⇔ Φ n α
PH0 (X ∈ W ) = α ⇔ PH0 t =1− ,
σ σ σ 2
W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > t} ,
et √ √
√
X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n > t =α⇔Φ t = 1 − α.
σ σ σ
Donc √
n
t = q1−α = Φ−1 (1 − α)
σ
et
σ
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > √ q1−α .
n
iii) Test unitéral H1 : m < m0
W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < t} ,
et √ √
√
X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n < t =α⇔Φ t = α.
σ σ σ
Donc √
n
t = qα = Φ−1 (α)
σ
et
n σ
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 < √ qα .
n
Cas de variance σ 2 inconnue
7.2. MÉTHODES DE CONSTRUCTION DES TESTS 65
b) Cas général
On ne peut plus appliquer tout ce qui précède car on n’a plus la loi de X n . Cependant, on peut
appliquer le théorème de limite centrale pour obtenir une approximation de la loi de cette v.a. par
la loi normale. On obtient alors un test de niveau asymptotique égal à α.
√
En utilisant le fait que Zn = n X nσ−m converge en loi vers la loi N (0, 1), on obtient des
régions critiques analogues au cas gaussien donné ci-dessus. Cependant le risque de première espèce
n’est plus égal à α mais converge cette valeur. En effet, dans le cas du test bilatéral, ce risque est :
√
X n − m0
αn = PH0 (X ∈ W ) = PH0 n
> q1− α2
σ
= FZn −q1− α2 + 1 − FZn q1− α2 ,
Ici aussi, on peut utiliser une approximation normale. En effet, puisque Sn2 converge p.s. vers
2
σ , l’expression √ √
n Xn − m σ n Xn − m
=
Sn Sn σ
√
n(X n −m)
montre que Sn converge en loi vers la loi N (0, 1). La région critique du test est donc, pour
le test bilatéral :
sn
W = x = (x1 , · · · , xn ) ∈ Rn / |xn − m0 | > √ q1− α2 .
n
Test de la proportion
Soit X1 , · · · , Xn un échantillon i.i.d. du modèle de Bernoulli B (p), on s’intéresse au test de
l’hypothèse nulle H0 : p = p0 contre une hypothèse alternative.
i) Test bilatéral H1 : p 6= p0
√
Par le théorème de limite centrale, sous H0 , n √X n −p0 converge en loi vers la loi N (0, 1).
p0 (1−p0 )
Ceci permet de déterminer la région critique sous la forme
( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / |xn − p0 | > q1− α2 .
n
On obtient ( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / xn − p0 > q1−α .
n
7.2. MÉTHODES DE CONSTRUCTION DES TESTS 67
On obtient ( r )
n p0 (1 − p0 )
W = x = (x1 , · · · , xn ) ∈ R / xn − p0 < qα .
n
i) Test bilatéral H1 : m 6= m0
αm (φ) = PH0 (X ∈ W ) = α
2
N m, σn N m0 , n1 et :
Or X n donc, sous H0 on a X n
√ √
√
n X n − m0 > n t = α ⇔ Φ n α
PH0 (X ∈ W ) = α ⇔ PH0 t =1− ,
σ σ σ 2
W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > t} ,
68 CHAPITRE 7. TESTS D’HYPOTHÈSES
et √ √
√
X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n > t =α⇔Φ t = 1 − α.
σ σ σ
Donc √
n
t = q1−α = Φ−1 (1 − α)
σ
et
σ
W = x = (x1 , · · · , xn ) ∈ Rn / xn − m0 > √ q1−α .
n
iii) Test unitéral H1 : m < m0
W = {x = (x1 , · · · , xn ) ∈ Rn / xn − m0 < t} ,
et √ √
√
X n − m0 n n
PH0 (X ∈ W ) = α ⇔ PH0 n < t =α⇔Φ t = α.
σ σ σ
Donc √
n
t = qα = Φ−1 (α)
σ
et
n σ
W = x = (x1 , · · · , xn ) ∈ R / xn − m0 < √ qα .
n
Cas de variance σ 2 inconnue
Finalement
n s∗,n
W = x = (x1 , · · · , xn ) ∈ R / |xn − m0 | > √ t1− α2 .
n
v) Test unitéraux