Vous êtes sur la page 1sur 11

École Polytechnique – Année 2008-2009

MAP433 Statistique

On tiendra compte de la qualité de la rédaction. Les Sections 1 et 2 sont indépendantes.


La Section 2.4 est indépendante des Sections 2.2. et 2.3.
2
χ
Pour α ∈ (0, 1), on note q1−α,n le quantile d’ordre 1 − α de la loi du χ2 à n degrés de
2
χ
libertés, c’est-à-dire le nombre q1−α,n > 0 vérifiant
 χ2 
P Y > q1−α,n =α

si Y suit la loi du χ2 à n degrés de libertés.

1 Test du signe

On considère le
 modèle statistique engendré par l’observation du vecteur aléatoire
Z n = X n , Y n de R2n défini par

X n = X1 , . . . , Xn ,


où les variables aléatoires Xi sont indépendantes, de même loi ayant une fonction
de répartition F continue, et

Y n = Y1 , . . . , Yn ,


où les variables aléatoires Yi sont indépendantes, de même loi ayant une fonction de
répartition G continue. On suppose que les vecteurs X n et Y n sont indépendants.
On considère le test d’hypothèse

H0 : F = G contre H1 : F 6= G.

1. Montrer que  
P Xi = Yi = 0

1
et en déduire que si F = G,
  1
P Xi > Yi = .
2

Corrigé : F et G sont continues, donc les mesures de probabilité associées


   
PF (dx) et PG (dx) sont diffuses : PF {x} = PG {x} = 0 pour x ∈ R. Par
indépendance et par Fubini
Z
 
P Xi = Yi = 1{x=y} F (dx)F (dy) = 0.
R×R

On a      
1 = P Xi > Yi + P Xi < Yi + P Xi = Yi .
Si F = G, les deux premiers termes du membre de droite sont égaux. Le dernier
terme est nul, d’où le résultat.

2. On pose
n
 X
N Zn = 1 .
Xi >Yi
i=1

Quelle est la loi de N sous H0 ?


Corrigé : Les variables 1 sont i.i.d. et, sous l’hypothèse H0 , c’est-à-dire
Xi >Yi
si F = G, et suivent une loi de Bernoulli de paramètre 1/2. Donc, sous H0 ,
N (Z n ) suit une loi binomiale de paramètres (n, 1/2).

3. En déduire que le test simple défini par la zone de rejet


n n o
R(c) = N (Z n ) − ≥ c

2
permet de construire un test de niveau α ∈ (0, 1) de H0 contre H1 pour un
choix c = c(α) > 0 que l’on précisera. Parmi tous les choix possibles de c(α),
lequel préférer ?
Corrigé. Soit Y une variable aléatoire de loi binomiale de paramètre (n, 1/2).
Le choix
c(α) = inf{c ≥ 0, P |Y − n2 ] ≥ c} ≤ α


garantit que sous l’hypothèse, la probabilité de rejeter l’hypothèse est inférieure


à α. C’est aussi le choix de c(α) minimale, qui fournit donc la zone de rejet
maximale parmi la classe des tests simples de zone de rejet de la forme R(c),
et qui fournit donc la puissance maximale parmi cette classe de tests.

2
4. Donner un équivalent de c(α) = cn (α) lorsque n → ∞.
Corrigé : Sous l’hypothèse, les variables aléatoires 1{Xi >Yi } sont i.i.d., de
moyenne 1/2 et de variance 1/4. D’après le TCL
n
1 X 1{Xi >Yi } − 21 2  n n d
√ 1 = √ N (Z ) − −→ N (0, 1).
n 2
n 2
i=1
Il vient
  2c 
 n n
 h 2c i
P N (Z ) − 2 ≥ c ≈ P |ξ| ≥ √ = 2 1 − Φ √

n n
R x −t2 /2 dt
où ξ suit la loi gaussienne standard et Φ(x) = −∞ e √ . Puisque Φ est

monotone, on en déduit

n −1
cn (α) ∼ Φ (1 − α/2).
2

5. Montrer que néanmoins le test n’est pas consistant.


Corrigé : Soient F et G deux distributions de l’alternative, c’est-à-dire telles
que F 6= G, mais satisfaisant de plus
  1
P(F,G) Xi > Yi = .
2
On vérifie immédiatement que
 
lim P(F,G) R(cn (α)) = α < 1,
n→∞

ce
R 1 qui contredit la consistance. (Un contre exemple : prendre G telle que
1
0 G(dx) = 2 qui n’est pas la loi uniforme sur [0, 1] et prendre pour F la
loi uniforme sur [0, 1].)

2 Modèle de durée de vie avec censure

Soit n ≥ 1 un entier. Soit Nn une variable aléatoire à valeurs dans N. Sur l’événement
{Nn ≥ 1}, on observe
X1 , . . . , XNn
où les variables aléatoires Xi sont indépendantes, de même loi exponentielle de
paramètre λ > 0, c’est-à-dire de densité

x λ exp − λx 1{x≥0} .
On suppose de plus que les Xi sont indépendantes de Nn .

3
2.1 Nombre déterministe d’observations

On suppose dans un premier temps que Nn = n presque-sûrement.

1. Ecrire le modèle statistique engendré par l’observation de (X1 , . . . , Xn ).


Corrigé : l’expérience statistique s’écrit (par exemple)

Rn+ , B(Rn+ ), {Pnλ , λ ∈ Λ = (0, +∞)} ,




où
n
X
Pnλ (dx1 , . . . , dxn ) n

= λ exp − λ xi dx1 . . . dxn .
i=1

bmv de λ.
2. Calculer l’estimateur du maximum de vraisemblance λn
mv n
Corrigé : un calcul standard donne λ = n
b P . n Xi
i=1

3. Montrer que λ bmv est asymptotiquement normal et calculer sa variance limite.


n
Corrigé : le modèle est régulier. On calcule sont information de Fisher, pour
la densité
f (λ, x) = λe−λx , x ∈ R+
On a ∂λ log f (λ, x) = λ−1 − x et ∂λ2 log f (λ, x) = −λ−2 , d’où I(λ) = λ−2 . On
en déduit √  d
bmv − λ −→ 1
= N 0, λ2 .
 
n λn N 0, I(λ)

4. Dans quel sens sa variance limite est-elle minimale ?


Corrigé : Le modèle est régulier. On invoque la théorie asymptotique du Poly.,
Chapitre 6.

5. Montrer que1  
1 bmv χ2
0, λn q1−α,2n ,
2n
 
1 bmv χ2
λ q , +∞
2n n α,2n
et  
1 bmv χ2 1 bmv χ2
λn qα/2,2n , λ q
2n 2n n 1−α/2,2n
1
E e−ξ2λXi .
 
Indication : on pourra introduire la transformée de Laplace de 2λXi définie par ξ

4
sont trois intervalles de confiance de λ de niveau 1 − α. Proposer des situations
de modélisation où le choix de l’un des ces intervalles s’impose plutôt qu’un
autre.
Corrigé : La transformée de Laplace de 2λXi est donnée par

E e−ξ2λXi = (1 + 2ξ)−1 ,
 
ξ

et, par indépendance, des Xi , la transformée de Laplace de 2λ ni=1 Xi est


P
ξ (1 + 2ξ)−n . C’est aussi la transformée de Laplace de la loi du χ2 à 2n
degrés de liberté. Donc
λ d 2
2n = χ (2n)
bmv
λ n
sous Pλ . On en déduit les trois intervalles de confiance par des manipulations
élémentaires.

6. Soient 0 < λ0 < λ1 . Construire un test d’hypothèse de

H0 : λ = λ0 contre H1 : λ = λ1

de niveau α et uniformément plus puissant. Expliciter le choix du seuil


définissant la région critique. Montrer que l’erreur de seconde espèce de ce
test tend vers 0 lorsque n → ∞.
Corrigé : on est dans un cadre où le test de Neyman-Pearson s’écrit comme un
test simple. Sa zone de rejet est
n
 n λ1 n X  o
R c(α) = exp − (λ1 − λ0 ) Xi ≥ c(α) ,
λ0
i=1

où c(α) est déterminé par la condition


h λ n n i
1
X 
Pλ0 exp − (λ1 − λ0 ) Xi ≥ cα = α,
λ0
i=1

ce qui se réécrit encore comme


n
h X log λλ10 − log c(α) i
Pλ0 2λ0 Xi ≤ 2λ0 = α.
λ1 − λ0
i=1
Pn
Comme 2λ0 i=1 Xi suit la loi du χ2 à 2n degrés de liberté sous Pλ0 , on en
déduit  λ n
0 λ 1 − λ 0 χ2 
c(α) = exp − q .
λ1 2λ0 α,2n

5
Pour montrer que le test est consistant, on peut
 utiliser la loi des grands
nombres. Sous l’alternative Pλ1 , puisque Eλ1 Xi = 1/λ1 , on a
n
X n
Xi ∼ ,
λ1
i=1

donc la statistique de test de Neyman-Pearson est équivalente à


 λ n n
1
X  
exp − (λ1 − λ0 ) Xi ∼ exp n(x − log x − 1)
λ0
i=1

avec x = λ0 /λ1 ∈ (0, 1). On a x − log x − 1 > 0 pour tout x ∈ (0, 1). Donc la
statistique de test diverge sous l’alternative. On en déduit la consistance du
test.

2.2 Nombre aléatoire ancillaire d’observations


 
On suppose que la loi de Nn est indépendante de λ, que E Nn = n et

Nn p.s.
−→ 1.
n

7. Ecrire la vraisemblance du modèle statistique engendré par l’observation

(Nn , X1 , . . . , XNn )

et l’information de Fisher du modèle.


Corrigé : l’expérience statistique se réalise sur l’espace N×RN + . Conditionnelle-
ment à Nn = k, on se retrouve dans l’expérience précédente avec k au lieu de
n. La loi de l’observation (Nn , X1 , . . . , XNn ) s’écrit
  X k 
Eλ ϕ(Nn , X1 , . . . , XNn ) = Eλ [ϕ(k, X1 , . . . , Xk ) qk ,
k≥0

Pk
où qk = P Nn = k et Pkλ (dx1 . . . dxk ) = λk e−λ i=1 xi dx1 . . . dxk . La vraisem-
 

blance s’écrit
Nn
X
L(λ, Nn , X1 , . . . , XNn ) = qNn λNn exp − λ

Xi .
i=1

6
On a alors ∂λ2 log L(λ, Nn , X1 , . . . , XNn ) = −Nn λ−2 . Par indépendance
l’information de Fisher au point λ vaut :

− Eλ ∂λ2 log L(λ, Nn , X1 , . . . , XNn ) = E Nn λ−2 = nλ−2 .


   

bmv de λ correspondant.
8. Calculer l’estimateur du maximum de vraisemblance λ Nn
Corrigé. Puisque qk ne dépend pas de λ, le calcul du maximum de vraisem-
blance reste inchangé par rapport à la Section précédente. On obtient

bmv = P Nn
λ .
Nn Nn
i=1 Xi

bmv lorsque n → ∞.
9. Calculer la loi limite de λNn
Corrigé : on peut anticiper, compte tenu de la question 7, que tout se passe
comme dans la Section 2.2. où Nn = n presque-sûrement. Puisque Nn → +∞
presque-sûrement et est indépendant des Xi , on a par le TCL
Nn
!
p 1 X 1 d
−→ N 0, λ12 .

Nn Xi −
Nn λ
i=1

Par la méthode “delta” avec g(x) = 1/x, on a aussi


p  d
bmv − λ −→ N 0, λ12 g 0 (1/λ)2 = N 0, λ2 .
 
Nn λ Nn

En écrivant √  d
bmv n λbmv − λ −→ N 0, λ12 = N 0, λ2 .
 
λ Nn Nn
p p.s.
Comme, n/Nn −→ 1, on en déduit, par le lemme de Slutsky,
√  p p  d
bmv − λ = n/Nn Nn λ
n λ Nn
bmv − λ −→
Nn N (0, λ2 ).

2.3 Nombre aléatoire poissonnien d’observations

On suppose désormais que Nn suit une loi de Poisson de paramètre nλ.

7
10. Calculer l’estimateur du maximum de vraisemblance de λ basé sur
l’observation de Nn uniquement, et calculer sa loi limite lorsque n → ∞.
Corrigé : l’expérience consistant à observer Nn uniquement se réalise sur N, et
une vraisembance s’écrit
(nλ)Nn
L(λ, Nn ) = e−nλ .
Nn !

On a ∂λ log L(λ, Nn ) = −n + Nλn qui s’annule en Nnn . On vérifie que c’est


bien un maximum. On réalise Nn comme la somme de n variables aléatoires,
indépendantes, de loi de Poisson de paramètre λ.
On est dans la cadre du modèle de la densité. Toutes les conditions de régularité
sont vérifiées, et
Nn
∂λ2 log L(λ, Nn ) = − 2 .
λ

Comme − E ∂λ2 log L(Nn ) = nλ , on en déduit que


 

√  Nn 
d 
n n − λ −→ N 0, λ .

Nn
On peut aussi directement calculer la loi limite de n via le TCL.

11. Ecrire la vraisemblance du modèle statistique engendré par l’observation



Nn , X1 , . . . , XNn .

Corrigé : l’expérience statistique se réalise sur N × RN


+ . Comme dans la Section
2.2., conditionnellement à Nn = k, on se retrouve dans l’expérience précédente
avec k au lieu de n. La loi de l’observation (Nn , X1 , . . . , XNn ) s’écrit

 X k (nλ)k
Eλ [ϕ(k, X1 , . . . , Xk ) e−λn
 
Eλ ϕ(Nn , X1 , . . . , XNn ) =
k!
k≥0

Pk
où Pkλ (dx1 . . . dxk ) = λk e−λ i=1 xi dx
1 . . . dxk . La vraisemblance s’écrit
N
(λn)Nn Nn Xn

L(λ, Nn , X1 , . . . , XNn ) = e−λn



λ exp − λ Xi .
Nn !
i=1

8
emv de λ.
12. Calculer l’estimateur du maximum de vraisemblance λNn
Corrigé : à la différence de la Section 2.2. la loi de Nn dépend de λ et apporte
de l’information sur λ. On a
Nn
2Nn  X 
∂λ log L(λ, Nn , X1 , . . . , XNn ) = − Xi + n ,
λ
i=1

d’où
emv = P 2Nn
λ .
Nn Nn
i=1 Xi + n

emv −→P emv lorsque n → ∞.


13. Montrer que λ Nn λ puis calculer la loi limite de λNn
Corrigé : On a d’une part, d’après la question 9,
Nn
√  1 X 1 d
−→ N 0, λ12 .

n Xi −
Nn λ
i=1

D’autre part, d’après la question 10,


√ Nn  d 
n n − λ −→ N 0, λ ,
et, via la méthode “delta” avec g(x) = 1/x,
√  n 
d
n Nn − λ1 −→ N 0, λ−3 .


Il vient
Nn
√  1 1 √  1 X 1 
n − = n (Xi − λ1 ) + n
Nn − 1
λ
emv
λ λ 2Nn 2
Nn i=1
d 1 1
−→ ξ + 3/2 ζ
2λ 2λ
où ξ et ζ sont deux variables aléatoires gaussiennes centrées, réduites et
indépendantes. (On peut par exemple passer par le calcul des fonctions car-
actéristiques et utiliser l’indépendance entre Nn et les Xi .) Donc
√  1 1 d  
n − −→ N 0, 4λ1 2 (1 + λ1 ) .
emv
λ λ
Nn

En appliquant une nouvelle fois la méthode “delta” avec g(x) = 1/x, on en


déduit √  d  
emv − λ −→ λ2 1
n λ Nn N 0, 4 1 + λ .
est asymptotiquement normal et calculer sa variance limite.

9
14. Comparer la gain d’information vis-à-vis des situations précédentes. Corrigé :
comparons pour simplifier les situations où λ ∼ 0 et λ ∼ ∞. Dans le cas où
λ ∼ 0, la variance asymptotique de λ emv est équivalente à λ/4 ≤ λ qui est la
Nn
variance de l’estimateur de la question 10. Dans le cas où λ ∼ ∞, la variance
asymptotique de λ emv est équivalente à λ2 /4 ≤ λ2 qui est la variance asympto-
Nn
tique de l’estimateur de la question 9. Dans tous les régimes, l’estimateur ainsi
obtenu améliore (sans surprise) les estimateurs précédents.

2.4 Observations avec censure

On se replace dans le contexte de la Section 2.1 et on suppose que, pour un entier


1 ≤ k ≤ n donné, on n’observe que les k plus petites valeurs des Xi . Si (X1:n ,
X2:n , . . . , Xn:n ) désigne la statistique d’ordre des Xi , c’est-à-dire le réarrangement
croissant vérifiant :
X1:n ≤ X2:n ≤ · · · ≤ Xn:n ,
on observe seulement les valeurs de

X1:n ≤ X2:n ≤ · · · ≤ Xk:n .

15. Montrer que la densité2 de (X1:n , . . . , Xk:n ) s’écrit

λd n! 
(x1 , . . . , xk ) exp − λSn,k (x1 , . . . , xk ) 1 ,
(n − k)! x1 ≤x2 ≤···≤xk

où
k
X
Sn,k (x1 , . . . , xk ) = xi + (n − k)xk .
i=1

Corrigé : On part de la densité de la loi de (X1:n , . . . , Xn:n ) qui vaut


n
X
n

g(x1 , . . . , xn ) = n!λ exp − xi 1
0≤x1 ≤x1 ≤···≤xn
i=1

et on fait n − k intégrations successives pour obtenir la formule annoncée.


2
On pourra utiliser le résultat suivant : si les Xi sont des variables aléatoires indépendantes de
même loi, de densité f par rapport à la mesure de Lebesgue sur R+ , alors la densité conjointe de
n! n
Q
(X1:n , . . . , Xn:n ) s’écrit (x1 , . . . , xn ) i=1 f (xi )10≤x1 ≤x2 ≤...≤xn .

10
16. En déduire l’estimateur du maximum de vraisemblance λ̄kmv de λ pour
l’observation de (X1:n , . . . , Xk:n ).
Corrigé : La log-vraisemblance vaut :

n!
log L(λ, X1:n , . . . , Xk:n ) = log + k log λ − λSn,k (X1:n , . . . , Xk:n ),
(n − k)!

d’où, par un calcul standard

b mv = k
λk .
Sn,k (X1:n , . . . , Xk:n )

17. A l’aide du changement de variable ui = (n − i + 1)(xi − xi−1 ), i = 1, . . . , k,


où l’on a posé x0 = 0, expliciter la loi de λ̄kmv . Comparer avec la situation de
la Section 2.1.
Corrigé : Le changement de variable linéaire

ui = (n − i + 1)(xi − xi−1 ), i = 1, . . . , k, x0 = 0

a pour jacobien (n − k)!/n!. La loi conjointe des variables aléatoires Ui =


(n − i + 1)(Xi:n − Xi−1:n ), pour i = 1, . . . , k, a pour densité (en convenant
X0:n = 0) sur Rk+
k
Y
(u1 , . . . , uk ) λe−λui .
i=1

Donc
k
X
2λSn,k (X1:n , . . . , Xk:n ) = 2λ Ui
i=1

suit la loi du χ2 à 2k degrés de liberté, et la construction d’intervalles de


confiance se fait comme dans la Section 2.1. en substituant n par k. Il est
remarquable que dans le cas où l’on observe les k premières valeurs ordonnées
de variables exponentielles indépendantes de paramètre λ à partir d’un n-
échantillon, on a la même information statistique que si l’on avait observé k
variables aléatoires exponentielles indépendantes, de même paramètre λ.

11

Vous aimerez peut-être aussi