Sujet 2008 Corrrr

École Polytechnique – Année 2008-2009
MAP433 Statistique
On tiendra compte de la qualité de la rédaction. Les Sections 1 et 2 sont indépendantes.

La Section 2.4 est indépendante des Sections 2.2. et 2.3.
2
χ
Pour α ∈ (0, 1), on note q1−α,n le quantile d’ordre 1 − α de la loi du χ2 à n degrés de
2
χ
libertés, c’est-à-dire le nombre q1−α,n > 0 vérifiant
χ2
P Y > q1−α,n =α
si Y suit la loi du χ2 à n degrés de libertés.
1 Test du signe
On considère le
modèle statistique engendré par l’observation du vecteur aléatoire
Z n = X n , Y n de R2n défini par
X n = X1 , . . . , Xn ,

où les variables aléatoires Xi sont indépendantes, de même loi ayant une fonction
de répartition F continue, et
Y n = Y1 , . . . , Yn ,

où les variables aléatoires Yi sont indépendantes, de même loi ayant une fonction de
répartition G continue. On suppose que les vecteurs X n et Y n sont indépendants.
On considère le test d’hypothèse
H0 : F = G contre H1 : F 6= G.
1. Montrer que
P Xi = Yi = 0
1
et en déduire que si F = G,
1
P Xi > Yi = .
2
Corrigé : F et G sont continues, donc les mesures de probabilité associées

PF (dx) et PG (dx) sont diffuses : PF {x} = PG {x} = 0 pour x ∈ R. Par
indépendance et par Fubini
Z

P Xi = Yi = 1{x=y} F (dx)F (dy) = 0.
R×R
On a
1 = P Xi > Yi + P Xi < Yi + P Xi = Yi .
Si F = G, les deux premiers termes du membre de droite sont égaux. Le dernier
terme est nul, d’où le résultat.
2. On pose
n
X
N Zn = 1 .
Xi >Yi
i=1
Quelle est la loi de N sous H0 ?

Corrigé : Les variables 1 sont i.i.d. et, sous l’hypothèse H0 , c’est-à-dire
Xi >Yi
si F = G, et suivent une loi de Bernoulli de paramètre 1/2. Donc, sous H0 ,
N (Z n ) suit une loi binomiale de paramètres (n, 1/2).
3. En déduire que le test simple défini par la zone de rejet

n n o
R(c) = N (Z n ) − ≥ c

2
permet de construire un test de niveau α ∈ (0, 1) de H0 contre H1 pour un
choix c = c(α) > 0 que l’on précisera. Parmi tous les choix possibles de c(α),
lequel préférer ?
Corrigé. Soit Y une variable aléatoire de loi binomiale de paramètre (n, 1/2).
Le choix
c(α) = inf{c ≥ 0, P |Y − n2 ] ≥ c} ≤ α

garantit que sous l’hypothèse, la probabilité de rejeter l’hypothèse est inférieure

à α. C’est aussi le choix de c(α) minimale, qui fournit donc la zone de rejet
maximale parmi la classe des tests simples de zone de rejet de la forme R(c),
et qui fournit donc la puissance maximale parmi cette classe de tests.
2
4. Donner un équivalent de c(α) = cn (α) lorsque n → ∞.
Corrigé : Sous l’hypothèse, les variables aléatoires 1{Xi >Yi } sont i.i.d., de
moyenne 1/2 et de variance 1/4. D’après le TCL
n
1 X 1{Xi >Yi } − 21 2 n n d
√ 1 = √ N (Z ) − −→ N (0, 1).
n 2
n 2
i=1
Il vient
2c
n n
h 2c i
P N (Z ) − 2 ≥ c ≈ P |ξ| ≥ √ = 2 1 − Φ √

n n
R x −t2 /2 dt
où ξ suit la loi gaussienne standard et Φ(x) = −∞ e √ . Puisque Φ est
2π
monotone, on en déduit
√
n −1
cn (α) ∼ Φ (1 − α/2).
2
5. Montrer que néanmoins le test n’est pas consistant.

Corrigé : Soient F et G deux distributions de l’alternative, c’est-à-dire telles
que F 6= G, mais satisfaisant de plus
1
P(F,G) Xi > Yi = .
2
On vérifie immédiatement que

lim P(F,G) R(cn (α)) = α < 1,
n→∞
ce
R 1 qui contredit la consistance. (Un contre exemple : prendre G telle que
1
0 G(dx) = 2 qui n’est pas la loi uniforme sur [0, 1] et prendre pour F la
loi uniforme sur [0, 1].)
2 Modèle de durée de vie avec censure
Soit n ≥ 1 un entier. Soit Nn une variable aléatoire à valeurs dans N. Sur l’événement
{Nn ≥ 1}, on observe
X1 , . . . , XNn
où les variables aléatoires Xi sont indépendantes, de même loi exponentielle de
paramètre λ > 0, c’est-à-dire de densité

x λ exp − λx 1{x≥0} .
On suppose de plus que les Xi sont indépendantes de Nn .
3
2.1 Nombre déterministe d’observations
On suppose dans un premier temps que Nn = n presque-sûrement.
1. Ecrire le modèle statistique engendré par l’observation de (X1 , . . . , Xn ).

Corrigé : l’expérience statistique s’écrit (par exemple)
Rn+ , B(Rn+ ), {Pnλ , λ ∈ Λ = (0, +∞)} ,

où
n
X
Pnλ (dx1 , . . . , dxn ) n

= λ exp − λ xi dx1 . . . dxn .
i=1
bmv de λ.
2. Calculer l’estimateur du maximum de vraisemblance λn
mv n
Corrigé : un calcul standard donne λ = n
b P . n Xi
i=1
3. Montrer que λ bmv est asymptotiquement normal et calculer sa variance limite.

n
Corrigé : le modèle est régulier. On calcule sont information de Fisher, pour
la densité
f (λ, x) = λe−λx , x ∈ R+
On a ∂λ log f (λ, x) = λ−1 − x et ∂λ2 log f (λ, x) = −λ−2 , d’où I(λ) = λ−2 . On
en déduit √ d
bmv − λ −→ 1
= N 0, λ2 .

n λn N 0, I(λ)
4. Dans quel sens sa variance limite est-elle minimale ?

Corrigé : Le modèle est régulier. On invoque la théorie asymptotique du Poly.,
Chapitre 6.
5. Montrer que1
1 bmv χ2
0, λn q1−α,2n ,
2n

1 bmv χ2
λ q , +∞
2n n α,2n
et
1 bmv χ2 1 bmv χ2
λn qα/2,2n , λ q
2n 2n n 1−α/2,2n
1
E e−ξ2λXi .

Indication : on pourra introduire la transformée de Laplace de 2λXi définie par ξ
4
sont trois intervalles de confiance de λ de niveau 1 − α. Proposer des situations
de modélisation où le choix de l’un des ces intervalles s’impose plutôt qu’un
autre.
Corrigé : La transformée de Laplace de 2λXi est donnée par
E e−ξ2λXi = (1 + 2ξ)−1 ,

ξ
et, par indépendance, des Xi , la transformée de Laplace de 2λ ni=1 Xi est

P
ξ (1 + 2ξ)−n . C’est aussi la transformée de Laplace de la loi du χ2 à 2n
degrés de liberté. Donc
λ d 2
2n = χ (2n)
bmv
λ n
sous Pλ . On en déduit les trois intervalles de confiance par des manipulations
élémentaires.
6. Soient 0 < λ0 < λ1 . Construire un test d’hypothèse de
H0 : λ = λ0 contre H1 : λ = λ1
de niveau α et uniformément plus puissant. Expliciter le choix du seuil

définissant la région critique. Montrer que l’erreur de seconde espèce de ce
test tend vers 0 lorsque n → ∞.
Corrigé : on est dans un cadre où le test de Neyman-Pearson s’écrit comme un
test simple. Sa zone de rejet est
n
n λ1 n X o
R c(α) = exp − (λ1 − λ0 ) Xi ≥ c(α) ,
λ0
i=1
où c(α) est déterminé par la condition

h λ n n i
1
X
Pλ0 exp − (λ1 − λ0 ) Xi ≥ cα = α,
λ0
i=1
ce qui se réécrit encore comme

n
h X log λλ10 − log c(α) i
Pλ0 2λ0 Xi ≤ 2λ0 = α.
λ1 − λ0
i=1
Pn
Comme 2λ0 i=1 Xi suit la loi du χ2 à 2n degrés de liberté sous Pλ0 , on en
déduit λ n
0 λ 1 − λ 0 χ2
c(α) = exp − q .
λ1 2λ0 α,2n
5
Pour montrer que le test est consistant, on peut
utiliser la loi des grands
nombres. Sous l’alternative Pλ1 , puisque Eλ1 Xi = 1/λ1 , on a
n
X n
Xi ∼ ,
λ1
i=1
donc la statistique de test de Neyman-Pearson est équivalente à

λ n n
1
X
exp − (λ1 − λ0 ) Xi ∼ exp n(x − log x − 1)
λ0
i=1
avec x = λ0 /λ1 ∈ (0, 1). On a x − log x − 1 > 0 pour tout x ∈ (0, 1). Donc la
statistique de test diverge sous l’alternative. On en déduit la consistance du
test.
2.2 Nombre aléatoire ancillaire d’observations

On suppose que la loi de Nn est indépendante de λ, que E Nn = n et
Nn p.s.
−→ 1.
n
7. Ecrire la vraisemblance du modèle statistique engendré par l’observation
(Nn , X1 , . . . , XNn )
et l’information de Fisher du modèle.

Corrigé : l’expérience statistique se réalise sur l’espace N×RN + . Conditionnelle-
ment à Nn = k, on se retrouve dans l’expérience précédente avec k au lieu de
n. La loi de l’observation (Nn , X1 , . . . , XNn ) s’écrit
X k
Eλ ϕ(Nn , X1 , . . . , XNn ) = Eλ [ϕ(k, X1 , . . . , Xk ) qk ,
k≥0
Pk
où qk = P Nn = k et Pkλ (dx1 . . . dxk ) = λk e−λ i=1 xi dx1 . . . dxk . La vraisem-

blance s’écrit
Nn
X
L(λ, Nn , X1 , . . . , XNn ) = qNn λNn exp − λ

Xi .
i=1
6
On a alors ∂λ2 log L(λ, Nn , X1 , . . . , XNn ) = −Nn λ−2 . Par indépendance
l’information de Fisher au point λ vaut :
− Eλ ∂λ2 log L(λ, Nn , X1 , . . . , XNn ) = E Nn λ−2 = nλ−2 .

bmv de λ correspondant.
8. Calculer l’estimateur du maximum de vraisemblance λ Nn
Corrigé. Puisque qk ne dépend pas de λ, le calcul du maximum de vraisem-
blance reste inchangé par rapport à la Section précédente. On obtient
bmv = P Nn
λ .
Nn Nn
i=1 Xi
bmv lorsque n → ∞.
9. Calculer la loi limite de λNn
Corrigé : on peut anticiper, compte tenu de la question 7, que tout se passe
comme dans la Section 2.2. où Nn = n presque-sûrement. Puisque Nn → +∞
presque-sûrement et est indépendant des Xi , on a par le TCL
Nn
!
p 1 X 1 d
−→ N 0, λ12 .

Nn Xi −
Nn λ
i=1
Par la méthode “delta” avec g(x) = 1/x, on a aussi

p d
bmv − λ −→ N 0, λ12 g 0 (1/λ)2 = N 0, λ2 .

Nn λ Nn
En écrivant √ d
bmv n λbmv − λ −→ N 0, λ12 = N 0, λ2 .

λ Nn Nn
p p.s.
Comme, n/Nn −→ 1, on en déduit, par le lemme de Slutsky,
√ p p d
bmv − λ = n/Nn Nn λ
n λ Nn
bmv − λ −→
Nn N (0, λ2 ).
2.3 Nombre aléatoire poissonnien d’observations
On suppose désormais que Nn suit une loi de Poisson de paramètre nλ.
7
10. Calculer l’estimateur du maximum de vraisemblance de λ basé sur
l’observation de Nn uniquement, et calculer sa loi limite lorsque n → ∞.
Corrigé : l’expérience consistant à observer Nn uniquement se réalise sur N, et
une vraisembance s’écrit
(nλ)Nn
L(λ, Nn ) = e−nλ .
Nn !
On a ∂λ log L(λ, Nn ) = −n + Nλn qui s’annule en Nnn . On vérifie que c’est

bien un maximum. On réalise Nn comme la somme de n variables aléatoires,
indépendantes, de loi de Poisson de paramètre λ.
On est dans la cadre du modèle de la densité. Toutes les conditions de régularité
sont vérifiées, et
Nn
∂λ2 log L(λ, Nn ) = − 2 .
λ
Comme − E ∂λ2 log L(Nn ) = nλ , on en déduit que

√ Nn
d
n n − λ −→ N 0, λ .
Nn
On peut aussi directement calculer la loi limite de n via le TCL.
11. Ecrire la vraisemblance du modèle statistique engendré par l’observation

Nn , X1 , . . . , XNn .
Corrigé : l’expérience statistique se réalise sur N × RN

+ . Comme dans la Section
2.2., conditionnellement à Nn = k, on se retrouve dans l’expérience précédente
avec k au lieu de n. La loi de l’observation (Nn , X1 , . . . , XNn ) s’écrit
X k (nλ)k
Eλ [ϕ(k, X1 , . . . , Xk ) e−λn

Eλ ϕ(Nn , X1 , . . . , XNn ) =
k!
k≥0
Pk
où Pkλ (dx1 . . . dxk ) = λk e−λ i=1 xi dx
1 . . . dxk . La vraisemblance s’écrit
N
(λn)Nn Nn Xn
L(λ, Nn , X1 , . . . , XNn ) = e−λn

λ exp − λ Xi .
Nn !
i=1
8
emv de λ.
12. Calculer l’estimateur du maximum de vraisemblance λNn
Corrigé : à la différence de la Section 2.2. la loi de Nn dépend de λ et apporte
de l’information sur λ. On a
Nn
2Nn X
∂λ log L(λ, Nn , X1 , . . . , XNn ) = − Xi + n ,
λ
i=1
d’où
emv = P 2Nn
λ .
Nn Nn
i=1 Xi + n
emv −→P emv lorsque n → ∞.

13. Montrer que λ Nn λ puis calculer la loi limite de λNn
Corrigé : On a d’une part, d’après la question 9,
Nn
√ 1 X 1 d
−→ N 0, λ12 .

n Xi −
Nn λ
i=1
D’autre part, d’après la question 10,

√ Nn d
n n − λ −→ N 0, λ ,
et, via la méthode “delta” avec g(x) = 1/x,
√ n
d
n Nn − λ1 −→ N 0, λ−3 .

Il vient
Nn
√ 1 1 √ 1 X 1
n − = n (Xi − λ1 ) + n
Nn − 1
λ
emv
λ λ 2Nn 2
Nn i=1
d 1 1
−→ ξ + 3/2 ζ
2λ 2λ
où ξ et ζ sont deux variables aléatoires gaussiennes centrées, réduites et
indépendantes. (On peut par exemple passer par le calcul des fonctions car-
actéristiques et utiliser l’indépendance entre Nn et les Xi .) Donc
√ 1 1 d
n − −→ N 0, 4λ1 2 (1 + λ1 ) .
emv
λ λ
Nn
En appliquant une nouvelle fois la méthode “delta” avec g(x) = 1/x, on en

déduit √ d
emv − λ −→ λ2 1
n λ Nn N 0, 4 1 + λ .
est asymptotiquement normal et calculer sa variance limite.
9
14. Comparer la gain d’information vis-à-vis des situations précédentes. Corrigé :
comparons pour simplifier les situations où λ ∼ 0 et λ ∼ ∞. Dans le cas où
λ ∼ 0, la variance asymptotique de λ emv est équivalente à λ/4 ≤ λ qui est la
Nn
variance de l’estimateur de la question 10. Dans le cas où λ ∼ ∞, la variance
asymptotique de λ emv est équivalente à λ2 /4 ≤ λ2 qui est la variance asympto-
Nn
tique de l’estimateur de la question 9. Dans tous les régimes, l’estimateur ainsi
obtenu améliore (sans surprise) les estimateurs précédents.
2.4 Observations avec censure
On se replace dans le contexte de la Section 2.1 et on suppose que, pour un entier

1 ≤ k ≤ n donné, on n’observe que les k plus petites valeurs des Xi . Si (X1:n ,
X2:n , . . . , Xn:n ) désigne la statistique d’ordre des Xi , c’est-à-dire le réarrangement
croissant vérifiant :
X1:n ≤ X2:n ≤ · · · ≤ Xn:n ,
on observe seulement les valeurs de
X1:n ≤ X2:n ≤ · · · ≤ Xk:n .
15. Montrer que la densité2 de (X1:n , . . . , Xk:n ) s’écrit
λd n!
(x1 , . . . , xk ) exp − λSn,k (x1 , . . . , xk ) 1 ,
(n − k)! x1 ≤x2 ≤···≤xk
où
k
X
Sn,k (x1 , . . . , xk ) = xi + (n − k)xk .
i=1
Corrigé : On part de la densité de la loi de (X1:n , . . . , Xn:n ) qui vaut

n
X
n

g(x1 , . . . , xn ) = n!λ exp − xi 1
0≤x1 ≤x1 ≤···≤xn
i=1
et on fait n − k intégrations successives pour obtenir la formule annoncée.

2
On pourra utiliser le résultat suivant : si les Xi sont des variables aléatoires indépendantes de
même loi, de densité f par rapport à la mesure de Lebesgue sur R+ , alors la densité conjointe de
n! n
Q
(X1:n , . . . , Xn:n ) s’écrit (x1 , . . . , xn ) i=1 f (xi )10≤x1 ≤x2 ≤...≤xn .
10
16. En déduire l’estimateur du maximum de vraisemblance λ̄kmv de λ pour
l’observation de (X1:n , . . . , Xk:n ).
Corrigé : La log-vraisemblance vaut :
n!
log L(λ, X1:n , . . . , Xk:n ) = log + k log λ − λSn,k (X1:n , . . . , Xk:n ),
(n − k)!
d’où, par un calcul standard
b mv = k
λk .
Sn,k (X1:n , . . . , Xk:n )
17. A l’aide du changement de variable ui = (n − i + 1)(xi − xi−1 ), i = 1, . . . , k,

où l’on a posé x0 = 0, expliciter la loi de λ̄kmv . Comparer avec la situation de
la Section 2.1.
Corrigé : Le changement de variable linéaire
ui = (n − i + 1)(xi − xi−1 ), i = 1, . . . , k, x0 = 0
a pour jacobien (n − k)!/n!. La loi conjointe des variables aléatoires Ui =

(n − i + 1)(Xi:n − Xi−1:n ), pour i = 1, . . . , k, a pour densité (en convenant
X0:n = 0) sur Rk+
k
Y
(u1 , . . . , uk ) λe−λui .
i=1
Donc
k
X
2λSn,k (X1:n , . . . , Xk:n ) = 2λ Ui
i=1
suit la loi du χ2 à 2k degrés de liberté, et la construction d’intervalles de

confiance se fait comme dans la Section 2.1. en substituant n par k. Il est
remarquable que dans le cas où l’on observe les k premières valeurs ordonnées
de variables exponentielles indépendantes de paramètre λ à partir d’un n-
échantillon, on a la même information statistique que si l’on avait observé k
variables aléatoires exponentielles indépendantes, de même paramètre λ.
11

Sujet 2008 Corrrr

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Sujet 2008 Corrrr

Transféré par

Droits d'auteur :

Formats disponibles

École Polytechnique – Année 2008-2009

On tiendra compte de la qualité de la rédaction. Les Sections 1 et 2 sont indépendantes.

si Y suit la loi du χ2 à n degrés de libertés.

Corrigé : F et G sont continues, donc les mesures de probabilité associées

Quelle est la loi de N sous H0 ?

3. En déduire que le test simple défini par la zone de rejet

garantit que sous l’hypothèse, la probabilité de rejeter l’hypothèse est inférieure

5. Montrer que néanmoins le test n’est pas consistant.

2 Modèle de durée de vie avec censure

On suppose dans un premier temps que Nn = n presque-sûrement.

1. Ecrire le modèle statistique engendré par l’observation de (X1 , . . . , Xn ).

Rn+ , B(Rn+ ), {Pnλ , λ ∈ Λ = (0, +∞)} ,

3. Montrer que λ bmv est asymptotiquement normal et calculer sa variance limite.

4. Dans quel sens sa variance limite est-elle minimale ?

et, par indépendance, des Xi , la transformée de Laplace de 2λ ni=1 Xi est

6. Soient 0 < λ0 < λ1 . Construire un test d’hypothèse de

de niveau α et uniformément plus puissant. Expliciter le choix du seuil

où c(α) est déterminé par la condition

ce qui se réécrit encore comme

donc la statistique de test de Neyman-Pearson est équivalente à

2.2 Nombre aléatoire ancillaire d’observations

7. Ecrire la vraisemblance du modèle statistique engendré par l’observation

et l’information de Fisher du modèle.

− Eλ ∂λ2 log L(λ, Nn , X1 , . . . , XNn ) = E Nn λ−2 = nλ−2 .

Par la méthode “delta” avec g(x) = 1/x, on a aussi

2.3 Nombre aléatoire poissonnien d’observations

On suppose désormais que Nn suit une loi de Poisson de paramètre nλ.

On a ∂λ log L(λ, Nn ) = −n + Nλn qui s’annule en Nnn . On vérifie que c’est

Comme − E ∂λ2 log L(Nn ) = nλ , on en déduit que

11. Ecrire la vraisemblance du modèle statistique engendré par l’observation

Corrigé : l’expérience statistique se réalise sur N × RN

L(λ, Nn , X1 , . . . , XNn ) = e−λn

emv −→P emv lorsque n → ∞.

D’autre part, d’après la question 10,

En appliquant une nouvelle fois la méthode “delta” avec g(x) = 1/x, on en

2.4 Observations avec censure

On se replace dans le contexte de la Section 2.1 et on suppose que, pour un entier

X1:n ≤ X2:n ≤ · · · ≤ Xk:n .

15. Montrer que la densité2 de (X1:n , . . . , Xk:n ) s’écrit

Corrigé : On part de la densité de la loi de (X1:n , . . . , Xn:n ) qui vaut

et on fait n − k intégrations successives pour obtenir la formule annoncée.

d’où, par un calcul standard

17. A l’aide du changement de variable ui = (n − i + 1)(xi − xi−1 ), i = 1, . . . , k,

a pour jacobien (n − k)!/n!. La loi conjointe des variables aléatoires Ui =

suit la loi du χ2 à 2k degrés de liberté, et la construction d’intervalles de

Vous aimerez peut-être aussi