Vous êtes sur la page 1sur 6

Examen du 21 janvier 2003, 13h05-16h05

SE 203: estimation et introduction aux tests


ENSAE, Paul Doukhan

Les documents distribués en cours et les notes manuscrites ansi que les calculettes sont autorisés.
On traitera les exercices dans un ordre arbitraire, à la condition de le préciser clairement.
R∞ 2
On pose Φ(x) = −∞ e−x /2 √dx 2π
, et Φ(x) = 1 − Φ(x) est la fonction de queue gaussienne.
Barême indicatif: 1 point par question, sauf les questions A-7 et D-5 qui en compteront 2.

Exercice A (Modèle exponentiel)


Soit X1 ,X2 , . . ., une suite iid de loi exponentielle de paramètre λ. On rappelle que
leur densité s’écrit λe−λx pour x ≥ 0.
1. Calculez la vraisemblance de l’échantillon X (n) = (X1 , . . . ,Xn ). En déduire une
statistique S exhaustive; on prouvera que cette statistique est complète.
2. Déterminez l’estimateur du maximum de vraisemblance fondé sur cet échantillon,
3. l’information de Fischer correspondante.
4. Ce modèle est-il régulier, si λ ≥ 0, si λ > 0?
5. L’estimateur du maximum de vraisemblance précédent est-il efficace?
6. Asymptotiquement efficace?
7. Calculez la densité fn de la loi de S = X1 + · · · + Xn . Indiquez l’intérêt de ce
calcul: en particulier, expliquez pourquoi et de quelle manière il pourrait permettre
d’obtenir des estimateurs de λ de bonne qualité (on ne demande pas de calculer
explicitement de tels estimateurs).

Exercice B (Paramètre de translation)


On s’intéresse au problème d’estimation du paramètre de translation θ ∈ R dans le
modèle de densité (sur R) fθ (x) = f0 (x−θ) donné par une densité f0 (fixée, une fois pour
toutes).
R On observe ainsi R un n−échantillon iid X = (X1 , . . . ,Xn ) de loi fθ , où f0 (x) 6= 0
p.s., xf0 (x) dx = 0 et x2 f0 (x) dx = 1.
1. Déterminez la densité pθ et la vraisemblance Vθ = pθ (X) du n−échantillon X =
(X1 , . . . ,Xn ).
2. Etablir des conditions sur f0 pour que ce modèle soit régulier. Ecrire l’information
de Fisher de ce modèle.
3. Montrez que la borne de Cramer Rao s’écrit simplement à partir de l’inégalité de
Cauchy Schwartz dans ce cas.
Pn
4. Prouvez que l’estimateur X = n1 i=1 Xi est efficace si et seulement si f0 (x) =
2
√1 e−x /2 est la densité gaussienne standard.

5. Dans le cas√
général, prouvez que cet estimateur est sans biais et la normalité asymp-
totique de n(X − θ) sous la loi Pθ .

1
Exercice C (Détection d’un signal)
Une antenne est réglée pour recevoir des signaux à une fréquence donnée. A chaque
instant, elle reçoit une onde S d’amplitude f (t). Cette amplitude est générée, soit par
le signal, soit pour le bruit électromagnétique ambiant, les données sont collectées aux
temps T /N,2T /N, . . . ,N . Le modèle stochastique choisi est le suivant. Si S n’a pas émis
de signal, on reçoit une amplitude Xi = ξi ∼ N (0,σξ2 ) au temps iT /N . Si S a émis un
signal, l’amplitude de ce signal est modélisée par une variable aléatoire ηi ∼ N (0,ση2 ); on
reçoit alors un signal d’amplitude Xi = ξi + ηi au temps iT /N . Les suites ξi est ηi sont
mutuellement indépendantes. On suppose que les paramètres σξ2 et ση2 sont connus.
1. Définir un modèle statistique paramétré par θ ∈ {0,1} rendant compte de ces ob-
servations; calculez sa vraisemblance.
2. Construire le test de Neyman-Pearson de niveau α pour décider de l’hypothèse H0
(l’observation est un bruit blanc pur), contre H1 = H0c (l’hypothèse contraire).
Précisez sa puissance (on notera que ce test au niveau α est donné par un quantile
de loi du χ2N à N degrés de liberté).
3. Lorsque N est grand, donnez l’approximation βe de la puissance fondée sur le
théorème de limite centrale.
4. Alors, comment choisir N pour que ce test soit asymptotiquement non biaisé?
On pourra utiliser le comportement asymptotique d’une loi du χ2N lorsque N ↑ ∞.
5. Lorsque N est grand, montrez qu’il existe une constante C > 0 telle que la différence
d’un α−quantile de loi du χ2N et du quantile gaussien correspondant est de valeur
absolue ≤ CN −1/8 (uniformément par rapport à α).

Exercice D (Une variante du modèle Tobit)


Soit (ξn )n∈N une suite iid réelle de fonction de répartition F : R →]0,1[. On suppose
la fonction F bijective. On pose Yn = σξn + m pour n ∈ N. On considère le modèle
statistique (Pθ⊗n )θ∈Θ , loi du n−uplet (X1 , . . . ,Xn ) où Xi vaut 0 lorsque Yi < 0, 1 si
Yi ∈ [0,1] et 2, sinon, de plus Θ est l’ensemble des couples θ = (m,σ) ∈ R × R+∗ .
1. Traduisez la propriété de F en termes de la loi de ξ1 .
2. Prouvez que le modèle est identifiable.
Soient S = {(pA ,pB ,pC ) ∈ (R+ )3 | pA + pB + pC = 1}, le simplexe de dimension 3 et
sa tranche T = {(pA ,pC ) ∈ (R+ )2 | pA + pC ≤ 1}. Alors S est en bijection avec T en
vertu de la relation pB = 1 − pA − pC . Posons pA = P(Z1 < 0), pB = P(Z1 ∈ [0,1])
et pC = P(Z1 > 1). Pour prouver que le modèle est identifiable, on pourrait, par
exemple, montrer que la fonction K : S → Θ, définie par (pA ,pC ) 7→ θ = K(pA ,pC )
est bijective.
3. Montrez que l’estimateur du maximum de vraisemblance θn de θ s’écrit θb = K(b pA ,b
pC )
pour des estimations par maximum de vraisemblance pbA , pbC que l’on précisera.
4. Déterminez les propriétés asymptotiques de (b pC ) lorsque n → ∞.
pA ,b
Comment en déduiriez-vous un test de l’hypothèse θ = θ0 contre θ 6= θ0 .
5. Que se passe-t-il lorsque la variable Xi prend 2 valeurs (0, ou 1) selon que Yi < 0
ou Yi ≥ 0 ? Et lorsqu’elle prend 4 valeurs (Xi = 2 si 1 < Yi ≤ 2 et Xi = 3 pour
Yi > 2)? Ces modèles sont-il identifiables, que dire de leur estimateur du maximum
de vraisemblance?

2
Corrigé de l’examen SE203, session 2002-2003

Exercice A (Modèle exponentiel)

1. log pλ (x) = n log λ − λ(x1 + · · · + xn ), donc S = X1 + · · · + Xn est une statistique


exhaustive, on voit facilement qu’elle est complète.
2. De plus, L̇λ (x) = n/λ − (x1 + · · · + xn ), s’annule lorsque λ = 1/x et λb = 1/X
3. Pour n = 1, on obtient I1 (λ) = Var λ X1 = 2/λ − 1/λ = 1/λ , donc In (λ) = λn2 .
2 2 2

4. Le modèle est régulier, si λ > 0 mais pas si λ ≥ 0.


5. L’estimateur du maximum de vraisemblance est biaisé dans ce p cas: l’inégalité de

Cauchy Schwartz implique en effet que Eλ λEλ X > 1, (car 1 = λ
b b · X), le fait
que (X)2 n’est pas constant implique que l’inégalité est stricte. Par suite la borne
de Cramer Rao ne s’applique pas ici, un calcul direct prouve qu’il n’est pas efficace
(la totalité des points sera accordée avec l’une des ces deux réponses).
De fait, le calcul (qui utilise la loi déterminée en question 7) prouve que Var λ λ b=
n2 λ2 λ2 −1 −1
(n−1)2 (n−2) > n = In (λ). Notons enfin que limn nVar λ λ = I1 (λ) (bien que
b
cette proprit́é ne soit pas l’efficacité asymptotique).
6. C’est un résultat du cours, mais pour le prouver, on peut écrire,

√ √ λ2
   
1 X
n −λ = n −
X (X)2 λ

le lemme de Slutsky permet de conclure avec la relation Eλ X1 = λ1 .


n
λ
7. On calcule par récurrence fn (x) = (n−1)! xn e−λx pour x ≥ 0 (on peut aussi noter que
2λX1 ∼ γ(1,1/2) et utiliser l’additivité de ces lois). La statistique S est exhaustive
(question 1) donc un bon estimateur de λ s’écrit sous la forme T = g(S), pour
2
obtenir un estimateur R optimal, on pourrait minimiser Rλ (T ) = Eλ (g(S) − λ) ou
son risque bayésien Rλ (T )dν(λ). Dans le cas d’un mesure ν, exponentielle, elle
aussi, les calculs sont possibles lorsque l’on a des éléments de calcul des variations.
De tels calculs n’ont d’intérêt que pour des estimateurs biaisés ou pas réguliers en
vertu de la borne FDCR.

Exercice B (Paramètre de translation)


Q
1. Vθ = pθ (X) = i f0 (Xi − θ).
2. Il suffit que f0 soit dérivable et I = f002 /f0 < ∞ (en réalité, l’absolue-continuité
R

de f0 qui implique la dérivabilité p.s., et équivaut au fait que la dérivée définie p.s.
soit intégrable, suffit avec cette condition). L’information de Fisher de ce modèle
vaut nI.
R
3. Comme xf0 (x)dx = 0, on a
Z Z Z
Varθ X1 = x2 fθ (x)dx = (x + θ)2 − θ2 f0 (x)dx = x2 f0 (x)dx


3
et, puisque xf00 (x)dx = − f0 (x)dx = −1 (intégration par parties), l’inégalité
R R

FDCR s’écrit ainsi


Z  0  2 Z  0 2 Z
f0 (x) f0 (x)
1= · x f0 (x)dx ≤ f0 (x)dx x2 f0 (x)dx
f0 (x) f0 (x)

f00
4. L’efficacité dans l’inégalité de Schwartz a lieu lorsque les fonctions f0 et x 7→ x sont
proportionnelles.
5. C’est le TLC.

Exercice C (Détection d’un signal)

1. La densité du modèle s’écrit avec θ = 0 ou θ = 1 selon qu’on est dans l’hypothèse


nulle H0 d’un bruit pur ou l’hypothèse H1 d’un signal bruité.
N
N 1 X
log pθ (x) = − log(2π(σξ2 + θση2 )) − 2 X2
2 σξ + θση2 i=1 i

2. Donc ! N
p1 (x) N σξ2 ση2 X
log = − log +1 + 2 2 X2
p0 (x) 2 ση2 σξ (σξ + ση2 ) i=1 i
PN
ainsi le test rejette l’hypothèse nulle lorsque i=1 Xi2 > σξ2 χ2N,1−α . La puissance
 
du test vaut β = P (σξ2 + ση2 )χ2N ≥ σξ2 χ2N,1−α
3. La fonction Φ(x) est croissante et (Φ(z) ≥ α ⇔ z ≥ ϕα ).√
On utilise l’approximation χ2N,1−α ' χ e2N,1−α = N + 2N ϕ1−α obtenue via le
TLC; en effet les valeurs Eχ2N = 1,Var χ2N = 2 s’obtiennent rapidement grâce à des
intégrations par parties.
σξ2
Ainsi, en posant ρ = 2
σξ +ση2
, on réécrit
!
χ2N − N ρχ2N,1−α − N
β = P χ2N ≥ ρχ2N,1−α = P

√ ≥ √
2N 2N

et l’approximation de la puissance est donc


 q 
N
σξ2 ϕ1−α − ση2
!
χ2N,1−α − N
ρe 2
βe = Φ √ = Φ 
2N σξ2 + ση2

4. Donc le test est asymptotiquement sans biais lorsque


q
σξ2 ϕ1−α − ση2 N2
≤ ϕα = −ϕ1−α
σξ2 + ση2

4
σ2
q  
N
c’est-à-dire 2 ≥ ϕ1−α 1 + 2 σξ2 .
η

On obtient donc βe ≥ α lorsque


!!2
σξ2
N > 2 ϕ1−α 1+2 2 ,
ση

5. est une variante du théorème 1.2 du cours polycopié, on y remplace les variables de
Bernoulli par des carrés de gaussiennes indépendantes .

Exercice D (Une variante du modèle Tobit)

1. La fonction F : R →]0,1[ est alors continue et d’inverse continue. De plus, la loi


de ξ1 est sans atome (P(ξ1 = x) = 0 pour tout x ∈ R) et charge tout intervalle
(P(ξ1 ∈]a,b[) > 0 pour a < b).
En termes de loi, ceci signifie (de manière peu parlante) que la loi de ξ1 est une
mesure équivalente à la mesure de Lebesgue. Pour finir, rappelons que l’existence
d’une densit n’est là que pour simplifier les conditions: il existe des loi continues et
non absolument continues comme celle de Cantor
Seule l’hypothèse F bijective sera utilisée par la suite.
2. On a pA = F (−m/σ), pC = 1 − F ((1 − m)/σ). La loi de (X1 , . . . ,Xn ) s’écrit

Pθ ((X1 , . . . ,Xn ) = (x1 , . . . ,xn )) = Pθ (x1 , . . . ,xn ) = pnAA pnBB pnCC ,

avec nA = i1I(xi =0) , nB = i1I(xi =1) et nC = i1I(xi =2) . Posons a = F −1 (pA ),


P P P
c = F −1 (1 − pC ), alors m + aσ = 0,m + cσ = 1 donc σ = 1/(c − a), m = −a/(c − a).
L’application θ 7→ (pA ,pC ) est donc bijective et le modèle est identifiable.
3. On trouve pbA = NA /n, pbB = NB /n et pbC = NC /n avec des notations évidentes
donc
−F −1 NnA

1
σ
b = −1 n−NC  , mb = −1 n−NC 
− F −1 NnA − F −1 NnA

F n F n

4. On a n(b pA − pA ,b pC − pC ) → N2 (0,Σ) pour Σ, la matrice de covariance (2 × 2) du
couple (1I(Z1 <0)
√ , 1
I (Z 1 >1)
). Un test asymptotique de l’hypothèse θ = θ0 contre θ 6= θ0
suit du TLC n(b pA − p0A ,bpC − p0C ) → N2 (0,Σ) obtenu lorsque (p0A ,p0C ) = K −1 (θ0 ).

La normalité asymptotique de n(θb− θ) suit aussi du TLC précédent pour (b pA ,b
pC )
et du lemme de Slutsky car K est différentiable; elle permet de déterminer un test
analogue.
5. – Dans le premier cas, l’application θ 7→ pA n’est plus injectivelorsque l’on pose
pA = P(Z1 < 0). De plus tous les couples tels que F − m σ = NnA sont des
estimateurs du maximum de vraisemblance, qui existe mais n’est pas unique.
On peut même paramétrer l’ensemble EM V de ces estimateurs
    
−1 NA
EM V = −tF ,t t∈R

n

5
– Dans le second cas, avec des notations analogues aux précédentes, l’application
θ 7→ H(θ) = (pA ,pB ,pC ,pD ) n’est plus surjective et l’estimateur du maximum
de vraisemblance n’existe plus forcément: Il existe si et seulement si
 
NA NB NC ND
, , , ∈ H(Θ)
n n n n

De plus, lorsque F est dérivable (la loi de ξ1 a une densité), l’image H(Θ) est
une sous-variété différentiable de dimension 2 dans R4 , elle est donc d’intérieur
vide dans le simplexe de dimension 4, S4 = {(pA ,pB ,pC ,pD ) ∈ (R+ )4 | pA +
pB + pC + pD = 1}, qui est une variété (à bords) de dimension 3 (car il est
homéomorphe à sa tranche T3 = {(pA ,pB ,pC ) ∈ (R+ )4 | pA + pB + pC ≤ 1} qui
est d’intérieur non vide, en vertu de la relation pD = 1 − (pA + pB + pC ).
Il est alors toujours unique: un tel estimateur est aussi estimateur du maxi-
mum de vraisemblance dans le modèle déja étudié; en effet, en posant X ei =
min{Xi ,2}, on retombe précisément sur la suite envisagée dans les questions
précédentes.

Remarque. Notez que les questions sont de difficulté essentiellement croissante; la


dernière question trouve des réponses diverses dont on ne s’étonnera pas si elles mani-
pulent des notions qui ne vous sont pas familières. Le barême autorise la note maximale
sans la traiter.

Barême indicatif
Exercice A sur (9) points
chaque question est notée 1 point, sauf les questions 5 et 7.
Exercice B sur 5 points
chaque question est notée 1 point.
Exercice C sur 5 points
chaque question est notée 1 point.
Exercice D sur (5+1) points
chaque question est notée 1 point, sauf la dernière pour laquelle 1 point additionnel peut
être envisagé.