CTRL 2007

Ecole Polytechnique — Année 2006-2007
MAP433 Statistique — Contrôle de connaissance

Durée trois heures; documents de cours autorisés
Mercredi 2 mai 2007
Le corrigé est succinct et ne constitue en aucun cas un modèle de rédaction. On se borne ici
à donner les principaux arguments pour chacune des questions en renvoyant au cours (polycopié
et/ou transparents) pour ce qui concerne les résultats de cours utilisés dans le contrôle.
1 Le radar défectueux
On suppose ici que la distribution de la vitesse des véhicules en un point donné du réseau
routier est correctement modélisée, après passage sur une échelle logarithmique, par une loi
gaussienne N (µ, σ 2 ) de moyenne µ et de variance σ 2 . Dans tout ce qui suit, on considère que
l’écart type σ > 0 est connu et que µ est le paramètre d’intérêt. On notera Φ la fonction de
répartition normale définie par
Z x
1 t2
Φ(x) = √ e− 2 dt (1)
−∞ 2π
On considère par ailleurs que les différents véhicules qui passent en ce point du réseau ont
des vitesses indépendantes.
On suppose que l’on dispose, pour mesurer la vitesse des véhicules, d’un radar qui présente
le défaut suivant : les véhicules dont la vitesse Y ∗ (sur l’échelle logarithmique) dépasse un
certain seuil τ (connu) ne peuvent être détectés par le système. On dispose donc d’observations
indépendantes Y1 , . . . , Yn provenant de la loi N (µ, σ 2 ) tronquée au seuil τ , c’est-à-dire : si Y ∗
désigne une variable de loi N (µ, σ 2 ), la loi dúne observation Y est telle que
Pµ (Y ∈ [a, b]) = Pµ (Y ∗ ∈ [a, b]|Y ∗ ≤ τ )
Question 1.1. Montrer que la log-vraisemblance d’une observation Y issue du modèle décrit
ci-dessus s’écrit
(Y − µ)2

1 2 τ −µ
log `(Y ; µ) = − log 2π + log σ + − log Φ (2)
2 σ2 σ
h 2
i
Corrigé. Par définition, `(y; µ) = Pµ (Y1∗ ≤τ ) × √ 1 2 exp − (y−µ)
2σ 2 pour y ∈] − ∞, τ ] ; par chan-
2πσ
∗ τ −µ
gement de variable, on montre que Pµ (Y ≤ τ ) = Φ σ .
1
Question 1.2. Montrer que l’information de Fisher (associée à une observation) pour le
paramètre µ s’écrit
 ( 
)2
1 Φ̇ τ − µ Φ̈ τ − µ 
IF (µ) = 2 1 −  −
σ Φ σ Φ σ
où 2
Φ̇ 1 e−x /2
(x) = √
Φ 2π Φ(x)
et 2
Φ̈ x e−x /2
(x) = − √
Φ 2π Φ(x)
d2 log `(Y ;µ)
h i
Corrigé. Il est ici préférable d’utiliser la forme IF (µ) = −Eµ dµ2
de l’information de
Fisher ; le calcul est direct (en notant que Φ̇(x) est, par définition, la densité de probabilité
normale).
Question 1.3. On rappelle qu’un modèle est dit appartenir à la famille exponentielle lorsque
`(y; θ) = C(θ)h(y) exp [θy] (3)
(on suppose ici que θ est un paramètre scalaire). Pour un modèle de la forme définie en (3)
montrer, en supposant les conditions de régularité nécessaires, que
1. l’estimateur du maximum de vraisemblance θ̂n est implicitement défini par l’équation
n
1X
Eθ̂n [Y ] = Yi
n
i=1
2. l’information de Fisher (pour une observation) est donnée par
IF (θ) = Vθ (Y )
R −1
(indication : noter le fait que C(θ) = h(y) exp [θy] dy ).
Corrigé. Cf. cours (voir notamment p. 25 des transparents de cours 1 à 3).
Question 1.4. En déduire que dans le modèle considéré ici

1. l’estimateur du maximum de vraisemblance µ̂n est défini implicitement par l’équation
n
1X
Yi = f (µ̂n )
n
i=1
où
Φ̇ τ −µ
f (µ) = µ − σ
Φ σ
2. et que f (µ) est une fonction strictement croissante de µ.
2
Corrigé. Le modèle considéré appartient à la famille exponentielle en posant θ = µ/σ 2 , donc
µ2
f (µ) = Eµ (Y ) = − d logdθC(θ) où log C(θ) = − 2σ 2 − log Φ
τ −µ
σ (on peut aussi calculer directe-
∗ ∗
ment Eµ (Y ) = Eµ (Y |Y ≤ τ ) avec le même changement de variable qu’à la question 1.1).
En prouvant le second point de la question précédente on a montré que, de façon générale, dans
2
le modèle exponentiel dEdθ θ [Y ]
= − d log C(θ)
dθ2
= Vθ [Y ] ≥ 0. Ici, si σ > 0, Vµ (Y ) > 0 donc
f (µ) = Eµ (Y ) est une fonction strictement croissante.
Question 1.5. Montrer que si X suit une loi normale centrée réduite
−1
1 1 − x2
lim P(X > x) √ e 2 =1
x→+∞ 2π x
R +∞ t2
(indication : utiliser l’intégration par partie sur léxpression P(X > x) = √1 1 t e− 2 dt).
x 2π t
Corrigé. Pour x > 0, le changement de variable indiqué donne

Z +∞
1 1 − x2 1 1 − t2
P(X > x) = √ e 2 + √ e 2 dt
2π x x 2π t2
| {z }
r(x)
Pour majorer le terme de reste, noter que

Z +∞ Z +∞
1 t − t2 1 1 2
− t2 1 1 − x2
r(x) = √ e 2 dt ≤ √ te dt = √ e 2
x 2π t3 x3 x 2π 2π x3
Question 1.6. En déduire que limµ→+∞ f (µ) = τ et par suite que l’estimateur du maximum
de vraisemblance µ̂n est toujours défini de façon unique. On commentera son comportement
lorsque le seuil de troncature τ est faible ainsi que lorsque τ est élevé. Par quel algorithme
numérique simple peut on déterminer µ̂n en pratique ?
Φ̇
Corrigé. De ce qui précède on déduit que Φ (x) ≡ −x lorsque x → −∞, d’où f (µ) → τ
lorsque µ → +∞. Par ailleurs, on vérifie directement que f (µ) ≡ µ lorsque µ → −∞. Comme
1 Pn
n Y
i=1 i ∈] − ∞, τ ], il existe une unique valeur de µ ∈ R solution de l’équation du maximum
de vraisemblance trouvée à la la question 1.4. Pour la déterminer numériquement, on peut utiliser
un algorithme de type dichotomie (à condition de savoir évaluer numériquement Φ).
Question 1.7. On désire estimer la proportion α de véhicules qui ne sont pas détectés par le
radar (parce qu’ils vont trop vite). Montrer que

τ − µ̂n
α̂n = 1 − Φ
σ
est un estimateur consistant de α (on précisera le sens de ce terme).
Corrigé. α = Pµ (Y ∗ > τ ) = 1 − Φ τ −µ

σ qui est une fonction continue de µ et µ̂n est consistant.
3
Question 1.8. Utiliser la méthode delta pour montrer que líntervalle de confiance asymp-
totique à 95% pour α est de la forme

1.96 τ − µ̂n −1/2
α̂n ± √ Φ̇ σ 2 IF (µ̂n )
n σ
où IF est línformation de Fisher déterminée à la question 1.2 (on rappelle que Φ(1.96) =
0.975).
Corrigé. Normalité asymptotique de µ̂n (avec IF−1 (µ̂) comme variance asymptotique), méthode
delta puis lemme de Slutsky pour remplacer le terme de normalisation dépendant de µ par une
estimation consistante ; voir le cours pour la construction de l’intervalle de confiance.
2 Modèle linéaire généralisé pour des données de comptage

On considère un modèle conditionnel dans lequel les variables de réponses Y sont à va-
leur dans N tandis que les variables explicatives X sont à valeur dans Rp . On suppose que
conditionnellement à X, Y est distribué selon une loi de Poisson de paramètre h(X; θ). On
rappelle que la loi de Poisson de paramètre λ est telle que
e−λ λk
Pλ (Y = k) = pour k = 0, 1, . . .
k!
et que Eλ (Y ) = Vλ (Y ) = λ. On suppose que h(X; θ) = exp(X 0 θ) où θ ∈ Rp est le paramètre
d’intérêt.
Question 2.1. Montrer que la log-vraisemblance conditionnelle d’une observation dans ce
modèle s’écrit
0
log `(Y |X; θ) = Y X 0 θ − eX θ − log (Y !) (4)
et calculer la matrice d’information de Fisher (associée à une observation) pour le paramètre
θ. Donner une condition portant sur la loi de X permettant de garantir que cette matrice est
toujours de rang plein. On supposera dans la suite que cette condition est vérifiée.
Corrigé. Le calcul donne
∂ 2 log `(Y |X; θ)
h i
0 X0θ
IF (θ) = −E = E XX e
∂θ∂θ0
Si IF (θ) est
h singulière,
i il existe un vecteur u non nul de Rp tel que u0 IF (θ)u = 0, c’est-à-dire
0 0
tel que E (u0 X)2 eX θ = 0. Comme eX θ est une variable aléatoire strictement positive, on en
déduit que u0 X = 0 avec probabilité 1. A contrario, si V(u0 X) > 0 pour tout vecteur u de Rp ,
c’est-à-dire si la matrice de covariance V (X) est définie positive, IF (θ) le sera également.
Question 2.2. Soit (X1 , Y1 ), . . . , (Xn , Yn ) n observations du modèle. Montrer que l’estima-
teur du maximum de vraisemblance θ̂n est défini de façon unique sous une condition (à
préciser) portant sur les variables explicatives X1 , . . . , Xn . Décrire un algorithme permettant
de déterminer numériquement la valeur de θ̂n .
Corrigé. Cas similaire à celui de la régression logistique (vu en détail cours) : la log-vraisemblance
est strictement concave dès que (X1 , . . . , Xn ) est de rang au moins p et on écrit sans mal
l’algorithme de Newton.
4
Question 2.3. On suppose que le vecteur X de variables explicatives est de dimension p et tel
que la première coordonnée correspond au régresseur constant, c’est-à-dire que Xi (1) = 1 pour
tout i. On souhaite tester l’hypothèse H0 selon laquelle les variables de réponse Yi suivent une
loi de Poisson ne dépendant pas des régresseurs (autre que la constante). Calculer l’estimateur
θ̂n0 du maximum de vraisemblance sous H0 et en déduire l’expression de la statistique de test
ξn du rapport de vraisemblance généralisé. Donner la loi limite de ξn sous H0 et indiquer
comment est construit le test de H0 de niveau asymptotique α correspondant.
Corrigé. On a θ̂n0 (1) = log n1 ni=1 Yi (maximum de vraisemblance dans le modèle d’échantillonnage
P
de Poisson + équivariance du maximum de vraisemblance). La statistique de test (cf. cours pour

sa définition) s’écrit
( n )
X 0 0 (1)

0 0 Xi θ̂n θ̂n
ξn = 2 Yi Xi θ̂n − θ̂n (1) − e −e
i=1
et a pour loi limite la loi χ2p−1 (Proposition 7.7) ; voir cours pour la construction du test de niveau
asymptotique donné.
En pratique, on constate fréquemment que ce modèle, noté M dans la suite, sous-estime
la variabilité des données et on lui préfère souvent le modèle M̃ à donnée latente (ou effet
aléatoire) suivant : Z est une variable aléatoire scalaire positive indépendante de X est non
observable telle que E(Z) = 1 et V(Z) = α > 0 ; conditionnellement à X et à Z, Y est de loi
poissonienne de paramètre
Zh(X; θ)
On supposera ici que la variance α est connue. On note EM,θ , VM,θ l’espérance et la variance
sous le modèle M et, de même, EM̃,θ , VM̃,θ l’espérance et la variance sous le modèle M̃.
Question 2.4. Montrer qu’effectivement les moyennes conditionnelles sous les deux modèles
sont identiques, c’est-à-dire EM̃,θ [Y |X] = EM,θ [Y |X], tandis que les variances conditionnelles
vérifient VM̃,θ [Y |X] > VM,θ [Y |X].
0 0θ 0 0θ
Corrigé. EM̃,θ [Y |X] = EM,θ [Y |X] = eX θ , VM,θ [Y |X] = eX et VM̃,θ [Y |X] = eX θ + αe2X
Question 2.5. Ecrire la vraisemblance conditionnelle `(Y˜ |X; θ) d’une observation sous le
modèle M̃.
Y X 0 θ R +∞
h 0
i
Corrigé. e Y ! 0 exp −zeX θ z Y p(z)dz, où p désigne la densité de probabilité de Z.
˜ on se propose pour
Devant la difficulté de maximiser la vraisemblance conditionnelle `,
estimer le paramètre θ dans le modèle M̃ d’utiliser le M-estimateur obtenu en maximisant la
log-vraisemblance conditionnelle log ` correspondant au modèle M calculée en (4). On note
θ̃n l’estimateur obtenu de la sorte.
Question 2.6. Montrer que lorsque les observations proviennent du modèle M̃ de paramètre
θ0 , la log-vraisemblance conditionnelle log ` normalisée converge vers EM̃,θ0 [log `(Y |X; θ)] et
que cette quantité (EM̃,θ0 [log `(Y |X; θ)]) est maximisée en θ lorsque θ = θ0 . On admettra le
fait que les autres conditions garantissant la normalité asymptotique de θ̃n sont vérifiées.
5
Corrigé. Par la loi des grands nombres, la log-vraisemblance normalisée par 1/n (cf. cours)
converge vers h i
0
EM̃,θ0 [log `(Y |X; θ)] = EM̃,θ0 Y X 0 − eX θ
à une constante près (−EM̃,θ0 [log(Y !)]) qui ne dépend pas du paramètre θ. Cette quantité a pour
h 0 0
i
dérivées première et seconde E X eX θ0 − eX θ et −IF (θ) (où IF (θ) désigne la matrice de
Fisher déterminée à la question 2.1). Il s’agit donc d’une fonction strictement concave en θ dont la
dérivée s’annule en θ = θ0 c’est-à-dire maximisée en θ = θ0 (condition nécessaire de consistance
du M-estimateur).
Question 2.7. Calculer la matrice de covariance asymptotique de θ̃n et montrer que celle-ci
peut se mettre sous la forme
h 0
i
IF−1 (θ) + αIF−1 (θ)E XX 0 e2X θ IF−1 (θ)
où IF (θ) est la matrice de Fisher dans le modèle M obtenue à la question 2.1. Qu’en conclure
concernant les performances de l’estimateur θ̃n en fonction de la variance α ?
Corrigé. Le résultat générique du cours concernant les M-estimateur donne une matrice de co-
variance asymptotique J −1 (θ)I(θ)J −1 (θ) (cf. cours pour la définition des matrices I et J). Le
calcul donne
2 h i
0 X0θ
I(θ) = EM̃ ,θ XX Y − e = EM̃ ,θ XX 0 VM̃ ,θ (Y |X) |
h 0
i h 0
i
= E XX 0 eX θ + αE XX 0 e2X θ
h 0
i
et J(θ) = E XX 0 eX θ = IF (θ).

CTRL 2007

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CTRL 2007

Transféré par

Droits d'auteur :

Formats disponibles

Ecole Polytechnique — Année 2006-2007

MAP433 Statistique — Contrôle de connaissance

Mercredi 2 mai 2007

Pµ (Y ∈ [a, b]) = Pµ (Y ∗ ∈ [a, b]|Y ∗ ≤ τ )

`(y; θ) = C(θ)h(y) exp [θy] (3)

2. l’information de Fisher (pour une observation) est donnée par

Corrigé. Cf. cours (voir notamment p. 25 des transparents de cours 1 à 3).

Question 1.4. En déduire que dans le modèle considéré ici

Corrigé. Pour x > 0, le changement de variable indiqué donne

Pour majorer le terme de reste, noter que

est un estimateur consistant de α (on précisera le sens de ce terme).

2 Modèle linéaire généralisé pour des données de comptage

de Poisson + équivariance du maximum de vraisemblance). La statistique de test (cf. cours pour

Vous aimerez peut-être aussi