Vous êtes sur la page 1sur 6

Ecole Polytechnique — Année 2006-2007

MAP433 Statistique — Contrôle de connaissance


Durée trois heures; documents de cours autorisés

Mercredi 2 mai 2007

Le corrigé est succinct et ne constitue en aucun cas un modèle de rédaction. On se borne ici
à donner les principaux arguments pour chacune des questions en renvoyant au cours (polycopié
et/ou transparents) pour ce qui concerne les résultats de cours utilisés dans le contrôle.

1 Le radar défectueux
On suppose ici que la distribution de la vitesse des véhicules en un point donné du réseau
routier est correctement modélisée, après passage sur une échelle logarithmique, par une loi
gaussienne N (µ, σ 2 ) de moyenne µ et de variance σ 2 . Dans tout ce qui suit, on considère que
l’écart type σ > 0 est connu et que µ est le paramètre d’intérêt. On notera Φ la fonction de
répartition normale définie par
Z x
1 t2
Φ(x) = √ e− 2 dt (1)
−∞ 2π
On considère par ailleurs que les différents véhicules qui passent en ce point du réseau ont
des vitesses indépendantes.
On suppose que l’on dispose, pour mesurer la vitesse des véhicules, d’un radar qui présente
le défaut suivant : les véhicules dont la vitesse Y ∗ (sur l’échelle logarithmique) dépasse un
certain seuil τ (connu) ne peuvent être détectés par le système. On dispose donc d’observations
indépendantes Y1 , . . . , Yn provenant de la loi N (µ, σ 2 ) tronquée au seuil τ , c’est-à-dire : si Y ∗
désigne une variable de loi N (µ, σ 2 ), la loi d´une observation Y est telle que

Pµ (Y ∈ [a, b]) = Pµ (Y ∗ ∈ [a, b]|Y ∗ ≤ τ )

Question 1.1. Montrer que la log-vraisemblance d’une observation Y issue du modèle décrit
ci-dessus s’écrit
(Y − µ)2
   
1 2 τ −µ
log `(Y ; µ) = − log 2π + log σ + − log Φ (2)
2 σ2 σ
h 2
i
Corrigé. Par définition, `(y; µ) = Pµ (Y1∗ ≤τ ) × √ 1 2 exp − (y−µ)
2σ 2 pour y ∈] − ∞, τ ] ; par chan-
2πσ
∗ τ −µ 
gement de variable, on montre que Pµ (Y ≤ τ ) = Φ σ .

1
Question 1.2. Montrer que l’information de Fisher (associée à une observation) pour le
paramètre µ s’écrit
 ( 
 )2  
1 Φ̇ τ − µ Φ̈ τ − µ 
IF (µ) = 2 1 −  −
σ Φ σ Φ σ

où 2
Φ̇ 1 e−x /2
(x) = √
Φ 2π Φ(x)
et 2
Φ̈ x e−x /2
(x) = − √
Φ 2π Φ(x)
d2 log `(Y ;µ)
h i
Corrigé. Il est ici préférable d’utiliser la forme IF (µ) = −Eµ dµ2
de l’information de
Fisher ; le calcul est direct (en notant que Φ̇(x) est, par définition, la densité de probabilité
normale).

Question 1.3. On rappelle qu’un modèle est dit appartenir à la famille exponentielle lorsque

`(y; θ) = C(θ)h(y) exp [θy] (3)

(on suppose ici que θ est un paramètre scalaire). Pour un modèle de la forme définie en (3)
montrer, en supposant les conditions de régularité nécessaires, que
1. l’estimateur du maximum de vraisemblance θ̂n est implicitement défini par l’équation
n
1X
Eθ̂n [Y ] = Yi
n
i=1

2. l’information de Fisher (pour une observation) est donnée par

IF (θ) = Vθ (Y )
R −1
(indication : noter le fait que C(θ) = h(y) exp [θy] dy ).

Corrigé. Cf. cours (voir notamment p. 25 des transparents de cours 1 à 3).

Question 1.4. En déduire que dans le modèle considéré ici


1. l’estimateur du maximum de vraisemblance µ̂n est défini implicitement par l’équation
n
1X
Yi = f (µ̂n )
n
i=1

où  
Φ̇ τ −µ
f (µ) = µ − σ
Φ σ
2. et que f (µ) est une fonction strictement croissante de µ.

2
Corrigé. Le modèle considéré appartient à la famille exponentielle en posant θ = µ/σ 2 , donc
µ2
f (µ) = Eµ (Y ) = − d logdθC(θ) où log C(θ) = − 2σ 2 − log Φ
τ −µ 
σ (on peut aussi calculer directe-
∗ ∗
ment Eµ (Y ) = Eµ (Y |Y ≤ τ ) avec le même changement de variable qu’à la question 1.1).
En prouvant le second point de la question précédente on a montré que, de façon générale, dans
2
le modèle exponentiel dEdθ θ [Y ]
= − d log C(θ)
dθ2
= Vθ [Y ] ≥ 0. Ici, si σ > 0, Vµ (Y ) > 0 donc
f (µ) = Eµ (Y ) est une fonction strictement croissante.

Question 1.5. Montrer que si X suit une loi normale centrée réduite
 −1
1 1 − x2
lim P(X > x) √ e 2 =1
x→+∞ 2π x
R +∞ t2
(indication : utiliser l’intégration par partie sur l´expression P(X > x) = √1 1 t e− 2 dt).
x 2π t

Corrigé. Pour x > 0, le changement de variable indiqué donne


Z +∞
1 1 − x2 1 1 − t2
P(X > x) = √ e 2 + √ e 2 dt
2π x x 2π t2
| {z }
r(x)

Pour majorer le terme de reste, noter que


Z +∞ Z +∞
1 t − t2 1 1 2
− t2 1 1 − x2
r(x) = √ e 2 dt ≤ √ te dt = √ e 2
x 2π t3 x3 x 2π 2π x3

Question 1.6. En déduire que limµ→+∞ f (µ) = τ et par suite que l’estimateur du maximum
de vraisemblance µ̂n est toujours défini de façon unique. On commentera son comportement
lorsque le seuil de troncature τ est faible ainsi que lorsque τ est élevé. Par quel algorithme
numérique simple peut on déterminer µ̂n en pratique ?
Φ̇
Corrigé. De ce qui précède on déduit que Φ (x) ≡ −x lorsque x → −∞, d’où f (µ) → τ
lorsque µ → +∞. Par ailleurs, on vérifie directement que f (µ) ≡ µ lorsque µ → −∞. Comme
1 Pn
n Y
i=1 i ∈] − ∞, τ ], il existe une unique valeur de µ ∈ R solution de l’équation du maximum
de vraisemblance trouvée à la la question 1.4. Pour la déterminer numériquement, on peut utiliser
un algorithme de type dichotomie (à condition de savoir évaluer numériquement Φ).

Question 1.7. On désire estimer la proportion α de véhicules qui ne sont pas détectés par le
radar (parce qu’ils vont trop vite). Montrer que
 
τ − µ̂n
α̂n = 1 − Φ
σ

est un estimateur consistant de α (on précisera le sens de ce terme).

Corrigé. α = Pµ (Y ∗ > τ ) = 1 − Φ τ −µ

σ qui est une fonction continue de µ et µ̂n est consistant.

3
Question 1.8. Utiliser la méthode delta pour montrer que l´intervalle de confiance asymp-
totique à 95% pour α est de la forme
 
1.96 τ − µ̂n −1/2
α̂n ± √ Φ̇ σ 2 IF (µ̂n )
n σ
où IF est l´information de Fisher déterminée à la question 1.2 (on rappelle que Φ(1.96) =
0.975).
Corrigé. Normalité asymptotique de µ̂n (avec IF−1 (µ̂) comme variance asymptotique), méthode
delta puis lemme de Slutsky pour remplacer le terme de normalisation dépendant de µ par une
estimation consistante ; voir le cours pour la construction de l’intervalle de confiance.

2 Modèle linéaire généralisé pour des données de comptage


On considère un modèle conditionnel dans lequel les variables de réponses Y sont à va-
leur dans N tandis que les variables explicatives X sont à valeur dans Rp . On suppose que
conditionnellement à X, Y est distribué selon une loi de Poisson de paramètre h(X; θ). On
rappelle que la loi de Poisson de paramètre λ est telle que
e−λ λk
Pλ (Y = k) = pour k = 0, 1, . . .
k!
et que Eλ (Y ) = Vλ (Y ) = λ. On suppose que h(X; θ) = exp(X 0 θ) où θ ∈ Rp est le paramètre
d’intérêt.
Question 2.1. Montrer que la log-vraisemblance conditionnelle d’une observation dans ce
modèle s’écrit
0
log `(Y |X; θ) = Y X 0 θ − eX θ − log (Y !) (4)
et calculer la matrice d’information de Fisher (associée à une observation) pour le paramètre
θ. Donner une condition portant sur la loi de X permettant de garantir que cette matrice est
toujours de rang plein. On supposera dans la suite que cette condition est vérifiée.
Corrigé. Le calcul donne
∂ 2 log `(Y |X; θ)
  h i
0 X0θ
IF (θ) = −E = E XX e
∂θ∂θ0
Si IF (θ) est
h singulière,
i il existe un vecteur u non nul de Rp tel que u0 IF (θ)u = 0, c’est-à-dire
0 0
tel que E (u0 X)2 eX θ = 0. Comme eX θ est une variable aléatoire strictement positive, on en
déduit que u0 X = 0 avec probabilité 1. A contrario, si V(u0 X) > 0 pour tout vecteur u de Rp ,
c’est-à-dire si la matrice de covariance V (X) est définie positive, IF (θ) le sera également.
Question 2.2. Soit (X1 , Y1 ), . . . , (Xn , Yn ) n observations du modèle. Montrer que l’estima-
teur du maximum de vraisemblance θ̂n est défini de façon unique sous une condition (à
préciser) portant sur les variables explicatives X1 , . . . , Xn . Décrire un algorithme permettant
de déterminer numériquement la valeur de θ̂n .
Corrigé. Cas similaire à celui de la régression logistique (vu en détail cours) : la log-vraisemblance
est strictement concave dès que (X1 , . . . , Xn ) est de rang au moins p et on écrit sans mal
l’algorithme de Newton.

4
Question 2.3. On suppose que le vecteur X de variables explicatives est de dimension p et tel
que la première coordonnée correspond au régresseur constant, c’est-à-dire que Xi (1) = 1 pour
tout i. On souhaite tester l’hypothèse H0 selon laquelle les variables de réponse Yi suivent une
loi de Poisson ne dépendant pas des régresseurs (autre que la constante). Calculer l’estimateur
θ̂n0 du maximum de vraisemblance sous H0 et en déduire l’expression de la statistique de test
ξn du rapport de vraisemblance généralisé. Donner la loi limite de ξn sous H0 et indiquer
comment est construit le test de H0 de niveau asymptotique α correspondant.

Corrigé. On a θ̂n0 (1) = log n1 ni=1 Yi (maximum de vraisemblance dans le modèle d’échantillonnage
P 

de Poisson + équivariance du maximum de vraisemblance). La statistique de test (cf. cours pour


sa définition) s’écrit
( n )
X    0 0 (1)

0 0 Xi θ̂n θ̂n
ξn = 2 Yi Xi θ̂n − θ̂n (1) − e −e
i=1

et a pour loi limite la loi χ2p−1 (Proposition 7.7) ; voir cours pour la construction du test de niveau
asymptotique donné.
En pratique, on constate fréquemment que ce modèle, noté M dans la suite, sous-estime
la variabilité des données et on lui préfère souvent le modèle M̃ à donnée latente (ou effet
aléatoire) suivant : Z est une variable aléatoire scalaire positive indépendante de X est non
observable telle que E(Z) = 1 et V(Z) = α > 0 ; conditionnellement à X et à Z, Y est de loi
poissonienne de paramètre
Zh(X; θ)
On supposera ici que la variance α est connue. On note EM,θ , VM,θ l’espérance et la variance
sous le modèle M et, de même, EM̃,θ , VM̃,θ l’espérance et la variance sous le modèle M̃.

Question 2.4. Montrer qu’effectivement les moyennes conditionnelles sous les deux modèles
sont identiques, c’est-à-dire EM̃,θ [Y |X] = EM,θ [Y |X], tandis que les variances conditionnelles
vérifient VM̃,θ [Y |X] > VM,θ [Y |X].
0 0θ 0 0θ
Corrigé. EM̃,θ [Y |X] = EM,θ [Y |X] = eX θ , VM,θ [Y |X] = eX et VM̃,θ [Y |X] = eX θ + αe2X

Question 2.5. Ecrire la vraisemblance conditionnelle `(Y˜ |X; θ) d’une observation sous le
modèle M̃.
Y X 0 θ R +∞
h 0
i
Corrigé. e Y ! 0 exp −zeX θ z Y p(z)dz, où p désigne la densité de probabilité de Z.
˜ on se propose pour
Devant la difficulté de maximiser la vraisemblance conditionnelle `,
estimer le paramètre θ dans le modèle M̃ d’utiliser le M-estimateur obtenu en maximisant la
log-vraisemblance conditionnelle log ` correspondant au modèle M calculée en (4). On note
θ̃n l’estimateur obtenu de la sorte.

Question 2.6. Montrer que lorsque les observations proviennent du modèle M̃ de paramètre
θ0 , la log-vraisemblance conditionnelle log ` normalisée converge vers EM̃,θ0 [log `(Y |X; θ)] et
que cette quantité (EM̃,θ0 [log `(Y |X; θ)]) est maximisée en θ lorsque θ = θ0 . On admettra le
fait que les autres conditions garantissant la normalité asymptotique de θ̃n sont vérifiées.

5
Corrigé. Par la loi des grands nombres, la log-vraisemblance normalisée par 1/n (cf. cours)
converge vers h i
0
EM̃,θ0 [log `(Y |X; θ)] = EM̃,θ0 Y X 0 − eX θ

à une constante près (−EM̃,θ0 [log(Y !)]) qui ne dépend pas du paramètre θ. Cette quantité a pour
h  0 0
i
dérivées première et seconde E X eX θ0 − eX θ et −IF (θ) (où IF (θ) désigne la matrice de
Fisher déterminée à la question 2.1). Il s’agit donc d’une fonction strictement concave en θ dont la
dérivée s’annule en θ = θ0 c’est-à-dire maximisée en θ = θ0 (condition nécessaire de consistance
du M-estimateur).

Question 2.7. Calculer la matrice de covariance asymptotique de θ̃n et montrer que celle-ci
peut se mettre sous la forme
h 0
i
IF−1 (θ) + αIF−1 (θ)E XX 0 e2X θ IF−1 (θ)

où IF (θ) est la matrice de Fisher dans le modèle M obtenue à la question 2.1. Qu’en conclure
concernant les performances de l’estimateur θ̃n en fonction de la variance α ?

Corrigé. Le résultat générique du cours concernant les M-estimateur donne une matrice de co-
variance asymptotique J −1 (θ)I(θ)J −1 (θ) (cf. cours pour la définition des matrices I et J). Le
calcul donne
  2  h i
0 X0θ
I(θ) = EM̃ ,θ XX Y − e = EM̃ ,θ XX 0 VM̃ ,θ (Y |X) |
h 0
i h 0
i
= E XX 0 eX θ + αE XX 0 e2X θ
h 0
i
et J(θ) = E XX 0 eX θ = IF (θ).