Vous êtes sur la page 1sur 14

Chapitre 3

Vraisemblance

La méthode de construction des estimateurs par maximisation de la vraisemblance


est sans doute la plus répandue. Le principe de la construction est intuitivement
évident : il s’agit de choisir comme estimateur le paramètre pour lequel l’obser-
vation est la plus probable, ou la plus vraisemblable ...

Dans tout le chapitre, l’espace des observations individuelles est H ⊂ Rk , et


l’espace des paramètres est Θ ⊂ Rd .

3.1 Le concept de vraisemblance


Définition On appelle vraisemblance du modèle statistique (H n , {Pθ }θ ∈Θ ) do-
miné par µ toute application L : H n × Θ → R+ telle que, pour chaque θ ∈ Θ ,
l’application partielle L(.; θ ) : H n → R+ soit un élément de la classe d’équiva-
lence de la densité de Pθ par rapport à µ.

Remarque La vraisemblance, dont l’existence est acquise grâce au théorème de


Radon-Nikodym, dépend donc du choix de la mesure dominante du modèle, qui
n’est pas unique. De plus, en raison du fait que que chaque densité dPθ /dµ n’est
unique qu’à une équivalence près, une vraisemblance elle-même n’est pas unique.
Malgré cela, nous parlerons de "la" vraisemblance, sachant que, dans la pratique,
le choix d’une vraisemblance s’impose souvent par ses propriétés analytiques.

Exemples
1. Dans le modèle statistique ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) de la section 1.1, qui

27
28 CHAPITRE 3. VRAISEMBLANCE

est dominé par la mesure (δ0 + δ1 )⊗n , la vraisemblance L s’exprime par :


n n
L(x1 , · · · , xn ; p) = B(p)⊗n ({x1 , · · · , xn }) = p∑i=1 xi (1 − p)n−∑i=1 xi ,

pour p ∈]0, 1[ et x1 , · · · , xn ∈ {0, 1}.


2. Dans le modèle (Rn , {N(m, σ 2 )⊗n }m∈R,σ ∈R!+ ), qui est dominé par la me-
sure de Lebesgue sur Rn , la vraisemblance est :
! "
2 1 − ∑ni=1 (xi − m)2
L(x1 , · · · , xn ; m, σ ) = √ exp ,
( 2πσ 2 )n 2σ 2

pour xi ∈ R, m ∈ R et σ ∈ R!+ .

Dans le cadre de modèles statistiques issus d’observations indépendantes, l’ex-


pression naturelle de la vraisemblance est simple, comme le montre la proposition
ci-dessous.

Proposition Soit (H , {Qθ }θ ∈Θ ) un modèle statistique dominé par la mesure µ,


et de vraisemblance L. Alors, la fonction

Ln : H n ×Θ → R
n
(x1 , · · · , xn , θ ) (→ ∏ L(xi ; θ ),
i=1

est la vraisemblance du modèle (H n , {Q⊗n


θ }θ ∈Θ ) pour la mesure dominante µ .
⊗n

Preuve Il suffit de remarquer que, pour chaque θ ∈ Θ ,


n
(x1 , · · · , xn ) (→ ∏ L(xi ; θ ),
i=1

θ par rapport à µ . !
est une version de la densité de Q⊗n ⊗n

Reprenons l’exemple de la section 1.1. Les lancers de la pièce ont fourni une
observations (x1 , · · · , xn ) ∈ {0, 1}n . Il est naturel de considérer que la loi B(p0 )⊗n
qui régit cette observation est, parmi toutes les lois B(p)⊗n , p ∈]0, 1[, celle qui
apporte la plus forte probabilité à cette réalisation. C’est ainsi que, pour donner
une valeur approchée de la vraie valeur du paramètre, on est amené à maximiser
en p la vraisemblance L(x1 , · · · , xn ; p) : l’idée sous-jacente est que la valeur de p
3.2. CONSISTANCE DE L’EMV 29

obtenue est celle qui s’ajuste le mieux aux observations. Cette observation motive
le concept de maximum de vraisemblance.

Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé, et L la vraisem-


blance associée. Un estimateur du maximum de vraisemblance (EMV) est une
statistique g à valeurs dans Θ qui vérifie :

L(x; g(x)) = sup L(x; θ ), ∀x ∈ H n .


θ ∈Θ

Ainsi, si (X1 , · · · , Xn ) est un échantillon de la loi Pθ , l’EMV (de θ ) est g(X1 , · · · , Xn ).

Bien entendu, ni l’existence, ni l’unicité des EMV ne sont en général acquises.


Cependant, sous réserve d’existence, un meilleur choix s’impose en pratique.

Dans le modèle statistique issu d’observations indépendantes de la proposition


précédente, on préfère calculer l’EMV en maximisant la "log-vraisemblance" -
c’est-à-dire le logarithme de la vraisemblance- plutôt que la vraisemblance, car
celle-ci s’exprime comme :
n
ln Ln (x1 , · · · , xn ; θ ) = ∑ ln L(xi ; θ ).
i=1

L’intérêt pratique est clair, l’étape de maximisation étant en principe plus facile à
mener.

Exemple L’EMV du modèle statistique (Rn , {N(m, 1)⊗n }m∈R ) est la moyenne
empirique.

3.2 Consistance de l’EMV


L’un des outils de base pour l’étude des EMV est l’information de Kullback :

Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé, de vraisemblance


L. Pour chaque α, θ ∈ Θ , on suppose que ln L(.; α) ∈ L1 (Pθ ). L’information de
Kullback entre les lois Pα et Pθ est définie par :
L(.; α)
K(α, θ ) = −Eθ ln
L(.; θ )
30 CHAPITRE 3. VRAISEMBLANCE

Remarque En complément de la condition d’intégrabilité de ln L(.; α), il est im-


portant de noter qu’on a toujours L(.; α) > 0 Pθ -p.s. pour chaque α, θ ∈ Θ . Pour
vérifier cette affirmation, on peut remarquer tout d’abord que, si µ est la mesure
dominante du modèle associée à cette vraisemblance :
#
0 ≤ Pα (L(.; α) ≤ 0) = L(.; α)dµ ≤ 0,
{L(.;α)≤0}

et donc que Pα (L(.; α) ≤ 0) = 0. On obtient donc le résultat anoncé, car :


# #
L(.; θ )
Pθ (L(.; α) ≤ 0) = L(.; θ )dµ = dPα = 0.
{L(.;α)≤0} {L(.;α)≤0} L(.; α)

En complément de cette observation, remarquons que l’on peut obtenir la pro-


priété Pθ + Pα , avec une preuve similaire.

Proposition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique identifiable et dominé par


µ, de vraisemblance L et d’information de Kullback K. Pour chaque α, θ ∈ Θ ,
K(α, θ ) ≥ 0 et de plus K(α, θ ) = 0 ⇔ α = θ .

Preuve Tout d’abord, il est clair que K(θ , θ ) = 0. Soient donc α .= θ . Comme la
fonction t (→ − lnt définie sur R!+ est convexe, on a avec l’inégalité de Jensen :
#
L(.; α)
K(α, θ ) = − lndPθ
H L(.; θ )
n
# #
L(.; α)
≥ − ln dPθ = − ln L(.; α)dµ = 0.
H n L(.; θ ) Hn

Supposons que K(α, θ ) = 0. On est alors dans un cas d’égalité dans l’inégalité
de Jensen. Comme t (→ − lnt définie sur R!+ est strictement convexe, on en déduit
qu’il existe C ∈ R+ tel que L(.; α) = CL(.; θ ) Pθ -p.s. Alors, pour tout borélien
A⊂H n : # #
L(.; α)
Pα (A) = L(.; α)dµ = dPθ = CPθ (A).
A A L(.; θ )

On en déduit que C = 1 (prendre A = H n ), et donc que Pθ = Pα , ce qui contredit


l’identifiabilité du modèle. !
3.2. CONSISTANCE DE L’EMV 31

Cette propriété de l’information de Kullback permet d’identifier le paramètre


inconnu θ en tant que seule solution de l’équation K(., θ ) = 0. C’est en ce sens
que l’information de Kullback donne des informations sur le modèle, nous per-
mettant ainsi de de dégager des conditions assurant la consistance de l’EMV.

Théorème Soit (H , {Qθ }θ ∈Θ ) un modèle statistique identifiable et dominé, de


vraisemblance L. On suppose que Θ est compact, et que :
(i) ∀x ∈ H , ln L(x; .) est continu sur Θ ;
(ii) ∀θ ∈ Θ , il existe H ∈ L1 (Qθ ) telle que supα∈Θ | ln L(.; α)| ≤ H.
On note θ̂ l’EMV de θ associé à la vraisemblance
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ )
i=1

du modèle (H n , {Q⊗n
θ }θ ∈Θ ). Alors, θ̂ est consistant.

Preuve On fixe θ ∈ Θ et on note Pθ = Q⊗n


θ . Soit (X1 , · · · , Xn ) un échantillon de la
loi Pθ et, pour chaque α ∈ Θ :

1 1 n
Un (α) = − ln Ln (X1 , · · · , Xn ; α) = − ∑ ln L(Xi ; α)
n n i=1
U(α) = −Eθ ln L(.; α).

θ P
Remarquons que Un (θ̂ ) = infΘ Un . D’après la loi des grands nombres, Un −→ U
ponctuellement ; nous allons tout d’abord montrer que cette convergence est en
fait uniforme. Pour tout η > 0, on désigne par g(., η) la fonction définie pour
chaque x ∈ H n par

g(x, η) = sup | ln L(x; α) − ln L(x; β )|.


/α−β /≤η

On fixe maintenant ε > 0. Comme g(., η) ≤ 2H avec H ∈ L1 (Pθ ) et g(x, η) → 0 si


η → 0 pour tout x ∈ H n , on a Eθ g(., η) < ε/3 d’après le théorème de Lebesgue,
pour une certaine valeur de η que nous fixons dorénavant. On recouvre le compact
Θ par N boules fermées de Θ de rayon η :
N
$
Θ= B(θ j , η).
j=1
32 CHAPITRE 3. VRAISEMBLANCE

On a dans un premier temps :

sup |Un −U| = max sup |Un −U|


Θ j=1,··· ,N B(θ ,η)
j

≤ max sup |Un −Un (θ j )| + max |Un (θ j ) −U(θ j )|


j=1,··· ,N B(θ ,η) j=1,··· ,N
j

+ max sup |U(θ j ) −U|


j=1,··· ,N B(θ ,η)
j
n
1
≤ ∑ g(Xi, η) + j=1,···
n i=1
max |Un (θ j ) −U(θ j )| + Eθ g(., η).
,N

On en déduit dans un second temps que, puisque Eθ g(., η) < ε/3 :


! " % &
1 n
Pθ sup |Un −U| ≥ ε
Θ
≤ Pθ ∑ g(Xi, η) + j=1,···
n i=1
max |Un (θ j ) −U(θ j )| ≥ 2ε/3
,N
! "
≤ Pθ max |Un (θ j ) −U(θ j )| ≥ ε/3
j=1,··· ,N
% &
1 n
+Pθ ∑ g(Xi, η) ≥ ε/3 .
n i=1

Or, d’après la loi des grands nombres, on a à la fois :

P 1 n Pθ
θ
max |Un (θ j ) −U(θ j )| −→
j=1,··· ,N
0 et ∑
n i=1
g(Xi , η) −→ Eθ g(., η) < ε/3.

θ P
Ces observations nous permettent de déduire que supΘ |Un − U| −→ 0. En parti-
culier,
θ P
Un (θ̂ ) = inf Un −→ inf U. (3.2.1)
Θ Θ

Comme Θ est compact et U est continue d’après les hypothèses, il existe t ∈ Θ tel
que U(t) = infΘ U. Par suite :

θ P
Un (θ̂ ) −Un (θ ) −→ U(t) −U(θ ) = K(t, θ ).

De plus,
Un (θ̂ ) −Un (θ ) = inf Un −Un (θ ) ≤ 0.
Θ
3.2. CONSISTANCE DE L’EMV 33

On a donc K(t, θ ) ≤ 0, ce qui montre que K(t, θ ) = 0 d’où t = θ . D’après (3.2.1),


P θ
Un (θ̂ ) −→ U(θ ) et, puisque Un converge uniformément vers U en probabilité, on
en déduit que
θ P
K(θ̂ , θ ) = U(θ̂ ) −U(θ ) −→ 0.
Soit ε > 0. Il existe γ > 0 tel que si α ∈ Θ vérifie /α − θ / ≥ ε, alors K(α, θ ) ≥ γ.
Par conséquent,
' ( ' (
Pθ /θ̂ − θ / ≥ ε ≤ Pθ K(θ̂ , θ ) ≥ γ −→ 0,

donc θ̂ tend vers θ en probabilité. !

Ces conditions de consistance, notamment la compacité de l’espace des para-


mètres, ne sont certainement pas optimales, comme en atteste l’exemple qui suit.

Exemple Soit (Rn , {C (θ )⊗n }θ >0 ) un modèle statistique, où C (θ ) désigne la loi


sur R de densité
θ 1
, x ∈ R.
π θ + x2
2

On veut montrer que l’EMV est consistant. Fixons θ > 0, et notons Pθ = C (θ )⊗n
et (X1 , · · · , Xn ) un échantillon de la loi Pθ . Un simple calcul nous montre que
l’EMV θ̂ est solution de l’équation ϕn (.) = 1/2, où l’on a noté
1 n 1
ϕn (α) = ∑
n i=1 1 + (Xi /α)2
, α ≥ 0.

D’après la loi des grands nombres, on a pour chaque α ≥ 0 :


P
θ 1 α
ϕn (α) −→ Eθ = ,
1 + (X/α)2 α +θ
la dernière égalité provenant d’un calcul standard. Fixons ε > 0. Comme la fonc-
tion ϕn est croissante, on a
! "
1
Pθ (θ̂ ≥ θ + ε) ≤ Pθ = ϕn (θ̂ ) ≥ ϕn (θ + ε) .
2
Comme ϕn (θ + ε) tend en Pθ -probabilité vers (θ + ε)/(2θ + ε) > 1/2, la dernière
probabilité tend vers 0. De même, on trouve pour ε < 2θ :

Pθ (θ̂ ≤ θ − ε) −→ 0.
34 CHAPITRE 3. VRAISEMBLANCE

En conclusion,

Pθ (|θ̂ − θ | ≥ ε) ≤ Pθ (θ̂ ≥ θ + ε) + Pθ (θ̂ ≤ θ − ε)

tend vers 0, i.e. θ̂ est consistant.

3.3 Information de Fisher


Dans le cadre d’un modèle statistique (H n , {Pθ }θ ∈Θ ) de vraisemblance L telle
que pour chaque x ∈ H n , ln L(x; .) ∈ C 1 , la fonction score au point θ définie par

x (→ ∇ ln L(x; θ ),

et dans laquelle ∇ désigne le gradient par rapport à θ , évalue la variabilité du mo-


dèle.

Par convention, dès que l’on parle de gradient (resp. hessienne), il est sous-
entendu que la fonction est de classe C 1 (resp. C 2 ).

Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé de vraisemblance


L. On suppose que Θ est ouvert, et que pour chaque θ ∈ Θ : ∇ ln L(.; θ ) ∈ L2 (Pθ ).
On appelle information de Fisher la fonction
! ! ""
∂ ∂
I : θ (→ varθ (∇ ln L(.; θ )) = covθ ln L(.; θ ), ln L(.; θ ) .
∂ θi ∂θj i, j=1,··· ,d

Lorsque nous parlerons d’information de Fisher, il sera sous-entendu que les


hypothèses imposées dans cette définition seront satisfaites.

L’information de Fisher est donc une fonction à valeurs dans l’ensemble des
matrices semi-définies positives qui évalue le pouvoir de discrimination du mo-
dèle entre 2 valeurs proches du paramètre d’intérêt. En effet, on voit directement
dans le cas d = 1 que I(θ ) grand traduit une grande variation de la nature des
probabilités du modèle au voisinage de Pθ , d’où une discrimination de la vraie
valeur du paramètre inconnu facilitée. A l’inverse, si I(θ ) est petit, la loi est très
piquée : c’est mauvais, car on est amené à rechercher le maximum de la vraisem-
blance dans une région très vaste. Ce sont ces propriétés de I(θ ) qui fournissent
3.3. INFORMATION DE FISHER 35

une information sur le modèle.

Pour illustrer ces affirmations, reprenons le modèle de la section 1.1, pour


lequel la vraisemblance vaut, si p ∈]0, 1[ et x1 , · · · , xn ∈ {0, 1} :
n n
L(x1 , · · · , xn ; p) = p∑i=1 xi (1 − p)n−∑i=1 xi .

On a déjà vu dans la relation (2.1.1) que :


n
I(p) = var p (∇ ln L(.; p)) = .
p(1 − p)
Dans ce modèle, l’incertitude est faible pour p proche de 0 et 1 alors qu’elle est
grande pour p = 1/2. Ceci se traduit bien par une information I(p) maximale pour
p proche de 0 et 1, et minimale pour p = 1/2.

Dans une situation d’échantillonage i.i.d., l’information de Fisher est pro-


portionnelle à la taille de l’échantillon. Cette propriété, que nous montrons ci-
dessous, légitime encore plus ce concept en tant que mesure d’une quantité d’in-
formation.

Proposition Soit (H , {Qθ }θ ∈Θ ) un modèle statistique dominé d’information de


Fisher I. Alors, l’information de Fisher In du modèle (H n , {Q⊗n
θ }θ ∈Θ ) vaut In (θ ) =
nI(θ ) pour chaque θ ∈ Θ .

Preuve Si L désigne la vraisemblance du modèle (H , {Qθ }θ ∈Θ ), la vraisem-


blance Ln du modèle (H n , {Q⊗n
θ }θ ∈Θ ) est :
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ ).
i=1

Le score de ce dernier modèle est donc :


n
∇ ln Ln (x1 , · · · , xn ; θ ) = ∑ ∇ ln L(xi ; θ ).
i=1

Si (X1 , · · · , Xn ) est un échantillon de la loi Pθ = Q⊗n


θ , on a alors par indépendance :
% &
n n
In (θ ) = varθ ∑ ∇ ln L(Xi; θ ) = ∑ varθ (∇ ln L(Xi ; θ )) = nI(θ ).
i=1 i=1
36 CHAPITRE 3. VRAISEMBLANCE

!
Du point de vue des calculs, on se réfèrera souvent à la proposition qui suit,
dont l’objectif principal est de donner une forme simplifiée pour la matrice d’in-
formation de Fisher. Dans la suite, ∇2 g(θ ) désigne la matrice Hessienne de g :
Θ → R évaluée en θ ∈ Θ .

Proposition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé par µ, de vrai-


semblance L et d’information de Fisher I. Soit θ ∈ Θ . On suppose qu’il existe un
voisinage V ⊂ Θ de θ tel que supα∈V /∇L(.; α)/ ∈ L1 (µ). Alors :
(i) Eθ ∇ ln L(.; θ ) = 0.
(ii) si, en outre, supα∈V /∇2 L(.; α)/ ∈ L1 (µ), on a I(θ ) = −Eθ ∇2 ln L(.; θ ).
Les conditions de cette proposition ne sont pas aussi restrictives qu’elle peuvent
le sembler, car elle sont satisfaites par bon nombre de modèles statistiques. Comme
nous allons le voir, il s’agit essentiellement de donner des conditions de dérivation
sous une intégrale.

Preuve On commence par remarquer que, sous la condition supα∈V /∇L(.; α)/ ∈
L1 (µ), on a d’après le théorème de Lebesgue :
# #
∇L(x; θ )µ(dx) = ∇ L(x; θ )µ(dx) = 0.
Hn Hn
Par suite,
# #
Eθ ∇ ln L(.; θ ) = (∇ ln L(x; θ )) L(x; θ )µ(dx) = ∇L(x; θ )µ(dx) = 0,
Hn Hn
d’où (i). Montrons maintenant (ii). Pour i, j = 1, · · · , d et x ∈ H n , on a
) 2 * ) *) *
∂ ∂ ∂
∂2 ∂ θi ∂ θ j L(x; θ ) ∂ θi L(x; θ ) ∂ θ j L(x; θ )
ln L(x; θ ) = − .
∂ θi ∂ θ j L(x; θ ) L2 (x; θ )
Il est bon de remarquer que chacune des expressions qui interviennent dans le
membre de droite est une fonction de x qui est dans L1 (Pθ ) : c’est clair pour le
premier terme car ∇2 L(.; θ ) ∈ L1 (µ) ; c’est vrai aussi pour le second membre sous
la condition d’existence de l’information de Fisher, i.e. ∇ ln L(.; θ ) ∈ L2 (Pθ ). Le
théorème de Lebesgue montre que sous l’hypothèse supα∈V /∇2 L(.; α)/ ∈ L1 (µ),
on a : # #
∂2 ∂2
L(x; θ )µ(dx) = L(x; θ )µ(dx) = 0.
H n ∂ θi ∂ θ j ∂ θi ∂ θ j H n
3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV 37

Par suite,
# ! "
∂2 ∂2
Eθ ln L(.; θ ) = ln L(x; θ ) L(x; θ )µ(dx)
∂ θi ∂ θ j H n ∂ θi ∂ θ j
# ! "! "
∂ ∂ 1
= − L(x; θ ) L(x; θ ) µ(dx)
H n ∂ θi ∂θj L(x; θ )
∂ ∂
= −Eθ ln L(.; θ ) ln L(.; θ ).
∂ θi ∂θj
Or, on a aussi par définition :
! "
∂ ∂
I(θ )i j = covθ ln L(.; θ ), ln L(.; θ )
∂ θi ∂θj
∂ ∂
= Eθ ln L(.; θ ) ln L(.; θ ),
∂ θi ∂θj
d’où (ii). !

Cette proposition légitime la définition qui suit.

Définition On dit que le modèle statistique dominé (H n , {Pθ }θ ∈Θ ) et de vrai-


semblance L est régulier si pour chaque θ ∈ Θ :
(i) son information de Fisher I en θ existe et est inversible ;
(ii) Eθ ∇ ln L(.; θ ) = 0 et I(θ ) = −Eθ ∇2 ln L(.; θ ).

La proposition précédente nous donne donc des conditions suffisantes de ré-


gularité d’un modèle. A nouveau, il est entendu dans cette définition que les
conditions d’existence de l’information de Fisher sont satisfaites. De même, on
n’évoque l’espérance d’une v.a. que lorsque celle-ci existe.

3.4 Normalité asymptotique de l’EMV


Théorème Soit (H , {Qθ }θ ∈Θ ) un modèle dominé régulier, de vraisemblance L
et d’information de Fisher I tel que, pour chaque θ ∈ Θ , il existe un voisinage
V ⊂ Θ de θ avec supα∈V /∇2 ln L(.; α)/ ∈ L1 (Pθ ). On note θ̂ l’EMV de θ associé
à la vraisemblance
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ )
i=1
38 CHAPITRE 3. VRAISEMBLANCE

du modèle (H n , {Q⊗n } ). Si θ̂ est consistant, alors il est asymptotiquement


√θ θ ∈Θ
normal, de vitesse n et de variance asymptotique I(θ )−1 :
√ ' ( L /Q⊗n
n θ̂ − θ −→θ N(0, I(θ )−1 ), ∀θ ∈ Θ .

Remarque Si les conditions de régularité du modèle ne sont certainement pas


optimales pour garantir un tel résultat, il n’en reste pas moins qu’il est néces-
saire d’imposer une certaine régularité. Considérons en effet le cas du modèle
(Rn+ , {U ([0, θ ])⊗n }θ >0 ). Sa vraisemblance Ln s’écrit pour θ > 0 :
+ −n
θ si 0 ≤ x1 , · · · , xn ≤ θ ;
Ln (x1 , · · · , xn ; θ ) =
0 sinon.

L’EMV calculé à partir d’un échantillon (X1 , · · · , Xn ) de loi U ([0, θ ])⊗n est donc
θ̂ = max1≤i≤n Xi . Calculons maintenant sa vitesse de convergence. En adoptant la
notation Pθ = U ([0, θ ])⊗n , on a pour chaque 0 < t < nθ :
! "
' ' ( ( t
Pθ n θ − θ̂ ≤ t = 1 − Pθ max Xi < θ −
1≤i≤n n
) t *n
= 1− 1− .

Comme la limite est 1 − exp(−t/θ ) dès que t > 0, on a donc montré que
' ( L /Pθ
n θ − θ̂ −→ E (1/θ ).

Ainsi, dans cet exemple de modèle non régulier, ni la vitesse de l’EMV, ni la loi
limite, ne correspondent à celles du théorème.

Preuve On fixe θ ∈ Θ et on pose Pθ = Q⊗n θ . Dans la suite, (X1 , · · · , Xn ) est un


échantillon de loi Pθ . Pour chaque α ∈ Θ , on note :
n
Ln (α) = ln Ln (X1 , · · · , Xn ; α) = ∑ ln L(Xi ; α).
i=1

Comme θ̂ maximise Ln , un développement de Taylor avec reste intégral nous


donne :
!# 1 "
2
' (
0 = ∇Ln (θ̂ ) = ∇Ln (θ ) + ∇ Ln θ + t(θ̂ − θ ) dt (θ̂ − θ ). (3.4.1)
0
3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV 39

Nous examinons séparément chacun des termes qui interviennent dans cette rela-
tion. Rappelons que, puisque le modèle est régulier,
Eθ ∇ ln L(.; θ ) = 0.
Par ailleurs, varθ (∇ ln L(.; θ )) = I(θ ). Donc, d’après le théorème de la limite cen-
trale :
1 1 n
√ ∇Ln (θ ) = √ ∑ ∇ ln L(Xi ; θ ) −→θ N(0, I(θ )).
L /P
n n i=1
Par suite, d’après (3.4.1) :
√ L /Pθ
nL¯n (θ̂ − θ ) −→ N(0, I(θ )),
où on a noté #
¯ 1 1 2 ' (
Ln := ∇ Ln θ + t(θ̂ − θ ) dt.
n 0
On s’intéresse maintenant au comportement asymptotique de ce dernier terme.
Soit, pour chaque x ∈ H n et r > 0 :
σ (x, r) = sup /∇2 ln L(x; α) − ∇2 ln L(x; θ )/.
/α−θ /≤r

Or, σ (., r) ∈ L1 (Pθ ) pour r assez petit et de plus, ln L(x; .) ∈ C 2 pour chaque
x ∈ H n . Fixons ε > 0. D’après le théorème de Lebesgue, il existe r > 0 tel que
Eθ σ (., r) < ε/2. Par ailleurs, comme
# 1
1 n ' (
L¯n = ∑ ∇2 ln L Xi ; θ + t(θ̂ − θ ) dt,
n i=1 0

il est judicieux d’utiliser la décomposition :


', , (
Pθ ,L¯n + I(θ ), ≥ ε
%, , &
,1 n # 1 - ' ( . , ε
, ,
≤ Pθ , ∑ ∇2 ln L Xi ; θ + t(θ̂ − θ ) − ∇2 ln L(Xi ; θ ) dt , ≥
, n i=1 0 , 2
%, , &
,1 n , ε
, ,
+Pθ , ∑ ∇2 ln L(Xi ; θ ) + I(θ ), ≥
, n i=1 , 2
% &
1 n ε ' (
≤ Pθ ∑
n i=1
σ (Xi , r) ≥
2
+ Pθ /θ̂ − θ / ≥ r
%, , &
,1 n , ε
, ,
+Pθ , ∑ ∇2 ln L(Xi ; θ ) + I(θ ), ≥ .
, n i=1 , 2
40 CHAPITRE 3. VRAISEMBLANCE

Le passage à la dernière inégalité a été obtenu par une intersection avec l’évé-
nement {/θ̂ − θ / < r}. Or, Eθ σ (., r) < ε/2 et Eθ ∇2 ln L(.; θ ) = −I(θ ) car le
modèle est régulier. Comme θ̂ est consistant, on a donc, d’après la loi des grands
nombres :

L¯n −→ −I(θ ).
Comme I(θ ) est inversible, Pθ (L¯n inversible) → 1. On peut supposer pour sim-
plifier que L¯n est inversible. Alors, en utilisant la décomposition :
√ √ √
I(θ ) n(θ̂ − θ ) = (I(θ ) + L¯n ) n(θ̂ − θ ) − L¯n n(θ̂ − θ )
√ √
= (I(θ )L¯n−1 + 1)L¯n n(θ̂ − θ ) − L¯n n(θ̂ − θ ),

on en déduit du Lemme de Slutsky que


√ L /Pθ
n(θ̂ − θ ) −→ I(θ )−1 N(0, I(θ )) = N(0, I(θ )−1 ),

d’où le théorème. !

Vous aimerez peut-être aussi