Vraisemblance

Chapitre 3
Vraisemblance
La méthode de construction des estimateurs par maximisation de la vraisemblance

est sans doute la plus répandue. Le principe de la construction est intuitivement
évident : il s’agit de choisir comme estimateur le paramètre pour lequel l’obser-
vation est la plus probable, ou la plus vraisemblable ...
Dans tout le chapitre, l’espace des observations individuelles est H ⊂ Rk , et

l’espace des paramètres est Θ ⊂ Rd .
3.1 Le concept de vraisemblance

Définition On appelle vraisemblance du modèle statistique (H n , {Pθ }θ ∈Θ ) do-
miné par µ toute application L : H n × Θ → R+ telle que, pour chaque θ ∈ Θ ,
l’application partielle L(.; θ ) : H n → R+ soit un élément de la classe d’équiva-
lence de la densité de Pθ par rapport à µ.
Remarque La vraisemblance, dont l’existence est acquise grâce au théorème de

Radon-Nikodym, dépend donc du choix de la mesure dominante du modèle, qui
n’est pas unique. De plus, en raison du fait que que chaque densité dPθ /dµ n’est
unique qu’à une équivalence près, une vraisemblance elle-même n’est pas unique.
Malgré cela, nous parlerons de "la" vraisemblance, sachant que, dans la pratique,
le choix d’une vraisemblance s’impose souvent par ses propriétés analytiques.
Exemples
1. Dans le modèle statistique ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) de la section 1.1, qui
27
28 CHAPITRE 3. VRAISEMBLANCE
est dominé par la mesure (δ0 + δ1 )⊗n , la vraisemblance L s’exprime par :

n n
L(x1 , · · · , xn ; p) = B(p)⊗n ({x1 , · · · , xn }) = p∑i=1 xi (1 − p)n−∑i=1 xi ,
pour p ∈]0, 1[ et x1 , · · · , xn ∈ {0, 1}.

2. Dans le modèle (Rn , {N(m, σ 2 )⊗n }m∈R,σ ∈R!+ ), qui est dominé par la me-
sure de Lebesgue sur Rn , la vraisemblance est :
! "
2 1 − ∑ni=1 (xi − m)2
L(x1 , · · · , xn ; m, σ ) = √ exp ,
( 2πσ 2 )n 2σ 2
pour xi ∈ R, m ∈ R et σ ∈ R!+ .
Dans le cadre de modèles statistiques issus d’observations indépendantes, l’ex-

pression naturelle de la vraisemblance est simple, comme le montre la proposition
ci-dessous.
Proposition Soit (H , {Qθ }θ ∈Θ ) un modèle statistique dominé par la mesure µ,

et de vraisemblance L. Alors, la fonction
Ln : H n ×Θ → R
n
(x1 , · · · , xn , θ ) (→ ∏ L(xi ; θ ),
i=1
est la vraisemblance du modèle (H n , {Q⊗n

θ }θ ∈Θ ) pour la mesure dominante µ .
⊗n
Preuve Il suffit de remarquer que, pour chaque θ ∈ Θ ,

n
(x1 , · · · , xn ) (→ ∏ L(xi ; θ ),
i=1
θ par rapport à µ . !
est une version de la densité de Q⊗n ⊗n
Reprenons l’exemple de la section 1.1. Les lancers de la pièce ont fourni une
observations (x1 , · · · , xn ) ∈ {0, 1}n . Il est naturel de considérer que la loi B(p0 )⊗n
qui régit cette observation est, parmi toutes les lois B(p)⊗n , p ∈]0, 1[, celle qui
apporte la plus forte probabilité à cette réalisation. C’est ainsi que, pour donner
une valeur approchée de la vraie valeur du paramètre, on est amené à maximiser
en p la vraisemblance L(x1 , · · · , xn ; p) : l’idée sous-jacente est que la valeur de p
3.2. CONSISTANCE DE L’EMV 29
obtenue est celle qui s’ajuste le mieux aux observations. Cette observation motive
le concept de maximum de vraisemblance.
Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé, et L la vraisem-

blance associée. Un estimateur du maximum de vraisemblance (EMV) est une
statistique g à valeurs dans Θ qui vérifie :
L(x; g(x)) = sup L(x; θ ), ∀x ∈ H n .

θ ∈Θ
Ainsi, si (X1 , · · · , Xn ) est un échantillon de la loi Pθ , l’EMV (de θ ) est g(X1 , · · · , Xn ).
Bien entendu, ni l’existence, ni l’unicité des EMV ne sont en général acquises.

Cependant, sous réserve d’existence, un meilleur choix s’impose en pratique.
Dans le modèle statistique issu d’observations indépendantes de la proposition

précédente, on préfère calculer l’EMV en maximisant la "log-vraisemblance" -
c’est-à-dire le logarithme de la vraisemblance- plutôt que la vraisemblance, car
celle-ci s’exprime comme :
n
ln Ln (x1 , · · · , xn ; θ ) = ∑ ln L(xi ; θ ).
i=1
L’intérêt pratique est clair, l’étape de maximisation étant en principe plus facile à
mener.
Exemple L’EMV du modèle statistique (Rn , {N(m, 1)⊗n }m∈R ) est la moyenne
empirique.
3.2 Consistance de l’EMV

L’un des outils de base pour l’étude des EMV est l’information de Kullback :
Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé, de vraisemblance

L. Pour chaque α, θ ∈ Θ , on suppose que ln L(.; α) ∈ L1 (Pθ ). L’information de
Kullback entre les lois Pα et Pθ est définie par :
L(.; α)
K(α, θ ) = −Eθ ln
L(.; θ )
Remarque En complément de la condition d’intégrabilité de ln L(.; α), il est im-

portant de noter qu’on a toujours L(.; α) > 0 Pθ -p.s. pour chaque α, θ ∈ Θ . Pour
vérifier cette affirmation, on peut remarquer tout d’abord que, si µ est la mesure
dominante du modèle associée à cette vraisemblance :
#
0 ≤ Pα (L(.; α) ≤ 0) = L(.; α)dµ ≤ 0,
{L(.;α)≤0}
et donc que Pα (L(.; α) ≤ 0) = 0. On obtient donc le résultat anoncé, car :

# #
L(.; θ )
Pθ (L(.; α) ≤ 0) = L(.; θ )dµ = dPα = 0.
{L(.;α)≤0} {L(.;α)≤0} L(.; α)
En complément de cette observation, remarquons que l’on peut obtenir la pro-

priété Pθ + Pα , avec une preuve similaire.
Proposition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique identifiable et dominé par

µ, de vraisemblance L et d’information de Kullback K. Pour chaque α, θ ∈ Θ ,
K(α, θ ) ≥ 0 et de plus K(α, θ ) = 0 ⇔ α = θ .
Preuve Tout d’abord, il est clair que K(θ , θ ) = 0. Soient donc α .= θ . Comme la
fonction t (→ − lnt définie sur R!+ est convexe, on a avec l’inégalité de Jensen :
#
L(.; α)
K(α, θ ) = − lndPθ
H L(.; θ )
n
# #
L(.; α)
≥ − ln dPθ = − ln L(.; α)dµ = 0.
H n L(.; θ ) Hn
Supposons que K(α, θ ) = 0. On est alors dans un cas d’égalité dans l’inégalité
de Jensen. Comme t (→ − lnt définie sur R!+ est strictement convexe, on en déduit
qu’il existe C ∈ R+ tel que L(.; α) = CL(.; θ ) Pθ -p.s. Alors, pour tout borélien
A⊂H n : # #
L(.; α)
Pα (A) = L(.; α)dµ = dPθ = CPθ (A).
A A L(.; θ )
On en déduit que C = 1 (prendre A = H n ), et donc que Pθ = Pα , ce qui contredit

l’identifiabilité du modèle. !
Cette propriété de l’information de Kullback permet d’identifier le paramètre

inconnu θ en tant que seule solution de l’équation K(., θ ) = 0. C’est en ce sens
que l’information de Kullback donne des informations sur le modèle, nous per-
mettant ainsi de de dégager des conditions assurant la consistance de l’EMV.
Théorème Soit (H , {Qθ }θ ∈Θ ) un modèle statistique identifiable et dominé, de

vraisemblance L. On suppose que Θ est compact, et que :
(i) ∀x ∈ H , ln L(x; .) est continu sur Θ ;
(ii) ∀θ ∈ Θ , il existe H ∈ L1 (Qθ ) telle que supα∈Θ | ln L(.; α)| ≤ H.
On note θ̂ l’EMV de θ associé à la vraisemblance
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ )
i=1
du modèle (H n , {Q⊗n
θ }θ ∈Θ ). Alors, θ̂ est consistant.
Preuve On fixe θ ∈ Θ et on note Pθ = Q⊗n

θ . Soit (X1 , · · · , Xn ) un échantillon de la
loi Pθ et, pour chaque α ∈ Θ :
1 1 n
Un (α) = − ln Ln (X1 , · · · , Xn ; α) = − ∑ ln L(Xi ; α)
n n i=1
U(α) = −Eθ ln L(.; α).
θ P
Remarquons que Un (θ̂ ) = infΘ Un . D’après la loi des grands nombres, Un −→ U
ponctuellement ; nous allons tout d’abord montrer que cette convergence est en
fait uniforme. Pour tout η > 0, on désigne par g(., η) la fonction définie pour
chaque x ∈ H n par
g(x, η) = sup | ln L(x; α) − ln L(x; β )|.

/α−β /≤η
On fixe maintenant ε > 0. Comme g(., η) ≤ 2H avec H ∈ L1 (Pθ ) et g(x, η) → 0 si

η → 0 pour tout x ∈ H n , on a Eθ g(., η) < ε/3 d’après le théorème de Lebesgue,
pour une certaine valeur de η que nous fixons dorénavant. On recouvre le compact
Θ par N boules fermées de Θ de rayon η :
N
$
Θ= B(θ j , η).
j=1
On a dans un premier temps :
sup |Un −U| = max sup |Un −U|

Θ j=1,··· ,N B(θ ,η)
j
≤ max sup |Un −Un (θ j )| + max |Un (θ j ) −U(θ j )|

j=1,··· ,N B(θ ,η) j=1,··· ,N
j
+ max sup |U(θ j ) −U|

j=1,··· ,N B(θ ,η)
j
n
1
≤ ∑ g(Xi, η) + j=1,···
n i=1
max |Un (θ j ) −U(θ j )| + Eθ g(., η).
,N
On en déduit dans un second temps que, puisque Eθ g(., η) < ε/3 :

! " % &
1 n
Pθ sup |Un −U| ≥ ε
Θ
≤ Pθ ∑ g(Xi, η) + j=1,···
n i=1
max |Un (θ j ) −U(θ j )| ≥ 2ε/3
,N
! "
≤ Pθ max |Un (θ j ) −U(θ j )| ≥ ε/3
j=1,··· ,N
% &
1 n
+Pθ ∑ g(Xi, η) ≥ ε/3 .
n i=1
Or, d’après la loi des grands nombres, on a à la fois :
P 1 n Pθ
θ
max |Un (θ j ) −U(θ j )| −→
j=1,··· ,N
0 et ∑
n i=1
g(Xi , η) −→ Eθ g(., η) < ε/3.
θ P
Ces observations nous permettent de déduire que supΘ |Un − U| −→ 0. En parti-
culier,
θ P
Un (θ̂ ) = inf Un −→ inf U. (3.2.1)
Θ Θ
Comme Θ est compact et U est continue d’après les hypothèses, il existe t ∈ Θ tel
que U(t) = infΘ U. Par suite :
θ P
Un (θ̂ ) −Un (θ ) −→ U(t) −U(θ ) = K(t, θ ).
De plus,
Un (θ̂ ) −Un (θ ) = inf Un −Un (θ ) ≤ 0.
Θ
On a donc K(t, θ ) ≤ 0, ce qui montre que K(t, θ ) = 0 d’où t = θ . D’après (3.2.1),

P θ
Un (θ̂ ) −→ U(θ ) et, puisque Un converge uniformément vers U en probabilité, on
en déduit que
θ P
K(θ̂ , θ ) = U(θ̂ ) −U(θ ) −→ 0.
Soit ε > 0. Il existe γ > 0 tel que si α ∈ Θ vérifie /α − θ / ≥ ε, alors K(α, θ ) ≥ γ.
Par conséquent,
' ( ' (
Pθ /θ̂ − θ / ≥ ε ≤ Pθ K(θ̂ , θ ) ≥ γ −→ 0,
donc θ̂ tend vers θ en probabilité. !
Ces conditions de consistance, notamment la compacité de l’espace des para-

mètres, ne sont certainement pas optimales, comme en atteste l’exemple qui suit.
Exemple Soit (Rn , {C (θ )⊗n }θ >0 ) un modèle statistique, où C (θ ) désigne la loi

sur R de densité
θ 1
, x ∈ R.
π θ + x2
2
On veut montrer que l’EMV est consistant. Fixons θ > 0, et notons Pθ = C (θ )⊗n
et (X1 , · · · , Xn ) un échantillon de la loi Pθ . Un simple calcul nous montre que
l’EMV θ̂ est solution de l’équation ϕn (.) = 1/2, où l’on a noté
1 n 1
ϕn (α) = ∑
n i=1 1 + (Xi /α)2
, α ≥ 0.
D’après la loi des grands nombres, on a pour chaque α ≥ 0 :

P
θ 1 α
ϕn (α) −→ Eθ = ,
1 + (X/α)2 α +θ
la dernière égalité provenant d’un calcul standard. Fixons ε > 0. Comme la fonc-
tion ϕn est croissante, on a
! "
1
Pθ (θ̂ ≥ θ + ε) ≤ Pθ = ϕn (θ̂ ) ≥ ϕn (θ + ε) .
2
Comme ϕn (θ + ε) tend en Pθ -probabilité vers (θ + ε)/(2θ + ε) > 1/2, la dernière
probabilité tend vers 0. De même, on trouve pour ε < 2θ :
Pθ (θ̂ ≤ θ − ε) −→ 0.
En conclusion,
Pθ (|θ̂ − θ | ≥ ε) ≤ Pθ (θ̂ ≥ θ + ε) + Pθ (θ̂ ≤ θ − ε)
tend vers 0, i.e. θ̂ est consistant.
3.3 Information de Fisher

Dans le cadre d’un modèle statistique (H n , {Pθ }θ ∈Θ ) de vraisemblance L telle
que pour chaque x ∈ H n , ln L(x; .) ∈ C 1 , la fonction score au point θ définie par
x (→ ∇ ln L(x; θ ),
et dans laquelle ∇ désigne le gradient par rapport à θ , évalue la variabilité du mo-

dèle.
Par convention, dès que l’on parle de gradient (resp. hessienne), il est sous-
entendu que la fonction est de classe C 1 (resp. C 2 ).
Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé de vraisemblance

L. On suppose que Θ est ouvert, et que pour chaque θ ∈ Θ : ∇ ln L(.; θ ) ∈ L2 (Pθ ).
On appelle information de Fisher la fonction
! ! ""
∂ ∂
I : θ (→ varθ (∇ ln L(.; θ )) = covθ ln L(.; θ ), ln L(.; θ ) .
∂ θi ∂θj i, j=1,··· ,d
Lorsque nous parlerons d’information de Fisher, il sera sous-entendu que les

hypothèses imposées dans cette définition seront satisfaites.
L’information de Fisher est donc une fonction à valeurs dans l’ensemble des
matrices semi-définies positives qui évalue le pouvoir de discrimination du mo-
dèle entre 2 valeurs proches du paramètre d’intérêt. En effet, on voit directement
dans le cas d = 1 que I(θ ) grand traduit une grande variation de la nature des
probabilités du modèle au voisinage de Pθ , d’où une discrimination de la vraie
valeur du paramètre inconnu facilitée. A l’inverse, si I(θ ) est petit, la loi est très
piquée : c’est mauvais, car on est amené à rechercher le maximum de la vraisem-
blance dans une région très vaste. Ce sont ces propriétés de I(θ ) qui fournissent
3.3. INFORMATION DE FISHER 35
une information sur le modèle.
Pour illustrer ces affirmations, reprenons le modèle de la section 1.1, pour

lequel la vraisemblance vaut, si p ∈]0, 1[ et x1 , · · · , xn ∈ {0, 1} :
n n
L(x1 , · · · , xn ; p) = p∑i=1 xi (1 − p)n−∑i=1 xi .
On a déjà vu dans la relation (2.1.1) que :

n
I(p) = var p (∇ ln L(.; p)) = .
p(1 − p)
Dans ce modèle, l’incertitude est faible pour p proche de 0 et 1 alors qu’elle est
grande pour p = 1/2. Ceci se traduit bien par une information I(p) maximale pour
p proche de 0 et 1, et minimale pour p = 1/2.
Dans une situation d’échantillonage i.i.d., l’information de Fisher est pro-

portionnelle à la taille de l’échantillon. Cette propriété, que nous montrons ci-
dessous, légitime encore plus ce concept en tant que mesure d’une quantité d’in-
formation.
Proposition Soit (H , {Qθ }θ ∈Θ ) un modèle statistique dominé d’information de

Fisher I. Alors, l’information de Fisher In du modèle (H n , {Q⊗n
θ }θ ∈Θ ) vaut In (θ ) =
nI(θ ) pour chaque θ ∈ Θ .
Preuve Si L désigne la vraisemblance du modèle (H , {Qθ }θ ∈Θ ), la vraisem-

blance Ln du modèle (H n , {Q⊗n
θ }θ ∈Θ ) est :
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ ).
i=1
Le score de ce dernier modèle est donc :

n
∇ ln Ln (x1 , · · · , xn ; θ ) = ∑ ∇ ln L(xi ; θ ).
i=1
Si (X1 , · · · , Xn ) est un échantillon de la loi Pθ = Q⊗n

θ , on a alors par indépendance :
% &
n n
In (θ ) = varθ ∑ ∇ ln L(Xi; θ ) = ∑ varθ (∇ ln L(Xi ; θ )) = nI(θ ).
i=1 i=1
!
Du point de vue des calculs, on se réfèrera souvent à la proposition qui suit,
dont l’objectif principal est de donner une forme simplifiée pour la matrice d’in-
formation de Fisher. Dans la suite, ∇2 g(θ ) désigne la matrice Hessienne de g :
Θ → R évaluée en θ ∈ Θ .
Proposition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé par µ, de vrai-

semblance L et d’information de Fisher I. Soit θ ∈ Θ . On suppose qu’il existe un
voisinage V ⊂ Θ de θ tel que supα∈V /∇L(.; α)/ ∈ L1 (µ). Alors :
(i) Eθ ∇ ln L(.; θ ) = 0.
(ii) si, en outre, supα∈V /∇2 L(.; α)/ ∈ L1 (µ), on a I(θ ) = −Eθ ∇2 ln L(.; θ ).
Les conditions de cette proposition ne sont pas aussi restrictives qu’elle peuvent
le sembler, car elle sont satisfaites par bon nombre de modèles statistiques. Comme
nous allons le voir, il s’agit essentiellement de donner des conditions de dérivation
sous une intégrale.
Preuve On commence par remarquer que, sous la condition supα∈V /∇L(.; α)/ ∈
L1 (µ), on a d’après le théorème de Lebesgue :
# #
∇L(x; θ )µ(dx) = ∇ L(x; θ )µ(dx) = 0.
Hn Hn
Par suite,
# #
Eθ ∇ ln L(.; θ ) = (∇ ln L(x; θ )) L(x; θ )µ(dx) = ∇L(x; θ )µ(dx) = 0,
Hn Hn
d’où (i). Montrons maintenant (ii). Pour i, j = 1, · · · , d et x ∈ H n , on a
) 2 * ) *) *
∂ ∂ ∂
∂2 ∂ θi ∂ θ j L(x; θ ) ∂ θi L(x; θ ) ∂ θ j L(x; θ )
ln L(x; θ ) = − .
∂ θi ∂ θ j L(x; θ ) L2 (x; θ )
Il est bon de remarquer que chacune des expressions qui interviennent dans le
membre de droite est une fonction de x qui est dans L1 (Pθ ) : c’est clair pour le
premier terme car ∇2 L(.; θ ) ∈ L1 (µ) ; c’est vrai aussi pour le second membre sous
la condition d’existence de l’information de Fisher, i.e. ∇ ln L(.; θ ) ∈ L2 (Pθ ). Le
théorème de Lebesgue montre que sous l’hypothèse supα∈V /∇2 L(.; α)/ ∈ L1 (µ),
on a : # #
∂2 ∂2
L(x; θ )µ(dx) = L(x; θ )µ(dx) = 0.
H n ∂ θi ∂ θ j ∂ θi ∂ θ j H n
3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV 37
Par suite,
# ! "
∂2 ∂2
Eθ ln L(.; θ ) = ln L(x; θ ) L(x; θ )µ(dx)
∂ θi ∂ θ j H n ∂ θi ∂ θ j
# ! "! "
∂ ∂ 1
= − L(x; θ ) L(x; θ ) µ(dx)
H n ∂ θi ∂θj L(x; θ )
∂ ∂
= −Eθ ln L(.; θ ) ln L(.; θ ).
∂ θi ∂θj
Or, on a aussi par définition :
! "
∂ ∂
I(θ )i j = covθ ln L(.; θ ), ln L(.; θ )
∂ θi ∂θj
∂ ∂
= Eθ ln L(.; θ ) ln L(.; θ ),
∂ θi ∂θj
d’où (ii). !
Cette proposition légitime la définition qui suit.
Définition On dit que le modèle statistique dominé (H n , {Pθ }θ ∈Θ ) et de vrai-

semblance L est régulier si pour chaque θ ∈ Θ :
(i) son information de Fisher I en θ existe et est inversible ;
(ii) Eθ ∇ ln L(.; θ ) = 0 et I(θ ) = −Eθ ∇2 ln L(.; θ ).
La proposition précédente nous donne donc des conditions suffisantes de ré-

gularité d’un modèle. A nouveau, il est entendu dans cette définition que les
conditions d’existence de l’information de Fisher sont satisfaites. De même, on
n’évoque l’espérance d’une v.a. que lorsque celle-ci existe.
3.4 Normalité asymptotique de l’EMV

Théorème Soit (H , {Qθ }θ ∈Θ ) un modèle dominé régulier, de vraisemblance L
et d’information de Fisher I tel que, pour chaque θ ∈ Θ , il existe un voisinage
V ⊂ Θ de θ avec supα∈V /∇2 ln L(.; α)/ ∈ L1 (Pθ ). On note θ̂ l’EMV de θ associé
à la vraisemblance
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ )
i=1
du modèle (H n , {Q⊗n } ). Si θ̂ est consistant, alors il est asymptotiquement

√θ θ ∈Θ
normal, de vitesse n et de variance asymptotique I(θ )−1 :
√ ' ( L /Q⊗n
n θ̂ − θ −→θ N(0, I(θ )−1 ), ∀θ ∈ Θ .
Remarque Si les conditions de régularité du modèle ne sont certainement pas

optimales pour garantir un tel résultat, il n’en reste pas moins qu’il est néces-
saire d’imposer une certaine régularité. Considérons en effet le cas du modèle
(Rn+ , {U ([0, θ ])⊗n }θ >0 ). Sa vraisemblance Ln s’écrit pour θ > 0 :
+ −n
θ si 0 ≤ x1 , · · · , xn ≤ θ ;
Ln (x1 , · · · , xn ; θ ) =
0 sinon.
L’EMV calculé à partir d’un échantillon (X1 , · · · , Xn ) de loi U ([0, θ ])⊗n est donc
θ̂ = max1≤i≤n Xi . Calculons maintenant sa vitesse de convergence. En adoptant la
notation Pθ = U ([0, θ ])⊗n , on a pour chaque 0 < t < nθ :
! "
' ' ( ( t
Pθ n θ − θ̂ ≤ t = 1 − Pθ max Xi < θ −
1≤i≤n n
) t *n
= 1− 1− .
nθ
Comme la limite est 1 − exp(−t/θ ) dès que t > 0, on a donc montré que
' ( L /Pθ
n θ − θ̂ −→ E (1/θ ).
Ainsi, dans cet exemple de modèle non régulier, ni la vitesse de l’EMV, ni la loi
limite, ne correspondent à celles du théorème.
Preuve On fixe θ ∈ Θ et on pose Pθ = Q⊗n θ . Dans la suite, (X1 , · · · , Xn ) est un

échantillon de loi Pθ . Pour chaque α ∈ Θ , on note :
n
Ln (α) = ln Ln (X1 , · · · , Xn ; α) = ∑ ln L(Xi ; α).
i=1
Comme θ̂ maximise Ln , un développement de Taylor avec reste intégral nous

donne :
!# 1 "
2
' (
0 = ∇Ln (θ̂ ) = ∇Ln (θ ) + ∇ Ln θ + t(θ̂ − θ ) dt (θ̂ − θ ). (3.4.1)
0
3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV 39
Nous examinons séparément chacun des termes qui interviennent dans cette rela-
tion. Rappelons que, puisque le modèle est régulier,
Eθ ∇ ln L(.; θ ) = 0.
Par ailleurs, varθ (∇ ln L(.; θ )) = I(θ ). Donc, d’après le théorème de la limite cen-
trale :
1 1 n
√ ∇Ln (θ ) = √ ∑ ∇ ln L(Xi ; θ ) −→θ N(0, I(θ )).
L /P
n n i=1
Par suite, d’après (3.4.1) :
√ L /Pθ
nL¯n (θ̂ − θ ) −→ N(0, I(θ )),
où on a noté #
¯ 1 1 2 ' (
Ln := ∇ Ln θ + t(θ̂ − θ ) dt.
n 0
On s’intéresse maintenant au comportement asymptotique de ce dernier terme.
Soit, pour chaque x ∈ H n et r > 0 :
σ (x, r) = sup /∇2 ln L(x; α) − ∇2 ln L(x; θ )/.
/α−θ /≤r
Or, σ (., r) ∈ L1 (Pθ ) pour r assez petit et de plus, ln L(x; .) ∈ C 2 pour chaque
x ∈ H n . Fixons ε > 0. D’après le théorème de Lebesgue, il existe r > 0 tel que
Eθ σ (., r) < ε/2. Par ailleurs, comme
# 1
1 n ' (
L¯n = ∑ ∇2 ln L Xi ; θ + t(θ̂ − θ ) dt,
n i=1 0
il est judicieux d’utiliser la décomposition :

', , (
Pθ ,L¯n + I(θ ), ≥ ε
%, , &
,1 n # 1 - ' ( . , ε
, ,
≤ Pθ , ∑ ∇2 ln L Xi ; θ + t(θ̂ − θ ) − ∇2 ln L(Xi ; θ ) dt , ≥
, n i=1 0 , 2
%, , &
,1 n , ε
, ,
+Pθ , ∑ ∇2 ln L(Xi ; θ ) + I(θ ), ≥
, n i=1 , 2
% &
1 n ε ' (
≤ Pθ ∑
n i=1
σ (Xi , r) ≥
2
+ Pθ /θ̂ − θ / ≥ r
%, , &
,1 n , ε
, ,
+Pθ , ∑ ∇2 ln L(Xi ; θ ) + I(θ ), ≥ .
, n i=1 , 2
Le passage à la dernière inégalité a été obtenu par une intersection avec l’évé-
nement {/θ̂ − θ / < r}. Or, Eθ σ (., r) < ε/2 et Eθ ∇2 ln L(.; θ ) = −I(θ ) car le
modèle est régulier. Comme θ̂ est consistant, on a donc, d’après la loi des grands
nombres :
Pθ
L¯n −→ −I(θ ).
Comme I(θ ) est inversible, Pθ (L¯n inversible) → 1. On peut supposer pour sim-
plifier que L¯n est inversible. Alors, en utilisant la décomposition :
√ √ √
I(θ ) n(θ̂ − θ ) = (I(θ ) + L¯n ) n(θ̂ − θ ) − L¯n n(θ̂ − θ )
√ √
= (I(θ )L¯n−1 + 1)L¯n n(θ̂ − θ ) − L¯n n(θ̂ − θ ),
on en déduit du Lemme de Slutsky que

√ L /Pθ
n(θ̂ − θ ) −→ I(θ )−1 N(0, I(θ )) = N(0, I(θ )−1 ),
d’où le théorème. !

Vraisemblance

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Vraisemblance

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 3

La méthode de construction des estimateurs par maximisation de la vraisemblance

Dans tout le chapitre, l’espace des observations individuelles est H ⊂ Rk , et

3.1 Le concept de vraisemblance

Remarque La vraisemblance, dont l’existence est acquise grâce au théorème de

est dominé par la mesure (δ0 + δ1 )⊗n , la vraisemblance L s’exprime par :

pour p ∈]0, 1[ et x1 , · · · , xn ∈ {0, 1}.

Dans le cadre de modèles statistiques issus d’observations indépendantes, l’ex-

Proposition Soit (H , {Qθ }θ ∈Θ ) un modèle statistique dominé par la mesure µ,

est la vraisemblance du modèle (H n , {Q⊗n

Preuve Il suffit de remarquer que, pour chaque θ ∈ Θ ,

Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé, et L la vraisem-

L(x; g(x)) = sup L(x; θ ), ∀x ∈ H n .

Ainsi, si (X1 , · · · , Xn ) est un échantillon de la loi Pθ , l’EMV (de θ ) est g(X1 , · · · , Xn ).

Bien entendu, ni l’existence, ni l’unicité des EMV ne sont en général acquises.

Dans le modèle statistique issu d’observations indépendantes de la proposition

3.2 Consistance de l’EMV

Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé, de vraisemblance

Remarque En complément de la condition d’intégrabilité de ln L(.; α), il est im-

et donc que Pα (L(.; α) ≤ 0) = 0. On obtient donc le résultat anoncé, car :

En complément de cette observation, remarquons que l’on peut obtenir la pro-

Proposition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique identifiable et dominé par

On en déduit que C = 1 (prendre A = H n ), et donc que Pθ = Pα , ce qui contredit

Cette propriété de l’information de Kullback permet d’identifier le paramètre

Théorème Soit (H , {Qθ }θ ∈Θ ) un modèle statistique identifiable et dominé, de

Preuve On fixe θ ∈ Θ et on note Pθ = Q⊗n

g(x, η) = sup | ln L(x; α) − ln L(x; β )|.

On fixe maintenant ε > 0. Comme g(., η) ≤ 2H avec H ∈ L1 (Pθ ) et g(x, η) → 0 si

On a dans un premier temps :

sup |Un −U| = max sup |Un −U|

≤ max sup |Un −Un (θ j )| + max |Un (θ j ) −U(θ j )|

+ max sup |U(θ j ) −U|

On en déduit dans un second temps que, puisque Eθ g(., η) < ε/3 :

Or, d’après la loi des grands nombres, on a à la fois :

On a donc K(t, θ ) ≤ 0, ce qui montre que K(t, θ ) = 0 d’où t = θ . D’après (3.2.1),

donc θ̂ tend vers θ en probabilité. !

Ces conditions de consistance, notamment la compacité de l’espace des para-

Exemple Soit (Rn , {C (θ )⊗n }θ >0 ) un modèle statistique, où C (θ ) désigne la loi

D’après la loi des grands nombres, on a pour chaque α ≥ 0 :

Pθ (|θ̂ − θ | ≥ ε) ≤ Pθ (θ̂ ≥ θ + ε) + Pθ (θ̂ ≤ θ − ε)

tend vers 0, i.e. θ̂ est consistant.

3.3 Information de Fisher

et dans laquelle ∇ désigne le gradient par rapport à θ , évalue la variabilité du mo-

Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé de vraisemblance

Lorsque nous parlerons d’information de Fisher, il sera sous-entendu que les

une information sur le modèle.

Pour illustrer ces affirmations, reprenons le modèle de la section 1.1, pour

On a déjà vu dans la relation (2.1.1) que :

Dans une situation d’échantillonage i.i.d., l’information de Fisher est pro-

Proposition Soit (H , {Qθ }θ ∈Θ ) un modèle statistique dominé d’information de

Preuve Si L désigne la vraisemblance du modèle (H , {Qθ }θ ∈Θ ), la vraisem-

Le score de ce dernier modèle est donc :

Si (X1 , · · · , Xn ) est un échantillon de la loi Pθ = Q⊗n

Proposition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé par µ, de vrai-

Cette proposition légitime la définition qui suit.

Définition On dit que le modèle statistique dominé (H n , {Pθ }θ ∈Θ ) et de vrai-

La proposition précédente nous donne donc des conditions suffisantes de ré-

3.4 Normalité asymptotique de l’EMV

du modèle (H n , {Q⊗n } ). Si θ̂ est consistant, alors il est asymptotiquement

Remarque Si les conditions de régularité du modèle ne sont certainement pas

Preuve On fixe θ ∈ Θ et on pose Pθ = Q⊗n θ . Dans la suite, (X1 , · · · , Xn ) est un

Comme θ̂ maximise Ln , un développement de Taylor avec reste intégral nous

il est judicieux d’utiliser la décomposition :

on en déduit du Lemme de Slutsky que