Académique Documents
Professionnel Documents
Culture Documents
Vraisemblance
Exemples
1. Dans le modèle statistique ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) de la section 1.1, qui
27
28 CHAPITRE 3. VRAISEMBLANCE
pour xi ∈ R, m ∈ R et σ ∈ R!+ .
Ln : H n ×Θ → R
n
(x1 , · · · , xn , θ ) (→ ∏ L(xi ; θ ),
i=1
θ par rapport à µ . !
est une version de la densité de Q⊗n ⊗n
Reprenons l’exemple de la section 1.1. Les lancers de la pièce ont fourni une
observations (x1 , · · · , xn ) ∈ {0, 1}n . Il est naturel de considérer que la loi B(p0 )⊗n
qui régit cette observation est, parmi toutes les lois B(p)⊗n , p ∈]0, 1[, celle qui
apporte la plus forte probabilité à cette réalisation. C’est ainsi que, pour donner
une valeur approchée de la vraie valeur du paramètre, on est amené à maximiser
en p la vraisemblance L(x1 , · · · , xn ; p) : l’idée sous-jacente est que la valeur de p
3.2. CONSISTANCE DE L’EMV 29
obtenue est celle qui s’ajuste le mieux aux observations. Cette observation motive
le concept de maximum de vraisemblance.
L’intérêt pratique est clair, l’étape de maximisation étant en principe plus facile à
mener.
Exemple L’EMV du modèle statistique (Rn , {N(m, 1)⊗n }m∈R ) est la moyenne
empirique.
Preuve Tout d’abord, il est clair que K(θ , θ ) = 0. Soient donc α .= θ . Comme la
fonction t (→ − lnt définie sur R!+ est convexe, on a avec l’inégalité de Jensen :
#
L(.; α)
K(α, θ ) = − lndPθ
H L(.; θ )
n
# #
L(.; α)
≥ − ln dPθ = − ln L(.; α)dµ = 0.
H n L(.; θ ) Hn
Supposons que K(α, θ ) = 0. On est alors dans un cas d’égalité dans l’inégalité
de Jensen. Comme t (→ − lnt définie sur R!+ est strictement convexe, on en déduit
qu’il existe C ∈ R+ tel que L(.; α) = CL(.; θ ) Pθ -p.s. Alors, pour tout borélien
A⊂H n : # #
L(.; α)
Pα (A) = L(.; α)dµ = dPθ = CPθ (A).
A A L(.; θ )
du modèle (H n , {Q⊗n
θ }θ ∈Θ ). Alors, θ̂ est consistant.
1 1 n
Un (α) = − ln Ln (X1 , · · · , Xn ; α) = − ∑ ln L(Xi ; α)
n n i=1
U(α) = −Eθ ln L(.; α).
θ P
Remarquons que Un (θ̂ ) = infΘ Un . D’après la loi des grands nombres, Un −→ U
ponctuellement ; nous allons tout d’abord montrer que cette convergence est en
fait uniforme. Pour tout η > 0, on désigne par g(., η) la fonction définie pour
chaque x ∈ H n par
P 1 n Pθ
θ
max |Un (θ j ) −U(θ j )| −→
j=1,··· ,N
0 et ∑
n i=1
g(Xi , η) −→ Eθ g(., η) < ε/3.
θ P
Ces observations nous permettent de déduire que supΘ |Un − U| −→ 0. En parti-
culier,
θ P
Un (θ̂ ) = inf Un −→ inf U. (3.2.1)
Θ Θ
Comme Θ est compact et U est continue d’après les hypothèses, il existe t ∈ Θ tel
que U(t) = infΘ U. Par suite :
θ P
Un (θ̂ ) −Un (θ ) −→ U(t) −U(θ ) = K(t, θ ).
De plus,
Un (θ̂ ) −Un (θ ) = inf Un −Un (θ ) ≤ 0.
Θ
3.2. CONSISTANCE DE L’EMV 33
On veut montrer que l’EMV est consistant. Fixons θ > 0, et notons Pθ = C (θ )⊗n
et (X1 , · · · , Xn ) un échantillon de la loi Pθ . Un simple calcul nous montre que
l’EMV θ̂ est solution de l’équation ϕn (.) = 1/2, où l’on a noté
1 n 1
ϕn (α) = ∑
n i=1 1 + (Xi /α)2
, α ≥ 0.
Pθ (θ̂ ≤ θ − ε) −→ 0.
34 CHAPITRE 3. VRAISEMBLANCE
En conclusion,
x (→ ∇ ln L(x; θ ),
Par convention, dès que l’on parle de gradient (resp. hessienne), il est sous-
entendu que la fonction est de classe C 1 (resp. C 2 ).
L’information de Fisher est donc une fonction à valeurs dans l’ensemble des
matrices semi-définies positives qui évalue le pouvoir de discrimination du mo-
dèle entre 2 valeurs proches du paramètre d’intérêt. En effet, on voit directement
dans le cas d = 1 que I(θ ) grand traduit une grande variation de la nature des
probabilités du modèle au voisinage de Pθ , d’où une discrimination de la vraie
valeur du paramètre inconnu facilitée. A l’inverse, si I(θ ) est petit, la loi est très
piquée : c’est mauvais, car on est amené à rechercher le maximum de la vraisem-
blance dans une région très vaste. Ce sont ces propriétés de I(θ ) qui fournissent
3.3. INFORMATION DE FISHER 35
!
Du point de vue des calculs, on se réfèrera souvent à la proposition qui suit,
dont l’objectif principal est de donner une forme simplifiée pour la matrice d’in-
formation de Fisher. Dans la suite, ∇2 g(θ ) désigne la matrice Hessienne de g :
Θ → R évaluée en θ ∈ Θ .
Preuve On commence par remarquer que, sous la condition supα∈V /∇L(.; α)/ ∈
L1 (µ), on a d’après le théorème de Lebesgue :
# #
∇L(x; θ )µ(dx) = ∇ L(x; θ )µ(dx) = 0.
Hn Hn
Par suite,
# #
Eθ ∇ ln L(.; θ ) = (∇ ln L(x; θ )) L(x; θ )µ(dx) = ∇L(x; θ )µ(dx) = 0,
Hn Hn
d’où (i). Montrons maintenant (ii). Pour i, j = 1, · · · , d et x ∈ H n , on a
) 2 * ) *) *
∂ ∂ ∂
∂2 ∂ θi ∂ θ j L(x; θ ) ∂ θi L(x; θ ) ∂ θ j L(x; θ )
ln L(x; θ ) = − .
∂ θi ∂ θ j L(x; θ ) L2 (x; θ )
Il est bon de remarquer que chacune des expressions qui interviennent dans le
membre de droite est une fonction de x qui est dans L1 (Pθ ) : c’est clair pour le
premier terme car ∇2 L(.; θ ) ∈ L1 (µ) ; c’est vrai aussi pour le second membre sous
la condition d’existence de l’information de Fisher, i.e. ∇ ln L(.; θ ) ∈ L2 (Pθ ). Le
théorème de Lebesgue montre que sous l’hypothèse supα∈V /∇2 L(.; α)/ ∈ L1 (µ),
on a : # #
∂2 ∂2
L(x; θ )µ(dx) = L(x; θ )µ(dx) = 0.
H n ∂ θi ∂ θ j ∂ θi ∂ θ j H n
3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV 37
Par suite,
# ! "
∂2 ∂2
Eθ ln L(.; θ ) = ln L(x; θ ) L(x; θ )µ(dx)
∂ θi ∂ θ j H n ∂ θi ∂ θ j
# ! "! "
∂ ∂ 1
= − L(x; θ ) L(x; θ ) µ(dx)
H n ∂ θi ∂θj L(x; θ )
∂ ∂
= −Eθ ln L(.; θ ) ln L(.; θ ).
∂ θi ∂θj
Or, on a aussi par définition :
! "
∂ ∂
I(θ )i j = covθ ln L(.; θ ), ln L(.; θ )
∂ θi ∂θj
∂ ∂
= Eθ ln L(.; θ ) ln L(.; θ ),
∂ θi ∂θj
d’où (ii). !
L’EMV calculé à partir d’un échantillon (X1 , · · · , Xn ) de loi U ([0, θ ])⊗n est donc
θ̂ = max1≤i≤n Xi . Calculons maintenant sa vitesse de convergence. En adoptant la
notation Pθ = U ([0, θ ])⊗n , on a pour chaque 0 < t < nθ :
! "
' ' ( ( t
Pθ n θ − θ̂ ≤ t = 1 − Pθ max Xi < θ −
1≤i≤n n
) t *n
= 1− 1− .
nθ
Comme la limite est 1 − exp(−t/θ ) dès que t > 0, on a donc montré que
' ( L /Pθ
n θ − θ̂ −→ E (1/θ ).
Ainsi, dans cet exemple de modèle non régulier, ni la vitesse de l’EMV, ni la loi
limite, ne correspondent à celles du théorème.
Nous examinons séparément chacun des termes qui interviennent dans cette rela-
tion. Rappelons que, puisque le modèle est régulier,
Eθ ∇ ln L(.; θ ) = 0.
Par ailleurs, varθ (∇ ln L(.; θ )) = I(θ ). Donc, d’après le théorème de la limite cen-
trale :
1 1 n
√ ∇Ln (θ ) = √ ∑ ∇ ln L(Xi ; θ ) −→θ N(0, I(θ )).
L /P
n n i=1
Par suite, d’après (3.4.1) :
√ L /Pθ
nL¯n (θ̂ − θ ) −→ N(0, I(θ )),
où on a noté #
¯ 1 1 2 ' (
Ln := ∇ Ln θ + t(θ̂ − θ ) dt.
n 0
On s’intéresse maintenant au comportement asymptotique de ce dernier terme.
Soit, pour chaque x ∈ H n et r > 0 :
σ (x, r) = sup /∇2 ln L(x; α) − ∇2 ln L(x; θ )/.
/α−θ /≤r
Or, σ (., r) ∈ L1 (Pθ ) pour r assez petit et de plus, ln L(x; .) ∈ C 2 pour chaque
x ∈ H n . Fixons ε > 0. D’après le théorème de Lebesgue, il existe r > 0 tel que
Eθ σ (., r) < ε/2. Par ailleurs, comme
# 1
1 n ' (
L¯n = ∑ ∇2 ln L Xi ; θ + t(θ̂ − θ ) dt,
n i=1 0
Le passage à la dernière inégalité a été obtenu par une intersection avec l’évé-
nement {/θ̂ − θ / < r}. Or, Eθ σ (., r) < ε/2 et Eθ ∇2 ln L(.; θ ) = −I(θ ) car le
modèle est régulier. Comme θ̂ est consistant, on a donc, d’après la loi des grands
nombres :
Pθ
L¯n −→ −I(θ ).
Comme I(θ ) est inversible, Pθ (L¯n inversible) → 1. On peut supposer pour sim-
plifier que L¯n est inversible. Alors, en utilisant la décomposition :
√ √ √
I(θ ) n(θ̂ − θ ) = (I(θ ) + L¯n ) n(θ̂ − θ ) − L¯n n(θ̂ − θ )
√ √
= (I(θ )L¯n−1 + 1)L¯n n(θ̂ − θ ) − L¯n n(θ̂ − θ ),
d’où le théorème. !