Chap Stat 3

Estimation paramètrique II
Skander HACHICHA
skander.hachicha@enit.utm.tn
Université de Tunis El Manar

Ecole nationale d’ingénieurs de Tunis
Estimation paramètrique II 1 / 56
Skander HACHICHA 1 / 56
Information de Fisher
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ). On appelle hypothèses
usuelles les 4 hypothèses suivantes :
H1 Θ est ouvert de Rd .
H2 Le support des lois {x ∈ X : f (x, θ) > 0} est indépendant de θ.
H3 Pour tout x ∈ X la fonction θ −→ f (x, θ) est de classe C2 sur Θ.
En particulier le vecteur de dimension d × 1 contenant les
dérivées premières est noté
 ∂ log f (x,θ) 
∂θ1

gradθ log f (x, θ) =  .. 
.

 
∂ log f (x,θ)
∂θd
existe ainsi que la matrice Hessienne de dimension d × d

!
∂ 2 f (x, θ)
∂θi ∂θj 1≤i,j≤d
∂f (x,θ) ∂ 2 f (x,θ)
H4 Les fonctions ∂θi et ∂θi ∂θj sont intégrbles pour tout θ ∈ Θ et
R ∂f (x,θ)
pour tout i, j ∈ {1, · · · d} ( X | ∂θi |dx < ∞ et
R ∂ 2 f (x,θ)
| ∂θi ∂θj |dx < ∞). De plus pour tout B borélien l’intégrale
RX
B f (x, θ)dx est au moins deux fois dérivable sous le signe
d’intégration et on peut permuter intégration et dérivation :
∂ ∂f (x, θ)
Z Z
f (x, θ)dx = dx; j = 1, · · · d
∂θj B B ∂θj
∂2 ∂ 2 f (x, θ)
Z Z
f (x, θ)dx = dx; i, j ∈ {1, · · · d}
∂θi ∂θj B B ∂θi ∂θj
Définition
Si les hypothèses H1 − H4 sont vérifiées, on dit que le modèle est
régulier.
Remarque
Dans le cas discret l’hypothèses H − 4 s’écrit sous la forme
suivante : ∀B ∈ X
∂ P P ∂f (x,θ)
∂θi x∈B f (x, θ) = x∈B ∂θi
∂2 P P ∂ 2 f (x,θ)
∂θi ∂θj x∈B f (x, θ) = x∈B ∂θi ∂θj
Définition
On appelle score le vecteur aléatoire S(X, θ) définit par
 ∂ log f (X,θ) 
∂θ1

S(X, θ) = gradθ log f (X, θ) =  .. 

. 

∂ log f (X,θ)
∂θd
df (X,θ)
d log f (X,θ)
pour d = 1, S(X, θ) = dθ = dθ
f (X,θ) .
Remarque
Le vecteur aléatoire S(X, θ) dépend de θ, ce n’est pas donc une
statistique.
Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)
dθ
comme log f (x, θ) = −θ + x log θ − log(x!) alors
X
S(X, θ) = −1 +
θ
Théorème
1 Le score est un vecteur aléatoire centré
E(S(X, θ)) = 0Rd
2 Le vecteur score est additif : soient X et Y deux variables

aléatoires indépendantes associées aux modèles statistiques
(X , Pθ ) et (Y, Qθ ). Alors S(X, θ) et S(Y, θ) sont indépendants,
de plus
S((X, Y), θ) = S(X, θ) + S(Y, θ) θ ∈ Θ
((X, Y)est associé au modèles statistique (X × Y, Pθ ⊗ Qθ ))
Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X alors
n
X
S(X1 , · · · , Xn , θ) = S(Xi , θ)
i=1
Définition
Dans un modèle régulier, on appelle information de Fisher du modèle
au point θ (apporté par X sur θ) la matrice de covariance du score
S(X, θ) donnée par
I(θ) = Vθ (S(X, θ)) = Eθ (S(X, θ)(S(X, θ))t ) =

!!
∂ log f (X, θ) ∂ log f (X, θ)
Eθ
lorsque cette quantité est bien définie (L’espérance est prise par
rapport à Pθ , pour θ fixé).
Définition
Pour d = 1,
2 !
d log f (X, θ)

I(θ) = Vθ (S(X, θ)) = Eθ =
dθ

df (X,θ) !2 
dθ
Eθ  
f (X, θ)
Remarque
Pour un modèle régulier, l’information de Fisher est une matrice
symétrique définie positive comme étant la matrice de covariance du
vecteur aléatoire centré S(X, θ)
I(θ) = Vθ (S(X, θ))

!!
= Covθ ,
!!
= Eθ
Théorème
Dans un modèle régulier , on a la relation suivante
!!
∂ 2 log f (X, θ)
I(θ) = − Eθ = −Eθ (Hθ2 (log f (X, θ)))
∂θi θj 1≤i,j≤d
Cette expression de I(θ) est plus simple à manipuler que celle de la

définition, en effet il est plus simple de dériver puis d’intégrer que
d’élever au carré puis d’intégrer.
Par dérivation, on a
!
∂ 2 log f (X, θ) ∂ 1 ∂f (X, θ)
=
∂θi θj ∂θi f (X, θ) ∂θj
1 ∂ 2 f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
= − 2
f (X, θ) ∂θi θj f (X, θ) ∂θi ∂θj
et donc
! !
∂ 2 log f (X, θ) 1 ∂ 2 f (X, θ)
Eθ = Eθ −
∂θi θj f (X, θ) ∂θi θj
!
1 ∂f (X, θ) ∂f (X, θ)
Eθ 2
f (X, θ) ∂θi ∂θj
or
!
1 ∂ 2 f (X, θ) 1 ∂ 2 f (x, θ)
Z
Eθ = f (x, θ)dx
f (X, θ) ∂θi θj X f (x, θ) ∂θi θj
∂ 2 f (x, θ)
Z
= dx
X ∂θi θj
∂2 ∂2
Z
= f (x, θ)dx = 1=0
∂θi ∂θj X ∂θi ∂θj
ainsi
! !
∂ 2 log f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
Eθ = −Eθ
∂θi θj f 2 (X, θ) ∂θi ∂θj
!
1 ∂f (X, θ) 1 ∂f (X, θ)
= −Eθ
f (X, θ) ∂θi f (X, θ) ∂θj
!
= −Eθ
∂θi ∂θj
Remarque
Dans un modèle régulier, l’information de Fisher I(θ) ≥ 0 pour tout
θ ∈ Θ.
Théorème
Pour un modèle régulier, l’information de Fisher est additive : si X et
Y sont deux variables aléatoires indépendantes dans des modèles
paramétriques au paramètre θ commun alors
I(X,Y) (θ) = IX (θ) + IY (θ)
(c’est la variance d’une somme de scores indépendants).
Par définition, on a S((X, Y), θ)) = S(X, θ) + S(Y, θ) Or X et Y sont

indépendantes et donc S(X, θ) et S(Y, θ) sont indépendants et par suite
I(X,Y) (θ) = Vθ (S(X, θ)) + Vθ (S(Y, θ)) = IX (θ) + IY (θ)
Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X de matrice
d’information IX (θ) = I(θ) alors, on a la relation suivante :
In (θ) = Vθ (S(X1 , · · · , Xn ), θ) = nI(θ)
Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)
dθ
comme log f (x, θ) = −θ + x log θ − log(x!) alors
X
S(X, θ) = −1 +
θ
et donc
Exemple
I(θ) = Eθ (S2 (X, θ))

2 !
X
= Eθ −1 +
θ
1
2

= Eθ (X − θ)
θ2
1
= Vθ (X)
θ2
1
=
θ
Soit (X1 , · · · , Xn ) un n−échantillions de loi de Poisson alors
n
In (θ) = nI(θ) =
θ
Exemple
Soit X une v.a.r de loi N (m, σ) (i.e θ = (θ1 , θ2 ) = (m, σ 2 ) et donc de
densité
1 1

2
f (x, θ) = √ exp − 2 (x − m)
σ 2π 2σ
d’où
1 1 1
log(f (x, θ)) = − log(2π) − log(σ 2 ) − 2 (x − m)2
2 2 2σ
Comme f est de classe C2 par rapport à m et σ 2 alors les dérivées
seconde de f sont données par
∂ 2 log(f (x,θ) 2
∂m2
= − σ12 , ∂ log(f (x,θ)
∂(σ 2 )2
= 2σ1 4 − σ16 (x − m)2
Exemple
∂ 2 log(f (x, θ)) 1
= − 4 (x − m)
∂m∂(σ 2 ) σ
et par suite !
∂ 2 log(f (X, θ)) 1
−E =
∂m2 σ2
!
∂ 2 log(f (X, θ)) 1
−E =−
∂(σ 2 )2 2σ 4
!
∂ 2 log(f (X, θ))
−E =0
∂m∂(σ 2 )
Ainsi la matrice d’information est :
!
1
σ2
0
I(θ) = 1
0 − 2σ4
Borne de Rao-Cramer
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ).
On suppose les hypothèses H1 − H4 sont vérifiées et de plus on
suppose
H5 Pour tout θ ∈ Θ la matrice d × d d’information de Fisher I(θ)
existe et elle est symétrique et définie positive.
Borne de Rao-Cramer
Définition
Un estimateur T(X1 , · · · , Xn ) de g(θ) est dit régulier dans un modèle
régulier si Vθ (T(X)) < +∞ et
R
X n T(x)f (x, θ)dx est dérivable par rapport à θ sous le symbole
d’intégration :
∂Eθ (T(X)) ∂ ∂f (x, θ)

Z Z
= T(x)f (x, θ)dx = T(x) dx
∂θi ∂θi Xn Xn ∂θi
Borne de Rao-Cramer
On suppose que Θ ⊂ R. Soit g : Θ −→ R une application de classe
C1 .
Théorème
On suppose que les hypothèses H1 − H5 sont vérifiés. Si
Tn (X1 , · · · , Xn ) est un estimateurs sans biais de g(θ), alors
1
dg(θ)
= Covθ (Tn (X1 , · · · , Xn ), S(X1 , · · · , Xn , θ)
dθ
2 La variance de l’estimateur Tn (X1 , · · · , Xn ) est telle que :
V(Tn (X1 , · · · , Xn )) ≥
dg(θ) 2

2
(Covθ (Tn (X1 , · · · , Xn )), S(X1 , · · · , Xn , θ)) dθ
=
In (θ) In (θ)
Borne de Rao-Cramer
Par définition, l’information de fisher est le nombre réel défini par
2 !
d log f (X, θ)

I(θ) = Eθ
dθ
Comme T(X) est un estimateur sans biais de g(θ), on a

Z
Eθ (T(X)) = g(θ) = T(x)f (x, θ)dx
Xn
Borne de Rao-Cramer
En dérivant par rapport à θ, on a :
dg(θ) d
Z
= T(x)f (x, θ)dx
dθ dθ Xn
df (x, θ)
Z
= T(x) dx
Xn dθ
d log f (x, θ)
Z
= T(x) f (x, θ)dx
ZX
n dθ
= T(x)S(x, θ)f (x, θ)dx
Xn
= Eθ (T(X)S(X, θ))
Borne de Rao-Cramer
Comme Eθ (S(X, θ)) = 0, alors dg(θ)
dθ = Covθ (T(X), S(X, θ)) Par suite
d’après l’inégalité de Cauchy-Schwarz, on a
2
dg(θ)
= (Covθ (T(X), S(X, θ)))2 ≤ Vθ (T(X))Vθ (S(X, θ))
dθ
= Vθ (T(X))In (θ)
et donc 2
1

dg(θ)
Vθ (T(X)) ≥
dθ In (θ)
Remarque
Dans le cas où g est l’identité, on a
1
Eθ (T(X1 , · · · Xn ) − θ)2 ≥
In (θ)
Méthode de substition
On suppose que l’on dispose d’un estimateur Tn de θ ∈ Θ. Soit

φ : Θ −→ φ(Θ) une fonction. On peut alors construire un estimateur
de φ(θ) en substituant θ par Tn à savoir φ(Tn ). La méthode des
moments est la plus naturelle puisqu’elle se justifie par la loi des
grands nombres, pour estimer des paramètres définis à partir des
moments centrés ou non centrés.
Méthode des moments
Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ admettant des moments
jusqu’à l’ordre r. On note mi = Eθ (X1i ), Pour tout i ∈ {1, · · · r}. on
appelle moment empirique d’ordre i, la variable aléatoire
n
1X
Xin = Xi
n k=1 k
qui est un estimateur du moment mi (θ) = Eθ (X1i ).
Comme les paramètres d’une loi de probabilités sont reliés aux

momemts centrés ou non centrés, on peut donc en général les obtenir
en fonctions des r premiers moments. Ainsi, on estime les r premiers
moments par les moments empiriques et en en déduit les estimateurs
des paramètres en résolvant un système de p équations à p inconnues
(en général ce système n’est pas linéaire).
Remarque
De même g(X 1 n , · · · , X r n ) un estimateur de g(m1 (θ), · · · , mr (θ)) sera
obtenu par. Ainsi
1 La moyenne empirique
n
1X
Xn = Xk
n k=1
est un estimateur sans biais et convergent de m1 (θ) = Eθ (X1 ).

2 Le moment empirique d’ordre 2
n
1X
X2 n = X2
n k=1 k
est un estimateur sans biais et convergent de m2 (θ) = Eθ (X12 ).

Remarque
D’après ce qui précède
n n
1X 1X
Sn02 = Xk2 − (X n )2 = (Xk − X n )2
n k=1 n k=1
est un estimateur convergent de V(X1 ) = E(X12 ) − (E(X1 ))2 . Mais ce

n’est pas un estimateur sans biais. En effet,
1
E (X n )2 = 2
Eθ (X1 + · · · + Xn )2
n  
n n X
1 X X
= Eθ  Xi2 + Xi Xj 
n2 i=1 i=1 i6=j
n n X
1 X 1 X
= Eθ Xi2 + Eθ (Xi Xj )
n2 i=1
n2 i=1 i6=j
Remarque
Comme X1 , · · · , Xn sont indépendantes et de même loi donc
Eθ (Xi Xj ) = Eθ (Xi )Eθ (Xj ) = (Eθ (X1 ))2
Eθ (X12 )

n(n − 1)
E (X n ) 2
= + (Eθ (X1 ))2
n n2
et par suite
Eθ (X12 )

n−1
E Sn02 = Eθ (X12 ) − − (Eθ (X1 ))2
n n
n−1
= Eθ (X12 ) − (Eθ (X1 ))2
n
n−1
= V(X1 )
n
Remarque
Soient (X1 , · · · , Xn ) un n−échantillon de loi Pθ et ϕ une fonction
continue de R dans R telle que ϕ(Xi ) admet un moment d’ordre 1.
Alors E(ϕ(Xi )) peut être estimeé par la moyenne empirique de
l’échantillon (ϕ(X1 ), · · · , ϕ(Xn )) :
n
1X
ϕ(X)n = ϕ(Xi ).
n i=1
Si le paramètre θ s’exprime en fonction de E(ϕ(Xi )), on peut donc en

déduire un estimateur de θ. Inversement si E(X) = ϕ(θ) où ϕ est une
fonction bijective alors l’estimateur de θ par la méthode des moments
est θbn = ϕ−1 (Xn ).
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi uniforme sur {1, · · · , θ}
telle que pour tout x ∈ {1, · · · , θ}, P(Xi = x) = θ1 . Ainsi, on a
θ
X i θ(θ + 1) θ+1
E(Xi ) = = = .
i=1
θ 2θ 2
L’estimateur de θ est alors Tn = 2X n − 1 ce qui est clairement un

mauvais estimateur, en particulier si maxi Xi > 2X n − 1 puisque
θ ≥ maxi Xi .
Proposition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance m et de
variance σ 2 .
La moyenne empirique X n = n1 nk=1 Xk
P
1
est un estimateur sans biais de la moyenne m. De plus X n est

meilleur que tout autre estimateur sans biais linéaire
Yn = nk=1 ak Xk .
P
1 n
La variance empirique Sn2 = n−1 k=1 (Xk − X n )
2
P
2
est un estimateur sans biais de la variance σ 2 .
Proposition
1 La moyenne et la variance empiriques sont des estimateurs
consistants de m et σ 2 respectivement ,
P P
θ
X n −→ m et Sn2 −→
θ
σ2.
2 La variable aléatoire
!
Xn − m √ Xn − m
σ = n
√
n
σ
suit approximativement la loi normale N (0, 1).

3 La variable aléatoire
S2 − σ 2
qn
V(Sn2 )
suit approximativement la loi normale N (0, 1).
Démonstration
Il est clair que X n est sans biais. Soit Yn = nk=1 ak Xk un estimateur
P
sans biais de m donc Eθ (Yn ) = nk=1 ak m = m et par suite

P
Pn
k=1 ak = 1. Ainsi
n
!
X
RYn (θ) = V(Yn ) = V ak Xk
k=1
n n
! !
X X
= a2k Vθ (X1 ) = a2k σ 2
k=1 k=1
Pn Pn 2 1
Or k=1 ak = 1 et donc k=1 ak ≥ n avec égalité si et seulement si
1
ak = n pour tout k ∈ {1, · · · n}. En effet, on a
n 2
X 1
ak − ≥0
k=1
n
Pn
2 2aSkander

1HACHICHA
k 35 / 56
Démonstration

Pn 2 2ak 1 Pn 2 2 1
d’où k=1 ak − n + n2
≥ 0 ou encore k=1 ak − n + n ≥ 0,
Pn 2 1
ainsi k=1 ak ≥ n et
de plus il y a égalité si et seulement si
1
ak − k ∈ {1, · · · n}.
n = 0 pour tout
Un calcul simple montre que
n
X
(n − 1)Sn2 = (Xk − m)2 − n(X n − m)2 .
k=1
Pn 2

Or Eθ k=1 (Xk − m) = nVθ (X1 ) et
1
Eθ n(X n − m)2 = nV(X n ) = n nVθ (X1 )
n2
et donc Eθ (Sn2 ) = Vθ (X1 ) = σ 2 .
Démonstration
La loi forte des grands nombres s’applique : pour tout θ ∈ Θ
P −p.s
(X n − m)2 −→
θ
n−→+∞ 0
θ P −p.s
puisque X n − m −→ n−→+∞ 0 et
n
1X Pθ −p.s
(Xk − m)2 −→ 2
n−→+∞ σ .
n k=1
n−1 2 Pθ −p.s θP −p.s

et donc n Sn −→ σ 2 et par suite Sn2 −→ σ2.
Remarque
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance m et de
variance σ 2 . Si m est connue alors
n
1X
Sn02 = (Xk − m)2
n k=1
est un estimateur sans biais de σ 2 . Dans ce cas Sn02 est meilleur que
Sn2 . On a
n−1
cov(X n , Sn02 ) = E((X − E(X))3 )
n
Remarque
q
On peut estimer l’ecart-type σ par l’estimateur Sn2 mais il n’est pas
q q
sans biais puisque E( Sn2 ) 6= E(Sn2 ) (on n’a pas de résultat général
q
sur la qualité de Sn2 ) . Estimation paramètrique II 38 / 56
Maximum de vraisemblance
Estimateurs du maximum de vraisemblance

Etant donné un n−échantillon observé (x1 , · · · , xn ) et une loi de
probabilité Pθ , la vraisemblance quantifie la probabilité que les
observations proviennent effectivement d’un échantillon (théorique)
de la loi Pθ . Prenons l’exemple de 10 lancers de pièce. L’échantillon
binaire observé est par exemple
0, 1, 1, 0, 1, 1, 1, 0, 0, 1.
Pour un échantillon de taille 10 de loi de Bernoulli de paramètre p, la

probabilité d’une telle réalisation est p6 (1 − p)4 . Voici quelques
valeurs numérique,
p 0,2 0,3 0,4 0,5 0,6

p6 (1 − p)4 2, 6.10−5 1, 8.10−4 5, 3.10−4 9, 8.10−4 1, 2.10−3
p 0,7 0, 8
p6 (1 − p)4 9, 5.10−4 4, 2.10−4
Il est naturel de choisir comme estimation de p, celle pour laquelle la

probabilité de l’échantillon observé est la plus forte, à savoir ici
p = 0, 6.
Définition
Soit (X , A, Pθ : θ ∈ Θ) un modèle statstique où Θ est un ouvert non
vide de R. Soit X une v.a de loi Pθ et de densité f (x, θ). Pour tout
x ∈ X (réalisation de X) on appelle vraisemblance associé à x
l’application
L(x, .) : Θ −→ R∗+
θ −→ L(x, θ) = f (x, θ)
Conséquence
1 Si X est discrète. Pour tout x ∈ X ,
L(x, θ) = f (x, θ) = Pθ (X = x)
2 Si X est v.a de densité fθ . Pour tout x ∈ X ,
L(x, θ) = f (x, θ) = fθ (x)

Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ . On appelle
vraisemblance associé à la réalisation (x1 , · · · , xn ) de l’échantillon
(X1 , · · · , Xn ), l’application
L(x1 , · · · , xn , .) : Θ −→ R+
n
Y
θ −→ L(x1 , · · · , xn , θ) = f (xi , θ)
i=1
Un estimateur T(X1 , · · · , Xn ) de θ à valeurs dans Θ est appelé

estimateur du maximum de vraisemblance (EMV) si
L(x1 , · · · , xn , T(x1 , · · · , xn )) = sup L(x1 , · · · , xn , θ).

θ∈Θ

Conséquence
( Q
n
f (x ) si Pθ est absolument continue.
L(x1 , · · · , xn , θ) = Qni=1 θ i
i=1 Pθ (Xi = xi ) si Pθ est discrète
Une réalisation de l’estimateur T(X1 , · · · , Xn ) est une valeur de θ qui

maximise la vraisemblance ou encore, une valeur de θ qui rend
l’échantillon obtenu le plus probable. Soit (X1 , · · · , Xn ) un
n−échantillon de loi Pθ discrète. Donc la probabilité que l’échantillon
(X1 , · · · , Xn ) ait pour réalisation l’échantillon observé (x1 , · · · , xn ) est
le produit des probabilités pour que Xi prenne la valeur xi , à savoir
L(x1 , · · · , xn , θ) = Pθ (X1 = x1 ) · · · Pθ (Xn = xn ).

Conséquence
Ainsi, L(x1 , · · · , xn , θ) est soit la probabilité conjointe
P(X1 = x1 , · · · , Xn = xn ) du n-uplet (X1 , · · · , Xn ) soit sa densité
fθ (x1 , · · · , xn ) = ni=1 fθ (xi ) si elles sont absolument continues. De
Q
plus, la probabilité et la densité dans la défintion de la vraisemblance

sont fonctions des observations (x1 , · · · , xn ) dépendant du paramètre
θ. A l’inverse la fonction vraisemblance est considérée comme
fonction de θ dépendant des observations (ce qui permet, par exemple
de dériver cette fonction par rapport à θ).
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi uniforme sur l’intervalle
[0, θ] de densité fθ (x) = θ1 I[0,θ] (x)
La vraisemblance est alors définie par
n n
Y 1 Y
L(x1 , · · · , xn , θ) = fθ (xi ) = n I (xi )
i=1
θ i=1 [0,θ]
1
= I n (x1 , · · · , xn )
θn [0,θ]
1
= I
θn [0≤Inf (xi )≤max(xi )≤θ]
1
= I I
θn [0≤Inf (xi )] [max(xi )≤θ]
1
= I (θ)I[0≤Inf (xi )]
θn [max(xi ),+∞[
Exemple
Vue comme fonction de θ, la vraisemblance est nulle si θ est inférieur
à la plus grande des valeurs observées, elle vaut θ1n sinon. Elle est
donc maximale pour
θbn = max(x1 , · · · , xn )
Pour la plupart des probabilité usuelles, l’estimateur de maximum de

vraisemblance est défini de façon unique et se calcule explicitement.
Sur le plan théorique, il présente de nombreux avantages. Sous des
hypothèses vérifiées par de nombreux modèles courants, on démontre
qu’il est asymptotiquement sans biais et convergent. On démontre de
plus que sa variance est minimale. La méthode du maximum de
vraisemblance est donc théoriquement la meilleur des méthodes
d’estimation.

Remarque
Ainsi la méthode de maximum de vraisemblance consiste à prendre
comme estimateur T(x1 , · · · , xn ) tel que
L(x1 , · · · , xn , T(x1 , · · · , xn )) ≥ sup L(x1 , · · · , xn , θ) ; ∀θ ∈ Θ

θ∈Θ
Une réalisation de T(X1 , · · · , Xn ) est une valeur de θ qui maximise la

vraisemblance ou encore une valeur de θ qui rend l’échantillon
observé le plus probable.
Calcul des estimateurs de maximum de vraisemblance

On suppose que (X1 , · · · , Xn ) prend ses valeurs dans un ensemble qui
ne depend pas de l’ensemble Θ. On suppose les les hypothèses
H1 − H3 sont vérifiées :
Alors θbn l’estimateur du maximum de vraisemblance de θ est solution
du système

∂L
 ∂θ
 =0
 θ=θbn

 ∂2L

<0

∂θ2 θ=θbn
Or L(x1 , · · · , xn , θ) > 0 pour tout θ ∈ Θ il est plus facile d’utiliser le

logarithme de la vraisemblance log L(x1 , · · · , xn , θ), puisque la
vraisemblance est un produit de probabilité d’événements ou de
densité qui peut être assez compliqué à dérivée et le logarithme de la
vraisemblance est une somme qui est plus facile à calculer.
∂L
1 la fonction log est croissante et de classe C∞ et ∂ log
∂θ =
L ∂θ
L et
donc
∂L ∂ log L
= 0 si et seulement si = 0.
∂θ ∂θ
2 par dérivation successive on a
∂L
∂2L 2
∂ 2 log L ∂( ∂ log
∂θ )
L
∂( ∂θ
L ) ∂θ2
L − ( ∂L
∂θ )
2 ∂ L
∂θ2
L ( ∂L
∂θ )
2
2
= = = = −
∂θ ∂θ ∂θ L2 L2 L2
!
∂2L
∂ 2 log L

∂θ 2
et donc ∂θ2
= L et par suite
θ=θbn
θ=θbn
! !
∂2L ∂ 2 log L
< 0 si et seulement si < 0.
∂θ2 θ=θbn
∂θ2 θ=θbn

Ainsi
 
∂L ∂ log L
 ∂θ = 0  ∂θ = 0

 

2 si et seulement si 2
 ∂∂θL2 <0  ∂ log2 L
 
 
∂θ
<0
θ=θbn θ=θbn
Exemple
( estimation du paramètre d’une loi de Poisson)
Soit (X1 , · · · , Xn ) un n−échantillions de loi de poisson P(θ)
θx
P(X = x) = e−θ .
x!
On se propose d’estimer le paramètre inconnu θ. L’ensemble des
observations possibles est Nn et le paramètre inconnu est θ ∈]0, +∞[.
Ainsi si (x1 , · · · , xn ) ∈ Nn est l’échantillon observé, alors
Pn
x
−nθ θ
k=1 k
L(x1 , · · · , xn , θ) = e Qn
k=1 xk !
Pn
Alors log L(x1 , · · · , xn , θ) = −nθ + ( k=1 xk ) log(θ) − constante
Exemple
( estimation du paramètre d’une loi de Poisson)
d’où : Pn
∂ log L xk
= −n + k=1 = 0
∂θ θ
d’où elle s’annule pour θbn = xn . La dérivée seconde est
Pn
∂ 2 log L k=1 xk θbn
=− = −n
∂θ2 θ2 θ2
!
∂ 2 log L n
= − Pn <0
∂θ2 θ=θbn k=1 xk
Il s’agit donc bien d’un maximum, et par suite θbn = xn est

l’estimateur de maximum de vraisemblance de θ.
Exemple
( estimation de l’espérance d’une loi normale N (m, σ) , où σ est
connu)
Soit (X1 , · · · , Xn ) un n−échantillon de loi normale N (m, σ) , où σ est
connu et de densité
1 (x−m)2
−
fm (x) = √ e 2σ2 .
σ 2π
On se propose d’estimer le paramètre inconnu m connaissant σ.
L’ensemble des observations possibles est Rn et le paramètre inconnu
est m ∈ R. Ainsi si (x1 , · · · , xn ) ∈ Rn est un échantillon observé, alors
Pn 2
(2π)−n/2 − (x −m)
k=1 k
L(x1 , · · · , xn , m) = e 2σ 2
σn

Exemple
connu) P n
(x −m)2
k=1 k
log L(x1 , · · · , xn , m) = −n log(σ) − 2σ 2
+ constante d’où
Pn
∂ log L k=1 (xk − m)
= = 0,
∂m σ2
b n = xn . D’autre part, on a
d’où : m
∂ 2 log L n
2
=− 2
∂m σ

Exemple
connu)
et par suite !
∂ 2 log L
<0
∂m2 m=m
b n
b n = xn est
Il s’agit donc bien d’un maximum, et par suite m
l’estimateur de maximum de vraisemblance de m.
Merci

Chap Stat 3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap Stat 3

Transféré par

Droits d'auteur :

Formats disponibles

Estimation paramètrique II

Université de Tunis El Manar

existe ainsi que la matrice Hessienne de dimension d × d

E(S(X, θ)) = 0Rd

2 Le vecteur score est additif : soient X et Y deux variables

I(θ) = Vθ (S(X, θ)) = Eθ (S(X, θ)(S(X, θ))t ) =

I(θ) = Vθ (S(X, θ))

Cette expression de I(θ) est plus simple à manipuler que celle de la

I(X,Y) (θ) = IX (θ) + IY (θ)

(c’est la variance d’une somme de scores indépendants).

Par définition, on a S((X, Y), θ)) = S(X, θ) + S(Y, θ) Or X et Y sont

I(X,Y) (θ) = Vθ (S(X, θ)) + Vθ (S(Y, θ)) = IX (θ) + IY (θ)

In (θ) = Vθ (S(X1 , · · · , Xn ), θ) = nI(θ)

I(θ) = Eθ (S2 (X, θ))

∂Eθ (T(X)) ∂ ∂f (x, θ)

Comme T(X) est un estimateur sans biais de g(θ), on a

On suppose que l’on dispose d’un estimateur Tn de θ ∈ Θ. Soit

qui est un estimateur du moment mi (θ) = Eθ (X1i ).

Comme les paramètres d’une loi de probabilités sont reliés aux

est un estimateur sans biais et convergent de m1 (θ) = Eθ (X1 ).

est un estimateur sans biais et convergent de m2 (θ) = Eθ (X12 ).

est un estimateur convergent de V(X1 ) = E(X12 ) − (E(X1 ))2 . Mais ce

Eθ (Xi Xj ) = Eθ (Xi )Eθ (Xj ) = (Eθ (X1 ))2

Si le paramètre θ s’exprime en fonction de E(ϕ(Xi )), on peut donc en

L’estimateur de θ est alors Tn = 2X n − 1 ce qui est clairement un

est un estimateur sans biais de la moyenne m. De plus X n est

est un estimateur sans biais de la variance σ 2 .

suit approximativement la loi normale N (0, 1).

sans biais de m donc Eθ (Yn ) = nk=1 ak m = m et par suite

n−1 2 Pθ −p.s θP −p.s

Estimateurs du maximum de vraisemblance

Pour un échantillon de taille 10 de loi de Bernoulli de paramètre p, la

Estimateurs du maximum de vraisemblance

p 0,2 0,3 0,4 0,5 0,6

Il est naturel de choisir comme estimation de p, celle pour laquelle la

Estimateurs du maximum de vraisemblance

Un estimateur T(X1 , · · · , Xn ) de θ à valeurs dans Θ est appelé

L(x1 , · · · , xn , T(x1 , · · · , xn )) = sup L(x1 , · · · , xn , θ).

Estimateurs du maximum de vraisemblance

Une réalisation de l’estimateur T(X1 , · · · , Xn ) est une valeur de θ qui

L(x1 , · · · , xn , θ) = Pθ (X1 = x1 ) · · · Pθ (Xn = xn ).

Estimateurs du maximum de vraisemblance

plus, la probabilité et la densité dans la défintion de la vraisemblance

Pour la plupart des probabilité usuelles, l’estimateur de maximum de

Estimateurs du maximum de vraisemblance

L(x1 , · · · , xn , T(x1 , · · · , xn )) ≥ sup L(x1 , · · · , xn , θ) ; ∀θ ∈ Θ

Une réalisation de T(X1 , · · · , Xn ) est une valeur de θ qui maximise la

Calcul des estimateurs de maximum de vraisemblance

Or L(x1 , · · · , xn , θ) > 0 pour tout θ ∈ Θ il est plus facile d’utiliser le

Calcul des estimateurs de maximum de vraisemblance

Il s’agit donc bien d’un maximum, et par suite θbn = xn est

Calcul des estimateurs de maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance

Vous aimerez peut-être aussi