Vous êtes sur la page 1sur 56

Estimation paramètrique II

Skander HACHICHA

skander.hachicha@enit.utm.tn

Université de Tunis El Manar


Ecole nationale d’ingénieurs de Tunis

Estimation paramètrique II 1 / 56
Skander HACHICHA 1 / 56
Information de Fisher
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ). On appelle hypothèses
usuelles les 4 hypothèses suivantes :
H1 Θ est ouvert de Rd .
H2 Le support des lois {x ∈ X : f (x, θ) > 0} est indépendant de θ.
H3 Pour tout x ∈ X la fonction θ −→ f (x, θ) est de classe C2 sur Θ.
En particulier le vecteur de dimension d × 1 contenant les
dérivées premières est noté
 ∂ log f (x,θ) 
∂θ1

gradθ log f (x, θ) =  .. 
.

 
∂ log f (x,θ)
∂θd

existe ainsi que la matrice Hessienne de dimension d × d


!
∂ 2 f (x, θ)
∂θi ∂θj 1≤i,j≤d
Estimation paramètrique II 2 / 56
Skander HACHICHA 2 / 56
Information de Fisher

∂f (x,θ) ∂ 2 f (x,θ)
H4 Les fonctions ∂θi et ∂θi ∂θj sont intégrbles pour tout θ ∈ Θ et
R ∂f (x,θ)
pour tout i, j ∈ {1, · · · d} ( X | ∂θi |dx < ∞ et
R ∂ 2 f (x,θ)
| ∂θi ∂θj |dx < ∞). De plus pour tout B borélien l’intégrale
RX
B f (x, θ)dx est au moins deux fois dérivable sous le signe
d’intégration et on peut permuter intégration et dérivation :

∂ ∂f (x, θ)
Z Z
f (x, θ)dx = dx; j = 1, · · · d
∂θj B B ∂θj

∂2 ∂ 2 f (x, θ)
Z Z
f (x, θ)dx = dx; i, j ∈ {1, · · · d}
∂θi ∂θj B B ∂θi ∂θj

Estimation paramètrique II 3 / 56
Skander HACHICHA 3 / 56
Information de Fisher

Définition
Si les hypothèses H1 − H4 sont vérifiées, on dit que le modèle est
régulier.

Remarque
Dans le cas discret l’hypothèses H − 4 s’écrit sous la forme
suivante : ∀B ∈ X
∂ P P ∂f (x,θ)
∂θi x∈B f (x, θ) = x∈B ∂θi
∂2 P P ∂ 2 f (x,θ)
∂θi ∂θj x∈B f (x, θ) = x∈B ∂θi ∂θj

Estimation paramètrique II 4 / 56
Skander HACHICHA 4 / 56
Information de Fisher

Définition
On appelle score le vecteur aléatoire S(X, θ) définit par
 ∂ log f (X,θ) 
∂θ1

S(X, θ) = gradθ log f (X, θ) =  .. 

. 

∂ log f (X,θ)
∂θd

df (X,θ)
d log f (X,θ)
pour d = 1, S(X, θ) = dθ = dθ
f (X,θ) .

Remarque
Le vecteur aléatoire S(X, θ) dépend de θ, ce n’est pas donc une
statistique.

Estimation paramètrique II 5 / 56
Skander HACHICHA 5 / 56
Information de Fisher

Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)

comme log f (x, θ) = −θ + x log θ − log(x!) alors
X
S(X, θ) = −1 +
θ
Estimation paramètrique II 6 / 56
Skander HACHICHA 6 / 56
Information de Fisher
Théorème
1 Le score est un vecteur aléatoire centré

E(S(X, θ)) = 0Rd

2 Le vecteur score est additif : soient X et Y deux variables


aléatoires indépendantes associées aux modèles statistiques
(X , Pθ ) et (Y, Qθ ). Alors S(X, θ) et S(Y, θ) sont indépendants,
de plus
S((X, Y), θ) = S(X, θ) + S(Y, θ) θ ∈ Θ
((X, Y)est associé au modèles statistique (X × Y, Pθ ⊗ Qθ ))

Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X alors
n
X
S(X1 , · · · , Xn , θ) = S(Xi , θ)
i=1
Estimation paramètrique II 7 / 56
Skander HACHICHA 7 / 56
Information de Fisher

Définition
Dans un modèle régulier, on appelle information de Fisher du modèle
au point θ (apporté par X sur θ) la matrice de covariance du score
S(X, θ) donnée par

I(θ) = Vθ (S(X, θ)) = Eθ (S(X, θ)(S(X, θ))t ) =


!!
∂ log f (X, θ) ∂ log f (X, θ)

∂θi ∂θj 1≤i,j≤d

lorsque cette quantité est bien définie (L’espérance est prise par
rapport à Pθ , pour θ fixé).

Estimation paramètrique II 8 / 56
Skander HACHICHA 8 / 56
Information de Fisher

Définition
Pour d = 1,
2 !
d log f (X, θ)

I(θ) = Vθ (S(X, θ)) = Eθ =


df (X,θ) !2 

Eθ  
f (X, θ)

Estimation paramètrique II 9 / 56
Skander HACHICHA 9 / 56
Information de Fisher

Remarque
Pour un modèle régulier, l’information de Fisher est une matrice
symétrique définie positive comme étant la matrice de covariance du
vecteur aléatoire centré S(X, θ)

I(θ) = Vθ (S(X, θ))


!!
∂ log f (X, θ) ∂ log f (X, θ)
= Covθ ,
∂θi ∂θj 1≤i,j≤d
!!
∂ log f (X, θ) ∂ log f (X, θ)
= Eθ
∂θi ∂θj 1≤i,j≤d

Estimation paramètrique II 10 / 56
Skander HACHICHA 10 / 56
Information de Fisher

Théorème
Dans un modèle régulier , on a la relation suivante
!!
∂ 2 log f (X, θ)
I(θ) = − Eθ = −Eθ (Hθ2 (log f (X, θ)))
∂θi θj 1≤i,j≤d

Cette expression de I(θ) est plus simple à manipuler que celle de la


définition, en effet il est plus simple de dériver puis d’intégrer que
d’élever au carré puis d’intégrer.
Par dérivation, on a
!
∂ 2 log f (X, θ) ∂ 1 ∂f (X, θ)
=
∂θi θj ∂θi f (X, θ) ∂θj
1 ∂ 2 f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
= − 2
f (X, θ) ∂θi θj f (X, θ) ∂θi ∂θj

Estimation paramètrique II 11 / 56
Skander HACHICHA 11 / 56
Information de Fisher
et donc
! !
∂ 2 log f (X, θ) 1 ∂ 2 f (X, θ)
Eθ = Eθ −
∂θi θj f (X, θ) ∂θi θj
!
1 ∂f (X, θ) ∂f (X, θ)
Eθ 2
f (X, θ) ∂θi ∂θj
or
!
1 ∂ 2 f (X, θ) 1 ∂ 2 f (x, θ)
Z
Eθ = f (x, θ)dx
f (X, θ) ∂θi θj X f (x, θ) ∂θi θj
∂ 2 f (x, θ)
Z
= dx
X ∂θi θj
∂2 ∂2
Z
= f (x, θ)dx = 1=0
∂θi ∂θj X ∂θi ∂θj

Estimation paramètrique II 12 / 56
Skander HACHICHA 12 / 56
Information de Fisher

ainsi
! !
∂ 2 log f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
Eθ = −Eθ
∂θi θj f 2 (X, θ) ∂θi ∂θj
!
1 ∂f (X, θ) 1 ∂f (X, θ)
= −Eθ
f (X, θ) ∂θi f (X, θ) ∂θj
!
∂ log f (X, θ) ∂ log f (X, θ)
= −Eθ
∂θi ∂θj

Estimation paramètrique II 13 / 56
Skander HACHICHA 13 / 56
Information de Fisher

Remarque
Dans un modèle régulier, l’information de Fisher I(θ) ≥ 0 pour tout
θ ∈ Θ.

Théorème
Pour un modèle régulier, l’information de Fisher est additive : si X et
Y sont deux variables aléatoires indépendantes dans des modèles
paramétriques au paramètre θ commun alors

I(X,Y) (θ) = IX (θ) + IY (θ)

(c’est la variance d’une somme de scores indépendants).

Estimation paramètrique II 14 / 56
Skander HACHICHA 14 / 56
Information de Fisher

Par définition, on a S((X, Y), θ)) = S(X, θ) + S(Y, θ) Or X et Y sont


indépendantes et donc S(X, θ) et S(Y, θ) sont indépendants et par suite

I(X,Y) (θ) = Vθ (S(X, θ)) + Vθ (S(Y, θ)) = IX (θ) + IY (θ)

Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X de matrice
d’information IX (θ) = I(θ) alors, on a la relation suivante :

In (θ) = Vθ (S(X1 , · · · , Xn ), θ) = nI(θ)

Estimation paramètrique II 15 / 56
Skander HACHICHA 15 / 56
Information de Fisher
Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)

comme log f (x, θ) = −θ + x log θ − log(x!) alors
X
S(X, θ) = −1 +
θ
et donc
Estimation paramètrique II 16 / 56
Skander HACHICHA 16 / 56
Information de Fisher

Exemple

I(θ) = Eθ (S2 (X, θ))


 2 !
X
= Eθ −1 +
θ
1 
2

= Eθ (X − θ)
θ2
1
= Vθ (X)
θ2
1
=
θ
Soit (X1 , · · · , Xn ) un n−échantillions de loi de Poisson alors
n
In (θ) = nI(θ) =
θ
Estimation paramètrique II 17 / 56
Skander HACHICHA 17 / 56
Information de Fisher

Exemple
Soit X une v.a.r de loi N (m, σ) (i.e θ = (θ1 , θ2 ) = (m, σ 2 ) et donc de
densité
1 1
 
2
f (x, θ) = √ exp − 2 (x − m)
σ 2π 2σ
d’où
1 1 1
log(f (x, θ)) = − log(2π) − log(σ 2 ) − 2 (x − m)2
2 2 2σ
Comme f est de classe C2 par rapport à m et σ 2 alors les dérivées
seconde de f sont données par
∂ 2 log(f (x,θ) 2

∂m2
= − σ12 , ∂ log(f (x,θ)
∂(σ 2 )2
= 2σ1 4 − σ16 (x − m)2

Estimation paramètrique II 18 / 56
Skander HACHICHA 18 / 56
Information de Fisher
Exemple
∂ 2 log(f (x, θ)) 1
= − 4 (x − m)
∂m∂(σ 2 ) σ
et par suite !
∂ 2 log(f (X, θ)) 1
−E =
∂m2 σ2
!
∂ 2 log(f (X, θ)) 1
−E =−
∂(σ 2 )2 2σ 4
!
∂ 2 log(f (X, θ))
−E =0
∂m∂(σ 2 )
Ainsi la matrice d’information est :
!
1
σ2
0
I(θ) = 1
0 − 2σ4
Estimation paramètrique II 19 / 56
Skander HACHICHA 19 / 56
Information de Fisher

Borne de Rao-Cramer
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ).
On suppose les hypothèses H1 − H4 sont vérifiées et de plus on
suppose
H5 Pour tout θ ∈ Θ la matrice d × d d’information de Fisher I(θ)
existe et elle est symétrique et définie positive.

Estimation paramètrique II 20 / 56
Skander HACHICHA 20 / 56
Information de Fisher

Borne de Rao-Cramer
Définition
Un estimateur T(X1 , · · · , Xn ) de g(θ) est dit régulier dans un modèle
régulier si Vθ (T(X)) < +∞ et
R
X n T(x)f (x, θ)dx est dérivable par rapport à θ sous le symbole
d’intégration :

∂Eθ (T(X)) ∂ ∂f (x, θ)


Z Z
= T(x)f (x, θ)dx = T(x) dx
∂θi ∂θi Xn Xn ∂θi

Estimation paramètrique II 21 / 56
Skander HACHICHA 21 / 56
Information de Fisher
Borne de Rao-Cramer
On suppose que Θ ⊂ R. Soit g : Θ −→ R une application de classe
C1 .
Théorème
On suppose que les hypothèses H1 − H5 sont vérifiés. Si
Tn (X1 , · · · , Xn ) est un estimateurs sans biais de g(θ), alors
1
dg(θ)
= Covθ (Tn (X1 , · · · , Xn ), S(X1 , · · · , Xn , θ)

2 La variance de l’estimateur Tn (X1 , · · · , Xn ) est telle que :

V(Tn (X1 , · · · , Xn )) ≥

dg(θ) 2
 
2
(Covθ (Tn (X1 , · · · , Xn )), S(X1 , · · · , Xn , θ)) dθ
=
In (θ) In (θ)
Estimation paramètrique II 22 / 56
Skander HACHICHA 22 / 56
Information de Fisher

Borne de Rao-Cramer
Par définition, l’information de fisher est le nombre réel défini par
2 !
d log f (X, θ)

I(θ) = Eθ

Comme T(X) est un estimateur sans biais de g(θ), on a


Z
Eθ (T(X)) = g(θ) = T(x)f (x, θ)dx
Xn

Estimation paramètrique II 23 / 56
Skander HACHICHA 23 / 56
Information de Fisher

Borne de Rao-Cramer
En dérivant par rapport à θ, on a :

dg(θ) d
Z
= T(x)f (x, θ)dx
dθ dθ Xn
df (x, θ)
Z
= T(x) dx
Xn dθ
d log f (x, θ)
Z
= T(x) f (x, θ)dx
ZX
n dθ
= T(x)S(x, θ)f (x, θ)dx
Xn
= Eθ (T(X)S(X, θ))

Estimation paramètrique II 24 / 56
Skander HACHICHA 24 / 56
Information de Fisher
Borne de Rao-Cramer
Comme Eθ (S(X, θ)) = 0, alors dg(θ)
dθ = Covθ (T(X), S(X, θ)) Par suite
d’après l’inégalité de Cauchy-Schwarz, on a
 2
dg(θ)
= (Covθ (T(X), S(X, θ)))2 ≤ Vθ (T(X))Vθ (S(X, θ))

= Vθ (T(X))In (θ)
et donc 2
1

dg(θ)
Vθ (T(X)) ≥
dθ In (θ)

Remarque
Dans le cas où g est l’identité, on a
  1
Eθ (T(X1 , · · · Xn ) − θ)2 ≥
In (θ)
Estimation paramètrique II 25 / 56
Skander HACHICHA 25 / 56
Méthode de substition

On suppose que l’on dispose d’un estimateur Tn de θ ∈ Θ. Soit


φ : Θ −→ φ(Θ) une fonction. On peut alors construire un estimateur
de φ(θ) en substituant θ par Tn à savoir φ(Tn ). La méthode des
moments est la plus naturelle puisqu’elle se justifie par la loi des
grands nombres, pour estimer des paramètres définis à partir des
moments centrés ou non centrés.

Estimation paramètrique II 26 / 56
Skander HACHICHA 26 / 56
Méthode des moments

Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ admettant des moments
jusqu’à l’ordre r. On note mi = Eθ (X1i ), Pour tout i ∈ {1, · · · r}. on
appelle moment empirique d’ordre i, la variable aléatoire
n
1X
Xin = Xi
n k=1 k

qui est un estimateur du moment mi (θ) = Eθ (X1i ).

Comme les paramètres d’une loi de probabilités sont reliés aux


momemts centrés ou non centrés, on peut donc en général les obtenir
en fonctions des r premiers moments. Ainsi, on estime les r premiers
moments par les moments empiriques et en en déduit les estimateurs
des paramètres en résolvant un système de p équations à p inconnues
(en général ce système n’est pas linéaire).
Estimation paramètrique II 27 / 56
Skander HACHICHA 27 / 56
Méthode des moments

Remarque
De même g(X 1 n , · · · , X r n ) un estimateur de g(m1 (θ), · · · , mr (θ)) sera
obtenu par. Ainsi
1 La moyenne empirique
n
1X
Xn = Xk
n k=1

est un estimateur sans biais et convergent de m1 (θ) = Eθ (X1 ).


2 Le moment empirique d’ordre 2
n
1X
X2 n = X2
n k=1 k

est un estimateur sans biais et convergent de m2 (θ) = Eθ (X12 ).


Estimation paramètrique II 28 / 56
Skander HACHICHA 28 / 56
Méthode des moments
Remarque
D’après ce qui précède
n n
1X 1X
Sn02 = Xk2 − (X n )2 = (Xk − X n )2
n k=1 n k=1

est un estimateur convergent de V(X1 ) = E(X12 ) − (E(X1 ))2 . Mais ce


n’est pas un estimateur sans biais. En effet,
  1  
E (X n )2 = 2
Eθ (X1 + · · · + Xn )2
n  
n n X
1 X X
= Eθ  Xi2 + Xi Xj 
n2 i=1 i=1 i6=j
n n X
1 X   1 X
= Eθ Xi2 + Eθ (Xi Xj )
n2 i=1
n2 i=1 i6=j
Estimation paramètrique II 29 / 56
Skander HACHICHA 29 / 56
Méthode des moments

Remarque
Comme X1 , · · · , Xn sont indépendantes et de même loi donc

Eθ (Xi Xj ) = Eθ (Xi )Eθ (Xj ) = (Eθ (X1 ))2

Eθ (X12 )

  n(n − 1)
E (X n ) 2
= + (Eθ (X1 ))2
n n2
et par suite

Eθ (X12 )

    n−1
E Sn02 = Eθ (X12 ) − − (Eθ (X1 ))2
n n
n−1 
= Eθ (X12 ) − (Eθ (X1 ))2
n
n−1
= V(X1 )
n

Estimation paramètrique II 30 / 56
Skander HACHICHA 30 / 56
Méthode des moments

Remarque
Soient (X1 , · · · , Xn ) un n−échantillon de loi Pθ et ϕ une fonction
continue de R dans R telle que ϕ(Xi ) admet un moment d’ordre 1.
Alors E(ϕ(Xi )) peut être estimeé par la moyenne empirique de
l’échantillon (ϕ(X1 ), · · · , ϕ(Xn )) :
n
1X
ϕ(X)n = ϕ(Xi ).
n i=1

Si le paramètre θ s’exprime en fonction de E(ϕ(Xi )), on peut donc en


déduire un estimateur de θ. Inversement si E(X) = ϕ(θ) où ϕ est une
fonction bijective alors l’estimateur de θ par la méthode des moments
est θbn = ϕ−1 (Xn ).

Estimation paramètrique II 31 / 56
Skander HACHICHA 31 / 56
Méthode des moments

Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi uniforme sur {1, · · · , θ}
telle que pour tout x ∈ {1, · · · , θ}, P(Xi = x) = θ1 . Ainsi, on a

θ
X i θ(θ + 1) θ+1
E(Xi ) = = = .
i=1
θ 2θ 2

L’estimateur de θ est alors Tn = 2X n − 1 ce qui est clairement un


mauvais estimateur, en particulier si maxi Xi > 2X n − 1 puisque
θ ≥ maxi Xi .

Estimation paramètrique II 32 / 56
Skander HACHICHA 32 / 56
Méthode des moments

Proposition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance m et de
variance σ 2 .
La moyenne empirique X n = n1 nk=1 Xk
P
1

est un estimateur sans biais de la moyenne m. De plus X n est


meilleur que tout autre estimateur sans biais linéaire
Yn = nk=1 ak Xk .
P

1 n
La variance empirique Sn2 = n−1 k=1 (Xk − X n )
2
P
2

est un estimateur sans biais de la variance σ 2 .

Estimation paramètrique II 33 / 56
Skander HACHICHA 33 / 56
Méthode des moments
Proposition
1 La moyenne et la variance empiriques sont des estimateurs
consistants de m et σ 2 respectivement ,
P P
θ
X n −→ m et Sn2 −→
θ
σ2.

2 La variable aléatoire
!
Xn − m √ Xn − m
σ = n

n
σ

suit approximativement la loi normale N (0, 1).


3 La variable aléatoire
S2 − σ 2
qn
V(Sn2 )
suit approximativement la loi normale N (0, 1).
Estimation paramètrique II 34 / 56
Skander HACHICHA 34 / 56
Méthode des moments
Démonstration
Il est clair que X n est sans biais. Soit Yn = nk=1 ak Xk un estimateur
P

sans biais de m donc Eθ (Yn ) = nk=1 ak m = m et par suite


P
Pn
k=1 ak = 1. Ainsi

n
!
X
RYn (θ) = V(Yn ) = V ak Xk
k=1
n n
! !
X X
= a2k Vθ (X1 ) = a2k σ 2
k=1 k=1
Pn Pn 2 1
Or k=1 ak = 1 et donc k=1 ak ≥ n avec égalité si et seulement si
1
ak = n pour tout k ∈ {1, · · · n}. En effet, on a

n  2
X 1
ak − ≥0
k=1
n

Pn 
2 2aSkander

1HACHICHA
Estimation paramètrique II 35 / 56
k 35 / 56
Méthode des moments

Démonstration
 
Pn 2 2ak 1 Pn 2 2 1
d’où k=1 ak − n + n2
≥ 0 ou encore k=1 ak − n + n ≥ 0,
Pn 2 1
ainsi k=1 ak ≥ n et
de plus il y a égalité si et seulement si
1
ak − k ∈ {1, · · · n}.
n = 0 pour tout
Un calcul simple montre que
n
X
(n − 1)Sn2 = (Xk − m)2 − n(X n − m)2 .
k=1
Pn 2

Or Eθ k=1 (Xk − m) = nVθ (X1 ) et
  1
Eθ n(X n − m)2 = nV(X n ) = n nVθ (X1 )
n2
et donc Eθ (Sn2 ) = Vθ (X1 ) = σ 2 .

Estimation paramètrique II 36 / 56
Skander HACHICHA 36 / 56
Méthode des moments

Démonstration
La loi forte des grands nombres s’applique : pour tout θ ∈ Θ
P −p.s
(X n − m)2 −→
θ
n−→+∞ 0

θ P −p.s
puisque X n − m −→ n−→+∞ 0 et
n
1X Pθ −p.s
(Xk − m)2 −→ 2
n−→+∞ σ .
n k=1

n−1 2 Pθ −p.s θP −p.s


et donc n Sn −→ σ 2 et par suite Sn2 −→ σ2.

Estimation paramètrique II 37 / 56
Skander HACHICHA 37 / 56
Méthode des moments
Remarque
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance m et de
variance σ 2 . Si m est connue alors
n
1X
Sn02 = (Xk − m)2
n k=1

est un estimateur sans biais de σ 2 . Dans ce cas Sn02 est meilleur que
Sn2 . On a
n−1
cov(X n , Sn02 ) = E((X − E(X))3 )
n

Remarque
q
On peut estimer l’ecart-type σ par l’estimateur Sn2 mais il n’est pas
q q
sans biais puisque E( Sn2 ) 6= E(Sn2 ) (on n’a pas de résultat général
q
sur la qualité de Sn2 ) . Estimation paramètrique II 38 / 56
Skander HACHICHA 38 / 56
Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Etant donné un n−échantillon observé (x1 , · · · , xn ) et une loi de
probabilité Pθ , la vraisemblance quantifie la probabilité que les
observations proviennent effectivement d’un échantillon (théorique)
de la loi Pθ . Prenons l’exemple de 10 lancers de pièce. L’échantillon
binaire observé est par exemple

0, 1, 1, 0, 1, 1, 1, 0, 0, 1.

Pour un échantillon de taille 10 de loi de Bernoulli de paramètre p, la


probabilité d’une telle réalisation est p6 (1 − p)4 . Voici quelques
valeurs numérique,

Estimation paramètrique II 39 / 56
Skander HACHICHA 39 / 56
Maximum de vraisemblance

Estimateurs du maximum de vraisemblance

p 0,2 0,3 0,4 0,5 0,6


p6 (1 − p)4 2, 6.10−5 1, 8.10−4 5, 3.10−4 9, 8.10−4 1, 2.10−3

p 0,7 0, 8
p6 (1 − p)4 9, 5.10−4 4, 2.10−4

Il est naturel de choisir comme estimation de p, celle pour laquelle la


probabilité de l’échantillon observé est la plus forte, à savoir ici
p = 0, 6.

Estimation paramètrique II 40 / 56
Skander HACHICHA 40 / 56
Maximum de vraisemblance
Estimateurs du maximum de vraisemblance
Définition
Soit (X , A, Pθ : θ ∈ Θ) un modèle statstique où Θ est un ouvert non
vide de R. Soit X une v.a de loi Pθ et de densité f (x, θ). Pour tout
x ∈ X (réalisation de X) on appelle vraisemblance associé à x
l’application
L(x, .) : Θ −→ R∗+
θ −→ L(x, θ) = f (x, θ)

Conséquence
1 Si X est discrète. Pour tout x ∈ X ,

L(x, θ) = f (x, θ) = Pθ (X = x)
2 Si X est v.a de densité fθ . Pour tout x ∈ X ,
L(x, θ) = f (x, θ) = fθ (x)
Estimation paramètrique II 41 / 56
Skander HACHICHA 41 / 56
Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ . On appelle
vraisemblance associé à la réalisation (x1 , · · · , xn ) de l’échantillon
(X1 , · · · , Xn ), l’application

L(x1 , · · · , xn , .) : Θ −→ R+
n
Y
θ −→ L(x1 , · · · , xn , θ) = f (xi , θ)
i=1

Un estimateur T(X1 , · · · , Xn ) de θ à valeurs dans Θ est appelé


estimateur du maximum de vraisemblance (EMV) si

L(x1 , · · · , xn , T(x1 , · · · , xn )) = sup L(x1 , · · · , xn , θ).


θ∈Θ

Estimation paramètrique II 42 / 56
Skander HACHICHA 42 / 56
Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Conséquence
( Q
n
f (x ) si Pθ est absolument continue.
L(x1 , · · · , xn , θ) = Qni=1 θ i
i=1 Pθ (Xi = xi ) si Pθ est discrète

Une réalisation de l’estimateur T(X1 , · · · , Xn ) est une valeur de θ qui


maximise la vraisemblance ou encore, une valeur de θ qui rend
l’échantillon obtenu le plus probable. Soit (X1 , · · · , Xn ) un
n−échantillon de loi Pθ discrète. Donc la probabilité que l’échantillon
(X1 , · · · , Xn ) ait pour réalisation l’échantillon observé (x1 , · · · , xn ) est
le produit des probabilités pour que Xi prenne la valeur xi , à savoir

L(x1 , · · · , xn , θ) = Pθ (X1 = x1 ) · · · Pθ (Xn = xn ).

Estimation paramètrique II 43 / 56
Skander HACHICHA 43 / 56
Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Conséquence
Ainsi, L(x1 , · · · , xn , θ) est soit la probabilité conjointe
P(X1 = x1 , · · · , Xn = xn ) du n-uplet (X1 , · · · , Xn ) soit sa densité
fθ (x1 , · · · , xn ) = ni=1 fθ (xi ) si elles sont absolument continues. De
Q

plus, la probabilité et la densité dans la défintion de la vraisemblance


sont fonctions des observations (x1 , · · · , xn ) dépendant du paramètre
θ. A l’inverse la fonction vraisemblance est considérée comme
fonction de θ dépendant des observations (ce qui permet, par exemple
de dériver cette fonction par rapport à θ).

Estimation paramètrique II 44 / 56
Skander HACHICHA 44 / 56
Maximum de vraisemblance
Estimateurs du maximum de vraisemblance
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi uniforme sur l’intervalle
[0, θ] de densité fθ (x) = θ1 I[0,θ] (x)
La vraisemblance est alors définie par
n n
Y 1 Y
L(x1 , · · · , xn , θ) = fθ (xi ) = n I (xi )
i=1
θ i=1 [0,θ]
1
= I n (x1 , · · · , xn )
θn [0,θ]
1
= I
θn [0≤Inf (xi )≤max(xi )≤θ]
1
= I I
θn [0≤Inf (xi )] [max(xi )≤θ]
1
= I (θ)I[0≤Inf (xi )]
θn [max(xi ),+∞[
Estimation paramètrique II 45 / 56
Skander HACHICHA 45 / 56
Maximum de vraisemblance
Estimateurs du maximum de vraisemblance
Exemple
Vue comme fonction de θ, la vraisemblance est nulle si θ est inférieur
à la plus grande des valeurs observées, elle vaut θ1n sinon. Elle est
donc maximale pour

θbn = max(x1 , · · · , xn )

Pour la plupart des probabilité usuelles, l’estimateur de maximum de


vraisemblance est défini de façon unique et se calcule explicitement.
Sur le plan théorique, il présente de nombreux avantages. Sous des
hypothèses vérifiées par de nombreux modèles courants, on démontre
qu’il est asymptotiquement sans biais et convergent. On démontre de
plus que sa variance est minimale. La méthode du maximum de
vraisemblance est donc théoriquement la meilleur des méthodes
d’estimation.
Estimation paramètrique II 46 / 56
Skander HACHICHA 46 / 56
Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Remarque
Ainsi la méthode de maximum de vraisemblance consiste à prendre
comme estimateur T(x1 , · · · , xn ) tel que

L(x1 , · · · , xn , T(x1 , · · · , xn )) ≥ sup L(x1 , · · · , xn , θ) ; ∀θ ∈ Θ


θ∈Θ

Une réalisation de T(X1 , · · · , Xn ) est une valeur de θ qui maximise la


vraisemblance ou encore une valeur de θ qui rend l’échantillon
observé le plus probable.

Estimation paramètrique II 47 / 56
Skander HACHICHA 47 / 56
Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


On suppose que (X1 , · · · , Xn ) prend ses valeurs dans un ensemble qui
ne depend pas de l’ensemble Θ. On suppose les les hypothèses
H1 − H3 sont vérifiées :
Alors θbn l’estimateur du maximum de vraisemblance de θ est solution
du système
  
∂L
 ∂θ
 =0
 θ=θbn
 
 ∂2L

<0

∂θ2 θ=θbn

Or L(x1 , · · · , xn , θ) > 0 pour tout θ ∈ Θ il est plus facile d’utiliser le


logarithme de la vraisemblance log L(x1 , · · · , xn , θ), puisque la
vraisemblance est un produit de probabilité d’événements ou de
densité qui peut être assez compliqué à dérivée et le logarithme de la
vraisemblance est une somme qui est plus facile à calculer.
Estimation paramètrique II 48 / 56
Skander HACHICHA 48 / 56
Maximum de vraisemblance
Calcul des estimateurs de maximum de vraisemblance
∂L
1 la fonction log est croissante et de classe C∞ et ∂ log
∂θ =
L ∂θ
L et
donc
∂L ∂ log L
= 0 si et seulement si = 0.
∂θ ∂θ
2 par dérivation successive on a
∂L
∂2L 2
∂ 2 log L ∂( ∂ log
∂θ )
L
∂( ∂θ
L ) ∂θ2
L − ( ∂L
∂θ )
2 ∂ L
∂θ2
L ( ∂L
∂θ )
2

2
= = = = −
∂θ ∂θ ∂θ L2 L2 L2
!
∂2L
∂ 2 log L
 
∂θ 2
et donc ∂θ2
= L et par suite
θ=θbn
θ=θbn
! !
∂2L ∂ 2 log L
< 0 si et seulement si < 0.
∂θ2 θ=θbn
∂θ2 θ=θbn

Estimation paramètrique II 49 / 56
Skander HACHICHA 49 / 56
Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


Ainsi
 
∂L ∂ log L
 ∂θ = 0  ∂θ = 0

 

 2  si et seulement si  2 
 ∂∂θL2 <0  ∂ log2 L
 
 
∂θ
<0
θ=θbn θ=θbn

Estimation paramètrique II 50 / 56
Skander HACHICHA 50 / 56
Maximum de vraisemblance
Calcul des estimateurs de maximum de vraisemblance
Exemple
( estimation du paramètre d’une loi de Poisson)
Soit (X1 , · · · , Xn ) un n−échantillions de loi de poisson P(θ)

θx
P(X = x) = e−θ .
x!
On se propose d’estimer le paramètre inconnu θ. L’ensemble des
observations possibles est Nn et le paramètre inconnu est θ ∈]0, +∞[.
Ainsi si (x1 , · · · , xn ) ∈ Nn est l’échantillon observé, alors
Pn
x
−nθ θ
k=1 k
L(x1 , · · · , xn , θ) = e Qn
k=1 xk !
Pn
Alors log L(x1 , · · · , xn , θ) = −nθ + ( k=1 xk ) log(θ) − constante

Estimation paramètrique II 51 / 56
Skander HACHICHA 51 / 56
Maximum de vraisemblance
Calcul des estimateurs de maximum de vraisemblance
Exemple
( estimation du paramètre d’une loi de Poisson)
d’où : Pn
∂ log L xk
= −n + k=1 = 0
∂θ θ
d’où elle s’annule pour θbn = xn . La dérivée seconde est
Pn
∂ 2 log L k=1 xk θbn
=− = −n
∂θ2 θ2 θ2
!
∂ 2 log L n
= − Pn <0
∂θ2 θ=θbn k=1 xk

Il s’agit donc bien d’un maximum, et par suite θbn = xn est


l’estimateur de maximum de vraisemblance de θ.
Estimation paramètrique II 52 / 56
Skander HACHICHA 52 / 56
Maximum de vraisemblance
Calcul des estimateurs de maximum de vraisemblance
Exemple
( estimation de l’espérance d’une loi normale N (m, σ) , où σ est
connu)
Soit (X1 , · · · , Xn ) un n−échantillon de loi normale N (m, σ) , où σ est
connu et de densité
1 (x−m)2

fm (x) = √ e 2σ2 .
σ 2π
On se propose d’estimer le paramètre inconnu m connaissant σ.
L’ensemble des observations possibles est Rn et le paramètre inconnu
est m ∈ R. Ainsi si (x1 , · · · , xn ) ∈ Rn est un échantillon observé, alors
Pn 2
(2π)−n/2 − (x −m)
k=1 k
L(x1 , · · · , xn , m) = e 2σ 2
σn
Estimation paramètrique II 53 / 56
Skander HACHICHA 53 / 56
Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


Exemple
( estimation de l’espérance d’une loi normale N (m, σ) , où σ est
connu) P n
(x −m)2
k=1 k
log L(x1 , · · · , xn , m) = −n log(σ) − 2σ 2
+ constante d’où
Pn
∂ log L k=1 (xk − m)
= = 0,
∂m σ2
b n = xn . D’autre part, on a
d’où : m

∂ 2 log L n
2
=− 2
∂m σ

Estimation paramètrique II 54 / 56
Skander HACHICHA 54 / 56
Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


Exemple
( estimation de l’espérance d’une loi normale N (m, σ) , où σ est
connu)
et par suite !
∂ 2 log L
<0
∂m2 m=m
b n

b n = xn est
Il s’agit donc bien d’un maximum, et par suite m
l’estimateur de maximum de vraisemblance de m.

Estimation paramètrique II 55 / 56
Skander HACHICHA 55 / 56
Merci

Estimation paramètrique II 56 / 56
Skander HACHICHA 56 / 56

Vous aimerez peut-être aussi