Chap Stat 3

Estimation paramètrique I
Skander HACHICHA
skander.hachicha@ipeit.rnu.tn
Université de Tunis El Manar

Ecole nationale d’ingénieurs de Tunis
Skander HACHICHA Estimation paramètrique I 1 / 49 1 / 49

On suppose donné le modèle statistique paramétrique
(X , A, (Pθ )θ∈Θ ). On cherche à estimer les paramètres inconnus θ du
modèle ou encore une valeur numérique de θ à partir des données
observées sur un échantillon. On suppose que le modèle est
identifiable c-à-d l’application θ −→ Pθ est injective
(θ1 6= θ2 ⇒Pθ1 6= Pθ2 ) ceci signifie qu’il n’y a qu’une seule
éventualité vraie c-à-d une seule valeur correcte de θ

Estimateurs sans biais
Définition
Soit Tn un estimateur de g(θ) admettant un moment d’ordre 1. On
appelle biais de l’estimateur Tn par rapport à g(θ) la quantité
B(Tn , θ) = Eθ (Tn − g(θ)).
L’estimateur Tn est dit sans biais (ou non-biaisé) si B(Tn , θ) = 0 ou

encore Eθ (Tn ) = g(θ), il est dit asymptotiquement sans biais si
limn−→+∞ B(Tn , θ) = 0.

Soit Tn un estimateur sans biais de θ. Ainsi, si on répète plusieurs fois

l’expérience, la moyenne des estimations est égale à θ.
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance mθ . Alors
n
1X
Xn = Xi
n i=1
est un estimateur sans biais de mθ . En effet, d’après la linéarité de

l’espérence, on a
n
1X nmθ
E(X n ) = E(Xi ) = = mθ .
n i=1 n

Le fait qu’un estimateur soit sans biais ne veut pas dire que cet
estimateur soit de bonne qualité. En effet, ce n’est qu’une indication
en moyenne. l’intérêt est surtout que cette notion permet de définir
une classe d’estimteurs celle des estimateurs sans biais.
Remarque
Soient Tn un estimateur du paramètre θ et ϕ une fonction continue de
R dans R. Si l’estimateur Tn est sans biais, ceci n’implique pas que
l’estimateur ϕ(Tn ) de ϕ(θ) est sans biais.

Risque quadratique d’un estimateur
Définition
Soit Tn un estimateur de g(θ) ∈ R admettant un moment d’ordre 2.
On appelle risque quadratique de l’estimateur Tn la fonction RTn
définie par
RTn (θ) = Eθ (Tn − g(θ))2
Un estimateur Tn de g(θ) est dit meilleur qu’un estimateur Sn de

g(θ) si
RTn (θ) ≤ RSn (θ).
RTn (θ) mesure l’erreur que l’on fait si on estime g(θ) par Tn , c’est à
dire la précision de l’estimateur Tn . Elle doit être la plus petite
possible.

Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi N (θ, 1). Alors
n
1X
Xn = Xi
n i=1
est un estimateur sans biais de θ. Comme l’échantillon est gaussien,

alors X n est de loi N (θ, √1n ) et par suite Vθ (X n ) = n1 . Ainsi le
risque quadratique de X n est
1
RX n (θ) = .
n
Or X1 peut être considéré comme estimateur sans biais de θ avec
RX1 (θ) = 1. Ainsi,
RX n (θ) ≤ RX1 (θ)
et donc X n est meilleur que X1 .
Exemple
Soit (X1 , · · · , X1 ) un n−échantillon de loi U[0, θ] où θ ∈ R∗+ et de
densité
1
f (x, θ) = 1[0,θ] (x)
θ
On considère les estimateurs suivants
n+1

T1 = 2X n et T2 = max Xi
n 1≤i≤n
On a Eθ (T1 ) = 2Eθ (X n ) = 2 2θ = θ et donc T1 est sans biais. On

pose Y = max1≤i≤n Xi . Soit y ∈ R.
Pθ (Y ≤ y) = Pθ (X1 ≤ y, · · · , Xn ≤ y)
n
Y
= Pθ (Xi ≤ y)
i=1
= (Pθ (X1 ≤ y))n
y n
0 si y ≤ 0, θ , si 0 ≤ y ≤ θ, 1 si y > θ
Exemple
Donc Y admet pour densité la fonction
n n−1
g(y, θ) = y 1[0,θ] (y)
θn
et
Z θ
n n
Eθ (Y ) = n
y dy
θ
0
n

= θ
n+1
et donc
n+1

Eθ (T2 ) = Eθ (Y ) = θ
n
et par suite T2 est un estimateur sans biais de θ.
D’autre part, on a
Skander HACHICHA Estimation

4 θ2
paramètrique I 9 / 49 9 / 49
Exemple
R θ n n+1
n
Comme Eθ (Y 2 ) = 0 θ n y dy = 2
n+2 θ , alors
n+1 2

Vθ (T2 ) = Vθ (Y )
n
2 !
n+1 2 n n

2
= θ − θ2
n n+2 n+1
θ2
=
n(n + 1)
Par conséquent
Vθ (T2 ) 3
= ≤1
Vθ (T1 ) n+2
et par suite T2 est meilleur que T1 .
Estimation paramètrique I 10 / 49
Skander HACHICHA 10 / 49
Proposition
Soit Tn un estimateur de θ admettant un moment d’ordre 2. Alors
RTn (θ) = Vθ (Tn ) + (Eθ (Tn ) − θ)2 .
En particulier si Tn est un estimateur sans biais de θ, on a

RTn (θ) = Vθ (Tn ).
Démonstration
Par linéarité de l’espérance, on a :

RTn (θ) = Eθ (Tn − θ)2

= Eθ (Tn − Eθ (Tn ) + Eθ (Tn ) − θ)2

= Eθ (Tn − Eθ (Tn ))2
+ 2Eθ ((Tn − Eθ (Tn ))(Eθ (Tn ) − θ)) + (Eθ (Tn ) − θ)2
= Vθ (Tn ) + (Eθ (Tn ) − θ)2 .
et donc si Tn est sans biais alors Eθ (Tn ) = θ et par suite

RTn (θ) = Vθ (Tn ).
Définition
Soit Tn un estimateur de θ admettant un moment d’ordre 2. Un
estimateur sans biais Tn de θ est dit de variance minimum si pour tout
autre estimateur sans biais Sn , on a Vθ (Tn ) ≤ Vθ (Sn ).
Proposition
Soit Tn un estimateur sans biais de θ admettant un moment d’ordre 2
pour tout θ ∈ Θ. Alors Tn est un estimateur sans biais de variance
minimum de θ si et seulement si pour toute variable Sn centrée et
admettant un moment d’ordre 2 pour tout θ ∈ Θ, on a
Eθ (Sn Tn ) = 0.
Démonstration
Condition suffisante. Soit Y un estimateur sans biais de θ admettant
un moment d’ordre 2 pour tout θ ∈ Θ :

V(Y ) = Eθ (Y − θ)2

= Eθ (Y − Tn + Tn − θ)2

= Eθ (Y − Tn )2 + 2Eθ ((Y − Tn )(Tn − θ)) + Vθ (Tn )

= Eθ (Y − Tn )2 + Vθ (Tn )
≥ V(Tn )
puisque
Eθ ((Y − Tn )(Tn − θ)) = Eθ (Tn (Y − Tn )) − θEθ (Y − Tn ) = 0 car
Sn = Y − Tn vérifie Eθ (Sn ) = 0 et admet un moment d’ordre 2 tel
que Eθ (Sn Tn ) = 0, et que Eθ (Y − Tn )2 ≥ 0.
Démonstration
Condition nécessaire : Si Eθ (S) = 0, alors pour tout α ∈ R, on a
V(Tn + αS) ≥ V(Tn )
puisque Tn est de variance minimum et que Eθ (Tn + αS) = θ. Or
V(Tn + αS) = V(Tn ) + α2 V(S) + 2αCov(Tn , S).
L’inégalité précédente, qui équivaut à α2 Vθ (S) + 2αCov(Tn , S) ≥ 0

pour tout α ∈ R ne peut avoir lieu que si
Cov(Tn , S) = Eθ (STn ) = 0. En effet pour a > 0,
2
f (x) = ax + 2bx ≥ 0 si et seulement si f − a ≥ 0 ou encore − ba
2 b
d’où b = 0.
Estimateur convergent
Pour un n−échantillon (X1 , · · · , Xn ) de loi de Bernoulli de parmètre

θ, la variable aléatoire égale à la moyenne empirique
X n = n1 ni=1 Xi est un estimateur de θ. C’est une variable aléatoire
P
qui prend ses valeurs dans [0, 1]. Si n grand, elle prend avec une forte
probabilité des valeurs proches de θ, d’après la loi des grands
nombres. Quel que soit le modèle et le paramètre à estimer, prendre
des valeurs proches de ce paramètre au moins pour un grand
échantillon est la qualité principale que l’on attend d’un estimateur.
En toute rigueur, on doit considérer une suite d’estimateurs (Tn ), où
pour tout n ∈ N, Tn est une variable fonction de l’échantillon
(X1 , · · · , Xn ). Par abus de langage, on appelle encore estimateur
cette suite, et on étudie sa convergence.
Définition
Soit (Tn )n∈N une suite d’estimateurs de θ.
1 La suite (Tn )n∈N est dite convergente (consistante) si pour tout
θ∈Θ
Pθ
Tn −→ θ
(Tn converge en probabilité vers θ : pour tout ε > 0,
limn−→+∞ Pθ (|Tn − θ| > ε) = 0).
2 La suite (Tn )n∈N est dite fortement convergente (fortement
consistante) si pour tout θ ∈ Θ
P s
θ
Tn −→ θ
(Tn converge presque sûrement vers θ).
Définition
1 La suite (T )
n n∈N est dite consistante en moyenne quadratique si
pour tout θ ∈ Θ

lim Eθ (Tn − θ)2 = 0
n→+∞
Un estimateur convergent s’écarte donc du paramètre θ avec une

faible probabilité, si la taille de l’échantillon est assez grande. Dans la
pratique, elle indique que Tn est situé, avec une probabilité proche de
1, dans un voisinage aussi petit que l’on veut de θ pourvu que la taille
de l’échantillon soit assez grande. C’est une propriètè plus importante
que l’absence de biais, car si nous sommes satisfait de savoir que Tn
est centré sur θ pour tout valeur de n, nous devons aussi exiger que la
variabilité autour de θ diminue en fonction de la taille de l’échantillon.
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ et d’Espérance θ.
L’estimateur
n
1X
Xn = Xi
n i=1
est convergent d’après la loi faible des grands. Pour tout ε > 0 fixé,
aussi petit soit-il la probabilité que X n n’appartienne pas à
l’intervalle [θ − ε, θ + ε] tend vers 0 quand n tend vers l’infini.
Remarque
Si limn−→+∞ RTn (θ) = 0 alors l’estimateur sans biais Tn est
convergent. En effet, d’après l’inégalité de Bienaymé-Tchebytchev,
appliquée à la variable aléatoire Tn , on a
Eθ (Tn − θ)2 Vθ (Tn )

P (|Tn − θ| > ε) ≤ =
ε2 ε2
d’où le résultat.
Vecteurs gaussiens
Définition
Une v.a (X1 , · · · , Xd ) à valeurs dans Rd est dite vecteur gaussien si
pour tout (a1 , · · · , ad ) ∈ Rd la v.a réelle di=1 ai Xi est de loi
P
normale.
Conséquence
Soit (X1 , · · · , Xd ) un vecteur gaussien. Alors chaque composante Xk
est une v.a réelle de loi normale.
Vecteurs gaussiens
Théorème
Soit X = (X1 , · · · , Xd ) une v.a à valeurs dans Rd d’espérance
m = (m1 , · · · , md ) et de matrice de covariance ΣX .
Alors X est un vecteur gaussien ssi sa fonction caractéristique est
donnée par
1
ΦX (s1 , · · · , sd ) = eihs,mi− 2 hs,ΣX si
   
s1 m1
pour tout s =  .  où m =  . 
   
sd md
Vecteurs gaussiens
Proposition
Soit X = (X1 , · · · , Xd ) un vecteur gaussien à valeurs dans Rd
d’espérancem = (m1 , · · · , md ). X admet une densité sur Rd ssi sa
matrice de covariance ΣX est inversible. Dans ce cas, on a :
1 −1
fX (x1 , · · · , xd ) = d√
1
e− 2 h(x−m),ΣX (x−m)i
  (2Π) 2 
det ΣX 
m1 x1
où m =  .  et x =  . 
   
md xd
Définition
Soit (Tn )n∈N une suite d’estimateurs de θ. On dit que Tn est un
estimateur asymtotiquement normal si pour tout θ ∈ Θ
√ loi
n(Tn − θ) −→ N (0, Σ(θ))
où Σ(θ) est une matrice de covariance.
Proposition
Soit Tn un estimateur convergent du paramètre θ et ϕ une fonction
continue de Θ dans Rk . Alors ϕ(Tn ) est un estimateur convergent de
ϕ(θ).
Si le paramètre θ s’exprime comme une fonction continue de E(X),

alors l’image de X n par cette fonction est un estimateur convergent
de θ.
Exemple
La loi Pθ est la loi uniforme sur ]0, θ], où le paramètre θ est inconnu.
La moyenne empirique X n est un estimateur convergent de
l’espérance de la loi qui vaut θ/2. Donc Tn = 2X n est un estimateur
convergent de θ. Mais X suit la loi uniforme sur ]0, θ], alors
E(log(X)) vaut log(θ) − 1. Toujours d’après la loi des grands
nombres
log(X1 ) + · · · + log(Xn )
n
est un estimateur convergent de log(θ) − 1, donc l’estimateur :
log(X1 ) + · · · + log(Xn )

Sn = exp +1
n
est encore un estimateur convergent de θ.
Information de Fisher
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ). On appelle hypothèses
usuelles les 4 hypothèses suivantes :
H1 Θ est ouvert de Rd .
H2 Le support des lois {x ∈ X : f (x, θ) > 0} est indépendant de θ.
H3 Pour tout x ∈ X la fonction θ −→ f (x, θ) est de classe C 2 sur
Θ. En particulier le vecteur de dimension d × 1 contenant les
dérivées premières est noté
 ∂ log f (x,θ) 
∂θ1

gradθ log f (x, θ) =  .. 
 . 

∂ log f (x,θ)
∂θd
existe ainsi que la matrice Hessienne de dimension d × d

!
∂ 2 f (x, θ)
∂θi ∂θj 1≤i,j≤d
∂f (x,θ) ∂ 2 f (x,θ)
H4 Les fonctions ∂θi et ∂θi ∂θj sont intégrbles pour tout θ ∈ Θ
| ∂f∂θ
(x,θ)
R
et pour tout i, j ∈ {1, · · · d} ( X i
|dx < ∞ et
2
| ∂∂θfi(x,θ)
R
RX ∂θj |dx < ∞). De plus pour tout B borélien l’intégrale
B f (x, θ)dx est au moins deux fois dérivable sous le signe
d’intégration et on peut permuter intégration et dérivation :
∂ ∂f (x, θ)
Z Z
f (x, θ)dx = dx; j = 1, · · · d
∂θj B B ∂θj
∂2 ∂ 2 f (x, θ)
Z Z
f (x, θ)dx = dx; i, j ∈ {1, · · · d}
∂θi ∂θj B B ∂θi ∂θj
Définition
Si les hypothèses H1 − H4 sont vérifiées, on dit que le modèle est
régulier.
Remarque
Dans le cas discret l’hypothèses H − 4 s’écrit sous la forme
suivante : ∀B ∈ X
∂ P P ∂f (x,θ)
∂θi x∈B f (x, θ) = x∈B ∂θi
∂2 P P ∂ 2 f (x,θ)
∂θi ∂θj x∈B f (x, θ) = x∈B ∂θi ∂θj
Définition
On appelle score le vecteur aléatoire S(X, θ) définit par
 ∂ log f (X,θ) 
∂θ1

S(X, θ) = gradθ log f (X, θ) =  .. 

. 

∂ log f (X,θ)
∂θd
df (X,θ)
d log f (X,θ)
pour d = 1, S(X, θ) = dθ = dθ
f (X,θ) .
Remarque
Le vecteur aléatoire S(X, θ) dépend de θ, ce n’est pas donc une
statistique.
Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)
dθ
comme log f (x, θ) = −θ + x log θ − log(x!) alors
X
S(X, θ) = −1 +
θ
Théorème
1 Le score est un vecteur aléatoire centré
E(S(X, θ)) = 0Rd
2 Le vecteur score est additif : soient X et Y deux variables

aléatoires indépendantes associées aux modèles statistiques
(X , Pθ ) et (Y, Qθ ). Alors S(X, θ) et S(Y, θ) sont indépendants,
de plus
S((X, Y ), θ) = S(X, θ) + S(Y, θ) θ ∈ Θ
((X, Y )est associé au modèles statistique (X × Y, Pθ ⊗ Qθ ))
Démonstration
Pour tout θ ∈ Θ et pour tout i = 1, · · · , d, on a
∂ log f (X, θ)

Eθ =0
∂θi
En effet, on a
∂ log f (X, θ) ∂(log f (x, θ))

Z
Eθ = dPθ (x)
∂θi X ∂θi
∂(log f (x, θ))
Z
= f (x, θ)dx
X ∂θi
∂f (x, θ)
Z
= dx
X ∂θi
Démonstration
or d’après l’hypothèse [H4],
∂f (x, θ) ∂ ∂
Z Z
dx = f (x, θ)dx = 1=0
X ∂θi ∂θi X ∂θi
et donc
E(S(X, θ)) = E(gradθ log(f (x, θ))) = 0Rd
Par définition, on a
S((X, Y ), θ) = gradθ log(f(X,Y ) ((x, y), θ))
or X et Y sont indépendentes et donc

f(X,Y ) ((x, y), θ) = fX (x, θ)fY (y, θ) ou encore
log(f(X,Y ) ((x, y), θ)) = log(fX (x, θ)) + log(fY (y, θ)).
Démonstration
Ainsi pour i = 1, · · · , d, on a
∂ log(f(X,Y ) ((x, y), θ)) ∂ log(fX (x, θ)) ∂ log(fY (y, θ))
= +
∂θi ∂θi ∂θi
et donc S((x, y), θ) = S(x, θ) + S(y, θ) ou encore
S((X, Y ), θ) = S(X, θ) + S(Y, θ)
De plus comme X et Y sont indépendantes alors S(X, θ) et S(Y, θ)

sont indépendants puisque la loi de S(X, θ) est l’image de la loi de X
par l’application S : X −→ S(X, θ).
Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X alors
n
X
S(X1 , · · · , Xn , θ) = iS(X , θ)
Estimation
i=1
paramètrique I 35 / 49
Définition
Dans un modèle régulier, on appelle information de Fisher du modèle
au point θ (apporté par X sur θ) la matrice de covariance du score
S(X, θ) donnée par

I(θ) = Vθ (S(X, θ)) = Eθ S(X, θ)(S(X, θ))t =
!!
∂ log f (X, θ) ∂ log f (X, θ)
Eθ
lorsque cette quantité est bien définie (L’espérance est prise par
rapport à Pθ , pour θ fixé).
Définition
Pour d = 1,
2 !
d log f (X, θ)

I(θ) = Vθ (S(X, θ)) = Eθ =
dθ

df (X,θ)
!2 
dθ
Eθ  
f (X, θ)
Remarque
Pour un modèle régulier, l’information de Fisher est une matrice
symétrique définie positive comme étant la matrice de covariance du
vecteur aléatoire centré S(X, θ)
I(θ) = Vθ (S(X, θ))

!!
= covθ ,
!!
= Eθ
Théorème
Dans un modèle régulier , on a la relation suivante
!!
∂ 2 log f (X, θ)
I(θ) = − Eθ = −Eθ (Hθ2 (log f (X, θ)))
∂θi θj 1≤i,j≤d
Cette expression de I(θ) est plus simple à manipuler que celle de la

définition, en effet il est plus simple de dériver puis d’intégrer que
d’élever au carré puis d’intégrer.
Par dérivation, on a
!
∂ 2 log f (X, θ) ∂ 1 ∂f (X, θ)
=
∂θi θj ∂θi f (X, θ) ∂θj
1 ∂ 2 f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
= − 2
f (X, θ) ∂θi θj f (X, θ) ∂θi ∂θj
et donc
! !
∂ 2 log f (X, θ) 1 ∂ 2 f (X, θ)
Eθ = Eθ −
∂θi θj f (X, θ) ∂θi θj
!
1 ∂f (X, θ) ∂f (X, θ)
Eθ 2
f (X, θ) ∂θi ∂θj
or
!
1 ∂ 2 f (X, θ) 1 ∂ 2 f (x, θ)
Z
Eθ = f (x, θ)dx
f (X, θ) ∂θi θj X f (x, θ) ∂θi θj
∂ 2 f (x, θ)
Z
= dx
X ∂θi θj
∂2 ∂2
Z
= f (x, θ)dx = 1=0
∂θi ∂θj X ∂θi ∂θj
ainsi
! !
∂ 2 log f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
Eθ = −Eθ
∂θi θj f 2 (X, θ) ∂θi ∂θj
!
1 ∂f (X, θ) 1 ∂f (X, θ)
= −Eθ
f (X, θ) ∂θi f (X, θ) ∂θj
!
= −Eθ
∂θi ∂θj
Remarque
Dans un modèle régulier, l’information de Fisher I(θ) ≥ 0 pour tout
θ ∈ Θ.
Théorème
Pour un modèle régulier, l’information de Fisher est additive : si X et
Y sont deux variables aléatoires indépendantes dans des modèles
paramétriques au paramètre θ commun alors
I(X,Y ) (θ) = IX (θ) + IY (θ)
(c’est la variance d’une somme de scores indépendants).
Par définition, on a S((X, Y ), θ)) = S(X, θ) + S(Y, θ) Or X et Y

sont indépendantes et donc S(X, θ) et S(Y, θ) sont indépendants et
par suite
I(X,Y ) (θ) = Vθ (S(X, θ)) + Vθ (S(Y, θ)) = IX (θ) + IY (θ)
Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X de matrice
d’information IX (θ) = I(θ) alors, on a la relation suivante :
In (θ) = Vθ (S(X1 , · · · , Xn ), θ) = nI(θ)
Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)
dθ
comme log f (x, θ) = −θ + x log θ − log(x!) alors
X
S(X, θ) = −1 +
θ
et donc
Exemple
I(θ) = Eθ (S 2 (X, θ))

2 !
X

= Eθ −1 +
θ
1
2

= Eθ (X − θ)
θ2
1
= Vθ (X)
θ2
1
=
θ
Soit (X1 , · · · , Xn ) un n−échantillions de loi de Poisson alors
n
In (θ) = nI(θ) =
θ
Exemple
Soit X une v.a.r de loi N (m, σ) (i.e θ = (θ1 , θ2 ) = (m, σ 2 ) et donc
de densité
1 1

f (x, θ) = √ exp − 2 (x − m)2
σ 2π 2σ
d’où
1 1 1
log(f (x, θ)) = − log(2π) − log(σ 2 ) − 2 (x − m)2
2 2 2σ
Comme f est de classe C 2 par rapport à m et σ 2 alors les dérivées
seconde de f sont données par
∂ 2 log(f (x,θ) 2
∂m2
= − σ12 , ∂ log(f (x,θ)
∂(σ 2 )2
= 2σ1 4 − σ16 (x − m)2
Exemple
∂ 2 log(f (x, θ)) 1
= − 4 (x − m)
∂m∂(σ 2 ) σ
et par suite !
∂ 2 log(f (X, θ)) 1
−E =
∂m2 σ2
!
∂ 2 log(f (X, θ)) 1
−E =−
∂(σ 2 )2 2σ 4
!
∂ 2 log(f (X, θ))
−E =0
∂m∂(σ 2 )
Ainsi la matrice d’information est :
!
1
σ2
0
I(θ) = 1
0 −
2σ 4
Information et exhaustivité
Proposition
Dans un modèle régulier, pour tout statistique T, on a
IT (θ) ≤ In (θ)
et IT (θ) = In (θ) ⇐⇒ T est exhaustive
Propriétés intuitives sur l’information apportée par un

échantillon
Remarque
L’information de Fisher associée au n-échantillions (X1 , · · · , Xn )
est nIX1 (θ) si IX1 (θ) est l’information de Fisher associée à X1 .
Remarque
L’information de Fisher en θ, n’est pas celle en g(θ).
Merci

Chap Stat 3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap Stat 3

Transféré par

Droits d'auteur :

Formats disponibles

Estimation paramètrique I

Université de Tunis El Manar

Skander HACHICHA Estimation paramètrique I 1 / 49 1 / 49

Skander HACHICHA Estimation paramètrique I 2 / 49 2 / 49

B(Tn , θ) = Eθ (Tn − g(θ)).

L’estimateur Tn est dit sans biais (ou non-biaisé) si B(Tn , θ) = 0 ou

Skander HACHICHA Estimation paramètrique I 3 / 49 3 / 49

Soit Tn un estimateur sans biais de θ. Ainsi, si on répète plusieurs fois

est un estimateur sans biais de mθ . En effet, d’après la linéarité de

Skander HACHICHA Estimation paramètrique I 4 / 49 4 / 49

Skander HACHICHA Estimation paramètrique I 5 / 49 5 / 49

Un estimateur Tn de g(θ) est dit meilleur qu’un estimateur Sn de

Skander HACHICHA Estimation paramètrique I 6 / 49 6 / 49

est un estimateur sans biais de θ. Comme l’échantillon est gaussien,

On a Eθ (T1 ) = 2Eθ (X n ) = 2 2θ = θ et donc T1 est sans biais. On

Skander HACHICHA Estimation

RTn (θ) = Vθ (Tn ) + (Eθ (Tn ) − θ)2 .

En particulier si Tn est un estimateur sans biais de θ, on a

et donc si Tn est sans biais alors Eθ (Tn ) = θ et par suite

V(Tn + αS) ≥ V(Tn )

puisque Tn est de variance minimum et que Eθ (Tn + αS) = θ. Or

V(Tn + αS) = V(Tn ) + α2 V(S) + 2αCov(Tn , S).

L’inégalité précédente, qui équivaut à α2 Vθ (S) + 2αCov(Tn , S) ≥ 0

Pour un n−échantillon (X1 , · · · , Xn ) de loi de Bernoulli de parmètre

(Tn converge presque sûrement vers θ).

Un estimateur convergent s’écarte donc du paramètre θ avec une

Eθ (Tn − θ)2 Vθ (Tn )

où Σ(θ) est une matrice de covariance.

Si le paramètre θ s’exprime comme une fonction continue de E(X),

existe ainsi que la matrice Hessienne de dimension d × d

E(S(X, θ)) = 0Rd

2 Le vecteur score est additif : soient X et Y deux variables

S((X, Y ), θ) = S(X, θ) + S(Y, θ) θ ∈ Θ

((X, Y )est associé au modèles statistique (X × Y, Pθ ⊗ Qθ ))

∂ log f (X, θ) ∂(log f (x, θ))

S((X, Y ), θ) = gradθ log(f(X,Y ) ((x, y), θ))

or X et Y sont indépendentes et donc

S((X, Y ), θ) = S(X, θ) + S(Y, θ)

De plus comme X et Y sont indépendantes alors S(X, θ) et S(Y, θ)

I(θ) = Vθ (S(X, θ))

Cette expression de I(θ) est plus simple à manipuler que celle de la

I(X,Y ) (θ) = IX (θ) + IY (θ)

(c’est la variance d’une somme de scores indépendants).

Par définition, on a S((X, Y ), θ)) = S(X, θ) + S(Y, θ) Or X et Y

I(X,Y ) (θ) = Vθ (S(X, θ)) + Vθ (S(Y, θ)) = IX (θ) + IY (θ)

In (θ) = Vθ (S(X1 , · · · , Xn ), θ) = nI(θ)

I(θ) = Eθ (S 2 (X, θ))

Propriétés intuitives sur l’information apportée par un

Vous aimerez peut-être aussi