Vous êtes sur la page 1sur 49

Estimation paramètrique I

Skander HACHICHA

skander.hachicha@ipeit.rnu.tn

Université de Tunis El Manar


Ecole nationale d’ingénieurs de Tunis

Skander HACHICHA Estimation paramètrique I 1 / 49 1 / 49


On suppose donné le modèle statistique paramétrique
(X , A, (Pθ )θ∈Θ ). On cherche à estimer les paramètres inconnus θ du
modèle ou encore une valeur numérique de θ à partir des données
observées sur un échantillon. On suppose que le modèle est
identifiable c-à-d l’application θ −→ Pθ est injective
(θ1 6= θ2 ⇒Pθ1 6= Pθ2 ) ceci signifie qu’il n’y a qu’une seule
éventualité vraie c-à-d une seule valeur correcte de θ

Skander HACHICHA Estimation paramètrique I 2 / 49 2 / 49


Estimateurs sans biais

Définition
Soit Tn un estimateur de g(θ) admettant un moment d’ordre 1. On
appelle biais de l’estimateur Tn par rapport à g(θ) la quantité

B(Tn , θ) = Eθ (Tn − g(θ)).

L’estimateur Tn est dit sans biais (ou non-biaisé) si B(Tn , θ) = 0 ou


encore Eθ (Tn ) = g(θ), il est dit asymptotiquement sans biais si
limn−→+∞ B(Tn , θ) = 0.

Skander HACHICHA Estimation paramètrique I 3 / 49 3 / 49


Estimateurs sans biais

Soit Tn un estimateur sans biais de θ. Ainsi, si on répète plusieurs fois


l’expérience, la moyenne des estimations est égale à θ.
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance mθ . Alors
n
1X
Xn = Xi
n i=1

est un estimateur sans biais de mθ . En effet, d’après la linéarité de


l’espérence, on a
n
1X nmθ
E(X n ) = E(Xi ) = = mθ .
n i=1 n

Skander HACHICHA Estimation paramètrique I 4 / 49 4 / 49


Estimateurs sans biais

Le fait qu’un estimateur soit sans biais ne veut pas dire que cet
estimateur soit de bonne qualité. En effet, ce n’est qu’une indication
en moyenne. l’intérêt est surtout que cette notion permet de définir
une classe d’estimteurs celle des estimateurs sans biais.
Remarque
Soient Tn un estimateur du paramètre θ et ϕ une fonction continue de
R dans R. Si l’estimateur Tn est sans biais, ceci n’implique pas que
l’estimateur ϕ(Tn ) de ϕ(θ) est sans biais.

Skander HACHICHA Estimation paramètrique I 5 / 49 5 / 49


Risque quadratique d’un estimateur

Définition
Soit Tn un estimateur de g(θ) ∈ R admettant un moment d’ordre 2.
On appelle risque quadratique de l’estimateur Tn la fonction RTn
définie par  
RTn (θ) = Eθ (Tn − g(θ))2

Un estimateur Tn de g(θ) est dit meilleur qu’un estimateur Sn de


g(θ) si
RTn (θ) ≤ RSn (θ).

RTn (θ) mesure l’erreur que l’on fait si on estime g(θ) par Tn , c’est à
dire la précision de l’estimateur Tn . Elle doit être la plus petite
possible.

Skander HACHICHA Estimation paramètrique I 6 / 49 6 / 49


Risque quadratique d’un estimateur
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi N (θ, 1). Alors
n
1X
Xn = Xi
n i=1

est un estimateur sans biais de θ. Comme l’échantillon est gaussien,


alors X n est de loi N (θ, √1n ) et par suite Vθ (X n ) = n1 . Ainsi le
risque quadratique de X n est
1
RX n (θ) = .
n
Or X1 peut être considéré comme estimateur sans biais de θ avec
RX1 (θ) = 1. Ainsi,
RX n (θ) ≤ RX1 (θ)
et donc X n est meilleur que X1 .
Skander HACHICHA Estimation paramètrique I 7 / 49 7 / 49
Exemple
Soit (X1 , · · · , X1 ) un n−échantillon de loi U[0, θ] où θ ∈ R∗+ et de
densité
1
f (x, θ) = 1[0,θ] (x)
θ
On considère les estimateurs suivants
n+1
 
T1 = 2X n et T2 = max Xi
n 1≤i≤n

On a Eθ (T1 ) = 2Eθ (X n ) = 2 2θ = θ et donc T1 est sans biais. On


pose Y = max1≤i≤n Xi . Soit y ∈ R.

Pθ (Y ≤ y) = Pθ (X1 ≤ y, · · · , Xn ≤ y)
n
Y
= Pθ (Xi ≤ y)
i=1
= (Pθ (X1 ≤ y))n
y n
0 si y ≤ 0, θ , si 0 ≤ y ≤ θ, 1 si y > θ
Skander HACHICHA Estimation paramètrique I 8 / 49 8 / 49
Risque quadratique d’un estimateur
Exemple
Donc Y admet pour densité la fonction
n n−1
g(y, θ) = y 1[0,θ] (y)
θn
et
Z θ
n n
Eθ (Y ) = n
y dy
θ
0
n

= θ
n+1
et donc
n+1
 
Eθ (T2 ) = Eθ (Y ) = θ
n
et par suite T2 est un estimateur sans biais de θ.
D’autre part, on a

Skander HACHICHA Estimation


4 θ2
paramètrique I 9 / 49 9 / 49
Risque quadratique d’un estimateur

Exemple
R θ n n+1  
n
Comme Eθ (Y 2 ) = 0 θ n y dy = 2
n+2 θ , alors

n+1 2
 
Vθ (T2 ) = Vθ (Y )
n
2 !
n+1 2 n n
    
2
= θ − θ2
n n+2 n+1
θ2
=
n(n + 1)
Par conséquent
Vθ (T2 ) 3
= ≤1
Vθ (T1 ) n+2
et par suite T2 est meilleur que T1 .

Estimation paramètrique I 10 / 49
Skander HACHICHA 10 / 49
Risque quadratique d’un estimateur

Proposition
Soit Tn un estimateur de θ admettant un moment d’ordre 2. Alors

RTn (θ) = Vθ (Tn ) + (Eθ (Tn ) − θ)2 .

En particulier si Tn est un estimateur sans biais de θ, on a


RTn (θ) = Vθ (Tn ).

Estimation paramètrique I 11 / 49
Skander HACHICHA 11 / 49
Risque quadratique d’un estimateur

Démonstration
Par linéarité de l’espérance, on a :
 
RTn (θ) = Eθ (Tn − θ)2
 
= Eθ (Tn − Eθ (Tn ) + Eθ (Tn ) − θ)2
 
= Eθ (Tn − Eθ (Tn ))2
+ 2Eθ ((Tn − Eθ (Tn ))(Eθ (Tn ) − θ)) + (Eθ (Tn ) − θ)2
= Vθ (Tn ) + (Eθ (Tn ) − θ)2 .

et donc si Tn est sans biais alors Eθ (Tn ) = θ et par suite


RTn (θ) = Vθ (Tn ).

Estimation paramètrique I 12 / 49
Skander HACHICHA 12 / 49
Risque quadratique d’un estimateur

Définition
Soit Tn un estimateur de θ admettant un moment d’ordre 2. Un
estimateur sans biais Tn de θ est dit de variance minimum si pour tout
autre estimateur sans biais Sn , on a Vθ (Tn ) ≤ Vθ (Sn ).

Proposition
Soit Tn un estimateur sans biais de θ admettant un moment d’ordre 2
pour tout θ ∈ Θ. Alors Tn est un estimateur sans biais de variance
minimum de θ si et seulement si pour toute variable Sn centrée et
admettant un moment d’ordre 2 pour tout θ ∈ Θ, on a

Eθ (Sn Tn ) = 0.

Estimation paramètrique I 13 / 49
Skander HACHICHA 13 / 49
Risque quadratique d’un estimateur
Démonstration
Condition suffisante. Soit Y un estimateur sans biais de θ admettant
un moment d’ordre 2 pour tout θ ∈ Θ :
 
V(Y ) = Eθ (Y − θ)2
 
= Eθ (Y − Tn + Tn − θ)2
 
= Eθ (Y − Tn )2 + 2Eθ ((Y − Tn )(Tn − θ)) + Vθ (Tn )
 
= Eθ (Y − Tn )2 + Vθ (Tn )
≥ V(Tn )

puisque
Eθ ((Y − Tn )(Tn − θ)) = Eθ (Tn (Y − Tn )) − θEθ (Y − Tn ) = 0 car
Sn = Y − Tn vérifie Eθ (Sn ) = 0 et admet un moment d’ordre 2 tel
que Eθ (Sn Tn ) = 0, et que Eθ (Y − Tn )2 ≥ 0.
Estimation paramètrique I 14 / 49
Skander HACHICHA 14 / 49
Risque quadratique d’un estimateur

Démonstration
Condition nécessaire : Si Eθ (S) = 0, alors pour tout α ∈ R, on a

V(Tn + αS) ≥ V(Tn )

puisque Tn est de variance minimum et que Eθ (Tn + αS) = θ. Or

V(Tn + αS) = V(Tn ) + α2 V(S) + 2αCov(Tn , S).

L’inégalité précédente, qui équivaut à α2 Vθ (S) + 2αCov(Tn , S) ≥ 0


pour tout α ∈ R ne peut avoir lieu que si
Cov(Tn , S) = Eθ (STn ) = 0. En effet pour a >  0,
2
f (x) = ax + 2bx ≥ 0 si et seulement si f − a ≥ 0 ou encore − ba
2 b

d’où b = 0.

Estimation paramètrique I 15 / 49
Skander HACHICHA 15 / 49
Estimateur convergent

Pour un n−échantillon (X1 , · · · , Xn ) de loi de Bernoulli de parmètre


θ, la variable aléatoire égale à la moyenne empirique
X n = n1 ni=1 Xi est un estimateur de θ. C’est une variable aléatoire
P

qui prend ses valeurs dans [0, 1]. Si n grand, elle prend avec une forte
probabilité des valeurs proches de θ, d’après la loi des grands
nombres. Quel que soit le modèle et le paramètre à estimer, prendre
des valeurs proches de ce paramètre au moins pour un grand
échantillon est la qualité principale que l’on attend d’un estimateur.
En toute rigueur, on doit considérer une suite d’estimateurs (Tn ), où
pour tout n ∈ N, Tn est une variable fonction de l’échantillon
(X1 , · · · , Xn ). Par abus de langage, on appelle encore estimateur
cette suite, et on étudie sa convergence.

Estimation paramètrique I 16 / 49
Skander HACHICHA 16 / 49
Estimateur convergent

Définition
Soit (Tn )n∈N une suite d’estimateurs de θ.
1 La suite (Tn )n∈N est dite convergente (consistante) si pour tout
θ∈Θ

Tn −→ θ
(Tn converge en probabilité vers θ : pour tout ε > 0,
limn−→+∞ Pθ (|Tn − θ| > ε) = 0).
2 La suite (Tn )n∈N est dite fortement convergente (fortement
consistante) si pour tout θ ∈ Θ
P s
θ
Tn −→ θ

(Tn converge presque sûrement vers θ).

Estimation paramètrique I 17 / 49
Skander HACHICHA 17 / 49
Estimateur convergent

Définition
1 La suite (T )
n n∈N est dite consistante en moyenne quadratique si
pour tout θ ∈ Θ
 
lim Eθ (Tn − θ)2 = 0
n→+∞

Estimation paramètrique I 18 / 49
Skander HACHICHA 18 / 49
Estimateur convergent

Un estimateur convergent s’écarte donc du paramètre θ avec une


faible probabilité, si la taille de l’échantillon est assez grande. Dans la
pratique, elle indique que Tn est situé, avec une probabilité proche de
1, dans un voisinage aussi petit que l’on veut de θ pourvu que la taille
de l’échantillon soit assez grande. C’est une propriètè plus importante
que l’absence de biais, car si nous sommes satisfait de savoir que Tn
est centré sur θ pour tout valeur de n, nous devons aussi exiger que la
variabilité autour de θ diminue en fonction de la taille de l’échantillon.

Estimation paramètrique I 19 / 49
Skander HACHICHA 19 / 49
Estimateur convergent

Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ et d’Espérance θ.
L’estimateur
n
1X
Xn = Xi
n i=1
est convergent d’après la loi faible des grands. Pour tout ε > 0 fixé,
aussi petit soit-il la probabilité que X n n’appartienne pas à
l’intervalle [θ − ε, θ + ε] tend vers 0 quand n tend vers l’infini.

Estimation paramètrique I 20 / 49
Skander HACHICHA 20 / 49
Estimateur convergent

Remarque
Si limn−→+∞ RTn (θ) = 0 alors l’estimateur sans biais Tn est
convergent. En effet, d’après l’inégalité de Bienaymé-Tchebytchev,
appliquée à la variable aléatoire Tn , on a

Eθ (Tn − θ)2 Vθ (Tn )


P (|Tn − θ| > ε) ≤ =
ε2 ε2
d’où le résultat.

Estimation paramètrique I 21 / 49
Skander HACHICHA 21 / 49
Vecteurs gaussiens

Définition
Une v.a (X1 , · · · , Xd ) à valeurs dans Rd est dite vecteur gaussien si
pour tout (a1 , · · · , ad ) ∈ Rd la v.a réelle di=1 ai Xi est de loi
P

normale.
Conséquence
Soit (X1 , · · · , Xd ) un vecteur gaussien. Alors chaque composante Xk
est une v.a réelle de loi normale.

Estimation paramètrique I 22 / 49
Skander HACHICHA 22 / 49
Vecteurs gaussiens

Théorème
Soit X = (X1 , · · · , Xd ) une v.a à valeurs dans Rd d’espérance
m = (m1 , · · · , md ) et de matrice de covariance ΣX .
Alors X est un vecteur gaussien ssi sa fonction caractéristique est
donnée par
1
ΦX (s1 , · · · , sd ) = eihs,mi− 2 hs,ΣX si
   
s1 m1
pour tout s =  .  où m =  . 
   
sd md

Estimation paramètrique I 23 / 49
Skander HACHICHA 23 / 49
Vecteurs gaussiens

Proposition
Soit X = (X1 , · · · , Xd ) un vecteur gaussien à valeurs dans Rd
d’espérancem = (m1 , · · · , md ). X admet une densité sur Rd ssi sa
matrice de covariance ΣX est inversible. Dans ce cas, on a :
1 −1
fX (x1 , · · · , xd ) = d√
1
e− 2 h(x−m),ΣX (x−m)i
  (2Π) 2 
det ΣX 
m1 x1
où m =  .  et x =  . 
   
md xd

Estimation paramètrique I 24 / 49
Skander HACHICHA 24 / 49
Estimateur convergent

Définition
Soit (Tn )n∈N une suite d’estimateurs de θ. On dit que Tn est un
estimateur asymtotiquement normal si pour tout θ ∈ Θ
√ loi
n(Tn − θ) −→ N (0, Σ(θ))

où Σ(θ) est une matrice de covariance.

Proposition
Soit Tn un estimateur convergent du paramètre θ et ϕ une fonction
continue de Θ dans Rk . Alors ϕ(Tn ) est un estimateur convergent de
ϕ(θ).

Si le paramètre θ s’exprime comme une fonction continue de E(X),


alors l’image de X n par cette fonction est un estimateur convergent
de θ.
Estimation paramètrique I 25 / 49
Skander HACHICHA 25 / 49
Estimateur convergent

Exemple
La loi Pθ est la loi uniforme sur ]0, θ], où le paramètre θ est inconnu.
La moyenne empirique X n est un estimateur convergent de
l’espérance de la loi qui vaut θ/2. Donc Tn = 2X n est un estimateur
convergent de θ. Mais X suit la loi uniforme sur ]0, θ], alors
E(log(X)) vaut log(θ) − 1. Toujours d’après la loi des grands
nombres
log(X1 ) + · · · + log(Xn )
n
est un estimateur convergent de log(θ) − 1, donc l’estimateur :

log(X1 ) + · · · + log(Xn )
 
Sn = exp +1
n
est encore un estimateur convergent de θ.

Estimation paramètrique I 26 / 49
Skander HACHICHA 26 / 49
Information de Fisher
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ). On appelle hypothèses
usuelles les 4 hypothèses suivantes :
H1 Θ est ouvert de Rd .
H2 Le support des lois {x ∈ X : f (x, θ) > 0} est indépendant de θ.
H3 Pour tout x ∈ X la fonction θ −→ f (x, θ) est de classe C 2 sur
Θ. En particulier le vecteur de dimension d × 1 contenant les
dérivées premières est noté
 ∂ log f (x,θ) 
∂θ1

gradθ log f (x, θ) =  .. 
 . 

∂ log f (x,θ)
∂θd

existe ainsi que la matrice Hessienne de dimension d × d


!
∂ 2 f (x, θ)
∂θi ∂θj 1≤i,j≤d
Estimation paramètrique I 27 / 49
Skander HACHICHA 27 / 49
Information de Fisher

∂f (x,θ) ∂ 2 f (x,θ)
H4 Les fonctions ∂θi et ∂θi ∂θj sont intégrbles pour tout θ ∈ Θ
| ∂f∂θ
(x,θ)
R
et pour tout i, j ∈ {1, · · · d} ( X i
|dx < ∞ et
2
| ∂∂θfi(x,θ)
R
RX ∂θj |dx < ∞). De plus pour tout B borélien l’intégrale
B f (x, θ)dx est au moins deux fois dérivable sous le signe
d’intégration et on peut permuter intégration et dérivation :

∂ ∂f (x, θ)
Z Z
f (x, θ)dx = dx; j = 1, · · · d
∂θj B B ∂θj

∂2 ∂ 2 f (x, θ)
Z Z
f (x, θ)dx = dx; i, j ∈ {1, · · · d}
∂θi ∂θj B B ∂θi ∂θj

Estimation paramètrique I 28 / 49
Skander HACHICHA 28 / 49
Information de Fisher

Définition
Si les hypothèses H1 − H4 sont vérifiées, on dit que le modèle est
régulier.

Remarque
Dans le cas discret l’hypothèses H − 4 s’écrit sous la forme
suivante : ∀B ∈ X
∂ P P ∂f (x,θ)
∂θi x∈B f (x, θ) = x∈B ∂θi
∂2 P P ∂ 2 f (x,θ)
∂θi ∂θj x∈B f (x, θ) = x∈B ∂θi ∂θj

Estimation paramètrique I 29 / 49
Skander HACHICHA 29 / 49
Information de Fisher

Définition
On appelle score le vecteur aléatoire S(X, θ) définit par
 ∂ log f (X,θ) 
∂θ1

S(X, θ) = gradθ log f (X, θ) =  .. 

. 

∂ log f (X,θ)
∂θd

df (X,θ)
d log f (X,θ)
pour d = 1, S(X, θ) = dθ = dθ
f (X,θ) .

Remarque
Le vecteur aléatoire S(X, θ) dépend de θ, ce n’est pas donc une
statistique.

Estimation paramètrique I 30 / 49
Skander HACHICHA 30 / 49
Information de Fisher

Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)

comme log f (x, θ) = −θ + x log θ − log(x!) alors

X
S(X, θ) = −1 +
θ
Estimation paramètrique I 31 / 49
Skander HACHICHA 31 / 49
Information de Fisher

Théorème
1 Le score est un vecteur aléatoire centré

E(S(X, θ)) = 0Rd

2 Le vecteur score est additif : soient X et Y deux variables


aléatoires indépendantes associées aux modèles statistiques
(X , Pθ ) et (Y, Qθ ). Alors S(X, θ) et S(Y, θ) sont indépendants,
de plus

S((X, Y ), θ) = S(X, θ) + S(Y, θ) θ ∈ Θ

((X, Y )est associé au modèles statistique (X × Y, Pθ ⊗ Qθ ))

Estimation paramètrique I 32 / 49
Skander HACHICHA 32 / 49
Information de Fisher

Démonstration
Pour tout θ ∈ Θ et pour tout i = 1, · · · , d, on a

∂ log f (X, θ)
 
Eθ =0
∂θi
En effet, on a

∂ log f (X, θ) ∂(log f (x, θ))


  Z
Eθ = dPθ (x)
∂θi X ∂θi
∂(log f (x, θ))
Z
= f (x, θ)dx
X ∂θi
∂f (x, θ)
Z
= dx
X ∂θi

Estimation paramètrique I 33 / 49
Skander HACHICHA 33 / 49
Information de Fisher

Démonstration
or d’après l’hypothèse [H4],

∂f (x, θ) ∂ ∂
Z Z
dx = f (x, θ)dx = 1=0
X ∂θi ∂θi X ∂θi
et donc
E(S(X, θ)) = E(gradθ log(f (x, θ))) = 0Rd
Par définition, on a

S((X, Y ), θ) = gradθ log(f(X,Y ) ((x, y), θ))

or X et Y sont indépendentes et donc


f(X,Y ) ((x, y), θ) = fX (x, θ)fY (y, θ) ou encore
log(f(X,Y ) ((x, y), θ)) = log(fX (x, θ)) + log(fY (y, θ)).

Estimation paramètrique I 34 / 49
Skander HACHICHA 34 / 49
Information de Fisher
Démonstration
Ainsi pour i = 1, · · · , d, on a

∂ log(f(X,Y ) ((x, y), θ)) ∂ log(fX (x, θ)) ∂ log(fY (y, θ))
= +
∂θi ∂θi ∂θi
et donc S((x, y), θ) = S(x, θ) + S(y, θ) ou encore

S((X, Y ), θ) = S(X, θ) + S(Y, θ)

De plus comme X et Y sont indépendantes alors S(X, θ) et S(Y, θ)


sont indépendants puisque la loi de S(X, θ) est l’image de la loi de X
par l’application S : X −→ S(X, θ).

Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X alors
n
X
S(X1 , · · · , Xn , θ) = iS(X , θ)
Estimation
i=1
paramètrique I 35 / 49
Skander HACHICHA 35 / 49
Information de Fisher

Définition
Dans un modèle régulier, on appelle information de Fisher du modèle
au point θ (apporté par X sur θ) la matrice de covariance du score
S(X, θ) donnée par
 
I(θ) = Vθ (S(X, θ)) = Eθ S(X, θ)(S(X, θ))t =
!!
∂ log f (X, θ) ∂ log f (X, θ)

∂θi ∂θj 1≤i,j≤d

lorsque cette quantité est bien définie (L’espérance est prise par
rapport à Pθ , pour θ fixé).

Estimation paramètrique I 36 / 49
Skander HACHICHA 36 / 49
Information de Fisher

Définition
Pour d = 1,
2 !
d log f (X, θ)

I(θ) = Vθ (S(X, θ)) = Eθ =


df (X,θ)
!2 

Eθ  
f (X, θ)

Estimation paramètrique I 37 / 49
Skander HACHICHA 37 / 49
Information de Fisher

Remarque
Pour un modèle régulier, l’information de Fisher est une matrice
symétrique définie positive comme étant la matrice de covariance du
vecteur aléatoire centré S(X, θ)

I(θ) = Vθ (S(X, θ))


!!
∂ log f (X, θ) ∂ log f (X, θ)
= covθ ,
∂θi ∂θj 1≤i,j≤d
!!
∂ log f (X, θ) ∂ log f (X, θ)
= Eθ
∂θi ∂θj 1≤i,j≤d

Estimation paramètrique I 38 / 49
Skander HACHICHA 38 / 49
Information de Fisher

Théorème
Dans un modèle régulier , on a la relation suivante
!!
∂ 2 log f (X, θ)
I(θ) = − Eθ = −Eθ (Hθ2 (log f (X, θ)))
∂θi θj 1≤i,j≤d

Cette expression de I(θ) est plus simple à manipuler que celle de la


définition, en effet il est plus simple de dériver puis d’intégrer que
d’élever au carré puis d’intégrer.
Par dérivation, on a
!
∂ 2 log f (X, θ) ∂ 1 ∂f (X, θ)
=
∂θi θj ∂θi f (X, θ) ∂θj
1 ∂ 2 f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
= − 2
f (X, θ) ∂θi θj f (X, θ) ∂θi ∂θj

Estimation paramètrique I 39 / 49
Skander HACHICHA 39 / 49
Information de Fisher
et donc
! !
∂ 2 log f (X, θ) 1 ∂ 2 f (X, θ)
Eθ = Eθ −
∂θi θj f (X, θ) ∂θi θj
!
1 ∂f (X, θ) ∂f (X, θ)
Eθ 2
f (X, θ) ∂θi ∂θj
or
!
1 ∂ 2 f (X, θ) 1 ∂ 2 f (x, θ)
Z
Eθ = f (x, θ)dx
f (X, θ) ∂θi θj X f (x, θ) ∂θi θj
∂ 2 f (x, θ)
Z
= dx
X ∂θi θj
∂2 ∂2
Z
= f (x, θ)dx = 1=0
∂θi ∂θj X ∂θi ∂θj

Estimation paramètrique I 40 / 49
Skander HACHICHA 40 / 49
Information de Fisher

ainsi
! !
∂ 2 log f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
Eθ = −Eθ
∂θi θj f 2 (X, θ) ∂θi ∂θj
!
1 ∂f (X, θ) 1 ∂f (X, θ)
= −Eθ
f (X, θ) ∂θi f (X, θ) ∂θj
!
∂ log f (X, θ) ∂ log f (X, θ)
= −Eθ
∂θi ∂θj

Estimation paramètrique I 41 / 49
Skander HACHICHA 41 / 49
Information de Fisher

Remarque
Dans un modèle régulier, l’information de Fisher I(θ) ≥ 0 pour tout
θ ∈ Θ.

Théorème
Pour un modèle régulier, l’information de Fisher est additive : si X et
Y sont deux variables aléatoires indépendantes dans des modèles
paramétriques au paramètre θ commun alors

I(X,Y ) (θ) = IX (θ) + IY (θ)

(c’est la variance d’une somme de scores indépendants).

Estimation paramètrique I 42 / 49
Skander HACHICHA 42 / 49
Information de Fisher

Par définition, on a S((X, Y ), θ)) = S(X, θ) + S(Y, θ) Or X et Y


sont indépendantes et donc S(X, θ) et S(Y, θ) sont indépendants et
par suite

I(X,Y ) (θ) = Vθ (S(X, θ)) + Vθ (S(Y, θ)) = IX (θ) + IY (θ)

Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X de matrice
d’information IX (θ) = I(θ) alors, on a la relation suivante :

In (θ) = Vθ (S(X1 , · · · , Xn ), θ) = nI(θ)

Estimation paramètrique I 43 / 49
Skander HACHICHA 43 / 49
Information de Fisher
Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)

comme log f (x, θ) = −θ + x log θ − log(x!) alors

X
S(X, θ) = −1 +
θ
et donc
Estimation paramètrique I 44 / 49
Skander HACHICHA 44 / 49
Information de Fisher

Exemple

I(θ) = Eθ (S 2 (X, θ))


2 !
X

= Eθ −1 +
θ
1 
2

= Eθ (X − θ)
θ2
1
= Vθ (X)
θ2
1
=
θ
Soit (X1 , · · · , Xn ) un n−échantillions de loi de Poisson alors
n
In (θ) = nI(θ) =
θ
Estimation paramètrique I 45 / 49
Skander HACHICHA 45 / 49
Information de Fisher

Exemple
Soit X une v.a.r de loi N (m, σ) (i.e θ = (θ1 , θ2 ) = (m, σ 2 ) et donc
de densité
1 1
 
f (x, θ) = √ exp − 2 (x − m)2
σ 2π 2σ

d’où
1 1 1
log(f (x, θ)) = − log(2π) − log(σ 2 ) − 2 (x − m)2
2 2 2σ
Comme f est de classe C 2 par rapport à m et σ 2 alors les dérivées
seconde de f sont données par
∂ 2 log(f (x,θ) 2

∂m2
= − σ12 , ∂ log(f (x,θ)
∂(σ 2 )2
= 2σ1 4 − σ16 (x − m)2

Estimation paramètrique I 46 / 49
Skander HACHICHA 46 / 49
Information de Fisher
Exemple
∂ 2 log(f (x, θ)) 1
= − 4 (x − m)
∂m∂(σ 2 ) σ
et par suite !
∂ 2 log(f (X, θ)) 1
−E =
∂m2 σ2
!
∂ 2 log(f (X, θ)) 1
−E =−
∂(σ 2 )2 2σ 4
!
∂ 2 log(f (X, θ))
−E =0
∂m∂(σ 2 )
Ainsi la matrice d’information est :
!
1
σ2
0
I(θ) = 1
0 −
2σ 4
Estimation paramètrique I 47 / 49
Skander HACHICHA 47 / 49
Information de Fisher

Information et exhaustivité
Proposition
Dans un modèle régulier, pour tout statistique T, on a
IT (θ) ≤ In (θ)
et IT (θ) = In (θ) ⇐⇒ T est exhaustive

Propriétés intuitives sur l’information apportée par un


échantillon
Remarque
L’information de Fisher associée au n-échantillions (X1 , · · · , Xn )
est nIX1 (θ) si IX1 (θ) est l’information de Fisher associée à X1 .

Remarque
L’information de Fisher en θ, n’est pas celle en g(θ).

Estimation paramètrique I 48 / 49
Skander HACHICHA 48 / 49
Merci

Estimation paramètrique I 49 / 49
Skander HACHICHA 49 / 49

Vous aimerez peut-être aussi