Vous êtes sur la page 1sur 5

Estimation paramtrique

tendre le nombre dobservations n vers +. Dans ce cas, il est naturel de


Estimation paramtrique noter T = Tn comme dpendant de n. On a alors la dfinition suivante :

Retour au plan du cours D FINITION 4. Tn est un estimateur consistant de g() si pour tout ,
Tn converge en probabilit vers g() sous P lorsque n .
Soit (, A, P) un espace probabilis et X une v.a. de (, A) dans (E, E).
La donne dun modle statistique cest la donne dune famille de proba- On dfinit le risque quadratique de lestimateur dans le cas o g() R.
bilits sur (E, E), {P , }. Le modle tant donn, on suppose alors
que la loi de X appartient au modle {P , }. Par exemple dans le D FINITION 5. Soit T est un estimateur de g(). Le risque quadratique de
n
modle de Bernoulli, X = (X1 , . . . , Xn ) o les Xi sont i.i.d. de loi de T est dfini par
n
Bernoulli de paramtre ]0, 1[. E = {0, 1}n , E = P(E), =]0, 1[ et 2
R(Tn , g()) = E [(Tn g()) ].
P = ((1 )0 + 1 )n .
Remarque. Le risque quadratique est la somme de la variance et du carr
1 Premires dfinitions du biais de lestimateur.
D FINITION 1. On dit que le modle {P , } est identifiable si lap- Lingalit de Cramer-Rao et la dfinition de linformation de Fisher ont t
plication vues en anne 3 et ne sont pas rappeles ici.
{P , }
7 P 2 Estimation par la mthode des moments
est injective. Dans cette section, X est le vecteur form par un n-chantillon X1 , . . . , Xn .
Les Xi sont valeurs dans un ensemble X .
D FINITION 2. Soit g : 7 Rk . On appelle estimateur de g() au vu de
Soit f = (f1 , . . . , fk ) une application de X dans Rk telle que lapplication
lobservation X, toute application T : 7 Rk de la forme T = h(X) o
h : E 7 Rk mesurable.
Rk
: 7 E [f (X1 )]
Un estimateur ne doit pas dpendre de la quantit g() que lon cherche
estimer. On introduit les proprites suivantes dun estimateur :
soit injective. On dfinit lestimateur n comme la solution dans (quand elle
existe) de lquation
D FINITION 3. T est un estimateur sans biais de g() si pour tout , n
E [T ] = g(). Dans le cas contraire, on dit que lestimateur T est biais et on 1X
() = f (Xi ). (1)
appelle biais la quantit E (T ) g(). n i=1

Gnralement X est un vecteur (X1 , . . . , Xn ) dobservations (n tant le Souvent, lorsque X R, la fonction on prend fi (x) = xi et correspond
nombre dentre elles). Un exemple important est le cas o X1 , . . . , Xn forme donc au ime moment de la variables X1 sous P . Ce choix justifie le nom
un n-chantillon cest dire lorsque que X1 , . . . , Xn sont i.i.d. On peut alors donn la mthode. Voici quelques exemples destimateurs btis sur par cette
regarder des proprits asymptotiques de lestimateur, cest dire en faisant mthode.

1
Estimation paramtrique

2.1 Loi exponentielle que dune part,


n
1X p.s.
Ici k = 1, Q = E() pour R+ . Comme pour tout , E [X1 ] = 1/ f (Xi ) (0 ),
on prend () = 1/ et f = Id : R+ R+ . Lestimateur obtenu par la n i=1
mthode des moments est
et donc, comme 1 existe et est continue au voisinage de (0 ), on en dduit
1 1
n
X que n existe et vrifie
n = o X n = Xi .
Xn n p.s.
i=1
n 1 (0 ) = 0 .
Par continuit de lapplication x 1/x, n est un estimateur consistant de .
Remarquons que X n > 0 p.s. ce qui justifie lgalit ci-dessus. Mais que peut-on dire de la distance de n 0 ? Sous lhypothse que
E0 [kf k2 ] < + on a grce au thorme central limite que
2.2 Loi uniforme !
n
1X Loi
Ici k = 1, Q est la loi uniforme sur [0, ] avec > 0. On a que pour n f (Xi ) (0 ) Nk (0, (0 )) ,
tout , E [X1 ] = /2, on peut donc prendre par exemple () = /2 et n i=1
f = Id : R R. Lestimateur obtenu par la mthode des moments est alors
n = 2X n . Cet estimateur est sans bias et consistant. o (0 ) la matrice covariance de f (X1 ) sous P0 . Elle est dfinie pour i, j
{1, . . . , k}
2.3 Loi gaussienne i,j (0 ) = Cov0 [fi (X1 )fj (X1 )].
Ici k = 2, on prend = (m, ) R R+ , Q = N (m, ). Pour tout La Delta mthode (cf Proposition 16) va nous permettre de dduire un rsultat
= (m, ), E [X1 ] = m et E [X12 ] = m2 + . On peut donc prendre, par similaire pour n :
exemple, f1 (x) = x et f2 (x) = x2 ce qui donne (m, ) = (m, m2 + ).

Lestimateur obtenus par la mthode des moments vrifie T HORME 6. Supposons que soit de classe C 1 de dans Rk et que

1X 2
n 0 , et que D0 : Rk Rk soit inversible. Supposons de plus que
n = Xn
m 2n + n =
et m X . E0 [kf (X1 )k2 ] < + et notons (0 ) la matrice covariance de f (X1 ) sous
n i=1 i
P0 . Alors sous P0 :
cest a dire n existe avec une probabilit tendant vers 1
n
!
1X 2 on a la convergence en loi
n = X n, Xi X n .
n i=1   Loi   0 
1 1
n n 0 N 0, (D0 ) (0 ) (D0 ) .
Lestimateur est consistant mais lestimateur de la variance est biais.

2.4 Proprits asymptotiques


Pn Dmonstration. Comme D0 est inversible, D reste inversible dans un
Notons () = E ( n1 i=1 f (Xi )). Supposons que X1 , . . . , Xn sont i.i.d. voisinage de 0 et donc, daprs le thorme de linversion locale, ralise un
de loi P0 . Les rsultats de consistance prcdents taient obtenus grce au fait diffomorphisme dun voisinage U de 0 dans V un voisinage de (0 ). Par la

2
Estimation paramtrique

Pn
loi des grands nombres, Yn = n1 i=1 f (Xi ) converge en probabilit (car On appelle estimateur du maximum de vraisemblance de , tout lment
p.s.) vers (0 ) et donc Yn appartient V avec une probabilit tendant vers 1 de maximisant la vraisemblance , cest dire vrifiant
quand n tend vers +. Sur cet vnement, lquation (1) admet une unique
= arg max p(, X).
solution n dans (par injectivit de ) et cette solution vrifie n U et
n = 1 (Yn ) o 1 est dfinie de V dans U . On a par ailleurs,
Remarque. Lestimateur de maximum de vraisemblance nexiste pas tou-
jours et nest pas toujours unique.
   

n n 0 =
nn 1Yn V
n n 1Yn V 0
/ +
  Considrons le cas typique o X = (X1 , . . . , Xn )0 , les Xi formant un n-
= nn 1Yn V
/ + n[ 1 Yn
1 ((0 ))] (2)
chantillon de loi Q0 o Q0 est une loi sur X de paramtre inconnu 0
k
R . On suppose en outre que pour tout , Q est absolument continue par
o 1 (y) = 1 (y)1yV . Or nn 1 converge vers 0 en probabilit
Yn V
/ rapport une mesure sur X . Dans ce cas, en notant
car pour tout > 0,
dQ
P0 [a nn 1Yn V q(, x) = (x),
/ > ] P0 [Yn 6 V ] 0. d
n+
n
Daprs le lemme de Slutsky, il suffit donc de montrer que le second terme et en prenant = on a que la vraisemblance scrit
du membre de droite de (2) converge en loi vers la limite annonce. Or par Y n
thoreme centrale limite vectoriel p(, X) = q(, Xi )
  Loi i=1
n Yn (0 ) N (0, (0 )),
et donc
n
et on conclut en utilisant la Proposition 16. 1X
n = arg max log[q(, Xi )],
n
i=1
avec la convention log(0) = . Voyons quelques exemples.
3 Estimation par maximum de vraisem-
3.1 Modle de Bernoulli
blance
Soit Q0 = B() avec [0, 1] = , et la mesure de comptage sur N.
Soit {E, E, {P , }} un modle statistique, o Rk (nous sommes Pour tout ]0, 1[ et x {0, 1}
dans un cadre paramtrique). On suppose quil existe une mesure -finie qui  
domine le modle, cest dire que , P admet une densit p(, .) par x 1x
q(, x) = (1 ) = (1 ) exp[x log ]
rapport . 1
et donc lestimateur du maximum de vraisemblance doit maximiser dans [0, 1]
D FINITION 7. Soit X une observation. On appelle vraisemblance de X  
lapplication
log Sn (1 )nSn = Sn log

+ n log(1 ),
1
R+
7 p(, X). ce qui conduit n = X.

3
Estimation paramtrique

3.2 Lois exponentielles Exemples


X1 , . . . , Xn i.i.d. de loi de Bernoulli de paramtre ,
Soit Q = E() avec =]0, +[, = 1R+ dx. On a pour tout x > 0, X1 , . . . , Xn i.i.d. de loi de normale N (, 1).
q(, x) = exp x,

et le maximum de vraisemblance n maximisant P ROPOSITION 10. Soit T une statistique exhaustif et V un estimateur de
g() tel que E (V 2 ) < + . Soit T = E (V /T ). T est indpendant
n log() Sn , de et pour tout ,
1
est donn par = X
. E ((T g())2 ) E ((V g())2 ),
3.3 Lois de Poisson ce qui signifie que le risque quadratique de T pour estimer g() est infrieur
ou gal celui de V .
Soit Q = P() avec =]0, +[ et la mesure de comptage sur N.
On a pour tout x N, D FINITION 11. Soit T est un estimateur sans biais de g(). On dit que
x T est uniformment de variance minimale parmi les estimateurs sans biais
q(, x) = e = e exp[x log() ln(x!)]. (UMVB) si, pour tout estimateur sans biais U de g(), on a
x!
Lestimateur du maximum de vraisemblance maximisant , R(T, g()) R(U, g()),
Sn log() n, o R dsigne le risque quadratique.
est donn par n = X.

Soit T un estimateur exhaustif de g(). On dsire introduire une notion qui
garantisse lunicit dun estimateur (T ) qui a les deux proprits suivantes :
4 Estimateurs exhaustifs complets 1) (T ) est sans biais.
2) Parmi les les estimateurs sans biais, il est de variance minimale.
D FINITION 8. On dit quun estimateur T est exhaustif (ou suffisant) si
pour tout ensemble B E, il existe une version de lesprance conditionnelle Sil existe un unique estimateur sans biais de g() fonction de T alors
E [1XB | T ] qui ne dpend pas de .
E (1 (T )) = E (2 (T )) = g()
Exemple. Soit X1 , . . . , Xn i.i.d. de loi de Bernoulli de paramtre . S =
= 1 (T ) = 2 (T ) P p.s. .
X1 + . . . + Xn est une statistique exhaustive. La loi de (X1 , . . . , Xn )/S = s
ne dpend pas de .

T HORME 9. Thorme de factorisation D FINITION 12. Une statistique T est complte si pour toute fonction
Si la vraisemblance de lobservation X scrit sous la forme telle que
E (|(T )|) < + ,
f (X, ) = h(X)g (T (X)), on a
alors T (X) est une statistique exhaustive. E ((T )) = 0 = (T ) = 0 P p.s. .

4
Estimation paramtrique

Si T est une statistique complte et si 1 (T ) et 2 (T ) sont deux estimateurs Remarquons que lon ne suppose rien sur la rgularit de f ailleurs quen .
sans biais de g(), alors 1 (T ) = 2 (T ) p.s. Notons aussi que lon ne suppose pas D f 6= 0 et donc la limite peut-etre nulle
Exemple des modles exponentiels : ventuellement.

D FINITION 13. Sil existe une mesure de rfrence telle que la loi P
admette une densit par rapport de la forme

f (, x) = C() exp(hT (x), Q()i,

le modle est dit exponentiel.

P ROPOSITION 14. Dans un modle exponentiel, T (X) est une statistique


exhaustive. De plus, si Q() contient un ouvert non vide de Rk , alors T (X)
est complte.

P ROPOSITION 15. Supposons quil existe au moins un estimateur sans biais


de g() et que T soit exhaustive complte. Alors il existe un unique estimateur
sans biais de g() fonction de T , et cet estimateur est UMVB.

Remarque. Si lobjectif est de minimiser le risque quadratique, on a parfois


intrt considrer des estimateurs qui sont biaiss.

5 Annexe : rappels sur les convergences


P ROPOSITION 16. (Delta-Mthode) Soit Xn une suite de v.a. valeurs dans
Rk et Rk tels que
Loi
rn (Xn ) Y,
o rn est une suite de rels positifs tendant vers +. Soit f une application
de Rk dans Rm differentiable en . On a alors que
Prob Loi
f (Xn ) f () et rn (f (Xn ) f ()) D f [Y ].

Remarque. Ce rsultat permet dtendre dautres v.a. le thorme central


limite. Classiquement, Y suit une loi gaussienne N (0, ) et dans ce cas
0
D f [Y ] N 0, (D f ) (D f ) .

Vous aimerez peut-être aussi