Académique Documents
Professionnel Documents
Culture Documents
T
AF
Estimation Ponctuelle
OUESLATI Omar
R Université de la Manouba
École Nationale des Sciences de l’Informatique
29 avril 2020
n
D
s io
er
T
AF
Jusqu’á ce moment, on a supposé (implicitement ou explicitement) que
tous les paramètres nécessaires pour faire les calculs des probabilités
d’un modèle probabiliste sont disponibles ou connus.
En statistiques, cependant, les rôles des paramètres (d’un modèle
probabiliste) et les réalisations (d’une expérience) sont un peu inversés.
R
n
D
s io
er
T
AF
Le résultat d’une expérience est observé par l’expérimentateur alors
que la vraie valeur du paramètre (ou plus généralement, la vraie
distribution de probabilité) est inconnue á l’expérimentateur.
En d’autres termes, l’objectif des statistiques est d’utiliser les résultats
des expériences aléatoires (c’est- á- dire les données á partir de
l’expérience) pour faire des inférences sur les valeurs inconnues des
paramètres de la distribution de probabilité présumée.
R
n
D
s io
er
T
AF
Il existe de nombreuses méthodes pour estimer la valeur réelle(s) du
paramètre(s) d’intérêt.
Deux méthodes d’estimation les plus populaires sont :
Méthode des moments.
Méthode de maximum de vraisemblance.
R
n
D
s io
er
T
Plusieurs critères pour choisir l’estimateur ponctuel désiré :
AF
Sans Biais
T
AF
Convergence
T
AF
Efficacité
T
La méthode des moments est basée sur l’égalisation entre :
AF
Les moments de l’échantillon :
n
X
Moments empiriques : mr = 1/n Xir
i=1
n
D
s io
er
T
AF
Elle est fondée sur l’hypothèse que les moments de l’échantillon devrait
fournir de bonnes estimations des moments de la population.
Puisque les moments de la population sont souvent des fonctions des
paramètres de la population, on peut égaliser les moments théoriques
aux moments empiriques et résoudre le système correspondant en
termes de ces paramètres.
R
n
D
s io
er
T
Définition
AF
Choisir comme estimateurs les valeurs des paramètres de la distribution
(population) qui sont des solutions des équations,
n
1X r
Xi = mr =µr = E[X r ] r = 1, ..., k
n
i=1
n
D
s io
er
T
Remarque
AF
On peut utiliser même les moments centrés :
n
1X
(Xi − X¯n )r = mr0 = µ0r = E[(X − E[X ])r ], r = 1, ..., k
n
i=1
T
Exemple
AF
Le premier moment théorique (de la population) : µ1 = E[X ]
n
1X
Le premier moment empirique (de l’échantillon) : m1 = Xi = X¯n
n
i=1
T
La Procédure de la Méthode des Moments
Supposons qu’il y a k paramètres, disant θ = (θ1 , ..., θk ).
AF
1 Trouver les k moments théoriques, µi , i = 1, ..., k , qui sont fonctions des
paramètres θ1 , ..., θk .
2 Trouver les k moments empiriques correspondant, mi , i = 1, ..., k .
Le nombre des moments empiriques doit être égale au nombre de
paramètres á estimer.
3 Résoudre le système d’équations µi = mi , i = 1, ..., k , selon les
R
paramètres θ = (θ1 , ..., θk )
Ces solution représentent des estimateurs par la méthode des
moments θbMM . n
D
s io
er
T
Exemple
Soit X1 , ..., Xn un échantillon aléatoire d’une population de Bernoulli avec un
paramètre p.
AF
1 Trouver l’estimateur par la méthode des moments de p.
2 On lance une pièce de monnaie 10 fois, et en désignant par ”Face” = 1
et ”Pile” = 0, on a obtenu les valeurs suivantes :
0 1 1 0 1 0 1 1 1 0
R
Obtenir l’estimation par la méthode des moments de p, la probabilité de
succès (face). n
D
s io
er
T
Solution
Xi ∼ B(p), i = 1, ..., n alors,
AF
1 Moment théorique : µ1 = E[X ] = p
n
X
Moment empirique : m1 = 1/n Xi = X¯n = Y /n
i=1
avec Y est le nombre des faces sur le nombre total des essaies.
pMM = X¯n
Alors, b
2
6
R
Avec y = 6, alors,
pMM =
b = 0.60 représente une estimation par la méthode des
10
moments de p. n
D
s io
er
T
AF
Exemple
Soit X1 , ..., Xn un échantillon aléatoire d’une distribution Gamma de
paramètres α et β.
Trouver les estimateurs des paramètres inconnus α et β par la méthode des
moments ?.
R
n
D
s io
er
Solution
T
On a Xi ∼ γ(α, β)i = 1, ..., n
AF
n
1X
µ1 = E[X ] = αβ m1 = Xi = X¯n
n
i=1
n
1X
µ02 = Var [X ] = αβ 2
m20 = (Xi − X¯n )2 = Sn2
n
i=1
Exemple
T
Soit X suivant une distribution N(µ, σ 2 ).
AF
pour estimer µ et σ 2 .
2 A partir d’une distribution normale avec une moyenne 2 et un écart-type
1.5, l’expérience aléatoire a donné les résultats suivants :
T
Solution
1 n
1X
AF
µ1 = E[X ] = m1 = Xi
n
i=1
=µ = X¯n
n
1X
µ02 = E[(X − E[X ])2 ] m20 (Xi − X¯n )2
= =
n
i=1
= σ2 = Sn2
R
Il s’en alors que les estimateurs par la méthode des moments sont,
b = X¯n
µ
b2 = Sn2
σ
n
D
s io
er
T
2 Les données donnent les estimations suivantes :
AF
b = 2.005
µ
b2 = 2.1
σ
µ=2
R
σ 2 = 2.25
n
D
s io
er
T
AF
Exemple
Soit X1 , ..., Xn un échantillon aléatoire d’une distribution uniforme sur
l’intervalle [a, b]. Obtenir par la méthode des moments des estimateurs de a
et b ?. R
n
D
s io
er
Solution
T
Dans ce cas, a et b sont traités comme des paramètres.
La d.d.p. d’une loi uniforme est donnée par :
AF
(
1
si a≤x ≤b
f (x) = b−a
0 sinon
T
Les deux premiers moments empiriques sont :
n
1X
AF
m1 = Xi
n
i=1
n
1X 2
m2 = Xi
n
i=1
T
AF
La résolution du système d’équations par rapport á a et b, donne,
p
aMM = m1 − 3(m2 − m12 )
b
p
R bMM = m1 + 3(m2 − m12 )
b
n
D
s io
er
T
Exemple
AF
Soit X1 , ..., Xn un échantillon aléatoire d’une distribution de Poisson de
paramètre λ > 0.
n n n
X X X
Montrer que (1/n) Xi et (1/n) Xi2 − ((1/n) Xi )2 , sont tous deux
i=1 i=1 i=1
estimateurs par la méthode des moments de λ ?
R
n
D
s io
er
T
Solution
Si X ∼ P(λ), alors E[X ] = λ = Var [X ], alors,
AF
n
1X
λMM =
b Xi
n
i=1
n n
1X 1X 2
λMM =
b Xi2 − ( Xi )
n n
i=1 i=1
R
sont deux estimateurs par la méthode des moments.
Alors, les estimateurs par la méthode des moments peuvent ne pas être
uniques. n
D
s io
er
T
Remarque
AF
empiriques aux moments théoriques.
Cette méthode fournit souvent des estimateurs lorsque d’autres
méthodes ne parviennent pas á le faire ou lorsque les estimateurs sont
plus difficiles á obtenir, comme dans le cas d’une distribution gamma.
Par rapport á d’autres méthodes, les estimateurs de la méthode des
moments sont faciles á calculer et ont certaines propriétés souhaitables
R
qu’on les verra dans les sections suivantes.
L’inconvénient est qu’elles ne sont pas généralement les "meilleurs
estimateurs" disponibles (á définir ultérieurement) .
n
D
s io
er
T
Il est fortement souhaitable de disposer d’une méthode qui est
AF
généralement applicable á la construction des estimateurs statistiques
qui ont de "bonnes" propriétés.
Méthode importante proposée par le généticien et statisticien Sir
Ronald A. Fisher autour de 1922, appelée la Méthode du Maximum de
Vraisemblance.
Même si la méthode des moments est intuitif et facile á appliquer, elle
R
ne donne pas généralement de "bons" estimateurs.
n
D
s io
er
T
AF
La méthode du maximum de vraisemblance est intuitivement attrayante,
parce que, á travers laquelle on essaie de trouver les vraies valeurs des
paramètres qui auraient la forte probabilité de produire les données
expérimentales.
Pour la plupart des cas d’intérêt pratique, les performances des
estimateurs du maximum de vraisemblance est optimal pour des
données suffisamment de grandes tailles.
R
n
D
s io
er
T
Définition
AF
Soit f (x1 , ..., xn ; θ), θ ∈ ⊆ Rk , la probabilité jointe (ou densité) en fonction
des n variables aléatoires X1 , ..., Xn avec les réalisations x1 , ..., xn .
La fonction de vraisemblance de l’échantillon est donnée par
L(θ; x1 , ..., xn ) = f (x1 , ..., xn ; θ) [notée dans la suite L(θ)].
Remarque
On remarque que L(θ) est une fonction de θ pour des valeurs fixes de
l’échantillon.
R
n
D
s io
er
T
Si X1 , ..., Xn une séquence de v.a. i.i.d. avec une distribution de probabilité
p(x, θ), alors, la fonction de vraisemblance est donnée par,
AF
Cas Discret Cas Continu
L(θ) = P[X1 = x1 , ..., Xn = xn ] = f (x1 , ..., xn )
n
Y
= P[Xi = xi ] (indépendance des v.a.)
i=1
n n
Y Y
=
R p(xi ; θ) = f (xi ; θ)
i=1 i=1
n
D
s io
er
T
AF
Exemple
Soit X1 , ..., Xn une séquence de v.a. i.i.d. selon une loi Normale N(µ, σ 2 ).
Soient x1 , ..., xn les valeurs empiriques correspondantes.
Trouver la fonction de vraisemblance ?.
R
n
D
s io
er
T
AF
Solution
Xi ∼ N(µ, σ 2 ), i = 1, ..., n avec les Xi sont i.i.d.
Alors, sa densité de probabilité est donnée par,
1 (xi − µ)2
f (xi ; θ = (µ, σ 2 )) = √ exp −
σ 2π 2σ 2
R
n
D
s io
er
T
Il s’en suit alors que la fonction de vraisemblance est donnée par,
n
AF
Y
L(θ) = f (xi ; θ = (µ, σ 2 ))
i=1
n
Y 1 (xi − µ)2
= √ exp −
σ 2π 2σ 2
i=1
1 (x1 − µ)2 1 (xn − µ)2
= √ exp − × ... × √ exp −
σ 2π 2σ 2 σ 2π 2σ 2
R Pn
(xi − µ)2
1 i=1
= n exp −
σ (2π)n/2 2σ 2
n
D
s io
er
T
La méthode de Maximum de vraisemblance stipule que la meilleure
AF
explication d’un ensemble de données est assurée par un estimateur
de θ qui maximise la fonction de vraisemblance.
Cette valeur de θ sera appelé l’estimateur du maximum de
vraisemblance.
L’objectif de l’estimation du maximum de vraisemblance est de trouver
la valeur du paramètre(s) qui rend les données observées les plus
probable.
R
n
D
s io
er
T
Définition
AF
Les estimateurs du maximum de vraisemblance (EMV) sont les valeurs des
paramètres qui maximisent la fonction de vraisemblance selon le(s)
paramètre(s) θ. C’est á dire,
avec
R
est l’ensemble des valeurs possibles des paramètres θ.
n
D
s io
er
T
Remarque
AF
de l’échantillon observé en fonction des valeurs possibles des
paramètres.
Les estimations du maximum de vraisemblance donne les valeurs des
paramètres pour lesquels l’échantillon observé est le plus susceptible
selon lesquels d’être généré.
En général, la méthode de maximum de vraisemblance résulte un
R
problème de la maximisation d’une fonction d’une ou plusieurs
variables (le(s) paramètre(s)).
n
D
s io
er
T
Remarque
AF
techniques usuelles ont des limites. Ainsi, on a recours aux méthodes
numériques, telles que la méthode de Newton.
Dans plusieurs cas, il est plus facile de travailler avec le logarithme (log)
de la fonction de vraisemblance, appelé la fonction log-de
vraisemblance (L(θ)).
Puisque le log-de la vraisemblance est une fonction croissante, sa
R
valeur maximale, si elle existe, coïncide avec celle de la fonction de
vraisemblance.
n
D
s io
er
T
Procédure pour trouver EMV
AF
1 Définir la fonction de vraisemblance, L(θ).
2 Souvent il est plus facile de prendre le logarithme (log) de L(θ).
3 Chercher la dérivée de log(L(θ)) par rapport á θ.
4 Puis, annuler la dérivée par rapport á zéro, la résoudre par rapport au
paramètre θ, et on obtient θbEMV .
5
R
Vérifiez si c’est un maximum global (dérivée seconde négative).
n
D
s io
er
T
AF
Exemple
Soient X1 , ..., Xn un échantillon aléatoire i.i.d. d’une distribution géométrique
avec un paramètre p, 0 ≤ p ≤ 1.
Trouver l’Estimateur de Maximum de Vraisemblance (EMV) b
R pEMV ?.
n
D
s io
er
T
Solution
Xi ∼ Géom(p), i = 1, ..., n avec les Xi sont i.i.d.
AF
Alors, sa densité de probabilité est donnée par,
n
D
s io
er
T
Le log-de la vraisemblance log − L(p) est donné par,
n
X
logL = n log(p) + ( xi − n)log(1 − p)
AF
i=1
T
Le maximum est atteint pour,
n 1
p = Pn =
AF
b
x
i=1 i
xn
T
AF
Exemple
Soient X1 , ..., Xn un échantillon aléatoire i.i.d. d’une distribution de Poisson
avec un paramètre λ, λ > 0.
Trouver l’Estimateur de Maximum de Vraisemblance (EMV) b
R λEMV ?.
n
D
s io
er
T
Solution
Xi ∼ P(λ), i = 1, ..., n avec les Xi sont i.i.d. Alors, la densité de probabilité est
donnée par,
AF
λxi e−λ
f (xi ; λ) = , λ > 0, xi = 0, 1, 2, ...
xi !
La fonction de vraisemblance L(λ) est donnée par,
n
Y λxi e−λ
L(λ) =
xi !
R i=1
Pn
xi
λ i=1 e−nλ
= Qnn x!
i=1 i
D
s io
er
T
Le log-de la vraisemblance log − L(λ) est donné par,
n n
X X
xi log(λ) − nλ −
AF
logL = log(xi !)
i=1 i=1
T
Le maximum est atteint pour,
n
1X
λ=
b xi = x n
AF
n
i=1
T
Remarque
AF
Parfois, la méthode des dérivés ne peut pas être utilisée pour trouver
les EMV.
Par exemple, la probabilité n’est pas dérivable dans son domaine de
définition.
Dans ce cas, on a besoin d’utiliser des alternatives disponibles selon la
R
spécificité de la situation pour résoudre le problème.
n
D
s io
er
T
AF
Exemple
Soient X1 , ..., Xn un échantillon aléatoire i.i.d. d’une distribution uniforme avec
un paramètre θ, θ > 0.
Trouver l’Estimateur de Maximum de Vraisemblance (EMV) θbEMV ?.
R
n
D
s io
er
T
Solution
Xi ∼ U(θ), i = 1, ..., n avec les Xi sont i.i.d. Alors, la densité de probabilité est
AF
donnée par,
1
f (xi ; θ) = , 0 ≤ xi ≤ θ
θ
La fonction de vraisemblance L(λ) est donnée par,
n
Y 1 1
L(θ) = = 0 ≤ x1 , x2 , ..., xn ≤ θ
R i=1
θ θn
n
D
s io
er
T
Le log-de la vraisemblance log − L(θ) est donné par,
AF
logL = −nlog(θ)
∂logL n
=−
∂θ θ
Annuler la dérivée par rapport á 0 et résoudre par rapport á θ,
R ∂logL n
=0 ⇒− =0 (impossible)
∂θ θ
n
D
s io
er
T
AF
Mais, on prends le domaine de définition des xi et on fait les ordonner dans
un ordre croissant.
On remarque que le max(xi ) est la valeur la plus proche de θ.
Alors, θb = max Xi
R
n
D
s io
er
T
Exemple
AF
Soient X1 , ..., Xn un échantillon aléatoire i.i.d. d’une distribution Normale
N(µ, σ 2 )
T
Solution
Xi ∼ N(µ, σ 2 ), i = 1, ..., n avec les Xi sont i.i.d.
Alors, sa densité de probabilité est donnée par,
AF
1 (xi − µ)2
f (xi ; θ = (µ, σ 2 )) = √ exp −
σ 2π 2σ 2
T
AF
Le log-de la vraisemblance log − L(µ, σ 2 ) est donné par,
n
n n 1 X
logL = − log(2π) − log(σ 2 ) − (xi − µ)2
2 2 2σ 2
i=1
R
n
D
s io
er
T
1. Si σ 2 = σ02 , connue alors,
Le log-de la vraisemblance log − L(µ) est donné par,
AF
n
n n 1 X
logL = − log(2π) − log(σ02 ) − (xi − µ)2
2 2 2σ02
i=1
T
Annuler la dérivée par rapport á 0 et résoudre par rapport á µ,
AF
n
∂logL 1 X
=0 ⇒2× (xi − µ) = 0
∂µ 2σ02
i=1
n
D
s io
er
T
On peut vérifier qu’il s’agit d’un maximum global
AF
∂ 2 logL
<0
∂µ2
n
D
s io
er
T
2. Si µ = µ0 , connue alors,
Le log-de la vraisemblance log − L(σ 2 ) est donné par,
AF
n
n n 1 X
logL = − log(2π) − log(σ 2 ) − (xi − µ0 )2
2 2 2σ 2
i=1
T
Annuler la dérivée par rapport á 0 et résoudre par rapport á σ 2 ,
AF
n
∂logL n 1 X
=0 ⇒− + (xi − µ0 )2 = 0
∂σ 2 2σ 2 2(σ 2 )2
i=1
n
D
s io
er
T
On peut vérifier qu’il s’agit d’un maximum global
AF
∂ 2 logL
<0
∂(σ 2 )2
n
D
s io
er
T
AF
Propriété d’Invariance
Soit h(θ) une application bijective de θ.
Si θb est l’EMV de θ, alors l’EMV d’une fonction h(θ) est h(θb).
R
n
D
s io
er
T
Exemple
Comme conséquence de cette propriété d’invariance, on peut obtenir
AF
l’estimateur du vrai écart-type,
p
b=
σ σb2
v
u n
u1 X
=t (Xi − µ0 )2
n
i=1
R = Sn
n
D
s io
er
T
Deux méthodes alternatives ont été proposées pour trouver des
estimateurs pour les paramètres de la population.
AF
On a vu qu’il est possible d’avoir plusieurs estimateurs pour un même
paramètre.
Deux questions importantes qui se posent :
T
AF
Il est souhaitable d’avoir la propriété que la valeur espérée d’un estimateur
d’un paramètre donné soit égal á la vraie valeur du paramètre. Ces
estimateurs sont appelés estimateurs sans biais.
R
n
D
s io
er
T
AF
Définition
Un estimateur ponctuel est appelé estimateur sans biais du paramètre θ si et
seulement si : E[θb] = θ pour toutes les valeurs possibles de θ. Sinon θb est dit
biaisé. En outre, le biais de θb est donné par B = E[θb] − θ.
R
n
D
s io
er
T
Remarque
Noter que le biais n’est rien d’autres que la valeur probable de l’erreur
AF
(aléatoire), E[θb − θ].
Ainsi, l’estimateur est sans biais si le biais est égal á 0 pour toutes les
valeurs de θ.
Le biais se produit lorsque un échantillon prélevé d’une population ne la
représente pas avec précision.
R
Il est important de noter que dans le but de vérifier si θb est sans biais, il
n’est pas nécessaire de connaitre la vraie valeur du paramètre θ.
T
AF
Exemple
Soit X1 , ..., Xn un échantillon aléatoire d’une population de Bernoulli de
paramètre p. Montrer que l’estimateur par la méthode des moments est un
estimateur sans biais.
R
n
D
s io
er
Solution
T
n
1X
µ1 = E[Xi ] = p = m1 = Xi = X¯n
n
AF
i=1
pMM = X¯n
Alors, b
pMM est un estimateur sans biais de p ssi : E[b
b pMM ] = p
n
1X
pMM ] = E[X¯n ] = E[
E[b Xi ]
n
i=1
R n
1X 1
= E[Xi ] = × np = p
n n
i=1 n
D
io
pMM = X¯n est un estimateur sans biais de p.
Alors, b
s
er
T
AF
Théorème
La moyenne d’un échantillon aléatoire X¯n est un estimateur sans biais de la
moyenne de la population µ.
R
n
D
s io
er
Preuve.
T
n
1X
E[X¯n ] = E[ Xi ]
n
AF
i=1
n
1X
= E[Xi ]
n
i=1
n
1X
= µ
n
i=1
R 1
= × nµ
n
=µ n
D
io
Alors, X¯n est un estimateur sans biais de µ.
s
er
T
Remarque
En pratique comment interpréter ce résultat ?
AF
Supposons qu’un ensemble de n observations numériques x1 , ..., xn a
été obtenu.
La moyenne résultante de l’échantillon peut être inférieure ou
supérieure á la moyenne réelle µ de la population (rappelez-vous, qu’on
ne savait pas cette valeur).
R
Si l’expérience d’échantillonnage a été répétée de nombreuses fois,
puis la moyenne des moyennes (estimations) est calculée, elle sera
égale á la moyenne réelle de la population.
n
D
s io
er
T
AF
Théorème
2
Si Sn−1 est la variance corrigée d’un échantillon aléatoire d’une population
infinie avec une variance σ 2 , alors Sn−1
R 2
est un estimateur sans biais de σ 2 .
n
D
s io
er
Preuve. Soient X1 , ..., Xn une séquence de v.a. i.i.d. avec une variance
σ 2 < ∞.
T
n
2 1 X
E[Sn−1 ] = E[ (Xi − X¯n )2 ]
n−1
AF
i=n
n
1 X
= E[ ((Xi − µ) − (X¯n − µ))2 ]
n−1
i=n
n n
1 X X
= E[(Xi − µ)2 ] − E[(X¯n − µ)2 ]
n−1
i=n i=n
R 1 σ2
= [nσ 2 − n ]
n−1 n
2
=σ n
D
io
2
Alors, Sn−1 est un estimateur sans biais de σ 2 .
s
er
T
Définition
θb est dit un estimateur asymptotiquement sans biais de θ si : lim E[θb] = θ
n→∞
AF
Exemple
n−1 2
E[Sn2 ] = σ ⇒ Sn2 un estimateur biaisé de σ 2 avec un biais
n
σ2
B=− .
n
R
Mais, lim E[Sn2 ] = σ 2 ⇒ Sn2 est un estimateur asymptotiquement sans
n→∞
biais de σ 2 . n
D
s io
er
T
Remarque
AF
Puisque la variance corrigée de l’échantillon
n
2
X
Sn−1 = (1/n − 1) (Xi − X¯n )2 est un estimateur sans biais de σ 2 , la
i=1
variance de la population.
C’est pour cette raison que dans sa définition, au lieu de diviser par n,
R
on divise par (n − 1).
n
D
s io
er
T
Remarque
Il est important de noter les remarques :
AF
2
1 Sn−1 n’est pas un estimateur sans biais de la variance d’une population finie.
2 L’absence de biais ne peut être conservée en vertu des transformations
fonctionnelles, c’est á dire, si θb est un estimateur sans biais de θ, il ne s’ensuit
pas automatiquement que f (θb) est un estimateur sans biais de f (θ).
3 Les estimateurs du maximum de vraisemblance ou des moment ne sont pas,
en général, sans biais.
Dans de nombreux cas, il est possible de modifier un estimateur biaisé en
4
R
multipliant par une constante appropriée pour obtenir un estimateur sans biais.
5 L’estimateur sans biais n’est pas nécessairement unique.
n
D
s io
er
T
AF
Exemple
Soit X1 , ..., Xn un échantillon aléatoire d’une population finie de moyenne µ.
1 2
Montrer que la moyenne de l’échantillon X n et X n + X1 sont deux
3 3
estimateurs sans biais de µ ?
R
n
D
s io
er
T
Solution
AF
Maintenant,
1 2 1 2
E[ X n + X1 ] = E[X n ] + E[X1 ]
3 3 3 3
1 2
= µ+ µ
3 3
R =µ
1 2
Alors, X n + X1 est un estimateur sans biais de µ.
3 3 n
D
s io
er
T
AF
Remarque
On se demande alors, combien d’estimateurs sans biais peut-on trouver ?
En fait, d’après cet exemple, il existe une infinité d’estimateurs sans biais.
R
n
D
s io
er
T
Exemple
AF
Soient θb1 et θb2 deux estimateurs sans biais de θ. Montrer que
θb3 = aθb1 + (1 − a)θb2 , 0 ≤ a ≤ 1 est un estimateur sans biais de θ.
n
D
s io
er
Solution
T
On E[θb1 ] = θ et E[θb2 ] = θ, alors,
AF
= aE[θb1 ] + (1 − a)E[θb2 ]
= aθ + (1 − a)θ
=θ
T
Pour trouver le minimum,
∂
Var [θb3 ] = 2aσ12 − 2(1 − a)σ22 = 0
AF
∂a
La solution a∗ est donnée par,
σ22
a∗ =
σ12 + σ22
T
Exemple
AF
Soit X1 , ..., Xn un échantillon aléatoire d’une population avec la d.d.p.
suivante :
1 −x/β
(
e si x >0
f (x) = β
0 sinon
Montrer que l’estimateur par la méthode des moments du paramètre β est
sans biais.
R
n
D
s io
er
T
Solution
AF
X ∼ Exp(β) alors E[X ] = β
Par conséquent, l’estimateur par la méthode des moments du
paramètre β est X̄n .
T
Comme on a vu, il peut y avoir de nombreux estimateurs sans biais
AF
pour un paramètre θ.
Lequel de ces estimateurs peut-on choisir ?
Si on choisi un estimateur sans biais, il serait souhaitable de choisir
celui avec la plus petite variance.
Si l’estimateur est biaisé, alors on doit préférer celui avec le plus faible
R
biais ainsi que la variance la plus faible.
n
D
s io
er
T
Définition
AF
L’Erreur Quadratique Moyenne (EQM ou MSE) d’un estimateur θb, dénotée
par EQM(θb) ou MSE(θb), est définie comme,
Dans la suite, on va montrer que MSE(θb) est une mesure qui combine le
R
biais et la variance.
n
D
s io
er
Preuve.
T
MSE(θb) = E[θb − θ]2
= E[(θb − E[θb]) + (E[θb] − θ)]2
AF
= E[(θb − E[θb])2 + (E[θb] − θ)2
+ 2(θb − E[θb])(E[θb] − θ)]
= E[(θb − E[θb])2 ] + E[(E[θb] − θ)2 ]
+ 2E[(θb − E[θb])(E[θb] − θ)]
= Var [θb] + [E[θb] − θ]2
R
Soit B = E[θb] − θ, il s’en suit alors que,
n
MSE(θb) = Var [θb] + B 2
D
s io
er
T
Remarque
AF
Parce que le biais est nul pour les estimateurs sans biais, il est clair que
MSE(θb) = Var [θb].
L’erreur quadratique moyenne mesure, en moyenne, la proximité d’un
estimateur par rapport á la vraie valeur du paramètre.
Par conséquent, elle pourrait être utilisée comme un critère pour
R
déterminer si un estimateur est "meilleure" qu’une autre.
Cependant, en général, on ne considère que les estimateurs sans biais
ayant la variance la plus petite. n
D
s io
er
T
AF
Définition
L’estimateur sans biais θb qui minimise l’erreur quadratique moyenne est
appelée estimateur sans biais de variance minimale (ESBVM ou MVUE)
de θ. R
n
D
s io
er
T
Exemple
AF
Soit X1 , X2 , X3 un échantillon aléatoire de taille n = 3 á partir d’une
distribution avec une moyenne µ inconnue,−∞ < µ < ∞, oÃ1 lavarianceσ 2
est un nombre positif connu.
1 Montrer que θb1 = X n et θb2 = [(2X1 + X2 + 5X3 )/8] sont deux estimateurs
sans biais pour µ ?.
2
R
Comparer les variances de θb1 avec celle de θb2 ?.
n
D
s io
er
T
Solution
1. On a,
AF
E[θb1 ] = E[X n ]
1
=3µ = µ
3
1
E[θb2 ] = E[ (2X1 + X2 + 5X3 )]
8
1
= (2E[X1 ] + E[X2 ] + 5E[X3 ])
8
R 1
= (2µ + µ + 5µ) = µ
8
T
2. On a,
AF
1 2
=3σ = σ 2 /3
9
1
Var [θb2 ] = Var [ (2X1 + X2 + 5X3 )]
8
1
= (4Var [X1 ] + Var [X2 ] + 25Var [X3 ])
64
1 30 2
R =
64
(4σ 2 + σ 2 + 25σ 2 ) =
64
σ
Puisque, θb1 < θb2 , alors X n est le meilleur estimateur sans biais de µ.
n
D
s io
er
T
Une propriété souhaitable est que les valeurs d’un estimateur se
AF
rapproche de la vraie valeur du paramètre si la taille de l’échantillon
devient de plus en plus grande.
á cette fin, on va introduire la notion des estimateurs convergents.
Ainsi, la consistance est une propriété asymptotique.
Autrement dit, il décrit le comportement des estimateurs si la taille de
R
l’échantillon n devient infiniment grand.
n
D
s io
er
T
Définition
AF
Un estimateur θb est dit estimateur convergent ou consistant d’un paramètre θ
si, pour tout > 0,
lim P[|θb − θ| ≥ ] = 0
n→∞
R
n
D
s io
er
T
AF
L’assertion "θb est un estimateur convergent de θ" est équivalente á "θb
converge en probabilité vers θ".
C’est á dire, l’estimateur empirique doit avoir une forte probabilité d’être
proche de la vraie valeur θ si la taille de l’échantillon n devient grande.
Si l’estimateur est sans biais, on énonce le résultat suivant, qui donne
une condition suffisante pour la convergence d’un estimateur.
R
n
D
s io
er
T
Une condition suffisante pour la convergence d’un estimateur sans
biais
AF
Théorème
Un estimateur sans biais θb est un estimateur convergent d’un paramètre θ si,
E[θb] = θ
lim Var [θb] = 0
R n→∞
T
AF
Exemple
Soit X1 , ..., Xn un échantillon aléatoire d’une population avec une moyenne µ
et une variance finie. Montrer que la moyenne empirique Xn est un
estimateur convergent de la moyenne de la population µ.
R
n
D
s io
er
Solution
T
On peut montrer ce résultat de deux manières,
1 Utilisant l’inégalité de Chebychev,
AF
σX2
n
P[|Xn − µ| ≥ k ] ≤
k2
σ2
=
nk 2
n→∞
−→ 0
2
R
Noter que Xn est un estimateur sans biais de µ.
σ2
Var [Xn ] =n n
D
io
n→∞
−→ 0
s
er
T
AF
On peut généraliser le théorème précédent, même lorsque l’estimateur
est biaisé.
Le résultat suivant stipule que l’erreur quadratique moyenne de θb tends
vers zéro si plus en plus d’observations sont intégrées dans son calcul.
R
n
D
s io
er
T
Théorème
AF
Soit θb un estimateur de θ et soit Var [θb] finie.Si,
T
Procédure de test de la convergence
AF
1 Vérifiez si l’estimateur θb est sans biais ou non.
2 Calculer Var [θb] et B[θb], le biais de θb.
3 Un estimateur sans biais est convergent si Var [θb] → 0 si n → ∞.
4 Un estimateur biaisé est convergent si les deux Var [θb] → 0 et B[θb] → 0
si n → ∞.
R
n
D
s io
er
T
Exemple
AF
Soit X1 , ..., Xn un échantillon aléatoire d’une population N(µ, σ 2 ).
2
1 Montrer que la variance empirique Sn−1 est un estimateur convergent
2
pour σ ?.
2 Montrer que les estimateurs du maximum de vraisemblance de µ et σ 2
sont des estimateurs convergents ?.
R
n
D
s io
er
Solution
T
2
1. On a déjá montrer que E[Sn−1 ] = σ 2 et donc Sn−1
2
est un estimateur sans biais
de σ 2 .
Puisque l’échantillon est prélevé d’une population normale alors
AF
2
(n − 1)Sn−1 /σ 2 ∼ χ2 (n − 1).
2
(n − 1)Sn−1
Var = 2(n − 1)
σ2
(n − 1)2 2
⇒ Var [Sn−1 ] = 2(n − 1)
(σ 2 )2
R 2
⇒Var [Sn−1 ] =
2σ 4
(n − 1)
n→∞
n −→ 0
D
2
est un estimateur convergent pour σ 2
io
Alors, Sn−1
s
er
T
2. On a vu que l’estimateurs de maximum de vraisemblance de µ est :
b = Xn ∼ N(µ, σ 2 /n) Alors, µ
µ b est un estimateur sans biais et convergent
(E[µ b] = σ 2 /n → 0 si n → ∞). Maintenant, on va utiliser
b] = µ et Var [µ
AF
l’identité suivante,
T
n
X
étant donnée que, θb2 = 1/n (Xi − X¯n )2 = (n − 1)/nSn−1
2
, on a alors,
AF
i=1
n−1 2
Var [θb2 ] = Var [ Sn−1 ]
n
2
(n − 1) 2
= Var [Sn−1 ]
n2
2 4
(n − 1) 2σ
=
R n2 n−1
2(n − 1)(σ 2 )2
=
n2
n
D
s io
er
T
Toutefois,
AF
1 2
lim B[σb2 ] = lim − σ =0
n→∞ n→∞ n
2(n − 1)(σ 2 )2
lim Var [θb2 ] = Var [θb2 ] = =0
n→∞ n2
n
X
Selon le théorème précédent, θb2 = 1/n (Xi − X¯n )2 est un estimateur
R i=1
convergent de σ 2 .
n
D
s io
er
T
AF
On a vu qu’il peut y avoir plus qu’un estimateur sans biais du paramètre θ.
On a mentionné également qu’on souhaite toujours l’estimateur ayant la plus
petite variance. Dans ce qui suit, on va introduire le concept d’efficacité, qui
est basée sur une comparaison des variances des différents estimateurs
sans biais. Si on a deux estimateurs sans biais, on souhaite toujours celui
ayant la plus faible variance.
R
n
D
s io
er
T
Définition
AF
de θb1 par rapport á θb2 est le rapport,
Var [θb2 ]
e(θb1 , θb2 ) =
Var [θb1 ]
Si Var [θb2 ] > Var [θb1 ], ou d’une façon équivalente, e(θb1 , θb2 ) > 1, alors,
R
θb1 est relativement plus efficace que θb2 . C’est á dire θb1 a une variance
plus faible que celle de θb2 .
n
D
s io
er
T
Procédure pour Tester l’Efficacité Relative
AF
1 Vérifier l’absence de biais de θb1 et de θb2 .
2 Calculer les variances de θb1 et de θb2 .
3 Calculer l’efficacité relative par e(θb1 ; θb2 ) = Var [θb2 ]/Var [θb1 ].
4 Conclusion : Si e(θb1 ; θb2 ) < 1 , θb2 est plus efficace que θb1 , et si
e(θb1 ; θb2 ) > 1, alors, θb1 est plus efficace que θb2 .
R
Parmi les estimateurs sans biais, l’estimateur le plus efficace est bien
sûr préférable.
n
D
s io
er
T
Exemple
Soit X1 , ..., Xn , n > 3, un échantillon aléatoire d’une population avec une
moyenne réelle µ et de variance σ 2 . Considérons les trois estimateurs de µ :
AF
1
θb1 = (X1 + X2 + X3 ),
3
1 3 1
θb2 = X1 + (X2 + + Xn−1 ) + Xn ,
8 4(n − 2) 8
θb2 = X¯n
1
R
Montrer que chacun des trois estimateurs est sans biais ?.
2 Trouver e(θb1 ; θb2 ), e(θb1 ; θb3 ), et e(θb2 ; θb3 ). n
Lequel des trois estimateurs est le plus efficace ?
D
s io
er
Solution
T
1. Etant donnée E[Xi ] = µ, i = 1, ..., n, alors,
1 1
E[θb1 ] = E[ (X1 + X2 + X3 )] = (E[X1 ] + E[X2 ] + E[X3 ])
AF
3 3
1
= 3µ = µ
3
1 3 1
E[θb2 ] = E[ X1 + (X2 + ... + Xn−1 ) + Xn ]
8 4(n − 2) 8
1 3 1
= E[X1 ] + (E[X2 ] + ... + E[Xn−1 ]) + E[Xn ]
8 4(n − 2) 8
R 1
= µ+
3
(n − 1 − 2 + 1)µ + µ
1
8 4(n − 2) 8
1 3 1
= µ+ µ+ µ=µ n
8 4 8
D
io
E[θb3 ] = E[X̄n ] = µ
s
er
T
Donc, θb1 , θb2 et θb3 sont trois estimateurs sans biais de µ.
2. Calculs des variances,
AF
1
Var [θb1 ] = Var [ (X1 + X2 + X3 )]
3
1
= (Var [X1 ] + Var [X2 ] + Var [X3 ])
9
1
= 3σ 2
9
R =
σ2
3
n
D
s io
er
T
1 3 1
Var [θb2 ] = Var [ X1 + (X2 + ... + Xn−1 ) + Xn ]
AF
8 4(n − 2) 8
1 32 1
= 2
Var [X1 ] + 2 (Var [X2 ] + ... + Var [Xn−1 ]) + 2 Var [Xn ]
8 4 (n − 2)2 8
1 2 32 1
= 2
σ + 2 (n − 1 − 2 + 1)σ 2 + 2 σ 2
8 4 (n − 2)2 8
1 2 32 1
= σ + σ2 + 2 σ2
82 42 (n − 2) 8
R
n + 16
= σ2
32(n − 2)
n
D
s io
er
T
σ2
=
n
L’efficacité relative est,
AF
Var [θb2 ]
e(θb1 ; θb2 ) =
Var [θb1 ]
(n + 16)σ 2 /32(n − 2)
=
σ 2 /3
3(n + 16)
= < 1 si n > 3
32(n − 2)
R
Alors, si n ≥ 4, θb2 est plus efficace que θb1 .
n
Var [θb3 ]
D
e(θb1 ; θb3 ) =
io
Var [θb1 ]
s
σ 2 /n
=
er
σ 2 /3
n
Omar OUESLATI 115=/ 137 > 1Estimation
si Ponctuelle
n>3
Motivation Estimateurs Sans Biais
La Méthode des Moments Convergence ou Consistance d’un Estimateur
La Méthode de Maximum de Vraisemblance Efficacité
Propriétés d’un Estimateur Ponctuel
T
AF
Var [θb3 ]
e(θb1 ; θb3 ) =
Var [θb1 ]
σ 2 /n
=
σ 2 /3
n
= >1 si n > 3
3
R
Alors, si n ≥ 4, θb3 est plus efficace que θb1 .
n
D
s io
er
T
Var [θb2 ]
e(θb2 ; θb3 ) =
AF
Var [θb3 ]
(n + 16)σ 2 /32(n − 2)
=
σ 2 /n
n2 + 16n
= >1 si n > 3
32(n − 2)
T
AF
Remarque
T
Définition
Un estimateur θb1 est plus efficace que θb2 si,
AF
MSE(θb1 ) ≤ MSE(θb2 )
avec une inégalité stricte pour certains θ. En outre, l’efficacité relative de θb1 á
l’égard de θb2 est,
E[(θb2 − θ)2 ]
R e(θb1 , θb2 ) =
E[(θb1 − θ)2 ]
MSE(θb2 )
= n
MSE(θb1 )
D
s io
er
T
AF
Exemple
Soit X1 , ..., Xn , n ≥ 2 un échantillon aléatoire d’une population normale avec
une moyenne µ et une variance σ 2 . Considérons les deux estimateurs
2
suivants de σ : θb1 = Sn−1
R et θb1 = Sn2 . Trouver e(θb1 , θb2 ) ?.
n
D
s io
er
T
Solution
2
Puisque, (n − 1)Sn−1 /σ 2 ∼ χ2 (n − 1), alors : E[Sn−1
2
] = σ 2 et, donc, un
2
estimateur sans biais de σ .
AF
2
Et par conséquent, MSE(θb1 ) = Var [Sn−1 ]
2
(n − 1)Sn−1
Var [ ] = 2(n − 1)
σ2
2
(n − 1) 2
⇒ Var [Sn−1 ] = 2(n − 1)
σ4
R 2 2(n − 1) 4 2
⇒ Var [Sn−1 ]= σ = σ4
(n − 1)2 (n − 1)
n
D
s io
er
T
2 2
Il s’en suit alors que, MSE(θb1 ) = Var [Sn−1 ]= σ4 .
n−1
2n − 1 2
AF
On peut montrer de même que : MSE(θb2 ) = Var [Sn2 ] = σ
n2
Donc, l’efficience relative est donnée par :
MSE(θb2 )
e(θb1 , θb2 ) =
MSE(θb1 )
2n−1 4
σ (2n − 1)(n − 1)
R = n2
2
=
2n2
n−1
σ4
n
Si n ≥ 2, e(θb1 , θb2 ) < 1. Alors, Sn2 est plus efficace que Sn−1
2
.
D
s io
er
T
On vu que qu’un estimateur sans biais est plus efficace qu’un autre. Cela
nous amène chercher l’estimateur sans biais le plus efficace parmi tous les
estimateurs sans biais.
AF
Définition
Un estimateur sans biais θb∗ est dit un estimateur uniformément sans biais et
de variance minimale pour une paramètre θ, si pour tout estimateur sans
biais θb,
R Var [θb∗ ] ≤ Var [θb]
T
Quantité d’Information de Fisher : I(θ)
AF
" 2 #
∂ log f (x, θ) ∂ 2 log f (x, θ)
I(θ) = E = −E
∂θ ∂θ2
" 2 #
∂ log L(θ) ∂ 2 log L(θ)
In (θ) = E = −E
∂θ ∂θ2
T
Mais, il n’est pas possible de trouver directement cet estimateur. Le résultat
suivant nous donne la borne inférieure de la variance pour n’importe quel
estimateur sans biais du paramètre θ.
AF
Inégalité de Fréchet, Darmois, Cramér et Rao (FDCR)
Soit X1 , ..., Xn un échantillon aléatoire d’une population avec une d.d.p. f (x; θ),
qui dépends d’un paramètre θ. Si θb est un estimateur sans biais de θ, alors :
1
Var [θb] ≥
nI(θ)
R 1
≥
In (θ)
≥ BFDCR
n
D
s io
er
T
Estimateur Efficace
AF
Si θb est un estimateur sans biais de θ, et si
1
Var [θb] = h i
∂ 2 log f (x,θ)
−nE ∂θ 2
n
D
s io
er
T
Procédure pour tester l’efficacité d’un estimateur
AF
∂ log f (x, θ) ∂ 2 log f (x, θ)
1 Pour une d.d.p f (x, θ), trouver et .
∂θ ∂θ2
" 2 #
∂ 2 log f (x, θ) ∂ log f (x, θ)
2 Calculer 1/nE − , sinon 1/nE .
∂θ2 ∂θ
n
D
s io
er
T
AF
Exemple
Soit X1 , ..., Xn un échantillon aléatoire d’une population N(µ, σ 2 ) avec densité
de probabilité f (x). Montrer que X̄ est un estimateur efficace de µ ?.
R
n
D
s io
er
Solution
T
Pour Calculer la borne inférieure de FDCR, on a :
(x − µ)2
log f (x) = c −
AF
2σ 2
avec c est une constante ne comportant pas µ.
∂ log f (x) x − µ
=
∂µ σ2
∂ 2 log f (x) 1
=− 2
∂µ2 σ
R
1 1 σ2
Or, ∂2
= = = Var [X̄n ]
nE[− log f (x)
] n( σ12 ) n
∂µ2 n
D
io
Alors X̄n est un estimateur efficace pour µ
s
er
T
AF
Exemple
Supposons que f (x) est la distribution de Poisson avec un paramètre λ.
Montrer que la moyenne de l’échantillon X̄n est un estimateur efficace de λ ?.
R
n
D
s io
er
Solution
T
e−λ
La d.d.p. d’une loi de Poisson de paramètre λ est donnée par : f (x) = λx ,
x!
alors :
AF
log f (x) = x log λ − λ − log(x!)
∂ log f (x) x
= −1
∂λ λ
2
∂ log f (x) x
=− 2
R ∂λ2 λ
1 1 λ
Or, 2
= E[X ] = = Var [X̄n ]
nE[− ∂ log2f (x) ] n( λ2 ) n
∂λ n
D
io
Alors X̄n est un estimateur efficace pour λ
s
er
T
AF
Définition
Un estimateur sans biais θb est dit asymptotiquement efficace si :
BFDCR
lim =1
n→∞ Var [θ ] b
R
n
D
s io
er
T
Exemple
AF
On montre facilement que :
n 2σ 4
In (σ 2 ) = ⇒ BFDCR =
2σ 4 n
4
2 2σ
Var [Sn−1 ]=
n−1
⇒ lim
R BFDCR
= lim
n−1
=1
n→∞ Var [S 2 ] n→∞ n
n−1
2
Alors, Sn−1 est un estimateur asymptotiquement efficace pour σ 2 .
n
D
s io
er