Vous êtes sur la page 1sur 10

Estimation

1. Introduction
Dans les chapitres précédents, nous avons considéré la loi de la variable aléatoire X
connue. En réalité, nous disposons d’observations x1,,…,xn d’une certaine variable X associé au
phénomène étudié dont la loi de probabilité est inconnue. Le problème est de trouver un modèle
probabiliste qui a généré ces données. Ce problème sera difficile à résoudre si on choisit parmi toutes
lois de probabilité existantes. C’est pourquoi, on considère une famille de lois donnée ( Pθ, θ
appartenant à un ensemble  ) et on suppose que la loi de X est bien déterminée par une valeur du
paramètre θ.

. Par exemple, à la sortie d’une chaine de fabrication, on prélève chaque demi-heure une série
de 20 pièces mécaniques et on contrôle le nombre pièces défectueuses X de la série. Sur 200
séries indépendantes, on obtient un échantillon de valeurs (x1 ,x2,…,x200). Le tableau suivant
résume les résultats obtenus:

xi 0 1 2 3 4 5 6 7 Total
noi : Effectifs observés 26 52 56 40 20 2 0 4 200

Représentation graphique des effectifs observés no=npi


50
40
30
20
10
0

0 1 2 3 4 5 7

Fig1

1
La présence d’une pièce défectueuse dans un lot de 20 pièces peut être considérée comme
un événement rare (la valeur retenue pour la probabilité qu’une pièce soit défectueuse est :
1 7 402
p 
4000 i 0
xi no1 
4000
 0.1), ce qui nous mène à ajuster la loi de X par la loi de poisson de

 1 7 402
paramètre (  x  
200 i 0
xi no1 
200
 2). Les effectifs théoriques sont donnés par nti=200×pi

e 2 2 xi
où, pi 
xi !
xi 0 1 2 3 4 5 6 7 Total
nti : Effectifs théoriques 27 54 54 36 18 7 2 2 200

Représentation graphique des effectifs théoriques nt=npi


50
40
30
20
10
0

0 1 2 3 4 5 7

Fig2

D’après les figures 1 et 2 , on observe que les données empiriques semblent s'ajuster à la loi
de poisson de paramètre 2.

. On peut prendre un autre exemple dans le cas continu. Soit l’échantillon ( X 1 , X 2 ,..., X 100 ) de X

représentant la taille de 100 individus. Les résultats obtenus sont cités dans le tableau suivant:

xi 160 162 164 166 168 170 172 174 176 178 180 182 Total
ni 1 0 5 7 15 23 25 12 8 2 1 1 100

2
On suppose que la taille X suit une loi normale N (µ, σ2 ) avec µ et σ inconnus. Pour trouver la loi
normale N (µ, σ2 ) la plus adaptée aux données , il faut estimer µ et σ à l’aide des données. Puisque

E ( X )   et E(S 2 )   2 , on peut estimer µ par x = 170.86 et σ2 par s2=13.434.


La méthode de l’histogramme consiste à comparer l’histogramme des fréquences correspondantes aux
données X et les valeurs de la "densité" associée à la loi N(170.86 ;13.434). D’après la figure 3, on
observe que les données semblent s'ajuster à la courbe de la loi normale.

Histogram of X
0.12
0.10
0.08
Density

0.06
0.04
0.02
0.00

160 165 170 175 180

Fig3

Dans cette introduction, on a utilisé uniquement une méthode graphique pour comparer les
fréquences empiriques et théoriques mais plus tard on peut confirmer cet ajustement par une méthode
statistique où on utilisera le test d’adéquation du khi-deux.

3
2. Estimation ponctuelle
D’une manière générale, P est une population dont nous étudions un caractère
quantitatif X de fonction de répartition F(x, θ). θ est un paramètre inconnu (ou plusieurs
paramètres) appartenant à Ω avec Ω est l'ensemble des valeurs possibles de θ.
On tire un échantillon aléatoire simple (x1, x2,…,xn) de P. Cet échantillon est appelé
échantillon observé à partir de l’échantillon (X1, X2,…,Xn) où les variables X1, X2,…,Xn sont
indépendantes et ont la même distribution que X, soit F(x,θ).
Le problème de l’estimation est d’extraire des informations sur la valeur du paramètre
inconnu θ de l’échantillon observé (x1, x2,…,xn). Ces informations peuvent se présenter sous
l’une des deux formes suivantes :
- Un nombre permettant de mieux prévoir la vraie valeur du paramètre θ appelé estimation
ponctuelle.
- Un intervalle (ou un domaine) qui contient la vraie valeur de θ avec un degré de
confiance suffisant ( Dans de nombreux cas, on prend 95% ou 99%), appelé estimation
par intervalle de confiance.
Définition.
Un estimateur d’un paramètre  est une fonction T d’un échantillon ( X 1 , X 2 ,..., X n ) de X

et chaque réalisation t  T ( x1 , x 2 ,..., x n ) est une estimation de ce paramètre.

Par exemple, X est une variable aléatoire normale de paramètre µ connu et σ2 inconnu. ( X 1 ,..., X n )

est un échantillon indépendant de X et ( x1 , x 2 ,..., x n ) un échantillon observé qui est une

réalisation de l’échantillon ( X 1 ,..., X n ).

1 n 1 n
T  i
n i 1
( X   ) 2
est un estimateur ponctuel du paramètre σ 2
et t   ( xi   ) 2 est une
n i 1
estimation ponctuelle du paramètre σ2.
Un paramètre inconnu peut avoir plusieurs estimateurs. Par exemple, pour estimer la moyenne
d’une population, on pourrait utiliser la moyenne ou la médiane d’un échantillon.
Les qualités que doit posséder un estimateur pour fournir de bonnes estimations sont citées dans le
paragraphe suivant.

4
3. Propriétés des estimateurs
Dans ce qui suit, P est une population dont nous étudions un caractère quantitatif X de
fonction de répartition F(x, θ) avec θ un paramètre inconnu. On tire un échantillon aléatoire
simple (x1, x2,…,xn) de P. Cet échantillon est une réalisation de l’échantillon (X1, X2,…,Xn)
où les variables X1, X2,…,Xn sont indépendantes et ont la même distribution que X.
3.1. Biais d’un estimateur. Estimateur sans biais ( ou asymptotiquement sans biais)
Définition. Le biais d’un estimateur Tn de  est défini par la quantité b ( ) = E (Tn )   .

Un estimateur Tn de  est sans biais si ,   , n  N * , E (Tn )  

limE(T n )  
(Si alors on dira que T est un estimateur asymptotiquement sans biais de θ)
n

Exemple . Soit une variable aléatoire X distribuée uniformément entre 0 et  , où   0 . Soit un


échantillon ( X 1 ,..., X n ) issu de X . On propose deux estimateurs pour le paramètre θ :

T1  2 X et T2  max( X 1 ,..., X n ).

0 
E (T1 )  E (2 X )  2 E ( X )  2 E ( X )  2( )    T1 est un estimateur sans biais de θ.
2

E ( T2 )  E (max( X 1 ,..., X n ))

 0:t  0

La fonction de répartition de T2 est donnée par, F ( t )  (t /  ) n : 0  t  
 1: t  

 nt n 1
 :0  t 
On en déduit, la fonction densité de T2 : f ( t )    n
 0 : sin on
 
n
E ( T2 )   tf (t )dt  
nt n
 n
dt 
n
(n  1) n
 
t n 1

0 
(n  1)
   T2 n’est pas un estimateur sans
 0

n
limE(T 2 )  lim 
biais de θ mais il est asymptotiquement sans biais. En effet, (n  1)
n n
n 
Le biais de l’estimateur T2 est b( T2 )  E (T2 )     
(n  1) (n  1)

5
3.2. Estimateur convergent

Un estimateur Tn de  est convergent si la suite de variables aléatoires Tn converge en probabilité

  0, limP[ Tn -    ]  0
vers la valeur θ. C'est-à-dire,
n

Cette propriété est difficile à vérifier mais on peut démontrer le résultat suivant :

Tout estimateur sans biais ou asymptotiquement sans biais dont la variance tend vers zéro quand n
tend vers l’infini est convergent.

Exemple. X est une variable aléatoire distribuée selon une loi normale (µ,1) et ( X 1 ,..., X n ) un

échantillon ( X 1 ,..., X n ) issu de X . Soit l’estimateur T  X du paramètre θ.

Selon l’inégalité de Tchebychev, on a le résultat suivant :

V(X)
P[ T -    ]  P[ X - E( X)   ] 
2

(1 / n)
0  limP[ T -    ]  lim  0  limP[ T -    ]  0
2
n n n

Donc, T  X est un estimateur convergent du paramètre µ.

Comme on peut utiliser la deuxième méthode :

X est un estimateur sans biais de  


limV( X)  lim(1/n)  0 
  X est un estimateur convergent du paramètre 
n n 

6
3.3. Risque quadratique d’un estimateur. Comparaison des estimateurs.

Le risque quadratique d’un estimateur est défini par l’erreur quadratique moyenne
R(T , )  E[(T   ) 2 ]  V (T )  b 2 (T )

Si T1 et T2 sont deux estimateurs de  alors on dira que T1 est meilleur que T2 au sens quadratique si

pour tout  , R(T1 , )  R(T2 , ) .

Exemple

Reprenons les données de l’exemple du paragraphe 3.1 et comparons ent

re les deux estimateurs T1 et T2 au sens quadratique.

V (X )  2
*) Le risque quadratique de T1 : R(T1 , )  V (T1 )  b (T1 )  V (2 X )  4 
2

n 3n

2
**) Le risque quadratique de T2 : R(T2 , )  V (T2 )  b (T2 )  V (T2 ) 
2

(n  1) 2

 
n 2
E ( T )   t f (t )dt  
2
2
2 nt n 1
n
dt 
n
(n  2) n
 
t n 1

0 
(n  2)
 0

n 2 n 2 2 2 n(n  1)  n (n  2)
2 2
n 2
V (T2 )  E ( T22 )  E 2 (T2 )     
(n  2) (n  1) 2 (n  2)(n  1) 2 (n  2)(n  1) 2

2  n  2  2n  2  2 2
R(T2 , )    1  
 n  2  (n  1)(n  2)
(n  1) 2  (n  2)  (n  1) 2

2  2n  1  
2
Pour conclure, calculons la différence : R(T2 , )  R(T1 , )  
(n  1)  n  2  3n
2 

1 2  2 n 2  3n  2 
R(T1 , )  R(T2 , )   2       2 
 3n (n  1)(n  2)   3n(n  2)(n  1) 

T2 est meilleur que T1 au sens quadratique car pour tout  , R(T2 , )  R(T1 , ) .

7
3.4. Estimateur efficace.

On se place dans la classe des estimateurs sans biais

- Si T est un estimateur sans biais alors le risque quadratique devient : R(T , )  V (T )

.- T1 et T2 sont deux estimateurs sans biais de  . T1 est plus efficace que T2 si V (T1 )  V (T2 ) .

- Sous certaines conditions relatives à la loi de X appelées hypothèses de Cramer-, il existe une borne
inférieure pour l’ensemble des variances des estimateurs sans biais. Pour énoncer ce résultat, on utilise
deux notions :

. La vraisemblance de l’échantillon ( X 1 , X 2 ,..., X n ) est la probabilité associée à la réalisation


( x1 , x 2 ,..., x n ) , notée L( x1 , x 2 ,..., xn ; ) donnée par,

n
 P ( X i  xi ) : si X est discrète
i 1
L( x1 , x2 ,..., xn ; )  
n
 f ( xi ; ) : si X est continue de densité f

i 1

Exemple

X suit une loi de Poisson de paramètre λ et ( X 1 ,..., X n ) est un échantillon issu de X . La

vraisemblance de cet échantillon est donnée par L( x1 , x 2 ,..., x n ;  ) ,

   n
 xi
n
e  x1
e  e  i 1
xn
L( x1 , x 2 ,..., x n ;  )   P ( X i  xi )   ...  
i 1 x1! xn ! x1!...  x n !

. La notion de quantité d’information de Fisher sur le paramètre  apportée par la réalisation

 LnL  2 
( x1 , x 2 ,..., x n ) est définie par : I n ( )  E   .
   

Si la variable X prend ses valeurs dans un ensemble indépendant de  cette quantité peut se calculer

  2 LnL 
par une expression équivalente et plus simple, I n ( )   E  
  2 
 

8
- Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR)
Sous les hypothèses de Cramer-Rao, tout estimateur sans biais Tn de  , dont la variance

1 1
existe, vérifie l’inégalité FDCR : V (Tn )  , où est la borne inférieure de FDCR.
I n ( ) I n ( )

1
Un estimateur sans biais Tn de  est efficace si sa variance vérifie : V (Tn ) 
I n ( )

Par exemple, soit une variable aléatoire X distribuée selon une loi de Poisson P(λ) et ( X 1 ,..., X n ) un

échantillon indépendant issu de X . Vérifier que l’estimateur T  X du paramètre λ est efficace.

  2 LnL 
Calculons l’information de Fisher I n ( )   E  
  
2

n n
n
LnL  xi
 LnL 2  xi
LnL  n   xi Ln ( )   Ln ( xi !) 
n
 n  i 1    i 1 2
i 1 i 1   2 
n

  LnL 
2  Xi 1 n n
I n ( )   E  2 
   E ( i 1 2 )  2 E ( X i ) 
     i 1 

1
V (T )  V ( X )  V ( X ) / n   / n 
I n ( )
D’une façon générale, si g est une fonction de θ, telle que la dérivée g ' ( ) existe, alors pour tout

( g ' ( )) 2
estimateur sans biais de g ( ) on a : V (Tn )  .
I n ( )
3.5. Statistique exhaustive
Une statistique S n est exhaustive si la loi conditionnelle de l’échantillon ( X 1 , X 2 ,..., X n )

sachant S n  s est indépendante de  . C'est-à-dire, l’échantillon observé n’apporte pas d’information

supplémentaire sur  par rapport à celle donnée par S n .

Très souvent, cette méthode de démonstration est difficile à cause du calcul de la probabilité
conditionnelle. Il existe un théorème d’utilisation facile.

9
Théorème de factorisation (Fisher-Neyman) :

Une statistique S n est exhaustive s’il existe deux applications positives g et h telles que

L( x1 , x 2 ,..., xn ; ) = g ( s; )h( x1 ,..., x n )

Exemple 1

Soit une variable aléatoire X distribuée selon une loi de Poisson P(λ) et ( X 1 , X 2 ) un

échantillon indépendant issu de X . Prouver que la statistique S=X1+X2 est une statistique exhaustive
pour le paramètre λ.
Il suffit de démontrer que la loi conditionnelle de l’échantillon ( X 1 , X 2 ) sachant S=X1+X2 =s est

indépendante de  .

P[(( X 1 , X 2 )  ( x1 , x2 ))  ( S  s)] e 2 s s!


P[( X 1  x1 , X 2  x2 / S  s)    2
P[S  s] x1!x2 ! e (2 ) s
s!
P[( X 1  x1 , X 2  x 2 / S  s)  s
2 x1! x 2 !

Comme on peut utiliser le théorème de factorisation (Fisher -Neyman). En effet, la fonction de


vraisemblance peut s’écrire sous la forme:

e 2 ( x1  x2 ) 1
L( x1 , x2 ;  ) =   e 2 ( x1  x2 )  g (s;  )h( x1 ,.x2 )
x1!.x2 ! x1!.x2 !
1
où, g ( s;  )  e 2 s et h( x1 ,.x 2 )  .
x1!.x 2 !
Exemple 2

Soit une variable aléatoire X distribuée selon une loi exponentielle Exp(1/θ) et
( X 1 , X 2 ,..., X n ) un échantillon indépendant issu de X . Prouver que la statistique X1+X2+…+Xn est
une statistique exhaustive pour le paramètre θ.
n

n  x1 /   xn 1 / 
  xi / 
i 1
e e e
L( x1 , x2 ,..., xn ;  )   f X i ( xi , )   ... 
i 1   n
n

1   xi /  n
L( x1 , x 2 ,..., x n ; ) = e i 1
= g ( xi ; )h( x1 ,..., x n )
n i 1
n

n   xi /  1
où, g (  xi ; )  e i 1
et h( x1 , x 2 ,..., x n )  .
i 1 n

10

Vous aimerez peut-être aussi