Vous êtes sur la page 1sur 53

Estimation

• La distribution exacte d’une variable X modélisant le


caractère qui intéresse le statisticien (taux de
pollution d’une rivière, dépenses des ménages pour
le logement...) est généralement partiellement
connue. Souvent la loi de X dépend d’un paramètre
inconnu. On cherche à se faire une idée sur ce
paramètre `a partir des données observées sur
l’échantillon.
• Attribuer au paramètre une valeur numérique
unique est une ESTIMATION
PONCTUELLE.
• Pour ce faire, on choisit une statistique dont
la valeur est, après tirage aléatoire de
l’´echantillon, l’estimation du paramètre. Cette
statistique est l’ESTIMATEUR.
• Mais quelles sont les chances pour que cette estimation
ponctuelle soit exacte? Plutôt que d’estimer un paramètre
à l’aide d’un seul nombre, il arrive fréquemment que l’on
fasse l’estimation en donnant un INTERVALLE de valeurs.
• Un INTERVALLE D’ESTIMATION (ou de CONFIANCE) est
défini de telle sorte que l’on puisse affirmer avec un degré
de confiance fixé que le paramètre visé se trouve dans cet
intervalle.
Notations

• les paramètres à estimer seront notés par des


lettres grecques minuscules
µ : moyenne

 pop : ´ecart  type

 pop
2
: variance

P : proportion
• les réalisations d’échantillon seront notées par des
lettres latines minuscules: x 1 , . . . , x n
valeur de l’échantillon.
X : moyenne de l’échantillons

 ech : écart  type de l’échantillons

 2
éch : variance de l’´echantillon

f : proportion dans l’échantillon


• les estimateurs ( v.a. ou statistiques) seront
notés par des majuscules.

X
2
S

F
Généralités sur les estimateurs

• Soit X une v.a. dont la loi dépend d’un paramètre


être inconnu θ.
Définition : Un ESTIMATEUR de θ sera une
statistique T  f ( X 1 , . . . , X n ) et sa réalisation sera
notée : t  f ( x1 , . . . , xn )
• Pour un même paramètre, il peut y avoir plusieurs
estimateurs possibles.
(ex: Le paramètre λ d’une loi de Poisson admet
comme estimateurs possibles:
la moyenne empirique et la variance empirique).
Pour pouvoir choisir, il faut définir les qualités qui
font qu’un estimateur sera meilleur.
Erreur d’estimation

• Le terme T − E(T ) traduit la fluctuation de T autour


de son espérance et le terme E(T ) − θ = B(T )
représente l’erreur systématique et s’appelle
BIAIS de l’ESTIMATEUR.
• définition (estimateur sans biais):
Un estimateur T de θ est dit sans biais si
E(T ) = θ, (ou bien B(T ) = 0)
• exemple : La moyenne empirique est un
estimateur sans biais du paramètre
λ d’une loi de Poisson.
• La variance empirique est estimateur biaisé du
même paramètre λ.
n 1
En effet , E ( X )   , E ( ech
2
)  
n

car E ( X )  V ( X )  .
• définition :
Un estimateur T de θ est dit asymptotiquement sans biais si
E (T )   pour n  .

• définition :
• Un estimateur { sans biais ou asymptotiquement sans
biais} est dit convergent si
V (T )  0 pour n  .
• Définition :
'
Soient T et T deux estimateurs
'
sans biais de θ. T
est dit plus efficace que T si V (T )  V (T '
)

• Définition :
L’estimateur sans biais et de variance minimale est
appelé estimateur efficace.
Estimation ponctuelle des paramètres usuels

• Estimation de la moyenne
Soit X une v.a dont on veut estimer la moyenne (ou
espérance) µ = E(X) à partir d’un n-échantillon

( X 1 , . . . , X n ) de X
Théorème

1
•X  n
( X 1  . . . +X n )
la moyenne empirique, est
un estimateur ponctuel efficace de µ.

E( X )  µ et de plus V ( X )  V ( X )  0 pour n  ,

et  T , un autre estimateur de µ, V (T )  V ( X )
Estimation de la variance d’une population Gaussienne

• Soit X une v.a qui suit une loi normale N (µ, σ). On
veut estimer la variance σ2 de X.
• a) µ connue
théorème
n
:
1
T  ( X i   ) 2 est un estimateur efficace de σ2
2

n i 1
b) µ inconnue

• Thérème:
1 n
 2
ech  ( X i  X ) 2
n i 1
• c’est-à-dire la variance empirique, est un estimateur
biaisé de σ2, mais asymptotiquement sans biais.

• En effet:
n 1 2
E ( ech
2
)  pop
n
• Et on a:
n 1 2
V ( 2
ech )  E ( 2
ech ) 2
pop   pop   pop
2

n
n 1
(  1) pop
2

n
1 2
  pop
n
et V (  2
ech )  0 quand n  
• Théorème:
n 1
• 2
S 
n 1
2

ech
n 1
(X i  X )2 est un estimateur sans
biais de σ2.

Remarque
pour n grand , E ( S 2 )  E ( ech
2
) et on préfère  2
ech

• pour n petit , on préfère S 2


Estimation d’une proportion

• Soit une population ayant des individus possédant une


certaine caractéristique A. On veut estimer à partir d’un
échantillon de taille n la proportion d’individus possédant
cette caractéristique A.
• Soit K la v.a qui représente le nombre d’individus
dans l’échantillon possédant la caractéristique A.
• Théorème:
• La fréquence empirique F = K/n est l’estimateur efficace de
P.
E ( X 1 )  .....  E ( X n )
E(F )  P
• n

• donc F est un estimateur sans biais de P.

V ( X 1 )  .....  V ( X n ) nP(1  P) P(1  P )


V (F )  2
 2

n n n

• donc F est un estimateur convergent de P.


Exemples

• Exercice 1: (estimation d’une moyenne, d’un écart-


type)
Lors d’un concours radiophonique, on note X: le nb.
de réponses reçues chaque jour. On suppose
• X ∼ N (µ, σ). Durant 10 jours on a obtenu:
xi — 200; 240; 190; 150; 220; 180; 170; 230; 210;
210 .
• Donner une estimation ponctuelle de µ, σ2.
• . n = 10
1
•X  ( X 1  ...  X 10est
) un estimateur de µ
10
1 2000
sa réalisation x  ( x1  ...  x10 )   200 est une
10 10

estimation ponctuelle, efficace de µ.


- on est dans le cas où la moyenne µ n’est pas connue.
1

2
2
ech  ( X 1  ...  X 10 )  X
2 2

10
- est un estimateur biaisé de σ2

1 2 2
 2
ech  ( x1  ...  x10 )  x  40700  40000  700
2

10
sa réalisation

est une estimation ponctuelle, biaisé de σ2


• S.2  n 10 2
n 1
 ech 9  ech
2
 est un estimateur sans biais de  2

n 2 10 2 10
s2   ech  ech  .700 est une estimation ponctuelle sans biais de  2 .
n 1 9 9
• Exercice 2: (estimation d’une proportion)
Dans une population d’étudiants, on a prélevé
indépendamment 2 échantillons de taille n1 = 120, n2 =
150. On constate que 48 étudiants du
1-er échantillon et 66 du 2-ème ont une formation
scientifique secondaire. Soit P la proportion d’étudiants
ayant suivi une formation scientifique.
• Calculer 3 estimations ponctuelles de P.
• .

K 48 66 48  66
F  ; f1   0.4; f 2   0.44; f 3   0.422
n 120 150 120  150
Intervalle de confiance

•on sait que la valeur estimée t diffère toujours de la valeur exacte du


paramètre recherché, θ. Il est donc souhaitable de donner la précision
de l’estimation en acceptant de faire une erreur α sur celle-ci.

•Il est plus réaliste et plus intéressant de fournir une estimation du type

t1 < θ < t2 plutôt que d’écrire sèchement θ = t


• définition:
Soit X une v.a. dont la loi dépend d’un paramètre
inconnu θ; on appelle INTERVALLE DE
CONFIANCE pour θ de niveau 1 − α (ou de seuil α),
un intervalle qui a la probabilité 1 − α de contenir la
vraie valeur de θ.
[t1, t2] est un intervalle de confiance de niveau 1 − α
pour θ signifie
P (t1 < θ < t2) = 1 − α
• Remarque:

• plus le niveau de confiance est élevé, plus la


certitude est grande que la méthode d’estimation
produira une estimation contenant la vraie valeur de
θ.
• les niveaux de confiance les plus fréquemment
utilisés sont 90%, 95%, 99%
• α est appelé le seuil (le risque); on choisira dans la
plupart des cas un intervalle à risques symétriques,
c-a-d t.q.
P (θ < t1) = α/2 et , P (θ > t2) = α/2
• remarque: Si on augmente le niveau de confiance

1 − α, on augmente la longueur de l’intervalle.


Intervalle de confiance pour une moyenne

• cas où n, la taille de l’échantillon, est petite n < 30


On suppose que X ∼ N (µ, σ).
On distingue deux cas σ connu et σ inconnu.
• σ connu

 X 
X  N ( µ, ) ou bien  N (0,1)
n / n
• On se fixe le risque α et on cherche dans la table
de la loi normale la valeur t1 
2
telle que
X  X 
P(t    t  )  1    P(  t  )  1
1
2 / n 1
2  / n 1 2 2

t 
est le fractile d’ordre 1 − α/2 de la loi
1
2
normale centrée réduite.
X   
P( t   t  )  1    P( X  t .    X  t  . )  1
1
2 / n 1
2
1
2 n 1
2 n
• Conclusion : si x est une réalisation de X ,
l’intervalle de confiance de µ de seuil α est
 
I  [x  t  . ; xt . ]
1
2 n 1
2 n
exemple
• . 15
n  15;   3.75;   5%;  xi  2400
i 1

2400
alors x   160; t   1.96 car P (t  1.96)  0.025.
15 1
2

on sup pose X gaussienne et on obtient I c :


3.75 3.75
I c  [160  1.96. ,160  1.96. ]
15 15
 [158.10; 161.90]
σ inconnu
.
X  1 n
 tn 1 avec    i ( X  X ) 2


ech
ech / n 1 n i 1

On cherche dans la table de la loi de Student, α étant


fixé, la valeur t n−1(1− α/ 2 ) telle que:

X 
P (t  t )  1

 
n 1(1 )
2 ech / n 1 n 1(1 )
2
• .On a:
X   
 ) 1  P(X t    X t ) 1
ech ech
P(t  t  .

 
n1(1 )
2 ech / n 1 n1(1 )
2
n1(1 )
2 n 1 n1(1 )
2 n 1

• Conclusion : si X est une réalisation de X et  une ech

réalisation de , l’intervalle de confiance de µ de


ech

seuil α est:
 ech  ech
I  [ x  tn 1(1 /2) , x  tn 1(1 2 ) ]
n 1 n 1
cas où n, la taille de l’échantillon, est grande n > 30

• Il n’est plus nécessaire de supposer que X est Gaussienne.


*σ connu:
X 
 N (0,1) pour n → ∞
/ n

Conclusion : si xest une réalisation de X


, l’intervalle de confiance de
µ de seuil α est
 pop  pop
I  [x  t  . ; xt  . ]
1
2 n 1
2 n
σ inconnu

• On peut également utiliser l’approximation suivante


X 
 N (0,1)
 ech / n

• On se fixe l’erreur α et on cherche dans la


• table de la loi normale la valeur t1 
2

X   
 )  1    P( X  t    X t )  1
ech ech
P( t  t

 2  
1
2 ech / n 1
2
1
2 n 1
2 n
• Conclusion : si x est une réalisation de X et une  ech
réalisation de  ech
2
,
l’intervalle de confiance de µ de seuil α est:
 ech  ech
I  [x  t  . ;x t  . ]
1
2 n 1
2 n

• remarque: Plus n est grand, plus Iconfiance est petit (car


1 / n ou bien 1 / est
n  1petit) et donc meilleure est la
précision de l’estimation.
Intervalle de confiance pour la variance d’une variable gaussienne.

• On suppose que X ∼ N (µ, σ).


a) µ connue (peu fréquent)
1 n
T   ( X i   )2
2

• n i 1 est un estimateur efficace de σ2


(voir estimation ponctuelle); sa réalisation est
1 n
Xi  
t   ( xi   ) . comme
2 2
 N (0,1)
n i 1 
nT 2 Xi   2
 ( ) est une somme de n v.a indépendantes qui suivent la loi
 2

nT 2
normale N (0, 1) et donc 2   2 (n)

• L’erreur α étant fixée, on cherche dans la table
χ2 (n) les valeurs Kn (1 /2) et Kn( /2)
n 2
P(k   2 T  k  )  1
n( )
2
 n (1 )
2

• Conclusion : si t2 est une réalisation de T 2,


l’intervalle de confiance de σ2 de seuil α est
nt 2 nt 2
I [ , ]
k  k 
n (1 ) n( )
2 2
• . l’intervalle de confiance pour σ au seuil α est:

n n
I  [t , t ]
k  k 
n (1 ) n( )
2 2
• Exemple:
10
n  10, µ  6,  i  402,   5%
x 2

i 1

alors t 2  40.2  36  4.2, K10(0.025)  20.5, K10(0.975)  3.25

10 * 4.2 10 * 4.2
I [ ; ]  [2.05; 19.92]
20.5 3.25
µ inconnue

• n. ech
2

on a   2 (n  1)
2
on cherche dans la table  2 (n  1) les valeurs K n 1( /2) et K n 1(1 /2) telle que

n ech
2
n ech
2
n ech
2

P( K n 1( /2)   K n 1(1 / 2) )  1    P( 2  )  1 


 2
K n 1(1 /2) K n 1( /2)
• Conclusion : si est une réalisation de  ech ,
 ech
2 2

l’intervalle de confiance de σ2
de seuil α est:
n ech
2
n ech2
I [ , ]
K n 1(1 /2) K n 1( /2)
l’intervalle de confiance pour  au seuil  est :

n n
I  [ ech ,  ech ]
K n 1(1 /2) K n 1( /2)
Intervalle de confiance pour une proportion

• on sait que F = K/n


est un estimateur de P où P est la proportion
de la population possédant le caractère
considéré. F  N ( P,
P (1  P)
)
Pour nP>5,
n(1-P)>5. n

FP
ou bien  N (0, 1) pour np  5, n(1  P )  5
P (1  P )
n
• problème: P(1 − P) est inconnu !!!
• solution 1 : méthode par estimation de
l’écart-type P(1  P) f (1  f )
on remplace par
n n
• . f étant la valeur observée de F
(estimation de P) et on a

f (1  f ) f (1  f )
I  [ f  t1 /2 ; f  t1 /2 ]
n n
• A la veille d’une consultation électorale, on a
interrogé 100 électeurs constituant un échantillon
au hasard. 60 ont déclaré avoir l’intention de voter
pour le candidat Rachid. En quelles limites, au
moment du sondage, la proportion du corps
électoral favorable à Rachid se situe-t-elle ?
• Construisons l’intervalle de confiance
correspondant à la fréquence f = 0.6 du corps
électoral favorable à Rachid observée sur un
échantillon de taille n = 100. Au seuil α, cet
intervalle est défini par :

f (1  f ) f (1  f )
I  [ f  t1 /2 ; f  t1 /2 ]
n n
• Pour α = 5%, on a :
t 0.975 = 1.96 on obtient alors l’intervalle :
[0.504, 0.696]
À 95%, le candidat Rachid serait élu.
• On sait que le taux de mortalité d’une certaine
maladie est de 30%. Sur 200 malades testés,
combien peut-on envisager de décès ?
• Construisons d’abord l’intervalle de pari, pour
un échantillon de taille n = 200, correspondant
à la probabilité de décès p = 0.3. Au seuil α,
cet intervalle est défini pa.

f (1  f ) f (1  f )
I  [ f  t1 /2 ; f  t1 /2 ]
n n
• Pour α = 5%, on a :
t 0.975 = 1.96 on obtient alors l’intervalle :
[0.24, 0.36]
• Il en résulte que sur les 200 malades, le
nombre de décès à envisager serait compris, à
95%, entre 48 et 72 décès.

Vous aimerez peut-être aussi