Vous êtes sur la page 1sur 28

Estimation

Contenu du cours
• Sondages
• Mesures statistiques sur un échantillon
• Estimateurs
Mesures statistiques sur un échantillon

• Sur un échantillon, on peut mesurer les


mêmes types de paramètres de position et
de distribution que sur une population
• Utilisés comme estimateurs des paramètres
inconnus dans la population
Paramètres de position
• Moyenne: on appelle m ou x
la moyenne d’une variable quantitative
calculée sur un échantillon, µ étant la
moyenne inconnue dans la population.
€ de la variable, ∑x la
Avec x: les valeurs
somme de ces valeurs et n la taille de
l’échantillon
m=
∑ x
n
La moyenne m est l’estimateur de la moyenne µ inconnue
Paramètres de position
• Pourcentage: on appelle p un pourcentage
observé sur un échantillon, P étant le
pourcentage inconnu dans la population.
Avec n la taille de l’échantillon et k le
nombre d’individus présentant la
caractéristique
k
p=
n
Le pourcentage p est l’estimateur du pourcentage P inconnu


Paramètres de dispersion
• Variance empirique, d’un échantillon
• Avec x: les valeurs de la variable, m: la moyenne
de l’échantillon et n la taille de l’échantillon

v=
∑ ( x − m)
n
Peut-on estimer σ2 , la variance au niveau de la
population par v???

Paramètres de dispersion
2
• NON
v=
∑ ( x − m)
n
NB: L’estimateur v est biaisé
n −1 2 2
E(v) =
n
σ
€ s =
2 n
v=
∑ ( x − m )
n −1 n −1



Paramètres de dispersion
• Variance: on appelle s2 la variance d’une variable
quantitative calculée sur un échantillon, estimateur
de la variance σ2 inconnue dans la population.
Avec x: les valeurs de la variable, m: la moyenne
de l’échantillon et n la taille de l’échantillon
2
(∑ x)
2 ∑ ( x − m)
2
(∑ x ) − n
2

s = =
n −1 n −1
La variance s2 est l’estimateur de la variance σ2 inconnue
Paramètres de dispersion
• Ecart type: on appelle s l’écart type calculé sur les
valeurs de l’échantillon, σ étant l’écart type
inconnu dans la population.

2
s= s
L’écart type s est l’estimateur de l’écart type σ inconnu


Estimation d’un paramètre
• Définir les paramètres d’une population à partir
des paramètres observés sur un échantillon
POPULATION ECHANTILLON

inconnu observé

• La valeur observée a fort peu de chances d’être exactement


la valeur inconnue de la population
• elle est néanmoins assez proche si l’échantillon est représentatif
• en répétant l’échantillonnage, on trouverait d’autres valeurs,
toutes assez proches les unes des autres
On a mesuré le taux de fer sérique de 20 individus. Ce taux, exprimé en µg/100ml
est le suivant : 83,0 ; 98,0 ; 183,3 ; 119,6 ; 78,5 ; 162,6 ; 155,7 ; 147,3 ; 100,1 ;
139,2 ; 172,1 ; 102,0 ; 162,8 ; 113,8 ; 157,4 ; 128,5 ; 136,2 ; 129,3 ; 131,6 ; 157,3.
Calculer les estimations de la moyenne, de la variance et de l’écart-type du taux de
fer sérique dans la population à partir de cet échantillon.
La moyenne du taux de fer sérique µ dans la population est estimée par m,
notée aussi x
n

∑x i

m =€x = i=1
= 132,915µg /100ml
n
La variance σ2 est estimée par s2

n

∑ (x i − m) 2
s2 = i=1
= 900
n −1

L’écart type σ est estimé par s


Estimation d’une moyenne
Estimation d’une moyenne
• Fluctuation d’échantillonnage d’une moyenne
• Échantillon 1 -> m1
• Échantillon 2 -> m2

m1 m3 m2
Estimation d’une moyenne
Théorème central limite:
• La moyenne d’une variable quantitative calculée
sur un échantillon est une variable aléatoire
• Qui suit une loi normale (convergence vers une loi
normale)
• Cette loi normale est centrée sur la moyenne µ de
la population
Estimation: intervalle de pari
• On se pose le problème suivant. On s'apprête à
réaliser une série d'expériences, c'est-à-dire à
mesurer la variable X sur un échantillon de n
individus. Peut-on construire un intervalle [a, b]
tel que la probabilité pour que la moyenne
observée que l'on s'apprête à calculer appartienne
à cet intervalle ait une valeur donnée? Il s'agit
donc de construire un intervalle qui contienne
avec une probabilité fixée la valeur observée que
l'on va obtenir.
Estimation d’une moyenne
Résultat: intervalle de pari de la moyenne
• Si, dans une population, une v.a. X a une moyenne
µ et une variance σ2, la moyenne des n valeurs
d’un échantillon a une probabilité 1-α d’être
comprise entre
σ σ
µ− zα et µ+ zα
n n
Condition de validité: n ≥ 30

€ €
Estimation d’une moyenne
L’écart type de la moyenne m peut être estimé par:
s
sm =
n
Avec s: écart type des valeurs de l’échantillon
n: taille de l’échantillon
Applicable ssi la taille de l’échantillon est négligeable par
rapport à la taille de la population (10%).

ATTENTION: ne pas confondre s et sm
Intervalle de confiance d’une moyenne

• Un intervalle de confiance d’un paramètre


inconnu est une fourchette de valeurs dans
laquelle le paramètre inconnu qu’on veut estimer a
une probabilité 1-α de se trouver (et α de ne pas
se trouver)

m − z α sm < µ < m + z α sm

Ici, on connaît m et on cherche à déterminer µ.


Intervalle de confiance d’une moyenne

• On cherche à déterminer µ

σ σ
m− zα < µ < m+ zα
n n
σ est inconnu. On le remplace par son estimation s.

€ s s
m− zα < µ < m+ zα
n n
Intervalle de confiance d’une moyenne

• L’intervalle de confiance au risque α permettant


l’estimation de µ à partir d’un échantillon (m, s)
est
s
m± zα
n
• La valeur recherchée µ a une probabilité 1- α de
se trouver dans cet intervalle.
• Condition n ≥ 30


Machine A garantie par le constructeur comme faisant des
comprimés de poids moyen 0,80g avec un écart-type de 0,02g
Echantillon A prélevé 15 comprimés mA= 0,79 g

• X poids des comprimés suit loi normale


• Echantillon de 15 cps (n)
• Machine A: µ connu (0.80) σ connu (0.02)
• Intervalle de pari de la moyenne du poids m
sur un échantillon vaut:
σ σ
µ −ε ;µ + ε
n n
Machine A garantie par le constructeur comme faisant des
comprimés de poids moyen 0,80g avec un écart-type de 0,02g
mA= 0,79 g

• n= 15 , µ = 0.80; σ =0.02
• Intervalle de pari de la moyenne du poids m
sur un échantillon vaut:
σ σ
µ −ε ;µ + ε
n n
ε = 1.96
0.789;0.811

Estimation d’un pourcentage
Estimation d’un pourcentage
• Etant donné une population où une proportion P des
individus possède un certain caractère. Il s’agit d’estimer P
à partir de p, proportion trouvée dans un échantillon de
taille n.
• On sait que np suit une loi binomiale B(n,P).
• Si n est petit on utilise les calculs de la loi binomiale
• Si n est grand,

(
np suit N nP; écart - type = nP(1- P) )
 P(1- P) 
p suit loi N P; ecart - type = 
 n 

Estimation d’un pourcentage

• Fluctuation d’échantillonnage d’un pourcentage


• Un pourcentage observé sur un échantillon est une
variable aléatoire. Il varie selon les échantillons.
• Cette variable suit une loi normale (convergence
vers une loi normale)
• Cette loi normale est centrée sur le pourcentage P
de la population
Estimation d’un pourcentage
Résultat: intervalle de pari d’un pourcentage
• Si, dans une population, on a la proportion P, le
pourcentage p sur les n valeurs d’un échantillon a
une probabilité 1-α d’être comprise entre

P(1− P) et P(1− P)
P − zα P + zα
n n
Condition de validité: nP et n(1− P) ≥ 10

€ €
Estimation d’un pourcentage

• Ecart type d’un pourcentage P peut être estimé


par:

p(1− p)
sp =
n

Conditions de validité: n négligeable par rapport à la


taille de la population (<10%) (ref: Ancelle)

Intervalle de confiance d’un pourcentage
• Le but est d’estimer P à partir d’une observation
sur un seul échantillon.
• Théorème central limite
• Condition np et n(1− p) ≥ 10
• L’intervalle de confiance au risque α permettant
l’estimation de P à partir d’un échantillon (p, sp)
est
€ p ± z α sp