Vous êtes sur la page 1sur 28

ECHANTILLONNAGE ET

ESTIMATION

JM Nguyen Fev 09
1
Estimation statistique :
 
A partir des caractéristiques d’un échantillon , estimer celles de
la population dont est issu cet échantillon

Echantillon représentatif = échantillon tiré au sort

Echantillonnage simple=proportionnelle

Echantillonnages en strates, en grappes, ...

Estimateurs = Statistiques permettant d’évaluer les paramètres


d’une loi de probabilité

2
I ESTIMATIONS PONCTUELES

1.1 Estimation d’une variable aléatoire continue


Soit X une v.a. de moyenne µ et de variance σ². On tire au sort
un échantillon de n individus

La moyenne m = ∑ X i de cet échantillon est un bon


n
estimateur de µ. : il est sans biais et convergent.

1 1 ( ∑ X i )²
La quantité S ² = × ∑ ( X i − m)² = {∑ X i2 − } de
n− 1 (n − 1) n

cet échantillon est un bon estimateur de σ² : il est sans biais et


convergent.

3
1.2 Estimation de proportions

Soit une population dans lequel on observe une proportion ∏


d’individus ayant une caractéristique .

On cherche à estimer ∏ par la proportion observée p d’un


échantillon de cette population.

p est un bon estimateur de ∏, car E(p)= ∏.

4
1.3 Fluctuations d’échantillonnage

1.3.1 Fluctuation d’une moyenne


Soit X une variable aléatoire de moyenne µ et de variance σ².

i1 m1
Population .
.
in mn

La distribution des diverses valeurs de la moyenne prise par les


différents échantillons est appelée distribution d’échantillonnage de
la moyenne.
5
La moyenne de chaque échantillon (m1…mn) va fluctuer autour de µ

On peut estimer la variabilité de m autour de µ , var (m) par σ²/n

6
1.3.2 Fluctuation d’une fréquence

Dans une population, il y a une proportion ∏ de sujets ayant une


caractéristique.

i1 p1
Population .
∏? .
in pn

Si on tire plusieurs échantillons, on trouvera une fluctuation de p


autour de ∏.
p est un bon estimateur de ∏

Si np>=5 et n(1-p)>=5 alors


la variable aléatoire p suit une loi normale, d’écart type √pq/n.
7
1.4 Qualités d’un estimateur

• Un estimateur Tn du paramètre θ de la variable aléatoire X


est convergent, s’il converge en probabilité vers θ
n→ + ∞
∀ε>0, P ( Tn − θ > ε )    → 0

Soit E(Tn - θ)², erreur quadratique


Un estimateur Tn du paramètre θ de la variable aléatoire X
est convergent
si n→∞ , E(Tn - θ)² → 0
En pratique, il suffit de vérifier que E(Tn) tende vers θ
et que V(Tn) tende vers 0.
8
n=6 n=8 n=12

n=∞

Plus n augmente, plus le tir est groupé et plus il se dirige vers sa cible

9
Jet d’un dé, probabilité d’avoir un six=1/6=16.66%

pq
Nb Jets Nb de 6 Fréquence
n=6 0/6 0% n

n=60 7/60 11.67% 4.14%

n=600 77/600 12.83% 1.37%

n=6 000 801/6000 13.35% 0.44%

n=60 000 957/60 000 16.00% 0.05%


n=600 000 9957/600 000 16.66% 0.02%

Plus n augmente, plus on se rapproche vers la valeur théorique, 16.66%


Pour autant, l’estimateur est il convergent ?

10
Un estimateur Tn du paramètre θ de la variable aléatoire X est
sans biais si E(Tn) = θ. La quantité E(Tn - θ) est appelé biais

Estimateur biaisé Estimateur non biaisé

11
Un estimateur Tn du paramètre θ de la variable aléatoire X est
efficace s’il est sans biais [E(Tn) = θ] et s'il est de variance
minimale parmi les estimateurs sans biais de θ.

La méthode du maximum de vraisemblance est la méthode la plus


utilisée pour obtenir des estimateurs ponctuels pour les modèles
paramétriques

12
II Estimation par intervalle de confiance

Estimer θ par intervalle de confiance, c’est donner un intervalle de


valeurs [θ1,θ2] dans lequel θ a une probabilité (1-α) de se trouver
et un risque α de ne pas se trouver.

2.1 Estimer une moyenne µ par un intervalle de confiance

C’est donner les valeurs qui vont encadrer µ avec une probabililité
(1-α) de trouver µ.
Pr(m-k ≤ µ ≤ m+k) = (1-α)
2.1.1 La taille de l’échantillon est grand (n≥30)

Quelle que soit la variable aléatoire, sa moyenne m a une


distribution normale (TCL).

13
Si on utilise la variable centrée réduite m− µ
Z=
σ
n
L’intervalle de confiance s’écrit

m− µ
Pr(-Zα/2 ≤ s ≤ +Zα/2 )=(1-α)
n
s s
Pr( m - Zα/2 ≤ µ≤ m + Zα/2 )=(1-α)
n n

L’intervalle de confiance de µ= m +/- Zα/2 s/√n

14
Exemple1 : On tire au sort un échantillon de 100 individus d’une
population P.

La moyenne des poids de ces 100 individus est de m = 65 kg.


La variance est de 20².

Quel est l’intervalle de confiance à 95% de µ, moyenne de


la population ?

Réponse :
m+/-1.96 √20²/100 65+/-1.96 x 2 [61.08 ; 68.92]

Pr(m1≤ m ≤ m2)=95% α=5% 2.5% 95% 2.5%

-1.96 +1.96

15
Exemple2 :On observe un échantillon de 100 dosages
la moyenne m est de 7.5 µmol/ml
la variance s² est de 4
Quel est l’IC95% de la moyenne µ ? 2.5% 95% 2.5%

-1.96 +1.96

L’intervalle de confiance à 95% de la moyenne µ de la


population est de
7.5+/-1.96 x √(4/100)

7.5 - 0.392≤µ≤7.5+0.392

[7.108 ; 7.892]

16
2.1.2 La taille de l’échantillon est petit (n<30)

2.1.2.1 La variable aléatoire X suit une loi normale.


m− µ
La variable centrée réduite t=
s
n

suit une loi de Student à (n-1) ddl.

m - tα/2,n-1 (s/√n) ≤ µ ≤ m + tα/2,n-1 (s/√n)

L’intervalle de confiance de µ= m +/- tα/2(n-1) s/√n

17
Exemple :
On observe un échantillon de 10 dosages
la moyenne m est de 7.5 µmol/ml
la variance s² est de 4
Quel est l’intervalle de confiance à 95% de la moyenne µ ?

2.5% 95% 2.5%

-2.262 +2.262

t97,5%, 9= 2.262
7.5+/-2.262 x √(4/10)
7.5 – 1.43≤µ≤7.5+1.43

IC95%( µ )= [6.7 – 8.9]

18
2.1.2.2 La variable aléatoire X ne suit pas une loi normale
On ne peut pas utiliser la loi normale ni la loi de Student.
Il existe d’autres méthodes...

19
2.2 Estimer une fréquence par un intervalle de confiance
L’intervalle de confiance d’une proportion ∏ pour un risque
consenti égal à α vaut

p +/- Zα/2 √p(1-p)/n il faut que np ≥5 et (1-p)n ≥5

20
Exemple :
On cherche à estimer la fréquence d’enfants présentant des signes
d’obésité dans une population. On constitue un échantillon
représentatif de 1000 enfants et on a constaté que 120 sont obèses.
Estimer par un intervalle de confiance à 95% le taux d’enfants
obèses dans la population

Réponse :
p+/- Zα/2 √p(1-p)/n

p=120/1000 Z2.5%=1.96

√p(1-p)/n =√12%*88%/1000=0.0102

[12%-1.96*0.0102 12%+1.96*0.0102]
IC95%=[ 9.8%- 14.01%]
21
Si np ou nq trop petits
Loi binomiale exacte

22
2.3 Estimer une variance par un intervalle de confiance

Soit une variable aléatoire normale X de variance σ² inconnue.


On tire un échantillon de n individus.

2.3.1 Si n>=30
alors l’estimation s² de σ² suit approximativement une loi
normale de moyenne σ² et de variance 2σ4/n.

s² − σ ²
Pr(-Zα/2 ≤ ≤ +Zα/2 )=(1-α)
2σ 4
/n
s² s²
σ² ∈ 2
;
1−
2
× Zα / 2
1+ × Zα / 2 n
n

23
Exemple :
On veut estimer la variance des résultats d’un dosage biologique
dans une population. On suppose que la valeur du dosage suit une
loi normale.
On constitue un échantillon représentatif de 36 individus. La
moyenne est de 96 umol/ml et la variance 35² (1225).

Quelle est l’estimation de la variance de la population avec un risque


de 5% ?

s² s²
; 2
2
1+ × Zα / 2 1− × Zα / 2
n n

Réponse :
Borne supérieure variance : 35²/(1-1.96√2/36)=28.9
Borne inférieure variance : 35²/(1+1.96√2/36=39.5 24
2.3.2 Si n<30
Si X suit une loi normale, si s² est l’estimateur de σ² , alors
(n-1)s²/σ², suit une loi du Khi² à (n-1) ddl.

(n − 1)s ² (n − 1)s ²
σ² ∈ χ ² 1− α / 2
χ ²α /2

25
III Nombre de sujets nécessaires pour estimer avec une précision donnée

3.1 cas d’une moyenne

Soit X, une variable aléatoire Normale de moyenne µ et un


échantillon ayant une moyenne m.

On veut que l’estimation m soit à +/-E de µ.

⇔ m-µ<E

On montre que si

n> Z²α/2 σ²/E²

on a la probabilité (1-α) pour que m soit à moins de E de la valeur µ


à estimer

26
Exemple :
On veut effectuer une estimation de la moyenne de la créatinine avec
une précision de +/-0.5 µmol/ml avec une probabilité de 95%.
Soit on connaît la variance de la créatinine dans la population, soit on
en fait une estimation, 25.
La taille de l’échantillon nécessaire est au moins égale à
(1.96² x 25 )/0.5² = 385 sujets

n> Z²α/2 σ²/E²

27
3.1 Cas d’une proportion

Soit Π la proportion à estimer dans la population. Soit p la proportion


observée sur un échantillon. Pour que p soit à +/-E de Π, avec une
probabilité (1-α) , il faut au moins, sous condition np,nq>=5
n> Z²α/2 pq/E²

Exemple : On veut estimer la proportion de filles en faculté avec


une marge d’erreur de 5% et une précision de 0.05.
On a estimé cette proportion sur un échantillon test et on a trouvé
p=53%.

il nous faut donc 1.96².(0.47.0.53)/0.05² = 383 étudiants.

28