Vous êtes sur la page 1sur 12

ECHANTILLONNAGE

Distribution D’Echantillonnage

Introduction
 L'inférence statistique consiste à porter les
conclusions sur l’ensemble d’une population à
partir d’observations réalisées sur un échantillon
unique tiré de celle-ci.
 Les caractéristiques de l'échantillon, reflètent
avec une certaine marge d’erreur possible les
paramètres de la population.
 Pour pouvoir estimer ces paramètres on doit
d’abord comprendre la distribution
d’échantillonnage

1
Inférence statistique

L’inférence s’appuie sur des modèles mathématiques


des observations.

DEFINITIONS ET CARACTERISTIQUES D’UN


ECHANTILLON
Une statistique est un nombre calculé à partir des données
de l'échantillon.
Des exemples de statistiques sont : la moyenne, la médiane,
l'écart-type de l'échantillon.

Une statistique est une variable aléatoire puisqu'elle est


calculée à partir des données d'un échantillon aléatoire.

Une statistique est donc connue et aléatoire.

2
Un paramètre de la population est un nombre calculé à
partir de la population entière.

Un paramètre est un nombre déterministe (fixé) car il n'est


pas soumis au hasard (de l'échantillonnage).
Par contre en général, il est inconnu.

Une tâche importante et utile en statistique est d'estimer les


paramètres de la population à partir de statistiques calculées sur
un échantillon.

Pour construire un échantillon, soit on choisit des


méthodes aléatoires ou non aléatoires.

Processus d’échantillonnage

Définir l’univers

Cadre d’échantillonnage

Méthodes d’échantillonnage

Procédure de sélection

Taille de l’échantillon

Sélection des éléments

Travail de terrain

3
Echantillonnage aléatoire simple
 Chaque individu de la population a la même
probabilité d’être inclus dans l’échantillon
 Base d’échantillonnage : liste pré-établie des
individus
– Liste des conducteurs
– Liste des foyers
– Liste des abonnés au téléphone …
 Procéder à un tirage au sort des individus dans la
base :
 Programme informatique
 Tables de nombre au hasard

DISTRIBUTION D’ECHANTILLONNAGE
D’UNE PROPORTION

• On étudie un caractère qualitatif dans une population


de taille N.
• La proportion de ce caractère dans la population est p
• On prend des échantillons de taille n, extraits de cette
population et on s'intéresse à la variation de la
proportion (du caractère étudié) d'un échantillon à
l'autre.
La variable aléatoire correspondant à cette proportion
est notée : F

4
 Si, sur une population (finie ou infinie), une
proportion p d'individus possède une certaine
propriété, le tirage au hasard d'un individu i de cette
population permet de définir une variable aléatoire
de Bernoulli Xi .
 Si on refait le tirage n fois, on observe la
réalisation de X1 , X2 , ... , Xn, variables aléatoires
indépendantes.
 Étudier le tirage de n individus avec cette
propriété revient à étudier X1 + X2 + ... + Xn
Qui suit la loi binomiale B(n, p).
Nous en fait, on s’intéresse à La proportion
d’individus avec cette propriété et c’est la variable
aléatoire : X 1  X 2  .......  X n
F 
n

 L’espérance E(F)=p la variance V(F)= p(1-p)/n et


p(1  p )
l’écart type s(F)=
n
 On constate donc que F a toujours pour espérance p,
On déduit que la proportion dans l'échantillon est, "en
moyenne", celle de la population

 La variance de F est d'autant plus faible que n est


grand. la proportion dans l'échantillon varie d'autant
moins d'un échantillon à l'autre que la taille de cet
échantillon est grande.
 A la limite, si n tend vers l'infini, V ( F ) tend vers 0 et
donc F tend vers la constante p.

5
 Si n est grand, F suit à peu près une loi normale

 p (1  p ) 
N  p, 

 n 
 Dans la pratique, l'approximation de la loi de F par
une loi normale est correcte dès que
n p≥10, n(1-p) ≥ 10 et n>30.
 Si le tirage est exhaustif (sans remise) dans une
population de N individus, les formules de E ( F ) est la
mêmes mais la variance change car les variables
X1 , X2 , ... , Xn ne sont plus indépendantes:
N  n p(1  p)
V (F )  .
N 1 n

N n
ce coefficient est appelé coefficient correcteur.
N 1
 En résumé:
E (F )  p pour une population finie ou infinie.

N  n p(1  p ) pour une population finie


s( F )  .
N 1 n
telle que n / N  0.05

p (1  p ) pour une population infinie telle


s(F ) 
n
que n / N  0.05

6
Exemple :
Selon une étude sur le comportement du
consommateur, 25 consommateurs sur 100 sont
influencés par la marque de commerce lors de
l’achat d’un bien. Si le responsable du service de
promotion d’un grand magasin dans une région
interroge 100 consommateurs choisis au hasard afin
de connaitre leur comportement sur ce sujet, quelle
est la probabilité pour qu’au moins 35 d’entre eux
se déclarent influencés par la marque de commerce?

Exemple:

On estime que dans une région donnée, 45% des


salariés bénéficient d’un régime de retraite inséré
dans leur convention collective de travail. Si l’on
prélevait un échantillon de 200 salariés de cette
région, quelle serait la probabilité d’y compter
moins de 44% ou plus de 46 % d’individus
bénéficiant d’un tel régime?

7
DISTRIBUTION D’ÉCHANTILLONNAGE
D’UNE MOYENNE
 Soit une population donnée de taille N de caractère donné
X qui possède une distribution qui lui est propre, une
moyenne µ et une variance σ² .
 Un échantillon prélevé dans cette population peut
apparaître de différentes façons.
 On choisit au hasard un échantillon de taille n on notera ses
valeurs (x1, x2,……, xn), sont des valeurs prises au hasard
par la variable X.
 L’ensemble des différents échantillons possibles de taille n
est dit « échantillon aléatoire » et noté (X1, X2,…..Xn).
X1: la variable représentant toutes les valeurs prises par la 1ère
unité statistique de chaque échantillon, à savoir toutes les
valeurs possibles pour x1 ……
Xn: la variable représentant toutes les valeurs prises par la
nème unité statistique de chaque échantillon, à savoir toutes
les valeurs possibles pour xn
On constate que X1, X2,…..Xn sont en fait des copies de X.

Etude de la moyenne d’échantillonnage


Supposons que l’échantillonnage se fait avec remise:
Un ensemble d’échantillons possibles amène à un ensemble de
moyennes d’échantillons possibles et à un ensemble de
variances d’échantillons possibles.
 L’ensemble des différentes moyennes d’échantillon
possibles est dit « moyenne d’échantillon aléatoire » et
noté X .
2
 Si X  N (  ,  2 ) alors X  N (  , )
n
2
E ( X )   et V ( X ) 
n

 Si n est assez grand et X suit une loi de probabilité


quelconque alors X suit approximativement la loi

2
normale de paramètres (  , )
n

8
Etude de la moyenne d’échantillonnage
 X1, X2,…..Xn sont identiquement distribuées puisqu’elles
sont des répliques de la variable X.
 X1, X2,…..Xn sont indépendantes puisque les échantillons
sont formés avec remise.
 Si X suit une loi normale alors ∑Xi est normalement
X i
distribuée et de même pour X  i .
n
 Si X suit une loi quelconque et n assez grand (n≥30), en
vertu du théorème centrale limite la variable ∑Xi suit
approximativement la loi normale et de même pour
X
i
i
X
n

Etude de la moyenne d’échantillonnage


 Supposons que l’échantillonnage se fait sans remise:
Si la taille de la population est très grande et la taille de
l’échantillon ne dépasse pas 5 % de celle de la population,
le fait de ne pas remettre les unités choisis ne devrait pas
altérer énormément l’aspect de la population. On pourrait
considérer que les variables X1, X2,…..Xn sont encore
sensiblement des répliques de X et sensiblement
indépendantes, X se comporterait sensiblement de la
même façon.
 Si la taille de l’échantillon dépasse strictement 5% , on
verra une situation parallèle à la loi hypergéométrique et
dans ce cas on obtient:
E( X )  E( X )  
V (X ) N  n  2 N  n
V (X )  ( ) ( )
n N 1 n N 1
 La distribution de X ne change pas.

9
Applications
 La consommation d’essence (en l/100km) d’un certain
modèle d’automobile obéit à la loi N(9, 0,5625). Quelle est
la probabilité lorsqu’on tire un échantillon de 20 voitures
de ce type d’obtenir une consommation moyenne
inférieure à 8,5 l/100 km?
 Pour un autre type d’automobiles, la consommation
d’essence en moyenne est de 10 l/100 km et d’écart type
égale à 0,7. Quelle est la probabilité lorsqu’on tire un
échantillon de 35 voitures de ce type d’obtenir une
consommation moyenne inférieure à 9 l/100 km?

Distribution d’échantillonnage d’une variance


 On suppose que (X1, X2,…..,Xn) un échantillon.
On suppose que les Xi suivent la loi normale N (  ,  )
 On note S² la variance de l’échantillon définie par:
1 2
S2   X i2  X
n
 S² est une variable aléatoire, dont l'espérance est :

2  1 n  2 
E (S )  E   X i2   X 
  n i1  
1 n 2
  E ( X i2 )  E (X )
n i 1
Or Var ( X )  E ( X ²)  ( E ( X ))²

10
Donc 1 ²
n( ²   ²)  (   ²)
E ( S ²) 
n n
n 1
 ²
n
n 1
 1 donc E (S ²)   ²
n
C'est-à-dire qu'en moyenne, la variance dans l'échantillon est
plus faible que dans la population-mère.
Si X suit une loi normale
on montre que (nS ²) /  ² , suit la même loi de probabilité
que la somme des carrés de ( n - 1 ) variables aléatoires
indépendantes de loi N ( 0 ; 1 ).

C'est la loi de Khi-deux à ( n - 1 ) degrés de liberté

Etude de la variance d’échantillonnage


n
2
X  
Par contre si μ est connu  i
 i 1 suit la loi de Khi
deux à n degrés de liberté 2

V ( S 2 ) dépend de n au dénominateur.

 Les différentes variances d’échantillons possibles s² ne


gravitent pas tout à fait autour de σ² mais autour d’une
valeur légèrement inférieure. On dit qu’elles sont biaisées.

 Plus la taille de l’échantillon est grande moins le biais est


prononcé et plus la concentration autour de (n  1)  2
est grande. n

11
Exemple
• Le poids des produits d’une marque d’ électroménager
suit une loi normale N (75 ; 5 ).
La charge maximale permise pour une commande est
400 kg. On veut transporter 5 unités des produits de
cette marque, quelle est la probabilité que la variance
dépasse 55?

• On fait l’hypothèse que la taille (en cm) d’ étudiants


masculins d’une école est normale de variance 100 . On
choisit un échantillons de taille 30 de la population .
Quelle est la probabilité que la variance échantillonnale
soit d’au plus 142 ?

12