Vous êtes sur la page 1sur 33

Chapitre II : Théorie de l’échantillonnage

1) Présentation générale :
Pour des raisons de temps et de coûts, l’étude directe d’une
population est souvent impossible. C’est pourquoi lorsque l’on veut
étudier la distribution d’un caractère quelconque dans une population P,
il est nécessaire de suivre les étapes suivantes :
1. On extrait un échantillon représentatif de la population à étudier :
 Déterminer la taille de l’échantillon.
 Choisir la méthode d’échantillonnage appropriée.
2. On décrit (statistique descriptive) sur cet échantillon, dont la taille
permet une étude exhaustive, la distribution du caractère.
3. Etablir une estimation des paramètres dans la population à partir
des paramètres observés sur l’échantillon.
2) Termes et concepts de base :
2-1) Recensement et sondage :
Pour collecter des informations sur une population statistique P
donnée, on dispose de deux méthodes :
• la méthode exhaustive ou recensement : on examine chacun
des individus de la population selon le ou les caractères
étudiés.

• La méthode de sondage : on examine seulement une fraction


représentative de la population étudiée appelée un échantillon.

2
A. ZERBET
2-2) Echantillon représentatif :
Supposons la population P partitionnée en k sous population Ph
de taille Nh ; un échantillon E de taille n est dite représentatif si
la proportion d’individus de Ph dans E est égale à la proportion
d’individus de Ph dans P pour h = 1, …, k :
nh N h Nh
h  1, ...,k;   h  1, ...,k; nh 
n N N n
avec N est la taille de la population.
Exemple :
Considérons une population de taille N = 20 000 salariés
répartis selon la catégorie socioprofessionnelle :
N1=2000 cadres, N2=8000 employés et N3=10000 ouvriers.

3
A. ZERBET
Un échantillon de taille n=200 est représentatif s’il est composé
de n1 =20 cadres, n2=80 employés et n3=100 ouvriers.

2-3) Base de sondage :


La liste complète de tous les individus composant la population
étudiée sans omission ni répétition est appelée base de sondage.

2-4) Taux de sondage :


Le taux de sondage t désigne le rapport entre la taille de
l’échantillon et la taille de la population :
t = taille de l’échantillon / taille de la population

4
A. ZERBET
2-5) Erreur d’échantillonnage :
L’erreur que l’on commet lorsqu’un ou plusieurs individus de la
population ont été omis.

2-6) Erreur d’observation :


C’est toute erreur qui n’est pas d’échantillonnage ; il peut être
une erreur de réponse due à la mauvaise formulation d’une
question, à une erreur de saisie.

5
A. ZERBET
3)Détermination de la taille d’un échantillon :
3-1) Fondements théoriques:
3-1-1) L’inégalité de Bienaymé-Tchebychev (I. B. T.) :
Théorème :
Soit X une variable aléatoire d’espérance E(X)  m et de variance
V (X )   2 :

 t  0, P  X  m  t    1  1 t 2

Remarques :
1- L’inégalité ne fait aucune hypothèse sur la loi de X .

2- L’inégalité de Bienaymé-Tchebychev peut s’écrire :

6
A. ZERBET
 t  0, P  X  m  t   1
 t2

  a  0, P  X  E(X)  a  V(X)
avec a  t  
a2

  a  0, P  X  E(X)  a  1  V(X)
a2

Exemple 1 : Cas d’une fréquence


a-1) Tirage avec remise :
Considérons le tirage avec remise d’un échantillon d’effectif n dans une
population comprenant des individus A en proportion p et des individus
A en proportion q=1-p.
X
Soit la variable aléatoire f n  n qui représente la fréquence des individus
A observés sur l’échantillon.

7
A. ZERBET
Dans le cas de tirage avec remise, X suit la loi binomiale d’espérance n p
et de variance n p q, alors et .
Appliquons l’inégalité de Bienaymé-Tchebychev à f n :
 t  0 , P  f n  p  t  pq
2
.
nt
a-2) Tirage sans remise :
Pour le cas de tirage sans remise, est une variable
N n
hypergéométrique d’espérance n p et de variance n p q N  1 , alors
et .

Appliquons l’inégalité de Bienaymé-Tchebychev à fn :

 N  n  1
 t  0 , P  f n  p  t  pq
  .
n  N  1  t 2
8
A. ZERBET
Exemple 2 : Cas d’une moyenne :
Soit X , X  , X , n variables indépendantes suivant une loi de
1 2, n

probabilité quelconque d’espérance mathématique m et d’écart type  .


Leur moyenne
X   X
X  1 n
n

.
est une variable aléatoire d’espérance mathématique m et d’écart type n
Appliquons l’inégalité de Bienaymé-Tchebychev à X :

X   2
 t0, P  m  t  2
.
nt

9
A. ZERBET
3-2) Détermination de la taille d’un échantillon :
3-2-1) Détermination de la taille par l’I. B. T :
On utilise l’I.B.T pour déterminer la taille d’un échantillon
seulement si on ignore la loi de probabilité de la variable considérée.
a) Cas d’une fréquence :
On veut déterminer la taille de l’échantillon nécessaire pour que
la fréquence f se trouve dans l’intervalle p  t avec une probabilité
n

d’au moins 1   .
D’après l’I.B.T : P f n  p  t  1 
pq
2
.
nt
Alors
 pq 
 n  
 t 2

10
A. ZERBET
b) Cas d’une moyenne :
De la même façon, on peut déterminer la taille d’un échantillon
lorsqu’il s’agit d’estimer une moyenne.
Nous désirons que
P  X  m  t  1   .
D’après l’I.B.T. :
 
P X  m  t 1
V (X )
nt 2
,
donc
 V (X )
 n   t 2  .

11
A. ZERBET
3-2-2) Détermination de la taille par la loi normale :
Dans la réalité, la plupart des phénomènes suivent la loi normale, ou
peuvent être approximés par la loi normale lorsque les conditions
d’approximation sont réunies.

a) Cas d’une fréquence :


Dans le cas du tirage avec remise, si n≥30, n p≥5 et n q≥5, la fréquence
des individus A observés dans un échantillon suit approximativement
pq
une loi normale de moyenne p et de variance .
n
La détermination de la taille d’un échantillon revient donc à résoudre
l’équation :
 pq 
P  f n  p  t   1   , avec fn  N  p ; 
 n .

12
A. ZERBET
D’où
P    T      1   ,
fn  p t
T   N ( 0 ; 1 ) et   .
Avec pq pq
n n

On lit la valeur de  sur la table de la loi normale centrée N (0; 1)


telle que :
P    T      1  
On conclut donc que :
  pq 
2

n  t 2 
 

13
A. ZERBET
b)- Cas d’une moyenne :
Soient X , X  , X , n variables aléatoires indépendantes suivant la
1 2, n

même loi normale d’espérance m et d’écart type  . La moyenne


empirique X suit donc la loi normale .
La détermination de la taille d’un échantillon revient donc à résoudre
l’équation : P X  m  t  1   , avec
2
.
D’où P    T      1   ,
X m t
T  ~ N ( 0 ; 1) et   .
avec  n  n
On lit la valeur de  sur la table de la loi normale centrée N (0 ; 1)
telle que : P    T     1   et T ~ N 0 ; 1  .
On conclut donc que :
14
A. ZERBET
Remarques :

1. La loi hypergéométrique H(N ; n ; p) peut être approximée par la


loi binomiale lorsque la taille N de la population est très
grande par rapport à la taille de l’échantillon.

Dans la pratique, on utilise cette approximation si :


le taux de sondage : n / N < 0.1

2. La détermination de taille d’un échantillon peut aussi bien être


faite dans le cas d’un échantillon sans remise.

15
A. ZERBET
4) Méthodes d’échantillonnages :
4-1 Les différents types d’échantillonnages :
Il existe deux grandes familles d’échantillonnages :
L’échantillonnage par choix raisonné : c’est une construction,
à partir d’informations a priori sur la population étudiée, d’un
échantillon qui ressemble autant que possible à cette population.

L’échantillonnage aléatoire : c’est une construction d’un


échantillon où chacune des unités de la population a une
probabilité connue, différente de zéro, d’appartenir à cette
échantillon.

16
A. ZERBET
4-2 Méthodes d’échantillonnage aléatoire :

4-2-1) Echantillonnage aléatoire simple (élémentaire) :


Elle consiste à tirer au hasard n individus parmi les N individus
de la base de sondage numérotés de 1 à N, chaque individu de la
base de sondage ayant une probabilité de 1/N d’être tiré.

Remarque :
Excel et les logiciels de statistiques disposent d’une fonction
permettant un tirage aléatoire parmi une base de sondage.
Sinon, il existe des tables de nombres aléatoires.

17
A. ZERBET
Exemple :
On a la liste des étudiants comprenant 32 étudiants suivante :
MUSTAPHA SAID ELHOUSSAINE HANANE
RACHIDA ESMAIL NOUREDDINE IMANE
ASMA MOHAMMED ABDALLAH
SARA FATIHA TARIK
YOUNES YOUSSEF HAYAT
FATIMA KHADIJA ABDERRAHMAN
MAJDA ELMEHDI HALIMA
KAOUTER AICHA LATIFA
OMAR MARIAM SAMIRA
AZIZA JAOUAD RACHID

Utiliser la méthode d’échantillonnage aléatoire simple pour choisir


un échantillon de 10 étudiants.

18
A. ZERBET
* On numérote de 1 à 32 les prénoms des étudiants :
1. MUSTAPHA 11. SAID 21. ELHOUSSAINE 31. HANANE
2. RACHIDA 12. ESMAIL 22. NOUREDDINE 32. IMANE
3. ASMA 13. MOHAMMED 23. ABDALLAH
4. SARA 14. FATIHA 24. TARIK
5. YOUNES 15. YOUSSEF 25. HAYAT
6. FATIMA 16. KHADIJA 26. ABDERRAHMAN
7. MAJDA 17. ELMEHDI 27. HALIMA
8. KAOUTER 18. AICHA 28. LATIFA
9. OMAR 19. MARIAM 29. SAMIRA
10. AZIZA 20. JAOUAD 30. RACHID
* On choisit d’une façon aléatoire 10 numéros entre 1 et 32 :
Par exemple la série : 25, 04, 29, 11, 10, 23, 01, 19 et 20.
* On constitue l’échantillon en sélectionnant l’étudiant correspondant
à chaque numéro, ce qui donne : HAYAT, SARA, SAMIRA, SAID, AZIZA,
ABDALLAH, …

19
A. ZERBET
Comment utiliser une table de nombres au hasard :
On choisit au hasard, un chiffre (point de départ) dans la table, puis
on choisit un sens de déplacement dans la table (de la gauche vers la
droite, du haut vers le bas, …) pour prélever les chiffres et on
respecte ce sens de parcours.

Exemple :
Choisissez un sens de parcours dans la table et prélevez 12 nombres
entiers, entre 0 et 50, dans la table de nombres au hasard.

20
A. ZERBET
4-2-2) Echantillonnage aléatoire systématique :
Cette méthode consiste à tirer les individus selon une progression
arithmétique de raison N/n. La procédure comporte trois étapes :
 Calcul du pas de sondage N/n (arrondis au nombre entier le plus
proche).
 Tirage au hasard d’un nombre i compris entre 1 et N/n.
 Sélection des individus correspondants aux numéros : i, i+ N/n ,
i+ 2N/n , …, i+(n-1)N/n.

Exemple 4-3 :
On a la liste d’étudiants de 32 étudiants de l’exemple précédent et on
veut choisir 10 étudiants de façon aléatoire systématique.
21
A. ZERBET
 On numérote de 1 à 32 les prénoms des étudiants :
1. MUSTAPHA 11. SAID 21. ELHOUSSAINE 31. HANANE
2. RACHIDA 12. ESMAIL 22. NOUREDDINE 32. IMANE
3. ASMA 13. MOHAMMED 23. ABDALLAH
4. SARA 14. FATIHA 24. TARIK
5. YOUNES 15. YOUSSEF 25. HAYAT
6. FATIMA 16. KHADIJA 26. ABDERRAHMAN
7. MAJDA 17. ELMEHDI 27. HALIMA
8. KAOUTER 18. AICHA 28. LATIFA
9. OMAR 19. MARIAM 29. SAMIRA
10. AZIZA 20. JAOUAD 30. RACHID

 On détermine le pas de sondage donné par a= N/n= 32/10=3,2 ;


ce qui amène à choisir comme pas de sondage l’entier le plus proche de
3,2, c’est-à-dire 3.
 En choisissant au hasard un nombre i entre 1 et 3, par exemple 2.
 On constitue l’échantillon en choisissant les étudiants correspondants
aux numéros : 2 ; 5 ; 8 ; 11 ; 14 ; 17 ; 20 ; 23 ; 26 ; 29.
Ce qui donne les étudiants suivants : RACHIDA ; YOUNES ; KAOUTER ; SAID ;
FATIHA ; ELMEHDI ; JAOUAD ; ABDALLAH ; ABDERRAHMAN ; SAMIRA.
22
A. ZERBET
4-2-3) Echantillonnage aléatoire stratifié :
On divise la population en groupes homogènes (strates) de telle façon
que ces strates constituer une partition de la population. Ensuite, on
tire au hasard un échantillon représentatif à l’intérieure des différentes
strates.

Exemple 4-4 :
On a la liste d’étudiants de 32 étudiants de l’exemple précédent et on
veut choisir 10 étudiants de façon aléatoire stratifiée selon le sexe.

 La variable à prendre en considération est le sexe, d’où les strates :


Filles et Garçons.

23
A. ZERBET
 On numérote séparément les filles et les garçons :
Pour pouvoir distinguer les deux strates, on fait précéder du code
‘F’ le numéro associé à chacune des filles et du code ‘G’ le numéro
associé à chacun des garçons, ce qui donne :
G-1 MUSTAPHA G-4 SAID G-10 ELHOUSSAINE F-16 HANANE
F-1 RACHIDA G-5 ESMAIL G-11 NOUREDDINE F-17 IMANE
F-2 ASMA G-6 MOHAMMED G-12 ABDALLAH
F-3 SARA F-8 FATIHA G-13 TARIK
G-2 YOUNES G-7 YOUSSEF F-12 HAYAT
F-4 FATIMA F-9 KHADIJA G-14 ABDERRAHMAN
F-5 MAJDA G-8 ELMEHDI F-13 HALIMA
F-6 KAOUTER F-10 AICHA F-14 LATIFA
G-3 OMAR F-11 MARIAM F-15 SAMIRA
F-7 AZIZA G-9 JAOUAD G-15 RACHID

 Pour que l’échantillon soit représentatif, il faut que :


nF/10=NF/32 et nG/10=NG/32  nF=5,3125≈5 et nG =4,6875≈5.
 On sélectionne de façon aléatoire 5 filles et 5 garçons.
24
A. ZERBET
4-2-4) Echantillonnage aléatoire en grappes :
L’échantillonnage par grappes consiste à tirer aléatoirement des
grappes ou familles d’individus hétérogènes et à choisir tous les
individus de chaque grappe sélectionnée.
Exemple 4-5 :
On a une liste de 8 équipes, c’est-à-dire 8 grappes de 4 étudiants, et on
désire constituer un échantillon de 12 étudiants.
● On numérote de 1 à 8 les différentes équipes constituant les grappes :
MUSTAPHA OMAR ELMEHDI HAYAT
1 RACHIDA 3 AZIZA 5 AICHA 7 ABDERRAHMAN
ASMA SAID MARIAM HALIMA
SARA ESMAIL JAOUAD LATIFA
YOUNES MOHAMMED ELHOUSSAINE SAMIRA
2 FATIMA 4 FATIHA 6 NOUREDDINE 8 RACHID
MAJDA YOUSSEF ABDALLAH HANANE
KAOUTER KHADIJA TARIK
IMANE

25
A. ZERBET
● Le nombre de grappes qu’on doit choisir est :
n 12
ng    3 grappes .
nombre d ' étudiants par grappe 4
● On choisit d’une façon aléatoire (simple ou systématique) 3 grappes sur
8, par exemple, on choisit au hasard trois numéros entre 1 et 8 : 3 ; 5 et 7.
● On constitue l’échantillon en choisissant les étudiants des grappes
correspondants aux numéros : 3 ; 5 et 7, ce qui donne :
OMAR
Grappe 3 AZIZA
SAID
ESMAIL
ELMEHDI
Grappe 5 AICHA
MARIAM
JAOUAD
HAYAT
Grappe 7 ABDERRAHMAN
HALIMA
LATIFA

26
A. ZERBET
4-2-5) Echantillonnage à plusieurs degrés (niveaux) :
Cette méthode consiste à tirer aléatoirement des unités primaires
(premier degré), puis à l’intérieur de chaque unité primaire
choisie, on prélève au hasard des unités secondaire (second
degré), et ainsi de suite jusqu’à la constitution de l’échantillon
souhaité.

Exemple d’un tirage à deux degrés :


On tire un échantillon de villes. Puis on tire, parmi les villes
sélectionnées, un échantillon de ménages.

27
A. ZERBET
4-3) Méthodes d’échantillonnage par choix raisonné :
Lorsque on ne dispose pas de base de sondage, ou lorsqu’il est
trop coûteux de réaliser un sondage aléatoire, on a recours aux
méthodes dites non aléatoires, ou encore méthodes empiriques
ou à choix raisonné.

4-3-1) La méthode des quotas :

a) Définition :
C’est l’une des principales méthodes par choix raisonné,
l’échantillon par quotas est sélectionné de façon à constituer
une image, aussi fidèle que possible, de la population.

28
A. ZERBET
b) Choix des variables de contrôle :
Un caractère statistique doit remplir trois conditions pour être
retenu comme une variable de contrôle :
1- avoir une distribution statistique connue ;
2- être facilement identifiables par l’enquêteur ;
3- être en corrélation étroite avec les variables étudiées.
Exemples des variables de contrôle :
Pour un échantillon de personnes : région, sexe, âge, catégorie socio
professionnelle.
Pour un échantillon de ménages : région, effectif de ménage,
catégorie socio professionnelle du chef de ménage.
Remarque : La distribution de la variable ‘revenu’ est connue
mais son observation par l’enquêteur est difficile, c’est pourquoi on
lui substitue la variable catégorie socio professionnelle.
29
A. ZERBET
c) Principe de la méthode :
• les caractères à observer n’étant pas, en général,
indépendants entre eux ; un échantillon qui ressemble à la
population pour un caractère ‘important’ lui ressemble
également pour un caractère lié au premier.
• Pour appliquer la méthode des quotas, il faut connaître la
répartition de la population suivant les variables de contrôle.
• On obtient les quotas, qui devront être respectés pour le choix
de l’échantillon, en multipliant par le taux de sondage les
effectifs correspondants aux diverses modalités des variables
de contrôle.

30
A. ZERBET
d) Exemple :
Soit une population étudiée selon les variables de contrôle, l’âge
et le sexe des individus, on suppose que le taux de sondage retenu
t=1/300.
La répartition de cette population selon les caractères le sexe et
l’âge est la suivante :
Sexe Age
Modalités Effectif Fréquence Modalités Effectif Fréquence
relative relative
Masculin 163 200 47.1 % [15 , 25[ 81 600 23.6 %
[25 , 35[ 58 500 16.9 %
Féminin 183 200 52.9 % [35 , 55[ 107 400 31 %
55 ans et 98 900 28.5 %
plus
Total 346 400 100 % Total 346 400 100 %
31
A. ZERBET
On obtient les quotas, qui devront être respectés par les
enquêteurs en multipliant les effectifs, correspondant aux
diverses modalités des variables de contrôle, par le taux de
sondage.

Tableau 2 : Quotas relatifs à la population étudiée pour


l’ensemble de l’échantillon
Sexe Age
Masculin 544 [15 , 25[ 272
[25 , 35[ 195
Féminin 611 [35 , 55[ 358
55 ans et plus 330
Total 1155 Total 1155
32
A. ZERBET
Supposant que chaque enquêteur doit réaliser 50 enquêtes, il est
alors possible de donner à chaque enquêteur le profit des
personnes enquêtées :
Sexe Age
Masculin 24 [15 , 25[ 12
[25 , 35[ 8
Féminin 26 [35 , 55[ 16
55 ans et plus 14
Total 50 Total 50

33
A. ZERBET

Vous aimerez peut-être aussi