Vous êtes sur la page 1sur 8

Dr Esso Emmanuel

Enseignant-Chercheur IGT

Méthodes de choix d’un échantillon représentatif

1 Préambule

Vous devez effectuer une étude sur la qualité de vie des populations de plus de 18 ans sur
toute l’étendue du territoire. Pour des questions de coût et de temps, vous décidez d’interroger
1200 personnes. Quels paramètres avez-vous considéré dans le calcul de l’échantillon ? Vous
les répartissez en 150 zones de dénombrement sur tout le pays. Comment prendre en compte
toutes les régions du pays avec des tailles de population fortement différentes? Comment
prendre en compte les plus de 18 ans dans la construction de l’échantillon ? Comment
s’assurer de représentation des zones rurales et urbaines dans l’échantillon ? Comment tirer
les ménages dans chaque zone de dénombrement ? Comment sélectionner les individus dans
chaque ménage tiré ? tel est l’exercice de la construction d’un échantillon représentatif !!

Pour une population humaine, le recensement est une opération instantanée qui consiste à
compter systématiquement tous les individus sans omission ni répétition et fixer leurs
principales caractéristiques. En d’autres termes, c’est une photographie de tout le territoire
considéré. Pour une autre population, on parle de recensement lorsque la collecte porte sur
l’ensemble de la population statistique. C'est une opération exhaustive de collecte des
données. Quand on ne le peut pas, on a recours à la technique de sondage.
Sonder une population consiste à prélever une fraction de la population P, fraction appelée
échantillon. Si la population P comporte N éléments, on constitue un échantillon de taille n
en prélevant n éléments dans P. Deux procédés peuvent être envisagés pour constituer un
échantillon :
Le sondage simple par prélèvement au hasard de n éléments dans P
Le sondage stratifié par partition de P en v sous-populations (ou strates) P1, P2, …Pi, puis par
prélèvement d’un échantillon dans chaque strate de façon à obtenir un échantillon global plus
représentatif possible de la population P.

2 Sondages
Les sondages ont pour but la collecte de l'information à partir du choix d'un échantillon. La
technique de sondage consiste à tirer dans une population à étudier, les unités statistiques
(îlots, exploitations, entreprises, ménages, personnes, etc.) à interroger. Le choix entre un
recensement et un sondage est déterminé par la nature des unités statistiques observées, des
caractéristiques observées, l'aisance qu'on a à dénombrer la population, enfin la taille de la
population. Il y a donc limitation du champ d’étude pour des raisons comme le coût de
l’opération et l'étendue du champ de l’étude.
Ce sont des enquêtes portant seulement sur une partie ou sous ensemble de la population
statistique. Les résultats obtenus sont ensuite généralisés à toute la population. Le sondage a
deux principes :
- Plus l’effectif des unités de sondage est grand, plus les résultats obtenus sont proches de
ceux d’un recensement.
- La méthode du choix de la sous population échantillon est déterminante dans l'extrapolation
des résultats. Parmi les méthodes de sondage on distingue les méthodes probabilistes des
méthodes non probabilistes.

2.1 Méthodes Probabilistes


Dr Esso Emmanuel
Enseignant-Chercheur IGT

Ce sont des méthodes de sondage pour lesquelles on peut déterminer à priori la probabilité
qu'à chaque individu d'appartenir à l'échantillon et qui nécessitent une base de sondage. On
peut citer parmi ces méthodes:
- Le sondage aléatoire simple.
On extrait directement de l'univers un échantillon en accordant à chaque unité statistique la
même probabilité d'être tiré.

- Le sondage systématique.
La population est numérotée de 1 à N. On choisit ensuite un pas de tirage p=N/n. Les
individus tirés sont les individus numéro x , x + p , x + 2 p ; x étant choisi au hasard entre 1 et
le pas p.
[On tire 30 entreprises parmi les 500 du secteur formel. Le pas est p= 500/30= 16.67
Tirage du 1er individu: choisir un nombre compris entre 1 et p (10)
Tirage du 2ème individu: 10+ 16.67=26.67=27
Tirage du 3ème individu: 26.67+ 16.67=43.34=43 …..]

- Le sondage stratifié.
La population est repartie en sous ensembles homogènes mais distincts appelés strates. Le
tirage se fait au hasard dans chaque strate.

- Le sondage à plusieurs degrés


Il s’agit d’une succession de sondages stratifiés.
Exemple:
Supposons qu’on veut tirer un échantillon de personnes dans un pays. Le pays est divisé en
départements. On tire d’abord les départements (tirage au premier degré).Les départements
sont divisés en sous préfectures. Dans les départements tirés précédemment, on tire les sous -
préfectures (tirage au 2e degré). Les sous - préfectures sont divisées en canton.
Dans les sous - préfectures tirées précédemment on tire des cantons (sondage au 3e degré).
Dans les cantons tirés précédemment on tire des villages (tirage au 4e degré).
Dans les villages tirés précédemment on tire les personnes (sondage 5e degré).

- Le sondage en grappes
C'est un sondage à plusieurs degrés dans lequel tous les individus sont observés au dernier
niveau. On fait un recensement au dernier degré.

- Le sondage à probabilités inégales


C'est un sondage dans lequel tous les individus n’ont pas le même poids et donc une
probabilité égale d’être tirée. Généralement, le poids considéré est la taille de la population ou
celle des ménages.

Encadré 1 : Sondages aléatoire simple et stratifié


Dans un sondage aléatoire simple, chaque élément de la population a la même chance d’être
extrait de la population P et donc de faire partie de l’échantillon. Si la population comprend N
individus, chaque individu a une probabilité 1/N d’être tiré. Ce sondage aléatoire simple peut
être réalisé à partir de tirages avec ou sans remise. Un échantillon aléatoire avec remise
(échantillon non exhaustif) est obtenu par prélèvement successifs d’éléments dans la
population après son observation, un même élément pouvant donc théoriquement être tiré et
analysé plusieurs fois. Un échantillon aléatoire sans remise ou échantillon exhaustif est
constitué d’éléments obligatoirement différents, un élément une fois tiré n’est pas remis dans
Dr Esso Emmanuel
Enseignant-Chercheur IGT

la population. Pour obtenir un échantillon aléatoire simple de taille n extrait d’une population
P de taille N, on peut, par divers procédés, attribuer de façon univoque à chaque élément de P
un nombre entier compris entre 1et N puis prélever au hasard (à l’aide d’une table de nombres
au hasard ou d’un générateur de nombres aléatoires) n de ces N nombres entiers. Si dans le
prélèvement, on élimine tous les nombres déjà sortis, le sondage est exhaustif. Si on veut un
échantillon exhaustif, on élimine de la liste les numéros dès la première fois où ils nt été tirés.
Dans un sondage par strate, le prélèvement dans P consiste à réaliser une partition de la
population en sous-populations en fonction d’une ou plusieurs caractéristiques, chaque
élément de la population appartenant alors à une et une seule sous-population appelée strate.
L’échantillon stratifié est constitué de l’ensemble des sous-échantillons aléatoires simples
tirés au hasard de chaque strate.

2.2 Méthodes non probabilistes dites empiriques ou à choix raisonné.

Il s'agit des méthodes qui n'utilisent pas de base de sondage (lliste complète et à jour des unités
de l'univers sans omission ni double compte et tel que l'identification de chaque unité se fasse
sans ambiguïté). On choisit l’échantillon de telle sorte que les unités statistiques présentent
globalement les mêmes caractères (du moins ceux que l’on connaît) que l’ensemble statistique
dont elles sont issues. Elles sont généralement utilisées lorsqu'il est impossible de disposer
d'une base de sondage. Dans ce cas, le choix des unités est laissé à l'appréciation de l'agent
enquêteur.

La Méthode des quotas

C'est la méthode empirique la plus fréquemment rencontrée. Elle consiste à imposer à


l'échantillon de respecter des répartitions selon certains critères afin de représenter au mieux
la population. Ces critères doivent être des variables liées au sujet de l'enquête. On définit
donc des quotas aux agents mais le choix final des unités à enquêter leur revient.
Pour appliquer la méthode des cotas, il faut avoir une connaissance d'une ou plusieurs
variables de l'univers qui sont liées à l'objet de l'étude. Souvent, c'est plus facile de faire la
différentiation selon le sexe, selon la catégorie socioprofessionnelle. L’échantillon est une
représentation à l’échelle réduite de l’ensemble à étudier du moins sur certains caractères,
mêmes proportions dans l’échantillon et dans l’univers à étudier. La méthode des quotas
s’appuie sur la connaissance qu’on a de l’univers à étudier à partir d’un recensement par
exemple.
Supposons que les études ont révélé que la population comporte 48% d'hommes et 52% de
femmes. Le responsable du projet d'enquête va s'assurer d'avoir à enquêter un échantillon qui
respecte cette répartition. Par exemple, s'il veut enquêter 500 personnes, il suffit d'avoir dans
l'échantillon 240 hommes et 260 femmes.

Exercice: On cherche à enquêter 300 entreprises du secteur informel. D'après la recherche


documentaire et les études antérieures, on se rend compte que la structure des entreprises est
la suivante: 20% de production, 50% commerce et 30% services. Constituer l'échantillon

Compte tenu du choix des unités qui est laissé aux agents enquêteurs, la méthode des quotas
peut engendrer un biais dans l'estimation appelé biais de sélection qui n'est malheureusement
pas mesurable. Ce biais peut provenir des éléments suivants:
- Interview sur une partie de la journée
- Interview sur une partie du territoire
- Interview des personnes qu'on connaît
Dr Esso Emmanuel
Enseignant-Chercheur IGT

Un critère pour définir la méthode des quotas reste la représentativité par rapport à la
population mère. Par exemple, pour une étude auprès de médecins, les critères de spécialité,
de type d'exercice, de sexe, d'âge, de région, de taille d'agglomération sont les plus pertinents.
Le second, tout aussi important est l'indépendance des individus les uns par rapport aux
autres. On se doute bien que si un échantillon est composé uniquement de femmes ou
d'hommes ou d'individus d'une même région, les individus seront « liés », les réponses
proches. Sur de petits échantillons, l'effet loupe est important. Il est préférable de ne pas
interroger des personnes dans un même quartier, un même cabinet de groupe, un même
service hospitalier, une même officine, etc. d’où tout l’intérêt d’une autre variante de la
méthode des cotas qu’est celle des itinéraires. Elle consiste à indiquer à l'enquêteur un
itinéraire à suivre et des points où il doit s'arrêter pour enquêter un individu échantillon. Son
avantage par rapport à la méthode de quotas est de limiter la liberté de choix de l'enquêteur
dans la sélection des unités. En cas d'absence d'un individu à un point de l'itinéraire, on
indique à l'enquêteur un autre point d'arrêt ce qui résout le problème des non réponses.

Méthode de "boule de neige"

Utilisée par les policiers


Utilisée dans certaines enquêtes agricoles
Inconvénients: risque de double compte

NB: Certaines enquêtes ne nécessitent pas l’interrogation de personnes. Par exemple si on


veut étudier les salaires des fonctionnaires, il est inutile d’interroger ces derniers sur leurs
salaires. En effet ces informations sont contenues dans les documents administratifs du
ministère de finances.

Encadré 2 : Constitution d’un échantillon


Population-mère et échantillon :
Le chercheur a rarement les moyens de contacter tous les membres de la population qui
l'intéresse, c'est-à-dire la population-mère. Dans ce cas, il réaliserait un "recensement". Du
coup, il doit se limiter a une population plus réduite (= l'échantillon) qui est censée représenter
au mieux la population-mère. L’échantillon doit être :
Précis : d'une taille suffisante pour que l'erreur d'estimation qu'il introduit soit acceptable
Représentatif : sa composition doit être semblable à celle de la population-mère
Comment constituer un échantillon représentatif ?
Deux types de méthodes existent : les méthodes probabilistes ou empiriques. La méthode
probabiliste (ou aléatoire) constitue à sélectionner au hasard les individus à interroger en
garantissant à chacun, la même probabilité d'être interrogé. Pour cela, il faut disposer de la
liste complète des membres de la population-mère pour pouvoir mettre en œuvre une
véritable sélection aléatoire.
La méthode empirique consiste à composer son échantillon sur les bases des caractéristiques
connues de la population-mère. On sait qu'il y a 52% de femmes dans la population française.
On veut un échantillon représentatif de 500 personnes. On interrogera exactement 260
femmes. On fixe alors ce qu'on appelle des quotas. Si l'échantillon ne respecte pas ces critères
de représentativité, il est considéré comme biaisé et il faudra effectuer un redressement.
Le redressement par suppression
Afin de retrouver les proportions attendues (celles de la population-mère), on peut supprimer
aléatoirement des répondants parmi les catégories sur-représentées. Cela signifie que l’on va
réduire d’autant la taille globale de notre échantillon, ce qui est frustrant, vus les efforts
Dr Esso Emmanuel
Enseignant-Chercheur IGT

réalisés pour motiver les personnes contactées à répondre et vus les coûts engendrés. Par
ailleurs, on va perdre en précision puisque l’erreur associée va augmenter.
L’extraction d’un échantillon représentatif a posteriori
On pourra avoir recours à cette même technique pour constituer un échantillon représentatif, à
partir d’une grande base de réponses obtenues auprès d’un échantillon de convenance.
Typiquement, cette démarche peut être utilisée dans le cadre d’une enquête hébergée sur
Internet et diffusée par e-mail. Les protocoles de collecte par l’Internet garantissent très
rarement une méthode de sélection aléatoire car il est assez exceptionnel de disposer des e-
mails de la totalité d’une population-mère. En revanche, ils permettent de contacter
rapidement et à moindre coût un grand nombre d’interlocuteurs. On va pouvoir ainsi extraire
après coup et selon une méthode aléatoire, un échantillon représentatif selon des quotas
prédéfinis.
Le redressement par pondération
Cette méthode est moins frustrante que la méthode précédente mais elle n’en est pas plus
scientifique. On va certes conserver toutes les réponses enregistrées mais pour le
dépouillement, on va attribuer à chaque répondant un « poids » particulier en fonction de la
catégorie à laquelle il appartient. Ce poids est supérieur à 1 si sa catégorie n’est pas assez
représentée et il est inférieur à 1 si celle-ci est sur-représentée. Pour le dépouillement des
résultats ensuite, l’avis d’un individu ne pèsera plus 1 mais ce nouveau poids calculé. Par
exemple, si j’ai deux fois moins de femmes que prévu dans mon échantillon, le « poids »
d’une femme sera 2 et la réponse de chaque femme comptera double. Cette méthode de
redressement peut difficilement être mise en œuvre sans l’aide d’un logiciel. Pour chaque
catégorie, il convient de calculer le poids à utiliser en vue du redressement par pondération.
Les poids sont ensuite appliqués à chaque dépouillement envisagé. Pour chaque variable de
l’enquête, on multiplie les effectifs obtenus par le poids de redressement de chaque catégorie,
de nouvelles fréquences « redressées » sont ainsi obtenues

3. Taille d’un échantillon


La taille de l’échantillon a une influence fondamentale sur la précision des estimations
réalisées sur les caractéristiques de la population-mère.
Pour des raisons économiques, il est nécessaire d’utiliser une taille d’échantillon la plus
réduite possible tout en obtenant un taux de confiance suffisant.
Trois paramètres doivent être pris en compte pour la détermination d’une taille minimum
d’échantillon :
La marge d’erreur que l’on se donne pour la grandeur que l’on veut estimer,
Le taux de confiance que l’on souhaite garantir sur la mesure,
La proportion connue ou supposée dans la population-mère.
Dans les formules suivantes on appelle :
N : la taille de la population-mère, n : la taille de l’échantillon, e : la marge d’erreur, t : le
coefficient de marge déduit du taux de confiance, p : la proportion des éléments de la
population-mère qui présentent une propriété donnée.
Les taux de confiance les plus utilisés et les coefficients de marge associés sont donnés dans
le tableau suivant :
Dr Esso Emmanuel
Enseignant-Chercheur IGT

Cas de l’échantillon indépendant (non exhaustif)


La formule donnant la taille de l’échantillon minimum est la suivante :

Cas de l’échantillon exhaustif


La formule devient la suivante :

L’application des formules précédentes suppose la connaissance de la proportion d’éléments


de la population-mère sur laquelle porte l’étude. Deux approches sont possibles :
Réaliser un pré-sondage sur un échantillon de petite taille pour avoir une approximation de
cette proportion,
Estimer au mieux cette proportion. Dans les formules précédentes, la proportion p est
présente sous la forme de la fonction p.(1-p) dont on a représenté ci-dessous la variation :

Le terme p.(1-p) varie entre les valeurs 0 et 0,25, avec une moyenne de 0,175. Si l’on veut
avoir un majorant de la taille de l’échantillon, on prend la valeur maximum de p.(1-p) soit
0,25 correspondant à p = 0,5. Si l’on veut une approche plus fine qui minimise l’erreur faite
sur l’évaluation de la taille, on prend la valeur moyenne soit 0,175 qui correspond à p = 0,226.
Exemple : Calculer la taille d’un échantillon indépendant pour avoir une marge d’erreur de 5
% avec un taux de confiance de 95 % sur une population dont on ne connait pas la proportion.
Le taux de confiance de 95 % nous donne un coefficient de marge t = 1,96. Prenons un
majorant de la taille en prenant p.(1-p) = 0,25. On peut écrire :
n = (1,96)2 x 0,25 / 0,052 = 384

Exemple :
Je souhaite bientôt mettre en place un sondage politique sur un échantillon de français.
Sachant que l’élection présidentielle à venir s’annonce particulièrement serrée et indécise, je
veux travailler avec une erreur maximale de 1 point. Combien de personnes faut-il alors
interroger ?

n = 0,25 / ( e / 1,96 ) ² = 0,25 / ( 0,01 / 1,96 ) ² = 9 604 personnes.


Dr Esso Emmanuel
Enseignant-Chercheur IGT

Un exemple de calcul progressif de la taille d’un l'échantillon

Dans ce cas, la taille de l'échantillon se réfère au nombre d'enfants à inclure dans


l'enquête.
Première étape: Calcul de la taille de l'échantillon de base
Trois facteurs déterminent essentiellement la taille de l'échantillon pour une
enquête faite dans la population: i) la prévalence estimative de la variable étudiée
– malnutrition chronique dans le cas présent, ii) le niveau de confiance visé et iii)
la marge d'erreur acceptable.
Pour un modèle d'enquête fondé sur un échantillon aléatoire simple, on peut
calculer la taille d'échantillon requise en appliquant la formule suivante.
Formule:
n= t² x p(1-p)

Explication:
n = taille d'échantillon requise
t = niveau de confiance à 95% (valeur type de 1,96)
p =prévalence estimative de la malnutrition dans la zone du projet
m = marge d'erreur à 5% (valeur type de 0,05)
Exemple
Dans le projet d'Al Haouz au Maroc, on a estimé qu'environ 30% (0,3) des enfants
de la zone du projet souffraient de malnutrition chronique. Ce chiffre provenait des
statistiques nationales sur la malnutrition en milieu rural. L'utilisation des valeurs
types indiquées plus haut donne le calcul suivant.
Calcul:
n= 1.96² x .3(1-.3)
.05²
n = 3.8416 x .21
.0025
n = .8068
.0025
n = 322.72 ~ 323

Deuxième étape: Effet du plan d’échantillonnage


L'enquête anthropométrique repose sur un échantillon en grappes (sélection
représentative de villages), et non pas sur un échantillon aléatoire simple. Pour
corriger la différence, on multiplie la taille de l'échantillon par l'effet du plan
d’échantillonnage(D).
On suppose généralement que cet effet est de 2 pour les enquêtes nutritionnelles
faisant appel au sondage en grappes.
Exemple
n x D = 323 x 2 = 646
Troisième étape: Impondérables
On ajoute encore 5% à l'échantillon pour tenir compte d’impondérables comme les
non-réponses ou les erreurs d'enregistrement.
Exemple
n + 5% = 646 x 1.05 = 678.3 ˜ 678
Quatrième étape: Distribution des sujets observés
Pour conclure, on arrondit le chiffre obtenu au nombre le plus proche du nombre
Dr Esso Emmanuel
Enseignant-Chercheur IGT

de grappes (30 villages) à étudier.


Exemple
Taille d'échantillon finale: N = 690 enfants
On divise ensuite la taille d'échantillon finale (N) par le nombre de grappes (30)
pour déterminer le nombre de sujets à observer par grappe.
Exemple
N ÷ no. grappes = 690 ÷ 30 = 23 enfants par village

Une formule utilisée pour les enquêtes à caractère national (EDS, ESC). Elle
est recommandée pour les évaluations.

nD
Z 1  2 Pq  Z1   P1q1  P2 q2 
2

2
avec :
n = taille de l’échantillon
D = effet de grappe
P1 = niveau de départ
q1 = 1 - P1
P2 = niveau attendu à la fin de l’intervention (test final)
q2 = 1-P2
P= (P1 + P2)/2
q=1-P
 = P2 - P1
 = 0,05 (Z1- = 1,645)  = 0,10 (Z1- = 1,282)

Quelques références

Pierre-Charles Pupion, 2008. Statistiques pour la gestion, Applications Excel et


SPSS, 2ème édition.

FAO. 1992. Conduite de petites enquêtes nutritionnelles – Manuel de terrain,


Rome.

Magnani, Robert. 1997. Sampling guide. IMPACT Food Security and Nutrition
Monitoring Project, Arlington, Va.