Académique Documents
Professionnel Documents
Culture Documents
Enseignant-Chercheur IGT
1 Préambule
Vous devez effectuer une étude sur la qualité de vie des populations de plus de 18 ans sur
toute l’étendue du territoire. Pour des questions de coût et de temps, vous décidez d’interroger
1200 personnes. Quels paramètres avez-vous considéré dans le calcul de l’échantillon ? Vous
les répartissez en 150 zones de dénombrement sur tout le pays. Comment prendre en compte
toutes les régions du pays avec des tailles de population fortement différentes? Comment
prendre en compte les plus de 18 ans dans la construction de l’échantillon ? Comment
s’assurer de représentation des zones rurales et urbaines dans l’échantillon ? Comment tirer
les ménages dans chaque zone de dénombrement ? Comment sélectionner les individus dans
chaque ménage tiré ? tel est l’exercice de la construction d’un échantillon représentatif !!
Pour une population humaine, le recensement est une opération instantanée qui consiste à
compter systématiquement tous les individus sans omission ni répétition et fixer leurs
principales caractéristiques. En d’autres termes, c’est une photographie de tout le territoire
considéré. Pour une autre population, on parle de recensement lorsque la collecte porte sur
l’ensemble de la population statistique. C'est une opération exhaustive de collecte des
données. Quand on ne le peut pas, on a recours à la technique de sondage.
Sonder une population consiste à prélever une fraction de la population P, fraction appelée
échantillon. Si la population P comporte N éléments, on constitue un échantillon de taille n
en prélevant n éléments dans P. Deux procédés peuvent être envisagés pour constituer un
échantillon :
Le sondage simple par prélèvement au hasard de n éléments dans P
Le sondage stratifié par partition de P en v sous-populations (ou strates) P1, P2, …Pi, puis par
prélèvement d’un échantillon dans chaque strate de façon à obtenir un échantillon global plus
représentatif possible de la population P.
2 Sondages
Les sondages ont pour but la collecte de l'information à partir du choix d'un échantillon. La
technique de sondage consiste à tirer dans une population à étudier, les unités statistiques
(îlots, exploitations, entreprises, ménages, personnes, etc.) à interroger. Le choix entre un
recensement et un sondage est déterminé par la nature des unités statistiques observées, des
caractéristiques observées, l'aisance qu'on a à dénombrer la population, enfin la taille de la
population. Il y a donc limitation du champ d’étude pour des raisons comme le coût de
l’opération et l'étendue du champ de l’étude.
Ce sont des enquêtes portant seulement sur une partie ou sous ensemble de la population
statistique. Les résultats obtenus sont ensuite généralisés à toute la population. Le sondage a
deux principes :
- Plus l’effectif des unités de sondage est grand, plus les résultats obtenus sont proches de
ceux d’un recensement.
- La méthode du choix de la sous population échantillon est déterminante dans l'extrapolation
des résultats. Parmi les méthodes de sondage on distingue les méthodes probabilistes des
méthodes non probabilistes.
Ce sont des méthodes de sondage pour lesquelles on peut déterminer à priori la probabilité
qu'à chaque individu d'appartenir à l'échantillon et qui nécessitent une base de sondage. On
peut citer parmi ces méthodes:
- Le sondage aléatoire simple.
On extrait directement de l'univers un échantillon en accordant à chaque unité statistique la
même probabilité d'être tiré.
- Le sondage systématique.
La population est numérotée de 1 à N. On choisit ensuite un pas de tirage p=N/n. Les
individus tirés sont les individus numéro x , x + p , x + 2 p ; x étant choisi au hasard entre 1 et
le pas p.
[On tire 30 entreprises parmi les 500 du secteur formel. Le pas est p= 500/30= 16.67
Tirage du 1er individu: choisir un nombre compris entre 1 et p (10)
Tirage du 2ème individu: 10+ 16.67=26.67=27
Tirage du 3ème individu: 26.67+ 16.67=43.34=43 …..]
- Le sondage stratifié.
La population est repartie en sous ensembles homogènes mais distincts appelés strates. Le
tirage se fait au hasard dans chaque strate.
- Le sondage en grappes
C'est un sondage à plusieurs degrés dans lequel tous les individus sont observés au dernier
niveau. On fait un recensement au dernier degré.
la population. Pour obtenir un échantillon aléatoire simple de taille n extrait d’une population
P de taille N, on peut, par divers procédés, attribuer de façon univoque à chaque élément de P
un nombre entier compris entre 1et N puis prélever au hasard (à l’aide d’une table de nombres
au hasard ou d’un générateur de nombres aléatoires) n de ces N nombres entiers. Si dans le
prélèvement, on élimine tous les nombres déjà sortis, le sondage est exhaustif. Si on veut un
échantillon exhaustif, on élimine de la liste les numéros dès la première fois où ils nt été tirés.
Dans un sondage par strate, le prélèvement dans P consiste à réaliser une partition de la
population en sous-populations en fonction d’une ou plusieurs caractéristiques, chaque
élément de la population appartenant alors à une et une seule sous-population appelée strate.
L’échantillon stratifié est constitué de l’ensemble des sous-échantillons aléatoires simples
tirés au hasard de chaque strate.
Il s'agit des méthodes qui n'utilisent pas de base de sondage (lliste complète et à jour des unités
de l'univers sans omission ni double compte et tel que l'identification de chaque unité se fasse
sans ambiguïté). On choisit l’échantillon de telle sorte que les unités statistiques présentent
globalement les mêmes caractères (du moins ceux que l’on connaît) que l’ensemble statistique
dont elles sont issues. Elles sont généralement utilisées lorsqu'il est impossible de disposer
d'une base de sondage. Dans ce cas, le choix des unités est laissé à l'appréciation de l'agent
enquêteur.
Compte tenu du choix des unités qui est laissé aux agents enquêteurs, la méthode des quotas
peut engendrer un biais dans l'estimation appelé biais de sélection qui n'est malheureusement
pas mesurable. Ce biais peut provenir des éléments suivants:
- Interview sur une partie de la journée
- Interview sur une partie du territoire
- Interview des personnes qu'on connaît
Dr Esso Emmanuel
Enseignant-Chercheur IGT
Un critère pour définir la méthode des quotas reste la représentativité par rapport à la
population mère. Par exemple, pour une étude auprès de médecins, les critères de spécialité,
de type d'exercice, de sexe, d'âge, de région, de taille d'agglomération sont les plus pertinents.
Le second, tout aussi important est l'indépendance des individus les uns par rapport aux
autres. On se doute bien que si un échantillon est composé uniquement de femmes ou
d'hommes ou d'individus d'une même région, les individus seront « liés », les réponses
proches. Sur de petits échantillons, l'effet loupe est important. Il est préférable de ne pas
interroger des personnes dans un même quartier, un même cabinet de groupe, un même
service hospitalier, une même officine, etc. d’où tout l’intérêt d’une autre variante de la
méthode des cotas qu’est celle des itinéraires. Elle consiste à indiquer à l'enquêteur un
itinéraire à suivre et des points où il doit s'arrêter pour enquêter un individu échantillon. Son
avantage par rapport à la méthode de quotas est de limiter la liberté de choix de l'enquêteur
dans la sélection des unités. En cas d'absence d'un individu à un point de l'itinéraire, on
indique à l'enquêteur un autre point d'arrêt ce qui résout le problème des non réponses.
réalisés pour motiver les personnes contactées à répondre et vus les coûts engendrés. Par
ailleurs, on va perdre en précision puisque l’erreur associée va augmenter.
L’extraction d’un échantillon représentatif a posteriori
On pourra avoir recours à cette même technique pour constituer un échantillon représentatif, à
partir d’une grande base de réponses obtenues auprès d’un échantillon de convenance.
Typiquement, cette démarche peut être utilisée dans le cadre d’une enquête hébergée sur
Internet et diffusée par e-mail. Les protocoles de collecte par l’Internet garantissent très
rarement une méthode de sélection aléatoire car il est assez exceptionnel de disposer des e-
mails de la totalité d’une population-mère. En revanche, ils permettent de contacter
rapidement et à moindre coût un grand nombre d’interlocuteurs. On va pouvoir ainsi extraire
après coup et selon une méthode aléatoire, un échantillon représentatif selon des quotas
prédéfinis.
Le redressement par pondération
Cette méthode est moins frustrante que la méthode précédente mais elle n’en est pas plus
scientifique. On va certes conserver toutes les réponses enregistrées mais pour le
dépouillement, on va attribuer à chaque répondant un « poids » particulier en fonction de la
catégorie à laquelle il appartient. Ce poids est supérieur à 1 si sa catégorie n’est pas assez
représentée et il est inférieur à 1 si celle-ci est sur-représentée. Pour le dépouillement des
résultats ensuite, l’avis d’un individu ne pèsera plus 1 mais ce nouveau poids calculé. Par
exemple, si j’ai deux fois moins de femmes que prévu dans mon échantillon, le « poids »
d’une femme sera 2 et la réponse de chaque femme comptera double. Cette méthode de
redressement peut difficilement être mise en œuvre sans l’aide d’un logiciel. Pour chaque
catégorie, il convient de calculer le poids à utiliser en vue du redressement par pondération.
Les poids sont ensuite appliqués à chaque dépouillement envisagé. Pour chaque variable de
l’enquête, on multiplie les effectifs obtenus par le poids de redressement de chaque catégorie,
de nouvelles fréquences « redressées » sont ainsi obtenues
Le terme p.(1-p) varie entre les valeurs 0 et 0,25, avec une moyenne de 0,175. Si l’on veut
avoir un majorant de la taille de l’échantillon, on prend la valeur maximum de p.(1-p) soit
0,25 correspondant à p = 0,5. Si l’on veut une approche plus fine qui minimise l’erreur faite
sur l’évaluation de la taille, on prend la valeur moyenne soit 0,175 qui correspond à p = 0,226.
Exemple : Calculer la taille d’un échantillon indépendant pour avoir une marge d’erreur de 5
% avec un taux de confiance de 95 % sur une population dont on ne connait pas la proportion.
Le taux de confiance de 95 % nous donne un coefficient de marge t = 1,96. Prenons un
majorant de la taille en prenant p.(1-p) = 0,25. On peut écrire :
n = (1,96)2 x 0,25 / 0,052 = 384
Exemple :
Je souhaite bientôt mettre en place un sondage politique sur un échantillon de français.
Sachant que l’élection présidentielle à venir s’annonce particulièrement serrée et indécise, je
veux travailler avec une erreur maximale de 1 point. Combien de personnes faut-il alors
interroger ?
Une formule utilisée pour les enquêtes à caractère national (EDS, ESC). Elle
est recommandée pour les évaluations.
nD
Z 1 2 Pq Z1 P1q1 P2 q2
2
2
avec :
n = taille de l’échantillon
D = effet de grappe
P1 = niveau de départ
q1 = 1 - P1
P2 = niveau attendu à la fin de l’intervention (test final)
q2 = 1-P2
P= (P1 + P2)/2
q=1-P
= P2 - P1
= 0,05 (Z1- = 1,645) = 0,10 (Z1- = 1,282)
Quelques références
Magnani, Robert. 1997. Sampling guide. IMPACT Food Security and Nutrition
Monitoring Project, Arlington, Va.