Vous êtes sur la page 1sur 34

T HÉORIE ET PRATIQUES

DES SONDAGES
Notes de cours

Première licence sciences économiques & Deuxième licence sciences de gestion

Bienvenu M. Selenge

Université de Kalemie • juin 2022


Ce document est un support pour les enseignements du cours de Théorie et pratiques des sondages à la faculté des
sciences économiques et de gestion de l’Université de Kalemie. Il correspond aux enseignements en L1 (Bac+4) Économie
et en L2 (Bac+5) Gestion et couvre les concepts de base des sondages, l’interprétation des sondages aléatoires et la pratique
des sondages. À la fin de chaque chapitre, nous proposons un nombre important d’exercices pour faciliter l’apprentissage
de ces matières par les étudiants.
Ce support n’est pas parti du zéro. Il est une réécriture du manuscrit de M. Didier Mbay Rumbu, chef des travaux à
l’Institut supérieur de commerce (ISC, Lubumbashi), notre formateur et ancien titulaire de ce cours, que nous avons enrichi
en nous appuyant sur une documentation riche, des ouvrages reconnus dans la discipline, mais aussi des ressources en
ligne qui sont de plus en plus présents aujourd’hui dans la diffusion de la connaissance. Une liste sélective des ouvrages
consultés est présentée dans la bibliographie.
Ce cours a été enseigné sous la supervision du Pr Pacifique Mongongo Dosa, Ph.D. Nous le remercions pour ses
précieux conseils. Je reste toutefois le seul responsable des erreurs contenues dans ce document. Pour des commentaires ou
remarques, me contacter à l’adresse ci-dessous.

Bienvenu Mulunda Selenge


Département d’économie
Université de Kalemie
E-mail : bm.selenge@gmail.com
Bibliographie

Anderson, D. R., Sweeney, D. J., Williams, T. A., Camm, J. D. & Cochran, J. J. (2015), Statistiques pour l’économie et la
gestion, 5 edn, De Boeck Supérieur, Paris.
Bugandwa, D. (2013-2014), Cours de théorie et pratique des sondages, Université Catholique de Bukavu.

Chaudhuri, A. (2019), Survey sampling, CRC Press.


Droesbeke, J.-J., Fichet, B. & Tassi, P. (1987), Les sondages, Economica, Paris, France.
Haccoun, R. & Cousineau, D. (2010), Statistiques : concepts et applications, 2 edn, Presses de l’Université de Montréal,
Québec.

Levy, P. S. & Lemeshow, S. (2008), Sampling of populations : methods and applications, 4 edn, Wiley, Hoboken, New
Jersey.
McClave, J., Benson, G. & Sincich, T. (2018), Statistics for Business and Economics, 13 edn, Pearson Education, Harlow,
UK.
Pitard, F. F. (2019), Theory of Sampling and Sampling Practice, 3 edn, CRC Press.

Tillé, Y. (2020), Théorie des sondages : échantillonnage et estimation en populations finies, Wiley, Hoboken, NJ.
Tremblay, M.-E., Lavallée, P. & haj Tirari, M. E. (2011), Pratiques et méthodes de sondage, Dunod, Paris.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


Table des matières

Avant-propos 2

Bibliographie 2

Table des matières 3

Introduction 5

1 Les méthodes de sondage 7


1.1 Définition d’un sondage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Les principaux avantages du sondage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Limites des enquêtes par sondage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3 Les méthodes de sondages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 La méthode d’échantillonnage par quotas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Mise en œuvre de la méthode de quotas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Avantage et inconvénient de l’échantillonnage par quotas . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Échantillonnage aléatoire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Tirage avec remise ou sans remise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Fondement du sondage aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3 Détermination de la taille de l’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Interprétation des sondages aléatoires 20


2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Convergence d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Méthodes d’estimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Intervalle de confiance des paramètres d’une population . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.1 Intervalle de confiance de la moyenne d’une population . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2 Intervalle de confiance du pourcentage d’une population . . . . . . . . . . . . . . . . . . . . . . 24
2.4.3 Inégalité de Bienaymé-Chebychev et intervalle de confiance . . . . . . . . . . . . . . . . . . . . 25
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 La pratique des sondages aléatoires 29


3.1 La base de sondage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Procédés de tirage de l’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Méthode d’échantillonnage aléatoire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Méthode d’échantillonnage systématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.3 Méthode d’échantillonnage par grappes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.4 Méthode d’échantillonnage stratifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Le sondage avec probabilité inégales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.2 Réalisation pratique du tirage de l’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.4 Détermination des probabilités de tirage optimales . . . . . . . . . . . . . . . . . . . . . . . . . 34

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


TABLE DES MATIÈRES 5

3.4 Le sondage à plusieurs degrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34


3.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2 Avantages et inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.3 Modalités pratique du tirage d’un échantillon à deux degrés . . . . . . . . . . . . . . . . . . . . 34
3.5 Travaux pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


Introduction

La statistique descriptive, la statistique mathématique et d’autres cours connexes donnent aux chercheurs que nous
sommes une démarche, une technique pour résoudre les problèmes d’économie et de gestion quel que soit le domaine.
Ces techniques statistiques indispensables à toutes autres sciences ou plus particulièrement aux responsables et cadres
d’entreprises, constituent ce que nous appelons « les méthodes de recherche statistique ». Une grande partie de ces méthodes
ayant été vue dans les cours susmentionnés, nous consacrerons notre étude aux méthodes de sondages, à leur interprétation
et à leur pratique.
Les données dont on dispose pour faire une étude proviennent parfois de la population dans son ensemble, mais le plus
souvent ces données proviennent d’un échantillon. Le problème principal consistera à déterminer, à partir des informations
fournies par un échantillon, certaines caractéristiques de la population d’où est extrait cet échantillon. En d’autres termes,
les résultats obtenus auprès de l’échantillon représentatif choisi seront extrapolés à l’ensemble de la population qu’elle
représente.
En règle générale, il est intéressant d’avoir les données les plus exhaustives possibles sur une population. C’est un
moyen d’avoir une représentation, un portrait le plus fiable possible de cette population que l’on étudie. C’est le cas pour
le dénombrement de la population d’un pays ou d’une région donnée, de ses naissances et de ses décès, de sa répartition
suivant l’âge ou le sexe. Mais il n’est pas toujours nécessaire de procéder au recueil d’une information la plus large possible
sur une population. C’est le cas de taux d’équipements des ménages ou de leur poste de dépenses de consommation :
l’interrogation d’un échantillon est largement suffisante.
Quand faut-il interroger toute une population au plutôt un échantillon ? C’est l’importance attribuée à l’obtention d’un
portrait exhaustif de la population, sa nécessité et sa faisabilité qui vont déterminer si un échantillon et suffisant ou pas ou
si l’image complète de la population est nécessaire. Chacun de ces choix a des avantages et des inconvénients. Le principal
intérêt d’interroger une population complète est l’exhaustivité et donc la précision de l’information. Ses défauts sont, entre
autres, son coût, sa lourdeur dans sa gestion administrative et les délais très longs. L’échantillon a pour principal avantage
d’être moins coûteux et de donner, grâce aux techniques statistiques, une image assez fiable de l’ensemble de la population.
Son inconvénient majeur c’est que l’erreur d’échantillonnage remet en question la fiabilité de l’image. Il arrive que malgré
une grande rigueur dans la constitution de l’échantillon, celui-ci ne reflète pas la population qu’il est censé représenter.
Dans ce cas on parle de distorsion entre l’échantillon et sa population d’origine.
L’exemple le plus connu de l’enquête pour obtenir un portrait exhaustif d’une population donnée est le recensement de
la population et l’exemple le plus connu d’enquête sur un échantillon est le sondage d’opinion. On aura donc recours à des
techniques (méthodes) bien plus précises pour construire un échantillon et s’assurer qu’il est représentatif de sa population.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


Chapitre 1

Les méthodes de sondage

1.1 Définition d’un sondage


Une enquête par sondage ou plus simplement un sondage est une enquête menée auprès d’un échantillon de personnes
qui sont considérées comme représentatives d’un ensemble social sur lequel on souhaiterait recueillir des informations ou
connaitre l’opinion. On peut également dire que le sondage en sciences humaines est un instrument de recherche de mesure,
de structuration et de présentation de l’information fondée sur l’obtention de réponses à un ensemble de questions posées à
un échantillon d’une population. Et, en raison de caractère représentatif de l’échantillon, les observations effectuées sur
l’échantillon permettent d’estimer la distribution et les caractéristiques de la population de référence.
De ces définitions, on retiendra 2 choses :
i) Le choix de l’échantillon est fondamental dans le cas d’un sondage d’opinion.
ii) Le principal objet de sondage est d’obtenir des informations permettant de répondre à des questions et de vérifier les
hypothèses d’une recherche.
Il existe différentes catégories de sondages :
– Le sondage ponctuel (ou en coupe transversale) : réalisé une fois, il sert à décrire certaines caractéristiques d’une
population.
– Le sondage de tendance : réalisé à plusieurs reprises, il permet d’observer dans le temps, l’évolution globale de
certaines caractéristiques de la population ; il est basé sur la fidélité à la même notion et au même questionnaire.
– Le sondage de panel est administré plusieurs fois au même échantillon d’individus ; il permet d’étudier le changement
au niveau individuel à l’inverse du sondage de tendance qui étudie ce changement globale.

1.1.1 Les principaux avantages du sondage


Par rapport aux enquêtes sur une population entière, les enquêtes par sondage présentent des avantages de coût, de
rapidité et de souplesse.

Coût et rapidité
Supposons que le Ministère de l’habitat confie à une équipe de chercheurs l’étude de la faisabilité de développement
d’un vaste programme d’habitation à l’échelle nationale. Il sera utile aux chercheurs de connaître au préalable les besoins
(superficie, nombre de pièces,...), les goûts (maisons individuelles, appartements,...) et la possibilité de financement de
la population en matière de logement. Deux solutions peuvent être envisagées : i) L’équipe peut envisager d’effecteur
une enquête exhaustive en interrogeant tous les ménages de la RDC, ii) L’équipe peut aussi procéder par sondage en
interrogeant, par exemple, un ménage sur 3000.
Il y a plusieurs millions de ménages en RDC. On imagine quels moyens matériels et quels délais seraient nécessaires
pour mettre en œuvre la première solution (enquête exhaustive). En procédant par sondage, au contraire, le nombre
d’interviews à réaliser devient relativement faible en dépenses et en temps et donne des résultats assez fiables.

Souplesse dans le choix des concepts


L’enquête par sondage permet de définir un ensemble de règles (définitions, nomenclatures, procédures d’enregistrement
ou de contrôle,...) susceptibles de varier grandement dans le temps ou dans l’espace, d’une entreprise ou d’un pays à l’autre.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


8 Chapitre 1. Les méthodes de sondage

Précision et richesse des observations


Grâce à sa taille, l’enquête par sondage permet l’intervention d’un enquêteur de métier (enquête socioéconomique,
enquête de marché) ou d’un personnel qualifié (contrôle de fabrication) et rend possible l’observation précise et simultanée
de nombreux caractères.
Ainsi, une enquête de consommation permet d’obtenir pour chaque ménage :
– Ses caractéristiques socio-démographiques (effectif et composition par âge, catégorie socioprofessionnelle, niveau
d’instruction, ville, commune de résidence) ;
– Son revenu annuel ;
– Son équipement en biens durables (réfrigérateur, machine à laver, automobile, TV, etc.) avec leur date d’acquisition
– Ses consommations détaillées sur une période déterminée ; etc.
Dans une enquête sur support publicitaire, on peut relever, pour chaque individu appartenant à l’échantillon :
– Ses caractéristiques socio-démographiques : sexe, âge, catégorie socioprofessionnelle, niveau d’instruction, habitudes
de consommation, lieu de résidence,...
– Le nombre et la nature de ses lectures ;
– Le nombre de fois où il est allé au cinéma ;
– Les émissions écoutées à la radio et rejouée à la télévision ; etc.
Ces informations permettent de calculer, par exemple, combien d’individus d’une catégorie donnée auront l’occasion
d’être touchés par l’émission d’un message publicitaire sur un support déterminé (par exemple le journal A) ou combien
d’individus seront susceptibles d’être touchés au moins une fois par un message publicitaire lancé simultanément sur des
supports différents (par exemple le journal A et B, le magazine et la télévision).

1.1.2 Limites des enquêtes par sondage


Avant de prélever un échantillon, il faut que la population ainsi que ses caractéristiques soient bien définies. Il ne faut
pas qu’il soit douteux de l’appartenance ou non d’un individu à la population de référence.
Par exemple, dans une enquête sur support publicitaire, il faut bien déterminer s’il faut impliquer tous les habitants de
la RDC, toutes les personnes ayant la nationalité congolaise et habitant le Congo, en plus, faut-il compter le groupe des
détenus, des malades mentaux.
En ce qui concerne les caractères de la population, il ne faut pas seulement les décrire largement et exactement mais
aussi définir chaque caractère en particulier. Bref, les limites des enquêtes par sondage tiennent essentiellement aux erreurs
d’échantillonnage et aux difficultés de désignation de l’échantillon.

1.1.2.1 Erreurs d’échantillonnage


Les enquêtes par sondage sont fondées sur la loi des grands nombres : les extrapolations à la population de référence
des grandeurs mesurées sur l’échantillon ne peuvent être réalisées, avec une précision acceptable qu’à partir d’échantillons
de taille suffisamment importante. La méthode de sondage ne pourra donc s’appliquer à des populations dont la taille est
considérée comme petite par rapport à la taille de l’échantillon 1 : celles-ci devront être observées exhaustivement.
Des précautions devront également être prises lorsque la population est constituée d’unités de tailles très inégales par
exemple d’établissement industriel d’importances très différentes. La méthode de sondage reste applicable dans ce cas mais
elle exige, pour être précise, une connaissance approximative de la taille de chaque unité façon d’en tenir compte lors du
tirage de l’échantillon, on est conduit, en effet, à adopter un taux de sondage beaucoup plus levé pour les établissements les
plus importantes.

1.1.2.2 Difficultés de désignation de l’échantillon


Il est souvent difficile de localiser la population tel que le montre l’exemple ci-haut. Prenons un autre exemple :
supposons que l’on veuille procéder à une « étude approfondie de chômage dans la ville de Kalemie ». Les chômeurs
sont répartis sur l’ensemble des communes de la ville et dans les villages environnants. Hormis ceux qui sont inscrits au
service national de l’emploi, on ne connaît pas a priori leurs adresses. Il faudra donc partir d’un énorme échantillon courant
l’ensemble de la population pour finalement dégager un échantillon utile de taille suffisante.
Ces difficultés de désignation seront souvent rencontrées dans le domaine des enquêtes de marché, aggravées parfois par
l’imprécision de la population de référence. Pour étudier le marché d’une matière plastique nouvelle, il faudra commencer
par définir l’ensemble des acheteurs potentiels, par exemple les entreprises susceptibles de l’utiliser dans leur fabrication.
Une enquête préliminaire pourra être nécessaire pour délimiter ce domaine d’étude. C’est seulement dans une deuxième
1. Dans certains ouvrages, on donne le nom de « taux de sondage » au rapport (n/N) et l’on considère que la population est petite si ce rapport est
supérieur à 5 %, ce qui est équivalent à N < 20n. Á l’inverse, une population est dite de grande taille si N ⩾ 20n.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


1.2 La méthode d’échantillonnage par quotas 9

phase que l’enquête du marché proprement dite sera effectuée. Pour la réalisation d’un sondage aléatoire, les difficultés
seront encore plus grandes : on devra disposer d’une base de sondage, c’est-à-dire la liste permettant de repérer sans
omission ni répétition tous les individus appartenant à la population de référence.

1.1.3 Les méthodes de sondages


On distingue deux grandes catégories de méthode de sondage :
– Les méthodes de sondage non probabilistes (ou empiriques) ;
– Les méthodes de sondage probabilistes ou aléatoires.
Parallèlement, on a recours à des techniques bien précises, pour construire un échantillon et s’assurer qu’il est
représentatif de sa population mère. Il existe 2 grandes catégories de méthodes :
– Les méthodes d’échantillonnage non probabiliste ou empirique ;
– Les méthodes d’échantillonnage probabiliste ou aléatoire.
Les méthodes d’échantillonnage empirique regroupent les techniques où les éléments de l’échantillon sont choisis sur
terrain en fonction du jugement de l’enquêteur (et non du hasard). Elles ne nécessitent pas de base de sondage, elles sont
rapides et pas très chères. Toutefois, il serait hasardeux de généraliser à toute la population les résultats obtenus à partir de
l’échantillon. On a néanmoins recours à des méthodes de ce type dans certains domaines, dont les études de marché ou les
études de comportement des consommateurs. Parmi ces méthodes, nous avons :
– L’échantillonnage à l’aveuglette ou accidentel ;
– L’échantillonnage de volontaires ;
– L’échantillonnage par quotas.
Nous reviendrons sur l’échantillonnage par quotas qui est particulièrement très utilisée parmi les méthodes non probabilistes.
Les méthodes d’échantillonnage probabiliste regroupent les techniques qui font intervenir le hasard pour choisir les
éléments de l’échantillon. Chaque unité de la population a une probabilité mesurable et non nulle d’être choisie. Leur
avantage est de permettre de généraliser les résultats de l’échantillon à l’ensemble de la population selon une théorie
statistique reconnue. Leur inconvénient est qu’il faut généralement posséder une liste de toutes les unités de la population
(c’est-à-dire connaître la base de sondage) avant de procéder au prélèvement de l’échantillon et peuvent de ce fait être
plus coûteuses et longues que les méthodes empiriques. Voici les quatre types d’échantillonnage aléatoire que l’on peut
effectuer :
– L’échantillonnage aléatoire simple ;
– L’échantillonnage systématique ;
– L’échantillonnage par grappes ;
– L’échantillonnage stratifié.
Nous reviendrons sur la méthode d’échantillonnage aléatoire simple qui est la plus utilisée parmi les méthodes
probabilistes.

1.2 La méthode d’échantillonnage par quotas


L’échantillonnage par quotas est très fréquemment employé dans les enquêtes socioéconomique (études de marché,
enquête d’opinion,...) Elle repose sur l’hypothèse de la corrélation de différents caractères d’une population en reproduisant
le plus fidèlement possible des caractéristiques de la population étudiée à l’échantillon grâce à l’application des règles très
précises.
Par ce procédé, on va chercher à construire un échantillon qui ressemble à la population-mère à partir d’informations
statistiques (données de cadrage) disponibles sur la structure de cette population. Ces données statistiques sur les principaux
caractères de la population à étudier sont appelées variables de contrôle (sexe, âge, taille de la commune de résidence
la profession de chef de ménage, la profession du répondant, le niveau d’étude etc.) On réduit ainsi le risque d’avoir un
échantillon aberrant. Par ailleurs cette méthode permet d’obtenir des précisions d’autant plus que les critères de quotas sont
corrélés à l’objet de sondage (modèle de population).
Le principe sur lequel repose cette méthode est qu’un échantillon identique à la population mère quant à la répartition
suivant les variables de contrôle sera peu différent de cette population quant aux autres variables non contrôlées. Ainsi,
pour être en mesure d’appliquer la méthode de quotas, il faut connaître la distribution de la population suivant les variables
de contrôles. On obtient des quotas, qui devront être respectés par les enquêteurs, en multipliant le taux de sondage aux
effectifs correspondants aux diverses modalités des variables de contrôle. On assure ainsi que l’échantillon aura bien, par
rapport aux variables de contrôle, la structure de la population.
Exemple 1.1. Supposons que nous voulons étudier le comportement de la population de Kalemie face au confinement
avec un taux de sondage de 1/300. Si, par exemple, nous disposons des chiffres du dernier recensement administratif de la
ville de Kalemie pouvant fournir la répartition de la population, les variables de contrôle peuvent être le sexe, l’âge, la

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


10 Chapitre 1. Les méthodes de sondage

catégorie socioprofessionnelle, le statut matrimonial, le niveau d’éducation, etc. Nous considérons ici trois variables de
contrôle pour le besoin de l’exemple (Tableau 1.1).

TABLEAU 1.1 – Distribution de la population suivant les variables de contrôle

Sexe Age Profession


Libérale : 19 200
15–24 ans : 81 600
Fonctionnaire : 60 200
Hommes : 163 000 25–34 ans : 58 900
Étudiant ou élève : 14 600
Femmes : 183 400 35–54 ans : 107 000
Employé : 78 000
55 ans et plus : 98 900
Autres : 174 400
346 400 346 400 346 400

L’application de la méthode des quotas conduit à la multiplication des effectifs correspondants par le taux de sondage,
on obtient les quotas destinés à assurer l’identité par rapport aux variables de contrôle de la structure de l’échantillon et
de la population. Le résultat est présenté dans le tableau 1.2 ci-après.

TABLEAU 1.2 – Distribution l’échantillon par rapport à la distribution de la population

Sexe Age Profession


Libérale : 64
15–24 ans : 272
Fonctionnaire : 201
Hommes : 544 25–34 ans : 196
Étudiant ou élève : 49
Femmes : 611 35–54 ans : 357
Employé : 260
55 ans et plus : 330
Autres : 581
1 155 1 155 1 155

On interrogera au total 1 155 personnes parmi lesquelles il devra y avoir 544 hommes, 272 âgés de 15 à 24 ans, 196
âgés de 25 à 34 ans,357 âgés de 35 à 54 ans, 201 fonctionnaires, etc. Ces quotas sont donc imposés aux enquêteurs :
chacun d’eux recevra un tableau de contrôle lui indiquant combien de personnes de chaque catégorie il devra interroger.

1.2.1 Mise en œuvre de la méthode de quotas


1.2.1.1 Choix des variables de contrôle
Un caractère statistique, pour être retenu comme variable de contrôle doit remplir un certain nombre des conditions :
– être en corrélation étroite avec la ou les variables étudiées ;
– avoir une distribution statistique connue pour l’ensemble de la population ;
– se prêter à l’observation sur le terrain par les enquêteurs, sans risque d’erreurs excessifs.
Le premier précepte exprime la condition même de l’efficacité de la méthode de quotas tandis que les deux derniers
préceptes énoncent les conditions qui rendent possible la mise en application de la méthode des quotas sur le terrain. Les
trois conditions réunies limitent considérablement le choix des variables de contrôle.
On peut citer, parmi les variables les plus citées et utilisées :
– pour un échantillon de personnes : le sexe, l’âge, la catégorie socioprofessionnelle, la province, la ville, la catégorie
de communes (urbaine ou rurale), etc.
– pour un échantillon de ménages : la catégorie socioprofessionnelle du chef de ménage, l’effectif du ménage, la
province, la ville, la catégorie de commune, etc.
– pour un échantillon des points de vente : le type de commerce, le nombre de salariés, le nature de l’activité, la
province, la ville, la catégorie de communes, etc.
En vertu de la première condition, le choix des variables de contrôle doit être fait en fonction de l’objet de l’étude.
Par exemple, pour une enquête portant sur les dépenses de logement, il pourra être important de contrôler le nombre de
ménages locataires, les propriétaires, etc.

1.2.1.2 Organisation pratique de l’enquête


Désignation de l’échantillon
Lorsque le sondage concerne des agglomérations ou des territoires comportant un très grand nombre de subdivisions
administratives, il n’est pas question de réaliser l’enquête dans chacune de ces subdivisions car les frais de déplacement
seraient beaucoup trop coûteux. En pratique, on procède généralement à un sondage à 2 degrés : on commence par

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


1.3 Échantillonnage aléatoire simple 11

designer au premier degré de sondage un échantillon de divisions administratives (unités primaires). Puis, dans celles-ci, on
choisit au second degré un échantillon d’unités secondaires qui peuvent être des personnes, des ménages, points de ventes,
établissement industriels, des avenues, etc. selon la nature de l’enquête.

Organisation de l’enquête
– Utiliser un réseau permanent d’enquêteurs travaillant au voisinage de leur domicile.
Ce procédé permet de diminuer le coût des enquêtes en maîtrisant les frais de déplacement. Ce mode d’organisation
permet également à chaque enquêteur d’opérer dans une seule localité, les quotas étant établis séparément pour
chacune des localités.
– Employer des équipes d’enquêteurs itinérants dirigés par un chef d’enquête dont chacune couvre une large portion
du territoire soumis à l’enquête. Cette méthode et plus coûteuse car les frais de déplacement sont très élevés, mais
elle est souple.
– Le contrôle des enquêteurs :
– Il est prudent d’exiger les enquêteurs qu’ils notent les noms et l’adresse des personnes interviewées de manières à
ce que le manager ait la possibilité de contrôler.
– Il y a lieu le restreindre l’initiative laissée aux enquêteurs dans le choix des individus de l’échantillon par en limiter
par l’influence sur le résultat.
– On inspira alors aux enquêteurs, en dehors du respect des quotas, des conditions supplémentaires suivantes :
– Interdiction de sélectionner les personnes à interviewer sur les listes (listes d’abonnés, liste des clients, etc.)
– Interdiction d’opérer dans la rue ou sur le lieu de travail ;
– Interdiction de revenir interroger les mêmes personnes.
Un procédé très souvent utilisé dans les enquêtes urbaines pour limiter l’initiative des enquêteurs dans le choix des
ménages à interroger, est la méthode de Politz, méthode qui impose à chaque enquêteur un itinéraire en lui indiquant
exactement les points d’enquête.

1.2.2 Avantage et inconvénient de l’échantillonnage par quotas


1.2.2.1 Avantages
– L’échantillonnage par quotas n’exige pas la connaissance de la base des sondages ; cela un avantage déterminant dans
de nombreux cas où il n’existe pas de base sondage ou dans lesquels celle-ci, pour des raisons de secret statistique,
ne peut être utilisée par l’organisme qui réalise l’enquête ;
– Le coût est moins élevé par rapport à celui des méthodes de sondage probabiliste.

1.2.2.2 Inconvénients
– La méthode de quotas n’a pas de fondement théorique suffisant. Elle repose simplement sur la principe suivant lequel
une distribution correcte des caractères contrôlés assure la représentativité de la distribution des caractères étudiés ;
– La méthode des quotas ne permet pas de calculer la précision des estimations obtenues à partir de l’échantillon. Les
personnes interrogées étant choisies par les enquêteurs, il est impossible de savoir quelle probabilité avait à priori
chaque individu de la population d’appartenir à l’échantillon ;
– Avec plusieurs variables de contrôle, il peut être très difficile de respecter les quotas.
En conclusion, la méthode des quotas est une méthode empirique qui, bien que dénuée de fondement théorique
satisfaisant, peut rendre des services appréciables.

1.3 Échantillonnage aléatoire simple


1.3.1 Tirage avec remise ou sans remise
Cette méthode est caractérisée par le fait que l’échantillon est désigné de façon à ce que chaque unité de la population
ait une probabilité connue, différente de zéro, d’être retenue. Très souvent, en pratique, on affecte à chaque unité de la
population, la même probabilité d’appartenir à l’échantillon : la désignation de celui-ci peut être alors assimilée au tirage
de boules dans une urne, le tirage peut être effectué de deux façons différentes :

Tirage avec remise ou tirage non exhaustif


Après chaque tirage, la boule qui vient d’être prélevée est remise dans l’urne avant de procéder à la désignation de
l’unité suivante. La composition de l’urne reste donc inchangée. Le nombre x d’unités dans l’échantillon présentant un

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


12 Chapitre 1. Les méthodes de sondage

caractère déterminé A est une variable aléatoire binomiale.


Rappelons que la loi binomiale intervient chaque fois que l’on considère deux alternatives dont les probabilités restent
constantes au cours d’une suite d’épreuves : garçons ou filles, oui ou non,...
Cette loi dépend de deux paramètres :
– Le nombre n de tirages successifs ou d’épreuves indépendantes. Dans notre enquête par sondage n est l’effectif
même de l’échantillon.
– La probabilité p de réalisation de l’évènement étudié.
On a :
x
P (X = x) = P( fn = ) = Cnx px qn−x (1.1)
n
avec q = 1 − p.
On démontre facilement que cette loi binomiale a pour caractéristiques principales :
– L’espérance mathématique : E (X) = np ;
– La variance : V (X) = npq.

Tirage sans remise ou tirage exhaustif


L’unité qui vient d’être tirée n’est pas remise dans l’urne dont la composition varie ainsi à chaque tirage. Chaque unité
de la population ne peut être choisie qu’une seule fois et l’échantillon est composé de xi unités différentes. Le nombre x
d’unités dans l’échantillon présentant un caractère déterminé A est une variable aléatoire qui suit une loi hypergéométrique.
Rappelons ainsi que la loi hypergéométrique intervient chaque fois que l’on considère deux alternatives dont les
probabilités ne restent pas constantes au cours d’une suite d’épreuves ou de tirages. En résumé, la variable aléatoire
hypergéométrique X dépend de trois paramètres :
– L’effectif N de la population ;
– La proportion primitive p des individus possédant le caractère étudié dans la population ;
– Le nombre n des tirages successifs ou la taille de l’échantillon.
On a :
CNx p CNn−x
q
P(X = x) = (1.2)
CNn
avec N p = p · N et Nq = N − N p .
On démontre également que cette loi a pour caractéristiques principales :
– L’espérance mathématique: E (X)  = np ;
N −n
– La variance : V (X) = npq .
N −1
Quand la taille de la population N est grande par rapport à la taille de l’échantillon n, ce qui est vrai si N ⩾ 20n, le
rapport (N − n/N − 1) tend vers 1. Souvent l’effectif de l’échantillon est petit ou même très petit par rapport à la taille de
la population ; dans ce cas, le résultat des deux méthodes diffère très peu.
En pratique, on utilise souvent le tirage sans remise car tirer deux fois la même unité n’ajoutera rien sur notre
information ; toutefois, la méthode non exhaustive a l’avantage de ne pas changer la population après chaque tirage. Il est
nécessaire de garder en vue que lorsque une population est de taille N, il est possible de tirer :
– CNn échantillons différents de taille n avec un tirage sans remise ;
– N n échantillons différents de taille n par tirage avec remise.

1.3.2 Fondement du sondage aléatoire


Il existe une parenté entre les concepts statistiques et les concepts probabilistes. À la notion de fréquences pour une
distribution statistique observée correspond la notion de probabilité pour une loi de probabilité. À la notion de moyenne
arithmétique pour une variable statistique correspond la notion d’espérance mathématique d’une variable aléatoire, etc. En
outre, devant l’impossibilité fréquente de définir un système d’événements équiprobables, dont les probabilités peuvent être
calculées a priori (comme dans le cas des jeux de hasard) on a été conduit à développer une théorie axiomatique du calcul
des probabilités.
La probabilité associée à un événement est un nombre satisfaisant à certaines conditions ou axiomes :
– La probabilité associée à un événement est un nombre positif ou nul ;
– La probabilité associée à l’ensemble fondamental est égale à l’unité ;
– Pour tout couple d’événement incompatibles A et B, la probabilité de la réunion de ces événement est égale à la
somme des probabilités de A et B.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


1.3 Échantillonnage aléatoire simple 13

Mais cette théorie ne nous indique pas par elle-même la valeur numérique de la probabilité de cet événement ; seules
les données observées permettent d’estimer celle-ci. Un pont est donc à jeter entre données empiriques et concepts abstraits
de la probabilité, c’est la loi des grands nombres introduite au début du 18e siècle par Jacques Bernoulli.

1.3.2.1 L’inégalité de Bienaymé-Chebychev


Soit une variable aléatoire X quelconque d’espérance mathématique µ et d’écart-type σ . Nous appartenons à un
intervalle (µ − tσ ; µ + tσ ) symétrique par rapport à la moyenne µ. Cette probabilité est notée par P(|x − µ| ⩽ tσ ), µ et σ
étant donnés, et t un nombre qui détermine la longueur de l’intervalle.

F IGURE 1.1 – Inégalité de Bienaymé-Chebychev

Par définition, σ 2 = ∑ pi (xi − µ)2 . Distinguons les valeurs de X se trouvant à l’intérieur de l’intervalle µ ± tσ que nous
désignerons pat Xr , et celles Xs , se trouvant à l’extérieur :

σ 2 = ∑ pr (Xr − µ)2 + ∑ ps (Xs − µ)2


r s

Si nous nous intéressons uniquement à des valeurs qui ne sont pas dans l’intervalle considéré :

σ 2 ⩾ ∑ ps (Xs − µ)2 (puisque ∑r pr (Xr − µ)2 est un nombre positif ou nul) (1.3)
s

Par ailleurs, par définition, les écarts Xs − µ sont supérieurs ou égaux à tσ en valeur absolue :

|Xs − µ| ⩾ tσ ⇒ |Xs − µ|2 ⩾ t 2 σ 2 (1.4)

En remplaçant (1.4) dans (1.3), on a obtient :

σ 2 ⩾ ∑ ps (Xs − µ)2 ⩾ ∑ pst 2 σ 2 ⩾ t 2 σ 2 ∑ ps (1.5)


s s s

Soit, en divisant les deux membres par σ 2 :

1 ⩾ t 2 ∑ ps (1.6)
s
1
⩾ ps (1.7)
t2 ∑
s

Pour rappel, ∑s ps représente la probabilité pour que X prenne une valeur n’appartenant pas dans l’intervalle µ ± tσ .
On a donc : ∑s ps = 1 − P et
1 1
⩾ ps ⇔ 2 ⩾ 1 − P
t2 ∑ s t
1
P ⩾ 1− 2
t
La définition de cette inégalité est la suivante : connaissant la valeur de l’écart-type σ d’une variable aléatoire, on peut
toujours choisir t assez grand pour que la probabilité relative à l’intervalle µ ± tσ soit, quelle que soit la loi de probabilité
de la variable X considérée, aussi proche de 1 qu’on le désir.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


14 Chapitre 1. Les méthodes de sondage

1.3.2.2 La loi des grands nombres


La moyenne empirique, calculée sur les valeurs d’un échantillon, converge vers l’espérance lorsque la taille de
l’échantillon tend vers l’infini.

Convergence de la fréquence absolue d’un événement vers sa probabilité


Soit X une variable aléatoire binomiale de paramètres n et p. Si nous nous intéressons, non plus à la probabilité d’avoir
x succès au cours de n épreuves indépendantes mais à la fréquence fn de cet évènement c’est-à-dire fn = nx , cette variable
représente la proportion des épreuves où l’évènement s’est réalisé. La loi de distribution de fn se déduit directement de
celle de la distribution de la variable X :
x
P( fn = ) = P(X = x) = Cnx px qn−x (1.8)
n
Si le tirage de l’échantillon est effectué avec remise ou alors si la taille de la population est grande par rapport à la taille
de l’échantillon, la fréquence fn = nx des individus A observés sur l’échantillon a pour espérance mathématique p et pour
r
pq
écart type σ = .
n
Démonstration. Il faut recourir aux propriétés de l’espérance mathématique et de la variance :
x 1 1
E( fn ) = E( ) = E(X) = np = p.
n n n
x 1 1 pq
V ( fn ) = V ( ) = 2 V (X) = 2 npq = .
n n n n
Appliquons l’inégalité de Bienaymé-Chebychev à ce cas :
1
P(| fn − P| ⩽ tσ ) ⩾ 1 − (1.9)
t2
Ainsi,
– On peut toujours choisir t assez grand pour que la probabilité que fn se trouve dans l’intervalle p ± tσ soit aussi
proche de 1 qu’on le désir,
– t étant ainsi fixe, on peut toujours choisir l’effectif n assez grand pour que fn soit ainsi voisin de p qu’on le désir.
Exemple 1.2. Une population contient une proportion p = 0,4 d’éléments A. On désire que la fréquence de ces éléments
observés sur l’échantillon, se trouve avec une probabilité d’au moins 99 % dans l’intervalle p ± 0,01 (c’est-à-dire la marge
d’erreur est égale à 0,01). Quel doit être la taille de l’échantillon ?
Solution
Nous avons P(| fn − P| ⩽ 0,01) ⩾ 0,99 (la probabilité que la marge d’erreur E soit inférieure ou égale à 0,01 est doit
être supérieure ou égale à 0,99).
Rapprochons cette expression de l’inégalité de Bienaymé-Chebychev :
1
P(| f n − P| ⩽ tσ ) ⩾ 1 −
t2
On a :
1 1
1− = p ⇔ 1 − 2 = 0,99 ⇔ t = 10.
t2 t
Ainsi, t étant fixe, pour avoir n :
r
pq
E ⩽ 0,01 ⇔ tσ ⩽ 0,01 ⇔ t ⩽ 0,01
n
Soit r
0,4 × 0,6
10 ⩽ 0,01 ⇔ n ⩾ 240 000.
n
Il suffit de prendre : n ⩾ 240 000.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


1.3 Échantillonnage aléatoire simple 15

C’est ce qu’on appelle la loi des grands nombres, il suffit de tirer un échantillon d’un effectif suffisant dans une
population de composition donnée (comportant une proportion p d’individu A) pour que la fréquence observée fn des
individus A soit presque justement très voisine de la probabilité p.
Il n’y a pas cependant une certitude absolue que fn se trouve dans l’intervalle désirée autour de p : la probabilité qu’il
n’en soit pas ainsi est au plus égale à 1/t 2 . On dit que la fréquence absolue d’un événement converge en probabilité vers la
probabilité de cet événement, lorsque n augmente indéfiniment.
Le principal intérêt de la loi des grands nombres est le suivant : si on ignore la valeur de probabilité p (proportion des
individus A dans la population) , on peut toujours prélever un échantillon aléatoire d’effectif suffisant pour que la fréquence
observée donne une estimation de cette probabilité aussi précise qu’on le désire. La loi des grands nombres permet ainsi de
jeter un pont entre la construction axiomatique de calcul des probabilités et la pratique, en donnant un moyen d’affecter des
valeurs numériques aux probabilités des événements observés.

Convergence de la moyenne d’une variable aléatoire vers son espérance mathématique


Soit X1 , X2 , ..., Xn , n variables indépendantes suivant une loi de probabilité quelconque d’espérance mathématique µ et
d’écart type σ . Leur moyenne X = X1 +X2 +...+Xn
n
est elle-même une variable aléatoire d’espérance mathématique

µx = µ (1.10)

et d’écart type
σ
σx = √ . (1.11)
n
Démonstration. L’espérance mathématique de X est :
!
1 n 1 n 1
E(X) = E ∑ Xi = ∑ E (Xi ) = (nE (X)) = E (X) = µ.
n i=1 n i=1 n

La variance théorique nous donne :


!
1 n 1 n 1 n nσ 2 σ2
V (X) = V ∑ Xi = 2 ∑ V (Xi ) = 2 ∑ σ 2 = 2 = .
n i=1 n i=1 n i=1 n n

Appliquons l’inégalité de Bienaymé-Chebychev à ce cas :


1
P|X − µ| ⩽ tσx ) ⩾ 1 − . (1.12)
t2
Il suffit donc de tirer un échantillon de taille n suffisamment grande dans la population de référence pour que la moyenne
de la variable observée sur l’échantillon soit presque surement (avec une probabilité au moins égale à 1 − t12 ) très proche de
son espérance mathématique, c’est-à-dire de la valeur moyenne de la variable dans la population.
Cette norme énoncée de la loi des grands nombres est plus générale que la fréquence. En effet, une variable binomiale
X peut toujours être considérée comme la somme de n variables aléatoires de Bernoulli et, par conséquent sa fréquence
fn = X/n est comme la moyenne des n variables. La loi des grands nombres traduit donc la convergence en probabilité de
la moyenne d’un échantillon de n observations, extrait d’une population obéissant à une certaine loi de probabilité, vers
l’espérance mathématique de cette loi, lorsque n augmente indéfiniment.
En pratique, la loi des grands nombres nous enseigne qu’à la condition que l’échantillon soit d’une taille suffisante,
on peut obtenir à partir de celui-ci une approximation observable de la valeur d’une proportion ou d’une moyenne dans
l’ensemble de la population : c’est pourquoi on dit que la loi des grands nombres constitue le fondement de la méthode
des sondages.
La loi des grands nombres a des conditions d’application très générales car elle ne fait pas intervenir la loi de probabilité
de la variable étudiée. En contrepartie, elle repose sur une série de majoration importantes (inégalité de Bienaymé-
Chebychev) et conduit à des effectifs d’échantillon beaucoup plus élevés qui ne sont pas, en réalité, nécessaires pour obtenir
la précision cherchée. Chaque fois qu’il est possible, il est bien entendu, préférable de calculer directement la taille de
l’échantillon à partir de la loi de probabilité. Nous y reviendrons à la section suivante.

Exemple 1.3. Dans l’exemple précédent (Exemple 1.2), un échantillon de 240 000 unités est un luxe inutile pour obtenir,
avec une probabilité de 99 % une estimation de p à 1/100 près c’est-à-dire P(| f n − P| ⩽ 0,01) ⩾ 0,99. En effet, dans
ce cas, non connaissons la distribution de probabilité de la fréquence fn : c’est une loi normale de paramètres µ = p et

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


16 Chapitre 1. Les méthodes de sondage

q
d’écart type σ = pq n . On peut déterminer la valeur de la variable normale centrée réduite z telle qu’il y ait 99 chances
sur 100 pour que fn se trouve dans l’ensemble p ± zσ .
r r
pq pq
P(|p − t ⩽ fn ⩽ p+t ) ⩾ 0,99.
n n
La consultation de la table de loi normale inverse indique t = 2,58. t étant aussi fixe pour avoir n nous avons :
r r
pq 0,4 × 0,6
t ⩽ 0,01 ⇔ 2,58 ⩽ 0,01 ⇔ n ⩾ 15 975.
n n
Il faut choisir n ≃ 16 000.

Il est donc inutile de procéder à 240 000 observations, puisque 16 000 (soit 15 fois moins) suffisent pour obtenir la
précision désirée.

1.3.3 Détermination de la taille de l’échantillon


Commençons par un exemple. Si nous disons que la longueur d’une latte est comprise entre 4,5 et 5,5 cm pendant que
sa vraie longueur est de 5 cm, nous avons commis une erreur de 0,5 cm. L’erreur peut être positive ou négative.
µx − µ
Sachant que z = , l’erreur E = µx − µ peut s’écrire z = E/σx , d’où :
σx
E = zσx
σ (1.13)
E = z√
n
La formule (1.13) permet de déterminer la taille n de l’échantillon sachant :
– la marge d’erreur E voulue dans l’estimation de la moyenne (écart maximum entre la moyenne d’un échantillon x et
la moyenne de la population µ),
– le niveau de confiance 1 − α désiré (probabilité d’être dans un intervalle qui contient la moyenne µ, c’est-à-dire
la probabilité que la moyenne µ soit située dans l’intervalle x ± tσ ). On appelle α le risque d’erreur ou le seuil
de signification (la probabilité de se tromper). On déterminera la valeur de z qui fournit ce niveau de confiance,
c’est-à-dire la valeur de z telle que P(−z < Z < z) = 1 − α, soit z = F −1 (α/2), la fonction de répartition inverse de
la loi normale. La valeur de z est lue dans la table des quantiles de la loi normale centrée réduite. Par exemple, un
niveau de confiance de 99% implique que 2Φ(z) = 1 − 0,99 soit Φ(z) = 0,005 et z = F −1 (0,005). La lecture de la
table des quantiles de la loi normale donne z = 2,5758. Pour un niveau de confiance de 95%, on a z = 1,96.
– l’écart type σ de la population.

Remarques. À partir de la formule (1.13), on peut montrer que pour un même niveau de confiance, plus on augmente la
taille de l’échantillon, plus l’écart type σx diminue, ce qui a pour conséquence de diminuer la marge d’erreur E et, par le
fait même, de donner une estimation plus précise de la moyenne de la population.
On peut donc fixer d’avance la marge d’erreur que l’on ne veut pas excéder et choisir la taille de l’échantillon en
conséquence. Comme nous venons de le voir, plus l’échantillon est grand, plus la marge d’erreur est petite, mais plus les
coûts du sondage sont élevés.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


1.3 Échantillonnage aléatoire simple 17

Quand la valeur de σ est inconnue, on fait une enquête préliminaire avec un échantillon d’au moins 30 unités, et on
utilise l’écart type corrigé s de cet échantillon comme estimateur de σ .
r
1
s= (xi − x̄)2 (1.14)
n−1 ∑
Si les données sont sous forme des proportions, la taille de l’échantillon s’obtient à partir de la formule :
r r
p(1 − p) pq
E =z =z (1.15)
n n
En pratique, l’équation (1.15) nécessite de savoir la proportion p des individus dans la population. Or, cette information
est généralement inconnue. Dans ce cas, on prendra p = 0,5 afin d’avoir la plus grande valeur du produit pq et par
conséquent la plus grande taille minimale de l’échantillon n permettant d’obtenir les précisions désirées toutes choses
restant égales par ailleurs.
Exemple 1.4. Quelle taille minimale d’échantillon faudrait-il prendre pour estimer la moyenne d’âge des étudiants d’une
université avec une marge d’erreur d’au plus 1,5 an et un niveau de confiance de 95%, si des études antérieures ont donné
un écart type σ de 5,7 ans pour la population ?
Solution
On a : E = 1,5 an, σ = 5,7 ans, 1 − α = 95% ⇔ Zα/2 = 1,96.
σ
E = zσx ⇔ E = z √
n
5,7
⇔ 1,5 = 1,96 × √
n
1,96 × 5,7 2
 
⇔n= ≃ 56.
1,5
Il faut enquêter un échantillon d’au moins 56 étudiants.
Exemple 1.5. Afin d’inciter ses citoyens à économiser l’eau potable, une société songe à instaurer une tarification de
l’eau en fonction du volume consommé par résidence. Pour savoir si ce projet recevra un bon accueil dans la population,
elle organise un sondage visant à estimer le pourcentage de citoyens qui appuieraient un tel projet.
1. Quelle taille devrait avoir l’échantillon si l’on veut que la marge d’erreur de l’estimation n’excède pas 3%, avec un
niveau de confiance de 95% ?
2. Quelle taille devrait avoir l’échantillon si, a priori, on estime à environ 20 % le pourcentage de personnes favorables
au projet ?
Solution
E = 3% ; 1 − α = 95% d’où z = 1,96.
1. Comme la valeur de p n’est pas fournie, on prend p = 50 % (pour avoir le produit pq le plus maximal) :
r
pq
E =z
n
r
50 × 50
3 = 1,96
n
 
50 × 50
n = 1,962 ≃ 1068.
32
Il faut sonder au moins 1 068 individus pour espérer avoir les précisions désirées.
2. p̂ = 20%, d’où q̂ = 80%
r
pq
E =z
n
r
20 × 80
3 = 1,96
n
 
2 20 × 80
n = 1,96 ≃ 683.
32
Il suffira de sonder un minimum de 683 individus.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


18 Chapitre 1. Les méthodes de sondage

1.4 Exercices
1. On désire choisir sans remise un échantillon de 6 per- provinciale du Tanganyika compte 30 députés, si l’on
sonnes dans un groupe de 60. On numérote les indivi- prélève sans remise un échantillon aléatoire de 5 dé-
dus du groupe de 1 à 60 et on procède à un tirage au putés, quelle est la probabilité que 60 % d’entre eux
hasard. Donner les numéros des individus de l’échan- aient appuyé Zoé ?
tillon : 6. Qu’est-ce que le développement économique ? En
a) Si l’on effectue un échantillonnage systématique 2020, 24,5 % d’étudiants inscrits en sciences éco-
dont le point de départ, tiré au hasard, est 3 ; nomiques avaient échoué de définir ce concept. On
b) Si l’on effectue un échantillonnage systématique prélève un échantillon de 50 étudiants. Quelle est la
dont le point de départ, tiré au hasard, est 8. probabilité que huit d’entre eux échouent de définir le
2. Indiquer la méthode d’échantillonnage employée pour développement économique ?
prélever les échantillons suivants : 7. En 2015, 57 % des détenteurs d’un diplôme d’État en
a) Des économistes font une étude sur la distri- commercial ont poursuivi leurs études universitaires
bution du revenu dans la ville de Kalemie. À en économie. En 2021, un échantillon de 50 détenteurs
l’aide d’une carte de la ville, ils ont divisé 20 d’un diplôme d’État est prélevé parmi les diplômés
zones, puis ont choisi au hasard 10 zones en vue de la promotion 2020. Dans l’hypothèse où les sta-
de procéder à l’analyse de chacun des ménages tistiques de 2015 sont encore valables, en moyenne,
compris dans ces zones. combien de diplômés peut-on espérer trouver en éco-
b) La faculté d’économie réalise une enquête au- nomie dans l’échantillon ?
près d’un certain nombre d’étudiants sélection- 8. Une étude révèle que 37 % d’étudiants de l’Université
nés par tirage au sort dans la liste d’étudiants de Kalemie n’ont pas de Smartphone. On prélève un
inscrits en économie. échantillon de 12 étudiants.
c) Un étudiant interroge des passants au marché a) Quelle est la probabilité qu’un seul n’ait pas de
Kisebwe pour connaître leur opinion sur la des- Smartphone ?
titution du gouverneur. b) Quelles sont les chances que 8 des 12 étudiants
d) Un médecin chercheur demande la participation aient un Smartphone ?
des albinos jumeaux monozygotes pour une re- 9. Le pourcentage d’internautes qui utilisent des sites
cherche médicale. de réseautage social, tels que Facebook, Instagram
e) Une usine produit 1 000 pièces par jour. Pour et Twitter, est de 70 % chez les femmes et de 64 %
vérifier la qualité de celles-ci, on prélève chaque chez les hommes. On prélève un échantillon de 10
jour un échantillon de 50 pièces de la façon sui- utilisatrices d’Internet.
vante : on retire une pièce de la production par a) Quelle est la probabilité que 8 des 10 femmes
20 pièces produites en sélectionnant la première utilisent des sites de réseautage social ?
pièce au hasard entre la 1re et la 20e pièce pro- b) Quelle est la probabilité que moins de 8 femmes
duite. utilisent des sites de réseautage social ?
f ) Dans le cadre d’une recherche sur l’intention 10. Une épicerie reçoit la livraison de son stock d’œufs
entrepreneuriale des finalistes, on désire consti- une fois par semaine. Pour offrir un produit plus frais
tuer un échantillon de 30 membres en respectant aux clients et diminuer la quantité d’œufs à entreposer,
la répartition des membres selon le sexe : 50 % on décide d’augmenter la fréquence de livraison aux
d’étudiantes et 50 % d’étudiants. Pour ce faire, deux jours. Les statistiques de ventes de la dernière an-
on sélectionne 15 étudiantes et 15 étudiants au née indiquent que l’épicerie a vendu en moyenne 300
hasard parmi es finalistes. douzaines d’œufs aux deux jours avec un écart type de
g) Dans le cadre de la recherche décrite à la ques- 25 douzaines. On a aussi observé que la distribution
tion 2.f ), on sélectionne 15 étudiantes et 15 étu- des ventes suivait un modèle normal.
diants au hasard dans la liste des finalistes ins- a) Si l’on décide de commander 325 douzaines
crits à l’université de Kalemie. d’œufs aux deux jours, quels sont les risques
3. Parmi les échantillons décrits à la question précédente, que cette quantité ne soit pas suffisante pour ré-
lesquels sont aléatoires ? pondre à la demande ?
4. On pige sans remise un échantillon de 3 personnes b) Si l’on veut réduire les risques d’être en rupture
dans une population de 5 hommes et 4 femmes. de stock à 5 %, combien de douzaines d’œufs
a) Combien d’échantillons possibles y a-t-il ? doit-on commander au fournisseur ?
b) Quelle est la probabilité que l’échantillon soit 11. Dans une ville, 52 % de la population est de sexe fé-
composé de 3 hommes ? minin. On prélève un échantillon de 1000 personnes
c) Quelle est la probabilité que l’échantillon soit dans cette population.
composé de 2 hommes et 1 femme ? a) Quelles sont les chances que le pourcentage de
5. Zoé a été gouverneur élu par 60 % des députés de la femmes dans l’échantillon se situe à au plus 2 %
province du Tanganyika. Supposons que l’assemblée du pourcentage de femmes dans la population ?

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


1.4 Exercices 19

b) Pour 95 % des échantillons possibles, l’écart a) Quelle est la valeur préalable de l’écart type de
entre le pourcentage de l’échantillon et celui de la population ?
la population est inférieur à une certaine valeur. b) Au seuil de confiance de 95 %, quelle doit être
Laquelle ? la taille de l’échantillon pour obtenir une marge
12. Lors d’une interview télévisée, le gouverneur de la d’erreur de 3 ?
province du Tanganyika, Zoé Kabila, déclare que la po- c) Au seuil de confiance de 95 %, quelle doit être
pulation de Kalemie soutient son plan d’urbanisation. la taille de l’échantillon pour obtenir une marge
Un étudiant se propose de vérifier ces déclarations par d’erreur de 2 ?
un sondage. Quelle devrait être la taille de l’échan- 19. En 2019, le montant mensuel de la prime des assis-
tillon pour estimer le pourcentage de la population qui tants de l’université était compris entre 45 000 et 60
soutient ce plan avec une marge d’erreur inférieure à 000 francs congolais. Supposez que l’on souhaite ob-
2 %, au niveau de confiance de 95 % ? tenir l’estimation par intervalle de confiance à 95 %
13. Afin d’inciter ses abonnés à économiser l’eau potable, du montant de la prime. Quelle est la valeur préalable
la REGIDESO songe à instaurer une tarification de de l’écart type de la population ? Quelle devrait être
l’eau en fonction du volume consommé par abonné. la taille de l’échantillon si l’on souhaite obtenir une
Pour savoir si ce projet recevra un bon accueil dans la marge d’erreur de :
population, elle commande un sondage visant à esti- a) 500 francs congolais ?
mer le pourcentage des abonnés qui appuieraient un b) 200 francs congolais ?
tel projet. a) Quelle taille devrait avoir l’échantillon si c) 100 francs congolais ?
l’on veut que la marge d’erreur de l’estimation n’ex- d) Recommanderiez-vous d’essayer d’obtenir une
cède pas 3 %, avec un niveau de confiance de 95 % ? marge d’erreur de 100 francs congolais ? Expli-
b) Quelle taille devrait avoir l’échantillon si, a priori, quer.
on estime à environ 20 % le pourcentage d’abonnés 20. Dans une enquête, la valeur préalable de la proportion
favorables au projet ? de la population p est égale à 0,35. De quelle taille
14. Calculer la taille minimale de l’échantillon à prélever l’échantillon doit-il être pour obtenir un intervalle de
pour estimer le poids moyen des sacs de sucre rem- confiance à 95
plis par une machine, avec une marge d’erreur d’au 21. Au seuil de confiance de 95 %, de quelle taille l’échan-
plus 0,03 kg, en utilisant un intervalle de confiance tillon doit-il être pour obtenir une estimation de la
au niveau de 99 %. On considère que la distribution proportion de la population avec une marge d’erreur
du poids des sacs obéit à une loi normale dont l’écart de 0,03 ? Supposez qu’aucune donnée passée n’est
type est de 0,1 kg. disponible pour fournir une valeur préalable de p de
15. Calculer la taille minimale de l’échantillon à préle- la population.
ver pour estimer à 500 CDF près la consommation 22. La Trust Merchant Bank s’intéresse à la proportion des
journalière des ménages d’un quartier, avec un niveau détenteurs d’une carte de crédit qui ont un solde débi-
de confiance de 95 %, si l’on estime l’écart type des teur (négatif) à la fin du mois. Supposez que la marge
revenus à 3 500 CDF. d’erreur souhaitée soit de 0,03, au seuil de confiance
16. Un intervalle de confiance à 95 % pour la moyenne de 98 %.
d’une population va de 152 à 160. Si σ = 15, quelle a) De quelle taille l’échantillon devrait-il être si on
est la taille de l’échantillon utilisé dans cette étude ? anticipe qu’environ 70 % des détenteurs d’une
17. Quelle doit être la taille de l’échantillon pour obtenir carte de crédit ont un solde débiteur à la fin du
un intervalle de confiance à 95 % avec une marge d’er- mois ?
reur de 10 ? Supposez que l’écart type de la population b) De quelle taille l’échantillon devrait-il être si on
est égal à 40. ne peut spécifier aucune valeur préalable pour la
18. L’étendue d’un ensemble de données est estimée à 36. proportion de la population ?

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


Chapitre 2

Interprétation des sondages aléatoires


(Problèmes d’estimation et de comparaison)

2.1 Introduction
Une des principales utilisations de la méthode de l’échantillonnage aléatoire simple consiste à faire de l’estimation. On
appelle théorie de l’estimation, l’ensemble des méthodes utilisées pour évaluer un paramètre d’une population à l’aide
d’une statistique calculée dans un échantillon extrait de cette population.
Par exemple, si on veut estimer le revenu moyen µ des professeurs des universités congolaises sans avoir à faire un
recensement qui s’avérerait sans doute pénible, long et coûteux, la méthode consiste à sélectionner un échantillon de taille
n, à calculer le revenu moyen x dans cet échantillon et à utiliser cette statistique x pour remplacer µ. Bien sûr, on s’attend à
ce que x soit une valeur assez proche de µ. Pour s’en assurer, il faut étudier la distribution d’échantillonnage de la variable
aléatoire X.
D’autres possibilités sont offertes pour faire une telle estimation : ainsi, on pourrait utiliser la médiane de l’échantillon
pour estimer le revenu des médecins congolais. Il faudrait donc déterminer quelle estimation s’avère la meilleure.
Posons le problème d’une manière plus générale en considérant un paramètre inconnu θ dans une population quelconque,
le symbole θ peut donc représenter µ, σ , σ 2 , π ou tout autre paramètre. Pour estimer la valeur de θ , on prélève dans la
population un échantillon de taille n.
Toute statistique calculée (valeur numérique) dans l’échantillon et pouvant être utilisée pour approximer θ s’appelle
« estimé de θ ». Par exemple, x = 1,7 est un estimé de µ, p̂ = 1/10 est un estimé de π. La variable aléatoire Θ dont les
réalisations sont des différents estimés retrouvés dans les différentes échantillons s’appelle un estimateur de θ et se note
par θ̂ (lire « thêta chapeau »). Par exemple, X est un estimateur de µ et P̂ est un estimateur de π.

2.2 Propriétés d’un estimateur


En théorie de l’estimation, on utilise un estimateur si celui-ci rencontre certains critères de qualité, à savoir qu’il soit
sans biais, convergent et efficace.

2.2.1 Biais d’un estimateur


Un estimateur Θ d’un paramètre inconnu θ est sans biais, si son espérance mathématique est égale à θ , soit

E(Θ) = θ ,

c’est-à-dire si la moyenne de toutes les estimations possibles est égale à la valeur réelle du paramètre inconnu.
La quantité Θ − θ est appelée biais d’un estimateur, et un estimateur est non biaisé si le biais est nul.
La variable aléatoire X est un estimateur sans biais de µ, car

E(X) = µ.

De même P̂ est un estimateur sans biais de π car E(P) = π.


La variance calculée dans un échantillon, que l’on note S̃2 est calculée comme dans une population en utilisant la
moyenne échantillonnale à la place de µ.
∑ (xi − x)2
S̃2 = (2.1)
n

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


2.2 Propriétés d’un estimateur 21

Cet estimateur S̃2 est un estimateur biaisé de σ 2 .


Démonstration. Soit une v.a. X à laquelle on associe n-échantillons X1 , X2 , . . . , Xn .
La moyenne X est estimateur sans biais de µ car,
!
1 n 1 n 1
E(X) = E ∑ Xi = ∑ E (Xi ) = (nE (X)) = E (X) = µ.
n i=1 n i=1 n

La variance théorique nous donne :


!
1 n 1 n 1 n 2 nσ 2 σ2
V (X) = V ∑ Xi = ∑ V (Xi ) = ∑ σ = = .
n i=1 n2 i=1 n2 i=1 n2 n

Et la variance empirique est donnée par


1 n 2
S̃2 = ∑ Xi − X . (2.2)
n i=1

Il faut calculer E(S̃2 ). Pour cela, nous allons l’exprimer à l’aide des v.a. centrées :

1 n 2 1 n  2
S̃2 = ∑ Xi − X = ∑ (Xi − µ) − X − µ
n i=1 n i=1
1 n 1 n 2
= ∑ (Xi − µ)2 − 2 X − µ ∑ (Xi − µ) + X − µ
n i=1 n i=1
1 n 2 2
= ∑ (Xi − µ)2 − 2 X − µ + X − µ
n i=1
1 n 2
= ∑ (Xi − µ)2 − X − µ .
n i=1
D’où : !
1 n 2 1 n
2
E(S̃ ) = E ∑ (Xi − µ)2 − X − µ = ∑ V (Xi ) −V (X)
n i=1 n i=1
1 σ2 n−1 2
= nσ 2 − = σ .
n n n
Le biais de la variance est corrigé en divisant non pas par n, mais par n − 1. C’est pourquoi on introduit la variance
empirique modifiée (ou corrigée) S2 qui est un estimateur non biaisé de la variance de la population σ 2 :

1 n 2
S2 = ∑ Xi − X . (2.3)
n − 1 i=1

Dorénavant, on étudiera S2 plutôt que S̃2 à laquelle on pourra éventuellement se référer en conservant le terme de
variance empirique.

2.2.2 Convergence d’un estimateur


Un estimateur θ̂ d’un paramètre inconnu θ est convergent si la probabilité qu’il diffère de θ décroit à mesure que la
taille de l’échantillon augmente.
Pour un estimateur sans biais θ̂ , on dit qu’il est convergent si :

V (θ̂ ) → 0 lorsque n → +∞.

σ2
Ainsi, X est un estimateur convergent de µ car on constate que si n → +∞, alors V (X) = → 0. De même P̂ est un
n
π(π−1)
estimateur convergent de π car V (P̂) = n et V (P̂) → 0 lorsque n → +∞.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


22 Chapitre 2. Interprétation des sondages aléatoires

2.2.3 Estimateur efficace


Un estimateur sans biais θ̂ d’un paramètre inconnu θ est efficace si la variance de θ̂ est inférieure à la variance de tout
autre estimateur de θ . Choisir un estimateur efficace c’est donc choisir le meilleur estimateur, c’est-à-dire celui qui fournira
des estimés les plus près possibles de la valeur réelle du paramètre.
Par exemple, la variable aléatoire X représentant les moyennes d’échantillons est un estimateur efficace de µ comparati-
vement à la variable aléatoire représentant les médianes d’échantillons.
Remarque. Il existe des méthodes permettant de déterminer le meilleur estimateur d’un paramètre, par exemple la méthode
de maximum de vraisemblance ou la méthode des moments (cf. économétrie).

2.3 Méthodes d’estimation statistique


La théorie de l’estimation se divise en deux parties :
– L’estimation ponctuelle et
– L’estimation par intervalle.
L’estimation ponctuelle permet d’évaluer un paramètre de la population à l’aide d’une seule statistique mesurée sur un
échantillon tandis que l’estimation par intervalle détermine un intervalle de confiance qui, avec une certaine probabilité,
contient la valeur vraie du paramètre.
Nous avons les estimations ponctuelles :
– Estimation ponctuelle de la moyenne d’une population : µ = x.
– Estimation ponctuelle du pourcentage de population : π = p̂.
Les estimations ponctuelles sont acceptables si la marge d’erreur est petite.
L’estimation par intervalle indique la précision d’une estimation et est préférable à l’estimation ponctuelle.

2.4 Intervalle de confiance des paramètres d’une population


Intéressons-nous à la moyenne de la population µ et la moyenne x d’un échantillon tiré de cette population. Soit µx et σx ,
la moyenne et l’écart type de la distribution de la statistique X. Si la distribution de X est approximativement normale (ce
qui est supposé vrai si la taille de l’échantillon n est supérieure ou égale à 30), on peut s’attendre à ce que la statistique
X varie dans les intervalles µ − σ et µ + σ ; µ − 2σ et µ + 2σ ; µ − 3σ et µ + 3σ ; etc. Nous pouvons montrer qu’il y a
respectivement 68,27%, 95,45% et 99,73% de chance que X varie dans ces intervalles.
De même, on peut avoir l’assurance de trouver µ compris dans les intervalles x − σ et x + σ , x − 2σ et x + 2σ ,
x − 3σ et x + 3σ , etc. C’est pourquoi, on appelle ces intervalles « intervalles de confiance ». Par exemple, on peut être
certain à 95% de trouver µ compris dans l’intervalle entre x − 1,96σ et x + 1,96σ . Les extrémités de ces intervalles sont
souvent appelées « limites de confiance » de µ. Ainsi x − 1,96σ et x + 1,96σ sont respectivement des limites inférieure et
supérieure de confiance à 95 % de la moyenne µ.
Les pourcentages indiqués précédemment sont souvent appelés « seuils de confiance » (ou niveaux de confiance). On
les note par 1 − α. Par exemple, si α = 5%, cela veut dire qu’il y a 95% de chance que la vraie valeur de la moyenne µ
se trouve dans l’intervalle [x − 1,96σ ; x + 1,96σ ]. Le risque α mesure la probabilité de se tromper en affirmant que µ
appartient à l’intervalle de confiance. On appelle α le seuil de signification. Il est d’usage d’utiliser les seuils de 1%, 5%
ou 10%. Le seuil de signification de 5 % est le seuil souvent utilisé dans les sciences sociales. Sauf indication contraire,
tous les problèmes de ce manuscrit utilisent ce seuil.
Supposons l’intervalle de confiance [x − 1,96σ ; x + 1,96σ ]. Le nombre 1,96 dans l’expression de la limite de confiance
est appelé « coefficient de confiance » ou valeur critique et on le note par z. Pour un risque α, la valeur critique z correspond
à la fonction de répartition inverse de la loi normale F −1 (α/2) et peut être calculée ou déduite des tables de la loi normale.
Il existe aussi des tables de fonction de répartition inverse de la loi normale qui permettent de lire directement les valeurs
de Z pour une certaine probabilité α (ou α/2).
Dans le tableau ci-dessous, on retrouve les valeurs de zα/2 et zα pour les seuils de confiance les plus usuels.
Seuil de confiance 99% 97% 95% 90%
zα/2 2,5758 2,1701 1,9600 1,6449
zα 2,3263 1,8808 1,6449 1,2816

En règle générale, pour estimer un paramètre θ de la population à partir d’une statistique θ̂ de l’échantillon, on construit
l’intervalle de confiance sous la forme :

θ = θ̂ ± zσθ̂ (2.4)
avec z = F −1 (α/2).

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


2.4 Intervalle de confiance des paramètres d’une population 23

2.4.1 Intervalle de confiance de la moyenne d’une population


Nous donnons ci-après la démarche pour estimer la moyenne de la population µ par intervalle de confiance :
1. Vérifier les conditions d’application : soit l’échantillon est de grande taille (n ⩾ 30), soit il est de petite taille (n < 30)
mais est tiré d’une population normalement distribuée dont σ est connu.
2. Déterminer l’écart type σx de la distribution d’échantillonnage de X :
– En cas de tirage avec remise ou lorsque N ⩾ 20n (population de grande taille) :
σ
σx = √ (2.5)
n
– En cas de tirage sans remise ou lorsque N < 20n (population de petite taille) :
r
σ N −n
σx = √ (2.6)
n N −1

Remarque. Si σ est inconnu, on peut fournir sa valeur approximative par l’écart type corrigé s de l’échantillon
lorsque la taille de l’échantillon est de grande taille (n ⩾ 30) :
v !
u n
u 1 2
s=t ∑ (xi − x)
n − 1 i=1
(2.7)

3. Calculer la marge d’erreur E associée au niveau de confiance 1 − α considéré :

E = zσx (2.8)

4. Calculer les bornes de l’intervalle de confiance et l’interpréter :

µ = x±E ou x−E ⩽ µ ⩽ x+E (2.9)

Interprétation : Il y a 1 − α % de chance que la moyenne soit comprise dans cet intervalle.

En négligeant les valeurs ayant moins de 0,3 % de chances d’être obtenues, on a :


– Plus petite moyenne échantillonnale : xmin = µ − 3σx̄ .
– Plus grande moyenne échantillonnale : xmax = µ + 3σx̄
La probabilité associée à un écart maximal E entre x et µ se calcule en appliquant la définition de la côte z :
E
E = zσx̄ ou z= .
σx̄

Dans le cas d’un échantillon de petite taille (n < 30) tiré d’une population normale où l’écart type σ de la population
est inconnu, la valeur (x − µx̄ )/σx ne suit pas une loi normale centrée réduite, mais une loi de Student. On désigne la
variable d’une loi de Student par la lettre T et ses valeurs par t. Il existe plusieurs distributions de Student ; c’est la taille de
l’échantillon qui indique laquelle choisir. Il est à souligner que, plus la taille de l’échantillon augmente, plus la distribution
de Student s’approche de la loi normale N(0; 1).
Pour trouver une valeur tα dans la table de Student, il faut connaître :
– l’aire α sous la courbe pour T > tα : P(T > tα ) = α ;
– le nombre de degrés de liberté que l’on détermine ainsi : dl = n − 1.
Ainsi, sous ces conditions, la valeur (x − µx̄ )/σx suit une loi de Student et la marge d’erreur de l’estimation de la
moyenne µ se calcule ainsi :
x̄ − µx̄
E = tα/2 σx̄ où t = suit une loi de Student avec n − 1 degrés de liberté ;
σx̄
s
σx̄ ≃ √ car σ est inconnu. (Si N < 20n, on multiplie par le facteur de correction.)
n
Dans le cas d’un petit échantillon (n < 30) tirée d’une population qui n’a pas une distribution normale, on détermine la
valeur de z à partir de l’inégalité de Bienaymé-Chebychev comme il est montré à la section 2.4.3 page 25.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


24 Chapitre 2. Interprétation des sondages aléatoires

Exemple 2.1. La durée de fonctionnement des montres SEIKO obéit à une loi normale d’écart-type 0,75 an. On prélève
avec remise un échantillon de 36 montres et on trouve une durée de fonctionnement moyenne de 4,5 ans. Construire un
intervalle de confiance de 95% pour estimer la durée de fonctionnement moyenne des montres SEIKO.
Solution
σ est connu et X ⇝ N(µ, σ ). σ = 0,75, n = 36, x̄ = 4,5, 1 − α = 0,95 ⇒ zα/2 = 1,96.
On a :
σ 0,75
σx̄ = √ = √ = 0,125.
n 36
La marge d’erreur donne : E = zσx̄ = 1,96 × 0,125 = 0,245.
D’où µ = 4,5 ± 0,245 c’est-à-dire µ ∈ [4,255; 4,745] au seuil de 5%.
Exemple 2.2. On a tiré un échantillon exhaustif de 10 000 ménages dans une région comportant au total environ
700 000 ménages. Sur cet échantillon, on a observé pour un mois déterminé, une consommation moyenne par ménage de
950$, avec un écart-type égal à 700$. Calculer l’intervalle de confiance se rapportant à l’estimation de la consommation
moyenne des ménages dans la région au niveau de confiance de 95
Solution
n = 10 000, N = 700 000, µx̄ = 950 et s = 700 1 − α = 0,95 ⇒ zα/2 = 1,96.
Comme N ⩾ 20n, le facteur de correction n’est pas nécessaire :
s 700
σx̄ = √ = √ = 7.
n 10 000
La marge d’erreur vaut : E = z × σx̄ = 1,96 × 7 = 13,72.
D’où µ = 950 ± 13,72, c’est-à-dire 936,28 ⩽ µ ⩽ 963,72 au seuil de confiance de 95%.
Exemple 2.3. On désire estimer le revenu annuel des huissiers de la ville de Kalemie. Selon les statistiques les plus
récentes, la ville compte 160 huissiers. On a prélevé un échantillon de 10 huissiers et on trouve dans cet échantillon un
revenu annuel moyen de 42 000 CDF avec un écart-type de 400 CDF. Construire un intervalle de confiance au niveau de
confiance de 90 % pour estimer le revenu annuel moyen des huissiers de la ville de Kalemie.
Solution
N = 160, n = 10, µx̄ = 42 000, s = 400 et 1 − α = 0,90 ⇒ α/2 = 0,05.
Comme n < 30, on utilise la loi de Student à k = n − 1 = 9 degrés de liberté : t(0,05;9) = 1,833.
Aussi, comme N < 20n, le facteur de correction est nécessaire :
r r
s N −n 400 160 − 10
σx̄ = √ =√ = 122,859.
n N −1 10 160 − 1
La marge d’erreur est égale à : E = tσx̄ = 225,2.
D’où il y a 90% de chance que le salaire moyen des huissiers de la ville de Kalemie soit dans l’intervalle µ =
42 000 ± 225,2.

2.4.2 Intervalle de confiance du pourcentage d’une population


Pour construire l’intervalle de confiance du pourcentage p de la population, la démarche à suivre est la suivante :
1. Vérifier les conditions d’application (identiques à celles de l’estimation d’une moyenne).
2. Déterminer l’écart type de la distribution des pourcentages σ p̂ :
– Dans le cas d’une grande population (N ⩾ 20n) :
r
p̂q̂
σ p̂ = (2.10)
n
avec q̂ = 100% − p̂ (Attention : pour travailler avec les proportions, q̂ = 1 − p̂).
– Dans le cas d’une petite population (N < 20n) ou d’un tirage exhaustif :
s  
p̂q̂ N − n
σ p̂ = . (2.11)
n N −1

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


2.4 Intervalle de confiance des paramètres d’une population 25

3. Calculer la marge d’erreur associée au niveau de confiance 1 − α souhaité : E = zσ p̂ .


4. Calculer les bornes de l’intervalle de confiance et l’interpréter : p = p̂ ± E.

En négligeant les valeurs ayant moins de 0,3 % de chances d’être obtenues, on a :


– Plus petit pourcentage échantillonnal : p̂min = p − 3σ p̂
– Plus grand pourcentage échantillonnal : p̂max = p + 3σ p̂
Exemple 2.4. Un sondage sur la lecture a été réalisé par la société Impact auprès d’un échantillon aléatoire de 6 753
congolais de 15 ans et plus comptant 533 jeunes de 15 à 24 ans. Il révèle que 58 % des individus interrogés ne savent pas
lire. Chez les jeunes de 15 à 24 ans, ce pourcentage s’élève à 61 %.
1. Estimer par intervalle de confiance, au niveau de 95 %, le pourcentage de la population congolaise de 16 ans et plus
qui ne sait pas lire.
2. Construire un intervalle de confiance, au niveau de confiance de 95 %, pour estimer le pourcentage réel des congolais
de 15 à 24 ans qui ne savent pas lire.
Solution
1. On a n = 6 753; p̂ = 58 %.
Les conditions d’application sont vérifiées : n = 6 753 ⩾ 30 on peut supposer une distribution normale dans
l’échantillon.
D’où : r r
p̂q̂ 58 × 42
• σ p̂ = = = 0,6 %.
n 6 753
• Marge d’erreur : E = zσ p̂ = 1,96 × 0,6 = 1,176 ≃ 1,2 %
• Intervalle de confiance : p̂ − E ⩽ p ⩽ p̂ + E. On a : 58 − 1,2 ⩽ p ⩽ 58 + 1,2 soit 56,8 % ⩽ p ⩽ 59,2 %.
Interprétation : Il y a 95 % de chances que le pourcentage réel des congolais de 15 ans et plus qui ne savent pas lire
se situe entre 56,8 % et 59,2 %.
2. On a n = 533; p̂ = 61 %.
Les conditions d’application sont vérifiées : n = 533 ⩾ 30 on peut supposer une distribution normale dans l’échan-
tillon.
D’où : r r
p̂q̂ 61 × 39
• σ p̂ = = = 2,1 %.
n 533
• Marge d’erreur : E = zσ p̂ = 1,96 × 2,1 = 4,1 %
• Intervalle de confiance : p̂ − E ⩽ p ⩽ p̂ + E. On a : 61 − 4,1 ⩽ p ⩽ 61 + 4,1 soit 56,9 % ⩽ p ⩽ 65,1 %.
Interprétation : On peut estimer qu’il y a 95 % de chances que le pourcentage réel des congolais de 15 ans à 24 ans
qui ne savent pas lire se situe entre 56,9 % et 65,1 %.
Remarque. Généralement, un sondage contient plusieurs questions, et donc autant de pourcentages échantillonnaux et de
marges d’erreur. À la publication du sondage, il est impensable d’indiquer dans la méthodologie toutes les marges d’erreur
associées à chaque question. En pratique, on donnera la plus grande marge d’erreur que l’on peut obtenir pour le niveau de
confiance et la taille de l’échantillon considéré, soit celle associée à une répartition égale (50 %) des répondants. En effet,
pour une même valeur n et z, plus le produit p̂q̂ est grand, plus la marge d’erreur E est grande : c’est pour = 50 % que ce
produit atteint sa valeur maximale, soit 50 × 50 = 2500.
À titre de comparaison, pour = 10 %, on obtient 10 × 90 = 900 ; pour = 40 %, on a 40 × 60 = 2400 ; pour = 80 %, on a
80 × 20 = 1600, etc. Tous ces produits sont inférieurs à 2 500.
Pour l’exemple précédent, avec et n = 533, la marge d’erreur maximale est :
r
50 × 50
E = 1,96 = 4,2 %.
533

2.4.3 Inégalité de Bienaymé-Chebychev et intervalle de confiance


Lorsque la taille de l’échantillon est trop petite (n < 30) et que la population n’est pas normalement distribuée, la
construction de l’intervalle de confiance ne pourra faire recours ni à la loi normale, ni à la loi de Student. Dans ce cas, le
recours au théorème de Bienaymé-Chebychev devient indispensable.
Considérons le cas de la moyenne. D’après ce théorème, la probabilité pour que X s’écarte de la moyenne µ à une
valeur inférieure ou égale à kσ ne peut pas être inférieure à 1 − 1/k2 , où k ⩾ 1.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


26 Chapitre 2. Interprétation des sondages aléatoires

En appliquant ce théorème dans la distribution d’échantillonnage des moyennes, on a :


1
P (|X − µ| ⩽ kσx̄ ) ⩾ 1 − (2.12)
k2

Lorsqu’on a fait recours à l’inégalité de Bienaymé-Chebychev pour construire un intervalle de confiance d’une moyenne
ou d’une proportion (ou d’un pourcentage), la procédure à suivre est la suivante :
– Poser que 1 − 1/k2 égal au seuil de confiance désiré et tirer la valeur de k. On obtient :
r
1 1
1 − 2 = (1 − α) ⇔ k = . (2.13)
k α
– Calculer l’écart type σx̄ de la distribution d’échantillonnage des moyennes (cela a été montré à la section 2.4.1,
page 23) ou l’écart type σ p̂ de la distribution d’échantillonnage des pourcentages (voir section 2.4.2 page 24) :

σ
σx̄ = √ (si σ est connu) (2.14)
n
s
σx̄ = √ (si σ est inconnu) (2.15)
n
r
p̂q̂
σ p̂ = (avec q = 100% − p). (2.16)
n
– Calculer la marge d’erreur :
E = kσθ̂ (2.17)
– Construire l’intervalle de confiance comme suit :

µ = x±E ou x−E ⩽ µ ⩽ x+E (2.18)


p = p̂ ± E ou p̂ − E ⩽ p ⩽ p̂ + E (2.19)

Exemple 2.5. Le salaire mensuel de 10 employés de l’EPST est de 180 000 CDF avec un écart type de 14 000 CDF.
Construire l’intervalle de confiance à 95 % pour estimer le salaire mensuel moyen des employés de l’EPST.
Solution
Nous avons : n = 10, x = 180 000, s = 14 000.
À partir de l’inégalité de Bienaymé-Chebychev, nous avons :
1
1− = 0,95 ⇒ k = 4,47.
k2
En outre :
s
σx̄ = √ = 4 427,1887.
n
et

E = kσx̄ ≃ 19 790.

D’où nous sommes certains que la moyenne µ appartient dans l’intervalle 180 000 ± 19 790 au seuil de confiance de
95%.

2.5 Exercices
1. Des données, distribuées en forme de cloche, ont une vérifier si le diamètre des câbles de la production est
moyenne de 30 et un écart type de 5. Utiliser la règle bien conforme aux normes : une distribution normale
empirique pour déterminer le pourcentage d’observa- avec un diamètre moyen de 0,90 cm et un écart type
tions comprises entre : de 0,06 cm. Pour ce faire, on prélève un échantillon de
a) 20 et 40. 36 câbles dans la production. Le diamètre moyen des
b) 15 et 45. 36 câbles est de 0,88 cm, avec un écart type corrigé
c) 25 et 35. de 0,075 cm.
2. Une entreprise fabrique des câbles d’acier. On désire a) Donner les valeurs de µ, σ , x̄, s, µx̄ et σx̄ .

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


2.5 Exercices 27

b) En négligeant les valeurs ayant moins de 0,3 % lité que la proportion d’échantillon soit au moins égale
de chances d’être obtenues, déterminer les va- à 150/400=0,375 ?
leurs entre lesquelles le diamètre des câbles de 6. La moyenne d’un échantillon aléatoire simple de 40
la production peut se situer. éléments est égale à 25. L’écart type de la population
c) Déterminer les valeurs entre lesquelles le dia- est σ = 5.
mètre moyen d’un échantillon de 36 câbles de- a) Quelle est l’erreur type de la moyenne, σx̄ ?
vrait se situer. Est-ce que la moyenne échantillon- b) Pour un seuil de confiance de 95 %, quelle est la
nale obtenue se situe entre ces deux valeurs ? marge d’erreur ?
3. Supposons que le revenu mensuel moyen des 7. La moyenne d’un échantillon aléatoire simple de 50
3 000 fonctionnaires du territoire de Kalemie soit observations issues d’une population ayant un écart
de 200 000 CDF, avec un écart-type de 20 000 CDF. type σ = 6, est égale à 32.
On prélève un échantillon aléatoire de 100 fonction- – Construire un intervalle de confiance à 90 % pour
naires. la moyenne de la population.
a) Calculer la marge d’erreur au seuil de confiance – Construire un intervalle de confiance à 95 % pour
de 95 %. la moyenne de la population.
b) Indiquer la plus grande moyenne échantillonnale – Construire un intervalle de confiance à 99 % pour
possible, en négligeant les valeurs ayant moins la moyenne de la population.
de 0,3 % de chances d’être obtenues. 8. La moyenne d’un échantillon aléatoire simple de 60
c) Construire un intervalle de confiance au niveau observations est égale à 80. L’écart type de la popula-
de confiance de 90 % permettant d’estimer le tion est σ = 15.
montant mensuel moyen du revenu pour l’en- a) Construire l’intervalle de confiance à 95 % pour
semble des fonctionnaires du territoire de Kale- la moyenne de la population.
mie. Interpréter le résultat. b) Supposez que la même moyenne d’échantillon
d) Quelles sont les chances qu’il y ait un écart d’au ait été obtenue avec un échantillon de 120 obser-
plus 2 000 CDF entre le revenu moyen de cet vations. Construire un intervalle de confiance à
échantillon de 100 fonctionnaires et celui des 95 % pour la moyenne de la population.
fonctionnaires de la population ? c) Quel est l’impact de la taille de l’échantillon sur
e) Quelles sont les chances que le salaire moyen se l’estimation par intervalle de la moyenne de la
situe entre 180 000 CDF et 210 000 CDF ? population ?
f ) Compléter l’énoncé. Il y a 95 % de chances que 9. Un intervalle de confiance à 95 % pour la moyenne
l’écart entre le revenu moyen des 100 fonction- d’une population va de 152 à 160. Si σ = 15, quelle
naires de l’échantillon et le revenu moyen µ des est la taille de l’échantillon utilisé dans cette étude ?
fonctionnaires du territoire de Kalemie soit d’au 10. Quelle doit être la taille de l’échantillon pour obtenir
plus . . . . . . CDF. un intervalle de confiance à 95 % avec une marge d’er-
4. Les 4 536 étudiants de l’université de Kalemie (UNI- reur de 10 ? Supposez que l’écart type de la population
KAL) se répartissent ainsi : 3 280 du sexe masculin est égal à 40.
et 1 256 du sexe féminin. On projette d’effectuer un 11. Un échantillon aléatoire simple de 400 individus four-
sondage auprès des étudiants, au niveau de confiance nit 100 réponses oui à une question indicatrice (on
de 95 %. répond par oui ou non).
a) Le tableau suivant indique, pour différentes a) Quelle est l’estimation ponctuelle de la propor-
tailles d’échantillon, l’écart maximal que le tion de la population qui a répondu oui ?
hasard peut produire entre le pourcentage de b) Quelle est votre estimation de l’erreur type de la
femmes dans l’échantillon et le pourcentage à proportion ?
l’université. Compléter le tableau. c) Construire l’intervalle de confiance à 95 % pour
n σx̄ Erreur la proportion de la population.
100 12. Un échantillon aléatoire simple de 800 observations
150 génère une proportion d’échantillon p = 0,70.
200 a) Construire un intervalle de confiance à 90 %
500 pour la proportion de la population.
600 b) Construire un intervalle de confiance à 95 %
pour la proportion de la population.
b) Quel est l’effet de l’augmentation de la taille de 13. On prélève un échantillon aléatoire de 625 électeurs
l’échantillon sur la marge d’erreur ? afin de déterminer le pourcentage d’électeurs favo-
5. Une société d’études de marché effectue des sondages rables à un projet de loi. Sur les 625 personnes inter-
par téléphone, avec historiquement un taux de ré- rogées, 350 se déclarent en faveur du projet de loi.
ponse de 40 %. Quelle est la probabilité que dans a) Estimer le pourcentage véritable des électeurs
un nouvel échantillon de 400 numéros de téléphone, favorables au projet de loi à l’aide d’un intervalle
au moins 150 individus coopèrent et répondent aux de confiance au niveau de confiance de 95 %.
questions ? En d’autres termes, quelle est la probabi-

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


28 Chapitre 2. Interprétation des sondages aléatoires

b) Pour un même niveau de confiance, quelle taille Q4. De quelle façon réglez-vous souvent vos achats
d’échantillon faudrait-il prendre pour réduire la dans un supermarché ?
marge d’erreur du sondage à 2 % ? Comme le
sondage effectué auprès de 625 personnes donne Mode de paiement Nombre de répondants
un pourcentage échantillonnal de 56 %, utiliser
Comptant 90
cette valeur pour déterminer la nouvelle taille
Carte de crédit 150
d’échantillon.
Carte de débit 60
14. Supposons un étudiant ayant effectué, dans la ville de
Total 300
Kalemie, un sondage auprès d’un échantillon aléatoire
de 300 individus. Voici la distribution des réponses à
quatre des questions posées. a) Donner une estimation ponctuelle du pourcen-
Q1. Quel est votre sexe ? tage des individus du sexe féminin dans la ville
de Kalemie. Quelle est la marge d’erreur de cette
Sexe Nombre de répondants estimation, au niveau de confiance de 95 % ?
Féminin 170 b) En utilisant un niveau de confiance de 95 %, es-
Masculin 130 timer entre quelles valeurs se situe la moyenne
Total 300 d’âge de la population de cette ville.
Q2. Quel âge avez-vous ? c) Estimer par intervalle de confiance, au niveau
de confiance de 95 %, le montant moyen du re-
Âge Nombre de répondants
venu de la population de la ville de Kalemie et
Moins de 35 ans 45
interpréter cet intervalle.
[35 ans ; 50 ans[ 130
d) Compléter l’énoncé. Il y a 95 % de chances que
[50 ans ; 65 ans[ 70
le pourcentage des habitants de cette ville qui
65 ans et plus 55
utilisent la carte de débit se situe entre . . . . . . %
Total 300
et . . . . . . %.
Q3. Quel est le montant de votre revenu mensuel ? e) Écrire un court texte de style journalistique ré-
Montant (en $) Nombre de répondants sumant les résultats du sondage : utilisation de
Moins de 25 95 l’estimation ponctuelle pour présenter les résul-
[25 ; 50[ 83 tats, suivie de la méthodologie du sondage. La
[50 ; 75[ 68 méthodologie doit contenir la taille de l’échan-
[75 ; 100[ 30 tillon, la marge d’erreur de l’estimation et le
100 et plus 24 niveau de confiance. (Dans ce cas-ci, indiquer la
Total 300 marge d’erreur de chaque variable estimée.)

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


Chapitre 3

La pratique des sondages aléatoires

Pour certaines applications, l’utilisation pure et simple d’un sondage à un seul degré avec probabilité égale décrit dans
les chapitres précédents serait coûteuse et peu efficace. La mise en œuvre de la méthode des sondages aléatoires comporte
l’emploi d’un certain nombre de procédés dont les uns concernent l’organisation du tirage de l’échantillon (simplification
du tirage, diminution du coût de collecte de l’information, etc.) et les autres, l’amélioration de l’efficacité de la méthode.

3.1 La base de sondage


La méthode des sondages aléatoires suppose que chaque individu de la population a une probabilité non nulle
d’appartenir à l’échantillon et que l’on connait cette probabilité. Le procédé le plus élémentaire consiste à tirer avec
probabilités égales les n individus de l’échantillon parmi les N individus composant la population. Cette opération requiert
l’existence d’une base de sondage.
Une base de sondage est constituée par une liste ou un fichier énumérant les individus de la population sans omission
(puisque chacun d’entre eux doit avoir une probabilité non nulle d’être désigné) et sans répétition (pour assurer l’égalité
des probabilités de sortie).
Il est très important, en particulier, que la base de sondage soit complète et à jour. En effet, si le fichier comporte des
répétitions, il sera généralement possible de les éliminer. Si par défaut de mise à jour, certaines unités figurant dans le
fichier ont, en réalité, disparu, on s’en apercevra nécessairement lors de l’enquête sur le terrain. Par contre, il faut tout
mettre en œuvre pour constituer une liste au moins approximative des unités nouvelles qui ne figurent pas encore dans le
fichier. On organisera dans celle-ci le prélèvement d’un échantillon qui viendra compléter celui désigné dans la base de
sondage primitive.
Par exemple, pour ses enquêtes courantes auprès des ménages, l’INSEE utilise comme base de sondage, le fichier des
feuilles des logements du plus récent recensement. Le ménage est défini comme l’ensemble des personnes vivant dans
un même logement. Les ménages sont soit des résidences principales, soit des résidences secondaires, soit encore des
logements vacants. Par définition, il y a correspondance entre la notion de ménage et celle de résidence principale. Dans
ces conditions, les règles imposées aux enquêteurs sont les suivantes :
1. Lorsqu’un logement est, à la date de l’enquête, la résidence principale d’un ménage, c’est celui-ci qui doit être
interrogé, même si le ménage n’occupait pas ce logement à la date du recensement. En même temps, les logements
secondaires ou vacants au moment du recensement ne doivent pas être exclus de l’échantillon : ils peuvent être, en
effet, devenus des résidences principales depuis cette date et doivent donc être visités par les enquêteurs.
2. Lorsque le logement est une résidence secondaire à la date de l’enquête, l’interview ne doit pas avoir lieu. En effet, si
l’on procédait à l’enquête dans les résidences secondaires, cela donnerait aux ménages ayant une deuxième résidence,
une probabilité d’être interrogés double de celle des autres.
En outre, les logements « neufs », construits depuis le dernier recensement, n’ont aucune chance d’être désignés par
ce procédé puisqu’ils ne figurent pas dans la base de sondage. Celle-ci doit donc être complétée par une liste, au moins
approximative, des logements neufs : par exemple, une liste des permis de construire ou encore un fichier des logement
en cours de construction. Le prélèvement d’un échantillon, complémentaire dans cette liste sera effectué avec un taux de
sondage identique à celui appliqué sur la liste initiale.

3.2 Procédés de tirage de l’échantillon


Le tirage d’un échantillon est une opération complexe. Aussi emploie-t-on, en pratique, certains procédés pour le
simplifier.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


30 Chapitre 3. La pratique des sondages aléatoires

3.2.1 Méthode d’échantillonnage aléatoire simple


La méthode élémentaire consiste à tirer l’échantillon en donnant à chaque individu de la population la même probabilité
d’être désigné. Il faut pour cela :
1. Se procurer ou établir une base de sondage ;
2. Numéroter mes individus de 1 à N ;
3. Se fixer sur la taille n de l’échantillon ;
4. Tirer n nombres compris entre 1 et N, en donnant à chacun des N numéros la même probabilité d’être désignés.
Cette dernière opération revient à tirer n boules dans une urne contenant N boules numérotées de 1 à N et ne différant
que par leur numéro. Les tirages peuvent avoir lieu :
– soit avec remise dans l’urne : tirages indépendants ;
– soit sans remise dans l’urne : tirages exhaustifs.
En pratique, on procède presque toujours à des tirages exhaustifs. À effectif égal de l’échantillon, cette méthode donne,
en effet, des estimations plus précises, la variance relative à un échantillon exhaustif étant toujours inférieur à celle relative
à un échantillon indépendant.
Tirer au hasard, avec probabilités égale, un échantillon d’individus dans une population n’est pas une opération facile,
comme on pourrait le penser a priori. L’opérateur doit s’affranchir de toute réflexion dans son choix et doit, pour cela
utiliser une méthode objective. L’idée la plus simple est d’organiser le tirage de l’échantillon comme celui d’une loterie,
les numéros repérant les individus étant inscrits sur des roues que l’on fait tourner, ou sur des papiers mélangés dans
un chapeau. Lorsque l’effectif de l’échantillon est relativement grand, des tels procédés sont peu efficaces. On peut s’en
affranchir en utilisant la table des nombres aléatoires ou en recourant aux logiciels statistiques.
Exemple : On veut choisir sans remise 5 individus dans une liste qui en contient 75. Après avoir attribué un numéro à
chacun, on obtient :
– à l’aide de la calculatrice : on utilise la touche RAND tout en s’assurant d’éliminer les doublons obtenus (on peut
taper autant de fois jusqu’à ce que 5 nombres inférieurs ou égaux à 75 soient générés ; on peut aussi retenir les deux
premiers chiffres ou les deux derniers chiffres de chaque nombre généré s’ils forment un nombre inférieur ou égal à
75) : 8, 21, 43, 52, 63.
– à l’aide de l’ordinateur, plusieurs logiciels permettent générer des nombres aléatoires :
– Excel : on tape la formule =ALEA.ENTRE.BORNES(1 ; 75)
– R : on peut taper :
> liste=1:75
> echantillon=sample(liste,5)
> echantillon
– Stata : la commande sample permet de choisir un échantillon : on tapera : sample 5, count.
– à l’aide de la table des nombres aléatoires : lire horizontalement ou verticalement et retenir les nombres valides selon
notre échantillon.

Avantages et inconvénients L’avantage de l’échantillonnage aléatoire simple est qu’elle assure le caractère représentatif
de l’échantillon en utilisant une technique de sélection d’une grande simplicité. L’inconvénient de cette méthode réside
dans le fait qu’elle nécessite une liste complète des unités statistiques de la population.

3.2.2 Méthode d’échantillonnage systématique


3.2.2.1 Définition
Les unités de l’échantillon sont prélevées dans la population suivant une progression arithmétique, la base de celle-ci
étant choisie au hasard et la raison calculée de façon à couvrir entièrement la population de référence.
Pour sélectionner un échantillon en appliquant la méthode d’échantillonnage systématique, on doit prélever de façon
systématique chaque ke unité de la liste de la population. La valeur de k, que l’on nomme pas de sondage, dépend de la
taille de la population et de celle de l’échantillon ; elle correspond approximativement à la valeur du rapport N/n.
Exemple : On veut choisir 50 individus parmi une liste de 500, numérotés de 1 à 500. Comme N = 500 et n = 50, on
prélèvera chaque 10e (500/50 = 10) individu dans la liste ; le point de départ sera un nombre choisi au hasard entre 1 et 10.
Par exemple, si le hasard désigne 4 comme point de départ, on retiendra les nombres 4, 14, 24, 34, 44, etc.

3.2.2.2 Propriétés
Un échantillon prélevé par tirage systématique est un échantillon aléatoire. Il correspond toutefois au tirage d’une
grappe unique constituée par tous les individus dont les numéros appartiennent à une même progression arithmétique. La
précision des résultats sera donc de celle qui aurait été obtenue par sa méthode élémentaire.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


3.2 Procédés de tirage de l’échantillon 31

Soit une population composée de N individus U, repérés par leur numéro s (s = 1, 2, . . . ,N) dans laquelle on prélève,
par sondage systématique avec un taux de sondage t = 1/k avec N = nk, n étant l’effectif de l’échantillon.
Considérons une variable X. les valeurs xs prises par celle-ci pour chacun des individus de la population peuvent être
disposées dans un tableau à k lignes et n colonnes (Tableau 3.1).

TABLEAU 3.1 – Sondage systématique

1 2 3 ··· n Moyenne
1 X1 X1+k X1+2k ··· X1+(n−1)k X1
2 X2 X2+k X2+2k ··· X2+(n−1)k X2
.. .. .. .. .. .. ..
. . . . . . .
i Xi Xi+k Xi+2k ··· Xi+(n−1)k Xi
.. .. .. .. .. .. ..
. . . . . . .
k Xk X2k X3k ··· Xnk Xk

La méthode des tirages systématique consiste à choisir au hasard un nombre entre 1 et k, i par exemple, et retenir dans
l’échantillon les individus de rang i, i + k, i + 2k, etc. Ce procédé revient donc à tirer au hasard une ligne dans le tableau 3.1.
Il est trivial de vérifier qu’on obtient bien un échantillon où chaque unité a la probabilité d’inclusion égale à n/N.
Puisque le tirage systématique revient à choisir une ligne au hasard avec probabilité égale 1/k, la moyenne arithmétique
X est une variable aléatoire qui comprend les valeurs X 1 , X 2 , X 3 , . . ., X k . Il est possible de calculer l’espérance mathématique
de la moyenne et de la fréquence observée sur l’échantillon.
Par définition de l’espérance mathématique :
k
1 1 k
E(X) = ∑ X i = ∑ X i .
i=1 k k i=1

La moyenne d’un échantillon systématique est un estimateur sans biais de la moyenne de la population.
Ce résultat peut être étendu à l’estimation de la fréquence d’un caractère dans la population, en considérant les Xi j
comme des variables de Bernoulli prenant la valeur 1 lorsque l’individu considère présente ce caractère et 0 lorsqu’il ne
présente pas.
Pour la ligne i :

n
1
fi = ∑ Xi j (moyenne des Xi j dans l’échantillon)
n j=1

et
k
1
E( fi ) = ∑ fi = p
n j=1

avec p représentant la proportion des individus ayant le caractère dans l’ensemble de la population.
La fréquence d’un caractère dans un échantillon systématique est donc un estimateur sans biais de la proportion
d’individus présentant ce caractère dans la population.
S’agissant de la variance, nous avons, par définition :

1 k
V (X) = ∑ (X i − X)2
k i=1
On retiendra, en outre, que la précision d’un sondage systématique sera généralement plus grande que celle d’un
sondage ordinaire de même taille. Plus exactement :
– Si l’ordre des unités dans le fichier servant de base de sondage peut être considéré comme aléatoire, les deux types
de sondage seront équivalents.
– Si les individus occupant des rangs voisins dans le fichier ont des éléments de ressemblance, la précision obtenue par
un sondage systématique sera meilleure. Or il en est souvent ainsi en pratique.
Supposons un exemple : pour des raisons de rapidité et de coût, le recensement de la population est d’abord dépouillé
sur un échantillon au 1/20. Cet échantillon est prélevé par tirage systématique parmi les feuilles de logement du
recensement. Ce fichier étant classé par avenues, quartiers, communes et provinces ; ce mode de tirage assure une

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


32 Chapitre 3. La pratique des sondages aléatoires

répartition géographique très satisfaisante de l’échantillon pour de nombreux caractères socioéconomiques (catégorie
socioprofessionnelle, activité économique, etc.) qui sont en relation étroite avec le lieu de domicile, on obtient ainsi
un gain de précision très important par rapport à ce qu’aurait donné un sondage élémentaire.
– Par contre, si une périodicité quelconque avait présidé au rangement des unités dans le fichier, la méthode pourrait
conduire à de graves erreurs d’estimation surtout si la période est un sous-multiple de la raison de la progression
arithmétique du tirage. Le cas est heureusement peu fréquent.

3.2.2.3 Avantages et désavantages


En résumé, la méthode d’échantillonnage systématique est plus agréable à employer que l’échantillonnage aléatoire
simple dans le cas où la population et l’échantillon sont tous deux de grande taille, surtout si la sélection de l’échantillon
se fait manuellement. Par contre, elle comporte un inconvénient, celui de la périodicité. Le problème peut se poser si la
liste présente un caractère cyclique qui coïncide avec le « pas de sondage » . Il est alors probable que l’échantillon obtenu
ne sera pas représentatif de la population. Par exemple, si le but de l’enquête est d’estimer le nombre de clients entrant
dans un magasin au cours de certains mois, on peut prélever un échantillon de jours de ces mois et estimer le nombre de
clients entrant dans le magasin aux jours choisis. Si les jours sont classés selon l’ordre habituel, un « pas de sondage » de 7,
par exemple, donnera systématiquement le même jour de la semaine. Si l’on pense que la liste peut contenir un caractère
cyclique, il est préférable d’effectuer un échantillonnage aléatoire simple.

3.2.3 Méthode d’échantillonnage par grappes


3.2.3.1 Introduction
Il arrive souvent qu’une population soit répartie en grappes ou sous-ensembles plus ou moins homogènes : des électeurs
d’une circonscription électorale sont répartis géographiquement en centres de vote, les policiers sont répartis en postes sur
le territoire d’une ville, etc. L’échantillonnage par grappes consiste à tirer au hasard un certain nombre de grappes, puis à
former l’échantillon avec tous les individus des grappes pigées.
Exemple : Les étudiants de deuxième graduat de l’université de Kalemie sont répartis dans les 12 groupes du cours de
statistique mathématique ; ces groupes sont numérotés de 1 à 12. On veut choisir un échantillon à l’aide de la méthode
des grappes. On tire au hasard 3 nombres entre 1 et 12. Si, par exemple, on obtient les nombres 2, 7 et 11, alors tous les
étudiants de ces 3 groupes forment l’échantillon.
Ainsi, le sondage par grappes se différencie du sondage élémentaire en ce que les individus de l’échantillon ne sont pas
tirés un par un mais par « paquets » appelés grappes, constituées par un ensemble d’individus, chacun de ceux-ci étant
rattaché à une seule. Le ménage, ensemble des personnes habitant le même logement, constitue une grappe d’individus ;
l’immeuble, une grappe de logements et donc de ménages ; l’établissement, une grappe de salariés, etc.
Comparativement aux autres méthodes, l’échantillonnage par grappes a comme avantage qu’il n’est pas nécessaire
d’avoir une liste de la population, mais seulement la liste des unités des grappes tirées au hasard. Cette méthode a par contre
l’inconvénient de fournir des estimations habituellement moins précises que celles qu’on obtient avec un échantillonnage
aléatoire simple, parce que des unités appartenant à une même grappe ont tendance à présenter des caractéristiques
semblables. Il est toutefois possible de compenser cette perte de précision en augmentant la taille de l’échantillon.

3.2.3.2 Quelques explications du sondage par grappes


Le tirage par grappes permet de simplifier l’établissement de la base de sondage : il est plus facile de dresser une liste de
logement qu’une liste de personnes, de constituer un fichier d’établissements qu’un fichier de salariés. Mais sa justification
réside surtout dans la diminution du coût de réalisation de l’enquête sur le terrain. Les unités composant une même grappe
étant presque toujours voisines, le sondage par grappes permet une économie des frais.
En revanche, les unités statistiques composant une même grappe se ressemblent généralement. Un échantillon prélevé
par cette méthode ne peut donc être assimilé à un échantillon élémentaire d’effectif correspondant : le plus souvent un
sondage élémentaire de même taille. Néanmoins, à coût constat, la comparaison joue souvent en faveur du tirage par
grappes.
Soit une population de A individus. Supposons, pour simplifier la présentation, qu’elle composée de M grappes de
même taille, c’est-à-dire comprenant chacun h individus :

N = m·h

L’échantillon comprend m grappes. Son effectif est :

n = m·h

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


3.2 Procédés de tirage de l’échantillon 33

TABLEAU 3.2 – Sondage par grappes

1 2 3 ··· h Moyenne
1 X11 X12 X13 ··· X1h X1
2 X21 X22 X23 ··· X2h X2
.. .. .. .. .. .. ..
. . . . . . .
i Xi1 Xi2 Xi3 ··· Xih Xi
.. .. .. .. .. .. ..
. . . . . . .
M XM1 XM2 XM3 ··· XMh XM

Considérons une variable X. les valeurs prises par celle-ci pour chacun des individus de la population peuvent être
disposées dans un tableau à M lignes et h colonnes analogue à celui utilisé pour l’analyse du sondage systématique.
Chaque ligne du tableau représente une grappe. Le sondage par grappes consiste à tirer au hasard, généralement sans
remise, un échantillon de m lignes parmi les M. On notera la parenté sur le plan formel, du sondage par grappes avec le
sondage systématique où l’on ne tire qu’une seule ligne. On a :
– La moyenne des X pour la ligne i :
1 h
X i = ∑ Xi j
n j=1
– La moyenne générale de la population :

1 m 1 m
X= ∑ Xi j = ∑ X i
mh i=1 m i=1

Puisque le sondage par grappes revient à tirer au hasard, m lignes parmi M, X est une variable aléatoire qui peut prendre
les valeurs X 1 , X 2 , . . ., X M . Il est donc possible de calculer ses caractéristiques et de montrer, en vertu de ce que nous avons
déjà vu dans les paragraphes précédents, que la moyenne arithmétique X i est un estimateur non biaisé de la moyenne x
pour la population.

3.2.4 Méthode d’échantillonnage stratifié


L’échantillonnage stratifié consiste à subdiviser la population en sous-groupes homogènes, ou strates, en fonction d’un
ou de plusieurs critères : sexe, langue, province, ville de résidence, etc. On choisit ensuite un échantillon aléatoire dans
chacune des strates, de manière qu’elle soit représentée dans l’échantillon proportionnellement à son importance dans la
population.
Exemple : Supposons que 60 % d’élèves d’une école sont inscrits en littéraire, et 40 % en pédagogie générale ; pour
former un échantillon de 120 élèves en respectant la division en strates, on doit choisir au hasard 60% = 72 élèves en
littéraire et 40% = 48 élèves en pédagogie générale.

Avantages et désavantages L’échantillonnage stratifié assure une bonne représentation des différentes strates de la
population dans l’échantillon. Il permet aussi d’obtenir des estimations pour chaque strate. Toutefois, pour appliquer cette
méthode, il faut avoir accès à la liste des unités de la population pour déterminer la répartition des strates.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie


34 Chapitre 3. La pratique des sondages aléatoires

3.3 Le sondage avec probabilité inégales


3.3.1 Principe
3.3.2 Réalisation pratique du tirage de l’échantillon
3.3.3 Propriétés
3.3.4 Détermination des probabilités de tirage optimales

3.4 Le sondage à plusieurs degrés


3.4.1 Principe
3.4.2 Avantages et inconvénients
3.4.3 Modalités pratique du tirage d’un échantillon à deux degrés

3.5 Travaux pratiques


1. Considérons une commune avec 8 quartiers. Nous souhaitons estimer le ratio des dépenses alimentaires X par
rapport aux dépenses totales Y pour toutes les personnes vivant dans cette commune. Pour ce faire, un choisit au
hasard 2 quartiers et chaque ménage de ces deux quartiers sera interviewé. Supposons encore que les données de la
composition de ces quartiers soient fournies comme dans le tableau ci-dessous :
Quartier Dépenses alimentaires totales Dépenses totales
1 100 000 300 000
2 50 000 200 000
3 75 000 300 000
4 200 000 600 000
5 150 000 450 000
6 175 000 520 000
7 170 000 680 000
8 150 000 450 000
Total 1 070 000 3 500 000
a) Quelle est la méthode d’échantillonnage employée ?
b) Combien y a-t-il d’échantillons possibles ? (Supposez un tirage sans remise.)
c) Calculer, pour chaque échantillon, le ratio des dépenses alimentaires par rapport aux dépenses totales.
d) Supposons que le hasard a sélectionné les quartiers 2 et 5 dans l’échantillon. Calculer ce ratio et comparer avec
la vraie valeur de ce ratio pour cette commune.
e) Calculer l’écart type et donner une estimation de ce ratio à partir des données de l’échantillon.
f ) Supposons maintenant des échantillons de taille n = 7. Donnez la distribution exacte de ce ratio pour tous les
échantillons possibles.
g) Calculer l’écart type et donner une estimation de ce ration à partir d’un échantillon de taille n = 7 que le hasard
va donner. Discuter vos résultats.
2. Supposons que l’on désire analyser la consommation des ménages dans la ville de Kalemie.
a) À la lumière de ce cours, expliquer par étapes successives et cohérentes comment vous allez procéder pour
estimer la consommation moyenne des ménages de la ville de Kalemie.
b) Supposons en plus qu’on s’intéresse à la proportion des ménages pauvres (c’est-à-dire des ménages vivant avec
l’équivalent de moins de 1,90 $ par personne et par jour). Expliquer comment vous allez vous y prendre pour
estimer la pourcentage des ménages pauvres dans la ville de Kalemie.
c) Élaborer un questionnaire approprié puis collecter les données de terrain afin d’estimer la consommation
moyenne et le pourcentage des ménages pauvres dans la ville de Kalemie.

B. M. S ELENGE Théorie et pratiques des sondages • Université de Kalemie

Vous aimerez peut-être aussi