Vous êtes sur la page 1sur 11

STT-4600 STT-6220 CHAPITRE 1

A-Introduction : Recensement et échantillonnage

L’échantillonnage étudie des méthodes pour estimer les caractéristiques de populations finies. Dans ce
cours on s’intéresse surtout à des statistiques simples telles des totaux, des moyennes et des rapports de
totaux. Par exemple on peut chercher à estimer le taux de chômage au Québec, défini comme un moins le
rapport du nombre total de personnes qui occupent un emploi sur le nombre total de personnes disponibles
pour occuper un emploi. Pour atteindre cet objectif on peut obtenir l’information désirée pour toutes les
unités de la population et faire un calcul exact. Une telle étude s’appelle un recensement; elle est très
onéreuse si, comme au Québec, la taille de la population est grande. On peut aussi procéder par
échantillonnage. Cette approche consiste à sélectionner « au hasard » certaines unités de la population et
à estimer la caractéristique d’intérêt à l’aide des seuls individus échantillonnés. Dans ce cours on étudie
(i) des méthodes pour sélectionner des échantillons aléatoires d’unités et (ii) la construction d’estimateurs
des caractéristiques de la population à l’aide des données de l’échantillon et l’étude de leurs propriétés
statistiques (biais, variance).

Les méthodes d’échantillonnage sont beaucoup utilisées par des agences statistiques (Statistique Canada et
Institut de la statistique du Québec) pour obtenir de l’information sur des populations. Au Canada, le taux
de chômage est estimé à chaque mois par l’enquête sur la population active (EPA) qui utilise la théorie de
l’échantillonnage. On utilise aussi ces techniques en comptabilité, en gestion de la faune, en santé et dans
bien d’autres domaines.

1
B-Population cible et base de sondage.

La population cible définie l’ensemble d’intérêt pour l’enquête. Il peut s’agir par exemple des touristes
qui visitent une région durant l’été ou bien des résidents du Québec. Pour pouvoir procéder par
échantillonnage il faut disposer d’une liste de toutes les unités de la population. Cette liste s’appelle la
base de sondage. Pour bien comprendre la différence entre population cible et base de sondage
considérons la planification d’une étude auprès des touristes qui visiteront la Gaspésie à l’été 2016. La
population cible n’est pas connue exactement car les déplacements touristiques se décident souvent à la
dernière minute. Il n’y a pas de liste des personnes qui visitent la Gaspésie au cours d’un été. Quelle base
de sondage peut-on utiliser pour faire cette enquête ? On peut utiliser une base de sondage québécoise
avec une question filtre du type « Prévoyez-vous visiter la Gaspésie cette été ? ». Cette suggestion n’est
pas avantageuse car le taux de succès à la question filtre est sans doute très faible ; de plus les visiteurs de
l’extérieur du Québec ne sont pas comptés. On peut aussi procéder par échantillonnage indirect et
travailler à partir d’une base de sondage contenant tous les lieux touristiques de la Gaspésie. Pour réaliser
l’enquête on pourrait tirer à chaque jour un échantillon de lieux touristiques et interroger les touristes qui
se rendent dans les lieux tirés. Dans ce cas un touriste peut-être interrogé à plusieurs reprises ; il faudra
en tenir compte dans le traitement des données.

Pour un problème aussi simple que celui d’échantillonner la population québécoise, le choix d’une base de
sondage est loin d’être évident. Les instituts de sondage utilisent souvent les numéros de téléphone
comme base. Ces numéros permettent de rejoindre des foyers et les personnes qui y résident. Cette base
de sondage est incomplète ; les personnes résidant dans un foyer qui n’a pas le téléphone ne sont pas dans
la base. De plus les personnes mobiles (jeunes et sans enfant) sont plus difficiles à joindre que les autres.
Un échantillon téléphonique est sans doute biaisé. L’avènement des téléphones portables dont les numéros
2
ne sont pas gérés comme ceux des téléphones traditionnels compliquent l’utilisation de cette base. Faut-il
seulement utiliser la liste des numéros de téléphone traditionnels dans la base de sondage? Malgré leurs
faiblesses, les bases de numéros de téléphones sont couramment utilisées par des instituts de sondage.
Cependant pour estimer des caractéristiques sociales telles que le taux de chômage ou la proportion
d’enfants vivant sous le seuil de pauvreté cette approche n’est pas fiable. Pour ce faire on utilise plutôt
une base de sondage géographique ou base aréolaire, plutôt qu’une base de liste énumérant toutes les
personnes de la population cible. On divise le territoire canadien en unités géographiques disjointes
(associées aux divisions de recensement) qui forment la base de sondage. Lorsqu’une unité
est tirée, toutes les personnes résidant dans l’unité à une date donnée sont dans l’échantillon. Cette base
de sondage n’est pas biaisée. La réalisation de « recensements » dans les unités sélectionnées pose tout de
même des défis importants. Cette discussion fait ressortir la différence entre l’unité d’échantillonnage (la
division de recensement) de l’unité d’observation (la personne).

Dans certaines situations, comme par exemple pour faire la vérification comptable d’une liste de
transactions, la population cible n’est pas différente de la base de sondages. Par exemple, lorsque le
Vérificateur général du Québec fait la vérification de Revenu-Québec pour une année donnée, la base de
sondage est l’ensemble des avis de cotisations envoyés par Revenu-Québec. On cherche alors à estimer la
proportion des avis contenant des erreurs et le manque à gagner, pour le gouvernement, associé à ces
erreurs.

3
C-Aspect historique

Au dix-neuvième siècle une étude exhaustive, ou recensement, était la seule méthode concevable pour
réaliser une enquête auprès d’une population. Le premier à suggérer qu’une telle enquête pouvait se faire
à partir d’un échantillon est le statisticien norvégien Anders Nicolai Kiær. En 1895, lors d’une rencontre
de l’institut International de la Statistique il a émis l’idée qu’il suffisait d’utiliser un échantillon
« représentatif » pour faire une enquête. Par représentatif il voulait dire semblable, en tout point, à la
population cible. Il a cependant eu de la difficulté à donner une définition opérationnelle d’un
échantillon « représentatif ». Au début du vingtième siècle, on utilisait une méthode des quotas pour
s’assurer de la représentativité d’un échantillon; les moyennes échantillonnales d’un nombre restreint de
variables de contrôle devaient être égales aux moyennes correspondantes dans la population. Par exemple
un sous-ensemble de la population ayant la même répartition âge-sexe que la population peut ainsi être
considéré comme étant représentatif. Appliquée en Italie en 1921 cette méthode des quotas a donné des
résultats erronés. L’échantillonnage probabiliste utilisé aujourd’hui a été développé dans un article de
Neyman publié en 1934. Il définit un échantillon représentatif comme étant sélectionné selon un plan de
sondage aléatoire sous le contrôle d’un statisticien. Il montre également comment caractériser la qualité
des estimations calculées à partie de l’échantillon à l’aide de la théorie des probabilités. L’échantillonnage
par quota, qui contrôle la répartition âge-sexe, est toujours utilisé en marketing et en sondage d’opinion
malgré son manque de fondements théoriques. Les sondages internet, où l’échantillon est construit à partir
de banques de répondants recrutés par des firmes de sondage, est une autre forme d’échantillonnage par
quota avec un fondement théorique questionnable.

Quand un échantillon est-il représentatif? Un échantillon est représentatif si les probabilités de sélection
des unités de la population sont connues et si toutes les unités ont une probabilité non nulle d’être tirée.
4
La représentativité d’un échantillon est toujours une question d’actualité. Un sondage avec auto-sélection
où le répondant choisit de participer à l’enquête est considéré comme n’étant pas représentatif de la
population. Les firmes de sondage font maintenant des sondages internet avec des panels Web. Ils
recrutent dans un premier temps une banque de répondants potentiels et notent leurs caractéristiques
sociodémographiques. L’échantillon pour une enquête est ensuite sélectionné dans cette banque, selon la
méthode des quotas, et les répondants à l’enquête reçoivent une rémunération incitative. Les participants
fournissent leurs informations en remplissant un questionnaire en ligne. Les ménages n’ayant pas internet
sont exclus de cette enquête; un échantillon internet n’est donc pas représentatif de la population.

La non-réponse peut nuire à la représentativité d’un échantillon. En effet les personnes qui refusent de
répondre peuvent avoir des caractéristiques spéciales et être différentes de celles qui répondent.
Considérons, par exemple, une étude en deux temps sur les déterminants de l’intention d’arrêter de
consommer du cannabis en milieu scolaire. Si les gros consommateurs de cannabis ont, à la phase deux,
un taux de réponse très inférieur à celui des petits consommateurs, l’échantillon mesuré à la phase deux
n’est pas représentatif des consommateurs de cannabis.

D-Le questionnaire

Dans les enquêtes auprès de populations humaines, la collecte de l’information se fait par le biais d’un
questionnaire auquel les personnes échantillonnées doivent répondre. La formulation des questions est un
art en soit qui déborde le cadre de ce cours. Le statisticien doit s’assurer de la cohérence des questions et
de leur pertinence. Il se préoccupe également du codage des réponses et de la préparation du fichier de
données pour analyser les résultats. Souvent un pré-test, réalisé auprès d’un groupe restreint de
répondants, est utile pour valider un questionnaire.
5
Le type et la forme des questions dépendent de l’information recherchée. Il peut s’agir de données
factuelles (information socio-démographique), d’opinions ou d’attitudes face à un phénomène, de
connaissance ou de comportement. Les questions ouvertes ne suggèrent pas de choix de réponse :
Quel est le salaire annuel de votre ménage ?_______________
est une question ouverte. Une question fermée donne les réponses possibles ; elle est souvent à choix
multiples. Par exemple
Quel est le salaire annuel de votre ménage ?
□ 20 000$ ou moins
□ 21 000$ à 40 000$
□ 41 000$ à 60 000$
□ plus de 60 000$
est fermée. Les questions ouvertes permettent au répondant de s’exprimer cependant elles sont plus
compliquées à coder. Lorsque l’on utilise des questions fermées, il faut suggérer des choix de réponses
pertinents et ne pas oublier une réponse importante.

Les questions doivent être claires. Par exemple si on présente au répondant une bouteille de boisson à
l’orange la question « Selon vous, quelle quantité de jus d’orange y-a-t-il dans cette bouteille ? » n’est pas
claire car la façon d’y répondre n’est pas préciser. Une meilleur formulation est « Cette bouteille contient
16 onces d’une boisson. Combien d’once de jus d’orange y a-t-il, selon vous, dans cette bouteille ? » ou
bien « Quel pourcentage du contenu de cette bouteille est du jus d’orange selon vous ? ». Des questions
nébuleuses, sujettes à interprétation, sont souvent associées à des erreurs de mesure. Ce type d’erreur
peut aussi se produire si on pose des questions qui ne sont pas pertinentes ; par exemple demander le
fabriquant de la voiture d’une personne sans s’être assuré au préalable que cette personne possède bien
une auto risque de causer des erreurs de mesure.
6
La formulation des questions, surtout celles comportant un élément d’émotion, a son importance. Dans
une enquête américaine auprès des mêmes répondants la question « Devrait-on ajouter une clause dans la
constitution qui interdirait l’avortement ? » recueillait 62% de non alors que « Devrait-on ajouter une
clause dans la constitution qui protégerait la vie de l’enfant à naître ? » en recueillait seulement 39%. En
général il est suggéré de mettre une contrepartie implicite dans une question pour la rendre plus objective.
Avec la question « Croyez-vous que la plupart des entreprises manufacturières qui mettent à pied des
travailleurs dans les périodes de ralentissement pourraient faire en sorte d’éviter de telles mises à pieds et
de fournir du travail régulier à leur employés ? » 63% des répondants estimaient que les entreprises
pourraient éviter les mises à pied. L’ajout de la contrepartie « ou croyez-vous que les mises à pied sont
inévitables » réduisait ce pourcentage à 35%. L’enchainement des
questions, le mode de collecte (en personne, en remplissant un
questionnaire ou par internent) et même l’interviewer (novice ou
expérimenté) peuvent aussi avoir un impact sur les résultats d’une enquête
et contribuer aux erreurs de mesure. Pour comparer des enquêtes il est
donc important de connaître le questionnaire, le mode de collecte et le
contexte propre à chacune.

E-Le système statistique canadien

Statistique Canada est l’agence statistique nationale du Canada. Une des


tâches de Statistique Canada est de réaliser un recensement de la
population à tous les 5 ans. Pour réaliser ce recensement le territoire
canadien est divisé selon la classification géographique par type 2011
7
(CGT). La hiérarchie, donnée dans la figure ci-contre, comprend 4 niveaux. Sur le territoire on distingue
aussi des régions urbaines (région métropolitaines de recensement et agglomération de recensement) qui
sont des regroupements de subdivision de recensement.

Dans le coin supérieur droit de la carte de Statistique Canada (voir le site web) pour la partie centre sud du
Québec on retrouve la région métropolitaine de recensement de Québec (#421) , la division de
recensement de l’Ile d’Orléans (#20) et la sous division de recensement de Ste-Pétronille (#20 030). Les
informations du recensement sont disponibles pour toutes les unités géographiques de la hiérarchie ;
certaines sont disponibles sur le site web de Statistique Canada.

Lorsque Statistique Canada réalise des enquêtes auprès de la population canadienne, elle utilise souvent
une base de sondage aréolaire d’unités géographiques pour sélectionner l’échantillon. Les données du
recensement, par exemple le nombre de résidents dans une unité, sont des informations auxiliaires utiles
pour construire le plan de sondage et pour calibrer les estimations produites par les enquêtes.

F-Cadre théorique

La population U se compose de N unités échantillonales. Un échantillon S est un sous-ensemble de U. Un


plan de sondage ou plan d’échantillonnage est une fonction de probabilité qui, à chaque sous ensemble s
de U, associe la probabilité p(s) pour que s soit l’échantillon. On a
sU p( s)  1.
Ainsi p(s) défini une masse de probabilité discrète sur l’ensemble des sous-ensembles de U. Cette
probabilité va être utilisée pour déterminer les propriétés échantillonnales des estimateurs des
caractéristiques de la population. Contrairement aux autres cours de statistique où on fait de l’inférence
8
par rapport au modèle (disons le modèle normal) ici on fait de l’inférence par rapport au plan de
sondage, c’est-à-dire par rapport à la sélection des unités de la population.

Le plan de sondage le plus simple est le plan aléatoire simple sans remise qui sélectionne, sans remise, n
unités dans la population. Dans ce plan le sous-ensemble s n’a aucune chance de former l’échantillon s’il
ne contient pas n éléments. De plus tous les sous-ensembles de n éléments ont la même probabilité de
former l’échantillon ainsi pour le plan aléatoire simple sans remise,
 N
1 /   si s contient n unités
p( s )    n 
 0
 sinon
N N!

où  n  ( N  n )! n ! est le nombre de combinaisons de n éléments dans un ensemble de N éléments. En
 
N
  
fait il y a  n  échantillons possibles et la condition p( s )  1 est satisfaite pour ce plan.
s U

Le plan sondage de Bernoulli accorde une probabilité p d’être sélectionnée à chaque unité. La décision de
sélectionner ou non une unité se fait indépendamment des autres unités. Ce plan de sondage considère
toutes les unités de la population à tour de rôle pour déterminer si elles appartiennent à l’échantillon. Ainsi
p( s)  p n ( s ) (1  p) N n ( s )
où n(s) est le nombre d’éléments contenu dans s. La taille d’un échantillon de Bernoulli est aléatoire. La
probabilité pour que l’échantillon soit vide est (1-p)N. Une généralisation de ce plan est le plan de sondage
de Poisson où la probabilité d’être sélectionnée change d’une unité à l’autre.
9
Un sous ensemble s de U peut s’écrire comme un vecteur de N fonctions indicatrices (Z1 Z2,…,ZN) où Zi=1
si l’élément i de U est dans s. Un plan de sondage défini une distribution multidimensionnelle pour ces
variables aléatoire. Cette formulation d’un plan de sondage comme une distribution pour un ensemble de
variables indicatrices est très utile pour étudier les probabilités échantillonnales des estimateurs.

Dans un plan de sondage à taille fixe défini par une fonction p(s) les valeurs de la variable d’intérêt Y
obtenues au n tirages sont dépendantes car elles sont nécessairement associées à des individus différents.
Cette dépendance complique l’étude des propriétés statistiques des estimateurs. Parfois on est donc appelé
à considérer l’échantillonnage avec remise où les variables aléatoires représentant les valeurs de Y pour
les n unités échantillonnées sont indépendantes. Un échantillon avec remise de taille n est obtenu en
sélectionnant n échantillons de taille 1 indépendamment les uns des autres. Cette indépendance facilite
beaucoup les développements théoriques, surtout lorsque l’on travaille avec des plans complexes. Il faut
noter qu’un plan de sondage avec remise ne peut pas être décrit avec une simple fonction p(s) sur
l’ensemble des sous-ensembles de U. Il peut être résumé à l’aide de de N fonctions (Z1 Z2,…,ZN) où Zi
donne le nombre de tirage où l’unité i a été sélectionnée. Contrairement à un plan de sondage standard Zi
peut prendre des valeurs qui vont de 0 à n, la taille de l’échantillon.

On distingue souvent l’erreur d’échantillonnage qui est associée à la sélection de l’échantillon des erreurs
non causées par l’échantillonnage. La première est mesurable grâce à la théorie statistique que l’on
présente dans ce cours. Les dernières sont le fruit d’erreurs de mesure, de biais associés à la collecte ou à
la non-réponse. Elles sont beaucoup plus difficiles à quantifier. Évidemment pour réaliser une bonne
enquête, les erreurs des deux types doivent être contrôlées.

10
Exercice à faire à la maison :

1-Choisir une sur la carte de Statistique Canada sur le site web une subdivision du recensement qui vous
intéresse

2- Aller sur le site de Statistique Canada où les données du recensement 2011 sont disponibles,
https://www12.statcan.gc.ca/census-recensement/2011/dp-pd/prof/search-
recherche/lst/page.cfm?Lang=F&TABID=1&G=1&Geo1=PR&Code1=01&Geo2=PR&Code2=01&GEO
CODE=24

3-Cliquez sur le nom de la subdivision qui vous intéresse et observez les résultats. Vous trouverez les
totaux 2011 pour la plupart des variables du questionnaire court du recensement.

11

Vous aimerez peut-être aussi